あまり上手く表現できてない。すみません。Geminiです。
該当論文
https://arxiv.org/pdf/2512.03793
#概要日本語訳
ChatGPTや他の大規模言語モデル(LLM)からの挑戦を受けているものの、Google検索は依然として多くの個人がインターネット上で情報を探すための主要な手段の一つであり続けています。興味深いことに、ウェブ上で情報を検索する方法は、1998年にGoogleが設立されて以来ほとんど変わっておらず、Googleの検索における支配力と競争の欠如に対する懸念を引き起こしています。もし検索市場に十分な競争があるならば、時間の経過とともに検索の質が着実に向上し、Googleの検索アプローチに代わる手法が登場するはずです。しかし、競争の激しい市場の重要な側面である「検索の質」に焦点を当てた研究は、特に長期的な視点においては、これまでほとんど行われてきませんでした。
本レポートでは、2023年10月における「コーディングのアドバイス」に関連する1,467件の検索クエリについて、比較的大規模な検索品質の定量的比較を行いました。一般的な検索品質の研究は困難であるため、検索品質の評価についてより深く学び、この重要なトピックに関する追跡調査を動機付けることを目的として、コーディングのアドバイスに焦点を当てています。私たちは、Google検索、Microsoft Bing、およびApple Searchの検索品質を評価しました。特に、過去の研究で一度も調査されたことがない、広く利用されている検索エンジンであるApple Searchに重点を置いています。検索品質の評価には、以下の2つの独立した指標を用いました。
検索結果の1番目にあるトラッカーの数(ウェブ検索におけるプライバシーの尺度として)
Stack Overflowの最初の検索結果の平均順位(Stack Overflowが最高のコーディングアドバイスを提供しているという仮定の下で)
私たちの結果は、検索結果のプライバシーはGoogleやAppleよりもBingの方が高いことを示唆しています。同様に、Stack Overflowの平均順位で測定されたコーディングアドバイスの質も、Bingで最も高い結果となりました。
検索品質に関する信頼できる継続的な評価が欠如していることを認識し、私たちはこの分野における新しい評価手法の開発を提案し、特にEUデジタル市場法(DMA)などの新しい法律の影響について議論します。極めて重要なのは、従来の検索よりもさらに不透明であると言わざるを得ないLLMへと多くの個人が移行する中で、検索および情報の質の評価はこれまで以上に重要になるということです。
コメント
本文をおわないと、タイトルと概要があわない。。。。。。。。。。 すみません。
AIベンチマーク
(単に、いま実現できていないことを記録する)
AIベンチマーク20260112
arxivとかの論文の概要を意味がわかるようにイラストにする。 また、英語のスペルとかは、図において、最低限間違わない。(CHATCPT?)