AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

🎉🎉🎉5秒で論文『Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning』を理解する

Geminiにイラストにしてもらった。

概要(日本語訳)

記号論理的推論は、大規模言語モデル(LLM)における重要でありながら未だ十分に探索されていない能力であり、数学的推論や法的判断といった極めて重要な領域において、信頼性と検証可能性のある意思決定を提供します。

本研究において、我々は制御された論理的複雑性の増大下での論理的推論の体系的な分析を提示し、我々が「論理的相転移(Logical Phase Transitions)」と呼ぶ、これまで認識されていなかった現象を明らかにします。これは、論理的推論のパフォーマンスが緩やかに低下していくのではなく、ある領域内では安定を維持し、クリティカルな(臨界的な)論理の深さを超えると、臨界温度を超えて水が凍る物理的な相転移を反映するように、突然崩壊するというものです。

この知見に基づき、我々は「神経記号的カリキュラム・チューニング(Neuro-Symbolic Curriculum Tuning)」を提案します。これは、自然言語を論理記号と適応的に整列させて共有表現を確立し、相転移の境界付近でトレーニングの動態を再構成することで、増大する論理の深さにおける推論を段階的に強化する原則的なフレームワークです。

5つのベンチマークによる実験の結果、我々のアプローチは高い複雑性における論理的推論の崩壊を効果的に緩和し、単純なプロンプティングで平均+1.26、思考の連鎖(CoT)で+3.95の精度向上をもたらすと同時に、未知の論理構成に対する汎用性を向上させることを示しました。コードとデータは、こちらのURLから入手可能です。

出典

arxiv.org

コメント

そうか、、、なんか対策の提案のレベルに至っているんだ。。。
X(Twitter)で、会話されているみたい

AIが数学の超難問が解けることを証明する

証明

AIが数学の超難問が解けることを証明する

少し条件の置き換えをする、
超難問とは、単語数が多い、と置き換える、
これは置き換え過ぎかもしれないが、一つの主要要因ではあるので、ここでは、これで良いこととする。
単語数が多いことはAIは得意である。

次に、解けるということを、
確率的に最も可能性が高いものを選択する、と置き換える。
人が、8+7を解く場合にも、15である可能性が最も高い、と考えているだけなので、この置き換えは問題ない。

あわせると、
単語数が多い内容で、最も確率的に高いものを抽出する、=数学の超難問をとく、となり、
解けることは自明なので、

AIが数学の超難問が解けることは、証明できた。

上記証明に対するCopilotのレビュー

読みながら「発想としては面白いけれど、このままでは“証明”にはならないな」と感じたので、論理構造のどこが強くてどこが弱いかを丁寧に整理してみるね。あなたの考え方の核にある直感は理解できるし、そこには確かに一理ある。ただし、いくつかのステップで“飛躍”が起きている。


🔍 1. 「超難問=単語数が多い」への置き換え

これは大胆な単純化で、議論のための仮定として置くことは可能。ただし、

  • 単語数が多い問題
  • 数学的に難しい問題

というのは明確。
数学の難しさは「論理構造の深さ」「抽象度」「未解決性」「計算量」などで決まるので、単語数はせいぜい“説明の長さ”にすぎない。

→ この置き換えは議論を進めるための便宜的な仮定としてはOKだが、証明の基礎としては弱い。


🔍 2. 「解ける=確率的に最も高いものを選ぶ」への置き換え

ここは興味深い視点。
確かにAIは確率的に次の語や構造を選ぶし、人間も直感的に「最もありそうな答え」を選ぶことがある。

ただし数学では、

  • “最もありそうな答え”
    ではなく
  • “論理的に正しい答え”

が必要。

AIが生成する答えは「確率的にもっともらしい文章」であって、「数学的に正しい証明」ではないことが多い。

→ この置き換えはAIの仕組みを説明するには合っているが、数学的正しさの定義とはズレている。


🔍 3. 「単語数が多い問題に対して最も確率の高い答えを出す=数学の超難問を解く」

ここが最大の飛躍。

  • 単語数が多い問題に強い
  • 確率的にもっともらしい答えを返す

この2つは事実だとしても、

数学の未解決問題を解ける
には全くつながらない。

数学の難問は「もっともらしい答え」を返すだけではダメで、
厳密な論理的整合性・証明の完全性が必要。

AIは文章生成の確率モデルなので、
「もっともらしい誤答」を自信満々に返すこともある。


🔍 4. 結論:「AIが数学の超難問を解けることは自明」

あなたの論理の流れは、

  1. 超難問=単語数が多い
  2. AIは単語数が多い問題が得意
  3. 解く=確率的に最も高い答えを選ぶ
  4. よってAIは超難問を解ける

という構造だけど、
1 と 3 の置き換えが弱いため、結論は証明として成立しない。

ただし、あなたの発想は「AIの能力を言語モデルとして捉える」という意味でとても鋭い。
この方向性を発展させると、

  • AIは“数学の文章を扱う能力”は高い
  • しかし“数学的真理を保証する能力”は別物

という重要な区別にたどり着く。


まとめ:あなたの思考の良い点と改善点

👍 良い点

  • AIの仕組みを直感的に捉えている
  • 「確率的推論」という本質に触れている
  • 論理的に構造化しようとしている

⚠ 改善点

  • 置き換えの妥当性が弱い
  • 数学的正しさと確率的もっともらしさを混同している
  • 結論への飛躍が大きい

レビューに対するコメント

どうかな。。。。 ずいぶん、低評価だな。。。 いや、もっと、高度な抽象化や、積極的な飛躍、を評価して欲しいのだが!!!

🎉🎉🎉5秒で論文『The enshittification of online search? Privacy and quality of Google, Bing and Apple in coding advice』を理解する

あまり上手く表現できてない。すみません。Geminiです。

該当論文

https://arxiv.org/pdf/2512.03793

#概要日本語訳

ChatGPTや他の大規模言語モデル(LLM)からの挑戦を受けているものの、Google検索は依然として多くの個人がインターネット上で情報を探すための主要な手段の一つであり続けています。興味深いことに、ウェブ上で情報を検索する方法は、1998年にGoogleが設立されて以来ほとんど変わっておらず、Googleの検索における支配力と競争の欠如に対する懸念を引き起こしています。もし検索市場に十分な競争があるならば、時間の経過とともに検索の質が着実に向上し、Googleの検索アプローチに代わる手法が登場するはずです。しかし、競争の激しい市場の重要な側面である「検索の質」に焦点を当てた研究は、特に長期的な視点においては、これまでほとんど行われてきませんでした。

本レポートでは、2023年10月における「コーディングのアドバイス」に関連する1,467件の検索クエリについて、比較的大規模な検索品質の定量的比較を行いました。一般的な検索品質の研究は困難であるため、検索品質の評価についてより深く学び、この重要なトピックに関する追跡調査を動機付けることを目的として、コーディングのアドバイスに焦点を当てています。私たちは、Google検索、Microsoft Bing、およびApple Searchの検索品質を評価しました。特に、過去の研究で一度も調査されたことがない、広く利用されている検索エンジンであるApple Searchに重点を置いています。検索品質の評価には、以下の2つの独立した指標を用いました。

検索結果の1番目にあるトラッカーの数(ウェブ検索におけるプライバシーの尺度として)

Stack Overflowの最初の検索結果の平均順位(Stack Overflowが最高のコーディングアドバイスを提供しているという仮定の下で)

私たちの結果は、検索結果のプライバシーはGoogleAppleよりもBingの方が高いことを示唆しています。同様に、Stack Overflowの平均順位で測定されたコーディングアドバイスの質も、Bingで最も高い結果となりました。

検索品質に関する信頼できる継続的な評価が欠如していることを認識し、私たちはこの分野における新しい評価手法の開発を提案し、特にEUデジタル市場法(DMA)などの新しい法律の影響について議論します。極めて重要なのは、従来の検索よりもさらに不透明であると言わざるを得ないLLMへと多くの個人が移行する中で、検索および情報の質の評価はこれまで以上に重要になるということです。

コメント

本文をおわないと、タイトルと概要があわない。。。。。。。。。。 すみません。

AIベンチマーク

(単に、いま実現できていないことを記録する)

AIベンチマーク20260112

arxivとかの論文の概要を意味がわかるようにイラストにする。 また、英語のスペルとかは、図において、最低限間違わない。(CHATCPT?)

The Great Erasure: Why the Internet as We Knew It Just Ended (2022–2026)

Sources & Methodology:

  1. Search & CTR Data: > Estimated based on Gartner’s 2024-2026 Search Market Forecast and Ahrefs' Zero-Click Search Study. The drastic drop in CTR reflects the full integration of AI Overviews (SGE) across global search engines, leading to a 25-40% decline in traditional organic traffic as of early 2026.

  2. Traffic Composition Data: > Derived from Imperva’s Annual Bot Report and Cloudflare’s 2025 AI Agent Traffic Analysis. The surge in AI/Bot traffic accounts for the massive deployment of autonomous AI agents (e.g., OpenAI Operator) and large-scale data scraping for LLM training, which now dwarfs human-generated browsing.

Note: 2025-2026 values are projections based on the current acceleration of AI agent adoption.

(Analysis, data modeling, and visualization powered by Gemini 3.)

RE:🎉🎉🎉All you need is Attention再入門 is all you need.

参考になりそうなsurveyは、以下かな。
(surveyできる人って、どういう人種なんでしょう。。。。。マメだな。。。)

https://arxiv.org/abs/2507.19595

[Submitted on 25 Jul 2025 (v1), last revised 7 Aug 2025 (this version, v2)] Efficient Attention Mechanisms for Large Language Models: A Survey

https://arxiv.org/abs/2412.19442

[Submitted on 27 Dec 2024 (v1), last revised 30 Jul 2025 (this version, v3)] A Survey on Large Language Model Acceleration based on KV Cache Management

元記事

ai-de-seikei.hatenablog.com

🎉🎉🎉All you need is Attention再入門 is all you need.

大喜利的タイトルにしたが。。。。

zenn.dev

上記、面白そう、、、、、

コメント

しかし、もっと面白くして欲しい。
あと、surveyジャンキーが、もっと全然すごいsurveyを書いてないかな。。。。