AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

論文『The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity』を読む(さて、この論文に対して、今後。。。)

論文

arxiv.org

概要(単に、論文の概要をChatGPT訳で示すだけ)

Recent generations of frontier language models have introduced Large Reasoning Models (LRMs) that generate detailed thinking processes before providing answers. While these models demonstrate improved performance on reasoning benchmarks, their fundamental capabilities, scal ing properties, and limitations remain insufficiently understood. Current evaluations primarily fo cus on established mathematical and coding benchmarks, emphasizing final answer accuracy. How ever, this evaluation paradigm often suffers from data contamination and does not provide insights into the reasoning traces’ structure and quality. In this work, we systematically investigate these gaps with the help of controllable puzzle environments that allow precise manipulation of composi tional complexity while maintaining consistent logical structures. This setup enables the analysis of not only final answers but also the internal reasoning traces, offering insights into how LRMs “think”. Through extensive experimentation across diverse puzzles, we show that frontier LRMs face a complete accuracy collapse beyond certain complexities. Moreover, they exhibit a counter intuitive scaling limit: their reasoning effort increases with problem complexity up to a point, then declines despite having an adequate token budget. By comparing LRMs with their standard LLM counterparts under equivalent inference compute, we identify three performance regimes: (1) low complexity tasks where standard models surprisingly outperform LRMs, (2) medium-complexity tasks where additional thinking in LRMs demonstrates advantage, and (3) high-complexity tasks where both models experience complete collapse. We found that LRMs have limitations in exact computation: they fail to use explicit algorithms and reason inconsistently across puzzles. We also investigate the reasoning traces in more depth, studying the patterns of explored solutions and analyzing the models’ computational behavior, shedding light on their strengths, limitations, and ultimately raising crucial questions about their true reasoning capabilities.

ChatGPT訳:

最近の最先端の言語モデルの世代では、Large Reasoning Models(LRMs) が導入されており、これは解答を提示する前に詳細な思考過程を生成するものである。これらのモデルは推論ベンチマークにおいて性能の向上を示しているが、その基本的な能力、スケーリング特性、および限界は、依然として十分には理解されていない。現在の評価は主に、確立された数学的およびコーディングのベンチマークに焦点を当てており、最終的な解答の正確さを重視している。 しかしながら、この評価の枠組みはデータの汚染(data contamination)に悩まされることが多く、推論過程の構造と質についての洞察を提供しない。

本研究では、論理構造を一貫して保ちながら合成的複雑性(compositional complexity)を正確に操作できる制御可能なパズル環境の助けを借りて、こうしたギャップを体系的に調査する。この構成により、最終的な解答だけでなく、内部の推論の過程も分析可能となり、LRMsが「どのように考えるか」についての洞察が得られる。

多様なパズルにわたる広範な実験を通じて、最先端のLRMsは、ある一定の複雑さを超えると、完全に正答率が崩壊することを示す。さらに、それらのモデルは直感に反するスケーリングの限界を示す:問題の複雑さが増すにつれて推論努力が一度は増加するが、十分なトークン予算があるにもかかわらず、その後は減少する。

同等の推論計算量の条件下で、LRMs と通常のLLM(言語モデル)を比較したところ、以下の3つの性能領域を特定した:

低複雑性のタスクでは、意外にも通常のモデルがLRMsを上回る。

中程度の複雑性のタスクでは、LRMsにおける追加の「思考」が有利に働く。

高複雑性のタスクでは、両モデルとも完全に崩壊する。

我々は、LRMsが正確な計算において限界を持つことを発見した:それらは明示的なアルゴリズムを使うことができず、パズル間での推論も一貫していない。 また、推論過程(reasoning traces)をさらに深く調査し、探求された解法のパターンや、モデルの計算的挙動を分析することで、LRMsの強み・限界を明らかにし、最終的にはそれらの「本当の推論能力」に関して重要な問いを投げかけている。