Why Language Models Hallucinate
https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
概要:
Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such “hallucinations” persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious—they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded—language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This “epidemic” of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.
ChatGPT訳:
厳しい試験問題に直面した学生のように、大規模言語モデルは、不確実な場合に推測を行い、不確実性を認める代わりに、もっともらしく見えるが誤った陳述を生成することがある。こうした「幻覚」は、最先端のシステムにおいても依然として存在し、信頼を損なう。私たちは、言語モデルが幻覚を生み出すのは、訓練と評価の手続きが、不確実性を認めることよりも推測を行うことを報いるためであると主張し、現代の訓練パイプラインにおける幻覚の統計的原因を分析する。幻覚は不可解である必要はない——それは単に二値分類における誤りとして生じる。誤った陳述が事実と区別できないならば、事前学習済み言語モデルにおいて幻覚は自然な統計的圧力によって発生する。その後、私たちは、幻覚が持続するのは、多くの評価が採点される方法によると論じる——言語モデルは「良い受験者」となるよう最適化されており、不確実なときに推測することはテストの成績を向上させる。この「不確実な応答を罰するという流行」は、追加の幻覚評価を導入するのではなく、不一致でありながらランキングを支配している既存ベンチマークの採点方法を修正するという、社会技術的な緩和策によってのみ対処できる。この変更によって、より信頼できるAIシステムへと分野を導くことができるかもしれない。
ChatGPT概要要約:
要約(箇条書き)
- 大規模言語モデル(LLM)は、不確実なときに「わからない」と言わず、もっともらしい誤答(=幻覚)を出す。
- 幻覚は最先端のモデルでも発生し、信頼性を損なう。
- 原因は、訓練や評価の仕組みが「不確実性の認識」より「推測」を報いる設計になっていること。
- テストで良い点を取るよう最適化されるため、推測が強化され、幻覚が残り続ける。
- 解決策は、新しい評価方法を足すのではなく、既存のベンチマークの採点基準を改めること。
- これにより、より信頼できるAIシステムの実現につながる。
コメント
2025/09/10段階で、これでは(この切り口では)、AIの限界を感じますね。。。
言語モデルが、異常に学習しやすいインプットと、異常に学習しやすいアウトプット、であるという条件の上に成り立っていることを意識(認識)してしまいますね🎉🎉🎉
本来の解決策は、思考する形に大きく進化させることだと思いますね。何かを理解し、その理解したことをベースに考える、つまり、人間と同様の構造を持つ必要があるハズですよね、別の方法でもいいんですが、いまのCOPY機方式じゃなく。