論文『GPT-4 Technical Report』を読む。

https://arxiv.org/pdf/2303.08774.pdf

要約

以下、deeplで翻訳しました。

GPT-4は、画像とテキストを入力し、テキストを出力することができる大規模なマルチモーダルモデルであり、その開発について報告する。GPT-4は、多くの実世界のシナリオにおいて人間よりも能力が劣るものの、模擬司法試験に受験者の上位10％程度のスコアで合格するなど、様々な専門的・学術的ベンチマークにおいて人間レベルの性能を発揮することができる。GPT-4は、文書中の次のトークンを予測するために事前に学習されたTransformerベースのモデルです。GPT-4は、文書中の次のトークンを予測するよう事前に学習させたTransformerベースのモデルで、学習後のアライメントプロセスにより、事実性、望ましい行動への忠実さなどのパフォーマンスが改善されます。このプロジェクトの中核をなすのは、幅広いスケールで予測可能な振る舞いをするインフラと最適化手法の開発でした。これにより、GPT-4の1,000分の1以下の計算量で学習したモデルから、GPT-4の性能の一部を正確に予測することができるようになりました。