対象論文

https://arxiv.org/pdf/2203.02155.pdf

論文でポイントだと思ったこと

人間の嗜好を報酬信号として

・・・この手法は、人間の嗜好を報酬信号として使い、モデルを微調整するものです。・・・

概要(Deepl訳）

言語モデルを大きくしても、ユーザーの意図に沿うことができるようになるとは限りません。例えば、大きな言語モデルは、真実味のない、有害な、あるいは単にユーザーにとって役に立たない出力を生成することがあります。言い換えれば、これらのモデルはユーザーと一致していない。本論文では、人間のフィードバックによって微調整することで、幅広いタスクにおいて言語モデルをユーザーの意図に沿うようにする道を示す。まず、ラベラーが書いたプロンプトとOpenAI APIを通じて提出されたプロンプトのセットから始め、我々はラベラーが望ましいモデルの動作を示すデータセットを収集し、これを用いて教師あり学習でGPT-3を微調整する。さらに、モデルの出力に対するランキングのデータセットを収集し、人間のフィードバックからの強化学習を用いて、この教師ありモデルをさらに微調整する。このようにして得られたモデルをInstructGPTと呼ぶ。我々のプロンプト分布に対する人間の評価では、パラメータが100倍少ないにもかかわらず、13億パラメータのInstructGPTモデルの出力は、175BのGPT-3の出力よりも好まれました。さらに、InstructGPTモデルは、真実性の向上と有害な出力生成の削減を示し、公開NLPデータセットでの性能後退は最小限である。InstructGPTはまだ単純なミスを犯すものの、この結果は、人間のフィードバックによる微調整が、言語モデルを人間の意図に合わせるための有望な方向性であることを示しています。

イントロダクション(の一部)(Deepl訳）

我々は、言語モデルを揃えるための微調整アプローチに焦点を当てています。具体的には、人間のフィードバックからの強化学習（RLHF; Christiano et al., 2017; Stiennon et al., 2020）を用いて、GPT-3を幅広いクラスの書き言葉の指示に従うように微調整します（図2参照）。この手法は、人間の嗜好を報酬信号として使い、モデルを微調整するものです。私たちはまず、スクリーニングテストの成績に基づいて、データのラベル付けを行う40人の契約者チームを雇います（詳細はセクション3.4と付録B.1参照）。次に、OpenAI APIに提出された（主に英語の）プロンプトに対して、人間が書いた望ましい出力動作のデモのデータセット3、およびラベラーが書いたプロンプトを収集し、これを教師あり学習のベースラインの訓練に使用する。次に、より大きなAPIプロンプトのセットで、モデルからの出力を人間がラベル付けして比較したデータセットを収集する。そして、このデータセットで報酬モデル（RM）を訓練し、ラベラーがどのモデル出力を好むかを予測します。最後に、このRMを報酬関数として使用し、PPOアルゴリズム（Schulman et al.、2017）を使用してこの報酬を最大化するように教師あり学習ベースラインを微調整します。このプロセスを図2で説明します。この手順により，GPT-3の動作は，「人間の価値」という広範な概念ではなく，特定のグループ（主にラベラーと研究者）の表明された嗜好に合わせられます．この点についてはセクション5.2で詳しく説明します。

んんん。それほどの内容じゃない気が。。。

AIうぉ－－！(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい！！自分なりに。

論文『Training language models to follow instructions with human feedback』を読む

対象論文

論文でポイントだと思ったこと

人間の嗜好を報酬信号として

概要(Deepl訳）

イントロダクション(の一部)(Deepl訳）

コメント