論文『Language Models are Unsupervised Multitask Learners』
Abstract
- ちょっと、うまく意味が取れない部分
2.3. Model
- わかったこと（そもそも確認したかったこと）
知りたかったこと、わかったこと
- GPT-2とTransformerの関係
前提
コメント

論文『Language Models are Unsupervised Multitask Learners』

Radford, Alec, et al. "Language models are unsupervised multitask learners." OpenAI blog 1.8 (2019): 9.

https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

Abstract

(Deepl訳）

質問応答、機械翻訳、読解、要約などの自然言語処理タスクは、通常、タスクに特化したデータセットで教師あり学習を行うことでアプローチされる。我々は、WebTextと呼ばれる何百万ものウェブページからなる新しいデータセットで学習した場合、言語モデルが明示的な監視なしにこれらのタスクを学習し始めることを実証する。文書と質問を条件とした場合、言語モデルによって生成された回答はCoQAデータセットで55 F1に達し、127,000以上の訓練例を使用しないベースラインシステム4台中3台の性能と同等かそれ以上となった。言語モデルの容量は、ゼロショットタスク転送の成功に不可欠であり、これを増やすことで、タスク間で対数線形的に性能が向上します。当社の最大のモデルであるGPT-2は、1.5BパラメータのTransformerで、ゼロショット設定においてテストされた8つの言語モデリングデータセットのうち7つで最先端の結果を達成していますが、WebTextにはまだ適合していません。このモデルから得られたサンプルは、これらの改善を反映し、首尾一貫した段落のテキストを含んでいます。これらの知見は、自然に発生するデモからタスクを学習する言語処理システムの構築に向けた有望な道筋を示唆しています。

ちょっと、うまく意味が取れない部分

文書と質問を条件とした場合、言語モデルによって生成された回答はCoQAデータセットで55 F1に達し、127,000以上の訓練例を使用しないベースラインシステム4台中3台の性能と同等かそれ以上となった。

127,000以上の訓練例を使用しないベースラインシステム4台中3台の ???

当社の最大のモデルであるGPT-2は、1.5BパラメータのTransformerで、ゼロショット設定においてテストされた8つの言語モデリングデータセットのうち7つで最先端の結果を達成していますが、WebTextにはまだ適合していません。

WebTextにはまだ適合していません。

2.3. Model

We use a Transformer (Vaswani et al., 2017) based architecture for our LMs

わかったこと（そもそも確認したかったこと）

基本、Transformerなんだ。

知りたかったこと、わかったこと

GPT-2とTransformerの関係

GPT-2は、基本、Transformerと考えて良い。

前提

GPT-2に関する論文は、この『Language Models are Unsupervised Multitask Learners』で良いと思う。

コメントなどあれば、お願いします。

AIうぉ－－！(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい！！自分なりに。

論文『Language Models are Unsupervised Multitask Learners』を読む。（GPT-2。）