この記事の内容
強化学習についてまとめたい。 そのための下準備の記事 ポイントとして、
- 物体検出や、自然言語処理や、GANなどとの関係(どこが共通する部分か)など。
まだ、めちゃくちゃれべる、です。
強化学習とは
頭に浮かぶ、例は
- 棒を倒立させる制御
- テニスゲームみたいなやつ
知っていることは
- 何かエージェントがいて
- アクションに対して、報酬が得られ
- 有名なフレームワークがある
では、強化学習はどうなっているかと想像すると
- 状態をインプットとして、行動をアウトプットとして出す。
- 上記のアウトプットを出すために、状態に対して、その時にすべき行動をアウトプットできるようにして、その行動によって次の状態の価値が最大になるようにする。
- 学習は、次の状態の価値を予想し、その予想と、現実のずれをエラーとして学習する。
- 必要なものは、次の状態を予想する仕組みと、次の状態の価値を最大化する仕組みと、これらを実働させながら実行する仕組み。
- 上記が正しいとして、通常の物体認識の学習、推論との違いは、????
- 雰囲気を想像で、画にしました。↓↓
深層学習時代?、最近、注目される理由は?
モデルの修正の部分が、深層学習的なパラメータ調整になっていることか?