AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

【下準備】強化学習とはなんだろう

この記事の内容

強化学習についてまとめたい。 そのための下準備の記事 ポイントとして、

  • 物体検出や、自然言語処理や、GANなどとの関係(どこが共通する部分か)など。

まだ、めちゃくちゃれべる、です。

強化学習とは

頭に浮かぶ、例は

  • 棒を倒立させる制御
  • テニスゲームみたいなやつ

知っていることは

  • 何かエージェントがいて
  • アクションに対して、報酬が得られ
  • 有名なフレームワークがある

では、強化学習はどうなっているかと想像すると

  • 状態をインプットとして、行動をアウトプットとして出す。
  • 上記のアウトプットを出すために、状態に対して、その時にすべき行動をアウトプットできるようにして、その行動によって次の状態の価値が最大になるようにする。
  • 学習は、次の状態の価値を予想し、その予想と、現実のずれをエラーとして学習する。
  • 必要なものは、次の状態を予想する仕組みと、次の状態の価値を最大化する仕組みと、これらを実働させながら実行する仕組み。
  • 上記が正しいとして、通常の物体認識の学習、推論との違いは、????
  • 雰囲気を想像で、画にしました。↓↓
    f:id:fanta_orange_grape:20211211170921p:plain

深層学習時代?、最近、注目される理由は?

モデルの修正の部分が、深層学習的なパラメータ調整になっていることか?

コメントなどあれば、お願いします。