深層学習は、なぜ、学習できるのか?
↑↑ 微妙に変な日本語ですが、これで、Googleで検索して出てくるものを、 まず、ちょっと、見てみる。 実際に知りたいことは、少し、違うんですが。。。。
【記事1】深層学習はどのように賢くなるのか - 東京大学
内容
https://www.ms.u-tokyo.ac.jp/~yasuyuki/Taki7_4.pdf
このサイト(pdf)の引用 ↓↓
このサイト(pdf)の引用 ↓↓
この記事【記事1】に関するコメント
あまり、特別なことは書かれてない感じ。。。
【記事2】「深層学習はなぜ賢いのか?」 | RAD-IT21
内容
この記事【記事2】に関するコメント
引用
層を増やすと難しいƒ を簡単な要素の集合に分解できるため、モデル全体で必要なパラメータ数も減少するのだ。
この引用からすると、やたらパラメータ数の多いモデルは、Datasetで成績を上げるために、
ちょっと、間違えた方向に行ってるのかな???
ただ、ここで、難しいfが解けることになっているが。。。。ここは、学習の仕方も含めて考える必要があり、
例えば、1000クラスの分類は苦にしないとしても、、、、本当に難しいfは、無理でしょう!!!(と思う。)
【記事3】ディープラーニング – これだけは知っておきたい3つのこと
内容
この記事【記事3】に関するコメント
この記事からの引用↓
もう一つの大きな違いは、シャローラーニングがデータの増加に対して性能が頭打ちになるのに対して、ディープラーニングではその性能がデータのサイズに対してスケールする点にあります。
ディープラーニングの大きな利点は、データが増えていくにつれ、しばしばその精度を向上させていくことができる点にあると言えるでしょう。
さて、「3つ」のこととは???この記事の前半に挙げられている項目のこと???
【記事4】《日経Robo》なぜディープラーニングがうまく学習できるのか
内容
この記事から引用 ↓
それではディープラーニングはどのような問題に特化しているといえるのだろうか。この問題に対して、20歳の若い物理学者であるHenry W. Lin氏が次のような仮説を立てている(図1)1)
・・・(1)低次の多項式
・・・(2)局所性
・・・(3)対称性
・・・世の中で観察されるデータの生成過程にはマルコフ性、つまり直前の状態のみに依存して次のデータが生成されることがみられる。ある画像が観察されるに当たっては、物体の位置や形状、光源との位置関係、カメラとの位置関係が決まれば、最終的に観察される画像が決定される。これらの過程はマルコフ的であり、順番に複雑なデータが生成される。
・・・人や動物はこうした帰納的バイアスを進化の過程で脳の構造として獲得してきたが、そこに工学的に参考になる部分はまだ多いにあると考えられる。
この記事【記事4】に関するコメント
文章、上手いな。。。。(単なる天才なんでしょう。)
元記事を読むべし!!
コメント
(データも含め)モデルのレベルに応じて、「解ける」という感じでしょうか。
だから、今、モデルがそれほどでもないので、極端に、難しいモデルは解けないかと。。。
ただ、大量のデータを粛々と解くようなことは、得意なので。。。その範囲では、役に立つかと。
余談
自分の記事では、以下が、いま、一押し!!!