AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

(内容ないです。)ベイズチャレンジ。26年ぶりにナイーブベイズを発明してみる!!!

ナイーブベイズは、1997年かな。。

スパムメールのフィルタを前提に考えてみる。

考えた手順

STEP1. まず全体を考えてみる。

メールが届く。 その文章の単語を評価し、スパムかどうか判断する。 誤検出に対する修正を実施する。

AAAという単語が含まれていた場合のスパムの確率をP(AAA)とする。   ※ この確率の書き方、適当でないと思うけど。。。 BBBという単語が含めれていた場合、P(BBB) MMM、、、P(MMM)

課題: 複数の単語の影響をどう考慮する?

課題: 例えば、P(AAA)が0.8だとして、、、、スパムの判定基準を0.5にするとして、 あるメールの実例で、それがAAAがあったが、スパムでなかった場合、 上記の0.8を見直す?

STEP1結論

何もかもわからないので、まず、複数単語について考えるのは無理

STEP2. 一つの単語で考えてみる

メールが届く。 その文章の単語を評価し、スパムかどうか判断する。 誤検出に対する修正を実施する。

★複数の単語は、無理なので、一つの単語で考える。

AAAという単語が含まれていた場合のスパムの確率をP(AAA)とする。

例えば、P(AAA)が0.8だとして、、、、スパムの判定基準を0.5にするとして、 あるメールの実例で、それがAAAがあったが、スパムでなかった場合、 上記の0.8を見直す?

課題: 0.8をどう見直す??  例えば、一定量、少し、減らす???

課題: そもそも、0.8は、どこから出てきた? 最初の学習量サンプルで、10サンプル中8サンプルが スパムだったという意味?

課題: 誤検出を見つける契機は何?

課題: 事後確率的なものがどこに入っている?? ⇒ 学習用も含め、サンプルに単語AAAが入っている確率を事後として、スパムである確率を求める確率とする?

STEP2結論

一部の課題をSTEP3へ。

STEP3 STEP2の課題を考える。

学習用も含め、サンプルに単語AAAが入っている確率を事後として、スパムである確率を求める確率とする? について

サンプルに単語AAAが入っている確率は、シンプルに30+1サンプルで10サンプル。 その10+1サンプルで、スパムは8サンプル。

AAAが入ってスパムである確率は、8/(10+1)。

課題: 単なる統計でなくて、どこがベイズ???

STEP3結論

単なる統計との違いがわからないという結論

次回のチャレンジに向けて

今回は0点。 次回のチャレンジに向けて、

この記事の解説がすばらしい?

qiita.com

最低、ベイズの定理は覚えとこう。。。

https://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E3%81%AE%E5%AE%9A%E7%90%86