- ナイーブベイズは、1997年かな。。
- スパムメールのフィルタを前提に考えてみる。
- 考えた手順
- STEP1. まず全体を考えてみる。
- STEP2. 一つの単語で考えてみる
- STEP3 STEP2の課題を考える。
- 次回のチャレンジに向けて
ナイーブベイズは、1997年かな。。
スパムメールのフィルタを前提に考えてみる。
考えた手順
STEP1. まず全体を考えてみる。
メールが届く。 その文章の単語を評価し、スパムかどうか判断する。 誤検出に対する修正を実施する。
AAAという単語が含まれていた場合のスパムの確率をP(AAA)とする。 ※ この確率の書き方、適当でないと思うけど。。。 BBBという単語が含めれていた場合、P(BBB) MMM、、、P(MMM)
課題: 複数の単語の影響をどう考慮する?
課題: 例えば、P(AAA)が0.8だとして、、、、スパムの判定基準を0.5にするとして、 あるメールの実例で、それがAAAがあったが、スパムでなかった場合、 上記の0.8を見直す?
STEP1結論
何もかもわからないので、まず、複数単語について考えるのは無理
STEP2. 一つの単語で考えてみる
メールが届く。 その文章の単語を評価し、スパムかどうか判断する。 誤検出に対する修正を実施する。
★複数の単語は、無理なので、一つの単語で考える。
AAAという単語が含まれていた場合のスパムの確率をP(AAA)とする。
例えば、P(AAA)が0.8だとして、、、、スパムの判定基準を0.5にするとして、 あるメールの実例で、それがAAAがあったが、スパムでなかった場合、 上記の0.8を見直す?
課題: 0.8をどう見直す?? 例えば、一定量、少し、減らす???
課題: そもそも、0.8は、どこから出てきた? 最初の学習量サンプルで、10サンプル中8サンプルが スパムだったという意味?
課題: 誤検出を見つける契機は何?
課題: 事後確率的なものがどこに入っている?? ⇒ 学習用も含め、サンプルに単語AAAが入っている確率を事後として、スパムである確率を求める確率とする?
STEP2結論
一部の課題をSTEP3へ。
STEP3 STEP2の課題を考える。
学習用も含め、サンプルに単語AAAが入っている確率を事後として、スパムである確率を求める確率とする? について
サンプルに単語AAAが入っている確率は、シンプルに30+1サンプルで10サンプル。 その10+1サンプルで、スパムは8サンプル。
AAAが入ってスパムである確率は、8/(10+1)。
課題: 単なる統計でなくて、どこがベイズ???
STEP3結論
単なる統計との違いがわからないという結論
次回のチャレンジに向けて
今回は0点。 次回のチャレンジに向けて、
この記事の解説がすばらしい?
最低、ベイズの定理は覚えとこう。。。
https://ja.wikipedia.org/wiki/%E3%83%99%E3%82%A4%E3%82%BA%E3%81%AE%E5%AE%9A%E7%90%86