Thursday, December 23, 2004

ベイズ推定で楽々スパムメールをフィルタリング

ベイズ推定で楽々スパムメールをフィルタリング

ベイズ推定を調べていたら、こんなソフトがあることを知った。
"ベイズ推定を利用したメールフィルター POPFile を使うと、楽にスパムメールをフィルタリングできる。

1日に受け取るスパムメールの数にもよるが、数日間、トレーニングと呼ばれるメールの分類を教え込む作業を行うと、あとはかなり高い精度で自動的にメールの振り分け作業をこなしてくれるようになる。

POPFile は GPL
ライセンスに基づいたオープンソースソフトウェア、インストールは簡単で、例えば分類ルールの作成といった面倒な設定は必要ない。日本語マニュアルが用意されており、日本語化パッチをあてることにより、ユーザーインターフェースの日本語化、日本語メールの分類にも対応している。"

POPFileはPOP
Proxyとして動作する。クライアントにてSpam振り分けを行うという動作になるので、手軽といえば手軽。ISPのメールサーバからPOPでメールを取得している人には導入しやすいだろう。


このソフト自体は、POPFile に。

ベイズ推定については、以下のサイトが図示されていて、まだ他のところに比べるとわかりやすいか。
参考2 ベイズ推定とは
 小地域における生命表作成では、当該小地域内の観測死亡データが少なく、死亡率の推定が困難となる場合が生じるという問題がある。これは、死亡という事象の発生頻度が低い一方、実際の死亡データが「1人単位」でしか観測できないことによっている。例えば、本来の死亡率を0.05とした場合、人口1万人の地域では本来の死亡数は500人であるが、観測死亡数に1人増減が出たとしても、死亡率推定値は0.0499~0.0501と本来の死亡率からは0.2%の変動しか起こらない。ところが、人口100人の地域で同様に考えると、観測死亡数1人の増減は死亡率の推定値に0.04~0.06という変動を与え、本来の死亡率から20%も変動してしまうこととなる。このような場合、観測データ以外にも対象に関する情報を推定に反映させることが可能な「ベイズ推定」が、死亡率推定にあたっての有力な手法となる。 具体的には、当該市区町村を含むより広い地域である二次医療圏のグループの死亡状況を情報として活用し、これと各市区町村固有の死亡数等の観測データとを総合化して当該市区町村の死亡率を推定するという形で「ベイズ推定」を適用し、生命表を作成している。このように「ベイズ推定」の手法を適用することにより、小地域の死亡率推定に特有な死亡データの不安定性を緩和し、安定的な死亡率推定を行うことが可能となっているのである。

No comments: