ベイジアンの逆襲

RSS

2004年04月30日

  • 山下 真一
最近、コンピュータ業界ではベイズ理論が注目を集めているという。ベイズ理論とはいったいどんなもので、どのように応用されているのだろうか。

ベイズ理論とは、英国の長老派教会派の牧師であったトマス・ベイズ(1702-61)により築かれた確率の原理である(注1)。ベイズが発見したといわれる定理によれば、原因から結果が生ずる確率が与えられると、結果が原因から生ずる確率が分かる。数学的に述べれば、ベイズの定理とは、事象EとHに対して、HならばEという条件付き確率P(E|H)と、EならばHという条件付き確率P(H|E)を結びつけるものである(注2)。Eという事象を観測することで、Hに関する確信度を示すHの確率分布が正確になる(注3)。これをベイズ更新という。

ベイズ理論では、原因の分布を最初に主観的に選び、データが観測される度にこれを更新するため、帰納的主観的であるといわれる。ベイズ統計学の研究者達は、この分布は主観的に選んだ初期の分布によらず、最終的には真の分布に収束すると主張したが(注4)、演繹的客観的な理論構築を目指していた正統的な統計学からは長い間異端視されていた(注5)。

しかし近年、ベイズ理論自体の数学的発展と、計算機能力の飛躍的向上のおかげで、ベイズ理論を現実の問題に適用することが可能となり、その有効性が徐々に認識されるようになった。特に、知能情報システムの研究において、ベイジアンネットワークが注目されている。

ベイジアンネットワークとは、事象間の依存関係を条件付き確率が付随したグラフ構造によって表現したものであり、1980年代後半に提案された。外部の状態が分かっているときに、見えない内部の状態がどのようになっているかを、ベイズの定理を巧妙に利用したアルゴリズム(注6)により、確率的に知ることができる。

コンピュータ業界では、利用しやすい情報システムを開発するためにベイジアンネットワークを応用することを研究している。代表的なものは、ソフトウェアの利用者の挙動を観測し、利用者が必要としていると思われる適切な助言を生成する機能の研究が進展している。身近なところでいえば、ベイズ理論を応用したスパム(迷惑メール)フィルタでその威力を体験できるだろう(注7)。他の方法よりも有効であることが認識されつつあり、多くのスパムフィルタがベイジアンで実装されるようになっている。また、ある検索エンジンでは、ベイズ理論を応用してページのランク付けをおこなっているそうである。

コンピュータ以外の分野では、医療診断システム、ロボット制御、ゲノム解析、データベースマーケティングなどにおいてベイジアンネットワークが応用され、数々の成果が報告されている。

ある研究者が「21世紀はベイズの世紀になり、技術界を支配する」と主張するとおり、ベイズ理論は、私たちの生活において、重要性を増してゆくことになると思われる。

注1.実は、ベイズ本人がベイズの定理を書き残したという事実は確認されていないらしい。
注2.P(E|H)P(H)=P(H|E)P(E)。
注3.P(H)は事前分布、P(H|E)は事後分布、P(E|H)は尤度(もっともらしさ)とよばれる。
注4.計量経済学で流行しているMCMC(マルコフ鎖モンテカルロ)法はこのことを根拠にしている。
注5.余談だが、私が知る限り、ベイズ理論の応用研究をしている学者は皆一様に口をそろえて、自分はベイジアンではないのですが、と一旦ことわってから研究発表をすることが多い。
注6.belief propagation(信念の伝播)という。
注7.ポール・グラハムによるエッセイA Plan for Spamにより広く知られるようになった。これまでに受信した普通のメールとスパムメールにおける単語の出現頻度から、新たに受信したのがスパムメールである確率をベイズ推定する。

このコンテンツの著作権は、株式会社大和総研に帰属します。著作権法上、転載、翻案、翻訳、要約等は、大和総研の許諾が必要です。大和総研の許諾がない転載、翻案、翻訳、要約、および法令に従わない引用等は、違法行為です。著作権侵害等の行為には、法的手続きを行うこともあります。また、掲載されている執筆者の所属・肩書きは現時点のものとなります。