データ分析の歴史とビッグデータ

RSS

2011年10月18日

坪根直毅

インターネットで送信されるメールは毎秒290万、ツイートは毎日5,000万といわれている。何処かからか来たデータの多くはどこかに蓄積されている。また、何処かへ行くデータもどこかで蓄積されていく。インターネットで流通する情報量の増大は、蓄積データの増大と同義である。

IDCによると、世界中のデータは2年ごとに倍増しており、2011年には1.8ゼッタバイト（1.8兆ギガバイト）のデータが作成および複製されるという。これらのデータの80％が電子メールや各種のログ、音声、画像のような非構造化データと言われている。企業の内外に蓄積されつつあるこれらの非構造化データを含む膨大なデータを分析し、そこから有用な知識を得ようとする動きが始まっている。いわゆるビッグデータである。

ここで、データ分析の歴史を分析理論、対象とするデータの量と質、ユーザーの3つの観点から振り返ってみたい。

今も昔もデータ解析といえば統計解析である。統計解析の基礎にある統計学は長い歴史を持ち、精緻な理論体系を構築してきた。そして、精緻な統計学の理論を適用するためには信頼できる統計データの存在が不可欠であり、そのために標本抽出や実験計画法といったテクニックが駆使されてきた。これらの理論、技術を使えるのは限られた一部の専門家の特権であった。その後、コンピュータの普及につれて、統計理論はコンピュータ上に実装され分析は容易になりユーザー層も広がってきた。しかしその反面、コンピュータに蓄積されてきた、必ずしも統計学の理論に合うよう精錬されていない大規模データに対して、統計学の限界も明らかになってきた。ただし、統計学サイドからも異常値や欠損値を含んだ大規模データに対して、これまで蓄積されてきた理論を適用するための研究は進められてきている。

その後、1990年代に入り計算機科学の分野から、大規模データを分析する技術として、データマイニングが提案され、実務面でもその応用が図られてきた。データマイニングという言葉自体は1970年代から使われてきたが、大量のデータからパターン認識、人工知能、統計学等の理論を駆使し、有用な情報（知識）を導き出すプロセス、という意味合いで広く一般に用いられるようになったのは1990年代に入ってからである。統計学や計算機科学の専門知識がなくても使える操作性のよいツールが開発され、実務の現場にも導入された。データマイニングにより「データ=知識」という概念が一般のものになった。

データマイニングは成功したのだろうか。データマイニングの要素技術そのものは、ゲノム解析やマーケティングといった特定の分野では活用され成果を生み出している。しかしながら、多くのビジネス分野において、新たな知識発見という当初に期待されたような意味で成功を収めているとは言いがたいのではないか。データマイニングが成果を生んだケースの多くは、問題の所在が明らかか、あるいは仮説検証型のアプローチをとった場合が多いと思われる。すなわち、新たな知識発見ためには、明確な問題意識をもった実務家の知識が必要条件としてあったということができる。

そして、2010年代に入りビッグデータの時代がやってきた。膨大な非構造化データを蓄積し、リアルタイムに操作することはNoSQL、Hadoop等の技術により可能となった。これらのITを活用すれば何か新しい知識が発見できるかもしれない、という期待が高まっている。

しかしながら、そもそも知識はデータの中ではなく人間の頭の中にあるものであろう。データの中には知識のevidenceがあるだけである。その意味でビッグデータに関しても、複雑な現象から機械的に知識を得るというのではなく、まずは単純な現象（仮説）を複雑なデータから検証するというアプローチから始めることが望まれる。すなわち、データマイニングと同様に、ビッグデータ活用のポイントも問題の特定化と仮説検証型アプローチにあると考えられる。その意味で実務家、すなわち対象ドメインに関しての知識と問題意識を持ち、仮説を構築できる人材の参加がますます重要となってくる。ビッグデータの活用にはIT、分析の専門家だけでなく、より多くの実務家の参加を期待したい。

このコンテンツの著作権は、株式会社大和総研に帰属します。著作権法上、転載、翻案、翻訳、要約等は、大和総研の許諾が必要です。大和総研の許諾がない転載、翻案、翻訳、要約、および法令に従わない引用等は、違法行為です。著作権侵害等の行為には、法的手続きを行うこともあります。また、掲載されている執筆者の所属・肩書きは現時点のものとなります。