ビッグデータ時代におけるデータサイエンティストの心得

 「たかが数字、されど数字」の科学

RSS

2013年07月29日

  • 鈴木 紀博

データアナリスト、データサイエンティストの登場
2012年夏のロンドンオリンピックで日本の女子バレーボールチームが28年ぶりのメダルとなる銅メダルを獲得した。「IDバレー」を掲げ、タブレット端末を片手に陣頭指揮を執る眞鍋政義監督の姿は今でも目に焼き付いている。そしてその裏方として、「アナリスト」と呼ばれるデータ分析専門のスタッフ(渡辺啓太氏)がいたことは多くの人々の知るところである。これを契機にスポーツの世界にも「アナリスト」という言葉が定着するようになった。
時をほぼ同じくして、経営の世界においては、「ビッグデータ」という言葉が喧伝され、職業としての「データサイエンティスト」がもてはやされるようになった。「データサイエンティスト」としては、経営とITと統計学に精通した人材が理想であろうが、日本においてそのような人材はまだ少数であるように思われる。

映画『マネーボール』の世界
データ分析を語る際にコンサルティングの世界でよく引き合いに出されるのが、2011年に公開された米国のノンフィクション映画『マネーボール』(※1)である。
2001年当時、米国のメジャーリーグで弱小貧乏球団であったオークランド・アスレチックスのジェネラルマネージャ(GM)であった主人公のビリー・ビーンは、名門イェール大学で経済学を専攻したピーター・ブランドという若者をデータアナリストとしてチームに迎え入れた。
若きデータアナリストは、セイバーメトリクス(SABRmetrics)(※2)といわれる分析手法を駆使して、選手に関する新たな評価基準を開発する。例えば打者の評価では、当時の球団の古参幹部達が、伝統的な「打率」という指標に固執していたのに対して、彼は、四死球による出塁も含めた「出塁率」の方が得点やチームの勝利に貢献することを明らかにし、これを選手の評価基準とすることを提唱した。
主人公のGMは、「出塁率」という新たな指標を用いることによって、当時の人材市場では過小評価されていた選手達を発掘し、貧乏球団であったアスレチクスは、限られた予算で「お買い得」の選手を多数集め、翌シーズンに快進撃を成し遂げる。

幻の売れ筋商品?
データ分析に関する逸話としてもう一つの例をご紹介したい。日本でコンビニエンスストアにPOSシステムが導入されて間もない1980年代のこと。あるコンビニで売上データを商品別・時間帯別に分析したところ、午後の2時頃になると「たらこ」のおにぎりがよく売れることが判明した。気を良くした店主は、「たらこ」のおにぎりを大量に発注するようにしたが売れ残ってしまった。後になって分かったことは、ランチタイムに「梅干し」のおにぎりが売り切れとなってしまったため、午後2時頃に来店したお客様は、しかたなく「たらこ」を購入していたということであった。この場合、お客様が欲していたものは、言うまでもなく「たらこ」ではなくて「梅干し」である。
今日では笑い話となってしまったが、データ分析とは一歩間違えればこのような結果を招く危険性があるという非常にシンプルな事例である。

データ分析に必要なセンス
データ分析にはある種の「センス」が必要である。「センス」とは、表には現れない隠れたデータに対する想像力であったり、データの背後にある事象に対する洞察力であったりする。『マネーボール』の例では、「四死球による出塁」という従来は軽視されていた新たなデータに着目したこと、コンビニの例では、ある突出したデータがある場合に、そのデータだけに注目するのではなく、何か他の要因に影響された結果ではないかと考える視野の広さを持つこと、などである。
「そんなことは百も承知」と思いつつ、膨大なデータの山を前にして、期限までに何らかの分析結果を出さなければならない場合、ついつい安易な分析に走ってしまうというのが人間の性でもある。

「たかが数字」を「されど数字」に昇華
では、そのような罠に陥らないようにするためにはどうすればよいか?
『マネーボール』の中で、アスレチクスの若きデータアナリストが語る「選手を買うのではなく、チームの勝利を買うのだ」、「球団の幹部達は、点の取り方がわかっていない」というさりげない言葉は、データ分析における目的設定の重要性を示唆している。彼は、最終のゴールをチーム優勝に置き、「優勝 ← チームの勝利 ← 得点能力 ←出塁率」という経路をデータ分析から導き出した。
日本においても、「ID野球」で知られる野村克也氏はデータ分析の目的を、「選手に対して、自分達には何が足りないのかを判らせ、正しい方向に向かって、正しい努力をさせること」と説いている。選手を誤った方向に導くデータ分析は「百害あって一利なし」である。
一方、データアナリスト(或いはデータサイエンティスト)の側には高い能力が求められる。要約すれば、(1)データの持つ「意味」を理解し、膨大なデータの中から分析の目的に合致したデータを抽出する(或いは不要なデータを捨てる)能力と、(2)必要なデータを整理・編集する能力、或いは、データを基にストーリーを展開する能力であろう。
正しい目的に向かって、卓越した洞察力と想像力が発揮された時に、「統計から、誰にも見えていない価値を見出す」というデータアナリスト(或いはデータサイエンティスト)本来の役割を果たすことができる。そしてその時に、「たかが数字」を「されど数字」に昇華させることができるのである。


(※1)原作はMichael Lewis著、“Moneyball: The Art of Winning an Unfair Game”(2004年)
(※2)野球に関する客観的・統計的な分析手法。SABRはアメリカ野球学会(Society for American Baseball Research)の略称

このコンテンツの著作権は、株式会社大和総研に帰属します。著作権法上、転載、翻案、翻訳、要約等は、大和総研の許諾が必要です。大和総研の許諾がない転載、翻案、翻訳、要約、および法令に従わない引用等は、違法行為です。著作権侵害等の行為には、法的手続きを行うこともあります。また、掲載されている執筆者の所属・肩書きは現時点のものとなります。