データ分析基盤

 データ分析基盤とは、一般のデータ利活用を効率的に行うためのITインフラのことです。DX(デジタルトランスフォーメーション)の推進や、機械学習(マシンラーニング)、深層学習(ディープラーニング)の発展に伴うAIの普及・発展、IoT(Internet of Things)やスマートフォンによる有益なデータの大量生成など、近年のビジネス事情を踏まえると、データドリブン経営の重要性、さらにはその必須インフラとなるデータ分析基盤に関心が集まっています。

 本記事では、データ分析基盤の構築に取り組むうえでまず知っておくべき情報について、整理・解説しています。

データ分析基盤とは

 データ分析基盤とは「機械学習・AI開発などに限らない、広く一般のデータ利活用を効率的に行うためのITインフラ」のことを指します。このインフラの特徴・機能要件例として、以下の3つの要素があげられます。それぞれについて下記で説明していきます。

  • 企業が持つデータを網羅的に半永久的に蓄積・保存できる
  • (いわゆる)ビッグデータを扱える
  • いろいろな用途に活用できる

企業が持つデータを網羅的に半永久的に蓄積・保存できる

 データは企業の最重要リソースの一つとみなされており、21世紀の石油である、と呼ばれることもあります。これは価値を生み出すために何らかの加工が必須であることや、現時点では活用できない資源でも、将来的に活用可能になりうることなどを加味した比喩表現です。

ビッグデータを扱える

 ビッグデータを扱うとは、すなわちビッグデータの4Vと呼ばれる、データの容量(Volume)/生成速度(Velocity)/多様性(Variety)/正確さ(Veracity)の4要素に対応できることです。この文脈ではデータレイクやデータファブリックといったようなキーワードが頻繁に登場します。バズワード的な側面も否めませんが、常に情報をアップデートしていくべき領域だと考えましょう。

いろいろな用途に活用できる

 これはデータ利活用のシナリオごとのさまざまな特性(例:利用ユーザの人数、ITリテラシー、情報の精度・速度、ユーザインターフェース)に柔軟に対応できることを意味します。この要件は案件初期に深く検討しきるのは困難なため、現実的な対応としては実績のあるリファレンスアーキテクチャを採用することが多いです。

データ分析基盤がなぜ重要なのか

「データ分析基盤」がなぜ重要なのかについて考えていくにあたり、まずそのユースケースである「データ利活用」の重要性を考えてみましょう。本サイトのデータ利活用の解説記事では、デジタルの急速な活用が進んだ「時代の変化」、データ関連技術・サービスのコモディティ化を指す「技術の進化」、戦略的なIT投資としてのDXに対する「経営者の意識変化」の3点をあげています。

 その中でも、ITインフラとしてのデータ分析基盤が意識すべき要素は、データ関連技術・サービスのコモディティ化による「技術の進化」です。極端に言えば限られた範囲の「データ利活用」を行うことは、手元のPC上の表計算ソフトを用いることでも十分可能です。ですが、先述したビッグデータの4Vに対応するには不十分です。利用価値が大きいとされるビッグデータについては、適切なITサービス・技術を活用することで 、容易にかつ安価に扱うことができます。さらにはデータインフラや分析手法・結果を組織として共有・活用することで価値はさらに増大します。その一方で分析基盤の活用事例は世の中に幅広く存在し、参考となる公開情報も多く存在します。特にクラウドサービスではテンプレートを活用することで、1日~1週間でトライアルレベルのシステムを立ち上げることもできます。

データ分析基盤における意識すべきこと

 データ分析基盤の構築プロジェクトは、幅広いステークホルダーがかかわり、またコストやROIが不明確である特性があるため、推進が困難になっている事例も見受けられます。このプロジェクトを柔軟に、かつ確実に推進するために意識すべきことを以下に3つ記載します。

  • パブリッククラウドサービスの活用
  • スモールスタート・柔軟なプロジェクト運営
  • 利用者の詳細な整理・定義

パブリッククラウドサービスの活用

 適切なパブリッククラウドの活用はオンプレミスへの構築と比較して、特に4Vの特性を持つビッグデータを収集・蓄積・加工・利用する上では、コスト面で有利となるケースが多いです。またサービスラインナップも充実しており、利用するサービスの追加・入れ替え・連携・トラブルシューティングなども容易に行えます。さらにはクラウドサービスプロバイダー(CSP)により、サービスの修正・アップデートも頻繁に行われます。「巨人の肩の上に立つ」というフレーズにならい、IT部分については現代のベストプラクティスを最大限に活用し、自社のビジネスバリューの追求に注力するとよいでしょう。

スモールスタート・柔軟なプロジェクト運営

 次に「スモールスタート・柔軟なプロジェクト運営」があげられます。プロジェクト初期におけるウォーターフォール的な検討に長い時間をかけることはあまりお勧めしません。具体的には社内標準の検討や多くのステークホルダーの最大公約数的要件定義などがあげられます。全社基盤を見据えたプロジェクトであっても、まずは特定のビジネス部門・ビジネスゴールと結びついているシナリオを中心に、素早く小さく進めていくことが成功の秘訣です。そして、後続のシナリオに取り組む際に、常に新しいサービス・技術を柔軟に検討・試行・採用することで、種類が多く、また進化の早いデータ関連サービス・技術の恩恵を最大限に享受することができます。

利用者の詳細な整理・定義

 最後に、「基盤の利用者像を詳細に整理・定義すること」があげられます。例えば、データ分析基盤にはデータレイクと呼ばれる、長期間・多種多様の生データが蓄積されているデータベース層が具備されることが多いです。このデータベース層を利用するユーザはデータサイエンティストと呼ばれるIT・データリテラシーの高い人材に限定することが重要です。自由度の大きいシステムにかかわるユーザは少数に限る、ということです。データベース層を多数の、またリテラシーの低いユーザに開放すると、コスト・ガバナンス・セキュリティ・要求性能(応答時間・多重実行数)面など、各種非機能要件の考慮事項が増大し、プロジェクト運営の円滑な推進が阻害されることが多いです。ユーザの用途に合わせて、システム・サービスを使い分け・組み合わせることで、コスト・デリバリースピード・ビジネスバリューを兼ね備えた柔軟なデータ分析基盤を作ることを目指しましょう。

おわりに

 ビジネスにおけるデータ分析基盤の重要性は年々高まっている一方、十分な準備や知識なしに取り組み、成果に結びつかない例も見られます。大和総研では数多くの企業でDXを実現した実績があります。データ利活用の戦略策定からデータ分析基盤の構築やデータ分析の継続的な運用まで、一貫したソリューションをご提供いたします。お気軽にお問い合わせください。

関連するITソリューション

データ利活用・データ分析基盤 | 大和総研