データレイクとは、主に機械学習/AIを含めたデータ分析に用いる大量データ蓄積プラットフォームのことです。 「データレイク」は、「データウェアハウス(DWH)」「データマート」とともに、データ利活用基盤・データ分析基盤の構成要素として多くの場面で使われるキーワードです。これらは目的や使われ方、扱うデータの種類などに違いがあります。データから価値を生み出すためには、これら3つの要素を使い分けながら、利便性の向上や利活用スピードの改善に継続して取り組むことが重要です。
本記事では、特にデータ分析の用途で用いられるデータレイクを中心に、その定義や違い、導入における注意点などについて詳しく説明していきます。
- 主な定義と特徴
- データレイク、データウェアハウス、データマートの違い
- 導入のメリット
- データレイクの導入における課題や注意点
- ベンダ製品の紹介
- おわりに
- 関連するウェビナー
- 関連するITソリューション
- 事例紹介
主な定義と特徴
データレイクはデータ利活用基盤・データ分析基盤の1つの要素です。また、データウェアハウス、データマートも同様の文脈で用いられます。以下にそれぞれの定義を説明します。
データレイクとは
データレイクは主に機械学習(ML)/AIを含めたデータ分析に用いる大量データ蓄積プラットフォームのことです。さまざまな定義がありますが、その一例としてGartnerの定義を紹介します。
- Definition of Data Lake - IT Glossary | Gartner
“A data lake is a concept consisting of a collection of storage instances of various data assets. These assets are stored in a near-exact, or even exact, copy of the source format and are in addition to the originating data stores.”
“データレイクはさまざまなデータ資産の実データについての蓄積、収集により構成される概念です。これらの資産は元データとほぼ同じ、あるいは完全に同じ形式のコピーとして、元のデータストアとは別に蓄積されます。”
( 出所:Gartner IT Glossary, Data Lake, 2023/2/15, https://www.gartner.com/en/information-technology/glossary/data-lake 注:訳は大和総研)
データレイクの重要な特徴として以下の4点があげられます。これらを満たすプラットフォームをデータレイクと定義することもあります。
- 様々な形式のデータを蓄積できる
- 加工編集することなく、元データ・生データのまま蓄積できる
- 無期・長期のデータを保存・蓄積する
- 各種分析に使いやすい形で蓄積する
データレイクから直接データ分析を行う場合、生データを扱うため一定の技術力が必要となります。また、扱うデータの量に対するコストを低く抑えるため、一般的に分析要求の応答性能に強い制約が設けられていないことも特徴です。
データウェアハウスとは
データウェアハウス(DWH)は社内の各システムから集めた構造化データの分析に特化したデータベースです。主にレポーティングや非定型分析(BI)に利用されます。さまざまな分析に利用可能とするために、データモデリング、スキーマ管理、データ加工(ETL)、データ準備プロセス(データプレパレーション)などのデータマネジメントプロセスが付随します。
データウェアハウスは通常SQLを介してアクセスされ、さまざまなツール・サービスから利用することができます。データレイクと大きく異なる点として、データの構造(スキーマ)を事前に定義しなければいけない特徴があります(例:DBテーブル定義)。また、データマネジメントが高品質に実現されていると、データアナリストはデータウェアハウスを利用することでシステムを横断してデータを結合・統合し、ビジネスにつながる知見をタイムリーに生み出すことができます。
データマートとは
データマート(DM)は個別の利用目的に特化したデータベースです。通常、各種ユーザ向け業務アプリケーションやビジネスユーザ向け定型レポーティングに利用されます。アプリケーションごとに目的が絞られているため、その利用形態に合ったデータスキーマや、データベースサービスを選ぶことで、最大限のパフォーマンスを得ることができます。たとえば、テキストを検索するアプリケーションであれば Elasticsearch などの全文検索用DBを利用する、キーごと(例:顧客ID)のデータを迅速に取得するアプリケーションであれば Redis などのキーバリューストア(KVS)を利用する、などがあります。
データレイク、データウェアハウス、データマートの違い
関係性
データレイク、データウェアハウス、データマートの3つの要素は、一般的なデータ利活用基盤・データ分析基盤のアーキテクチャにおいて、データを介して連携する一連のシステムとなります。具体的には、データの発生元である業務システムからデータレイク、データウェアハウス、データマートの順番でデータが流れていきます。通常、データレイクからデータマートに向かうに従って、データ量は少なくなり、目的に合わせたデータ加工度は高くなり、使うユーザ数は多くなります。
それぞれの違い
下記にデータ利活用基盤の3要素を比較した表を記載します。
データレイク | データウェアハウス | データマート | |
---|---|---|---|
主目的 | データを安価に堅牢に蓄積する | 様々な目的で幅広いデータ分析を行う | 特定の目的・要件に合わせてデータを利用する |
データ種類 | 構造化データと非構造化データ(=オブジェクトデータ) | 構造化データ(リレーショナルな業務データベース) | 構造化データ(利用特化データベース) |
データの特徴 | 生データでフォーマットも多岐にわたる | 幅広い利活用のためにモデリング・整形・変換されている | 利用用途に最適化された変換済みデータ |
スキーマ(データ構造) | スキーマオンリード (読み取り時にデータ構造を都度決める) | スキーマオンライト (格納する際にデータ構造が決まる) | スキーマオンライト |
データの期間 | 長期(無期限のことも) | 中期(数年間が多い) | 短期(必要な分のみ) |
データ容量あたりの費用 | 安い | 中間 | 中間~高い |
重視する点 | コスト効率と容量の拡張性・データ保全 | 性能(処理時間・同時並列数)と分析の利便性のバランス | 性能(処理時間・同時並列数) |
主要ユーザ | データサイエンティスト、データアナリスト、データエンジニア | ビジネスアナリスト | ビジネスユーザ、アプリケーションエンジニア |
主要な用途 | AI/ML、探索的データ分析 | BI、レポーティング | Web画面、定型レポート |
用いるサービス | オブジェクトストレージ | 分析DBサービス | 目的別DBサービス(KVS, InMemoryDBなど) |
(出所 大和総研作成)
導入のメリット
データレイクは機械学習・AIの観点において特に有用です。これはデータの種類・分量・期間が機械学習モデル・AIの品質・対応シナリオに直結するためです。さまざまな生データが長期間保有されていれば、それだけデータから価値を生み出せる可能性が向上します。たとえば画像・テキストデータなどの非構造データからも価値を容易に抽出することが近年可能になっています。(詳細は別の記事で解説しています。「 AIサービス(AI as a Service) - ディープラーニングを利用した非構造化データの利活用推進」を参照ください。)
また、長期にデータが保有されるという特徴から、データのアーカイブ・ディザスタリカバリーとしての役割も果たします。データレイクを分析用途だけでなく、安価なバックアップ・アーカイブ用途として導入する企業の事例も存在します。
関連ソリューション:データ収集、分析基盤・分析モデルの構築、継続的な運用までをトータルでサポートします
データレイクの導入における課題や注意点
データレイクの導入プロジェクトの進め方に関する代表的な注意点として、以下の3点があげられます。
- 広い利用者層・ニーズを想定してしまう
- データレイクを作ること自体を目的としてしまう
- データを大量に蓄積すれば価値が生まれると考えてしまう
それぞれについて、詳細を説明します。
広い利用者層・ニーズを想定してしまう
データレイクの導入を進めるにあたって、当初から全社向けにデータレイクを整備する計画を立てることがあります。この場合、収集対象のデータが大量となるため、ステークホルダーが増大する、データの基礎情報が集まらない、データ収集の優先度の決定が困難になる、などの課題が生じます。結果としてデータレイクを利用できるまでに長い時間を要し、新たなビジネスバリューの創出につながらないケースがあります。
このようなケースに対しては、最初の取り掛かりは特定の業務やユースケースに絞って小さくスタートし、着実に成果を出すことを目標とするのが一案です。この場合、データレイクを実際に利用するユーザは、10人程度とするとよいでしょう。利用人数を少数にしてプロジェクトを推進すると、ユーザ規模に応じて考慮が複雑になるデータマネジメント、ガバナンス、セキュリティなどの検討要素にも対処が容易になります。そして、実際の成果を基に、ステークホルダーの説得、協力者の増加につなげることで、次フェーズの計画・推進をスムーズに進めることができます。
データレイクを作ること自体を目的としてしまう
データレイク構築のプロジェクトを始めるにあたり、何に利用するのかを決めず、「多くの生データを収集・蓄積するITインフラを作る」こと自体を目的とするケースがあります。この場合、データが蓄積された後にどのように利用され価値を創出するのか、という議論がおろそかになり、結果としてユーザに利用されないインフラとなる懸念があります。さらには、データがルール無く無秩序に蓄積されることも多く、その場合「データを利用しづらい形」になってしまいます。具体的な例としてはデータマネジメントやデータカタログといった、データ利用時に必要なメタデータの考慮がなされていないケースがあげられます。この場合もユーザに使われない基盤が出来上がってしまう懸念があります。
これらへの対策は「データから価値を生み出してこそ意味がある」という前提を関係者で共有し、そのモデルシナリオを事前に検討し、実施・検証することです。データレイクはあくまでも「手段」の一つです。
データを大量に蓄積すれば価値が生まれると考えてしまう
様々な形式の多くの生データを格納するというシステムの特質を考慮せず、蓄積が始まればあとは利用推進に注力すればよい、という考え方にも陥りがちです。すなわち、データレイクの運用とはどういうことか、という考慮が不足してしまうケースです。これにより発生する典型的な課題は、データの永続的な増加によるインフラコストの増大、処理時間の増大、利用されないデータの無秩序な増大などです。
対策としては、データのアクセス頻度の整理を踏まえたライフサイクル管理があげられます。ユーザがどの期間のデータにどの程度の頻度でアクセスするかといったユースケースを整理し、かつ、それらを実際の利用実績も踏まえて最新化しておくことが肝要です。これにより、ユーザの利用実態やニーズ・性能に合わせて、ストレージサービスの価格クラスを設定することができます。通常、ストレージサービスには、データごとのアクセス頻度や目的、求められる応答性能にあった価格クラスが用意されており、特に蓄積データが膨大になるデータレイクの場合には、コスト経済性の観点で価格クラスを適切に選択することが重要となります。価格クラスを決定するには利用ユーザへのヒアリングのほか、アクセスログ解析による利用状況の把握なども有用です。また、ストレージサービスの価格クラスを利用実態にあわせて自動で調整する機能を持つサービスも存在します。
ベンダ製品の紹介
クラウドサービスプロバイダ
BigTech各社とも、データ利活用基盤は各種サービスを組み合わせて実現する形をとっています。これはデータ利活用用途に適したサービスを選択できる利点があるためです。本領域では技術革新・サービス改善も頻繁に行われるため、マイクロサービスの考え方と相性が良いです。以下に代表的な関連サービス名称を各社ごとに記載します。(製品名をクリックすると各社の製品ページが開きます)
AWS
- Amazon S3(拡張性と耐久性を兼ね揃えたクラウドストレージ)|AWS
- Amazon Redshift(高速、シンプル、費用対効果の高いデータウェアハウス)| AWS
- マネージド Open-Source Elasticsearch および OpenSearch 検索とログ分析 – Amazon OpenSearch Service – Amazon Web Services
- AWS Lake Formation(安全なデータレイクを数日で構築)| AWS
Microsoft Azure
- 高パフォーマンス分析の Data Lake Storage | Microsoft Azure
- Azure Synapse Analytics | Microsoft Azure
- Azure Databricks | Microsoft Azure
- Azure Cosmos DB - NoSQL およびリレーショナル データベース | Microsoft Azure
Google Cloud
- Cloud Storage | Google Cloud
- BigQuery エンタープライズ向けデータ ウェアハウス | Google Cloud
- Cloud SQL for MySQL、Cloud SQL for PostgreSQL、Cloud SQL for SQL Server | Google Cloud
- Cloud Bigtable: HBase 対応の NoSQL データベース | Google Cloud
関連ソリューション:大和総研では、お客様のGoogle BigQuery活用を支援します
SaaS企業
一方で、このシステムレイヤをフルマネージドサービスとして提供している企業もあります。Snowflake社が代表的なプレイヤーです。サービスを組み合わせるという複雑性を排除し、運用負荷を下げることで、ユーザがデータから価値を生み出すことに注力できることを目指しています。(製品名をクリックすると各社の製品ページが開きます)
おわりに
データレイクは機械学習、AIからBI、レポーティングに至るまで、データ分析の基礎となるシステム要素として広く使われ始めています。その一方で新たなサービス・製品も継続して登場し続ける、日々技術革新が進んでいる分野でもあります。そのため、最新情報を定期的にフォローし、自社のシステムに適用していくことが有用です。また、データレイクを導入する主目的は、ビジネスでの活用によりデータから価値を生み出すことです。そのため、ビジネスでの利用容易性や利活用のスピードを改善する試みは構築フェーズだけでなく、運用フェーズにおいても継続的に取り組むことが重要です。
データ分析基盤を構築し、適切に運用していくことは容易ではありませんが、時代の要請と将来への投資観点も踏まえ、少しずつでも着実に進めていくことをお勧めします。
関連するウェビナー
ウェビナー|大和証券グループで"ChatGPT"を使ってみた
関連するITソリューション
データ利活用・データ分析基盤構築 - データ収集、分析基盤・分析モデルの構築、継続的な運用までをトータルでサポート | 大和総研
概念データモデリング - 変化する時代でも、使い続けられる普遍的なデータモデルを構築 | 大和総研
事例紹介
⼤和総研のデータサイエンティストが伴⾛し、学生に個別最適な学修アドバイスを実現するデータ分析基盤を構築 | 大和総研
※Amazon Web Service、Amazon S3、Amazon Redshift、Amazon OpenSearch Service、AWS Lake Formationは、米国および/またはその他の諸国における、Amazon.com, Inc.またはその関連会社の商標です。
※マイクロソフト、Azure、Azure Cosmos DB、Azure Databricks、Azure Data Lake Storage、Azure Synapse Analyticsは、米国 Microsoft Corporationの米国およびその他の国における登録商標または商標です。
※Google Cloud、Cloud Storage、BigQuery、Cloud SQLおよびBigtableは Google LLC の商標です。