Microsoft Azureで実現するクラウドへのセキュアなデータ連携 ~大和総研コーポレートデータプラットフォームの事例からデータ連携のポイントを紹介~

 大和総研コーポレートIT部の城石賢蔵です。
 大和総研ではMicrosoft Azure(以下、Azure) 、AWS、Google Cloud、Oracle Cloud Infrastructureなどのパブリッククラウドを用途に応じて使い分け、さまざまなサービスを提供しています。
 前回のブログ(「Microsoft Azureのセキュリティ対策のポイント」)では「コーポレートデータプラットフォーム(自社が保有するデータを適切に蓄積・加工・分析できるようにするためのデータ活用基盤)」と「DIR ChatGPT(大和総研独自の社員向けChatGPT環境)」という2つの社内プロジェクト事例を題材にAzureのセキュリティ対策のポイントを紹介しました。
 今回はコーポレートデータプラットフォームのデータ連携機能に焦点を当て、Azureによるデータ連携のポイントを実例と合わせて紹介します。
 ポイントは以下の3つです。

  1. 企業内ネットワーク(パブリッククラウド活用シーンにおいては「オンプレミスネットワーク」とも呼ばれます)からAzureサービスへのセキュアなデータ連携
  2. Azureサービス間のデータ連携について、公衆インターネットを経由しないセキュアな連携を実現していること
  3. そして現在は、Azure外部サービスからAzureへのデータ連携のセキュリティ確保に取り組んでいます

 企業内ネットワークからAzureへのセキュアなデータ連携や、Azureの他サービスでのデータ利活用を前提としたデータの一元管理を検討されているシステム担当のみなさんのご参考になれば幸いです。また、このようにして集積したデータは社内ChatGPT環境で活用することも考えられます。大和総研でも「コーポレートデータプラットフォーム」のデータを「DIR ChatGPT」において活用することを計画しています。セキュアな社内ChatGPT環境の構築を検討されているみなさんもぜひご一読ください。
 なお、大和総研ではAzureをはじめ、AWS、Google Cloud、Oracle Cloud Infrastructureなどのパブリッククラウドの導入に関するご相談を承っておりますので、ぜひご用命ください。

はじめに – 大和総研コーポレートデータプラットフォームの特長

 コーポレートデータプラットフォームは ①データレイク ②データ統合 ③データ分析 の3つの機能を持つデータ基盤です。今回は「①データレイク」における「データ連携」機能にスポットを当てます。

表1 コーポレートデータプラットフォームの3つの機能

機能
目的
利用しているAzureサービス
データレイク 各部門が個別に保有するデータを集約し一元管理する Azure Data Lake Storage
Azure Data Factory
データ統合 データレイク上のデータを変換・統合し、分析のために最適化したデータフォーマット(データウェアハウス・データマート)を生成する Azure Data Factory
Azure Synapse Analytics
Azure SQL Database
データ分析 データウェアハウス・データマートを現状分析や新価値創出のために利活用する Azure Synapse Analytics
Power BI

出所:大和総研作成

 コーポレートデータプラットフォームの構成の全体像は図1の通りです。Azure Data Lake Storage(データレイクの中核をなすクラウドストレージサービス)をはじめとする主要サービスについてプライベートネットワーク化(Azure活用シーンにおいては「ネットワーク閉域化」とも呼ばれます)をしています。詳しくは前回のブログ(「Microsoft Azureのセキュリティ対策のポイント」)をご覧ください。

図1 コーポレートデータプラットフォームの全体像
出所:大和総研作成

データ統合サービス「Azure Data Factory」の特長と課題

 コーポレートデータプラットフォームではAzure Data Factoryをデータ連携のメインラインとしています。当サービスはAzure標準のデータ統合サービスと位置づけられています。

 - Azure Data Factory

 大和総研で運用してみて実感したAzure Data Factoryの長所と短所を以下にまとめました。パブリッククラウドにおいてデータ処理をセキュアに行えることを大きな強みととらえていますが、機能や運用保守の面で課題があり、これからの改善に期待しています。

  • 長所
    1. Azureのプライベートネットワーク化技術と組み合わせてデータ処理をセキュアに実行できる
    2. ローコードによるデータ処理の自動化に対応している(本格的なプログラムのコーディングを行わなくてもデータ処理を自動実行させることが可能である)
  • 短所
    1. データ統合サービスとしては「標準的」な機能しか有しておらず、他のサービスやプロダクトに比べて機能面で不足が見られる(複雑なデータ処理に対応していない、サポートするデータソースの種類が限定されているなど)
    2. 企業内ネットワークへの接続にあたり、セルフホステッド統合ランタイムという独特のゲートウェイサーバの運用が必須であり、仮想マシンとアプリケーションの運用保守コストが追加で発生する

 なお、コーポレートデータプラットフォームではAzure Data Factory以外にも複数のデータ統合サービス・プロダクトを運用しています。各サービス・プロダクトのクロスレビューも追って本ブログでの記事化を予定しています。

 当サービスの内部オブジェクトには独特な構成があります。大和総研の活用事例を添えて表2で解説します。また各オブジェクトの配置について次章以降で解説します。

表2 Azure Data Factoryのオブジェクト構成

オブジェクト 解説 大和総研の活用事例
パイプライン(Pipeline) 1つのタスクを連携して実行するアクティビティの論理的なグループ 1種類のデータに対して1つのパイプラインを割り当て、特定のデータに関する処理を1つのパイプライン内で完結させている
例:
■ファイルコピーパイプライン
ファイルサーバの特定フォルダに格納されている特定名称のファイルを取得し、Azure Data Lake Storageにコピーする
■DBテーブルデータエクスポートパイプライン
DBサーバの特定テーブルからデータを抽出し、CSV形式のファイルに変換してAzure Data Lake Storageに出力する
アクティビティ(Activity) データに対して実行するアクションを定義するオブジェクト ■単純なデータコピー処理(単一ファイルのコピー、DBサーバの単一テーブルからのデータ抽出など)の場合、パイプラインには「データコピーアクティビティ」のみを設定している
■条件付きのデータコピー処理(特定条件を満たす複数のファイルを連続コピーする、DBサーバの複数テーブルからデータを抽出しマージするなど)の場合はパイプラインに複数のアクティビティを設定し連携実行させている
データセット(DataSet) アクティビティで入力と出力として使用するデータを指定または参照するデータの名前付きビュー
テーブル、ファイル、フォルダ、ドキュメントなど、さまざまなデータストア内のデータを示す
ソースデータ(入力データ)とシンクデータ(出力データ)の2種類をデータセットとして定義している
■データセット(ソース)
・ファイルサーバのディレクトリ / ファイル名
・DBサーバ名 / テーブル名
■データセット(シンク)
・Azure Data Lake Storageのディレクトリ / ファイル名 アウトプットデータをファイルとして保管する場合のファイル形式(CSV、JSONなど)もここで定義している
リンクサービス(Linked Service) サービスが外部リソースに接続するために必要な接続情報を定義するオブジェクト 接続先となる外部リソースごとに作成している
・ファイルサーバ
・DBサーバ(MS SQL Server、PostgreSQLなど)
・Azureサービス(Azure Data Lake Storageなど)
・外部サービス(Salesforceなど)
トリガー(Trigger) パイプラインの実行契機を指定するオブジェクト スケジュールトリガー(時限式トリガー)のほかイベントドリブンのトリガーも用意されている
大和総研ではパイプラインを実行周期や属性を基準にグループ化したマスターパイプラインを作成し、マスターパイプラインとトリガーを1対1で関連付けることで、トリガーによるパイプラインのスケジュール管理を効率化している

出所:Microsoftの公開情報(Microsoft Learn)を基に大和総研作成。列「解説」内の説明文はMicrosoft Learnから引用

ポイント① 企業内ネットワークからAzureへのデータ連携 – Azure Data Factoryによりセキュアなデータ連携を実現

 企業内ネットワークからAzureへのデータ連携について「大和総研の企業内ネットワーク上のサーバ(ファイルサーバ、DBサーバ)からのデータ連携」を具体例として紹介します(あくまで一例です)。
 コーポレートデータプラットフォームの主要目的の1つは、「各部門が個別に保有するデータを集約し一元管理する」ことです。この目的を達成するために、企業内ネットワーク上の部門別サーバからAzureへデータを「セキュアに」連携することが必須要件です。
 Azure Data Factoryを以下の2つのサービスと組み合わせることによって、企業内ネットワークからAzureへのデータ連携をプライベートネットワーク内で完結させています。

 - Azure Private Link
 - セルフホステッド統合ランタイム

 Azure Private Linkにより企業内ネットワークからAzure Data Factoryへのセキュアな接続を実現していることを、前回のブログ(「Microsoft Azureのセキュリティ対策のポイント」)で紹介しました。
 これに加えて、「セルフホステッド統合ランタイム」というゲートウェイサーバをプライベートネットワーク内に配置することにより、Azure Data Factoryとプライベートネットワーク間のセキュアな通信を実現しています。

図2 Azure Data Factoryによる企業内ネットワークからAzureへのデータ連携
出所:大和総研作成

 なおセルフホステッド統合ランタイムについては注意したいポイントがあります。以下に紹介します。

  1. セルフホステッド統合ランタイムはマネージドサービスではありません。利用者自身が仮想マシンを用意し、専用アプリケーションをインストールしてゲートウェイサーバとして運用する必要があります。仮想マシンと専用アプリケーションの2点の運用保守が必要です。
  2. 仮想マシンは企業内ネットワークとAzure Virtual Networkのどちらかに配置することができます。大和総研では管理効率の観点からAzure Virtual Network上に配置しています。これにより、セルフホステッド統合ランタイムの稼働環境をAzure VMとして、Azureリソースグループに組み込んで他のAzureリソースと合わせて包括的に管理することができます。
  3. セルフホステッド統合ランタイム(アプリケーション)は定期的にソフトウェアのアップデートが行われます。アップデートを自動で行う機能も備えられていますが、予期しないアップデートによりAzure Data Factoryの処理に異常をきたすケースがあるため、大和総研では無効化しています。そしてメジャーアップデートのタイミングにおいて以下の手順を守っています。
     ①検証サブスクリプションにおいて手動アップデートを実施し動作確認
     ②正常動作を確認後本番サブスクリプションの手動アップデートを実施して経過観察

ポイント② AzureサービスからAzureサービスへのデータ連携 – Azureグローバルネットワークによりセキュアなデータ連携を実現

 AzureサービスからAzureサービスへのデータ連携について「Microsoft 365監査ログデータの連携」を具体例として紹介します(あくまで一例です)。
 大和総研ではAzureと合わせてMicrosoft 365(Teams、SharePointOnlineなど)を利用しています。同サービスの操作ログなどを監査ログとしてコーポレートデータプラットフォームに集積し、サービス利用履歴の事後監査や社員の行動分析に活用しています。
 これらの監査ログデータは「Microsoft Sentinelのデータコネクタ機能」と「Log Analytics Workspaceのデータエクスポート機能」を利用してコーポレートデータプラットフォームに連携しています。
 このデータ連携は各Azureサービスの標準機能によりストリーミング形式で行われるため、Azure Data Factoryを介在させることはできません。また、各通信経路にAzure Private Linkを適用することもできません。

 - Microsoft Sentinel - データコネクタ機能
 - Log Analytics Workspace – データエクスポート機能

 ただし、Azureサービス間の通信はAzureグローバルネットワーク上で完結するため、公衆インターネットを経由することはありません。

 - Azureグローバルネットワーク

 また、個々のAzureサービスに対してはAzure ExpressRouteやAzure Private Linkを適用し大和総研の企業内ネットワークからのみ接続可能としています。詳しくは前回のブログ(「Microsoft Azureのセキュリティ対策のポイント」)をご覧ください。
 以上よりAzureサービス間のデータ連携についてもセキュリティ対策は万全であると判断しています。

図3 Azureサービス間データ連携の実例(Microsoft Sentinel ⇒ Azure Data Lake Storage)
出所:大和総研作成

ポイント③ Azure外部サービスからAzureへのデータ連携 – 公衆インターネット経由の通信が残存しているため対策準備中

 Azure以外のインターネットサービスやパブリッククラウドサービスからAzureへのデータ連携について「Salesforceオブジェクトデータの連携」を具体例として紹介します(あくまで一例です)。
 大和総研では営業部門の業務管理にSalesforceを利用しており、同サービスの内部データ(オブジェクトデータ)もコーポレートデータプラットフォームに集積して業務分析に活用しています。
 Azure Data FactoryはSalesforceに対するAPIによるデータ抽出にも対応しているため、同サービスを使用してSalesforceのオブジェクトからのデータ抽出を行っています。しかしながら2023年12月時点ではまだ公衆インターネットを経由する通信が残存しています。

図4 SalesforceからAzureへのデータ連携
出所:大和総研作成

 Salesforceなどのメジャーなクラウドサービスにおいては固有の専用回線サービス(AzureにおけるExpressRouteに相当するもの)が用意されているため導入に向けて調査を進めています。

おわりに

 今回は大和総研コーポレートデータプラットフォームのデータ連携機能について紹介しました。
 Azure Data Factoryは進化を続けているサービスです。またAzureにはAzure Data Factoryの機能を補完するさまざまなサービスが提供されています。そして、OSS(オープンソースソフトウェア)によるアプリケーションをAzureのIaaS上に配置し、AzureのPaaSサービスと連携稼働させるという方法もあり、大和総研でも実践を開始しています。
 大和総研はこれからもデータ連携をセキュアにかつ効率的に行うための新機能や新サービスの調査、検証、導入のサイクルを進めていきます。成果は順次ブログにて発信予定です。
 コーポレートデータプラットフォームのデータ連携以外の機能についても今後のブログで発信予定です。どうぞご期待ください。

(本ブログの内容は2023年12月時点のものです)

関連するITソリューション

 大和総研では、Azure等のパブリッククラウドを活用したChatGPT構築支援サービスを行っています。ITソリューションサービスサイトからお問い合わせください。

 ChatGPT利用環境構築サービス | 大和総研

※Microsoft 365、Power Platform、Azureは、米国 Microsoft Corporationの米国およびその他の国における登録商標または商標です。