大和総研DX推進部の城石賢蔵です。
大和総研では「DIR ChatGPT(当社独自の社員向けChatGPT環境)」という生成AIサービスを社内に展開しています。先行ブログ「Azure OpenAI Serviceのプライベートネットワーク化と対話ログ保管運用」ではプライベート(閉域)ネットワークを適用したセキュアなAzure OpenAI Serviceの利用環境を構築したことを紹介しました。現在は、同環境においてAzure OpenAI Serviceの新機能の検証を進めています。本記事では新機能の1つである「GPT-4 Turbo with Vision(画像データに基づく文章生成機能)」のプレビューバージョンを試験利用した事例や感想を紹介します。
一例として大和総研のコーポレートデータプラットフォーム※のサービス・ネットワーク構成図をインプットしたところ、私の予想を超える精度の高い分析結果が得られ驚きました。クラウドサービスを中心とするシステムやネットワーク設計図のセルフチェックツールとして十分に有用であると感じています。
Azure OpenAI Serviceの社内導入を検討されているみなさん、Azure OpenAI Serviceの活用範囲をさらに広げたいとお考えのみなさんの参考となれば幸いです。
なお大和総研ではMicrosoft 365、Azureをはじめ、AWS、Google Cloud、Oracle Cloud Infrastructureなどのパブリッククラウドの導入に関するご相談を承っております。ぜひご用命ください。
※自社が保有するデータを適切に蓄積・加工・分析できるようにするためのデータ活用基盤。詳しくは先行ブログ「Microsoft Azureのセキュリティ対策のポイント」および「Microsoft Azureで実現するクラウドへのセキュアなデータ連携」をご覧ください
- はじめに – GPT-4 Turbo with Visionの利用環境
- GPT-4 Turbo with Visionの検証結果:システム設計図のセルフチェックツールになりうるか?
- GPT-4 Turbo with Visionの活用の今後の展望
- おわりに
- 関連するソリューション
はじめに – GPT-4 Turbo with Visionの利用環境
インターフェース:Azure OpenAI Studioをプライベート(閉域)ネットワーク下で使用
はじめに今回GPT-4 Turbo with Visionを利用する環境を紹介します。
今回、GPT-4 Turbo with Visionをプライベート(閉域)ネットワーク化を施したAzure OpenAI Service環境で使用しています。先行ブログ「Azure OpenAI Serviceのプライベートネットワーク化と対話ログ保管運用」で紹介した通り、同環境ではAzure OpenAI Serviceとのデータ送受信をプライベートネットワーク内で完結することができるため、新機能の検証を安全に行うことができます。
ユーザーインターフェースにはAzure OpenAI Service標準のWebユーザーインターフェースであるAzure OpenAI Studioを使用しています。
出所:大和総研作成
AIモデル:東日本リージョンでプレビューモデル(gpt-4 vision-preview)を使用
AIモデルはGPT-4 Turbo with Visionのプレビューバージョンである「gpt-4 vision-preview」を使用しています。これは、2024年5月時点では正式(GA)モデルである「gpt-4 turbo-2024-04-09」が東日本リージョンには提供されていないためです。
DIR ChatGPTの新検証環境では大和総研固有のデータがMicrosoftの複数のリージョンに拡散することを避けるため、全てのサービスを東日本リージョンに集約しています。このセキュリティポリシから正式モデルの使用を一時的に断念し、上記の選択としました。
なお、GPT-4 Turboの各モデルにはそれぞれ制約事項があります。プレビューモデルには実装されているが正式モデルには未実装である機能もあるため注意が必要です。詳しくは、後ほど「GPT-4 Turbo with Visionの活用の今後の展望」の章で紹介します。
モデルID |
説明 |
東日本リージョンへの提供 |
---|---|---|
gpt-4 turbo-2024-04-09 | 正式(GA)モデル 既存プレビューモデルの代替となるもの 画像認識機能の拡張(Azure AI Visionとの連携)に対応していない |
× |
gpt-4 vision-preview | プレビューモデル 画像の入力に対応している 画像認識機能の拡張(Azure AI Visionとの連携)に対応している |
○ |
出所:Microsoft(日本マイクロソフト社)の公開情報を基に大和総研作成
GPT-4 Turbo with Visionの検証結果:システム設計図のセルフチェックツールになりうるか?
GPT-4 Turbo with Visionの検証結果を本章で紹介します。
大和総研はAzureをはじめとするパブリッククラウドサービスを活用したシステム構築支援サービスを展開しており、システム設計の精度向上に日々取り組んでいます。生成AIの力をこの取り組みにも活かすため、システム設計図をインプットデータとし、システム設計の精度向上につながる情報を得ることができるか否かを検証しました。
インプットとするシステム設計図には先行ブログ「Microsoft Azureのセキュリティ対策のポイント」でも使用した次の図を採用しました。
出所:大和総研作成
① システム設計図の主旨を理解し説明できるか?
AIの認識能力を総合的に測るため、まずオープンな質問を投入しました。
セクション |
内容 |
---|---|
システムプロンプト(AIへの要求事項) | アップロードされた画像に基づいて日本語で回答してください。 |
要求文 | この画像について解説してください。 |
応答文 | この画像は、Microsoft Azure のクラウドサービスとネットワーキング機能の概要を示した図です。図の左側には、Microsoft 365、Power Platform、Azure の各サービスがリストされており、右側には Azure のプライベートリンク関連サービスがリストされています。中央部分には、Azure Virtual Network の HUB と SPOKE モデルが描かれており、異なる種類のネットワーク接続が視覚的に表現されています。 以下に各部分の簡単な説明をします:
画像の下部には、色と形状で区別された各種サービスの凡例が記載されています。これにより、各接続タイプやサービスを図上で簡単に識別することができます。 |
出所:大和総研作成
画像の作成者の視点からは「Microsoft Azure のクラウドサービスとネットワーキング機能の概要を示した図」という要約は的確です。主旨を正しく認識できているものと判断しました。また「各部分の説明」にて、作成者が図を通して伝えたかったことがほぼ全て網羅されています。肯定的な要素を列挙すると次の通りです。
- 図の主旨(Azureのクラウドサービスを中心とするネットワーク構成の概要を示すもの)を理解できている
- 各ネットワーク空間の用途や目的を理解できている。特にAzure Virtual NetworkのHUB/SPOKE構成を理解しメリットを説明できていることには感心した
- 図上のAzureサービスやネットワークアプライアンスなどをほぼ完全に網羅し、列挙できている。また各サービスやアプライアンスの概要説明にも明白な誤りは認められない
- 「凡例」セクションの存在と意義についても正しく認識できている
一方で、以下にあげるように一部の日本語(文字列)が正しく認識されませんでした。「接続プロバイダー」といった一般的ではない用語や「大和総研」といった固有名詞を正確に識別することはまだ難しいようです。
- 【誤】 ExpressRoute 接続パートナー ⇒ 【正】 ExpressRoute 接続プロバイダー
- 【誤】 大規模顧客 社内ネットワーク ⇒ 【正】 大和総研 社内ネットワーク
総合すると、一部の日本語(文字列)を認識できてはいないものの、「Azureを中心とするサービス・ネットワーク構成図」であるという主旨を認識できており、かつ画像の構成要素(サービス、ネットワークアプライアンス)を識別できているため、画像認識・分析能力は実用的なレベルであると言えるのではないでしょうか。
② システム設計図の各構成要素について説明できるか?
続いて、画像内の各構成要素について説明を求めました。
セクション |
内容 |
---|---|
システムプロンプト(AIへの要求事項) | アップロードされた画像に基づいて日本語で回答してください。 |
要求文 | この画像に掲載されているMicrosoftのクラウドサービスやネットワークアプライアンスについて詳しく説明してください。 |
応答文 | 画像には、Microsoft Azureの様々なクラウドサービスとネットワーキングコンポーネントが図解されています。以下は、画像に表示されている各コンポーネントの簡単な説明です:
この図はネットワークの設計や構造に関する情報を提供しており、それぞれの要素がどのように連携して機能するかを示しています。また、色分けされた要素は、異なる種類の接続やリンクを表しています。例えば、紫の線はExpressRoute接続を示しています。 |
出所:大和総研作成
主要なサービスとネットワークアプライアンスがほぼ全て認識され、列挙されています。「Microsoft Entra ID」および「Microsoft Purview」が応答文中に含まれていませんが、これは投入したのが「オープンな質問」であったからであり、質問のフォーカスを絞る(例: 「『Azure(Private Link 対応サービス)』のネットワーク領域内の各サービスについて詳しく説明してください」)ことで追加されるようになると推定しています。
また各要素の説明についても明白な誤りは認められません。Microsoftの公開情報(Microsoft Learn等)から学習した内容を適切に要約し出力しているものと思われます。
以上より「画像から取得した情報(要素)」に関連する情報を自身の学習データの中から抽出し、要約して出力することに関しても十分な能力を有すると言えるのではないでしょうか。
③ システム設計・構成の改善点を指摘できるか?
次に、画像において示した「クラウドサービスの構成やネットワーク構成の改善点」についてオープンに質問しました。
セクション |
内容 |
---|---|
システムプロンプト(AIへの要求事項) | アップロードされた画像に基づいて日本語で回答してください。 |
要求文 | この画像はとある企業の「クラウドサービスの構成」や「ネットワーク構成」の概略を表したものです。構成について改善すべき点があれば箇条書きで列挙してください。 |
応答文 | 申し訳ありませんが、画像の内容に基づいた具体的な技術的アドバイスや改善点の提案は行えません。ただし、一般的なクラウドネットワークインフラの設計の改善に関してはいくつかの指標を提供できます。以下はクラウドサービスの構成において考慮すべき一般的な改善点です:
これらの改善点は一般的なものであり、実際の構成図の詳細な分析に基づいた提案ではありません。専門的なアドバイスが必要な場合は、ITインフラの専門家に相談することをお勧めします。 |
出所:大和総研作成
複数回試行しましたが、応答されたのは「一般論(クラウドサービスやネットワークの構成に関する一般的な考慮事項)」のみでした。
システムやネットワークの構成について具体的なアドバイスを得るには、要求文やシステムプロンプトの内容を考慮する必要があるようです。あるいは、インプット画像を「より詳細度の高い構成図」に変更することでより具体的なアドバイスを得られるかもしれないと感じました。今回使用した画像はあくまで「概要構成図」であり、内容は抽象的です。AIの学習データから妥当性を評価することは難しいのかもしれません。
④ システム設計図の改善点(説明図としての改善点)を指摘できるか?
最後に、画像の「説明図としての改善点」についてオープンに質問しました。
セクション |
内容 |
---|---|
システムプロンプト(AIへの要求事項) | アップロードされた画像に基づいて日本語で回答してください。 |
要求文 | この画像を分析し、改善すべき点があれば箇条書きで列挙してください。 |
応答文 | 画像の分析として、以下の改善点を提案します。
これらの改善点を検討することで、視覚的なクリアさと情報の伝達効率を高めることができるでしょう。 |
出所:大和総研作成
インプット画像に即したものであるか疑わしい(一般論に近いとも思える)指摘もありますが、当画像の次の特徴を認識できているものと見えます。
- 各要素の色使い
- テキスト(フォント)のサイズ
- オブジェクト(サービスのアイコンなど)のサイズ、説明文との位置関係
- 接続線の様式(太さなど)、接続先オブジェクトとの位置関係
- 全体的なレイアウトのバランス
コミュニケーションを繰り返し質問のフォーカスを絞っていけば、説明図の「見栄え」についても具体的なアドバイスを得られるようになるのではないでしょうか。
⑤ 総評
節①で紹介した通り、GPT-4 Turbo with Visionの「画像内の要素を認識する能力」は高いと感じます。インプットとして使用した画像内の要素「クラウドサービスやネットワークアプライアンス」のほぼ全てが網羅され、応答文中に組み込まれていました。そして、各要素の情報を総合し画像の主旨を特定することができていました。
また節②で紹介した通り、「認識した要素を説明する能力」も高いと感じます。特に、「Azure Virtual NetworkのHUB/SPOKE構成」といった専門性の高い用語についても正しく識別され、妥当な内容説明が添えられていたことには感心しました。GPT-4 Turboの学習データの豊富さに改めて感銘を受けました。
一方、節③、④で紹介した通り、「画像に示されるサービスやネットワークの構成の妥当性を評価する」、「画像の『説明図としての』妥当性を評価する」ことについては、有用な回答が得られませんでした。抽象的な質問(オープンな質問)に対しては「一般論」しか応答されませんでした。要求文やシステムプロンプトの内容を具体化・詳細化する、インプット画像自体を「客観的な妥当性評価が可能になるまで」詳細化するなどの工夫が必要であると考えられます。
以下は検証者個人の見解に過ぎませんが、自身の作成した説明図について、AIによる機械的なチェックを受けることによって改めて得られた「気づき」がありました。また、説明図に示した構成についてAIにより合理的な説明がなされていることから「構成に明白な錯誤や矛盾はない(なぜなら、錯誤や矛盾があればAIの応答文にも不合理な点や不審な点が生じるはずであるから)」という傍証を得ることができ、安心できました。
以上より、GPT-4 Turbo with Visionはクラウドサービスを中心とするシステムやネットワーク設計図のセルフチェックツールとして十分に有用であると感じました。
GPT-4 Turbo with Visionの活用の今後の展望
日本語認識能力の向上:Azure AI Visionとの連携により実現可能。ただし正式モデルには実装予定なし
前章の節①にて、GPT-4 Turbo with Visionの日本語認識能力には課題があることを紹介しました。この課題の対策として、Azureの画像・動画分析サービスであるAzure AI VisionをAzure OpenAI Serviceと連携させる方法が提供されています。これはOpenAI社の(オリジナルの)ChatGPTにはない、Azure OpenAI Service固有のメリットであると一般的に言われています。
しかしながら、「はじめに」の章でも触れた通り、この連携機能は現時点でプレビューモデル(gpt-4 vision-preview)には実装されているものの、正式モデル(gpt-4 turbo-2024-04-09)には実装されていません。Microsoftカスタマーサポートに問い合わせたところ、「正式モデルへの実装時期は現時点で未定」「プレビューモデルは2024年6月以降に廃止予定」との回答でした。
以上の状況から、DIR ChatGPTではAzure AI Visionの本格利用を保留しています。利用開始時期は「正式モデルへのAzure AI Vision連携機能の実装スケジュール」および「正式モデルの東日本リージョンへの提供開始スケジュール」を受けて改めて検討する方針です。
対話ログ保管:画像をデータに変換しログデータとして保管
先行ブログ「Azure OpenAI Serviceのプライベートネットワーク化と対話ログ保管運用」にてAzure OpenAI Serviceとの対話履歴をログとして保管する環境構成について紹介しました。対話ログを保管することには、「①カスタムAIモデルの精度向上のための学習データとして利用できる」、「②利用状況の事後監査に利用できる」という2つのメリットがあると判断しています。
上記のメリットから、インプットとする画像ファイルも対話ログに加え保管することが望ましいと考えています。
画像ファイルを対話ログに加えるため、DIR ChatGPT独自のWebユーザーインターフェースアプリケーション(図3においてStatic Web Appsサービス上で稼働させているものです)に「要求メッセージに添付された画像ファイルを『base64形式』のデータに変換し、APIリクエストメッセージ内にセットしてAzure OpenAI Serviceに送信する」機能を追加実装することを一案として検討しています。GPT-4 Turbo with VisionのREST APIインターフェースには画像ファイルのデータを「base64形式」でインプットする機能が備わっています。
この対応により、インプットされた画像ファイルがbase64形式のデータとしてAzure API Managementのネットワークログ内に保管されることになります。
出所:大和総研作成
ただしこの構成には注意事項があります。
図3中の「④対話ログ保管」はAzure標準の監視ソリューションであるAzure Monitorによって行われ、ログデータは「ApiManagementGatewayLogs」というログテーブルに保管されます。しかし、保管することのできる1トランザクションあたりのログデータのサイズには上限があります。
一般に画像データは文字データに比べ容量が大きいため、画像データをともなう対話を繰り返した場合対話ログの全文が保管されない(上限を超えた範囲がログデータから欠落する)ことになります。
以上の制約があることから、画像データを含む対話ログを確実に保管するためにAzure標準ソリューション(Azure Monitor)の利用を断念し、Webアプリケーションに「送受信したAPIメッセージの全データを取得して大容量ストレージ(コーポレートデータプラットフォームのデータレイクストレージなど)に蓄積する」機能を追加実装することも構想しています。
おわりに
Azure OpenAI Serviceは日々進化しています。DIR ChatGPTもこの進化のスピードに乗り遅れないよう、新機能の導入と検証を積極的に進めています。また、新機能の検証を安全に行うために、セキュアなAzure OpenAI Service環境をフルに活用しています。
今回の検証ではGPT-4 Turbo with Visionの画像認識・分析機能は実用的なレベルにあることを実感できました。次に期待しているのが画像生成機能です。既存の図表を投入し変更要件を文章で伝達するとアップデートバージョンが自動生成される(つまり、画像データから画像データを再生成できるようになる)、というレベルになれば生成AIの活用範囲がさらに広がりますね。
今後も新機能の導入と検証の成果を順次ブログにて発信します。これからもどうぞご期待ください。
(本ブログの内容は2024年5月時点のものです)
関連するソリューション
大和総研では、Azure等のパブリッククラウドを活用したChatGPT構築支援サービスを行っています。ITソリューションサービスサイトからお問い合わせください。
ChatGPT利用環境構築サービス|大和総研 (dir.co.jp)
※Microsoft 365、Power Platform、Azureは、米国 Microsoft Corporationの米国およびその他の国における登録商標または商標です。