GPT-4 Turbo with Visionはシステム設計図のセルフチェックツールになりうるか？～大和総研の社内適用事例からChatGPTのエンタープライズ利用の実例を紹介～

　大和総研DX推進部の城石賢蔵です。
　大和総研では「DIR ChatGPT（当社独自の社員向けChatGPT環境）」という生成AIサービスを社内に展開しています。先行ブログ「Azure OpenAI Serviceのプライベートネットワーク化と対話ログ保管運用」ではプライベート（閉域）ネットワークを適用したセキュアなAzure OpenAI Serviceの利用環境を構築したことを紹介しました。現在は、同環境においてAzure OpenAI Serviceの新機能の検証を進めています。本記事では新機能の1つである「GPT-4 Turbo with Vision（画像データに基づく文章生成機能）」のプレビューバージョンを試験利用した事例や感想を紹介します。
　一例として大和総研のコーポレートデータプラットフォーム※のサービス・ネットワーク構成図をインプットしたところ、私の予想を超える精度の高い分析結果が得られ驚きました。クラウドサービスを中心とするシステムやネットワーク設計図のセルフチェックツールとして十分に有用であると感じています。
　Azure OpenAI Serviceの社内導入を検討されているみなさん、Azure OpenAI Serviceの活用範囲をさらに広げたいとお考えのみなさんの参考となれば幸いです。
　なお大和総研ではMicrosoft 365、Azureをはじめ、AWS、Google Cloud、Oracle Cloud Infrastructureなどのパブリッククラウドの導入に関するご相談を承っております。ぜひご用命ください。

※自社が保有するデータを適切に蓄積・加工・分析できるようにするためのデータ活用基盤。詳しくは先行ブログ「Microsoft Azureのセキュリティ対策のポイント」および「Microsoft Azureで実現するクラウドへのセキュアなデータ連携」をご覧ください

はじめに – GPT-4 Turbo with Visionの利用環境
- インターフェース：Azure OpenAI Studioをプライベート（閉域）ネットワーク下で使用
- AIモデル：東日本リージョンでプレビューモデル（gpt-4 vision-preview）を使用
GPT-4 Turbo with Visionの検証結果：システム設計図のセルフチェックツールになりうるか？
GPT-4 Turbo with Visionの活用の今後の展望
- 日本語認識能力の向上：Azure AI Visionとの連携により実現可能。ただし正式モデルには実装予定なし
- 対話ログ保管：画像をデータに変換しログデータとして保管
おわりに
関連するソリューション

はじめに – GPT-4 Turbo with Visionの利用環境

インターフェース：Azure OpenAI Studioをプライベート（閉域）ネットワーク下で使用

　はじめに今回GPT-4 Turbo with Visionを利用する環境を紹介します。
　今回、GPT-4 Turbo with Visionをプライベート（閉域）ネットワーク化を施したAzure OpenAI Service環境で使用しています。先行ブログ「Azure OpenAI Serviceのプライベートネットワーク化と対話ログ保管運用」で紹介した通り、同環境ではAzure OpenAI Serviceとのデータ送受信をプライベートネットワーク内で完結することができるため、新機能の検証を安全に行うことができます。
　ユーザーインターフェースにはAzure OpenAI Service標準のWebユーザーインターフェースであるAzure OpenAI Studioを使用しています。

図1 プライベートネットワーク下でのAzure OpenAI Studioの利用

出所：大和総研作成

AIモデル：東日本リージョンでプレビューモデル（gpt-4 vision-preview）を使用

　AIモデルはGPT-4 Turbo with Visionのプレビューバージョンである「gpt-4 vision-preview」を使用しています。これは、2024年5月時点では正式（GA）モデルである「gpt-4 turbo-2024-04-09」が東日本リージョンには提供されていないためです。

Azure OpenAI Service models - Azure OpenAI | Microsoft Learn

　DIR ChatGPTの新検証環境では大和総研固有のデータがMicrosoftの複数のリージョンに拡散することを避けるため、全てのサービスを東日本リージョンに集約しています。このセキュリティポリシから正式モデルの使用を一時的に断念し、上記の選択としました。
　なお、GPT-4 Turboの各モデルにはそれぞれ制約事項があります。プレビューモデルには実装されているが正式モデルには未実装である機能もあるため注意が必要です。詳しくは、後ほど「GPT-4 Turbo with Visionの活用の今後の展望」の章で紹介します。

表1 GPT-4 Turbo with Visionのモデル一覧（抜粋）

モデルID	説明	東日本リージョンへの提供
gpt-4 turbo-2024-04-09	正式（GA）モデル既存プレビューモデルの代替となるもの画像認識機能の拡張（Azure AI Visionとの連携）に対応していない	×
gpt-4 vision-preview	プレビューモデル画像の入力に対応している画像認識機能の拡張（Azure AI Visionとの連携）に対応している	○

出所：Microsoft（日本マイクロソフト社）の公開情報を基に大和総研作成

GPT-4 Turbo with Visionの検証結果：システム設計図のセルフチェックツールになりうるか？

　GPT-4 Turbo with Visionの検証結果を本章で紹介します。
　大和総研はAzureをはじめとするパブリッククラウドサービスを活用したシステム構築支援サービスを展開しており、システム設計の精度向上に日々取り組んでいます。生成AIの力をこの取り組みにも活かすため、システム設計図をインプットデータとし、システム設計の精度向上につながる情報を得ることができるか否かを検証しました。
　インプットとするシステム設計図には先行ブログ「Microsoft Azureのセキュリティ対策のポイント」でも使用した次の図を採用しました。

図2　GPT-4 Turbo with Visionのテストデータ（コーポレートデータプラットフォームの全体像）

出所：大和総研作成

① システム設計図の主旨を理解し説明できるか？

　AIの認識能力を総合的に測るため、まずオープンな質問を投入しました。

表2 システム設計図の主旨を理解し説明できるか？

セクション	内容
システムプロンプト(AIへの要求事項)	アップロードされた画像に基づいて日本語で回答してください。
要求文	この画像について解説してください。
応答文	この画像は、Microsoft Azure のクラウドサービスとネットワーキング機能の概要を示した図です。図の左側には、Microsoft 365、Power Platform、Azure の各サービスがリストされており、右側には Azure のプライベートリンク関連サービスがリストされています。中央部分には、Azure Virtual Network の HUB と SPOKE モデルが描かれており、異なる種類のネットワーク接続が視覚的に表現されています。以下に各部分の簡単な説明をします： Microsoft 365 / Power Platform / Azure: これらはMicrosoftの提供するクラウドベースのサービス群です。Microsoft Teams、Exchange Online、Power BI、Azure DevOps Services などが含まれています。 Azure: 一般的なAzureサービスがリストされており、Azure Portal や Microsoft Entra ID などがあります。 Azure (Private Link 対応サービス): Azure Private Link を使用してプライベートな接続を提供するサービスがリストされています。例えば、Azure Data Lake Storage、Azure SQL Database、Azure Synapse Analytics、Microsoft Log Analytics Workspace などがあります。 Azure Virtual Network HUB: Azureの中心的なネットワーキング機能で、Azure Firewall や VNet Gateway などの機能を使用して、セキュアな接続を管理します。 Azure Virtual Network SPOKE: HUB と組み合わせて使用されることが多く、特定のワークロードやアプリケーションのためのネットワークセグメントです。Private Endpoint などの機能を使用して、限定されたアクセスを提供します。 ExpressRoute 接続パートナー: Microsoftのクラウドサービスへの専用のプライベート接続を提供するExpressRouteの概要が示されています。ExpressRoute GW（Microsoft Peering）、ExpressRoute GW（Private Peering）があります。大企業顧客社内ネットワーク: 社内のオンプレミスネットワークを表しており、ExpressRouteを介してAzureクラウドと接続されています。画像の下部には、色と形状で区別された各種サービスの凡例が記載されています。これにより、各接続タイプやサービスを図上で簡単に識別することができます。

出所：大和総研作成

　画像の作成者の視点からは「Microsoft Azure のクラウドサービスとネットワーキング機能の概要を示した図」という要約は的確です。主旨を正しく認識できているものと判断しました。また「各部分の説明」にて、作成者が図を通して伝えたかったことがほぼ全て網羅されています。肯定的な要素を列挙すると次の通りです。

図の主旨（Azureのクラウドサービスを中心とするネットワーク構成の概要を示すもの）を理解できている
各ネットワーク空間の用途や目的を理解できている。特にAzure Virtual NetworkのHUB/SPOKE構成を理解しメリットを説明できていることには感心した
図上のAzureサービスやネットワークアプライアンスなどをほぼ完全に網羅し、列挙できている。また各サービスやアプライアンスの概要説明にも明白な誤りは認められない
「凡例」セクションの存在と意義についても正しく認識できている

　一方で、以下にあげるように一部の日本語（文字列）が正しく認識されませんでした。「接続プロバイダー」といった一般的ではない用語や「大和総研」といった固有名詞を正確に識別することはまだ難しいようです。

【誤】 ExpressRoute 接続パートナー ⇒ 【正】 ExpressRoute 接続プロバイダー
【誤】大規模顧客社内ネットワーク ⇒ 【正】大和総研社内ネットワーク

　総合すると、一部の日本語（文字列）を認識できてはいないものの、「Azureを中心とするサービス・ネットワーク構成図」であるという主旨を認識できており、かつ画像の構成要素（サービス、ネットワークアプライアンス）を識別できているため、画像認識・分析能力は実用的なレベルであると言えるのではないでしょうか。

② システム設計図の各構成要素について説明できるか？

　続いて、画像内の各構成要素について説明を求めました。

表3 システム設計図の各構成要素について説明できるか？

セクション	内容
システムプロンプト(AIへの要求事項)	アップロードされた画像に基づいて日本語で回答してください。
要求文	この画像に掲載されているMicrosoftのクラウドサービスやネットワークアプライアンスについて詳しく説明してください。
応答文	画像には、Microsoft Azureの様々なクラウドサービスとネットワーキングコンポーネントが図解されています。以下は、画像に表示されている各コンポーネントの簡単な説明です： Microsoft 365 / Power Platform / Azure - これらはMicrosoftのクラウドベースのサービス群です。 Microsoft Teams: コラボレーションとコミュニケーションを目的としたプラットフォーム。 Exchange Online: メールとカレンダーサービス。 Power BI: ビジネスインテリジェンスツール。 Azure DevOps Services: 開発プロジェクトのためのCI/CD（継続的インテグレーション/継続的デリバリー）を含む、開発と運用のためのサービス群。 Azure - Microsoftのパブリッククラウドプラットフォームで、さまざまなサービスとリソースを提供します。 Azure Portal: Azureリソースを管理するためのWebベースのインターフェース。 Azure Virtual Network - Azure上でプライベートネットワークを構築するためのサービスです。 Azure Firewall: ネットワークレベルのセキュリティとフィルタリングを提供するサービス。 VNet Gateway: VPNやExpressRoute接続を通じてAzure仮想ネットワークをオンプレミスネットワークに接続するためのゲートウェイ。 Azure Private Link: セキュアなプライベート接続を介してAzureサービスにアクセスするためのサービス。 Azure Virtual Network HUB and SPOKE: ハブアンドスポークトポロジーを使用して、中央のハブVNetと複数のスポークVNetを接続するためのアーキテクチャ。 ExpressRoute: Azureとオンプレミスネットワーク間の専用プライベート接続を提供するサービス。 Azure ExpressRoute: オンプレミスネットワークとAzureの間でプライベート接続を確立するためのAzureのサービス。 Azure Virtual Network Peering: 2つのAzure Virtual Networks間のネットワーク接続を可能にするサービス。 Azure Private Endpoint: プライベートIPアドレスを使用して、Azureのサービスにネットワーク内からアクセスするためのサービス。その他のAzureサービス: Azure Data Lake Storage: ビッグデータ分析用のスケーラブルなデータストレージ。 Azure Data Factory: データ統合とETL（Extract, Transform, Load）プロセスをサポートするサービス。 Azure SQL Database: データベースサービス。 Azure Synapse Analytics: ビッグデータとデータウェアハウスの分析サービス。 Microsoft Log Analytics Workspace: ログデータの収集と分析のためのサービス。この図はネットワークの設計や構造に関する情報を提供しており、それぞれの要素がどのように連携して機能するかを示しています。また、色分けされた要素は、異なる種類の接続やリンクを表しています。例えば、紫の線はExpressRoute接続を示しています。

出所：大和総研作成

　主要なサービスとネットワークアプライアンスがほぼ全て認識され、列挙されています。「Microsoft Entra ID」および「Microsoft Purview」が応答文中に含まれていませんが、これは投入したのが「オープンな質問」であったからであり、質問のフォーカスを絞る（例：「『Azure（Private Link 対応サービス）』のネットワーク領域内の各サービスについて詳しく説明してください」）ことで追加されるようになると推定しています。
　また各要素の説明についても明白な誤りは認められません。Microsoftの公開情報（Microsoft Learn等）から学習した内容を適切に要約し出力しているものと思われます。
　以上より「画像から取得した情報（要素）」に関連する情報を自身の学習データの中から抽出し、要約して出力することに関しても十分な能力を有すると言えるのではないでしょうか。

③ システム設計・構成の改善点を指摘できるか？

　次に、画像において示した「クラウドサービスの構成やネットワーク構成の改善点」についてオープンに質問しました。

表4 システム設計・構成の改善点を指摘できるか？

セクション	内容
システムプロンプト(AIへの要求事項)	アップロードされた画像に基づいて日本語で回答してください。
要求文	この画像はとある企業の「クラウドサービスの構成」や「ネットワーク構成」の概略を表したものです。構成について改善すべき点があれば箇条書きで列挙してください。
応答文	申し訳ありませんが、画像の内容に基づいた具体的な技術的アドバイスや改善点の提案は行えません。ただし、一般的なクラウドネットワークインフラの設計の改善に関してはいくつかの指標を提供できます。以下はクラウドサービスの構成において考慮すべき一般的な改善点です：セキュリティの強化: ネットワークセキュリティグループやアプリケーションゲートウェイなどのセキュリティ機能を適切に設定して、不正アクセスを防ぎます。バックアップと復旧: データ損失やサービス中断を防ぐために、定期的なバックアップと災害復旧計画を整備します。パフォーマンス最適化: 使用状況に応じてリソースをスケーリングし、過剰なコストがかからないようにします。コスト管理: リソースの使用状況を監視して、コスト効率の良い運用ができるように調整します。監視とログ: システムの動作をリアルタイムで監視し、問題が発生した際に迅速に対応できるようにログを管理します。コンプライアンスとポリシーの管理: 法規制や企業ポリシーに準拠しているか定期的に確認し、必要に応じて構成を更新します。これらの改善点は一般的なものであり、実際の構成図の詳細な分析に基づいた提案ではありません。専門的なアドバイスが必要な場合は、ITインフラの専門家に相談することをお勧めします。

出所：大和総研作成

　複数回試行しましたが、応答されたのは「一般論（クラウドサービスやネットワークの構成に関する一般的な考慮事項）」のみでした。
　システムやネットワークの構成について具体的なアドバイスを得るには、要求文やシステムプロンプトの内容を考慮する必要があるようです。あるいは、インプット画像を「より詳細度の高い構成図」に変更することでより具体的なアドバイスを得られるかもしれないと感じました。今回使用した画像はあくまで「概要構成図」であり、内容は抽象的です。AIの学習データから妥当性を評価することは難しいのかもしれません。

④ システム設計図の改善点（説明図としての改善点）を指摘できるか？

　最後に、画像の「説明図としての改善点」についてオープンに質問しました。

表5 システム設計図の改善点（説明図としての改善点）を指摘できるか？

セクション	内容
システムプロンプト(AIへの要求事項)	アップロードされた画像に基づいて日本語で回答してください。
要求文	この画像を分析し、改善すべき点があれば箇条書きで列挙してください。
応答文	画像の分析として、以下の改善点を提案します。色使い：色のコントラストを強めることで、さまざまなコンポーネント間の区別を明確にし、視覚的な階層を改善できます。テキストの可読性：一部のテキストが小さいため、可読性を向上させるためにフォントサイズを大きくすることを検討してください。アイコンの一貫性：全てのアイコンが同じスタイルやサイズであることを確認し、一貫性を持たせてください。凡例の位置：凡例が画面の右下に位置しており、視線の動きを考慮すると、左上または画面の初めに配置することで見つけやすくなります。線と接続点：線の太さが一貫していないように見えるので、一貫性を持たせることで全体の見た目を統一できます。また、接続点が線に対して中心に位置していない箇所を修正してください。レイアウトのバランス：一部のエリアに情報が密集しているので、スペースを均等に分散させることで、全体のバランスを取り、情報の重要度を適切に表現してください。言語の統一：全てのテキストが日本語であることを確認し、混在している場合は統一してください。アイコンとテキストの関連付け：アイコンとそれに関連するテキストが近接して配置されていることを確認し、どのテキストがどのアイコンに対応しているのかを明確にしてください。これらの改善点を検討することで、視覚的なクリアさと情報の伝達効率を高めることができるでしょう。

出所：大和総研作成

　インプット画像に即したものであるか疑わしい（一般論に近いとも思える）指摘もありますが、当画像の次の特徴を認識できているものと見えます。

各要素の色使い
テキスト（フォント）のサイズ
オブジェクト（サービスのアイコンなど）のサイズ、説明文との位置関係
接続線の様式（太さなど）、接続先オブジェクトとの位置関係
全体的なレイアウトのバランス

　コミュニケーションを繰り返し質問のフォーカスを絞っていけば、説明図の「見栄え」についても具体的なアドバイスを得られるようになるのではないでしょうか。

⑤ 総評

　節①で紹介した通り、GPT-4 Turbo with Visionの「画像内の要素を認識する能力」は高いと感じます。インプットとして使用した画像内の要素「クラウドサービスやネットワークアプライアンス」のほぼ全てが網羅され、応答文中に組み込まれていました。そして、各要素の情報を総合し画像の主旨を特定することができていました。
　また節②で紹介した通り、「認識した要素を説明する能力」も高いと感じます。特に、「Azure Virtual NetworkのHUB/SPOKE構成」といった専門性の高い用語についても正しく識別され、妥当な内容説明が添えられていたことには感心しました。GPT-4 Turboの学習データの豊富さに改めて感銘を受けました。
　一方、節③、④で紹介した通り、「画像に示されるサービスやネットワークの構成の妥当性を評価する」、「画像の『説明図としての』妥当性を評価する」ことについては、有用な回答が得られませんでした。抽象的な質問（オープンな質問）に対しては「一般論」しか応答されませんでした。要求文やシステムプロンプトの内容を具体化・詳細化する、インプット画像自体を「客観的な妥当性評価が可能になるまで」詳細化するなどの工夫が必要であると考えられます。
　以下は検証者個人の見解に過ぎませんが、自身の作成した説明図について、AIによる機械的なチェックを受けることによって改めて得られた「気づき」がありました。また、説明図に示した構成についてAIにより合理的な説明がなされていることから「構成に明白な錯誤や矛盾はない（なぜなら、錯誤や矛盾があればAIの応答文にも不合理な点や不審な点が生じるはずであるから）」という傍証を得ることができ、安心できました。
　以上より、GPT-4 Turbo with Visionはクラウドサービスを中心とするシステムやネットワーク設計図のセルフチェックツールとして十分に有用であると感じました。

GPT-4 Turbo with Visionの活用の今後の展望

日本語認識能力の向上：Azure AI Visionとの連携により実現可能。ただし正式モデルには実装予定なし

　前章の節①にて、GPT-4 Turbo with Visionの日本語認識能力には課題があることを紹介しました。この課題の対策として、Azureの画像・動画分析サービスであるAzure AI VisionをAzure OpenAI Serviceと連携させる方法が提供されています。これはOpenAI社の（オリジナルの）ChatGPTにはない、Azure OpenAI Service固有のメリットであると一般的に言われています。

　しかしながら、「はじめに」の章でも触れた通り、この連携機能は現時点でプレビューモデル（gpt-4 vision-preview）には実装されているものの、正式モデル（gpt-4 turbo-2024-04-09）には実装されていません。Microsoftカスタマーサポートに問い合わせたところ、「正式モデルへの実装時期は現時点で未定」「プレビューモデルは2024年6月以降に廃止予定」との回答でした。
　以上の状況から、DIR ChatGPTではAzure AI Visionの本格利用を保留しています。利用開始時期は「正式モデルへのAzure AI Vision連携機能の実装スケジュール」および「正式モデルの東日本リージョンへの提供開始スケジュール」を受けて改めて検討する方針です。

対話ログ保管：画像をデータに変換しログデータとして保管

　先行ブログ「Azure OpenAI Serviceのプライベートネットワーク化と対話ログ保管運用」にてAzure OpenAI Serviceとの対話履歴をログとして保管する環境構成について紹介しました。対話ログを保管することには、「①カスタムAIモデルの精度向上のための学習データとして利用できる」、「②利用状況の事後監査に利用できる」という2つのメリットがあると判断しています。
　上記のメリットから、インプットとする画像ファイルも対話ログに加え保管することが望ましいと考えています。
　画像ファイルを対話ログに加えるため、DIR ChatGPT独自のWebユーザーインターフェースアプリケーション（図3においてStatic Web Appsサービス上で稼働させているものです）に「要求メッセージに添付された画像ファイルを『base64形式』のデータに変換し、APIリクエストメッセージ内にセットしてAzure OpenAI Serviceに送信する」機能を追加実装することを一案として検討しています。GPT-4 Turbo with VisionのREST APIインターフェースには画像ファイルのデータを「base64形式」でインプットする機能が備わっています。

GPT-4 Turbo with Vision モデルを使用する方法 - Azure OpenAI Service | Microsoft Learn

　この対応により、インプットされた画像ファイルがbase64形式のデータとしてAzure API Managementのネットワークログ内に保管されることになります。

出所：大和総研作成

　ただしこの構成には注意事項があります。
　図3中の「④対話ログ保管」はAzure標準の監視ソリューションであるAzure Monitorによって行われ、ログデータは「ApiManagementGatewayLogs」というログテーブルに保管されます。しかし、保管することのできる1トランザクションあたりのログデータのサイズには上限があります。
　一般に画像データは文字データに比べ容量が大きいため、画像データをともなう対話を繰り返した場合対話ログの全文が保管されない（上限を超えた範囲がログデータから欠落する）ことになります。
　以上の制約があることから、画像データを含む対話ログを確実に保管するためにAzure標準ソリューション（Azure Monitor）の利用を断念し、Webアプリケーションに「送受信したAPIメッセージの全データを取得して大容量ストレージ（コーポレートデータプラットフォームのデータレイクストレージなど）に蓄積する」機能を追加実装することも構想しています。

おわりに

　Azure OpenAI Serviceは日々進化しています。DIR ChatGPTもこの進化のスピードに乗り遅れないよう、新機能の導入と検証を積極的に進めています。また、新機能の検証を安全に行うために、セキュアなAzure OpenAI Service環境をフルに活用しています。
　今回の検証ではGPT-4 Turbo with Visionの画像認識・分析機能は実用的なレベルにあることを実感できました。次に期待しているのが画像生成機能です。既存の図表を投入し変更要件を文章で伝達するとアップデートバージョンが自動生成される（つまり、画像データから画像データを再生成できるようになる）、というレベルになれば生成AIの活用範囲がさらに広がりますね。
　今後も新機能の導入と検証の成果を順次ブログにて発信します。これからもどうぞご期待ください。

（本ブログの内容は2024年5月時点のものです）

はじめに – GPT-4 Turbo with Visionの利用環境

インターフェース：Azure OpenAI Studioをプライベート（閉域）ネットワーク下で使用

AIモデル：東日本リージョンでプレビューモデル（gpt-4 vision-preview）を使用

GPT-4 Turbo with Visionの検証結果：システム設計図のセルフチェックツールになりうるか？

① システム設計図の主旨を理解し説明できるか？

② システム設計図の各構成要素について説明できるか？

③ システム設計・構成の改善点を指摘できるか？

④ システム設計図の改善点（説明図としての改善点）を指摘できるか？

⑤ 総評

GPT-4 Turbo with Visionの活用の今後の展望

日本語認識能力の向上：Azure AI Visionとの連携により実現可能。ただし正式モデルには実装予定なし

対話ログ保管：画像をデータに変換しログデータとして保管

おわりに

関連するソリューション