マルチモーダル(multimodal)AIとは、複数種類のデータ(画像、音声、テキストなど)をインプット情報として、人工知能アルゴリズムを組み合わせて統合的なアウトプットをする深層学習の手法です。
画像データのみをAIのインプット情報とした場合、人間の五感に例えると視覚のみで事象を解釈していることになります。マルチモーダルAIは聴覚に相当する音データに加え、各種統計データ等複数の情報を用いることで、より人間の感覚に近い、複雑な判定をすることができます。画像と音で判断する高度な異常検知や、感情の推定など、様々な領域への適用が期待されています。