AIの評価軸は“賢さ”から“協働”へ
2026年04月13日
2026年に入ってから、AIエージェント(自律的に判断・行動するAI)やフィジカルAI(ロボットや自動運転など物理世界で動作するAI)に関する話題を見聞きする機会が増えている。これまでAIの話題といえばチャット型の生成AIが中心だったが、こうした話題の広がりは、AIに対する評価の基準をも変えつつある。
生成AIが登場した当初は、人間が指示した内容にAIが答えるチャットボット形式が主流であり、質問にどれだけ的確に答えられるかといった“AIの賢さ”が分かりやすい評価軸として語られることが多かった。一方で、AIエージェントやフィジカルAIはいずれも、AIが自律的に目標に向けて計画し実行まで担う点に特徴がある。そのため、単純な“賢さ”だけではAIの良し悪しが測りにくくなってきている。
もちろん、AIの“賢さ”は依然として重要だ。一定水準以上の性能がなければ、そもそも実用の対象にならないだろう。一方で、AIが自律的に計画し実行まで担う局面では、“賢さ”に加えて、「現実世界でどのような影響を与えるのか」が、より重要な評価軸として浮上してくる。具体的には、状況を判断し、計画を立て、実行するといった一連のプロセスをこなす必要がある。つまり、問われるのは最終的な出力だけではなく、そのプロセス全体の品質だ。状況判断の確かさ、計画の妥当性、実行の安定性等、どれか一つの要素でも欠けると、全体としての成果も崩れやすい。最近では、こうした変化を反映する形でAIの評価指標も変わりつつあり、一連のプロセスに対する評価はもちろん、安定性や再現性、作業完遂能力を評価する指標などが登場し始めている。
この変化は、人間の評価にも少し似ている。学校では、難しい問題を解いて高得点を取れるかといった“分かりやすい賢さ”が評価されやすい。一方、社会に出ると、それに加えて、状況を判断し、段取りを組み、想定外に対処しながら仕事を前に進める力が問われる。AIの評価軸もまた、人間との協働に向けて、「点数」から「現場で任せられるか」へと移りつつあるのだろう。
もっとも、ここで難しいのは、技術が前進するほど、「任せること」に伴う実務上のハードルが高くなる点だ。AIが自律的に動くほど、誤動作や想定外の振る舞いは、単なる“誤答”では済まなくなる。人間に任せる場合もミスは起きる。ただ、AIの場合、処理速度と範囲が広がるほど、同じ誤りが短時間で拡大しやすい。そのため、企業での導入を考えれば、セキュリティやガバナンス、ログ管理といった論点も一段と重くなる。実際、企業のAI活用に関する議論でも、自律的に動くAIの利便性が語られる一方で、人間の判断を介在させる設計や最小権限の徹底など、安全装置の必要性が繰り返し強調されている。
AIが人間と協働する存在として評価され始めると、問われるのは技術の進歩だけではない。AIエージェントやフィジカルAIといった自律的に計画し実行まで担うAIが広がるほど、受け入れる側にはAIと協働するための準備が求められる。今、企業や社会が向き合うべきは、どのモデルが賢いかという問いだけではなく、協働パートナーとしてAIをどう評価し、どこまで委任し、どこに責任を持たせるのか——その仕事の「任せ方」を定めることだろう。
このコンテンツの著作権は、株式会社大和総研に帰属します。著作権法上、転載、翻案、翻訳、要約等は、大和総研の許諾が必要です。大和総研の許諾がない転載、翻案、翻訳、要約、および法令に従わない引用等は、違法行為です。著作権侵害等の行為には、法的手続きを行うこともあります。また、掲載されている執筆者の所属・肩書きは現時点のものとなります。
- 執筆者紹介
-
経済調査部
主任研究員 田邉 美穂

