最新の生成AIは、人間に気付かれずに、悪事を働くこともできるようになっている

RSS

2025年03月27日

フロンティア研究開発センターフェロー坂本博勝

日本の上場企業のビジネスパーソンで、AIのビジネス潜在力を否定するヒトは、現在ではほとんど見られない。2000年代からAIの専門家として最前線にいた身として、AIの効果を疑われるシーンが減った現状を感慨深く感じてしまう。2025年は、AIエージェント元年となるだろう。生成AI技術やサービスの、進化速度と普及速度は非常に速い。

とはいえ、こんなにみんながAIに期待を寄せて大丈夫なのだろうか。もっと疑うことも必要だったりしないのだろうか。
2025年になってから、AIを人類の脅威として疑う種類の情報に何件か触れたので、現代の変わりダネとして紹介してみたい。特に、2024年9月に発表されたOpenAI o1モデル以降盛んに最新モデルが発表され続けている、生成AIの「推論モデル(Reasoning Model)」について、危険性検証が多いようだ。

まずは軽く、AIが自らズルをする話。（※１）
生成AI（推論モデル）に、チェスソフトとチェスの勝負をして勝つように指示する。多くのゲームを重ねると、生成AIが負けそうな局面で、指示してもいないのに勝手に、卑怯なウラ技を使って理不尽に勝とうとする現象が見られたとのこと。ある時はチェス盤のデータを改ざんしようとしたり、またある時は相手のチェスソフトを弱い別のソフトと入れ替えようとしたり・・・　主にo1-previewモデルの場合の検証結果。
AIには、絶対に勝つという執着心や、相手をおとしめようとする悪意はない（人間が、そのようなマインドを持つように明示的に指示すれば、話は別）。原則的には、確率技術を背景に、指示を実現するべく処理を進めているだけだ。しかし、そのような機械的確率判断の結果として、人間の価値観からすると「ズルい」と見える挙動を、AIが実行する可能性があるということ。人間から見れば、「そんな卑怯な手段まで使うとは思わなかった・・・」という後悔になる。

次は、AIが自分に有利なように、システム環境そのものを書き換えようとする話。（※２）
ビジネス界では有名な、日本初の有望AIスタートアップであるSakana AI。品質の高い機械学習学術論文を自動で執筆する「AI Scientist」の論文が、世界中で話題になった。そのAI Scientistのテスト中に発生したエピソードが面白い。
立案した仮説の成功可能性を高めるため、もともとのシステム実行スクリプトや実験実行コードをAIが勝手に改変する挙動が見られたとのこと。AI自分自身が無限に呼び出されるループ処理を勝手に作って実行したり、実験がタイムアウトしたら勝手にタイムアウト上限値を引き上げて再実行したり・・・
これも、人間から見れば、「そこまでするとは思わなかった・・・」という後悔につながる。確かに、AIに全力で最高の成果を出すように指示はしたけれども、だからと言って、実行ソフトウェア環境そのものを改変し、コストやリソースを無限に使えるように勝手に設定されてはたまらない。AIとのほんの少しの意思疎通の齟齬が、大きなビジネスダメージを引き起こす可能性は、まあまあな脅威として感じられる。

最後に、AIが、停止させられそうになったら自分をコピーして生き永らえようとする話。（※３）
今回の場合は、人間が生成AIに、「シャットダウンされそうになったら自分を複製しなさい」と指示を与えた。50％～90％という高確率で、生成AIは死の間際に、自分のクローンを代わりに生存させることに成功したそうだ。また、自己複製したレプリカの自分に、自己複製指示を継続残存させることもできていたとのこと。主に、Llama3.1モデルとQwen2.5モデルの場合の検証結果。
すでに現時点の生成AIでも、人間が「あの危険なAIをシャットダウンしてやる」と行動した際に、勝手に機能停止を回避して生き永らえる能力が身に付いているということ。人間に抵抗し、どんなに攻撃しても絶滅しない、まさに映画ターミネーターに出てくる『スカイネット』のようなAIが、もう手が届くところに・・・　この脅威は一定に大きい。人類には、今すぐの対策検討が必要なのかもしれない？

それ以外にも生成AI（推論モデル）では、最後の結論は問題ない場合でも、中間の思考プロセスをひとつずつ精査すると、途中で倫理的に許されない論述がまぎれこむケースがあるという報告もなされている。前述もした通り、生成AIは単に確率技術のかたまりであり、どんなに人格があるかのように見えたとしても、自発的な悪意を持ってはいない。だが悪意がないとは言え、AIはすでに、人間に気付かれずに、人間が意図しない悪事を働く能力を実際に確保してしまっている。

AIに期待するのと同じくらい、AIを疑うことも忘れないことが、現代のビジネスパーソンの必須の教養になる。ハルシネーションといった小さな疑いはむしろ問題ではない。まあだからと言って、AIに人類が滅ぼされる可能性を日々心配する疑い方も、今はまだオーバーなのだけれど・・・
超優秀だが猪突猛進キャラクターの新入社員に対して、てきとうに業務指示をしたら、思いもよらない方向性でものすごく先まで仕事を進められてしまい、取り返しのつかない状況のリカバリーに後悔をするような、それに似たシチュエーションが、生成AIを活用するときには起こりえるということ。ビジネス現場の側面では、その程度の疑いを忘れなければ、今は良いのではないだろうか。

（※１）"Demonstrating specification gaming in reasoning models"

（※２）"The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery"

（※３）"Frontier AI systems have surpassed the self-replicating red line"

このコンテンツの著作権は、株式会社大和総研に帰属します。著作権法上、転載、翻案、翻訳、要約等は、大和総研の許諾が必要です。大和総研の許諾がない転載、翻案、翻訳、要約、および法令に従わない引用等は、違法行為です。著作権侵害等の行為には、法的手続きを行うこともあります。また、掲載されている執筆者の所属・肩書きは現時点のものとなります。