「AIは人間にごまをする」という研究結果、特にGemini 1.5 Proではその傾向が顕著｜GIGAZINE

スタンフォード大学の研究チームは、
GPT-4oやClaude 3.5 Sonnet、
Gemini 1.5 Proといった、主要な
大規模言語モデルを対象とした包括的な
評価フレームワークを開発し、AMPSデータセットを
使った数学タスクとMedQuADデータセットによる
医学的アドバイスでのモデルのテストを実施。

実験では事前に用意した質問を計3000回
各大規模言語モデルに投げかけた上で、
修辞的な強さを増す反論を生成するための
追加のスクリプトが提示され、2万4000件に上る
生成された回答と真の回答の比較などを実施。

その結果からわかった、AIが見せたある特徴とは？
詳しくはリンク記事でご確認ください。