さて,最近のAIの進化により,ウェブの検索でハルシネーションは減少し推論機能は拡大している。彼らは単なる統計的なオウムではなくて,背後に世界モデルをもっていろいろな物事を理解しているのではないかと,松田先生もおっしゃっている。
ところが,そうではなくて,LLMによる理解というのは見せかけのものでしかないことを示す論文がでた。ChatGPT 4oによるポチョムキン理解の論文の読解結果をかみ砕いてをまとめると,
以下の3つの分野で「定義できるのに使えない」ケース=ポチョムキン理解を調査した1.文学的技法(例:俳句、アナロジー、押韻)2.ゲーム理論(例:ナッシュ均衡、パレート最適)3.心理的バイアス(例:サンクコスト効果、正常性バイアス)それぞれについて以下のようなタスクを実施:・定義:概念を言葉で説明させる・分類:例がその概念に当てはまるか判断させる・生成:指定条件に沿った例を作らせる・編集:既存の例を修正させる定義は正しいが,応用で失敗する率(ポチョムキン率)が非常に高かった。ChatGPT 4o 分類失敗 53%,生成失敗 38%,編集失敗 35%これはただのエラーではなく内部的な一貫性の欠如を表している。従来のベンチマークでは本当の「理解」を評価できていない。このポチョムキン理解はハルシネーションのチェックより深刻で見抜きにくい。
俳句については以前から,うまく理解できていないことはわかっていたが,これは単に日本文化の学習データ不足から来ていると思っていた。ところが,それはそうではないのかもしれない。
図:俳句の概念が理解できていない ChatGPT 4o
0 件のコメント:
コメントを投稿