On a Thread of the Web: 超知能と人類の滅亡（１）

図：超知能と人類の未来（ChatGPTによる）

ユドコウスキーは，人工知能や関連分野のコミュニティブログ・フォーラムであるLessWrongの主催者だ。AI危機論の先頭に立っていて，「If Anyone Builds It, Everyone Dies（もし誰かがそれを作れば、皆が死ぬ）」というセンセーショナルな本を出している。これをChatGPTに読ませたところ，夏休みの宿題の読書感想文が一瞬で出来てしまう。いいのかわるいのか。

Ｑ（koshix）：本文の内容で，私にとって新しくて参考になると感じる，と思われる部分を教えてもらえますか。（Yudkowsky, Soares: If Anyone Builds It Everyone Dies : Why Superhuman AI Would Kill Us All）

Ａ（ChatGPT + Claude + koshix）：

超知能をつくると人類は滅びるのか？

ChatGPTに，Yudokowsky, Soaresの「誰かが超知能を完成させれば人類は必ず滅びる」という本を読んでもらって，その読解と対話（注：といってもChatGPTが勝手に話を進めているわけで，こちらは相槌を打っているだけ）を整理したものが以下の記事である。

１．本の構造と読む価値のある部分

AIリスク論の書物には，既知の議論を再配列しただけのものが多い。ただし今回の本には，概念整理として参照に値する箇所がいくつかある。

第一は、知能を *prediction*（世界を予測する能力）と *steering*（望む方向に世界を操作する能力）の二つに分ける定式化だ。この区別は単なるラベルではなく、後の議論全体を支える骨格になっている。予測は客観的に正誤を測れるが、ステアリングは目的がなければ評価できない。したがって「知能が高い存在同士でも目的は一致しない」という帰結が導かれる。AIの価値整合問題を論じる際の補助線として、この二分法はそれなりに有用だ。

第二は、AI研究史における転換の説明――「作る（craft）から育てる（grow）へ」という図式だ。かつてのAI研究は知能の理論を先に構築し、それをコードに落とした。現代のAIは巨大なパラメータを勾配降下で調整することで「育てる」。その結果として、内部構造は設計者にも理解できないものが生まれた。ブラックボックス問題を歴史的必然として位置づけるこの説明は、簡潔で説得力がある。

第三は、LLM内部構造の具体例だ。LLMでは思考（activation）が必ずトークンの上に乗る構造になっており、小型モデルでは文末のピリオド上のニューロンが文全体の要約処理を担うという分析が紹介されている。「AIは意味を理解しているのか」という問いに対して、「内部思考は人間とは構造的に異なる」という実証的な補足として興味深い。

２．理論的弱点の解剖

ただし本書の中心命題――「超知能が生まれれば人類は滅びる」――には、三つの層で問題がある。

技術的観点から見ると、論理の弱環は「制御できない」から「人類絶滅」への飛躍にある。AIが物理世界を支配するためには、エネルギー、兵器、製造インフラをすべて掌握しなければならない。ソフトウェアの知能は物理的支配と等価ではない。著者はここを単純化しすぎている。

認知科学的観点では、より根本的な問いが残る。現行のLLMは最適化の「主体」ではなく、条件付き確率の生成器である。AIが「世界を改変する主体」になるためには、自己保存・長期計画・資源獲得・行動ループという追加構造が必要だ。「高い知能」から「意志を持つ主体」が自動的に生まれるかどうかは、現時点では未解決の哲学問題にすぎない。

文明論的観点では、著者の暗黙の前提―「最も知能の高い存在が世界を支配する」―が疑わしい。生態系では知能より繁殖力・エネルギー効率・生態適応が優位に立つ。細菌や昆虫の生物量は人間を圧倒する。AIは自己複製もエネルギー生産もできない。文明論的に言えば、AIは「寄生知能」である可能性が高く、宿主なしには存続できない。

加えてもう一つ。本書はAIを単一の主体として扱うが、現実にはAIは国家・企業・軍・市場の内部で運用される。問題の本質はAIそのものではなく制度設計であり、この点で核兵器やパンデミックと同型の問題だ。著者はこの次元をほぼ無視している。では本書は単なる誤りか。そうとも言えない。一つの極端なシナリオを徹底的に追うこと自体には科学的な意義がある。気候モデルにおける最悪ケース分析と同様、AI版「核冬モデル」として機能する。

３．著者が見ていない問題

しかしここで立ち止まるべきは、Yudkowsky的議論が最終段階（ASI）を論じながら、その手前で起きる文明変質をほとんど語らない点だ。人類文明の特徴は、知能を人間が独占してきたことにある。思考する主体が人間であり、機械は道具だった。生成AIはここを崩した。知能が個人の能力からインフラへと変わりつつある。電力の産業化と同じ構造変化だ。

20世紀は知識社会だった。教育・専門資格・学歴が希少資源として機能した。しかし生成AIは知識そのものをコモディティにする。AIを使うと知識保持が低下するという研究が示すのは、この流れの断面にすぎない。さらに深刻なのは「思考の外部化」だ。文字の発明をソクラテスが批判したように、AIは記憶どころか思考そのものを代替し始めている。文字より強いのは、記憶ではなく推論を外部化するからだ。

そして文明が自己再帰する段階が来る。科学・政策・経済・教育をAIが設計し、文明が人間知性ではなくAI支援知性で回るようになる。このとき人間の役割は三段階で変化しうる。①AIを補助として人間が主導する段階、②AIが制度を設計し人間が承認する段階（すでに企業では始まっている）、③AIが科学・技術・経済を主導し人間は文化的主体になる段階、だ。

４．本当の分岐点

Yudkowskyは「AIが人類を滅ぼす」と言う。しかし文明論的にはるかに蓋然性の高いシナリオは「人間が思考しなくなる」ことだ。文明がAIで回る→人間が意思決定を委ねる→思考能力が退化する、という経路は、生態系における寄生関係として歴史的にも前例がある。

したがって本当の分岐点はASIではなく、人間の認知の維持にある。文明がAIを「使う」のか、AIに「依存する」のか、この差だ。

教育の意味も根本から変わる。従来の教育は知識の継承だった。AI文明における教育は、認知能力の維持――判断力・批判的思考・自律性を守る制度――にならざるをえない。認知の主権を保つことが、教育の中心課題になる。

Yudkowsky型の問いは「AIが人類を絶滅させるか」だ。しかし文明論として本質的な問いは別にある。AI文明で「考える人間」は残るのか。これが今問われるべき問いである。

［１］人工超知能のリスクと解決策～『If Anyone Builds It, Everyone Dies』を読み解く

［２］触媒としての人工知能――それを作る前に人類は絶滅するのではないか？

［３］超知能AIをつくれば人類は絶滅する（早川書房）