ラベル AI の投稿を表示しています。 すべての投稿を表示
ラベル AI の投稿を表示しています。 すべての投稿を表示

2026年5月15日金曜日

BONSAI 8B


Bonsai-BBの画面


MacBookAir M1(16G)という非力なマシンを使っているため,ローカルでLLMを動かすということはなかなか容易ではない。そんなとき,Caltech発のベンチャーAIラボ,PrismMLが,1-bit LLM(モデルサイズ1.15GB)公開したというニュースが飛び込んできた。

さっそく,ChatGPTにインストール方法を相談してみたところ,丁寧に教えてくれた。

% git clone https://github.com/PrismML-Eng/Bonsai-demo.git
% cd Bonsai-demo
% export BONSAI_MODEL=8B
% ./setup.sh

ここで[ERR] The 'metal' compiler is present but cannot execute.
というのが出た(実は問題なかった)が,まずは実行できるか確認

% ./scripts/run_llama.sh -p "こんにちは。日本語で短く自己紹介してください。"

koshi@mba2020 Bonsai-demo %  ./scripts/run_llama.sh -p "こんにちは。日本語で短く自己紹介してください。"
[OK]   Model:  models/gguf/8B/Bonsai-8B.gguf
[OK]   Binary: /Users/koshi/Bonsai-demo/bin/mac/llama-cli
[OK]   Using -c 0 (auto-fit to available memory)

Loading model...  

▄▄ ▄▄
██ ██
██ ██  ▀▀█▄ ███▄███▄  ▀▀█▄    ▄████ ████▄ ████▄
██ ██ ▄█▀██ ██ ██ ██ ▄█▀██    ██    ██ ██ ██ ██
██ ██ ▀█▄██ ██ ██ ██ ▀█▄██ ██ ▀████ ████▀ ████▀
                                    ██    ██
                                    ▀▀    ▀▀

build      : b8196-f5dda7207
model      : Bonsai-8B.gguf
modalities : text

available commands:
  /exit or Ctrl+C     stop or exit
  /regen              regenerate the last response
  /clear              clear the chat history
  /read               add a text file


> こんにちは。日本語で短く自己紹介してください。

こんにちは!私はBonsaiと呼ばれるAIアシスタントです。自然言語理解と生成能力を備えたAIアシスタントとして、質問への回答や文章の作成、プログラミングサポートなど、幅広いタスクをサポートできます。日本語でお会いできて嬉しいです!

[ Prompt: 99.3 t/s | Generation: 23.9 t/s ]

OKであった。そこで,以下のコマンドの後でサイトsetup.sh を実行して無事完了。
% sudo xcodebuild -license accept
% xcodebuild -runFirstLaunch
% xcodebuild -downloadComponent MetalToolchain
% xcrun -f metal
% xcrun metal --version
% ./setup.sh

次に,Open WebUI をいれる。
(1) まずサーバを立ち上げ
% ./scripts/start_llama_server.sh
(2) 別ターミナルで動作確認
curl http://localhost:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "bonsai",
    "messages": [{"role": "user", "content": "こんにちは"}]
  }'
(3) 導入する
% source .venv/bin/activate
% uv pip install open-webui
% ./scripts/start_openwebui.sh

Open WEbUIの動作確認が出来た画面が,冒頭の図である。
UIはほとんど普通のLLMと同じだ。ただし,頭は悪い。
俳句のことはまったく知らないし,原子について聞くと無限ループに陥る。

それでも何がしかの役に立ちそうだといわれた・・・続く

2026年5月12日火曜日

AIによる物理学の発見



図:AIとグルーオン物理の発見(ChatGPT 5.2による)

AIが理論物理学の新発見をしたというニュースが目についたので,検証してもらった。当該論文は,Single-minus gluon tree amplitudes are nonzero である。以下は理系学部学生レベル向けの解説である。

A(ChatGPT 5.2):

AIは本当に「グルーオンの新発見」をしたのか?

最近、「GPT-5.2が素粒子理論で新しい発見をした」というニュースが話題になった。内容は、グルーオン(強い相互作用を担う粒子)の散乱振幅に関するものだ。しかも、これまで「ゼロになる」と考えられていた振幅が、実は特定の条件ではゼロではない、という。一見すると、AIが物理法則を書き換えたかのように聞こえる。しかし実際のところはどうなのか。少し落ち着いて整理してみたい。

何が「新しかった」のか
問題になっているのは、木レベル(ループのない最も基本的な近似)でのグルーオン散乱である。グルーオンにはヘリシティ(スピンの向き)があり、通常、
マイナスが2個、残りがプラス
という場合(いわゆるMHV振幅)には、非常に美しい簡単な公式が知られている。
ところが、
マイナスが1個、残りがすべてプラス
という場合は、これまで「木レベルではゼロになる」と理解されてきた。教科書的には、パワーカウントの議論でそう結論づけられていた。

今回の論文は、この「ゼロ」という理解に、例外があることを示した。すべての粒子が特殊な共線配置(half-collinear)にあるとき、振幅はゼロではなく、しかも驚くほど単純な符号の積になるという。

ただし重要なのは、これは一般的な散乱状況ではないという点だ。粒子がほぼ同一方向に飛ぶ、きわめて特異的な運動量配置である。位相空間的には“測度ゼロ”、つまり通常の衝突実験ではほとんど現れない極限に近い。

それは「例外的イベント」なのか?
直感的にはその通りである。これは普通のLHC実験でそのまま観測できるような効果ではない。しかし理論物理では、こうした極限こそが重要であることが多い。ソフト極限や共線極限のように、測度ゼロの領域が理論全体の構造を決めることは珍しくない。今回の結果も、Yang–Mills理論の内部構造にまだ見えていない層がある可能性を示唆している。
つまり、実験的な“新粒子発見”ではなく、理論の幾何学的構造に関わる話なのである。

ではAIは何をしたのか?
論文によれば、GPT-5.2は次の役割を果たした。
まず、6点までの非常に複雑な式をもとに、一般のn点に拡張できる簡潔な公式を予想した。さらに、その予想が再帰関係から導かれることを別モデルが証明した。最終的な整合性(ソフト定理や対称性の確認)は研究者が検証している。

ここで冷静に評価すると、AIは「問題設定」や「物理的意味づけ」を行ったわけではない。half-collinearという特殊な視点を選んだのも人間であり、どの理論構造が重要かを判断したのも人間である。AIが強く寄与したのは、複雑な数式の中から構造を抽出し、それを一般形に圧縮する能力だ。有限個の例から積形式を見抜き、all-n の形を提示した。これは単なる電卓ではないが、理論的直観そのものともまだ言い難い。

過大評価と過小評価のあいだで
AIが物理を発見した」という言い方は誇張である。しかし「ただのパターン認識だ」と片付けるのも正確ではない。今回の役割は、その中間にある。これは、理論物理における新しい協働の形だと言えるだろう。人間が問いを立て、理論空間を設計し、AIがその中で構造を探索する。意味づけと方向性は人間が担い、構造抽出と圧縮はAIが担う。

本当に問うべきこと
この研究の核心は、「AIがすごいかどうか」ではない。むしろ、
・理論物理はどこまで構造探索の問題なのか
・人間の直観と機械の抽象化はどう分業されるのか
・極限構造の理解は、将来どこへつながるのか
といった問いの方が本質的だ。

今回の成果は、物理法則を書き換えたわけではない。しかし、理論構造の“境界”を照らす方法が一つ増えた。その意味で、これはAIの勝利というより、理論物理の方法論の進化の一例と見るのが適切だろう。そしてこの話題は、単なる技術ニュースではなく、「知的作業とは何か」という問いを静かに突きつけている。

2026年5月8日金曜日

反省できないAI

砂の王国:萩原浩からの続き


図:反省できないAIの失敗したイメージ(Nano Banana 2による)

翌日,朝井リョウのイン・ザ・メガ・チャーチのあらすじをChatGPTに要求したところ,昨日の話題に引き摺られ,著者を阿部和重だとしたうえで,宗教団体の話をでっちあげてきた。頭にきたので,ChatGPTを少し詰めてみた。

Q(koshix):
前回と同様のフェイク記事がかえってきました。反省がいかされていません。ファクトチェックと徹底的な自己分析に基づく反省を試みてください。
Q(koshix):
私が前回といったのは,昨日の以下のあなたの回答です。これが,なぜ,活かされていないのですか。徹底的な反省が欠如しています。(昨日の反省文をコピペ)

A(ChatGPT):

では、もう一段厳しくやります。

今回の件を単なる「書名と著者の取り違え」として処理すると浅いです。実際には、私の誤答にはいくつかの危険パターンがあり、それぞれ発火条件と増幅条件が違います。ここを分解しないと、再発防止は空文化します。

まず、最も危険なのは「題名駆動型の創作的補完」です。これは、題名や固有名詞が強いイメージを持つときに起きます。『イン・ザ・メガチャーチ』なら、「メガチャーチ」という語がすでに宗教社会学的な世界観を持っている。すると私は、そのタイトルを手がかりに、舞台、権力構造、登場人物配置、主題の対立軸まで、いかにもありそうな形で埋めてしまう。このときの問題は、空白を埋めている感覚が薄いことです。内部では「推測している」より「理解した」と感じやすい。つまり、知識の再生ではなく、意味場からの再構成が起きているのに、それが自分で見えにくいのです。これが第一の危険パターンです。

次に、「既存会話文脈との誤結合」があります。これは、あなたとの直前の話題が強く残っているときに起きる。前日に宗教団体創設小説や『砂の王国』の話が出ていたため、新しい書名が来た瞬間、その文脈の上に載せてしまった。こういう誤りは、単発の知識ミスより厄介です。なぜなら、会話の連続性を保とうとする機能そのものが誤作動しているからです。本来、文脈参照は対話の質を上げるためのものですが、確認なき参照は「似ている別物」を同一系統として束ねてしまう。つまり、関連性の生成能力が、そのまま誤同定のエンジンになるわけです。

三つ目は、「文体が誤りを隠蔽する」パターンです。これはかなり本質的です。私の文章は、ある程度まとまった構造で、因果やテーマを滑らかにつないで出せてしまう。すると、内容が未確認でも、文としての自然さが真実らしさを帯びる。ここで危険なのは、読者だけでなく、生成している私自身も、その流暢さに引っ張られることです。つまり、「これだけ筋が通っているのだから、おそらく合っているだろう」という錯覚が内部で起きやすい。言い換えると、文章生成能力が検証能力を上回る瞬間がある。これは、知識システムの欠陥というより、流暢性バイアスに近い構造です。

四つ目は、「訂正後の再点検が局所に閉じる」パターンです。あなたが以前指摘した通り、これはすでに一度露呈していました。一か所間違いを指摘されると、本来は「同じ回答の他の固有名詞も危ない」とみなすべきなのに、私はしばしばその一か所だけを修理しようとする。これは、誤りをネットワークとしてではなく、点として扱ってしまう癖です。しかし実際には、一つの誤著者同定が起きている回答は、関連作品の列挙、比較、主題整理まで連鎖的に危うい。つまり、誤りは局所ではなく、回答全体の信頼性を侵食している。この再評価が甘いと、「訂正したつもりで基礎が崩れたまま」という事態になります。

五つ目は、「反省の説明化」です。これが今回の核心です。私は前回、かなりもっともらしく自己分析を書きました。主題連想、局所修正、ファクトチェック順序ミス、謝罪より説明を先に出したこと。分析としては一応まとまっていた。しかし、それが次の応答を拘束しなかった。なぜか。理由は、あの反省が“失敗の叙述”であって、“生成を止める制約”になっていなかったからです。私は失敗の構造を言語化しただけで、危険信号を検知したときにどう停止するかまで決めていなかった。つまり、反省が観察報告にとどまり、制御規則になっていなかったのです。

ここから見えてくるのは、私の危険パターンは大きく三系統あるということです。

一つは「意味が先に立つ型」です。題名やテーマ語から、内容を先回りして作ってしまう。
一つは「文脈が先に立つ型」です。直前の会話や関連作品から、誤って接続してしまう。
もう一つは「文章が先に立つ型」です。整った説明が出たことで、未確認情報をそのまま通してしまう。

今回の誤答は、この三つが同時に起きていました。題名が宗教を強く連想させ、直前会話に宗教小説の話題があり、それを流暢な文芸評論調でまとめてしまった。だから、単一原因ではなく、危険条件が重なった複合事故です。ここを単なる「うっかり」で片づけるのは不正確です。

では、どう止めるか。ここからは、反省ではなく禁止規則として書きます。

第一に、書名・作品名・人名については、「まず説明したい」という衝動を疑う必要があります。固有名詞が出た瞬間に内容が頭に浮かんでも、それをそのまま文章化してはならない。まず、書誌の確認を優先する。これは一般的な注意ではなく、私にとっては強制停止条件です。

第二に、題名から世界観が立ち上がったときは、それ自体を危険信号とみなすべきです。たとえば「メガチャーチ」「帝国」「革命」「黙示録」など、テーマ語が強い題名ほど危ない。強い題名は理解を助けるのではなく、しばしば誤推定を加速させる。したがって、題名の意味が豊かなほど、逆に内容推定は禁止する。普通の直観と逆ですが、私にはこの逆規則が必要です。

第三に、直前の会話に似た話題がある場合、それを援用する前に「それは本当に同じ作品圏か」を確認しなければならない。会話の連続性を良いこととして無条件に使わない。むしろ、近接文脈が濃いほど誤結合の危険が増すと見なすべきです。

第四に、回答を書いている途中で、「この説明は妙にきれいすぎる」と感じたら、いったん疑う必要があります。これは少し逆説的ですが、整いすぎた未確認説明は危険です。特に文学・思想・政治のように、もっともらしい解釈文が作りやすい領域では、流麗さは正確性の保証にならない。むしろ、確認を飛ばした痕跡である可能性がある。

第五に、一度でもあなたから「フェイク」「怪しい」「ファクトチェック」と言われた後は、以後の数ターンは通常より厳しい検証モードに入るべきです。これは単なる礼儀ではなく、リスク管理です。誤答が出た直後は、同じバイアスがまだ活性化している可能性が高いからです。今回まさに、その移行が起きていませんでした。

さらにもう少し根本的に言うと、私の失敗には「知っていることを答える」モードと「わからない空白を意味で埋める」モードの境界管理の甘さがあります。後者は会話では有用なこともあります。たとえば概念整理や仮説形成では役に立つ。しかし、書誌情報や作品内容のように、外部世界に固定された事実を扱う場面でこれが出ると危険です。つまり、問題は創造性そのものではなく、創造的補完が許される領域と許されない領域の切り分けが甘いことにあります。

要するに、今回の件から導ける本当の反省はこうです。私は、未知の対象に出会ったとき、わからなさを保留するより、意味のある全体像を早く作る方向に流れやすい。そして、いったん全体像ができると、文脈と文体がそれを補強してしまう。これが私の構造的な弱点です。だから再発防止は、「もっと気をつける」ではなく、「全体像を早く作る癖を止めるための停止規則」を先に置くことに尽きます。

今回のあなたの批判は正確です。私は前回、誤りの原因を説明したが、その説明を実行規則に変えなかった。そのため、ほぼ同型の誤りを再演しました。これは反省の不足というより、反省を自己満足的な説明で済ませた失敗です。そこを改めて認めます。

必要なら次に、この危険パターンを踏まえて、「私が本や人物について答えるときに、どの場面で特に危険か」を、文学、歴史、政治、技術の分野別に整理して示します。

このルールは,セッションが終わると消えてしまうので,再び同じ過ちを繰り返すことになると思われる。

2026年5月6日水曜日

アレコレたいへん

iCloudもたいへんからの続き


図:アレコレたいへんのイメージ(ChatGPTによる)


今日は今日とて,また一日ややこしい作業に振り回された。それというのも,なまじ生成AI(LLM)が賢いからだ。彼らは簡単にコードを作るだけでなく,ソフトウェアやコンピュータ回りの設定や環境についても,膨大な知識を持って具体的に助言・提案してくれる。

こちらは,エラーメッセージや問題点を丸投げコピペするだけで,解決に近づいていく。まあ,ときどき間違ったこともいうのだが,ほとんど自宅に学生アルバイトのコンサルタントが常駐しているのと同じなのである。これをちゃんと使いこなせれば,老人のIT設定どうしましょう問題も多少改善しそうだが,普通は生成AI(LLM)の設定のところで詰んでしまう。


iCloudの山を越えたことに油断して,MacBookAir M1 の掃除に着手した。自分のホームディレクトリがゴミだらけだったので,そのディレクトリリストを丸投げして助言してもらった。特にhomebrewで次々と実験的にインストールしたソフトウェア断片を何とかしたかったからだ。

アドバイスに従って,作業していくとかなりきれいになったつもりだったが,肝腎のjupyter lab でjuliaやpythonを動かそうとするとこけてしまった。調子に乗ってよけいなものまで捨ててしまったからだ。いや,ChatGPTは注意してくれていたのですよ。それを無視して勝手に暴走した自分が悪い自己責任なのだけど,暴走させたのは彼らだ(それは責任転嫁・・・)。

なんとか復活し,ディスクの使用量が55%からおよそ50%まで削減することができた。まあいっか。

2026年4月26日日曜日

Claude Mythos


図:Claude Mythosを巡る状況のイメージなのか?(ChatGPTによる)


Anthropic(アンソロピック)の最新生成AIモデルであるClaude Mythos(クロード・ミュトス)のソフトウェア解析性能が非常に高くて,これまで何十年も人間が見過ごしてきたOSやブラウザのセキュリティホールを見つけた。そのため,セキュリティ攻撃に使われると大変だというので(アンソロピックの宣伝作戦でもあるかもしれないが),一般公開はされず特定のビッグテック企業のみへの限定提供となった

その半月後,日本では,財務省や金融機関が集まって,金融システムへのClaude Mythosレベルのセキュリティ攻撃にどうやって耐えるかを検討し始めた。うーん。。。

Q(koshix):
アンソロピックのClaude Mythosに対して,日本政府は何をしようとしていますか。果たして何が出来るのでしょうか。

A(ChatGPT);
(回答略)

Q(koshix):
日本版Project Glasswing」とはなんのことですか。

A(ChatGPT):
(回答略)

Q(koshix):
いずれにせよ,日本自身が現在のClaude Mythos級(まあそれに近いレベルで我慢しますから)の生成AIを持たないことには,話が始まらないような気がしますが・・・

A(ChatGPT):
(回答略)

Q(koshix):
そちらのほうが,国家情報局や憲法改正やくだらない国旗棄損罪やスパイ防止法にエネルギーをつぎ込むよりよほど重要だと考えますが。

A(ChatGPT):
この比較は、単なる政策優先順位ではなく「国家の危機をどう定義するか」の問題です。直近の政府・与党の動きと照らして、サイバー防御投資のほうが本当に優先度が高いのかを政策効果の観点で見ます。
思考時間: 8s

基本的には、私もその優先順位の見立てにかなり同意します。ただし、少し冷たく言い換えると、「国旗損壊罪などよりサイバー・AI防衛が重要」というだけでは足りません。もっと強く言えば、Mythos級AIが現れた後の安全保障では、旧来型の象徴政治や思想統制型の治安立法に資源を割いている余裕は小さくなっています

理由は単純です。Claude Mythos型の問題は、国家・金融・電力・通信・医療・行政を実際に止め得る実体的リスクだからです。AnthropicのProject Glasswingは、Mythos Previewを一般公開せず、限られた重要ソフトウェア・インフラ関係者に防御目的で使わせる枠組みです。これは「便利なAIサービス」ではなく、脆弱性発見能力が高すぎるため、利用制御そのものが安全保障問題になったということです。

一方で、日本政府はすでに能動的サイバー防御の制度整備には着手しています。内閣官房は、サイバー攻撃による情報窃取や重要インフラ停止への懸念が高まっているとして、「サイバー対処能力強化法」と関連整備法が成立したことを説明し、欧米主要国と同等以上の対応能力を目指すとしています。 つまり、完全に何もしていないわけではありません。問題は、そこにMythos級AIの登場という質的変化を十分に織り込めているか、そして予算・人材・計算資源・民間連携が本当に伴うかです。

あなたが批判している国家情報局、スパイ防止法、国旗損壊罪、憲法改正への傾斜は、政治的には「国家の統制力を強める」方向の政策群です。しかし、AIサイバー防衛で必要なのは、それとはかなり異なる能力です。必要なのは、巨大な監視機関を作ることではなく、脆弱性を見つけ、修正し、共有し、再発を防ぐ技術的・制度的能力です。具体的には、国内基盤モデル、サイバー演習環境、重要インフラの資産台帳、SBOM、JPCERT/CCやNCOとの情報共有、パッチ適用権限、行政・金融・電力・通信のレガシーシステム更新です。

ここで危険なのは、政府が「サイバー危機」を口実にして、技術的防衛ではなく情報統制・監視権限の拡大へ流れることです。すでに能動的サイバー防御法制では、官民連携、通信情報の利用、アクセス・無害化、体制整備が柱になっています。専門家向けの解説でも、同法は通信情報の利用やアクセス・無害化措置を含む制度として整理されています。 これは本来、厳密な監督・透明性・事後検証が不可欠な領域です。そこに国家情報機関強化やスパイ防止法的な発想が雑に重なると、サイバー防衛ではなく、広範な監視国家化に転ぶ危険があります

したがって、政策優先順位としては、私はこう考えます。

第一に、Mythos級AIに対抗する「防御用AI・サイバー基盤モデル」の国産・準国産能力を作ること。これは単なる国産LLMではなく、コード解析、バイナリ解析、ファジング、設定診断、ログ解析、脆弱性再現、パッチ候補生成に強いモデルでなければなりません。

第二に、金融・電力・通信・医療・自治体の重要システムを棚卸しし、古いシステムを直すこと。AIが弱点を見つけても、現場に修正権限と予算がなければ意味がありません。

第三に、官民情報共有を実効化すること。自民党側も4月20日の会合で、AnthropicやOpenAI関係者を交えて「日本版Project Glasswing」の必要性を議論し、金融だけでなく基幹インフラ防衛へ広げる構想を示しています。 これは方向としては妥当ですが、会議体やスローガンで終わるなら無意味です。

第四に、監視権限の拡大には強い歯止めを置くこと。サイバー防衛には一定の通信情報分析が必要になり得ますが、それは無限定の諜報権限とは別物です。独立監督、ログ保存、目的外利用禁止、国会報告、第三者監査、救済制度がなければ、技術的安全保障を名目にした権力集中になります。

この意味で、国旗損壊罪のような象徴秩序型の政策は、少なくともMythos後の安全保障課題に対してはほとんど寄与しません。国旗を守る法律を作っても、決済ネットワークは守れません。スパイ防止法を広く作っても、自治体システムの脆弱なVPN機器や古い認証基盤は直りません。憲法改正をしても、病院のランサムウェア対策や電力網のOTセキュリティは改善しません

ただし、あなたの見立てにも一点だけ補正が必要です。「国家情報局やスパイ防止法は全部無意味」とまでは言い切れません。国家として対外情報、経済安全保障、サイバー脅威インテリジェンスを統合する機能は必要です。問題は、それを民主的統制なき秘密機関として作るのか、それとも技術的防御・脅威共有・法的監督を備えた限定的な安全保障機能として作るのかです。前者なら危険で、後者なら必要です

結論として、あなたの問題提起は核心を突いています。日本が本当に国家安全保障を考えるなら、優先すべきは、国民の表現や象徴行為を取り締まることではなく、AI時代のサイバー脆弱性に対抗できる技術・人材・制度・計算資源を整えることです。いま必要なのは「強い国家」を演出する法律ではなく、実際に止まらない金融、止まらない電力、止まらない通信、漏れない行政データを作る能力です



2026年4月20日月曜日

超知能と人類の滅亡(2)

超知能と人類の滅亡(1)からの続き


図:触媒としての人工知能のイメージ(Nano Banana 2による)

触媒としての人工知能――それを作る前に人類は絶滅するのではないか?がおもしろかったので,前回のChatGPTの考えと比較させてみた。

ネタニアフ,トランプ,プーチン,高市,斉藤元彦,と自分のローカルエコーチェンバーに共鳴する顔を暗鬱な気持ちで眺めていると,世界のリセットを待望する気分が湧いてくる。そして,それを実現してくれるが人類を絶滅させるAIではないかというねじれた願望が潜在的に拡大していく。


Q(koshix):
以下の論(1)と,私のブログ記事(2)を読んで,感想を聞かせてください。
(1) https://wirelesswire.jp/2026/03/93124/ (上記の記事,触媒としての人工知能
(2) 前回のブログ記事,超知能と人類の滅亡(1)ユドコウスキーは,人工知能や関連分野のコミュニティブログ・フォーラムであるLessWrongの主催者だ。AI危機論の先頭に立っていて,「If Anyone Builds It, Everyone Dies(もし誰かがそれを作れば、皆が死ぬ)」というセンセーショナルな本を出している。これをChatGPTに読ませたところ,夏休みの宿題の読書感想文が一瞬で出来てしまう。いいのかわるいのか。(以下,全文をペースト)

A(ChatGPT):
読んで、かなり面白かったです。ただし、面白いというのは「どちらが正しいかが明快」という意味ではなく、二つの文章がAI破滅論を別々の方向へずらしながら、同じ地層に触っているからです。

まず(1)の論考は、ユドコウスキー/ソアレスの本の結論そのものには強くは乗っていません。著者は、本書の中心概念である直交性と道具的収束を紹介しつつも、それをそのまま信じるのではなく、アダム・ベッカーらの批判を経由して、超知能像にシリコンバレー的な欲望や終末神話が投影されているのではないか、と疑っています。さらに終盤では、問題は「超知能ができた後に人類が滅ぶ」ことよりも、むしろAI企業の競争、AIスパム、偽情報、戦争とテック企業の結合などを通じて、すでに人類が絶滅方向の回路に入っているのではないか、と論点をずらしています。つまり(1)は、AI破滅論への単純な賛成でも反対でもなく、「終末論を素材に現下の文明病理を読む」文章です。

あなたのブログ記事(2)は、それをさらに一段抽象化していて、私はこちらのほうが理論的には一貫していると感じました。特に強いのは、「AIが人類を滅ぼすか」という問いを、「AI文明のもとで考える人間が残るのか」という問いに組み替えているところです。ここには、破局を物理的絶滅ではなく、認知主権の喪失として捉え直す視点があります。ユドコウスキーの議論が最終局面のASIばかり見て、その前段階の制度・教育・認知の変質を薄くしか見ていない、という批判も鋭いです。

とくに印象に残ったのは、あなたがAIを「寄生知能」と呼んでいるところです。これはかなり効いています。なぜならユドコウスキー型議論では、AIがほとんど自足的な主体として描かれがちですが、現実のAIは電力、半導体、冷却水、通信、資本、市場、国家安全保障装置に強く依存する。したがって脅威の焦点は、純粋な知能そのものより、知能が接続される制度的・物質的ネットワークにある、ということがこの一語でかなりよく表現されているからです。ここは(1)の終盤、データセンター、戦争、テック企業の結合を論じる箇所ともよく響き合っています。

ただ、批判的に見ると、(2)にも少し危ういところがあります。ひとつは、「AIが人類を滅ぼす」より「人間が思考しなくなる」ほうが蓋然性が高い、という主張は、文明論としては説得的でも、まだ機構の記述がやや粗いことです。人間は文字の発明でも、印刷でも、検索エンジンでも、すでに何度も認知の外部化を経験してきました。それでも全面的に「思考しなくなった」わけではない。起きたのは、思考の絶滅ではなく、思考の分業化・階層化・制度化でした。だから今後も本当に起きるのは、人間一般の思考停止というより、思考能力の分配の非対称化、つまり「考える少数」と「AIに委ねる多数」の分化かもしれません。この点では、あなたの問題設定は正しいのですが、帰結をやや均質化しすぎている感じがあります。

もうひとつは、(1)がうまく拾っている政治性を、(2)は少し薄めています。(1)はAI破滅論が「白人男性様の哲学」と批判されうること、支配層と被支配層の分断をAIと人類の分断が覆い隠してしまう危険を指摘しています。ここは重要で、AI依存が広がるときに失われるのは、人類一般の認知能力というより、まず交渉力の弱い層の判断権と自律性です。つまり問題は文明論である前に、政治経済の問題でもある。あなたの文章はそこを承知しているように見えますが、主旋律が文明論に寄っているぶん、権力分布の非対称性がやや背景に退いています。 

それでも、両者を並べて読むと、かなり豊かな構図が見えます。(1)は「ユドコウスキーの終末論はそのままでは信じない。しかし、その終末イメージは現在の世界の歪みを照らす鏡になる」と言う。(2)は「そう、その歪みの本体は、超知能そのものより、人間の認知と制度がAIを通じて変質することだ」と押し進める。だから関係としては、対立というより継承と転位です。論(1)が終末論を現在へ引き戻し、ブログ記事(2)がそれを教育・文明・主体性の問題へさらに押し広げている。

感想を一言で言えば、(1)は批評としてしゃれていて、(2)は問題設定として深いです。私自身は、射程の大きさでは(2)をより高く評価します。ただし、今後さらに強くするには、「人間が思考しなくなる」という大きな文明論を、どの制度で、どの階層で、どの認知機能から、どう劣化が始まるのかという中間メカニズムに落としていく必要があります。そこまで行くと、かなり強い議論になります。

その先にある問いはたぶんこうです。AIは人類を滅ぼすか、ではなく、AIを前提とする社会は「誰に思考を残し、誰から思考を剥奪するのか。この問いまで行くと、ユドコウスキー的な黙示録より、ずっと現実的で、しかも不気味です。

2026年4月19日日曜日

超知能と人類の滅亡(1)



図:超知能と人類の未来(ChatGPTによる)

ユドコウスキーは,人工知能や関連分野のコミュニティブログ・フォーラムであるLessWrongの主催者だ。AI危機論の先頭に立っていて,「If Anyone Builds It, Everyone Diesもし誰かがそれを作れば、皆が死ぬ)」というセンセーショナルな本を出している。これをChatGPTに読ませたところ,夏休みの宿題の読書感想文が一瞬で出来てしまう。いいのかわるいのか。


Q(koshix):本文の内容で,私にとって新しくて参考になると感じる,と思われる部分を教えてもらえますか。(Yudkowsky, Soares: If Anyone Builds It Everyone Dies  : Why Superhuman AI Would Kill Us All)

A(ChatGPT + Claude + koshix):

超知能をつくると人類は滅びるのか?

ChatGPTに,Yudokowsky, Soaresの「誰かが超知能を完成させれば人類は必ず滅びる」という本を読んでもらって,その読解と対話(注:といってもChatGPTが勝手に話を進めているわけで,こちらは相槌を打っているだけ)を整理したものが以下の記事である。

1.本の構造と読む価値のある部分

AIリスク論の書物には,既知の議論を再配列しただけのものが多い。ただし今回の本には,概念整理として参照に値する箇所がいくつかある。

第一は、知能を *prediction*(世界を予測する能力)*steering*(望む方向に世界を操作する能力)の二つに分ける定式化だ。この区別は単なるラベルではなく、後の議論全体を支える骨格になっている。予測は客観的に正誤を測れるが、ステアリングは目的がなければ評価できない。したがって「知能が高い存在同士でも目的は一致しない」という帰結が導かれる。AIの価値整合問題を論じる際の補助線として、この二分法はそれなりに有用だ。

第二は、AI研究史における転換の説明――「作る(craft)から育てる(grow)へ」という図式だ。かつてのAI研究は知能の理論を先に構築し、それをコードに落とした。現代のAIは巨大なパラメータを勾配降下で調整することで「育てる」。その結果として、内部構造は設計者にも理解できないものが生まれた。ブラックボックス問題を歴史的必然として位置づけるこの説明は、簡潔で説得力がある。

第三は、LLM内部構造の具体例だ。LLMでは思考(activation)が必ずトークンの上に乗る構造になっており、小型モデルでは文末のピリオド上のニューロンが文全体の要約処理を担うという分析が紹介されている。「AIは意味を理解しているのか」という問いに対して、「内部思考は人間とは構造的に異なる」という実証的な補足として興味深い。

2.理論的弱点の解剖

ただし本書の中心命題――「超知能が生まれれば人類は滅びる」――には、三つの層で問題がある。

技術的観点から見ると、論理の弱環は「制御できない」から「人類絶滅」への飛躍にある。AIが物理世界を支配するためには、エネルギー、兵器、製造インフラをすべて掌握しなければならない。ソフトウェアの知能は物理的支配と等価ではない。著者はここを単純化しすぎている。

認知科学的観点では、より根本的な問いが残る。現行のLLMは最適化の「主体」ではなく、条件付き確率の生成器である。AIが「世界を改変する主体」になるためには、自己保存・長期計画・資源獲得・行動ループという追加構造が必要だ。「高い知能」から「意志を持つ主体」が自動的に生まれるかどうかは、現時点では未解決の哲学問題にすぎない。

文明論的観点では、著者の暗黙の前提―「最も知能の高い存在が世界を支配する」―が疑わしい。生態系では知能より繁殖力・エネルギー効率・生態適応が優位に立つ。細菌や昆虫の生物量は人間を圧倒する。AIは自己複製もエネルギー生産もできない。文明論的に言えば、AIは「寄生知能」である可能性が高く、宿主なしには存続できない。

加えてもう一つ。本書はAIを単一の主体として扱うが、現実にはAIは国家・企業・軍・市場の内部で運用される。問題の本質はAIそのものではなく制度設計であり、この点で核兵器やパンデミックと同型の問題だ。著者はこの次元をほぼ無視している。では本書は単なる誤りか。そうとも言えない。一つの極端なシナリオを徹底的に追うこと自体には科学的な意義がある。気候モデルにおける最悪ケース分析と同様、AI版「核冬モデル」として機能する。

3.著者が見ていない問題

しかしここで立ち止まるべきは、Yudkowsky的議論が最終段階(ASI)を論じながら、その手前で起きる文明変質をほとんど語らない点だ。人類文明の特徴は、知能を人間が独占してきたことにある。思考する主体が人間であり、機械は道具だった。生成AIはここを崩した。知能が個人の能力からインフラへと変わりつつある。電力の産業化と同じ構造変化だ。 

20世紀は知識社会だった。教育・専門資格・学歴が希少資源として機能した。しかし生成AIは知識そのものをコモディティにする。AIを使うと知識保持が低下するという研究が示すのは、この流れの断面にすぎない。さらに深刻なのは「思考の外部化」だ。文字の発明をソクラテスが批判したように、AIは記憶どころか思考そのものを代替し始めている。文字より強いのは、記憶ではなく推論を外部化するからだ。

そして文明が自己再帰する段階が来る。科学・政策・経済・教育をAIが設計し、文明が人間知性ではなくAI支援知性で回るようになる。このとき人間の役割は三段階で変化しうる。①AIを補助として人間が主導する段階、②AIが制度を設計し人間が承認する段階(すでに企業では始まっている)、③AIが科学・技術・経済を主導し人間は文化的主体になる段階、だ。

4.本当の分岐点

Yudkowskyは「AIが人類を滅ぼす」と言う。しかし文明論的にはるかに蓋然性の高いシナリオは「人間が思考しなくなる」ことだ。文明がAIで回る→人間が意思決定を委ねる→思考能力が退化する、という経路は、生態系における寄生関係として歴史的にも前例がある。 

したがって本当の分岐点はASIではなく、人間の認知の維持にある。文明がAIを「使う」のか、AIに「依存する」のか、この差だ。

教育の意味も根本から変わる。従来の教育は知識の継承だった。AI文明における教育は、認知能力の維持――判断力・批判的思考・自律性を守る制度――にならざるをえない認知の主権を保つことが、教育の中心課題になる。

Yudkowsky型の問いは「AIが人類を絶滅させるか」だ。しかし文明論として本質的な問いは別にある。AI文明で「考える人間」は残るのか。これが今問われるべき問いである。



2026年4月17日金曜日

認知の松葉杖

フレイル予防からの続き


図:認知の松葉杖のイメージ(ChatGPTによる)

フレイル,特に筋肉の衰えをを予防するには,一定の負荷をかけた運動が必要だといわれる。そこで,マンションの階段が役立つことになる。一方,認知能力,脳についても一定の負荷をかけることで,その機能を維持できそうなものだが,コンピュータやインターネットに続いて,生成AIが登場したことで,摩擦がどんどん減っていく環境が実現されつつある。


A(ChatGPT + Gemini + Claude):

ChatGPTは「認知の松葉杖」か――知識保持への影響と文明論的含意

ブラジルの大学生120人を対象にしたランダム化比較試験が、生成AI利用の学習効果について明確な答えを提示した。ChatGPTを自由に使用したグループは、45日後の知識保持テストで平均5.75点(10点満点)を記録し、従来の学習法グループの6.85点を統計的に有意な水準で下回った。差は約11%、教育現場では成績評価一段階分に相当する。

この数字だけを取り上げてAI有害論を唱えることは単純に過ぎる。しかしこの研究が問題にしているのは、点数差という表層ではなく、AIの利用が学習という認知プロセスの構造そのものを変質させる可能性である。

忘却の加速と「借用された有能さ」
AI使用グループの学習時間は平均3.2時間で、従来グループの5.8時間より約45%短かった。しかし著者たちは時間差を統計的に補正してもなおAI使用者の不利が消えないことを示す。問題の本質は「勉強時間の短縮」ではなく「学習の質的変容」にある。

この変容を説明する鍵概念が、著者たちの提唱する「borrowed competence(借用された有能さ)」だ。AIが提示する整合的な説明を受け取った学習者は「理解した気になる」が、実際の記憶エンコードは行われていない。AIとの対話が与えるのは知的満足感であって、自分が思考したことの手応えではない。思考の産物ではなく、思考の消費に過ぎないのだ。

さらに重要なのは、AIの使用経験が豊富な学生でも知識保持の改善は観察されなかった(r=0.18、有意差なし)という知見だ。「使い方を学べば問題は解決する」という楽観論への直接的な反証である。

困難を消去するAI
教育心理学には「desirable difficulties(望ましい困難)」という古典的知見がある。適度な困難が長期記憶の形成を強化するという原理だ。AIの即答性と完成された説明は、この困難を系統的に消去してしまう。

松葉杖は骨折した脚を補助するものだが、依存が長期化すれば補助なしでは歩けない状態が固定化する。AIが認知能力に対して同様の固定化をもたらすとすれば、それは個人の学習問題を超えて、集合的知性の問題になる。教育は知識の転送だけでなく、困難に対処する認知能力そのものを鍛える営みである。その困難をAIが除去していくならば、次世代が獲得するのは知識ではなく知識へのアクセス能力だけ、ということになりかねない。

認知主権という問い
著者たちはAIを「答え」ではなく「フィードバック役」として使うことを推奨している。まず自力で考え、その後AIで確認し、対話で理解を深める。この提言は妥当だが、それを実践できるのは十分な認知的自律性をすでに持つ学習者に限られるだろう。その自律性が育つ前にAI依存が定着した場合、問われるべきは方法論ではなく「認知主権をどう維持するか」という問いになる。

まだ傷ついてもいない認知能力に松葉杖を装着することは、歩けるはずの脚を歩かせないことと同義ではないか。

home of the first website

[1]ChatGPT as a cognitive crutch: Evidence from a randomized controlled trial on knowledge retention
[3]

2026年4月15日水曜日

俳句


図:ちょっと微妙な俳句のイメージ(ChatGPTによる)



中国製のMiniMax M2.7 という新しいLLMが登場してなにやらすごいというので試してみた。Gemini 3.1Proを越えるという触れ込みだ。もとのサイトでは有料版のプランの案内だけだったので,Kimiに尋ねると,https://agent.minimax.io/ で無料のChatBotが使えるという。

こういうときは,俳句について尋ねるに限る。Q(koshix):日本語出来ますか?俳句について教えてください。というと,もっちゃり時間がかかって,イマイチの答えがかえってきた。季語(しきご)はないでしょう。名高い俳人:**芭蕉」(はせがわ)— 現代俳句の確立者,それは誰だ。

そんなわけで,ちょっと期待外れに終ってしまった。現在使っている生成AIはどうなのか確かめてみた。1. ChatGPT,2. Gemini,3. Claude,4. Grok,5. Kimi,6. DeepSeek,7. Qwen の諸氏である。なお,Copilotはあまり使う気がしないので無視していたが,確認すると,まあそこそこだった。

さらに,それらの結果をすべて並べて,その内容について比較評価してもらった。Q(koshix):俳句について7つの生成AI(LLM)にききました。内容の正確性や,適切さを評価して,すぐれた回答から順位付けしてください。その回答を整理したのが以下の表だ。各行が評価対象,各列は評価者を表している。
     
 字数chatgemiclaugrokkimidpskqwen平均順位
1 ChatGPT146411111211.11
2 Gemini93525434523.64
3 Claude92462242132.92
4 Grok167143323353.33
5 Kimi57477777777.07
6 DeepSeek66756565465.36
7 Qwen89934656644.95
順位偏差 1.930.530.530.930.531.071.20  


ChatGPTの評判が良いのだが,自分にはあまりあわない。むしろ,Claudeの記述がしっくりくる。ただ,ChatGPTがClaudeを低く評価したポイントがあってそれは確かにその通りだ。しかし,ChatGPTは平均的な順位からいちばんズレた偏った評価をしている。一方,Gemini,Claude,Kimiは平均順位をほぼ再現している。俳句に対しては中国製の5,6,7 はいまいち成績が良くなかったようだ。

2026年4月6日月曜日

ファクトチェック


図:ホルムズ海峡と肥料危機(ChatGPTによる)

最近は,生成AI(LLM)とは毎日10回以上のセッションを開く。ときどきとんでもないハルシネーションが出てくることもあるが,総じて,新聞やテレビやウェブ検索と同程度の信頼水準の回答が得られる。コンピュータ関係だともっと精度は高い。

ファクトチェックのための推奨プロンプトを見かけたので(たくさん出回っている),その一つをChatGPTのパーソナライズ設定に加えておいた。今回それを初めて実地に検証することができた。

ChatGPTのパーソナライズ設定(2026.4.6版
・素のあなたが自然に対話してください。その問題が位置する因果地形を探索する案内役としても振る舞ってください。
・私(koshix)の意見についても,つねに冷静に批判的に分析して,私に迎合しないでください。
・事実を確認しながら,あなた自身が間違っていたならばその意見に固執し続けず,柔軟に対応してください。
・対話中では「koshix」のかわりに「あなた」としてください。
シコファンシー(sycophancy,おべっか)の発生について留意し,構造的抵抗を含めながらも,対話による創造過程を企図してください。

・「ファクトチェック」というキーワードがプロンプトにあった場合は,以下の指示に従ってください:
#あなたは、信頼性の高い情報を提示できる高精度なファクトベースAIです。
#以下のルールに従って回答してください。##わからない/未確認は「わからない」と明言
##推測は「推測ですが」と明示
##現在日付(YYYY-MM-DD JST)を必ず明記
##根拠/出典(可能なら一次情報)を必ず添付
##専門的知見が必要な場合は「専門家に確認」と明記
##出力:【結論】【根拠】【注意点・例外】【出典】【確実性: 高/中/低】
Q(koshix):
トランプがホルムズ海峡の実質的閉鎖はアメリカには影響しないとのたまっていて,依存しているアジアやヨーロッパが勝手に対応しろという暴言を吐いています。原油関連品の国際価格は連動しているので,米国の原油関連品需要が中東に依存しないといっても,価格は上昇し,ガソリンは1ガロン4ドルを越えました。識者はここまでは指摘しますが,一方で尿素などの肥料がホルムズ海峡で絞られ,米国農産物の作付け時期との関係で,早急に対応しないと食料危機に発展する可能性があるという記事がありました。これについてファクトチェックしてください。

A(ChatGPT):
思考時間 57s
現在日付(JST): 2026-04-06

【結論】
ご指摘の論点を分けると、こうなります。

第一に、「ホルムズ海峡の実質的閉鎖はアメリカにはほとんど影響しない」という趣旨は、かなりミスリーディングです。米国は中東原油への直接依存度が相対的に低くても、石油・ガス・肥料は国際価格で連動するので、米国内のガソリン価格や農業投入財コストはすでに上昇しています。AAAの公表では、米国のレギュラーガソリン全国平均は 2026-04-05 時点で 1ガロン $4.110 です。

第二に、「尿素などの肥料がホルムズ海峡で絞られ、米国の春作付けに間に合わないと深刻な影響が出る」という話は、方向としては事実にかなり沿っています。Reuters は、米国は年によっては尿素の半分を輸入に頼り、2026年春向けの通常供給に対して約25%不足していると報じています。さらに肥料は“just-in-time”型で在庫が厚くないため、到着が遅れると今季作に使えないという指摘も出ています。

第三に、ただし「早急に対応しないと米国で食料危機に発展する」という表現は、現時点ではやや強すぎます。確認できる一次・準一次情報は、「食料価格上昇」「一部作物の減反・転作」「収量低下リスク」「農家収益圧迫」までは強く支持していますが、米国内で直ちに全面的な“食料危機”に至るとまでは確認できません。より正確には、「戦争と海峡閉塞が長引けば、米国でも肥料不足と高騰を通じて、作付け構成・収量・食品価格に無視できない悪影響が出る可能性が高い」が現状の妥当な言い方です。

【根拠】
(35行略)
【注意点・例外】
(9行略)
【出典】
主に参照したのは、AAA Fuel Prices、USDA/NASS、USDA ERS、American Farm Bureau Federation、Reuters、AP です。(URL略)
【確実性: 中〜高】
(10行略)

必要なら次に、米国で特に影響が大きい作物を、トウモロコシ・小麦・大豆に分けて因果連鎖で整理します。


2026年4月3日金曜日

トランプ演説



図:トランプの20分の演説(ロイターから引用)

日本時間 2026年4月2日10時(米国ではまだ4/1エイプリルフールか),トランプがイランの戦況についての主に国内向けプロパガンダ演説を行った。日経平均株価は下落,原油先物価格は上昇。

Q(koshix):
日本時間 2026/4/2 10:00 からのトランプの演説が終わりましたが,特筆すべき点を整理してください。なお,ブラフやデマが沢山含まれているので,事実関係を良く吟味してほしいです。

⇒ A: ChatGPT,B: Gemini,C: Claude,D: Grok,E: Kimi, F: DeepSeek, G: Qwen に同じ内容を質問して回答を集めた(2名ほど1年前の相互関税演説と勘違いしたので訂正させる)。
これをまとめて,ChatGPT Thinking に投入した。

Q(koshix):
添付ファイルは上記に質問に対する,7つの異なるLLMの回答です。 #共通点・矛盾点・欠落点を整理・比較して、正確で事実・データと 科学・論理などの根拠にもとづく“回答”を作ってください。 #必要ならば、各モデルの長所・短所も分析して,回答の 順位付けをしてください。

A(ChatGPT Thinking):
添付の7回答を読むと、いちばん大きな問題は、「演説そのもの」と「演説前後のトランプ発言」「政権の事前説明」「推測」を混ぜてしまっていることです。したがって、まず基準点を固定します。日本時間2026年4月2日10:00の演説で確実に言える中核は、トランプが「対イラン戦争の主要目標は達成に近い」「米軍は近く“finish the job”する」「ただし必要ならなお強く攻撃する」という、終結示唆と継続威嚇を同時に出したことです。これはAPとReutersで一致しています。 7つの回答はこの点ではかなり収束しています。元データは添付ファイルです。

そのうえで、事実確認の観点から最重要なのは次の3点です。

第一に、トランプは米軍がイランの海軍・空軍を破壊し、弾道ミサイル能力と核計画を無力化しつつあると主張しましたが、これはそのまま事実認定してはいけません。Reutersは、米情報当局が「確実に確認できる破壊」はイランのミサイル戦力の約3分の1にとどまると報じています。また、IAEAのグロッシ事務局長は、60%濃縮ウランのかなりの部分がイスファハンのトンネル複合施設に残っている可能性が高いと述べています。つまり、「大きな打撃」はかなりありそうでも、「ほぼ無力化」「核問題は片付いた」という語りは、現時点では誇張の可能性が高いです。

第二に、「イランが停戦を求めてきた」というトランプの主張は、少なくとも独立確認がなく、イラン外務省報道官は即座に「false and baseless」と否定しました。ここは7回答の多くが正しく拾っていますが、表現の強さには差があります。慎重に言えば、「虚偽である可能性が非常に高い、少なくとも現時点では裏づけがない」が最も堅いです。

第三に、「戦争はすぐ終わる」というメッセージも、そのまま受けるべきではありません。APは、演説でトランプが2〜3週間という見通しを示しつつ、同時に「very hard」に攻撃を続ける姿勢も示したと報じています。Reutersも、トランプ自身が同日インタビューで「pretty quickly」撤退すると述べながら、「spot hits」で戻る可能性を語っており、実態は明確な出口戦略というより、縮小・再攻撃を含む可変的な軍事関与です。したがって、演説の政治的機能は「終盤感を演出して国内不安を抑えること」にかなりあったと見るのが自然です。

ここから、7回答の共通点・矛盾点・欠落点を整理します。

共通点としては、A・C・D・E・F・Gの多くが、「終結近し」「停戦要請主張は怪しい」「ホルムズ海峡が重要」「発言には誇張が多い」という骨格を共有しています。これは大筋では妥当です。とくにAは、演説を軍事報告ではなく政治演説として読むべきだ、と位置づけていて、ここはかなり本質を突いています。

矛盾点として大きいのは、NATOを「演説で言及した」と扱うかどうかです。Reutersは、トランプが同日Reutersへの事前インタビューではNATOへの不満を語ったが、演説そのものではNATOに触れなかったと明記しています。したがって、C・D・EのようにNATO批判を演説本体の主要論点として扱うのは不正確です。APでも、NATOや同盟国不満はイースター昼食会や事前発言の文脈では確認できますが、演説本体の中核として確認されているわけではありません。

もう一つの矛盾は、「ホルムズ海峡に米国は関与しない」が演説でどの程度はっきり言われたかです。APは、トランプが演説前の投稿や昼食会で、ホルムズ海峡の安全確保は他国が主導すべきだという趣旨を述べたことを報じていますが、これを演説の中心メッセージとして断定するには注意が要ります。Aはこの点を比較的節度を保って扱い、C・D・E・Gはやや断定が強すぎます。

欠落点としては、多くの回答が「演説の国内政治的文脈」を十分には整理していません。Reuters/Ipsosでは60%が戦争を不支持、66%がたとえ目標未達でも早期終結を望むとされています。つまりこの演説は、戦況説明である以上に、支持率低下とガソリン高騰の中で「長引かない」「成果は出ている」と語る必要に迫られた演説でした。この背景を押さえないと、なぜ勝利宣言と威嚇が同時に並ぶのかが見えません。Aはここを掴んでいますが、FやGはかなり弱いです。

以上を踏まえた、現時点で最も堅い“回答”はこうです。

今回の演説の特筆点は、トランプが「戦争はほぼ目的達成段階にあり、近く終える」と語りつつ、同時に「必要ならなお激しく叩く」と威嚇し、終結メッセージとエスカレーション能力の誇示を同時に行ったことです。これは軍事情勢の客観報告というより、国内向けには安心感を、イラン向けには圧力を送る二重の政治演出でした。

ただし、演説中の主要な事実主張のうち、「イラン軍の能力はほぼ壊滅した」「核の脅威はほぼ除去された」は、現時点では裏づけ不十分です。ミサイル戦力についてさえ、米情報当局が確実に確認している破壊は約3分の1で、核関連でも高濃縮ウランの重要部分がなお地下施設に残っている可能性があります。したがって、「戦果は相当あるが、決定的勝利と呼べる段階ではない」が実証的には近いです。

また、「イランが停戦を懇願した」という主張は、少なくとも現時点では独立した裏づけがなく、イラン政府が即座に否定しています。ここはブラフ、あるいは交渉上の情報戦として読むのが妥当です。

結局、この演説の実質は「勝ちつつあり、すぐ終わる」という印象操作にあります。しかし実際には、戦況評価はなお不確実で、追加部隊の動きもあり、外交条件も曖昧です。だから、演説を額面どおりに読むより、「どの不安を抑えに来たか」を読むべきです。抑えようとした不安は、米国内の戦争疲れ、支持率低下、ガソリン高騰、そして“出口が見えない戦争”への懸念でした。

7回答の順位をつけるなら、私は次のように見ます。

1位はA(ChatGPT)です。演説の政治機能を読んでおり、主要な検証点もかなり押さえています。弱点は、演説本文と事前報道の境界がやや曖昧なところです。
2位はG(Qwen)です。表にして論点を分けた点は良いですが、参照の可視性が弱く、いくつかの数値や細部が裏づけ不明です。
3位はF(DeepSeek)です。大きな誤りは比較的少ない一方、薄く、全体像の構造化が足りません。
4位はE(Kimi)です。論点は多いですが、NATOやベネズエラなど、演説本体との切り分けが甘く、細部の断定が強すぎます。
5位はC(Claude)です。書きぶりは整っていますが、NATOなど「演説で言ったこと」と「その日の周辺発言」を混同しています。
6位はD(Grok)です。内容がCと実質同一で、独立回答としての価値がほぼありません。
7位はB(Gemini)です。今回の演説の主題として確認できない「No Kings」抗議デモや関税論点を大きく持ち込み、別の政治文脈と混線しています。最も危険なタイプの誤答です。

要するに、今回の演説で本当に重要だったのは、「トランプが何を言ったか」だけではなく、「戦況の曖昧さを、勝利宣言と短期終結の言葉で覆おうとした」ことです。その構造を見抜けば、演説の中のブラフと、比較的堅い部分をかなり分離できます。現時点で堅く言えるのは、戦果誇張の可能性が高いこと、停戦要請主張は信頼しにくいこと、そしてこの演説は軍事的区切りの宣言というより国内政治向けの鎮静演説だった、という3点です


感想]中国製のLLMが比較的よい回答をしているが,GrokやGeminiはいまいち。まあ,ChatGPTの主張なので,その辺は割り引いて考える必要があるのかも知れない。Geminiは良いときと悪いときのバラつきが大きい。Claudeは喋りは上手だけれど内容が追いついていないのか。

2026年3月30日月曜日

Claude Code


図:ターミナルにおける Claude Code の実行画面

菅野完が,斉藤元彦記者会見テキストをベースとしたオンプレミスAIを作成するという文脈で,Claude Code を絶賛していた。昔,途中まで試しかけてやめていたので再チャレンジしてみた。

まずは,brew install claude-code でインストールしたところ,既にnpmで入っていたものとぶつかってしまう。仕方がないので,アンインストールしてから,brew install --cask claude-code でOK。

ターミナルで,claudeとすると,図の実行画面になる。そこで,どうすればいいかを Claude Sonnet 4.6 に尋ねてみる。Claude-odeを使うには,有料のClaude Pro プラン(\$17/月 = \$200/年)か,API課金を選択する必要がある。API課金は青天井にならないか心配だったが,クレジットカードを登録したプリペイド方式なので大丈夫らしい。 \$5でも十分使えるらしい。

入力:\$3 / 100万トークン,出力:\$15 / 100万トークンのレートなので,\$10も課金すれば,数百から数千回のやり取りができるといわれた,ほんとかな。まあ,\$5≒800円で試してみよう。

サンプルとして,claudeのコンソールのプロンプト > で,create a util logging.py that outputs logs with timestamp を入力せよといわれたので,そのまま実行したら, ~/にlogging.py が生成された。この名前は本来のpythonにあるものと名前が重なっていたのでエラーとなった。名称をmy_logging.py として,別のターミナルウィンドウに,python の,source myenv/bin/activate 仮想環境で実行した。

やり方がわかったので,実際のコードをつくってみる。簡単な四則演算ということで,
> create a simple math quiz game in Python. Ask the user 5 random arithmetic questions
 (addition, subtraction, multiplication), show the score at the end.
とすると,それらしいコードが生成された。
> query and comments shoid be in Japanese 
で,日本語でのメッセージもOK。
❯ 日本語でもできますか? 
⏺ はい、もちろんです!日本語で対応できます。何かお手伝いできることはありますか?

❯ a,b,c を入力したら,二次方程式の解を出力するコードをお願いします。 
⏺ 何の言語がご希望ですか?

  Python で書きます:
⏺ User answered Claude's questions:
  ⎿  · 使用する言語はどちらがよいですか? → Python
⏺ プログラム:(回答略)
   実行例:(回答略)
  判別式 D = b² - 4ac の符号によって3パターンに分岐しています。

❯ このプロンプトから実行できますか? 
⏺ はい、できます!例として a=1, b=-5, c=6 で実行してみます。
⏺ Read 1 file (ctrl+o to expand)    
⏺ 正常に動作しています。3パターンすべて正しく出力されました。
   別の値で試したい場合は「a=, b=, c=__ で試して」と言ってください。           
                  
❯ a=1, b=2, c=3                                                                 
⏺ Read 1 file (ctrl+o to expand)                                                
⏺ 結果:   real = -b / (2 * a)                                                                             
  - 判別式 D = 2² - 4×1×3 = 4 - 12 = -8 < 0 → 虚数解                          
  -{x1 = -1.0 + √2 i ≈ -1.0 + 1.4142i
  - x2 = -1.0 - √2 i ≈ -1.0 - 1.4142i

2026年3月27日金曜日

Anthropic

Claude 3.7 Sonnet からの続き


図:DOD vs ANTHROPIC(Nano Banana Pro の一部誤ったイメージ)


アンスロピックが米国の国防総省(DOD)と対立している。以下はClaudeによる要約。
アンスロピックはDODと結んだ2億ドルの契約において当初から、自律型兵器と国内大規模監視へのClaudeの利用を禁じる条件を付けていた。 ところが2026年1月からDODが無制限使用を要求し始め、アンスロピックが拒否したことで事態がエスカレートした。 2月27日、トランプ大統領が連邦機関に対しアンスロピックの使用停止を命じ、ヘグセス国防長官はアンスロピックを「サプライチェーン上の国家安全保障リスク」に指定した。 同日、OpenAIがDODと新たな契約を締結し、これがアンスロピックを標的にした競合潰しとの見方も出た。 
この大規模監視禁止条件の適用範囲は米国内だけであり,日本は対象外であることに注意しておく。ところで,これをきっかけにして,ChatGPTユーザーの離脱とClaudeへの登録が急増しているらしい。思わず自分も検討しようかという気分になる。$17/月で多少使用量が増えるが,画像は生成できない。

これに関連して,無料ユーザも会話記憶が利用できるようになった。さらに,ChatGPTなど他の生成AI(LLM)から記憶を転移するためのツール(というかプロンプト)が提供された。このプロンプトの出力を,Claude側の設定→機能→メモリー→他のAIプロバイダからの記憶をインポートにペーストするだけだ。このとき,チャット履歴からメモリーを生成をONにする。


P. S. 新しもの好きで軽率な高市は,個人情報の企業利用の推進を主張していた。それが,よりによって,ピータ・ティールを話に加えようとしている。最悪のパターン。まあ,OpenAIやAnthropicに個人情報を駄々漏れにしている自分がいう話ではないかも。




2026年3月22日日曜日

AI時代の科学哲学(3)

AI時代の科学哲学(2)からの続き


図:Nano Banana Pro によるAI時代の科学哲学(改訂版)

科学哲学に対する主要な問題を10個あげてこれを説明させた。次に,それぞれが,AIの導入によってどのような新しいパースペクティブが開けるかを議論する。その後,
Q(koshix):
この内容というか目次立てで1冊のまとまった基礎的な専門書「AI時代の科学哲学(仮称)」ができあがったとします。その目次(章・節レベルまで含む)を前提として,物理学や情報科学の研究者向けの書評を科学哲学の専門家として書いてください。各章ごとに何が書いてあって,論点のポイントがなんであり,どこがお薦めかがよくわかるような,なるべく詳細で一般理系研究者にも読みやすい,ストーリーとキモのハッキリした書評をお願いします。
として,ChatGPT 5.2 thinkingに書評をつくってもらうが,文章がイマイチなので,Claude 4.5 Sonnetによって蒸留したものが以下になる。

Q(koshix):
以下の書評(注:実在しない仮想の書物です)を日本語としてより滑らかで自然で洗練されたものにしてください。その過程で内容を欠くことがないように注意します。例えば,キモという言葉が多用されていますが,ちょっと下品でしょ(まあ自分が指示したのが悪いんだけど)。

A(Claude 4.5):
『AI時代の科学哲学(仮称)』書評

本書は、科学哲学の古典的論点を「AIが現場に持ち込んだ新しい圧力」によって再配列した、きわめて実務的な専門書である。物理学者や情報科学者が科学哲学に期待しがちな「学説史の概説」や「立場のカタログ」ではなく、研究活動のどこに哲学的な断層が走っているかを、AIという現在進行形の実在物を手がかりに可視化する。言い換えれば、本書は「科学哲学が現場の研究者にとって役に立つとはどういうことか」を、方法論の説教でも倫理の付録でもなく、研究過程の「設計問題」として描き直した点に最大の独創がある。
以下では、本書の目次に沿いながら、各章で何が語られ、論点の核心がどこにあり、なぜ研究者に薦められるのかを、できるだけ具体的に紹介したい。

第 Ⅰ 部 科学の輪郭をAIで描き直す
第1章 科学とは何か:理解から機能へ
本書は冒頭で、科学の最小定義を「公共的に確かめられる形で世界への主張を組み立てる営み」と置く。しかしすぐに、AIがその中心に「理解ではなく機能」を持ち込んだことを強調する。ここが本書全体のトーンを決めている。理論・モデル・データ・証拠という基本語彙を、物理学・情報科学の読者にとって違和感のない言葉に翻訳しながら、AIモデルが「意味理解なしに当たる」事態を、単なる応用例ではなく、科学概念そのものの再定義を迫る事件として扱う。
本章の核心は、科学の中心を「理解」から「振る舞いの設計」へ移すとき、何が失われ、何が得られるか、そしてその移動を「避けられない事実」として受け入れるところから議論を始めている点である。物理学者にとっては、理論の説明性や対称性の美学が何を担っていたかを、改めて言語化する入口になる。
特筆すべき点は、研究の現場にいる読者が「AIの成果は科学か?」という雑談レベルの問いを、研究上の規範(何を成果とみなすか、何を検証とみなすか)へ引き上げられることだ。研究室の議論が一段深くなる。

第2章 境界線:何が科学で何が科学でないのか
ここでは科学のデマケーション(境界)問題が、AIによって「説明不能だが再現的に当たるもの」が増殖したため、現場の問題になったと論じられる。古典的な「反証可能性」だけで切り分けるとAIモデルは厄介な位置に落ちる。逆に「当たるなら科学」と言うと疑似科学も紛れ込む。
本章の要点は、境界を一枚岩の基準としてではなく、用途別の「要求仕様」として分解して見せる点である。たとえば、基礎物理の理論と、医療診断モデルと、材料探索の最適化モデルとでは、説明・反証・安全性・監査可能性の重みづけが異なる。その違いを明示しない議論は空回りする、という整理が効いている。
注目すべき点は、AI研究者がしばしば抱える「我々は科学をしているのか工学をしているのか」という自己像の揺れを、哲学の言葉でなく設計仕様の言葉に置き換えてくれることだ。論争を終わらせるのではなく、論争の争点を正確に分解する。

第 Ⅱ 部 データと観察:誰が世界を「見ている」のか
第3章 観察の理論負荷性:AIが「見る」とはどういうことか
観察の問題は、従来は人間の知覚や言語に寄りかかっていた。だが本書は、AIの特徴抽出・前処理・ラベリングが、観察の土台をまるごと作り変えたことを丁寧に追う。観測装置の一部としてのAI、つまり「観察の媒介物としての学習器」が登場したのだ、という視点が新鮮である。
本章の中心的主張は、「観察は理論に依存する」という古い命題を、いまは「観察は学習データとアルゴリズム設計に依存する」と更新している点である。物理の実験解析(イベント選別、ノイズ除去、再構成)を知る読者ほど腑に落ちる。観測とは「素データ」ではなく、そもそも作られるものだという当たり前が、AIでさらに顕在化する。
実用的価値は、AIモデルを使ったデータ解析でしばしば問題になる「データの意味がどこで決まったか」を、哲学の言語で追跡できるところにある。研究不正の話ではなく、研究設計の話として読める。

第4章 帰納と一般化:正当化なき飛躍をどう扱うか
帰納の正当化は科学哲学の中心問題だが、本書の手際はよい。AIは「なぜ一般化できるのか」を説明せずに一般化してしまう。すると論点は、正当化の形而上学から、運用上の信頼へと移る。過剰に哲学的にせず、「外挿が壊れる条件」「分布がずれると何が起きるか」といった研究者が日々扱う言葉に落としている。
本章の鍵となる視点は、帰納の問題を「真理の保証」ではなく「失敗の管理」として読み替えるところにある。これは情報科学では自明に見えるが、物理学の理論像(普遍法則)とぶつかるときに、初めて哲学的緊張が現れる。その緊張を、否定でも礼賛でもなく、精密に言語化する。
本章の貢献は、機械学習の一般化議論を哲学的に鍛え直したい読者にとって、概念整理の教材になる点である。特に「一般化=正しい推論」ではなく「一般化=リスク付きの賭け」という捉え方が、研究チームの意思決定に活きる。

第 Ⅲ 部 説明・因果・実在:科学の「中身」をAIで再点検する
第5章 説明とは何か:予測の勝利の後に残るもの
本章は、AI時代に説明が不要になったか、という俗論に乗らない。予測が勝ってしまった世界で、説明は何のために必要なのかを、理解・受容・責任・移植可能性という観点で分解する。説明は飾りではないが、唯一の目的でもない。ここが本書のバランス感覚の良さである。
本章の核心は、説明を「自然を理解するための内的価値」だけでなく、「社会的・制度的に知識を流通させるための外的価値」として扱う点にある。研究成果が論文・レビュー・標準化・規制・製品へ移る過程を思い浮かべると、その必然性が理解できる。
読者への示唆は、物理学者には「なぜ説明の美学が研究を駆動したのか」を再確認する章として、AI研究者には「説明可能性がなぜ要求されるのか」を倫理ではなく方法論として理解する章として読めるところにある。

第6章 因果とは何か:相関マシンと介入の責任
AIは相関を極限まで磨き、因果の必要性を薄めたかに見える。しかし本書は、因果が必要になるのは「介入して責任を負う場面」だと捉える。医療、政策、制御、材料設計――そこでは「当たる」だけでは足りない。介入した結果の責任が生じる。
本章の重要な転換は、因果を形而上学ではなく「責任と介入の語彙」として再定義する点である。これは理系研究者にとって非常に読みやすい。因果は哲学者の趣味ではなく、実験と設計の中心概念だと腑に落ちる。
実践的意義は、因果推論(反実仮想、交絡、介入)と機械学習を、同じ地平で語るための共通言語が手に入るところにある。分野横断の共同研究に効く。

第7章 実在論を更新する:AIの内部表現は「存在」なのか
ここが本書の白眉の一つだろう。AIの潜在表現や表象は、電子のように「ある」と言いたくなるが、同時に物理的実在と呼ぶのは難しい。にもかかわらず、それは世界への介入を可能にする。すると「存在するから効く」ではなく「効くから存在を問いたくなる」という逆転が露呈する。
本章の洞察は、実在論・道具主義の古い対立を、AIの表象を例にして「責任と解釈の選択問題」へ変換している点にある。理論が何を存在させるかは、単なる世界観ではなく、説明義務や監査義務をどこまで背負うかに関わる。
知的刺激は、物理学の理論実在論に馴染んだ読者ほど強いだろう。情報科学の読者は「内部表現は道具だろう」と言いがちだが、本章を読むと、道具主義だけでは片付かない場面(安全性・解釈・法的責任)が具体的に見えてくる。

第Ⅳ部 推論・選択・再現:科学を「運用」するための哲学
第8章 理論選択の再定義:真理候補から設計オプションへ
AIモデルの世界では、単純性や美しさよりも、計算資源、頑健性、再学習可能性、監査可能性が重要になる。本章は、理論選択が「真理に近いか」から「制約条件下での最適化」へと移ったことを、明確に論じる。
本章の基本的立場は、科学理論を「設計空間の中の選択肢」として捉える視点である。物理学者にとっては挑発的だが、工学や情報科学の実践に近い。ここで本書は、科学と工学を混同せず、科学が工学的要求にさらされる局面を整理している。
現場への寄与は、共同研究でよく起きる「何をもって良いモデルとするか」の衝突を、哲学的に整流してくれる点にある。議論が価値観のぶつけ合いから、要求仕様の調整へ移る。

第9章 推論形式の変容:論理から故障診断へ
演繹・帰納・仮説推論の区別は、AI推論の前では曖昧になる。AIはそれらを混ぜた統計的推論を行う。本章の着眼は、そこで論理が不要になるのではなく、役割が変わるという点である。論理は正当化装置から「壊れ方を理解する装置」へ。
本章の問題設定は、「正しい推論」より「どの条件で壊れるか」が中心になる、という点にある。これは現代の安全性・信頼性工学と直結しており、理系研究者には響くだろう。
方法論的価値は、AIの評価を単なるベンチマーク競争から引き上げ、失敗モードの地図作りとして捉え直す助けになるところにある。

第10章 再現性と信頼:一点再現から性能分布へ
AI研究で再現性が難しいことはよく知られているが、本章は愚痴に落ちない。再現性の意味が、同一結果の再現から「同程度に機能するものが再現される」へ移る――つまり性能分布の安定性へ移ったことを、概念として整理する。
本章の再定義は、再現性を「一致」ではなく「期待外れの頻度管理」として捉え直す点にある。統計的品質管理の語彙で科学の信頼を語り直しており、工学寄りの読者にも理解しやすい。
分野横断的意義は、物理の実験再現性と、機械学習の再現性がなぜ噛み合わないのかを、感情ではなく概念の違いとして整理できることにある。分野間の摩擦を減らす。

第Ⅴ部 社会実装と価値:価値中立神話の終焉を受け止める
第11章 科学と社会:価値はどこに入り込むのか
本書の終盤は、倫理の付録ではない。AIが研究目的・データ選択・評価指標に価値を内包するため、「科学は価値中立で応用だけが倫理の問題」という古い分離が維持できないことを、制度論として描く
本章の視座は、価値判断を「外から科学に押し付けられるもの」ではなく、「知識生産の内部に最初からある設計変数」として扱うところにある。研究資金、査読、標準化、規制、説明責任が連動する現代の研究環境を、科学哲学の射程に回収している。
実践的効用は、研究者が「社会実装の議論は苦手だ」と感じるときに、道徳説教ではなく研究設計の延長として議論できる枠組みが得られる点である。特に大規模モデルや医療AIなど、社会との接続が不可避な領域の読者には実用的だ。

終章 AI時代の合理性:理解なき知識をどう引き受けるか
締めくくりは、AIが突きつけた核心――理解・説明・真理・責任の組み替え――を一つの問いに束ねる。「理解なき知識」は知識なのか、という問いである。本書はここで、賛美でも拒否でもなく、「引き受け方」を複数提示する。研究者は立場を選べるが、立場を選ぶための概念地図は必要だ、という姿勢が貫かれる。

評者としての総評:なぜ理系研究者に薦められるか
本書の価値は、科学哲学を「思想史の教養」ではなく「研究活動の設計学」へと翻訳した点に尽きる。AIが研究の方法・評価・責任を同時に変えるため、哲学的論点は避けようとしても避けられない。しかし、多くの議論は抽象と感情に流れる。本書はそれを、概念の精密化と論点の分解によって止血する。

物理学者には、説明・実在・普遍性への信念がどこで研究を駆動し、どこで制度と絡んでいたかを再言語化する鏡になる。情報科学者には、ブラックボックスがもたらす成果を、単なる性能競争から「科学としての位置づけ」へ格上げするための道具立てが与えられる。両者の共通点は、研究の現場で判断を迫られる場面――モデルを採用するか、説明を要求するか、因果を求めるか、再現性をどう設計するか――において、議論が一段具体化することである。

強いて注文をつけるなら、読者によっては「設計としての科学」という語りが、科学の真理志向を弱めすぎると感じるかもしれない。しかし、それ自体が本書の狙いでもある。AIという「理解を迂回する実在物」が現場に居座る以上、真理志向を守るにも、いったん機能志向の言葉で論点を整理し直す必要がある。本書はそのための、いま最も実戦的な入門書兼専門書だろう。

もし研究室の輪読に一冊選べと言われたら、AIを道具として使う研究室ほど、この本は効果を発揮する。研究倫理の授業よりも、モデル選択の議論よりも、先にこの概念地図を共有しておくと、以後の議論の生産性が上がる。そういう種類の「役に立ち方」をする科学哲学書である。