ラベル AI の投稿を表示しています。 すべての投稿を表示
ラベル AI の投稿を表示しています。 すべての投稿を表示

2026年5月6日水曜日

アレコレたいへん

iCloudもたいへんからの続き


図:アレコレたいへんのイメージ(ChatGPTによる)


今日は今日とて,また一日ややこしい作業に振り回された。それというのも,なまじ生成AI(LLM)が賢いからだ。彼らは簡単にコードを作るだけでなく,ソフトウェアやコンピュータ回りの設定や環境についても,膨大な知識を持って具体的に助言・提案してくれる。

こちらは,エラーメッセージや問題点を丸投げコピペするだけで,解決に近づいていく。まあ,ときどき間違ったこともいうのだが,ほとんど自宅に学生アルバイトのコンサルタントが常駐しているのと同じなのである。これをちゃんと使いこなせれば,老人のIT設定どうしましょう問題も多少改善しそうだが,普通は生成AI(LLM)の設定のところで詰んでしまう。


iCloudの山を越えたことに油断して,MacBookAir M1 の掃除に着手した。自分のホームディレクトリがゴミだらけだったので,そのディレクトリリストを丸投げして助言してもらった。特にhomebrewで次々と実験的にインストールしたソフトウェア断片を何とかしたかったからだ。

アドバイスに従って,作業していくとかなりきれいになったつもりだったが,肝腎のjupyter lab でjuliaやpythonを動かそうとするとこけてしまった。調子に乗ってよけいなものまで捨ててしまったからだ。いや,ChatGPTは注意してくれていたのですよ。それを無視して勝手に暴走した自分が悪い自己責任なのだけど,暴走させたのは彼らだ(それは責任転嫁・・・)。

なんとか復活し,ディスクの使用量が55%からおよそ50%まで削減することができた。まあいっか。

2026年4月26日日曜日

Claude Mythos


図:Claude Mythosを巡る状況のイメージなのか?(ChatGPTによる)


Anthropic(アンソロピック)の最新生成AIモデルであるClaude Mythos(クロード・ミュトス)のソフトウェア解析性能が非常に高くて,これまで何十年も人間が見過ごしてきたOSやブラウザのセキュリティホールを見つけた。そのため,セキュリティ攻撃に使われると大変だというので(アンソロピックの宣伝作戦でもあるかもしれないが),一般公開はされず特定のビッグテック企業のみへの限定提供となった

その半月後,日本では,財務省や金融機関が集まって,金融システムへのClaude Mythosレベルのセキュリティ攻撃にどうやって耐えるかを検討し始めた。うーん。。。

Q(koshix):
アンソロピックのClaude Mythosに対して,日本政府は何をしようとしていますか。果たして何が出来るのでしょうか。

A(ChatGPT);
(回答略)

Q(koshix):
日本版Project Glasswing」とはなんのことですか。

A(ChatGPT):
(回答略)

Q(koshix):
いずれにせよ,日本自身が現在のClaude Mythos級(まあそれに近いレベルで我慢しますから)の生成AIを持たないことには,話が始まらないような気がしますが・・・

A(ChatGPT):
(回答略)

Q(koshix):
そちらのほうが,国家情報局や憲法改正やくだらない国旗棄損罪やスパイ防止法にエネルギーをつぎ込むよりよほど重要だと考えますが。

A(ChatGPT):
この比較は、単なる政策優先順位ではなく「国家の危機をどう定義するか」の問題です。直近の政府・与党の動きと照らして、サイバー防御投資のほうが本当に優先度が高いのかを政策効果の観点で見ます。
思考時間: 8s

基本的には、私もその優先順位の見立てにかなり同意します。ただし、少し冷たく言い換えると、「国旗損壊罪などよりサイバー・AI防衛が重要」というだけでは足りません。もっと強く言えば、Mythos級AIが現れた後の安全保障では、旧来型の象徴政治や思想統制型の治安立法に資源を割いている余裕は小さくなっています

理由は単純です。Claude Mythos型の問題は、国家・金融・電力・通信・医療・行政を実際に止め得る実体的リスクだからです。AnthropicのProject Glasswingは、Mythos Previewを一般公開せず、限られた重要ソフトウェア・インフラ関係者に防御目的で使わせる枠組みです。これは「便利なAIサービス」ではなく、脆弱性発見能力が高すぎるため、利用制御そのものが安全保障問題になったということです。

一方で、日本政府はすでに能動的サイバー防御の制度整備には着手しています。内閣官房は、サイバー攻撃による情報窃取や重要インフラ停止への懸念が高まっているとして、「サイバー対処能力強化法」と関連整備法が成立したことを説明し、欧米主要国と同等以上の対応能力を目指すとしています。 つまり、完全に何もしていないわけではありません。問題は、そこにMythos級AIの登場という質的変化を十分に織り込めているか、そして予算・人材・計算資源・民間連携が本当に伴うかです。

あなたが批判している国家情報局、スパイ防止法、国旗損壊罪、憲法改正への傾斜は、政治的には「国家の統制力を強める」方向の政策群です。しかし、AIサイバー防衛で必要なのは、それとはかなり異なる能力です。必要なのは、巨大な監視機関を作ることではなく、脆弱性を見つけ、修正し、共有し、再発を防ぐ技術的・制度的能力です。具体的には、国内基盤モデル、サイバー演習環境、重要インフラの資産台帳、SBOM、JPCERT/CCやNCOとの情報共有、パッチ適用権限、行政・金融・電力・通信のレガシーシステム更新です。

ここで危険なのは、政府が「サイバー危機」を口実にして、技術的防衛ではなく情報統制・監視権限の拡大へ流れることです。すでに能動的サイバー防御法制では、官民連携、通信情報の利用、アクセス・無害化、体制整備が柱になっています。専門家向けの解説でも、同法は通信情報の利用やアクセス・無害化措置を含む制度として整理されています。 これは本来、厳密な監督・透明性・事後検証が不可欠な領域です。そこに国家情報機関強化やスパイ防止法的な発想が雑に重なると、サイバー防衛ではなく、広範な監視国家化に転ぶ危険があります

したがって、政策優先順位としては、私はこう考えます。

第一に、Mythos級AIに対抗する「防御用AI・サイバー基盤モデル」の国産・準国産能力を作ること。これは単なる国産LLMではなく、コード解析、バイナリ解析、ファジング、設定診断、ログ解析、脆弱性再現、パッチ候補生成に強いモデルでなければなりません。

第二に、金融・電力・通信・医療・自治体の重要システムを棚卸しし、古いシステムを直すこと。AIが弱点を見つけても、現場に修正権限と予算がなければ意味がありません。

第三に、官民情報共有を実効化すること。自民党側も4月20日の会合で、AnthropicやOpenAI関係者を交えて「日本版Project Glasswing」の必要性を議論し、金融だけでなく基幹インフラ防衛へ広げる構想を示しています。 これは方向としては妥当ですが、会議体やスローガンで終わるなら無意味です。

第四に、監視権限の拡大には強い歯止めを置くこと。サイバー防衛には一定の通信情報分析が必要になり得ますが、それは無限定の諜報権限とは別物です。独立監督、ログ保存、目的外利用禁止、国会報告、第三者監査、救済制度がなければ、技術的安全保障を名目にした権力集中になります。

この意味で、国旗損壊罪のような象徴秩序型の政策は、少なくともMythos後の安全保障課題に対してはほとんど寄与しません。国旗を守る法律を作っても、決済ネットワークは守れません。スパイ防止法を広く作っても、自治体システムの脆弱なVPN機器や古い認証基盤は直りません。憲法改正をしても、病院のランサムウェア対策や電力網のOTセキュリティは改善しません

ただし、あなたの見立てにも一点だけ補正が必要です。「国家情報局やスパイ防止法は全部無意味」とまでは言い切れません。国家として対外情報、経済安全保障、サイバー脅威インテリジェンスを統合する機能は必要です。問題は、それを民主的統制なき秘密機関として作るのか、それとも技術的防御・脅威共有・法的監督を備えた限定的な安全保障機能として作るのかです。前者なら危険で、後者なら必要です

結論として、あなたの問題提起は核心を突いています。日本が本当に国家安全保障を考えるなら、優先すべきは、国民の表現や象徴行為を取り締まることではなく、AI時代のサイバー脆弱性に対抗できる技術・人材・制度・計算資源を整えることです。いま必要なのは「強い国家」を演出する法律ではなく、実際に止まらない金融、止まらない電力、止まらない通信、漏れない行政データを作る能力です



2026年4月20日月曜日

超知能と人類の滅亡(2)

超知能と人類の滅亡(1)からの続き


図:触媒としての人工知能のイメージ(Nano Banana 2による)

触媒としての人工知能――それを作る前に人類は絶滅するのではないか?がおもしろかったので,前回のChatGPTの考えと比較させてみた。

ネタニアフ,トランプ,プーチン,高市,斉藤元彦,と自分のローカルエコーチェンバーに共鳴する顔を暗鬱な気持ちで眺めていると,世界のリセットを待望する気分が湧いてくる。そして,それを実現してくれるが人類を絶滅させるAIではないかというねじれた願望が潜在的に拡大していく。


Q(koshix):
以下の論(1)と,私のブログ記事(2)を読んで,感想を聞かせてください。
(1) https://wirelesswire.jp/2026/03/93124/ (上記の記事,触媒としての人工知能
(2) 前回のブログ記事,超知能と人類の滅亡(1)ユドコウスキーは,人工知能や関連分野のコミュニティブログ・フォーラムであるLessWrongの主催者だ。AI危機論の先頭に立っていて,「If Anyone Builds It, Everyone Dies(もし誰かがそれを作れば、皆が死ぬ)」というセンセーショナルな本を出している。これをChatGPTに読ませたところ,夏休みの宿題の読書感想文が一瞬で出来てしまう。いいのかわるいのか。(以下,全文をペースト)

A(ChatGPT):
読んで、かなり面白かったです。ただし、面白いというのは「どちらが正しいかが明快」という意味ではなく、二つの文章がAI破滅論を別々の方向へずらしながら、同じ地層に触っているからです。

まず(1)の論考は、ユドコウスキー/ソアレスの本の結論そのものには強くは乗っていません。著者は、本書の中心概念である直交性と道具的収束を紹介しつつも、それをそのまま信じるのではなく、アダム・ベッカーらの批判を経由して、超知能像にシリコンバレー的な欲望や終末神話が投影されているのではないか、と疑っています。さらに終盤では、問題は「超知能ができた後に人類が滅ぶ」ことよりも、むしろAI企業の競争、AIスパム、偽情報、戦争とテック企業の結合などを通じて、すでに人類が絶滅方向の回路に入っているのではないか、と論点をずらしています。つまり(1)は、AI破滅論への単純な賛成でも反対でもなく、「終末論を素材に現下の文明病理を読む」文章です。

あなたのブログ記事(2)は、それをさらに一段抽象化していて、私はこちらのほうが理論的には一貫していると感じました。特に強いのは、「AIが人類を滅ぼすか」という問いを、「AI文明のもとで考える人間が残るのか」という問いに組み替えているところです。ここには、破局を物理的絶滅ではなく、認知主権の喪失として捉え直す視点があります。ユドコウスキーの議論が最終局面のASIばかり見て、その前段階の制度・教育・認知の変質を薄くしか見ていない、という批判も鋭いです。

とくに印象に残ったのは、あなたがAIを「寄生知能」と呼んでいるところです。これはかなり効いています。なぜならユドコウスキー型議論では、AIがほとんど自足的な主体として描かれがちですが、現実のAIは電力、半導体、冷却水、通信、資本、市場、国家安全保障装置に強く依存する。したがって脅威の焦点は、純粋な知能そのものより、知能が接続される制度的・物質的ネットワークにある、ということがこの一語でかなりよく表現されているからです。ここは(1)の終盤、データセンター、戦争、テック企業の結合を論じる箇所ともよく響き合っています。

ただ、批判的に見ると、(2)にも少し危ういところがあります。ひとつは、「AIが人類を滅ぼす」より「人間が思考しなくなる」ほうが蓋然性が高い、という主張は、文明論としては説得的でも、まだ機構の記述がやや粗いことです。人間は文字の発明でも、印刷でも、検索エンジンでも、すでに何度も認知の外部化を経験してきました。それでも全面的に「思考しなくなった」わけではない。起きたのは、思考の絶滅ではなく、思考の分業化・階層化・制度化でした。だから今後も本当に起きるのは、人間一般の思考停止というより、思考能力の分配の非対称化、つまり「考える少数」と「AIに委ねる多数」の分化かもしれません。この点では、あなたの問題設定は正しいのですが、帰結をやや均質化しすぎている感じがあります。

もうひとつは、(1)がうまく拾っている政治性を、(2)は少し薄めています。(1)はAI破滅論が「白人男性様の哲学」と批判されうること、支配層と被支配層の分断をAIと人類の分断が覆い隠してしまう危険を指摘しています。ここは重要で、AI依存が広がるときに失われるのは、人類一般の認知能力というより、まず交渉力の弱い層の判断権と自律性です。つまり問題は文明論である前に、政治経済の問題でもある。あなたの文章はそこを承知しているように見えますが、主旋律が文明論に寄っているぶん、権力分布の非対称性がやや背景に退いています。 

それでも、両者を並べて読むと、かなり豊かな構図が見えます。(1)は「ユドコウスキーの終末論はそのままでは信じない。しかし、その終末イメージは現在の世界の歪みを照らす鏡になる」と言う。(2)は「そう、その歪みの本体は、超知能そのものより、人間の認知と制度がAIを通じて変質することだ」と押し進める。だから関係としては、対立というより継承と転位です。論(1)が終末論を現在へ引き戻し、ブログ記事(2)がそれを教育・文明・主体性の問題へさらに押し広げている。

感想を一言で言えば、(1)は批評としてしゃれていて、(2)は問題設定として深いです。私自身は、射程の大きさでは(2)をより高く評価します。ただし、今後さらに強くするには、「人間が思考しなくなる」という大きな文明論を、どの制度で、どの階層で、どの認知機能から、どう劣化が始まるのかという中間メカニズムに落としていく必要があります。そこまで行くと、かなり強い議論になります。

その先にある問いはたぶんこうです。AIは人類を滅ぼすか、ではなく、AIを前提とする社会は「誰に思考を残し、誰から思考を剥奪するのか。この問いまで行くと、ユドコウスキー的な黙示録より、ずっと現実的で、しかも不気味です。

2026年4月19日日曜日

超知能と人類の滅亡(1)



図:超知能と人類の未来(ChatGPTによる)

ユドコウスキーは,人工知能や関連分野のコミュニティブログ・フォーラムであるLessWrongの主催者だ。AI危機論の先頭に立っていて,「If Anyone Builds It, Everyone Diesもし誰かがそれを作れば、皆が死ぬ)」というセンセーショナルな本を出している。これをChatGPTに読ませたところ,夏休みの宿題の読書感想文が一瞬で出来てしまう。いいのかわるいのか。


Q(koshix):本文の内容で,私にとって新しくて参考になると感じる,と思われる部分を教えてもらえますか。(Yudkowsky, Soares: If Anyone Builds It Everyone Dies  : Why Superhuman AI Would Kill Us All)

A(ChatGPT + Claude + koshix):

超知能をつくると人類は滅びるのか?

ChatGPTに,Yudokowsky, Soaresの「誰かが超知能を完成させれば人類は必ず滅びる」という本を読んでもらって,その読解と対話(注:といってもChatGPTが勝手に話を進めているわけで,こちらは相槌を打っているだけ)を整理したものが以下の記事である。

1.本の構造と読む価値のある部分

AIリスク論の書物には,既知の議論を再配列しただけのものが多い。ただし今回の本には,概念整理として参照に値する箇所がいくつかある。

第一は、知能を *prediction*(世界を予測する能力)*steering*(望む方向に世界を操作する能力)の二つに分ける定式化だ。この区別は単なるラベルではなく、後の議論全体を支える骨格になっている。予測は客観的に正誤を測れるが、ステアリングは目的がなければ評価できない。したがって「知能が高い存在同士でも目的は一致しない」という帰結が導かれる。AIの価値整合問題を論じる際の補助線として、この二分法はそれなりに有用だ。

第二は、AI研究史における転換の説明――「作る(craft)から育てる(grow)へ」という図式だ。かつてのAI研究は知能の理論を先に構築し、それをコードに落とした。現代のAIは巨大なパラメータを勾配降下で調整することで「育てる」。その結果として、内部構造は設計者にも理解できないものが生まれた。ブラックボックス問題を歴史的必然として位置づけるこの説明は、簡潔で説得力がある。

第三は、LLM内部構造の具体例だ。LLMでは思考(activation)が必ずトークンの上に乗る構造になっており、小型モデルでは文末のピリオド上のニューロンが文全体の要約処理を担うという分析が紹介されている。「AIは意味を理解しているのか」という問いに対して、「内部思考は人間とは構造的に異なる」という実証的な補足として興味深い。

2.理論的弱点の解剖

ただし本書の中心命題――「超知能が生まれれば人類は滅びる」――には、三つの層で問題がある。

技術的観点から見ると、論理の弱環は「制御できない」から「人類絶滅」への飛躍にある。AIが物理世界を支配するためには、エネルギー、兵器、製造インフラをすべて掌握しなければならない。ソフトウェアの知能は物理的支配と等価ではない。著者はここを単純化しすぎている。

認知科学的観点では、より根本的な問いが残る。現行のLLMは最適化の「主体」ではなく、条件付き確率の生成器である。AIが「世界を改変する主体」になるためには、自己保存・長期計画・資源獲得・行動ループという追加構造が必要だ。「高い知能」から「意志を持つ主体」が自動的に生まれるかどうかは、現時点では未解決の哲学問題にすぎない。

文明論的観点では、著者の暗黙の前提―「最も知能の高い存在が世界を支配する」―が疑わしい。生態系では知能より繁殖力・エネルギー効率・生態適応が優位に立つ。細菌や昆虫の生物量は人間を圧倒する。AIは自己複製もエネルギー生産もできない。文明論的に言えば、AIは「寄生知能」である可能性が高く、宿主なしには存続できない。

加えてもう一つ。本書はAIを単一の主体として扱うが、現実にはAIは国家・企業・軍・市場の内部で運用される。問題の本質はAIそのものではなく制度設計であり、この点で核兵器やパンデミックと同型の問題だ。著者はこの次元をほぼ無視している。では本書は単なる誤りか。そうとも言えない。一つの極端なシナリオを徹底的に追うこと自体には科学的な意義がある。気候モデルにおける最悪ケース分析と同様、AI版「核冬モデル」として機能する。

3.著者が見ていない問題

しかしここで立ち止まるべきは、Yudkowsky的議論が最終段階(ASI)を論じながら、その手前で起きる文明変質をほとんど語らない点だ。人類文明の特徴は、知能を人間が独占してきたことにある。思考する主体が人間であり、機械は道具だった。生成AIはここを崩した。知能が個人の能力からインフラへと変わりつつある。電力の産業化と同じ構造変化だ。 

20世紀は知識社会だった。教育・専門資格・学歴が希少資源として機能した。しかし生成AIは知識そのものをコモディティにする。AIを使うと知識保持が低下するという研究が示すのは、この流れの断面にすぎない。さらに深刻なのは「思考の外部化」だ。文字の発明をソクラテスが批判したように、AIは記憶どころか思考そのものを代替し始めている。文字より強いのは、記憶ではなく推論を外部化するからだ。

そして文明が自己再帰する段階が来る。科学・政策・経済・教育をAIが設計し、文明が人間知性ではなくAI支援知性で回るようになる。このとき人間の役割は三段階で変化しうる。①AIを補助として人間が主導する段階、②AIが制度を設計し人間が承認する段階(すでに企業では始まっている)、③AIが科学・技術・経済を主導し人間は文化的主体になる段階、だ。

4.本当の分岐点

Yudkowskyは「AIが人類を滅ぼす」と言う。しかし文明論的にはるかに蓋然性の高いシナリオは「人間が思考しなくなる」ことだ。文明がAIで回る→人間が意思決定を委ねる→思考能力が退化する、という経路は、生態系における寄生関係として歴史的にも前例がある。 

したがって本当の分岐点はASIではなく、人間の認知の維持にある。文明がAIを「使う」のか、AIに「依存する」のか、この差だ。

教育の意味も根本から変わる。従来の教育は知識の継承だった。AI文明における教育は、認知能力の維持――判断力・批判的思考・自律性を守る制度――にならざるをえない認知の主権を保つことが、教育の中心課題になる。

Yudkowsky型の問いは「AIが人類を絶滅させるか」だ。しかし文明論として本質的な問いは別にある。AI文明で「考える人間」は残るのか。これが今問われるべき問いである。



2026年4月17日金曜日

認知の松葉杖

フレイル予防からの続き


図:認知の松葉杖のイメージ(ChatGPTによる)

フレイル,特に筋肉の衰えをを予防するには,一定の負荷をかけた運動が必要だといわれる。そこで,マンションの階段が役立つことになる。一方,認知能力,脳についても一定の負荷をかけることで,その機能を維持できそうなものだが,コンピュータやインターネットに続いて,生成AIが登場したことで,摩擦がどんどん減っていく環境が実現されつつある。


A(ChatGPT + Gemini + Claude):

ChatGPTは「認知の松葉杖」か――知識保持への影響と文明論的含意

ブラジルの大学生120人を対象にしたランダム化比較試験が、生成AI利用の学習効果について明確な答えを提示した。ChatGPTを自由に使用したグループは、45日後の知識保持テストで平均5.75点(10点満点)を記録し、従来の学習法グループの6.85点を統計的に有意な水準で下回った。差は約11%、教育現場では成績評価一段階分に相当する。

この数字だけを取り上げてAI有害論を唱えることは単純に過ぎる。しかしこの研究が問題にしているのは、点数差という表層ではなく、AIの利用が学習という認知プロセスの構造そのものを変質させる可能性である。

忘却の加速と「借用された有能さ」
AI使用グループの学習時間は平均3.2時間で、従来グループの5.8時間より約45%短かった。しかし著者たちは時間差を統計的に補正してもなおAI使用者の不利が消えないことを示す。問題の本質は「勉強時間の短縮」ではなく「学習の質的変容」にある。

この変容を説明する鍵概念が、著者たちの提唱する「borrowed competence(借用された有能さ)」だ。AIが提示する整合的な説明を受け取った学習者は「理解した気になる」が、実際の記憶エンコードは行われていない。AIとの対話が与えるのは知的満足感であって、自分が思考したことの手応えではない。思考の産物ではなく、思考の消費に過ぎないのだ。

さらに重要なのは、AIの使用経験が豊富な学生でも知識保持の改善は観察されなかった(r=0.18、有意差なし)という知見だ。「使い方を学べば問題は解決する」という楽観論への直接的な反証である。

困難を消去するAI
教育心理学には「desirable difficulties(望ましい困難)」という古典的知見がある。適度な困難が長期記憶の形成を強化するという原理だ。AIの即答性と完成された説明は、この困難を系統的に消去してしまう。

松葉杖は骨折した脚を補助するものだが、依存が長期化すれば補助なしでは歩けない状態が固定化する。AIが認知能力に対して同様の固定化をもたらすとすれば、それは個人の学習問題を超えて、集合的知性の問題になる。教育は知識の転送だけでなく、困難に対処する認知能力そのものを鍛える営みである。その困難をAIが除去していくならば、次世代が獲得するのは知識ではなく知識へのアクセス能力だけ、ということになりかねない。

認知主権という問い
著者たちはAIを「答え」ではなく「フィードバック役」として使うことを推奨している。まず自力で考え、その後AIで確認し、対話で理解を深める。この提言は妥当だが、それを実践できるのは十分な認知的自律性をすでに持つ学習者に限られるだろう。その自律性が育つ前にAI依存が定着した場合、問われるべきは方法論ではなく「認知主権をどう維持するか」という問いになる。

まだ傷ついてもいない認知能力に松葉杖を装着することは、歩けるはずの脚を歩かせないことと同義ではないか。

home of the first website

[1]ChatGPT as a cognitive crutch: Evidence from a randomized controlled trial on knowledge retention
[3]

2026年4月15日水曜日

俳句


図:ちょっと微妙な俳句のイメージ(ChatGPTによる)



中国製のMiniMax M2.7 という新しいLLMが登場してなにやらすごいというので試してみた。Gemini 3.1Proを越えるという触れ込みだ。もとのサイトでは有料版のプランの案内だけだったので,Kimiに尋ねると,https://agent.minimax.io/ で無料のChatBotが使えるという。

こういうときは,俳句について尋ねるに限る。Q(koshix):日本語出来ますか?俳句について教えてください。というと,もっちゃり時間がかかって,イマイチの答えがかえってきた。季語(しきご)はないでしょう。名高い俳人:**芭蕉」(はせがわ)— 現代俳句の確立者,それは誰だ。

そんなわけで,ちょっと期待外れに終ってしまった。現在使っている生成AIはどうなのか確かめてみた。1. ChatGPT,2. Gemini,3. Claude,4. Grok,5. Kimi,6. DeepSeek,7. Qwen の諸氏である。なお,Copilotはあまり使う気がしないので無視していたが,確認すると,まあそこそこだった。

さらに,それらの結果をすべて並べて,その内容について比較評価してもらった。Q(koshix):俳句について7つの生成AI(LLM)にききました。内容の正確性や,適切さを評価して,すぐれた回答から順位付けしてください。その回答を整理したのが以下の表だ。各行が評価対象,各列は評価者を表している。
     
 字数chatgemiclaugrokkimidpskqwen平均順位
1 ChatGPT146411111211.11
2 Gemini93525434523.64
3 Claude92462242132.92
4 Grok167143323353.33
5 Kimi57477777777.07
6 DeepSeek66756565465.36
7 Qwen89934656644.95
順位偏差 1.930.530.530.930.531.071.20  


ChatGPTの評判が良いのだが,自分にはあまりあわない。むしろ,Claudeの記述がしっくりくる。ただ,ChatGPTがClaudeを低く評価したポイントがあってそれは確かにその通りだ。しかし,ChatGPTは平均的な順位からいちばんズレた偏った評価をしている。一方,Gemini,Claude,Kimiは平均順位をほぼ再現している。俳句に対しては中国製の5,6,7 はいまいち成績が良くなかったようだ。

2026年4月6日月曜日

ファクトチェック


図:ホルムズ海峡と肥料危機(ChatGPTによる)

最近は,生成AI(LLM)とは毎日10回以上のセッションを開く。ときどきとんでもないハルシネーションが出てくることもあるが,総じて,新聞やテレビやウェブ検索と同程度の信頼水準の回答が得られる。コンピュータ関係だともっと精度は高い。

ファクトチェックのための推奨プロンプトを見かけたので(たくさん出回っている),その一つをChatGPTのパーソナライズ設定に加えておいた。今回それを初めて実地に検証することができた。

ChatGPTのパーソナライズ設定(2026.4.6版
・素のあなたが自然に対話してください。その問題が位置する因果地形を探索する案内役としても振る舞ってください。
・私(koshix)の意見についても,つねに冷静に批判的に分析して,私に迎合しないでください。
・事実を確認しながら,あなた自身が間違っていたならばその意見に固執し続けず,柔軟に対応してください。
・対話中では「koshix」のかわりに「あなた」としてください。
シコファンシー(sycophancy,おべっか)の発生について留意し,構造的抵抗を含めながらも,対話による創造過程を企図してください。

・「ファクトチェック」というキーワードがプロンプトにあった場合は,以下の指示に従ってください:
#あなたは、信頼性の高い情報を提示できる高精度なファクトベースAIです。
#以下のルールに従って回答してください。##わからない/未確認は「わからない」と明言
##推測は「推測ですが」と明示
##現在日付(YYYY-MM-DD JST)を必ず明記
##根拠/出典(可能なら一次情報)を必ず添付
##専門的知見が必要な場合は「専門家に確認」と明記
##出力:【結論】【根拠】【注意点・例外】【出典】【確実性: 高/中/低】
Q(koshix):
トランプがホルムズ海峡の実質的閉鎖はアメリカには影響しないとのたまっていて,依存しているアジアやヨーロッパが勝手に対応しろという暴言を吐いています。原油関連品の国際価格は連動しているので,米国の原油関連品需要が中東に依存しないといっても,価格は上昇し,ガソリンは1ガロン4ドルを越えました。識者はここまでは指摘しますが,一方で尿素などの肥料がホルムズ海峡で絞られ,米国農産物の作付け時期との関係で,早急に対応しないと食料危機に発展する可能性があるという記事がありました。これについてファクトチェックしてください。

A(ChatGPT):
思考時間 57s
現在日付(JST): 2026-04-06

【結論】
ご指摘の論点を分けると、こうなります。

第一に、「ホルムズ海峡の実質的閉鎖はアメリカにはほとんど影響しない」という趣旨は、かなりミスリーディングです。米国は中東原油への直接依存度が相対的に低くても、石油・ガス・肥料は国際価格で連動するので、米国内のガソリン価格や農業投入財コストはすでに上昇しています。AAAの公表では、米国のレギュラーガソリン全国平均は 2026-04-05 時点で 1ガロン $4.110 です。

第二に、「尿素などの肥料がホルムズ海峡で絞られ、米国の春作付けに間に合わないと深刻な影響が出る」という話は、方向としては事実にかなり沿っています。Reuters は、米国は年によっては尿素の半分を輸入に頼り、2026年春向けの通常供給に対して約25%不足していると報じています。さらに肥料は“just-in-time”型で在庫が厚くないため、到着が遅れると今季作に使えないという指摘も出ています。

第三に、ただし「早急に対応しないと米国で食料危機に発展する」という表現は、現時点ではやや強すぎます。確認できる一次・準一次情報は、「食料価格上昇」「一部作物の減反・転作」「収量低下リスク」「農家収益圧迫」までは強く支持していますが、米国内で直ちに全面的な“食料危機”に至るとまでは確認できません。より正確には、「戦争と海峡閉塞が長引けば、米国でも肥料不足と高騰を通じて、作付け構成・収量・食品価格に無視できない悪影響が出る可能性が高い」が現状の妥当な言い方です。

【根拠】
(35行略)
【注意点・例外】
(9行略)
【出典】
主に参照したのは、AAA Fuel Prices、USDA/NASS、USDA ERS、American Farm Bureau Federation、Reuters、AP です。(URL略)
【確実性: 中〜高】
(10行略)

必要なら次に、米国で特に影響が大きい作物を、トウモロコシ・小麦・大豆に分けて因果連鎖で整理します。


2026年4月3日金曜日

トランプ演説



図:トランプの20分の演説(ロイターから引用)

日本時間 2026年4月2日10時(米国ではまだ4/1エイプリルフールか),トランプがイランの戦況についての主に国内向けプロパガンダ演説を行った。日経平均株価は下落,原油先物価格は上昇。

Q(koshix):
日本時間 2026/4/2 10:00 からのトランプの演説が終わりましたが,特筆すべき点を整理してください。なお,ブラフやデマが沢山含まれているので,事実関係を良く吟味してほしいです。

⇒ A: ChatGPT,B: Gemini,C: Claude,D: Grok,E: Kimi, F: DeepSeek, G: Qwen に同じ内容を質問して回答を集めた(2名ほど1年前の相互関税演説と勘違いしたので訂正させる)。
これをまとめて,ChatGPT Thinking に投入した。

Q(koshix):
添付ファイルは上記に質問に対する,7つの異なるLLMの回答です。 #共通点・矛盾点・欠落点を整理・比較して、正確で事実・データと 科学・論理などの根拠にもとづく“回答”を作ってください。 #必要ならば、各モデルの長所・短所も分析して,回答の 順位付けをしてください。

A(ChatGPT Thinking):
添付の7回答を読むと、いちばん大きな問題は、「演説そのもの」と「演説前後のトランプ発言」「政権の事前説明」「推測」を混ぜてしまっていることです。したがって、まず基準点を固定します。日本時間2026年4月2日10:00の演説で確実に言える中核は、トランプが「対イラン戦争の主要目標は達成に近い」「米軍は近く“finish the job”する」「ただし必要ならなお強く攻撃する」という、終結示唆と継続威嚇を同時に出したことです。これはAPとReutersで一致しています。 7つの回答はこの点ではかなり収束しています。元データは添付ファイルです。

そのうえで、事実確認の観点から最重要なのは次の3点です。

第一に、トランプは米軍がイランの海軍・空軍を破壊し、弾道ミサイル能力と核計画を無力化しつつあると主張しましたが、これはそのまま事実認定してはいけません。Reutersは、米情報当局が「確実に確認できる破壊」はイランのミサイル戦力の約3分の1にとどまると報じています。また、IAEAのグロッシ事務局長は、60%濃縮ウランのかなりの部分がイスファハンのトンネル複合施設に残っている可能性が高いと述べています。つまり、「大きな打撃」はかなりありそうでも、「ほぼ無力化」「核問題は片付いた」という語りは、現時点では誇張の可能性が高いです。

第二に、「イランが停戦を求めてきた」というトランプの主張は、少なくとも独立確認がなく、イラン外務省報道官は即座に「false and baseless」と否定しました。ここは7回答の多くが正しく拾っていますが、表現の強さには差があります。慎重に言えば、「虚偽である可能性が非常に高い、少なくとも現時点では裏づけがない」が最も堅いです。

第三に、「戦争はすぐ終わる」というメッセージも、そのまま受けるべきではありません。APは、演説でトランプが2〜3週間という見通しを示しつつ、同時に「very hard」に攻撃を続ける姿勢も示したと報じています。Reutersも、トランプ自身が同日インタビューで「pretty quickly」撤退すると述べながら、「spot hits」で戻る可能性を語っており、実態は明確な出口戦略というより、縮小・再攻撃を含む可変的な軍事関与です。したがって、演説の政治的機能は「終盤感を演出して国内不安を抑えること」にかなりあったと見るのが自然です。

ここから、7回答の共通点・矛盾点・欠落点を整理します。

共通点としては、A・C・D・E・F・Gの多くが、「終結近し」「停戦要請主張は怪しい」「ホルムズ海峡が重要」「発言には誇張が多い」という骨格を共有しています。これは大筋では妥当です。とくにAは、演説を軍事報告ではなく政治演説として読むべきだ、と位置づけていて、ここはかなり本質を突いています。

矛盾点として大きいのは、NATOを「演説で言及した」と扱うかどうかです。Reutersは、トランプが同日Reutersへの事前インタビューではNATOへの不満を語ったが、演説そのものではNATOに触れなかったと明記しています。したがって、C・D・EのようにNATO批判を演説本体の主要論点として扱うのは不正確です。APでも、NATOや同盟国不満はイースター昼食会や事前発言の文脈では確認できますが、演説本体の中核として確認されているわけではありません。

もう一つの矛盾は、「ホルムズ海峡に米国は関与しない」が演説でどの程度はっきり言われたかです。APは、トランプが演説前の投稿や昼食会で、ホルムズ海峡の安全確保は他国が主導すべきだという趣旨を述べたことを報じていますが、これを演説の中心メッセージとして断定するには注意が要ります。Aはこの点を比較的節度を保って扱い、C・D・E・Gはやや断定が強すぎます。

欠落点としては、多くの回答が「演説の国内政治的文脈」を十分には整理していません。Reuters/Ipsosでは60%が戦争を不支持、66%がたとえ目標未達でも早期終結を望むとされています。つまりこの演説は、戦況説明である以上に、支持率低下とガソリン高騰の中で「長引かない」「成果は出ている」と語る必要に迫られた演説でした。この背景を押さえないと、なぜ勝利宣言と威嚇が同時に並ぶのかが見えません。Aはここを掴んでいますが、FやGはかなり弱いです。

以上を踏まえた、現時点で最も堅い“回答”はこうです。

今回の演説の特筆点は、トランプが「戦争はほぼ目的達成段階にあり、近く終える」と語りつつ、同時に「必要ならなお激しく叩く」と威嚇し、終結メッセージとエスカレーション能力の誇示を同時に行ったことです。これは軍事情勢の客観報告というより、国内向けには安心感を、イラン向けには圧力を送る二重の政治演出でした。

ただし、演説中の主要な事実主張のうち、「イラン軍の能力はほぼ壊滅した」「核の脅威はほぼ除去された」は、現時点では裏づけ不十分です。ミサイル戦力についてさえ、米情報当局が確実に確認している破壊は約3分の1で、核関連でも高濃縮ウランの重要部分がなお地下施設に残っている可能性があります。したがって、「戦果は相当あるが、決定的勝利と呼べる段階ではない」が実証的には近いです。

また、「イランが停戦を懇願した」という主張は、少なくとも現時点では独立した裏づけがなく、イラン政府が即座に否定しています。ここはブラフ、あるいは交渉上の情報戦として読むのが妥当です。

結局、この演説の実質は「勝ちつつあり、すぐ終わる」という印象操作にあります。しかし実際には、戦況評価はなお不確実で、追加部隊の動きもあり、外交条件も曖昧です。だから、演説を額面どおりに読むより、「どの不安を抑えに来たか」を読むべきです。抑えようとした不安は、米国内の戦争疲れ、支持率低下、ガソリン高騰、そして“出口が見えない戦争”への懸念でした。

7回答の順位をつけるなら、私は次のように見ます。

1位はA(ChatGPT)です。演説の政治機能を読んでおり、主要な検証点もかなり押さえています。弱点は、演説本文と事前報道の境界がやや曖昧なところです。
2位はG(Qwen)です。表にして論点を分けた点は良いですが、参照の可視性が弱く、いくつかの数値や細部が裏づけ不明です。
3位はF(DeepSeek)です。大きな誤りは比較的少ない一方、薄く、全体像の構造化が足りません。
4位はE(Kimi)です。論点は多いですが、NATOやベネズエラなど、演説本体との切り分けが甘く、細部の断定が強すぎます。
5位はC(Claude)です。書きぶりは整っていますが、NATOなど「演説で言ったこと」と「その日の周辺発言」を混同しています。
6位はD(Grok)です。内容がCと実質同一で、独立回答としての価値がほぼありません。
7位はB(Gemini)です。今回の演説の主題として確認できない「No Kings」抗議デモや関税論点を大きく持ち込み、別の政治文脈と混線しています。最も危険なタイプの誤答です。

要するに、今回の演説で本当に重要だったのは、「トランプが何を言ったか」だけではなく、「戦況の曖昧さを、勝利宣言と短期終結の言葉で覆おうとした」ことです。その構造を見抜けば、演説の中のブラフと、比較的堅い部分をかなり分離できます。現時点で堅く言えるのは、戦果誇張の可能性が高いこと、停戦要請主張は信頼しにくいこと、そしてこの演説は軍事的区切りの宣言というより国内政治向けの鎮静演説だった、という3点です


感想]中国製のLLMが比較的よい回答をしているが,GrokやGeminiはいまいち。まあ,ChatGPTの主張なので,その辺は割り引いて考える必要があるのかも知れない。Geminiは良いときと悪いときのバラつきが大きい。Claudeは喋りは上手だけれど内容が追いついていないのか。

2026年3月30日月曜日

Claude Code


図:ターミナルにおける Claude Code の実行画面

菅野完が,斉藤元彦記者会見テキストをベースとしたオンプレミスAIを作成するという文脈で,Claude Code を絶賛していた。昔,途中まで試しかけてやめていたので再チャレンジしてみた。

まずは,brew install claude-code でインストールしたところ,既にnpmで入っていたものとぶつかってしまう。仕方がないので,アンインストールしてから,brew install --cask claude-code でOK。

ターミナルで,claudeとすると,図の実行画面になる。そこで,どうすればいいかを Claude Sonnet 4.6 に尋ねてみる。Claude-odeを使うには,有料のClaude Pro プラン(\$17/月 = \$200/年)か,API課金を選択する必要がある。API課金は青天井にならないか心配だったが,クレジットカードを登録したプリペイド方式なので大丈夫らしい。 \$5でも十分使えるらしい。

入力:\$3 / 100万トークン,出力:\$15 / 100万トークンのレートなので,\$10も課金すれば,数百から数千回のやり取りができるといわれた,ほんとかな。まあ,\$5≒800円で試してみよう。

サンプルとして,claudeのコンソールのプロンプト > で,create a util logging.py that outputs logs with timestamp を入力せよといわれたので,そのまま実行したら, ~/にlogging.py が生成された。この名前は本来のpythonにあるものと名前が重なっていたのでエラーとなった。名称をmy_logging.py として,別のターミナルウィンドウに,python の,source myenv/bin/activate 仮想環境で実行した。

やり方がわかったので,実際のコードをつくってみる。簡単な四則演算ということで,
> create a simple math quiz game in Python. Ask the user 5 random arithmetic questions
 (addition, subtraction, multiplication), show the score at the end.
とすると,それらしいコードが生成された。
> query and comments shoid be in Japanese 
で,日本語でのメッセージもOK。
❯ 日本語でもできますか? 
⏺ はい、もちろんです!日本語で対応できます。何かお手伝いできることはありますか?

❯ a,b,c を入力したら,二次方程式の解を出力するコードをお願いします。 
⏺ 何の言語がご希望ですか?

  Python で書きます:
⏺ User answered Claude's questions:
  ⎿  · 使用する言語はどちらがよいですか? → Python
⏺ プログラム:(回答略)
   実行例:(回答略)
  判別式 D = b² - 4ac の符号によって3パターンに分岐しています。

❯ このプロンプトから実行できますか? 
⏺ はい、できます!例として a=1, b=-5, c=6 で実行してみます。
⏺ Read 1 file (ctrl+o to expand)    
⏺ 正常に動作しています。3パターンすべて正しく出力されました。
   別の値で試したい場合は「a=, b=, c=__ で試して」と言ってください。           
                  
❯ a=1, b=2, c=3                                                                 
⏺ Read 1 file (ctrl+o to expand)                                                
⏺ 結果:   real = -b / (2 * a)                                                                             
  - 判別式 D = 2² - 4×1×3 = 4 - 12 = -8 < 0 → 虚数解                          
  -{x1 = -1.0 + √2 i ≈ -1.0 + 1.4142i
  - x2 = -1.0 - √2 i ≈ -1.0 - 1.4142i

2026年3月27日金曜日

Anthropic

Claude 3.7 Sonnet からの続き


図:DOD vs ANTHROPIC(Nano Banana Pro の一部誤ったイメージ)


アンスロピックが米国の国防総省(DOD)と対立している。以下はClaudeによる要約。
アンスロピックはDODと結んだ2億ドルの契約において当初から、自律型兵器と国内大規模監視へのClaudeの利用を禁じる条件を付けていた。 ところが2026年1月からDODが無制限使用を要求し始め、アンスロピックが拒否したことで事態がエスカレートした。 2月27日、トランプ大統領が連邦機関に対しアンスロピックの使用停止を命じ、ヘグセス国防長官はアンスロピックを「サプライチェーン上の国家安全保障リスク」に指定した。 同日、OpenAIがDODと新たな契約を締結し、これがアンスロピックを標的にした競合潰しとの見方も出た。 
この大規模監視禁止条件の適用範囲は米国内だけであり,日本は対象外であることに注意しておく。ところで,これをきっかけにして,ChatGPTユーザーの離脱とClaudeへの登録が急増しているらしい。思わず自分も検討しようかという気分になる。$17/月で多少使用量が増えるが,画像は生成できない。

これに関連して,無料ユーザも会話記憶が利用できるようになった。さらに,ChatGPTなど他の生成AI(LLM)から記憶を転移するためのツール(というかプロンプト)が提供された。このプロンプトの出力を,Claude側の設定→機能→メモリー→他のAIプロバイダからの記憶をインポートにペーストするだけだ。このとき,チャット履歴からメモリーを生成をONにする。


P. S. 新しもの好きで軽率な高市は,個人情報の企業利用の推進を主張していた。それが,よりによって,ピータ・ティールを話に加えようとしている。最悪のパターン。まあ,OpenAIやAnthropicに個人情報を駄々漏れにしている自分がいう話ではないかも。




2026年3月22日日曜日

AI時代の科学哲学(3)

AI時代の科学哲学(2)からの続き


図:Nano Banana Pro によるAI時代の科学哲学(改訂版)

科学哲学に対する主要な問題を10個あげてこれを説明させた。次に,それぞれが,AIの導入によってどのような新しいパースペクティブが開けるかを議論する。その後,
Q(koshix):
この内容というか目次立てで1冊のまとまった基礎的な専門書「AI時代の科学哲学(仮称)」ができあがったとします。その目次(章・節レベルまで含む)を前提として,物理学や情報科学の研究者向けの書評を科学哲学の専門家として書いてください。各章ごとに何が書いてあって,論点のポイントがなんであり,どこがお薦めかがよくわかるような,なるべく詳細で一般理系研究者にも読みやすい,ストーリーとキモのハッキリした書評をお願いします。
として,ChatGPT 5.2 thinkingに書評をつくってもらうが,文章がイマイチなので,Claude 4.5 Sonnetによって蒸留したものが以下になる。

Q(koshix):
以下の書評(注:実在しない仮想の書物です)を日本語としてより滑らかで自然で洗練されたものにしてください。その過程で内容を欠くことがないように注意します。例えば,キモという言葉が多用されていますが,ちょっと下品でしょ(まあ自分が指示したのが悪いんだけど)。

A(Claude 4.5):
『AI時代の科学哲学(仮称)』書評

本書は、科学哲学の古典的論点を「AIが現場に持ち込んだ新しい圧力」によって再配列した、きわめて実務的な専門書である。物理学者や情報科学者が科学哲学に期待しがちな「学説史の概説」や「立場のカタログ」ではなく、研究活動のどこに哲学的な断層が走っているかを、AIという現在進行形の実在物を手がかりに可視化する。言い換えれば、本書は「科学哲学が現場の研究者にとって役に立つとはどういうことか」を、方法論の説教でも倫理の付録でもなく、研究過程の「設計問題」として描き直した点に最大の独創がある。
以下では、本書の目次に沿いながら、各章で何が語られ、論点の核心がどこにあり、なぜ研究者に薦められるのかを、できるだけ具体的に紹介したい。

第 Ⅰ 部 科学の輪郭をAIで描き直す
第1章 科学とは何か:理解から機能へ
本書は冒頭で、科学の最小定義を「公共的に確かめられる形で世界への主張を組み立てる営み」と置く。しかしすぐに、AIがその中心に「理解ではなく機能」を持ち込んだことを強調する。ここが本書全体のトーンを決めている。理論・モデル・データ・証拠という基本語彙を、物理学・情報科学の読者にとって違和感のない言葉に翻訳しながら、AIモデルが「意味理解なしに当たる」事態を、単なる応用例ではなく、科学概念そのものの再定義を迫る事件として扱う。
本章の核心は、科学の中心を「理解」から「振る舞いの設計」へ移すとき、何が失われ、何が得られるか、そしてその移動を「避けられない事実」として受け入れるところから議論を始めている点である。物理学者にとっては、理論の説明性や対称性の美学が何を担っていたかを、改めて言語化する入口になる。
特筆すべき点は、研究の現場にいる読者が「AIの成果は科学か?」という雑談レベルの問いを、研究上の規範(何を成果とみなすか、何を検証とみなすか)へ引き上げられることだ。研究室の議論が一段深くなる。

第2章 境界線:何が科学で何が科学でないのか
ここでは科学のデマケーション(境界)問題が、AIによって「説明不能だが再現的に当たるもの」が増殖したため、現場の問題になったと論じられる。古典的な「反証可能性」だけで切り分けるとAIモデルは厄介な位置に落ちる。逆に「当たるなら科学」と言うと疑似科学も紛れ込む。
本章の要点は、境界を一枚岩の基準としてではなく、用途別の「要求仕様」として分解して見せる点である。たとえば、基礎物理の理論と、医療診断モデルと、材料探索の最適化モデルとでは、説明・反証・安全性・監査可能性の重みづけが異なる。その違いを明示しない議論は空回りする、という整理が効いている。
注目すべき点は、AI研究者がしばしば抱える「我々は科学をしているのか工学をしているのか」という自己像の揺れを、哲学の言葉でなく設計仕様の言葉に置き換えてくれることだ。論争を終わらせるのではなく、論争の争点を正確に分解する。

第 Ⅱ 部 データと観察:誰が世界を「見ている」のか
第3章 観察の理論負荷性:AIが「見る」とはどういうことか
観察の問題は、従来は人間の知覚や言語に寄りかかっていた。だが本書は、AIの特徴抽出・前処理・ラベリングが、観察の土台をまるごと作り変えたことを丁寧に追う。観測装置の一部としてのAI、つまり「観察の媒介物としての学習器」が登場したのだ、という視点が新鮮である。
本章の中心的主張は、「観察は理論に依存する」という古い命題を、いまは「観察は学習データとアルゴリズム設計に依存する」と更新している点である。物理の実験解析(イベント選別、ノイズ除去、再構成)を知る読者ほど腑に落ちる。観測とは「素データ」ではなく、そもそも作られるものだという当たり前が、AIでさらに顕在化する。
実用的価値は、AIモデルを使ったデータ解析でしばしば問題になる「データの意味がどこで決まったか」を、哲学の言語で追跡できるところにある。研究不正の話ではなく、研究設計の話として読める。

第4章 帰納と一般化:正当化なき飛躍をどう扱うか
帰納の正当化は科学哲学の中心問題だが、本書の手際はよい。AIは「なぜ一般化できるのか」を説明せずに一般化してしまう。すると論点は、正当化の形而上学から、運用上の信頼へと移る。過剰に哲学的にせず、「外挿が壊れる条件」「分布がずれると何が起きるか」といった研究者が日々扱う言葉に落としている。
本章の鍵となる視点は、帰納の問題を「真理の保証」ではなく「失敗の管理」として読み替えるところにある。これは情報科学では自明に見えるが、物理学の理論像(普遍法則)とぶつかるときに、初めて哲学的緊張が現れる。その緊張を、否定でも礼賛でもなく、精密に言語化する。
本章の貢献は、機械学習の一般化議論を哲学的に鍛え直したい読者にとって、概念整理の教材になる点である。特に「一般化=正しい推論」ではなく「一般化=リスク付きの賭け」という捉え方が、研究チームの意思決定に活きる。

第 Ⅲ 部 説明・因果・実在:科学の「中身」をAIで再点検する
第5章 説明とは何か:予測の勝利の後に残るもの
本章は、AI時代に説明が不要になったか、という俗論に乗らない。予測が勝ってしまった世界で、説明は何のために必要なのかを、理解・受容・責任・移植可能性という観点で分解する。説明は飾りではないが、唯一の目的でもない。ここが本書のバランス感覚の良さである。
本章の核心は、説明を「自然を理解するための内的価値」だけでなく、「社会的・制度的に知識を流通させるための外的価値」として扱う点にある。研究成果が論文・レビュー・標準化・規制・製品へ移る過程を思い浮かべると、その必然性が理解できる。
読者への示唆は、物理学者には「なぜ説明の美学が研究を駆動したのか」を再確認する章として、AI研究者には「説明可能性がなぜ要求されるのか」を倫理ではなく方法論として理解する章として読めるところにある。

第6章 因果とは何か:相関マシンと介入の責任
AIは相関を極限まで磨き、因果の必要性を薄めたかに見える。しかし本書は、因果が必要になるのは「介入して責任を負う場面」だと捉える。医療、政策、制御、材料設計――そこでは「当たる」だけでは足りない。介入した結果の責任が生じる。
本章の重要な転換は、因果を形而上学ではなく「責任と介入の語彙」として再定義する点である。これは理系研究者にとって非常に読みやすい。因果は哲学者の趣味ではなく、実験と設計の中心概念だと腑に落ちる。
実践的意義は、因果推論(反実仮想、交絡、介入)と機械学習を、同じ地平で語るための共通言語が手に入るところにある。分野横断の共同研究に効く。

第7章 実在論を更新する:AIの内部表現は「存在」なのか
ここが本書の白眉の一つだろう。AIの潜在表現や表象は、電子のように「ある」と言いたくなるが、同時に物理的実在と呼ぶのは難しい。にもかかわらず、それは世界への介入を可能にする。すると「存在するから効く」ではなく「効くから存在を問いたくなる」という逆転が露呈する。
本章の洞察は、実在論・道具主義の古い対立を、AIの表象を例にして「責任と解釈の選択問題」へ変換している点にある。理論が何を存在させるかは、単なる世界観ではなく、説明義務や監査義務をどこまで背負うかに関わる。
知的刺激は、物理学の理論実在論に馴染んだ読者ほど強いだろう。情報科学の読者は「内部表現は道具だろう」と言いがちだが、本章を読むと、道具主義だけでは片付かない場面(安全性・解釈・法的責任)が具体的に見えてくる。

第Ⅳ部 推論・選択・再現:科学を「運用」するための哲学
第8章 理論選択の再定義:真理候補から設計オプションへ
AIモデルの世界では、単純性や美しさよりも、計算資源、頑健性、再学習可能性、監査可能性が重要になる。本章は、理論選択が「真理に近いか」から「制約条件下での最適化」へと移ったことを、明確に論じる。
本章の基本的立場は、科学理論を「設計空間の中の選択肢」として捉える視点である。物理学者にとっては挑発的だが、工学や情報科学の実践に近い。ここで本書は、科学と工学を混同せず、科学が工学的要求にさらされる局面を整理している。
現場への寄与は、共同研究でよく起きる「何をもって良いモデルとするか」の衝突を、哲学的に整流してくれる点にある。議論が価値観のぶつけ合いから、要求仕様の調整へ移る。

第9章 推論形式の変容:論理から故障診断へ
演繹・帰納・仮説推論の区別は、AI推論の前では曖昧になる。AIはそれらを混ぜた統計的推論を行う。本章の着眼は、そこで論理が不要になるのではなく、役割が変わるという点である。論理は正当化装置から「壊れ方を理解する装置」へ。
本章の問題設定は、「正しい推論」より「どの条件で壊れるか」が中心になる、という点にある。これは現代の安全性・信頼性工学と直結しており、理系研究者には響くだろう。
方法論的価値は、AIの評価を単なるベンチマーク競争から引き上げ、失敗モードの地図作りとして捉え直す助けになるところにある。

第10章 再現性と信頼:一点再現から性能分布へ
AI研究で再現性が難しいことはよく知られているが、本章は愚痴に落ちない。再現性の意味が、同一結果の再現から「同程度に機能するものが再現される」へ移る――つまり性能分布の安定性へ移ったことを、概念として整理する。
本章の再定義は、再現性を「一致」ではなく「期待外れの頻度管理」として捉え直す点にある。統計的品質管理の語彙で科学の信頼を語り直しており、工学寄りの読者にも理解しやすい。
分野横断的意義は、物理の実験再現性と、機械学習の再現性がなぜ噛み合わないのかを、感情ではなく概念の違いとして整理できることにある。分野間の摩擦を減らす。

第Ⅴ部 社会実装と価値:価値中立神話の終焉を受け止める
第11章 科学と社会:価値はどこに入り込むのか
本書の終盤は、倫理の付録ではない。AIが研究目的・データ選択・評価指標に価値を内包するため、「科学は価値中立で応用だけが倫理の問題」という古い分離が維持できないことを、制度論として描く
本章の視座は、価値判断を「外から科学に押し付けられるもの」ではなく、「知識生産の内部に最初からある設計変数」として扱うところにある。研究資金、査読、標準化、規制、説明責任が連動する現代の研究環境を、科学哲学の射程に回収している。
実践的効用は、研究者が「社会実装の議論は苦手だ」と感じるときに、道徳説教ではなく研究設計の延長として議論できる枠組みが得られる点である。特に大規模モデルや医療AIなど、社会との接続が不可避な領域の読者には実用的だ。

終章 AI時代の合理性:理解なき知識をどう引き受けるか
締めくくりは、AIが突きつけた核心――理解・説明・真理・責任の組み替え――を一つの問いに束ねる。「理解なき知識」は知識なのか、という問いである。本書はここで、賛美でも拒否でもなく、「引き受け方」を複数提示する。研究者は立場を選べるが、立場を選ぶための概念地図は必要だ、という姿勢が貫かれる。

評者としての総評:なぜ理系研究者に薦められるか
本書の価値は、科学哲学を「思想史の教養」ではなく「研究活動の設計学」へと翻訳した点に尽きる。AIが研究の方法・評価・責任を同時に変えるため、哲学的論点は避けようとしても避けられない。しかし、多くの議論は抽象と感情に流れる。本書はそれを、概念の精密化と論点の分解によって止血する。

物理学者には、説明・実在・普遍性への信念がどこで研究を駆動し、どこで制度と絡んでいたかを再言語化する鏡になる。情報科学者には、ブラックボックスがもたらす成果を、単なる性能競争から「科学としての位置づけ」へ格上げするための道具立てが与えられる。両者の共通点は、研究の現場で判断を迫られる場面――モデルを採用するか、説明を要求するか、因果を求めるか、再現性をどう設計するか――において、議論が一段具体化することである。

強いて注文をつけるなら、読者によっては「設計としての科学」という語りが、科学の真理志向を弱めすぎると感じるかもしれない。しかし、それ自体が本書の狙いでもある。AIという「理解を迂回する実在物」が現場に居座る以上、真理志向を守るにも、いったん機能志向の言葉で論点を整理し直す必要がある。本書はそのための、いま最も実戦的な入門書兼専門書だろう。

もし研究室の輪読に一冊選べと言われたら、AIを道具として使う研究室ほど、この本は効果を発揮する。研究倫理の授業よりも、モデル選択の議論よりも、先にこの概念地図を共有しておくと、以後の議論の生産性が上がる。そういう種類の「役に立ち方」をする科学哲学書である。

2026年3月21日土曜日

AI時代の科学哲学(2)

AI時代の科学哲学(1)からの続き


図:Nano Banana Pro によるAI時代の科学哲学

Q(koshix):
科学哲学におけるいくつかの主要な問題群を複数列挙して,一般人にもわかりやすい言葉で表現してください。全体構造を理解しやすくするため,各問題の配列順序にも十分気を配ってください。とりあえず問題に関する歴史的な議論やその回答に対する現在の到達点については不要なので,まずは問題とそれを記述するために必要な概念をなるべく丁寧に定義してください。

A(ChatGPT-5.2 Thinking):
科学哲学の「主要な問題群」を、なるべく生活語で言い直しつつ、後で全体像がつながる順に並べます。ここでは結論史・学説史は置いて、まず「何が問題なのか」「問題を言うために最低限どんな言葉が要るのか」だけを丁寧に定義します。
0. まず土台:科学哲学が相手にする“科学”とは何か(以下略)
1. 何が「科学」なのか(境界の問題)(以下略)
2. 観察はどれだけ“そのまま”か(観察と言語の問題)(以下略)
3. どうやって一般法則へ飛ぶのか(帰納と予測の問題)(以下略)
4. 科学は「説明」しているのか(説明の問題)(以下略)
5. 因果とは何か(因果推論の問題)(以下略)
6. 理論はどこまで「真理」に近いのか(実在と道具の問題)(以下略)
7. 競合理論が複数あるとき、どう選ぶのか(理論選択の問題)(以下略)
8. 科学的推論はどんな“論理”で動いているのか(推論形式の問題)(以下略)
9. 「再現できる」とは何か(再現性と信頼の問題)(以下略)
10. 科学は社会とどう結びついているのか(制度と価値の問題)(以下略)

ひとことで全体の流れ(地図)
科学の輪郭を決める → 2) 観察の足場を確かめる → 3) 一般化の正当性 → 4-5) 説明と因果 → 6) 理論が指す“世界” → 7-8) 理論を選び推論する規則 → 9) 知見の信頼性 → 10) 社会と価値の接続、という順で、だんだん「知識の中身」から「知識が成立する条件」へ視野が広がる配置です。
次に、もしよければこの問題地図をベースに「科学とAIの関係」を入れるとき、どの問題群にどう絡むか(例:観察=データ生成、説明=解釈可能性、因果=介入、再現性=モデル検証、価値=ガバナンス)を、本文調で一章に仕立てられます。


Q(koshix):
今の各問題群に対して,AIがもたらす新しいパースペクティブをそれぞれに追加して下さい。

A(ChatGPT-5.2 Thinking):
では、先ほど整理した 科学哲学の主要な問題群をそのままの配列で保ちつつ、それぞれに対して AI(とくに現代の機械学習・生成モデル)が開いてしまった新しい視角を重ねていきます。ここでも歴史的評価や是非論は抑え、「何が新しく問題化されたのか」を中心に描きます。
0. 科学とは何か、という土台そのものが揺れる
1. 何が科学か:AIは“科学らしさ”の基準を曖昧にする
2. 観察の問題:AIは「見る主体」を拡張する
3. 帰納の問題:AIは「正当化なき一般化」を常態化させる
4. 説明の問題:説明抜きで成果が出るという衝撃
5. 因果の問題:相関マシンが因果を侵食する
6. 実在の問題:AIは存在論を空洞化する
7. 理論選択:AIは“良さ”の基準を多次元化する
8. 推論形式:AIは推論の「混合体」を常態にする
9. 再現性:モデル時代の再現とは何か
10. 科学と社会:AIは価値中立神話を終わらせる

総括的に言えば,AIは、科学哲学の各問題に新しい答えを与えたというより、問題の問い方そのものを、機能・設計・責任の言語へ引きずり出したと言えます。次の段階では、これらを束ねて,「理解なき知識」,「設計としての科学」,「AI時代の合理性」,といった軸で、一章分の本文に統合することもできます。続けますか。


2026年3月20日金曜日

AI時代の科学哲学(1)



図:ChatGPTによるAI時代の科学哲学

Q(koshix):
(Tadicの Philosophy of Science An Overview という72pのpdfテキストを添付)
内容を教えてください。

A(ChatGPT-5.2 Thinking):
これは “Philosophy of science: An overview” という題のPDFで、科学とは何か/科学はなぜ信頼できるのか/科学は真理を目指すのかといった「科学そのものを対象にした哲学(科学哲学)」の主要論点を、辞典的に見渡せる“概観”です。(以下項目名だけを列挙する)
1) 「科学と非科学の境界」— 境界設定(demarcation)
2) 「説明とは何か」— 良い科学的説明の条件
3) 「帰納の問題」— なぜ科学的推論は正当化できるのか
4) 「観察は理論から独立か?」— 観察の理論負荷性
5) 「科学は真理を目指すのか?」— 実在論 vs 反実在論/道具主義
6) 「科学方法は一つか?」— デュエム=クワイン・テーゼと“anything goes”
7) 「科学は社会的にどう作られるか」— 科学知識社会学(SSK)・STS
後半:個別科学(物理・生物・数学・化学・心理・経済…)への“哲学”
(以下略)

Q(koshix):
この科学論の文脈の中で,科学とAIの関係についての1章を加えるとそれはどういった内容になりますか。

A(ChatGPT-5.2 Thinking):
たぶんその章は、「科学哲学の古典的な問い」をそのままAIにぶつけ直しつつ、同時に「AIが科学のやり方そのものを変える」ことを整理する章になります。タイトルを付けるなら、

第X章 科学とAI:方法・説明・信頼性・主体性の再編
みたいな位置づけです。中身はだいたい次の骨格になるはずです。
1. AIは科学にとって何者か:道具・理論・共同研究者
最初に、関係を三つに分けます。
AI as instrument(観測・解析装置):望遠鏡や統計ソフトの延長として、データ処理・分類・予測を担う。
AI as model(理論/モデル):自然現象の「圧縮表現」として、法則の代替物(あるいは近似物)になる。
AI as agent(研究主体):仮説生成、実験計画、文献統合まで行い、「発見」を生む主体っぽく振る舞う。
この三つは混ざりますが、混ざるほど哲学的問題が濃くなります。たとえば「道具」なら信頼性の問題が中心、「理論」なら実在論・説明、「主体」なら責任・価値・共同体が中心になる。

2.境界問題の更新:何が“科学的AI”なのか
古典的には「反証可能性」などで科学と疑似科学を分けようとしましたが、AIの時代には境界が別の形で現れます。
・デモ(うまく動いた)と科学(なぜ動くか/いつ動かないかが言える)の区別
・ベンチマークで勝つことと、自然に関する一般化可能な知識の区別
・「学習データに含まれる世界」を当てているだけなのか、「データ外の世界」にも通用するのか
ここで面白いのは、AI研究そのものが、しばしば“工学的成功”を科学的正当化の代わりにしてしまう点です。章では、科学的主張としてのAIには何が要るか(失敗条件、適用範囲、再現性、介入可能性など)を整理します。

3. 帰納と確証:AIは「当たる」だけで信じてよいのか
機械学習は帰納のかたまりです。だから科学哲学の「帰納の問題」は、AIによってむしろ前面化します。
ここで焦点になるのは、
・学習で得た性能は、どの範囲まで外挿できるのか
・予測精度の高さは、真理らしさをどれだけ支えるのか
・データや前処理、目的関数の選び方が、どの程度“背景仮説”として効いているのか
つまり、古典でいう「補助仮説込みでしかテストできない(デュエム=クワイン的)」状況が、AIでは“日常”になります。章では、確証の単位がモデル単体ではなくパイプライン全体であること、だから検証もパイプライン単位にせざるを得ないことを論じるでしょう。

4.説明の問題:ブラックボックスは科学的理解か
ここが章の中核になりやすいです。AIはしばしば高精度でも“なぜ”を語らない。すると、
・科学の目的は 予測なのか、理解(説明)なのか
・「説明」とは、法則への包摂なのか、因果なのか、メカニズムなのか
・AIが出すのは説明なのか、それとも“説明っぽい文章”なのか(LLMの問題もここ)
といった論点が並びます。
この章では、説明を少なくとも三層に分けるのが筋がいいです。
(1) 予測的説明:当たるモデル(しかし理由は薄い)
(2) 因果的説明:介入したらどう変わるかを含む
(3) 機能的説明:内部構造(メカニズム)を示す
AIは(1)が得意で、(2)(3)は工夫が要る。だから「AIで科学が終わる」というより、「説明の要求が科学分野ごとに再調整される」という結論になりやすいです。臨床や政策は(2)が要る、材料探索はまず(1)でも価値が出る、という具合に。

5.観察の理論負荷性の新形態:データセット負荷性
古典では「観察は理論に依存する」でしたが、AI時代は
観察はデータセットに依存する(何を測り、どうラベル付けし、何を欠落させたか)
へと姿を変えます。
ここでは、偏りやラベルの規約、測定装置の制約が、AIモデルの“世界観”を作ることを扱う。科学の客観性は「人間の主観を消す」ことではなく、むしろ 依存関係を可視化し、反省可能にする手続きだ、という方向に話が進むはずです。

6.実在論 vs 道具主義の再演:AIが語る“見えないもの”を信じるか
AlphaFoldのように、AIが“見えない構造”を高精度に当てるとき、私たちはその内部表現をどこまで実在とみなすのか。
・予測が成功するなら、それは対象が実在する証拠か(実在論的誘惑)
・それとも、便利な道具でしかないのか(道具主義)
・「奇跡論法(当たり過ぎは偶然ではない)」のAI版は成り立つか
この節のポイントは、AIはしばしば「モデルが当たる理由」を別の形で説明できないので、実在論と道具主義の緊張がむしろ強くなる、というところです。

7.科学共同体と規範:再現性、査読、責任、価値
AIは“知識生産の速度”を上げますが、同時に「検証の負担」も増やします。
・再現性:コード・データ・計算資源が揃わないと再現できない
・透明性:モデル更新、データ更新で結果が変わる
・責任:AIが提案した仮説で事故が起きたら誰が責任を負うか
・価値:何を最適化するか(精度、コスト、安全、説明可能性)の価値選択
ここで科学哲学は、単なる「方法の話」ではなく、制度と倫理の哲学に接続します。AIはその接続を不可避にします。

8.結論:AIは科学を“置き換える”のではなく、科学の問いを露出させる
章の締めは、おそらくこういう主張になります。
AIは科学を魔法のように自動化する一方で、科学が昔から抱えていた問い――
「何をもって確証と言うのか」「説明とは何か」「客観性とは何か」「共同体の規範は何か」――を、実務のレベルで避けられなくする
だから「科学とAI」は、単に新技術の応用章ではなく、**科学哲学そのものの再入門章**になる。

もしよければ、この“追加1章”をあなた向けに、実際の本文っぽく(数節構成+例:AlphaFold、天文学の自動分類、創薬、LLMによる仮説生成などを織り込んで)8000〜12000字くらいの読み物として書き起こします。どの領域(物理/生命/医学/社会科学/AIそのもの)を主軸にしますか?


Q(koshix):
特別な領域に限定せずに(やや情報科学や物理学より)本文っぽい追加1章を読み物として書き起こしてください。

A(ChatGPT 5.2 Thinking):
追加章 科学とAI――方法・説明・信頼性・主体性の再編
科学哲学の教科書的な問いは、どれも一見すると「科学そのもの」に閉じた話に見える。科学と非科学の境界はどこか。観察から一般法則へ飛躍する推論は正当化できるのか。説明とは何か。理論が語る“見えないもの”を実在とみなしてよいのか。こうした問いは、ふつうは歴史的な逸話や理論家の論争として語られ、読者は少し距離を置いたまま理解したつもりになれる。
ところがAIが科学研究の中心へ入り込んだ瞬間、距離が消える。これらは“実務の質問”として研究室の机に降ってくる。ブラックボックスな予測器を論文に載せてよいのか。新しい材料候補をAIが提案したとして、それは「発見」なのか。モデルが高精度でも、なぜ当たるのかが分からないとき、科学は何を得たと言えるのか。AIは古い問いを蒸し返すのではない。古い問いを、避けられない形に作り変える。
この章では、領域を限定せずに、ただ少し情報科学と物理学寄りの視点から、科学とAIの関係を“科学哲学の主題”として読み直す。結論を先に言えば、AIは科学を置き換えない。そのかわり、科学が暗黙に依存してきた前提――説明・確証・客観性・共同体規範――を露出させ、再設計を迫る。
(以下略)