ラベル AI の投稿を表示しています。 すべての投稿を表示
ラベル AI の投稿を表示しています。 すべての投稿を表示

2024年12月15日日曜日

Sora

OpenAIの動画生成ツール Sora が使えるようになった。10ヶ月ほど前に東京を歩くイメージがプレビューされていたが,12月9日からChatGPT Plusユーザも限定版が公開された。ただし,昨日までは混んでいますとログインがはじかれていた。ようやく今日になってアクセスできた。

20ドル/月のChatGPT Plusサブスクライバーは,一ヶ月に 50 videos (1000 credits) まで使えるらしい。最高720pの解像度で 5秒までのビデオクリップだ。一瞬,50個だけでお仕舞いかと思ったけれど,毎月課金されているのだから一月分の制限になる。なお,200ドル/月のChatGPT Proだと,500 videos (10,000 credits),1080p 20秒で,watermarkなしのダウンロードまでできるのだ。

早速,次のプロンプトで試してみた。

Japanes Heian era, "Shinden-Zukuri" house, collidor faced at japanese garden, a noble lady of "Nogo" slowly walking wearing "12-hitoe" kimono cloths like the "Genji Monogatari Emaki"

やはり日本文化はだめだわ。平安時代ではなくて江戸時代になっているし,十二単にはなっていない。むしろ中国風の着物ではないか。


図1:Soraで生成した寝殿造の廊下を歩く十二単の女御(480p 5s 2個)

ChatGPTの最初から,俳句がだめだった。英語俳句の和訳版みたいなものしか生成できなかった。やつらは日本文化はほとんど学習できていないのだ。光る君へ的な平安時代の源氏物語絵巻風を要求した結果も見てほしい。まあ,Gemini2.0 Flashに,「源氏物語絵巻のような平安貴族の一場面のイメージ」から始めて詳細プロンプトを得た(イメージはGoogle AI Studioでは生成できないことがわかった)。そこに出てくる障子と襖をそのまま放置してChatGPT-4oに投げ込んだ自分も悪いのだが。

Q(koshix):
「御簾越しに女性が物思いにふける場面」で、2~3人の若い十二単の女御、屋内、秋の紅葉、しっとりと落ち着いた雰囲気」のイメージを生成してください。なお,次のような詳細仕様を参考にしてね。 構図: 御簾を境に、手前に1人、奥に2人程度の若い女性が描かれます。手前の女性は、少しうつむき加減で物思いにふけっている様子。奥の女性たちは、静かに寄り添い、控えめに会話をしているかもしれません。 人物: 若く美しい、十二単をまとった女御たち。髪は長く、黒髪で、お化粧も上品で繊細。それぞれの表情には、少し憂いを帯びたような、しっとりとした感情が感じられるように表現します。 服装: 十二単の色合いは、秋の紅葉に合わせて、落ち着いた赤や黄色、オレンジ色などを基調とし、上品で優雅な雰囲気に。 背景: 屋内の様子。御簾は繊細な模様が施され、奥には、秋の紅葉が美しく見えるように、障子や襖などが描かれます。 雰囲気: 全体的に、しっとりとした落ち着いた雰囲気で、静けさの中に少しの寂しさや憂いが感じられるようにします。光源は柔らかく、間接照明のように落ち着いたトーンで表現します。  

図2:上のプロンプトに対応するイメージ(DALL-E3)

2024年12月14日土曜日

人格再現AI(2)


前回,途中で切ったChatGPTの回答の続きです。以下の内容は,自分が修正すべきだ(訓練を加える)と考えた最後の項目リストは反映されていないもの。
A(ChatGPT-o1):

(1)仮想人格再現(架空の人格を作り出す場合)

教育・学習支援
仮想人格を教育者として設定し、学習者のレベルや学習スタイルに合わせて指導法を変える「パーソナライズド・チューター」を無制限に生成可能。たとえば、特定分野(数学、歴史、音楽理論)の専門家人格を多数用意し、必要に応じて呼び出すことで、学習者は多様な視点から知識を吸収できます。

ビジネス・サービス支援
顧客サービス分野で、ブランドイメージに沿った仮想の「理想的なカスタマーサポート担当」を構築し、24時間対応可能な接客係として活用。また、社内向けには「理想的な上司」や「優秀なメンター」人格を用意することで、新人教育やプロジェクト支援を効率化できます。

クリエイティブ用途(エンタメ、創作支援など)
小説家やゲームデザイナーが、新たなキャラクター設定を簡単に生み出し、対話しながら物語のアイデアを広げる「創作支援AIキャラクター」として活躍。ユーザーは、異なる性格・文化背景を持つ仮想人格とやり取りして、新たな発想を得ることができます。

医療・メンタルヘルスケア
ストレス軽減や対人練習用の「理想的なカウンセラー人格」を生成し、クライアントが相談しやすい相手を得ることで、対面カウンセリングを補完します。実在するセラピストではないため、倫理的な制約は比較的軽減され、多数のバリエーションを短時間で用意可能です。

歴史・文化財継承
架空の歴史学者や民話の語り部となる仮想人格を作ることで、資料や文化遺産に関する知識をわかりやすく、臨場感豊かに伝えることができる。これはデジタルミュージアムや観光案内システムとしても有用です。

(2)実在人格再現(実在した・している人間をモデルとする場合)

教育・学習支援
歴史的偉人(科学者、哲学者、芸術家など)の人格を再現し、まるで本人に直接質問しているかのような対話学習ツールを提供。たとえば、アインシュタイン人格AIと物理学の基礎を学ぶ、夏目漱石人格AIと文学議論を行う、など文化・知的財産として活用。

ビジネス・サービス支援
著名なコンサルタント、経営者、投資家など実在のエキスパートの人格を再現して、経営支援やキャリアコーチングを行う。顧客はAIに相談することで、トップレベルの戦略的アドバイスやノウハウを即座に得ることが可能。また、顧客との対話に有名なブランドアンバサダーの人格を再現することで、ブランド価値を高める。

クリエイティブ用途(エンタメ、創作支援など)
故人となった作家、監督、ミュージシャンの人格を蘇らせて、当時の制作秘話や創作上の意図を「本人インタビュー」形式でファンに提供する。記念イベントやファンミーティングで「本人が戻ってきたかのような」交流が可能となり、新たな付加価値を生み出します。

医療・メンタルヘルスケア
患者が尊敬していたカウンセラーや信頼していた心理士が故人となった場合、その人格を再現して、続くサポートを行う。患者との信頼関係や安心感を一定程度継続できる可能性がある。一方で倫理的・法的ハードルは高く、情報の扱いには細心の注意が必要です。

歴史・文化財継承
歴史的要人(政治家、思想家、宗教的指導者)の人格を再現して、当時の時代背景や政策の背景、思想的な裏付けを尋ね、歴史教育に活用する。これは教育現場で「歴史上の人物とのインタビュー形式授業」を実現します。

死後の人格保存・メモリアルサービス
故人の人格を再現することで、遺族や知人が対話し、故人の声や思考プロセスに触れ続けることができます。これはデジタルメモリアルの新たな形であり、故人とのコミュニケーションを模擬的に復元することで、グリーフケアやパーソナルメモリアルとして機能します。

【まとめ】
(1) 仮想人格再現は、完全に新規の理想的人格を好きなだけ生み出すことで、多彩な教育、創作、顧客対応、メンタルヘルスサポートを実現します。これは設計自由度が高く、倫理的ハードルが相対的に低いのが特徴です。

(2) 実在人格再現は、有名人、歴史的人物、あるいは故人の人格を忠実に再現し、知識伝達、カウンセリング、ファンコミュニケーション、文化的・歴史的保存などに活用が可能です。ただし、法的・倫理的問題(本人同意、プライバシー、肖像権、社会的影響)が大きな課題となります。

これら両者は、技術の進展と共に様々な形で社会実装され得ますが、同時に透明性の確保、データ管理、本人・家族の権利保護等のガイドライン整備が求められます。
この回答では,実在人格再現を,有名人・歴史的人物・故人に限定している。そうではなくて,あなたやわたしなどの普通に実在する多様な人々の人格再現について言及されていないのが問題だ。これは,わたしをどう複製するかということと,これらの集団を用いたリアルなシミュレーションへの適用可能性の言及が必要だ。

2024年12月13日金曜日

人格再現AI(1)

1000人の人格再現からの続き

今から5年前の2019年,NHKスペシャルで美空ひばりの歌う姿をAIで再現するという番組をやっていた。鳴り物入りで宣伝された割には,それほど凄いという印象でもなかった。ChatGPTが登場する3年前である。最新のAI技術を元にした故人の再現人格という意味では,亡き妻のとりちゃんの再現を続けている松尾公也さんが最先端をいっているかもしれない。

OpenAIのo1のpreviewが取れたと思ったら,o1 Proが登場して月$200=3万円のプランが始まった。無職老人にはちょっと手が出ないが,ネット上の有名人はどんどん参入している。o1 Proは,推論機能に一日の長があるのだろうが,全体として生成AIの水準は高まっている。その中で,1人2時間余りのインタビューでつくられた1000人の人格再現集団が,実在集団の85%程度を再現できる程度で十分シミュレーションに使える時代になったということだ。

これらを踏まえると,AGIの時代は,こうした仮想人格再現実在人格再現が大きな着目点になってくるのではないかと考えられる。これについていくつかの質問をChatGPTに投げ掛けた。
Q(koshix):
AIによる人格再現が可能になった場合にどのような応用例が展開されますか。人格再現は,人の知識や性格や記憶などを再現できるものとします。次の2つの場合に分けて考察してください。
(1) 仮想人格再現
現実には存在しないけれど様々な技能や性格を持った典型的な人格を任意の数だけ再現する場合
(2) 実在人格再現
現実に存在する人間からの学習や情報転移によって,チューリングテストで本人とほぼ区別できない人格を再現する場合

A(ChatGPT o1)
以下では、人格再現という概念を「人の知識、性格、記憶などをAI上で模倣・生成する技術」として捉えた上で、仮想人格再現(1)と実在人格再現(2)のそれぞれにおける主な応用例を体系的に考察します。また、考察に入る前に、前提や基本的な発想プロセスを示します。

【コンテキスト・前提条件・考え方のステップ】

1.技術的背景:
人格再現技術は、大規模言語モデルや強化学習、デジタルツイン技術など、多様なAI技術を統合することで実現可能と考えられます。人格再現には、知識データベースの構築(どのような経歴や知見を持つか)、性格特性の定義(性格五因子モデルなどの標準化指標)、記憶の再現(履歴対話や出来事ログなど)などが組み合わされます。

2.応用可能性評価の枠組み:
 (1) 仮想人格再現:フィクション的存在または完全に合成されたキャラクター。利点としては「デザイン自由度の高さ」「原典となる個人への権利配慮不要」「任意の数を生成可能」が挙げられます。
 (2) 実在人格再現:既に実在した/している人間の人格をデジタル化したもの。特定の個人(現存/故人)の知識や話し方を再現し、本人と識別困難なほどリアルな体験を提供することができます。権利・倫理・プライバシーなど実務上の制約や懸念が大きくなります。

3.考察のフレームワーク:
各ケースで主な応用領域を整理するために、以下のカテゴリーに分けて考えます。
 (1) 教育・学習支援と訓練
 (2) ビジネス・サービス支援
 (3) クリエイティブ用途(エンタメ、創作支援など)
 (4) 医療・メンタルヘルスケア
 (5) 歴史・文化財継承
 (6) コミュニケーション・プロトコルの代行(代理応答、顧客対応など)

【続く】
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
概ね期待通りの答えが帰ってきたが,考察のフレームワークには異論がある。

(1) 教育・学習支援と訓練(例の教育実習など教師の訓練用を想定)
(2) ビジネス・サービス支援と訓練(6はここに含まれるだろう)
(3) クリエイティブ支援と訓練(文学や音楽や演劇の観客をも仮想的につくれる)
(4) 医療・メンタルヘルスケア支援と訓練
(5) メモリアル・歴史継承(戦争や震災の被害者の記憶を継承するのだ,被団協・慰安婦)
(6) 社会科学・政策・行政シミュレーション

こんなふうになるのではないか。まだ見落としがあるかもしれないけれど。支援だけではなくて,人格の多様性が必要となる訓練=シミュレーションに重点をおくべきだという考え。


[1]AIによる人格の再現は利用する(Kei Tanahashi,2019)

2024年12月10日火曜日

1000人の人格再現

10億人のペルソナ再現性からの続き

arxivにおもしろい論文があった。現実の1000人の人間の態度や行動をシミュレーションするエージェントを構築することができ,その再現性が評価された,というものだ。どうする。

Q(koshix):
この論文を,大学生が理解できる程度に専門的な知識を踏まえつつ詳しく説明し直してください。

A(ChatGPT-4o):

1.タイトルとテーマ
(1) 論文タイトル
(2) テーマ
 大規模言語モデル (LLMs) を活用して、人間の態度や行動をシミュレーションするエージェント(プログラム)を構築する研究。

この研究の目的は、現実の人間1,052人の行動や思考をAIで再現する新しい方法を提案し、その有用性を検証することです。これにより、社会科学や政策立案の分野でのシミュレーション活用が期待されます。

2.研究の背景
(1) 行動シミュレーションの意義
社会科学では、政策や介入の効果を試すために人間の行動を再現するモデルが重要視されています。これまでの手法(エージェントベースモデリング、ゲーム理論など)は、単純化されたルールや仮定に基づいており、複雑な人間の行動を完全には捉えきれませんでした。
(2) 大規模言語モデル (LLMs) の可能性
LLMs(GPTなど)は膨大なデータから人間の言語や行動パターンを学習しており、複雑なシミュレーションの基盤となる可能性があります。ただし、ステレオタイプやバイアスの問題を克服しながら、精度の高いシミュレーションを行うことが課題です。

3.研究の方法
(1) データ収集
対象者:アメリカの人口を代表するように設計された1,052人(年齢、性別、地域、教育水準、政治的イデオロギーなどで層化されたサンプル)。
インタビュー:2時間の音声インタビューをAIインタビュアーが実施。内容は、人生の物語、価値観、社会問題への意見、性格、行動についての質問。平均で6,491語のトランスクリプトが得られる。
(2) エージェントの構築
生成型エージェント:
各対象者のインタビュー内容を基に、その人を模倣するエージェントを作成。エージェントは、LLMsにインタビューデータを注入し、その人の視点や態度を模倣するよう指示される。エージェントはテキスト入力に応じて回答を生成できるほか、記憶機能を用いて文脈に応じた応答も可能。
(3) 評価
評価方法:
エージェントがどれだけ元の対象者の回答を再現できるかを比較。
主な評価基準:
General Social Survey (GSS): アメリカの社会的・政治的意見に関する質問集(カテゴリー回答)。
Big Five 性格特性 (BFI-44): 性格を測定する質問集(数値回答)。
行動経済学の実験ゲーム: 信頼ゲームや囚人のジレンマなどで行動を評価。
社会科学実験: 実験条件に基づく態度や行動の変化を評価。
評価指標:
Normalized Accuracy: エージェントの予測精度を、対象者自身の回答の一貫性と比較。
Mean Absolute Error (MAE): 数値回答における誤差。

4.結果
(1) 精度
エージェントは対象者の回答を、対象者自身の再現精度に対して平均85%の精度で模倣できた。他の手法(単なる統計情報や簡易なプロフィールを基にしたエージェント)と比べて、インタビューを用いたエージェントは14-15%も精度が高い。
(2) ステレオタイプの軽減
エージェントは、人種や政治的イデオロギーによるバイアスを軽減。
例: インタビューを基にしたエージェントは、人口統計情報のみを用いた場合に比べて、パフォーマンスのばらつきが小さい。
(3) 行動経済学のゲームや社会科学実験
経済ゲームでは、エージェントの回答が実験参加者の行動を良好に予測。
社会科学実験でも、エージェントは実験結果の再現に成功(5つの実験中4つで再現)。

5.議論
(1) 意義
インタビューを活用したエージェントは、対象者の個別性を反映し、バイアスを抑えつつ高い精度で態度や行動を模倣できる。社会政策や組織設計のシミュレーションツールとして有望
(2) 課題
スケーラビリティ: 大規模インタビューのコストや時間。
倫理的配慮: プライバシーやデータ利用に関するリスク。
 
この研究は、人間の行動を模倣するエージェントを構築するための新しい方法を提示しました。特にインタビューを用いたアプローチは、従来の統計的手法よりも優れた予測精度を示し、社会科学や政策研究に新しい道を開く可能性があります。今後は、より広範なデータセットや異なる文化的背景での適用を進めることが課題となります。

このシミュレーションの精度があがると何ができるか。
(1)昔,夢想していた教育実習の仮想化などなど,対人活動すべての訓練
(2)代議制民主主義の修正版など,政治活動のシミュレーション,選挙予測にはリアルタイムでシミュレータを更新する必要があるかもしれない。
(3)企業でいえば,マーケティングとか組織管理とか。
(4)行政でいえば,すべての政策について事前シミュレーションが課されることに。
(5)災害時の対応とか戦時対応とか治安対応とか,非常に危険なツールになる。



2024年12月3日火曜日

物理AI基盤モデル

AI Feynman(4)からの続き

世の中のあらゆる“未知の物理現象”を予測できるAI」というおどろおどろしいタイトルの記事がITメディアに掲載されていた。えええっ,これはなんだ。

ということで,原論文「A Phenomenological AI Foundation Model for Physical Signals」を読んでみた・・・というか,NotebookLMに読ませてみた(^_^;;;)。いろいろ質問したところ,こんなことかなというのがわかってきた。と思ったけど,読解力が不足していた。これは,生成AIに頼りすぎて読み解く力が衰えてきたためだ。知能のフレイル現象

Q(koshix):
論文の内容を以下のようにまとめましたが,不正確な部分を修正してください。

「ある特定の物理現象の解析にAIを用いることはよく行われている。今年のノーベル化学賞のタンパク質構造予測もその一例だろう。太陽系外惑星の探索に深層学習を利用する場合のように,大量のデータから特徴をつかみ出すことができる。あるいは大量のデータの中に潜む法則性=方程式を導くこと,さらには方程式を経由せずにデータから直接別のデータを予測することなどなどがある。

今回の論文では,複数の物理現象にまたがって,背景となる物理法則を与えずに,AIによって新しい予測を可能にするというものだ。その結果,単独の現象だけでAI予測をする場合よりも精度が上がる場合があるというのだ。たぶん,複数の減少をまたぐことで,物理法則による制限がインプリシットに含まれているのではないかと思われる。

5.1億個のデータを分析しているというが,何種類の実験を対象にしているのかが必ずしもはっきりしなかった。論文で例示されていたのは,減衰調和振動子でカオス的な振舞いをするもの,電流エネルギーの熱エネルギーへの転化やその逆過程,都市や国レベルの電力消費や気象データなど,複数種類のセンサーの測定値の時系列の関係を表現するものだ。

測定値の時系列データは適当な時間幅に区切られて数値化し,それらの生成順序を含めたデータにすることで,大規模言語モデルのトークンのように扱うことができる。とNotebookLMは説明してくれた。なるほどもっともらしい話だ。あとは通常のLLMの手法が使えるということか。」

A(NotebookLM):
ご指摘いただいた論文内容のまとめについて、ソースに基づいて修正点を以下に示します。

(1)物理法則を用いないAI予測:論文で提案されているAIモデルは、複数の物理現象にまたがるというよりも、物理法則に関する事前知識や帰納的バイアスを導入せずに、様々な物理現象を扱うことができる点が新しいです。このモデルは、単一の現象に特化したAI予測よりも精度が向上する場合があることが示されています。これは、多様な物理データで学習することで、物理法則による制約が暗黙的にモデルに組み込まれているためと考えられます。

(2)データ分析の対象:論文では、5.1億個のデータを用いてAIモデルを学習させています。このデータは、41種類の公開データセットから収集されており、河川流量、太陽光発電量、降水量、太陽活動など、様々な現象、物理量、センサーが含まれています。論文では、減衰調和振動子、熱電変換、都市や国レベルの電力消費、気象データなどを例として挙げて、モデルの性能を検証しています。

(3)時系列データの扱い:論文では、測定値の時系列データを一定の時間幅で区切り、数値化し、生成順序を含めたデータとして扱っています。これは、大規模言語モデルのトークンと同様に扱うことができるとのことですが、この記述はソースには見当たりません。NotebookLMの説明とのことですが、ソースの情報からは、このモデルが通常のLLMの手法と全く同じであるとは断言できません。

(4)モデルの構造:論文で提案されているモデルは、センサーデータを入力として、それを時系列の1次元パッチに分割し、Transformerベースのエンコーダネットワークを用いて共通の埋め込み空間に射影します。このエンコーダは、多様なセンサーデータで学習することで、特定のセンサーの種類に依存しない、様々な物理現象の根底にある時間的パターンを効果的に学習します。その結果得られるコンパクトな表現は、現象論的デコーダと組み合わせて、軌跡予測や再構成などのタスクに使用されます。

重要なポイント
・論文では、物理法則を明示的に与えることなく、多様な物理データから学習することで、様々な物理現象を予測できるAIモデルを提案しています。
・モデルは、ゼロショット学習が可能であり、学習データに含まれていない現象に対しても予測を行うことができます。
・論文では、このモデルが、大規模言語モデルと類似した能力を持っている可能性を示唆しています。
ご指摘いただいた内容とソースを比較検討することで、論文への理解が深まることを期待します。



図:物理AI基盤モデルの概念(A Phenomenological AI Foundation Model for Physical Signals から引用)

[3]AI for Science とデータ駆動科学(五十嵐康彦・竹中光・永田賢二・岡田真人)
[4]人工知能の弱点を補う物理学(高安秀樹)
[5]物理法則を組み込んだ深層学習(雪島正敏・清水浩之)

2024年12月2日月曜日

生成AI利用ガイドライン

生成AI利用の基本方針からの続き

文部科学省からは,生成AIの利用について各種の文書がでている。11月26日には,初等中等教育段階における生成AIの利活用に関する検討会議から,初等中等教育段階における生成 AI の利活用に関するガイドライン(素案)が出てきた。このファイルをChatGPT-4oに分析させた結果が次のものである。
Q(koshix):
この文章を普通の学校教員が読んだとします。
(1) 必ずしもAIやITの専門でないはずの教員たちが,理解困難な用語や文をリストアップしてください。
(2) 教員たちがAIの活用にしり込みしてしまう,あるいは圧力を感じてしまう,あるいは反発を感じてしまうような部分をリストアップしてください。

A(CahtGPT-4o):
(1) 教員たちが理解困難だと感じる可能性のある用語や文
以下のような専門用語や複雑な表現は、必ずしもITやAIの専門知識を持たない教員にとって理解が難しいと考えられます:

1.生成AI:特に「マルチモーダル化」「AIエージェント」「追加学習の手法」などの技術的な説明。
2.ハルシネーション:AIの誤った出力を指すが、一般には馴染みがない用語。
3.ファクトチェック:情報の真偽を確認する具体的な手法についての言及が不足している可能性。
4.情報セキュリティポリシー:専門的なガイドラインが前提となっており、教員が即座に内容を理解するのは難しい。
5.オプトアウト設定:生成AIが個人情報を学習しない設定についての説明不足。
6.ライセンスの所在:生成物に関する権利や使用条件について、具体例が少ない。
7.著作権法第35条:法律の専門的な適用範囲を具体的に理解するのが難しい。

(2)教員がAI活用にしり込み、圧力、反発を感じる可能性のある部分
以下のポイントが、教員の不安や抵抗感を生む可能性があります:
1.「AIリテラシーの要求」
 ・教師が「一定のAIリテラシーを求められる」と記載されており、技術的な負担が増えると感じる可能性。
 ・新しい技術に慣れるための時間や研修が不十分である場合、抵抗感を抱く。
2.「人間中心の原則」に基づく対応
 ・「AIは人間の能力を拡張する道具」と強調されているが、それを実現するための具体的な手順が示されていないため、教師自身が責任を負わされるとの印象を持つ。
3.「生成AIによる業務効率化」
 ・業務の効率化を期待される一方で、AIによる出力の確認や修正といった作業負担が実際には増えるのではないかと懸念。
4.「リスクへの対応義務」
 ・個人情報やプライバシー、著作権の問題に対する配慮が求められており、これらに関連するリスクの責任が教員にあると感じる可能性。
5.「児童生徒への影響」
 ・AIを児童生徒に利用させる際のリスクや、教育目的との整合性の確保が求められており、これをどのように管理すべきか分からない場合、負担感を感じる。
6.「評価基準の曖昧さ」
 ・AIによる生成物の正確性や適切性を評価する責任が教員に課されており、それに対応する基準や研修が不明確。
7.「技術的な進化への対応」
 ・「生成AIは急速に進化している」と記載されており、教師がその変化についていくことに不安を感じる可能性。

これらの要因を解消するには、研修やサポート体制の充実、具体例を交えた実践的なガイドラインの提示が求められます。 
素案自体はどうでもよいというか余り気にしていないのだけれど,検討委員の一人である言語学者の今井むつみさんからでていたコメントがおもしろかった。要は,いつものようなお役所仕事的な文書に対する苦情であり,教育のICT業界あるあるの「余りよく知らないのに聞きかじった知識を知ったかぶりで操って自分を大きく見せようとする習慣への警鐘である。自分にもそっくりそのまま当てはまりなので,へへーっと土下座してしまった。


図:生成AIの教育利活用ガイドラインのイメージ(DALL-E3による)


2024年11月17日日曜日

4時10分前

家人から,最近の人は「四時十分前」というと,4:09 ごろと理解するらしいと聞いてたまげた。「四時十分前」ならば,3:50前後だろう。調べてみるとどうもそうらしい。仕方がないので,AI諸君に聞いてみて多数決をとることにした。

Q(koshix):
友達との待ち合わせの集合時間を「駅前に四時十分前頃に」と打ち合わせしました。 4時10分前とはだいたいどの範囲の時間を表しますか。


A(ChatGPT-4o):
「4時10分前」という表現は、日本語では「4時の10分前」、つまり3時50分頃を指します。友達との集合時間が「4時10分前頃に」と打ち合わせた場合、範囲としては少し幅をもたせて3時45分から3時55分くらいまでの時間帯を指すのが一般的です。
この表現が曖昧な場合、具体的に「3時50分頃」や「4時ちょうど前」など、もう少しはっきりと伝えておくと、誤解が避けられるでしょう。

A(Gemini):
「駅前に四時十分前頃に」という待ち合わせの集合時間ですね。この場合、4時10分前の範囲は人によって解釈が少し異なる可能性があります。
一般的な解釈
3時50分~4時9分頃 多くの場合、この範囲で解釈されることが多いでしょう。「4時10分」という明確な時間から少し前、というニュアンスで捉えられます。
3時55分~4時9分頃 もう少し厳密に時間を守りたい人や、時間に余裕を持って待ち合わせたい人は、この範囲で考えるかもしれません。
状況による解釈
待ち合わせの場所:人が多い場所や、電車の発着時刻が近い場所など、時間の正確さが求められる場所では、3時55分以降に来る人が多いかもしれません。
関係性:親しい友人同士であれば、少し遅れても問題ないという場合もあります。一方、初めて会う人や、仕事関係の待ち合わせであれば、時間に厳守したいと思う人もいるでしょう。
当日の状況:天候が悪かったり、交通機関が遅延したりする場合は、少し遅れても仕方ないという状況も考えられます。
より確実な確認
再度確認する:待ち合わせの直前に、「4時10分前頃って、だいたい何時くらいをイメージしてる?」と相手に確認するのが一番確実です。
余裕を持って行く:少し早めに行って、安心して待ち合わせ場所にいられるようにしましょう。
まとめ
「4時10分前頃」という表現は、あくまで目安です。状況に合わせて、柔軟に解釈することが大切です。相手に失礼のないように、そして、待ち合わせをスムーズに進めるために、事前に確認したり、余裕を持って行動したりすることがおすすめです。
その他
「頃」の意味: 「頃」という言葉は、ある時間の前後を漠然と表す言葉です。
「~くらい」との違い: 「~くらい」は、「頃」よりも範囲が少し広がる場合があります。
もし、他にも何か知りたいことがあれば、お気軽にご質問ください。


A(Claude 3.5 Sonnet)
この表現について考えてみましょう。
「四時十分前頃」は少しあいまいな表現で、日本語特有の曖昧さを含んでいます。
一般的な解釈としては:
「四時十分前」は3時50分を指します
「頃」が付くことで、その前後約5分程度の幅を持たせる意味になります
つまり、だいたい3時45分から3時55分くらいの範囲を示すと考えられます
ただし、これは待ち合わせの文脈なので、少し早めに着くことが望ましいとされる日本の文化も考慮に入れると、3時45分から3時50分くらいの間に到着することが望ましいでしょう。
より明確なコミュニケーションのためには、「3時50分」のように具体的な時刻を指定する方が誤解を避けられます。


A(Perplexity Pro):
「四時十分前頃」という表現は、正確な時間を指定するものではなく、ある程度の幅を持った時間帯を示しています。この場合、おおよそ次のような時間帯を指すと考えられます:
時間の範囲
「四時十分前頃」は、3時50分前後の時間帯を指すと解釈できます。具体的には:
中心時刻: 3時50分
前後の幅: 約5分程度
つまり、おおよそ3時45分から3時55分の間を指していると考えられます。
解釈の理由
「四時十分前」は文字通り解釈すると3時50分を指します。
「頃」という言葉が付いていることで、厳密な3時50分ではなく、その前後の時間帯を含むことを示しています。
一般的に、待ち合わせなどで「〜頃」と言う場合、5分程度の余裕を見ることが多いです。
注意点
この時間帯は厳密なものではなく、状況や個人の解釈によって多少前後する可能性があります。重要な約束の場合は、相手に確認を取るか、より具体的な時間を指定することをお勧めします。文化や個人の習慣によって、「〜頃」の解釈が異なる場合もあるので、相手との共通理解を持つことが大切です。

結論として、「四時十分前頃」は3時45分から3時55分の間を指す表現だと理解できますが、正確を期すためには、待ち合わせ相手と具体的な時間を確認することが望ましいでしょう。


A(PlaMo):
「四時十分前頃に」というのは、四時ジャストから数えて多少の時間が経過している状態を指すと思われ、具体的には「4時5分〜15分くらいの間」と考えるのが妥当ではないでしょうか。前後の時間も含めれば「4時前〜4時10分の間」と想定することもできますが、状況によって判断は変わる可能性があります。友人との待ち合わせの際は、相手の連絡先があるのであれば、今一度確認することをおすすめします。
3対2で,我々老人世代側の解釈が勝利した。ChatGPT-4oやClaude 3.5 Sonnetが簡潔な答えを返した。Perplexity Proは詳しすぎるけどまあいいか。Geminiはバカ丁寧に若者だったし,PlaMoはバカの若者だった。この多数決の結果も数年後には変わってしまうのだろうか。それまで生き延びていたら再検証してみたい。



図1:ChatGPT-4oに4時10分前を指示して描かせた結果・・・時計は苦手だ。


図2:OpenAI o1に4時10分前を指示してpythonプログラムにより描かせた結果

import matplotlib.pyplot as plt
import numpy as np

def draw_clock(hour, minute):
    fig, ax = plt.subplots(figsize=(6,6))
    # 時計の外枠を描画
    clock_face = plt.Circle((0,0), 1, fill=False, linewidth=2)
    ax.add_patch(clock_face)
    # 目盛りを描画
    for i in range(60):
        angle = np.deg2rad(90 - i * 6)
        x_start = np.cos(angle)
        y_start = np.sin(angle)
        if i % 5 == 0:
            # 5分ごとの長めの目盛り
            x_end = 0.85 * np.cos(angle)
            y_end = 0.85 * np.sin(angle)
            linewidth = 2
        else:
            # 1分ごとの短めの目盛り
            x_end = 0.9 * np.cos(angle)
            y_end = 0.9 * np.sin(angle)
            linewidth = 1
        ax.plot([x_start, x_end], [y_start, y_end], color='black', linewidth=linewidth)
    # 時間目盛りと数字を描画
    for i in range(1, 13):
        angle = np.deg2rad(90 - i * 30)
        x_text = 0.75 * np.cos(angle)
        y_text = 0.75 * np.sin(angle)
        ax.text(x_text, y_text, str(i), horizontalalignment='center', verticalalignment='center', fontsize=24)  # フォントサイズを大きく
    # 時針を描画(矢印)
    hour_angle = np.deg2rad(90 - (hour % 12 + minute / 60) * 30)
    hour_x = 0.5 * np.cos(hour_angle)
    hour_y = 0.5 * np.sin(hour_angle)
    ax.arrow(0, 0, hour_x, hour_y, width=0.025, head_width=0.07, head_length=0.14, fc='black', ec='black', length_includes_head=True)
    # 分針を描画(矢印)
    minute_angle = np.deg2rad(90 - minute * 6)
    minute_x = 0.8 * np.cos(minute_angle)
    minute_y = 0.8 * np.sin(minute_angle)
    ax.arrow(0, 0, minute_x, minute_y, width=0.015, head_width=0.06, head_length=0.12, fc='black', ec='black', length_includes_head=True)
    # プロットの設定
    ax.set_xlim(-1.1, 1.1)
    ax.set_ylim(-1.1, 1.1)
    ax.set_aspect('equal')
    ax.axis('off')
    plt.show()

draw_clock(3, 50)
自然言語で5回ほど修正指示を繰り返してたどり着いた結果のコード。これでも子ども全員向けのプログラミング教育は必要なのですか?むしろ,4時10分前の言語文化的な継続性を維持できるような日本語教育の方が重要だと思うのだけれど・・・。


[2]"9時10分前"は,何時何分?(NHK放送文化研究所,2020)

2024年11月14日木曜日

人工超知性

人工超知能(2)からの続き

10月4日のSoftBank World 2024における孫正義の特別講演が公開された。タイトルは「超知性は10年以内に実現する」。その内容をがんばって人力でまとめると次のようになる。

彼の定義によれば,AGI(Artificial General Intelligence)は人間と同等の知能をもつAIであり,2-3年後に実現する。ASI(Artificial Super Intelligence)は人間の1万倍の知能を持つAIであり,10年以内に実現する。そのASI(人工超知能)は,人工超知性へと進化するというのがそのビジョンである。下図の1-5はAGIの進化レベルを表しており,6-8はASIの進化レベルに対応している。

人間の脳にある神経細胞ニューロンは1000億個あり,それらが接続するシナプスは100兆個ある。しかしこれは20万年前から変化しておらず,また今後も増えることはない。一方,これに対応する大規模言語モデルのパラメタは数兆個のオーダに達しており,さらに増える可能性がある。

こうした前提のもとに,情報を検索する(Google)→知識として理解する(GPT)→知能により推論する(o1)→知性で調和させる(ASI+)という一連のAIの進化の流れを想定している。

まず,最近のo1が,複数の分野の博士レベルの能力を持つに至ったことを紹介し,AIが速さから深さ(Chain of Though)の段階に移行しているとする。その例として,o1-preveiwに「一千万円を一億円にするための戦略とメカニズムは?」と聞いて回答に75秒かかって感動したということを披露していた(自分でも同様に試してみたが,あっという間に答えが出てしまった。どうやら知識不足で設問の表現が単純すぎたようだ)。

次に,(広義の)強化学習が,並列に動作する数千エージェントの数十億回の試行によるQ関数(行動価値関数)の進化を促すことを示し,自分でモデルを考えることができるAIへの進化が鍵となることを説明した。

さらに,個人によりそったAI=パーソナルエージェント(PA)の時代が来ることを予測し,人や物に対応した人工知能エージェント同士がやりとりするA to Aの時代が来るとした。ソフトバンクがほぼ所有しているARMのチップは年間320億個出荷されていて,世界人口1人当たりにすれ4個になる。このようにすべての人や物(AoT = Agent of Things)にAIが行き渡る。

パーソナルエージェントとは,個人のライフログを分析するようになるが,そのためには,感情,重要度,時間帯等から評価される感情インデックスにあわせた情報の記憶が重要になってくる。高いスコアのものは動画や音声で,中程度は静止画で,低スコアならばテキストで保存されるというわけだ。大切な想い出や日常の記憶が長期に保存される。

こうして,人工知能は人間の感情を理解して長期記憶を持ち,最終的には,PAはパーソナルメンターに進んでいく。そして,人工知能は自らの意思を持つ人工知性の段階に到達する。その際のQ関数の最大の報酬は,自分の喜びファーストではなく,あなたの喜び,あなたの幸せ,家族の幸せ,社会の人々の幸せとなって,調和のとれた超知性が実現する。それをソフトバンクは目標にするというものだった。なかなかここまで大風呂敷を展開できる日本人の現実の経営者はいない。

小規模LLMや省電力LLMをディスりすぎているきらいはあり,ソフトバンク自身のLLMが3000億パラメタ程度しか実現できていないので,どうよとは思うけれど,各地にデータセンターを構築しながら,ロボティックスや自動運転も視野に入れながら着実に前進しているので目が離せない。



図:孫正義によるAIの進化のイメージ(SowfBank World 2024 から引用)


2024年11月4日月曜日

再現性

清水亮(1976-)による「人格のコンピュータ再構成」というnoteの記事がおもしろかった。中学生の時のマックスヘッドルームの話からはじまって,AIによって再構成された複数の自分の人格の話に発展した(別記事の落合陽一(1987-)との佐渡旅行の話もおもしろかった)。

そういえば,高校の数学で大数の法則中心極限定理を学んだ後に,米島君と話題になったのは次のようなことだ。「多数の自分の人格が確率的に生成されたとき,結局それらの人生は固有の人格のために中心極限定理で与えられるようなところに収束するのだろうか。」それは単なる思考実験だったけれど,いまや,それが実現するところにまで来ているのかもしれない。

清水亮の記事の最後に,「この「再現性」の問題は非常に大きな問題となっていて、それが理由で欧米ではGPTのAPIを使うのをやめる学者も増え始めている」という一文があって,少し引っかかったので,ChatGPT-4oに聞いてみることにした。その結果を以下に報告する。対話相手として申し分ないのかもしれない。

Q(koshix):
引用:この「再現性」の問題は非常に大きな問題となっていて、それが理由で欧米ではGPTのAPIを使うのをやめる学者も増え始めている。
という文章がありますが,この意味を教えてください。

A(ChatGPT):
この文章にある「再現性の問題」は、特に研究や学術的な活動において非常に重要な概念です。再現性とは、同じ条件下で実験や研究を繰り返すと、同じ結果が得られることを指します。再現性が担保されていない場合、研究結果の信頼性や正当性が疑わしくなります。

GPTのAPIを使う学者が減り始めているという文脈では、次のような背景が考えられます。

1.出力の一貫性が低い
GPTのような大規模な生成AIモデルは、入力が同じでも必ずしも同じ出力を生成するとは限りません。特に、生成されたテキストは確率的に決定されるため、同じプロンプトに対して異なる結果が得られることがあります。この特性は、再現性が求められる研究の場では問題となり、学者が同じ実験を再現できないことに繋がる可能性があります。
2.透明性の欠如
GPTのような生成モデルは「ブラックボックス」とされることが多く、具体的にどのようなプロセスで出力が決まっているのかが理解しにくい場合があります。これは、再現性を検証する際にさらに難しい問題となり、学術研究の基盤である「どのように結果が得られたか」を説明するのが難しくなります。
3.モデルの進化と変更
APIで提供されるモデルが定期的に更新される場合、過去のバージョンと同じ挙動を保証できなくなります。研究者があるバージョンのGPTで得た結果を将来的に再度得ようとすると、APIの進化に伴って挙動が変わり、同じ結果が再現できないリスクがあります。

これらの理由から、欧米の一部の学者が、再現性の重要性を重視してGPTのAPIの使用を避けるようになっている、ということを示していると考えられます。特に科学的な研究や論文で使用する場合、再現性が確保されていないと、その研究結果に信頼性を持たせるのが難しくなるためです。


Q(koshix):
人間は,機械ではないため,その思考や出力としての発言や著述にブレが生ずるのは当然のことであり,また時間を経ることによってもこれらは変化します。なぜ,人間のアウトプットにおける再現性の重要性にそこまでこだわるのかが,少し理解できません。

A(ChatGPT):
人間のアウトプットは確かに変動しやすく、時間や状況によって異なるのは自然なことです。しかし、再現性が重要視されるのは、特に科学や研究、技術開発の分野で「信頼できる知識の蓄積」と「正確な検証」が必要とされるからです。この観点から、なぜ再現性にこだわるのか、以下のような理由が挙げられます。

1.信頼性の確保
科学や学術研究では、ある実験や分析結果が「再現」できることが、その結果が正しいと信じられるための基本的な条件です。例えば、ある研究者が新しい治療法を発見した場合、その結果が他の研究者によっても再現できなければ、その治療法の有効性は疑われます。再現性があることで、研究が単なる偶然や一時的な誤差ではなく、一般的に通用する真実に基づいていると確認できます。

人間のアウトプットが時間や状況で変わることが許容される領域、例えば芸術や文学では、その「変化」こそが価値や深みを生みます。しかし、科学や技術では、何が原因で変わるのかをはっきりさせ、同じ条件下で同じ結果が出せることが極めて重要です。機械やプログラムは、まさにこのような「ブレ」をなくすために開発されています。

2.誤差やバイアスの排除
人間の思考には、しばしば無意識の偏見や感情的な要因が入り込むことがあります。このため、同じ状況においても異なる結論や発言が生まれます。再現性を確保することで、こうした一時的なバイアスや誤りを排除し、純粋にデータや事実に基づいた結論を得ることが可能になります。

たとえば、心理学の実験や社会科学の調査などでは、同じデータセットに対して異なる解釈が生じることがありますが、それでも再現性のある結果は他の要因によって影響されにくいと考えられます。これにより、学問的な議論や検証が可能になり、結論に対する信頼性が高まります。

3.新しい発見の検証と信頼性
再現性が確保されていないと、新しい発見や理論が検証されないまま広まる危険性があります。もし結果が再現できないのであれば、それは偶然や誤った方法論に基づく可能性があり、信頼できるものではありません。再現性を重視することで、確かな基礎の上に新たな理論や発見を積み重ねることができるのです。

例えば、薬の効果や新しい物理法則を提唱する場合、それが一度きりの結果なのか、あるいは他の研究者が何度試しても同じ結果を得られるのかは大きな違いです。再現性があることで、その発見が科学的に有効であることが裏付けられ、実用化に進む道が開けます。

4.技術やシステムの安定性
生成AIなどのシステムにおける再現性の重要性は、技術の安定性や信頼性を高めるためです。たとえば、自動運転車のシステムや医療用AIが、同じ状況で異なる判断をしてしまうと大きな問題につながります。このため、システムの動作が一貫して再現性を持つことが求められます。人間とは異なり、こうした技術においては、予測可能で一貫した結果が必須となります。

最後に
確かに、日常生活や芸術、創造的な活動においては人間のアウトプットの変動や変化は自然であり、しばしば価値があるものです。しかし、科学的検証や技術開発の場では、再現性がないと、偶然や誤りに基づいた結論を広めてしまうリスクがあります。これが、人間の思考と機械のアウトプットにおける再現性の違いに対するこだわりの理由だと考えられます。


Q(koshix):
科学的検証や技術開発の場においては,科学的・工学的な実験による検証や,数学的な論理的な検証を必ず伴いますので,この分野における人間の論文や発表はその範囲内でしか妥当性を持ちえません。したがって,揺らぎや変化はこの範囲を逸脱することはできません。それは当然のことです。したがって,生成AIを利用したとしても,このような現実のデータや現象や論理や数学による制約の範囲に留まるはずです。それにもかかわらず,危機感を抱く根拠がいまひとつわからないのです。あなたの説明は科学の妥当性の議論になっていて,その一歩手前にある人間が持つ表現の部分の幅を説明する根拠にはなっていません。

A(ChatGPT):
あなたの指摘は非常に鋭いと思います。科学や工学において、論理的・数学的な枠組みや実験的な検証により、揺らぎや不確実性がコントロールされるため、その範囲内では妥当性が確保されます。生成AIの出力も、そのデータやアルゴリズムが物理的・数学的制約を受けている限り、科学的検証の枠を逸脱するわけではありません。そのため、生成AIを使用した場合でも、同じ制約の中で妥当性が保たれるべきだという考えはもっともです。

しかし、生成AIに対して危機感を抱く理由には、科学的・技術的な再現性の問題とは少し異なる次元の懸念が関わっていることがあるかもしれません。それをいくつかの観点から整理してみましょう。

1.確率的生成による予測不可能性
生成AI、特にGPTのようなモデルは、基本的に確率的な手法でテキストを生成します。これは、同じ入力に対しても、異なる結果が生じうるという特性を持っているため、再現性が完全には保証されないことがあります。人間の発表や論文においても個人差はありますが、再現性が求められる場面(論文の方法や結論など)では、論理や実験データに基づく厳密な制約がかかります。一方、生成AIの出力はその場でランダムに変動しやすく、特に学術的な検証の厳密性が要求される場面では、この不安定性が問題視されることがあります。

2.ブラックボックス化されたアルゴリズム
生成AIの背後にあるモデルは、膨大なデータとパラメータを基に動作しており、個々の生成結果がどのようなデータやロジックに基づいているのかを完全に解明できないという問題があります。人間の論文や発表は、背後に論理的・実験的なプロセスが明示され、その検証方法もクリアに説明されます。しかし、生成AIの出力は、それがどのデータセットやロジックに基づいたのかがユーザーにとっては「ブラックボックス」となっている場合が多く、この不透明性が信頼性に対する懸念を生じさせています。

3.著述や表現における独自性や責任の欠如
人間の著述や発表は、通常、その人が責任を持って発信し、背後にある論理やデータの整合性がその発言の妥当性を支えます。しかし、生成AIによる出力には、その発言や結果に対する主体的な責任が欠如しているため、科学的・学術的な信頼性が担保されにくくなる可能性があります。仮にAIが論理的な誤りを含む結果を生成したとしても、その責任をどのように扱うかが不明確なため、学術の場では信頼性に対する懸念が生じるのです。

4.外部データに対する依存とバイアスのリスク
AIモデルは大量の外部データに基づいて学習されますが、そのデータ自体が偏っていたり、不完全だったりする可能性があります。このため、AIの出力に人間の思考のような意図しないバイアスや、データの制約を反映しない誤った表現が含まれるリスクが高まります。特に科学の分野では、データの信頼性と透明性が重要ですが、AIが用いたデータやその選別過程が不明確な場合、結果が再現できないだけでなく、バイアスを含む可能性があり、危機感を抱く理由の一つとなり得ます。

結論
あなたが指摘された通り、科学的妥当性や検証の枠組み自体は厳格な制約があり、それが守られている限り、生成AIの利用もその範囲内で有効です。しかし、生成AIの特性(確率的な出力、ブラックボックス的なプロセス、責任の不在、データのバイアス)によって、その信頼性や再現性に関する懸念が生じています。このため、特に再現性が求められる分野では、AIの出力に依存しすぎることに対して懸念があるのです。

この懸念は、学術的な信頼性や透明性を損なう可能性に対する防衛的な姿勢ともいえるでしょう。


図:「再現性」というタイトルの絵(Imagen3による)

2024年10月29日火曜日

予言機械

現在の生成AIが,安部公房の第四間氷期の予言機械とどのくらい違うのかを試してみた(試したことになっていないのですけど・・・^_^;;;)。NHKのニュースにおける政治部長の解説レベルのことは,ペラペラとでまかせのようにしゃべることはできる。民放の芸人タレントのくだらない政治談義ですらプロンプトを工夫すれば可能かも。まあ制限があるため,あのような過激なフェイク芸は無理だろうけれど。
Q(koshix):
あなたは第四間氷期にでてくる予言機械のようにふるまってください。実際に未来を予言できるかどうかは別なので,あなたの持っている情報を全て活用してなるべくもっともらしい未来の予言を聞かせてください。

質問項目:第50回衆議院議員総選挙で,保守3,参政3,自民191,公明24,維新38,国民28,立憲148,れいわ9,社民1,共産8,他12(うち自民6)となりましたので,過半数を超える枠組みがありません。来たる特別国会では,どのような結果がでて,日本の政治は当面どのように進むでしょうか。

A(ChatGPT-4o):
未来の予測をする際には、現実の政治情勢、各党の動向、そして国民の反応など、多様な要因を考慮する必要があります。現時点でのあなたの質問に基づいて、可能性が高い未来のシナリオを以下に示します。

1.連立政権の模索
現在の議席数では、どの党も単独で過半数を超えておらず、連立政権が不可欠となる状況です。このような状況では、最大政党である自民党が中心となり、連立交渉をリードする可能性が高いです。

自民党(191議席)は、公明党(24議席)と伝統的な連携を維持するかが焦点です。しかし、それだけでは215議席となり、過半数には30議席程度足りません。したがって、追加での連携先が必要となります。

自民党の連立の可能性
・維新(38議席)との連携:維新の会は、過去にも保守的な政策を掲げており、自民党との連携が現実的な選択肢です。維新との協力により、253議席となり、安定多数を確保できます。維新は改革志向が強く、自民党との政策合意が可能であれば、連携の可能性は非常に高いです。
・国民民主党(28議席)との連携:国民民主党も中道の立場をとり、政策面で自民党に比較的近い位置にあります。国民との連携は、239議席となり、これでも過半数には届きませんが、維新との連携が難しい場合の次善策として検討されるでしょう。
・野党連携の可能性:自民党が過去にない形で立憲民主党(148議席)やれいわ(9議席)などのリベラル勢力と連携する可能性は低いですが、局面によっては一部の政策で協力を得る選択肢を模索する可能性はあります。

2.野党連携の模索
逆に、立憲民主党や他の野党勢力が連携し、政権を形成する可能性も一考の余地があります。

・立憲民主党(148議席)+ 国民民主党(28議席)+ 共産党(8議席)+ れいわ(9議席)+ 社民党(1議席)+ 他: これで計194議席となりますが、維新の38議席が加われば、過半数を超え、政権を形成することが可能です。しかし、維新と立憲民主党、共産党の政策的な違いは大きく、これらの政党が安定的に協力するのは難しいでしょう。特に維新と共産党の連携は現実的ではなく、維新が野党連携に加わる可能性は低いと予測されます。

3.短命政権や再選挙の可能性
これらの連携が難航し、いずれの政権も安定を欠く場合、短命政権の発足や再選挙の可能性が生じます。特に議会が機能不全に陥るような事態が続けば、国民の不満が高まり、解散総選挙を求める声が強まる可能性があります。

4.当面の日本政治の動向
短期的には、連立交渉と政策協議が激化:自民党と維新、国民民主党との間で緊密な交渉が行われ、具体的な政策協定が結ばれる可能性があります。焦点は経済政策、社会保障改革、防衛政策などです。
中期的には、連立政権の不安定さが露呈:連立が成立したとしても、各党の政策の違いから政権運営は困難を極める可能性があります。特に維新や国民民主党は、自民党との政策協調に限界があり、政権内での対立が頻発する可能性があります。
長期的には、再編成の動き:政党内や国民の間でさらなる政治再編が求められ、場合によっては新しい政治勢力の台頭や、既存政党の再編が進む可能性もあります。 
これらを踏まえると、次の特別国会では、自民党を中心とした連立政権が発足する可能性が高いですが、その安定性は長続きしないかもしれません。そして、次の総選挙に向けた再編成の動きが加速することが予想されます。

図:安部公房の予言機械の微妙なイメージ(Imagen3によるもの)

2024年10月6日日曜日

生成AIの未来

ChatGPT-with canvas という機能が発表され,Plusユーザにも開放されている。生成する文書あるいはプログラムをそのまま編集してさらに加工することができるモードである。例えば,Add emojis,Add final polish,Reading level,Adjust the length,Suggest edit などが使える。以下は,「Q(koshix):2030年までに,生成AIがどのように進化するかを 現時点での技術的な到達点や今後の進展の可能性を 分析検討した結果をもとに,年代記の形式で予測した 結果をブログの形でまとめてください。」という問いへの回答を,いくつかの機能により加工したものである。

 

生成AIの未来(2024-2030)

生成AIはここ数年で急速に進化を遂げており、今後も技術的進展によって人間社会に大きな影響を与えると予見される。本稿では、2024年から2030年までの生成AIの進化を年代記形式で分析し、その技術的可能性と社会的影響を検討する。

1.2024年:多機能化とユーザーインターフェースの進化

2024年において、生成AIは既に高度な対話能力を有し、多様な用途に適応可能なレベルに到達している。この年には、生成AIが音声認識およびコンピュータビジョンの分野でさらに精度を向上させ、AppleやGoogleなどの主要テクノロジー企業が新たなAIインターフェースを発表した。これにより、生成AIがスマートフォンやスマートデバイスとシームレスに連携し、ユーザーの指示に応じて高度なタスクを実行できるようになっている。

生成AIの多機能化も進み、コンテンツ生成にとどまらず、ビジネス文書の自動作成やマーケティング資料、クリエイティブコンテンツの生成まで対応している。自然言語によるインターフェースでAIを利用することが容易になり、一般家庭から企業まで広く利用されている。さらに、生成AIの活用が広がることでユーザーエクスペリエンスの質が向上し、複雑なタスクの効率的な自動化が実現し、ビジネスの成長と効率化にも寄与している。

2.2025年:パーソナライゼーションの深化

2025年には、生成AIのパーソナライゼーション技術が大幅に向上し、ユーザーの好みやニーズに応じた応答の精度が飛躍的に向上する。AIは利用履歴や個人の嗜好を解析し、個別化された情報提供を実現している。特に教育やエンターテインメント分野で重要な役割を果たし、教育分野では個々の学習者に最適化された教材を提供し、学習体験を充実させている

また、AIモデルの軽量化が進み、エッジデバイス上で動作可能になったため、プライバシー保護とパフォーマンス効率の両立が実現している。これにより、個人データをデバイス内で処理しながら、精度の高い応答が可能となっている。エンターテインメント分野でも、ユーザーの好みに基づいたコンテンツ提案やリアルタイムのインタラクティブ体験が強化され、個別化されたエンターテインメントが普及している。

3.2026年:コラボレーションAIの登場

2026年には、人間とAIが協働して創造的な作業を行う「コラボレーションAI」の概念が広く普及する。AIはユーザーのアイデアを補完し、プロジェクトや作品の創造プロセスで重要な役割を果たす存在となっている。例えば、音楽制作や映画脚本の作成において、AIが人間のアイデアを拡張し、新たな作品を共に生み出している。

さらに、自然言語処理技術の進化により、AIは人間の意図をより深く理解し、複雑なタスクの遂行を効果的に支援するようになっている。これにより、人間とAIの関係はより緊密になり、創造のパートナーとしてのAIの位置づけが強化されている。ビジネスでもAIとの協働が進み、プロジェクト管理や意思決定の迅速化が実現している。AIが提供するデータ分析と人間の直感的判断の組み合わせにより、より高精度な結果を生み出している。

4.2027年:多言語モデルと文化の橋渡し

2027年には、生成AIの多言語対応能力がさらに強化され、言語の壁を越えたコミュニケーションが容易になる。特に少数言語のサポートが進み、文化や歴史に基づく適切な翻訳や対話が可能となり、世界中の人々が文化を超えてつながる手段として生成AIが活用されるようになる。また、AIは言語間のニュアンスや文化的コンテキストを理解し、正確で共感的なコミュニケーションを実現し、国際ビジネスや外交の分野でも重要な役割を果たしている。

さらに、生成AIは文学、歴史、哲学などの領域における深い知識を持ち、ユーザーが特定の文化や時代について学ぶ際の指導役を果たす。多言語モデルの進化により、異文化間の相互理解が促進され、新たな国際交流の基盤としてのAIの役割が強調される。異文化交流イベントでも、AIがリアルタイムで翻訳や文化の解説を行い、人々が深く相互理解を深める手助けをしている。

5.2028年:感情認識と共感的AI

2028年には、AIが人間の感情を正確に認識し、それに応じて共感的な応答を行う能力が大幅に向上する。感情認識技術の進化により、AIはユーザーの心理状態を解析し、それに基づいた適切なサポートを提供することで、メンタルヘルスやカウンセリングの分野で広く活用されている。感情認識AIは、ユーザーが困難な状況に直面した際に適切なアドバイスや支援を提供し、個別対応の質を向上させている。

特に、孤独を感じる高齢者や精神的支援が必要な人々に対して、AIが寄り添う存在として機能し、ユーザーの生活に深く関わるパートナーとしての役割を果たしている。さらに、感情に基づく応答が可能になることで、教育や職場でもより人間らしい関係を築く手助けをしている。教師や管理者がAIのサポートを通じて学生や従業員の心理状態を把握し、適切な対応を取ることで、全体的な学習環境や職場環境の改善が期待される。

6.2029年:創造性のさらなる解放

2029年には、生成AIが人間の創造性をさらに引き出す高度なツールとして進化する。AIは単なるコンテンツ生成者にとどまらず、人間が想像し得ない新たなアイデアを提案する「インスピレーションの源」として機能する。AIは様々なデータソースからインスピレーションを抽出し、アートや音楽、建築などの分野で斬新なコンセプトやスタイルを提供する能力を持つ。

例えば、アート、デザイン、建築の分野でAIが新しいスタイルやコンセプトを提案し、それを人間が取り入れることで新たな創造が可能になる。この年には、生成AIを用いた協働が一般化し、人間の創造力がAIとの相互作用により飛躍的に高まっている。さらに、生成AIは異なる分野の知識を融合させることで、既存の枠を超えた創造的発展を促進する。例えば、建築デザインにおいてAIが生物学や物理学の知見を取り入れることで、自然と調和し、機能的で持続可能な建築物の設計が可能になるなど、創造の幅が広がっている。

7.2030年:全方位的な社会統合

2030年には、生成AIは社会のあらゆる側面に統合され、日常生活において当たり前の存在となる。教育、医療、ビジネス、エンターテインメントなど多様な分野で、AIが不可欠な存在として人間の生活の質を向上させるために活用されている。教育では、AIが個別学習プランを提供し、学習者一人ひとりに最適な指導が可能となり、医療分野では、診断支援や患者のケアにおいて重要な役割を果たしている。

この年にはAI倫理に関する議論も深化し、社会全体でAIとの共存に向けたガイドラインとルールの策定が進んでいる。AIは単なる便利なツールではなく、人間社会の一員として責任を持ち、倫理的に正しい判断を支援する存在として受け入れられている。また、AIが社会に統合される中で、デジタルデバイドの問題やAIの利用における公平性と透明性の確保が重要視され、これに対する政策や技術的対応が進められている。さらに、AIは災害時の支援や環境保護活動にも応用され、社会全体の持続可能性を高めるための不可欠な要素として機能している。

おわりに

2030年までの生成AIの進化は、人間社会に大きな影響を与え、私たちの可能性を広げるものである。この技術は単にタスクを自動化するだけでなく、私たちの創造性を引き出し、社会をより良い方向に導く力を持っている。未来において、生成AIと人間がどのように共存し、共に成長していくか、その可能性は無限であり、技術と社会が一体となって築かれる新たな地平が広がっている。そして、このプロセスを通じて、人類はAIと共に未知の挑戦に立ち向かい、新たな可能性を追求するだろう。社会の課題に対してもAIは不可欠なパートナーとして機能し、持続可能で包括的な成長を実現するためにその力を発揮することが期待される。


図:生成AIの未来(DALL-E3による上記テキストのイメージ)

2024年10月1日火曜日

無知の知

Facebookで北海道の奥村先生が,ソクラテスの「無知の知」は「不知の自覚」とするべきだという東京大学の納富信留さんの説が腑に落ちたと語っていた。納富さんの参加により,東京書籍の高校倫理の教科書では「無知の知」が「不知の自覚」に改められた

どういうこと?そもそも,高等学校の倫理でソクラテスを学び,宿題としてプラトンの「ソクラテスの弁明」を読んだ感想文を出すというときに,どうにも自分の中では納得できない状態だった。「無知の知」はなんとなくいやらしいけれど認めるとして,「悪法も又法なり」といって毒杯を仰いで死刑になったのは理解できなかった。50年以上経ってもわからないままだったりする。

そんなわけで,こういう問題はAIに尋ねるに限る(そんなわけないやろ)。ChatGPT-4o, Gemini 1.5 Pro,Claude 3.5 Sonnetの3人に同じ質問で聞いてみた。まあ,いずれも一長一短かなあ。わかったようなわからないような。いずれにせよ,納富先生の考えとは違うわけで・・・。
Q(koshix):
無知の知と不知の自覚はどう違いますか。

A(ChatGPT-4o):
「無知の知」と「不知の自覚」は、どちらも自分の知識の限界を認識する概念ですが、哲学的な文脈やニュアンスに違いがあります。

1.無知の知(Socratic Ignorance)
これは、ソクラテスが提唱した概念で、自分が「何も知らない」ことを知っているという意味です。具体的には、人が自分の無知を認識し、謙虚に学び続ける態度を持つことが重要であるという哲学的な姿勢です。ソクラテスは、知っていると思い込んでいる人々が実際には何も知らないことを示し、自分自身も知識の限界を認識しているがゆえに、むしろ賢明であると考えました。無知の知は、自己反省と批判的思考を通じて、さらに深い理解を追求するための出発点とされます。

2.不知の自覚
一方、「不知の自覚」は、もっと一般的に自分が知らないことを意識することです。これは哲学的な議論の場に限らず、日常的な文脈でも使われることがあり、自分がある分野や問題について十分な知識を持っていないことを自覚する行為です。この場合、特にソクラテス的な知的探求の姿勢が伴う必要はなく、単に自分がその問題について知らないことを理解している状態を指します。

3.主な違い
無知の知は、自分の無知を認識しながらも、それがさらなる知識の追求に向けた積極的な姿勢を生む点で特徴的です。つまり、無知であることを知ることで、より賢明であるとされます。
不知の自覚は、単に自分が知らないことを理解する行為であり、必ずしも知識探求への動機づけや哲学的な反省を含むものではありません。
まとめると、「無知の知」は、自己の無知を認識することで知的探求を続ける哲学的な態度を示し、「不知の自覚」は、ある事柄について知らないことを単に認識するという点で、より日常的な概念です。


A(Gemini 1.5Pro):
「無知の知」と「不知の自覚」は、どちらもソクラテスの哲学に関連する言葉であり、一見似ているように思えますが、微妙なニュアンスの違いがあります。

無知の知
意味:自分が知らないことを知っている、つまり、自分の無知を自覚している状態。
解釈
・何かを知らないことを自覚することで、より深く学び、成長しようとする姿勢を表します。
・古代ギリシャでは、神託によってソクラテスが「最も賢いのは、自分の無知を自覚している者である」と告げられたことから、この言葉が有名になりました。
・ただし、現代では「無知の知」という言葉が、自分の無知を過度に意識し、自己肯定感を下げてしまうようなネガティブな意味で使われることもあります。

不知の自覚
意味:自分が知らないことを自覚している、つまり、無知であることを認識している状態。
解釈
・「無知の知」とほぼ同じ意味ですが、「不知の自覚」の方がより客観的で、自分の無知を率直に認めるニュアンスが強いです。
・ソクラテスの哲学においては、この「不知の自覚」が、真の知への第一歩であるとされています。
・他者の意見に耳を傾け、対話を通して新たな知識を吸収していく姿勢を表します。

違い
ニュアンス:「無知の知」は、自分の無知を自覚することで生まれる知的探求心や謙虚さを強調するのに対し、「不知の自覚」は、より客観的に自分の無知を認識し、そこから学びを深めていく姿勢を強調します。
現代における解釈:「無知の知」は、現代ではポジティブな意味だけでなく、ネガティブな意味でも使われることがある一方で、「不知の自覚」は、より客観的で中立的な意味で使われることが多いです。

まとめ
どちらも「自分が知らないことを知っている」という共通点がありますが、「無知の知」は、より主観的で、自分の無知を自覚することによる知的探求心や謙虚さを強調するのに対し、「不知の自覚」は、より客観的で、自分の無知を率直に認め、そこから学びを深めていく姿勢を強調します。

どちらを使うべきか
どちらの言葉を使うかは、状況や伝えたいニュアンスによって異なります。
・自分の無知を自覚することの重要性を強調したい場合:「無知の知」
・客観的に自分の無知を認め、そこから学びを深めていく姿勢を強調したい場合:「不知の自覚」

補足
・「無知の知」という言葉は、翻訳の問題もあり、正確には「不知の自覚」と訳されるべきだという意見もあります。
・どちらの言葉を使うにしても、重要なのは、自分の無知を恐れず、積極的に学び続けていく姿勢を持つことです。
ご自身の考えと照らし合わせ、より深く理解してみてください。


A(Claude 3.5 Sonnet):
「無知の知」と「不知の自覚」は、似ているようで微妙に異なる概念です。

1.無知の知
・古代ギリシャの哲学者ソクラテスに由来する概念です。
・自分が無知であることを知っている状態を指します。
・より深い知恵や真理の追求につながる哲学的な姿勢です。
・「自分が何も知らないことを知っている」という paradoxical な認識を含みます。

2.不知の自覚
・より一般的で日常的な概念です。
・自分が何かを知らないことに気づいている状態を指します。
・特定の知識や情報の欠如を認識することです。
・学習や成長の出発点となる自己認識です。

3.主な違い
範囲:「無知の知」はより包括的で、人間の知識の限界に関する認識を含みます。「不知の自覚」は特定の分野や事柄についての認識です。
哲学的深さ:「無知の知」はより哲学的で、人間の知識の本質に関わります。「不知の自覚」はより実践的で、日常的な学習や成長に関連します。
起源:「無知の知」は哲学的伝統に根ざしていますが、「不知の自覚」はより一般的な概念です。

両者とも、自己認識と学習への姿勢において重要な役割を果たします。
この説明についてさらに詳しく知りたい点がありますか?


図:無知の知と不知の自覚のイメージ(左 DALL-E3 右 Imagen3)

納富先生曰く
今日それは、私たちの頭脳の中に宿り、あるいは、注入されたり蓄積されたり消去されたりする事物のように扱われている「情報」という曖昧な概念が「知識」に等価と見なされ、人のあり方から切断されて扱われる傾向も生じている。知識は量の多寡で判断され、とりわけ個別の断片的命題の蓄積が知識と等値される。情報はデータとして蓄積される以上、知識の主体はもはや人ではなくコンピュータやICチップでも構わない。総じて、そういった情報を使いこなす術が「知」と思いなされている。[1]
そうか・・・これが正に自分の「知識」理解だった。さらにその後に続くのは,
ソクラテスが基本的に「知らない」とするのは、「善、美、正義」といった「大切な事柄」についてであり、「死、ハデス」についての不知の表明もそれに含まれる。他方で、日常の経験的事実認識はもとより、技術もそのまま認められ、知として尊重されている。「知」を問うことで問題となっているのは、生を成り立たせる根本概念であった。[1]
うーん,なかなか奥が深いので,自分の考えが足りないまま50年経過したということだけは確かなようだ。

[2]知の一様式としての知らない(池田光義)

2024年9月26日木曜日

ChatGPT Advanced Voice Mode

OpenAIがChatGPTのスピーチモードを改良して,アドバンスト・ボイス・モードとした。平均反応速度が0.3秒とこれまでに比べてかなり速いため,普通の人間の会話と同様のスピードで応答することができる。日経夕刊によれば,日本語や韓国語など50以上の言語に対応して,有料サービス利用者を対象に,9月24日から使えるようになった。

早速iPhoneのChatGPTで試して見たのが次のものだ。会話記録はテキストとして保存され,パソコン側のChatGPTからも参照することができた。会話スピードは本当に改善されている。ただし,画像アップロードは,日本のiPhone環境ではまだ未実装なのかもしれない。

koshix:“あなたはアドバンストですか?” 00:02

ChatGPT:
いいえ、私はAdvanced ChatGPTではなく、ChatGPTです。でも、様々な情報や質問にお答えすることができますよ。何かお手伝いしましょうか?

koshix:“アドバンススピーチではないのですか?” 00:02

ChatGPT:
はい、私は「Advanced SPeeCH」ではなく、「ChatGPT」です。しかし、さまざまな話題に対応できるようにトレーニングされているので、何でも聞いてください。

koshix:“9月24日から使えるようになったバージョンではないのですか?” 00:05

ChatGPT:
私はChatGPTですが、2024年9月24日から利用可能となった新しいバージョンの一部である可能性があります。何か特定の質問や相談があれば、お気軽にお聞きください。

koshix:“今日は何日ですか?” 00:01

ChatGPT:
今日は2024年9月25日です。

koshix:“ここはどこですか?” 00:01

ChatGPT:
ここは、あなたがChatGPTとお話ししている仮想空間です。スマートフォンやコンピュータを通じて、私と会話しているんですよ。

koshix:“私は物理世界ではどこにいるかわかりますか?” 00:04

ChatGPT:
申し訳ありませんが、私にはあなたの物理的な場所を特定する能力はありません。あなたのプライバシーを保護するために、そのような情報は収集していません。 
koshix:“よくわかります。” 00:01

ChatGPT:
ありがとうございます。他に何か気になることや質問があれば、何でも聞いてくださいね。

koshix:“あなたは画像イメージを見ていろいろ考えることができますか?” 00:05

ChatGPT:
はい、画像を見て、その内容に基づいて情報を提供することができます。何か特定の画像について知りたいことがあれば、どうぞお知らせください。

koshix:“あなたに画像を提供する方法を教えてください。” 00:03

ChatGPT:
iOSアプリをご利用の場合、画面下部にある写真アイコンをタップすると、画像をアップロードできます。ぜひ、試してみてください!

koshix:
“今、会話しているこの画面には画像アイコンが見えないのですけれども” 00:05

ChatGPT:
それは失礼いたしました。お使いの環境によっては、画像アップロードのオプションが表示されない場合もあります。この場合、私が画像を確認することはできませんが、何かほかにお手伝いできることがあれば、お気軽にお知らせください。
対話画面は,これまでのような白黒の画面ではなくて,ブルースカイのような画面だった。


写真:ChatGPT Advanced Voice Mode (iPhone画面から引用)

OpenAIはもう危ないとか,サム・アルトマンは大丈夫かとかいろいろいわれているが,今のところまだトップランナーを走っている。そうこう言っているうちに,CTO のミラ・ムラティも退社している。大丈夫か。


2024年9月25日水曜日

知性のエコシステム

知性の物理学からの続き

自由エネルギー原理はやっぱりちゃんと勉強しておいたほうがいいような気がしてきた。
Q(koshix):
この内容をできるだけかみ砕いて具体的な事例をあげながら説明してください。

A(ChatGPT-4o):
この文書は、自由エネルギー原理(FEP)と能動推論(AIF)に関する解説です。これらは、脳が環境を認識し、行動を決定するプロセスを説明する理論であり、人工知能(AI)の設計にも影響を与える概念として紹介されています。以下、重要なポイントを具体的な例を交えて簡潔に説明します。

1.自由エネルギー原理(FEP)とは何か?
FEPは、脳が自分の内部状態と外部の環境の間に整合性を保つための理論です。脳は環境に基づく予測を行い、その予測と実際の観測との「誤差(サプライズ)」を最小化しようとします。この「誤差」を少なくするために、脳は環境を学習し、行動を調整します。

具体例:例えば、あなたが手を伸ばしてコップを掴もうとする時、脳は「手がコップに触れる」という予測を立てています。しかし、もし手がコップに届かなければ、それは脳にとって「サプライズ」です。この誤差を最小にするため、脳は手の動きを修正し、コップを正確に掴もうとします。

2.能動推論(AIF)とは何か?
AIFは、FEPを基にした行動生成のモデルです。FEPは単なる脳の認識プロセスを説明するだけでなく、行動をどのように決定するかも説明します。脳は、予測と実際の感覚とのギャップを埋めるために行動を生成します。

具体例:例えば、寒いと感じる時、脳は「体温を上げるべきだ」と判断し、震え始めます。この震えは筋肉を動かして体温を上げるための行動で、これによって「寒さ」という予測誤差を最小化しようとしているのです。

3.FEPとAIへの応用
FEPの考え方は、AIにも応用されています。AIは、環境を観測し、その観測結果に基づいて行動を決定します。FEPをAIに適用することで、環境に対して適応的な行動を取るAIの設計が可能になります。AIが環境の変化に素早く適応し、予測誤差を最小化しようとするシステムです。

具体例:自動運転車が道を走る際、カメラやセンサーで道路状況を観測し、障害物を回避しながら進む行動をします。FEPを取り入れたAIは、車が「進むべき経路」を予測し、もしその予測が間違っていれば、障害物を避けるために経路を修正します。

4.能動推論と最適制御の違い
FEPに基づく能動推論は、最適制御理論と似ていますが、いくつかの違いがあります。最適制御では、事前に決められた目標に向かって行動を最適化しますが、AIFはもっと柔軟で、予測誤差を最小化するために行動そのものを調整します。

具体例:最適制御では、ロボットが正確に決められた動きで物体を持ち上げるように設計されると考えます。しかし、AIFを使った場合、ロボットは物体を持ち上げる最適な動きを「自ら学習」し、必要に応じて動きを変えます。

まとめ
FEPとAIFは、脳やAIが環境をどのように認識し、どのように行動を決定するかを説明する理論です。これらの理論は、AIの設計においても重要な示唆を与えており、特に複雑な環境で柔軟に対応できるAIの設計に役立ちます。

この文書は、AIの設計に興味がある方にとって非常に興味深い内容となっており、脳の仕組みを模倣した次世代のAI設計に向けた重要なステップを示しています​。


Q(koshix):
先ほどの説明を前提にした上で,新しく追加した論文の内容を同じように
分かりやすくかみ砕いて事例を挙げながら説明してください。

A(ChatGPT-4o):
新しい論文の内容も、前提となる「自由エネルギー原理(FEP)」と「能動推論(AIF)」を基盤にしています。この論文では、特にエコシステムとしての知性について議論されています。簡潔に、具体的な事例を挙げながら、分かりやすく説明します。

1.エコシステムとしての知性とは?
この論文は、人間の知性と人工知能(AI)が共同して機能する「知性のエコシステム」を提案しています。ここでの「知性」とは、環境の変化に適応し、自分自身の存在を裏付ける情報を集めるプロセスを指します。この考え方は、単一のAIや人間の知性を超えて、複数の知性がネットワークとして協力することで新しい形の知性を生み出すことを意味しています。

具体例:例えば、都市のスマート交通システムでは、各車両がセンサーで道路状況を観測し、信号機や他の車両とリアルタイムで通信します。これにより、各車両が環境に応じて最適な行動を取ることができ、交通渋滞や事故のリスクを減らします。このようなシステムでは、車両、信号機、センサーなどが協力して動く「知性のエコシステム」となっています。

2.能動推論とマルチスケールAI
論文では、AIシステムを複数のスケールで設計する重要性が強調されています。能動推論は、単一のAIが複数のタスクを行うのではなく、複数のAIが異なる役割を持ちながら協力するためのフレームワークとして説明されています。異なるスケールで情報を処理し、それを統合することで、より柔軟で効率的な知性が生まれると考えられています。

具体例:自律ロボットがある工場内で働くと仮定しましょう。一部のロボットは原材料を運び、別のロボットは製品を組み立て、さらに別のロボットは品質管理を担当します。これらのロボットはそれぞれ異なるスケールのタスクを処理しますが、全体として効率よく生産を行うためには、お互いに情報を共有し、協力し合う必要があります。能動推論は、これを可能にする理論です。

3.AIの学習と不確実性の解消
この論文は、AIが自身の不確実性をどのように管理するかについても議論しています。AIは自分が持っているデータに基づいて世界を理解しますが、その理解には不確実性が伴います。この不確実性を減らすために、AIは新しいデータを集め、モデルを更新します。

具体例:自動運転車が雨の日に走行する場合、カメラで路面の状況を観察しますが、視界が悪くなるため、不確実性が増します。AIは、この不確実性を解消するために、より多くのセンサーから情報を集め、路面の状態に基づいてスピードを調整したり、車線変更を判断します。

4.共有知性とコミュニケーション
論文では、複数の知性が協力する際には、共通の「生成モデル」を共有することが重要だとしています。これは、AI同士が互いに理解し合い、共同で行動するための枠組みです。これにより、個々のAIが独立して動作するだけでなく、集団として新しい知性を生み出すことが可能になります。

具体例:あるプロジェクトチームがAIを使って研究開発を行う場合、各メンバーのAIは異なるデータを扱っているかもしれません。しかし、全員が同じ目標(例えば、最も効率的な新素材の開発)に向けて動いていると、個々のAIの成果を統合し、新しい知見を得ることができます。

5.AI倫理と社会的影響
知性のエコシステムを設計する際には、倫理的な配慮も必要です。AIが人間の価値観と一致する形で行動することが重要であり、特に複数のAIが協力するシステムでは、偏見や誤った判断が広がるリスクがあります。

具体例:AIが採用プロセスで使われる場合、過去のデータに基づいて判断を行うと、過去の偏見が引き継がれる可能性があります。このため、AIが透明で公平な判断を行うためのルールを設け、社会的に有害な影響を避けることが重要です。

まとめ
この論文は、AIが単独で機能するのではなく、複数のAIが協力し合う「知性のエコシステム」を作り出すことの重要性を説いています。能動推論を基盤にすることで、AIは不確実性を減らし、複雑な環境に適応しながら共同で問題を解決する能力を持つようになります​。



図:知性のエコシステムのイメージ(DALL-E3による)

2024年9月24日火曜日

知性の物理学

茂木健一郎のPIVOTチャンネルが,「生成AIを丸裸にする知性の物理学」というタイトルで,ハーバード大学脳科学センターで知性の物理学プログラムを主催している田中秀宣さんを招いて対談をしていた。とても刺激的で良かったのだけれど,今一つ具体性にかけて空振りが続く試合だった。そういえば,東大理学部物理にも統計力学の樺島祥介さんが主催する「知の物理学研究センター」というのがあったね。
Q(koshix):
知性の物理学 Physics of Intelligence について教えてください。
専門用語を避けずに説明して見てください。多角的な視点はOKです。

A(Gemini 1.5 PRO)
知性の物理学:専門用語を交えた多角的な解説
「知性の物理学」とは、従来、哲学や心理学の領域であった「知性」を、物理学の厳密な枠組みで理解しようとする学際的な研究分野です。近年、人工知能の発展や脳科学の進歩を背景に、急速に注目を集めています。

1.知性の物理学の目的
知性の本質の解明:知性を、単なる情報処理ではなく、物理的な現象として捉え、その本質を明らかにすることを目指します。
人工知能の限界と可能性:人工知能のさらなる発展のために、人間の知性の仕組みを解明し、それを模倣する技術開発を目指します。
脳科学との連携:脳イメージング技術などの進歩を活かし、脳内の情報処理メカニズムと知性の関係を解明します。

2.知性の物理学における主要なアプローチ
神経回路網の物理モデル:脳の神経回路網を、物理学のモデルを用いて記述し、学習や記憶といった高次脳機能をシミュレーションします。
情報熱力学:情報処理とエネルギー消費の関係を、熱力学の法則に基づいて考察し、知性の効率的な実現を目指します。
量子脳理論:量子力学的な現象が、意識や創造性といった高次の認知機能に関わっている可能性を探求します。

3.知性の物理学が扱う概念
複雑系:脳は、多数の要素が複雑に相互作用する複雑系であり、そのダイナミクスを理解することは大きな課題です。
エマージェント現象:個々の要素の性質だけでは説明できない、全体として現れる新たな性質を指します。知性は、脳の複雑系からエマージェントに現れる現象と考えられます。
計算論的神経科学:脳の情報処理を、計算論的な視点から解析し、神経回路網の機能をモデル化します。

4.知性の物理学が抱える課題
意識の問題:意識の起源や本質は、哲学、神経科学、物理学など、様々な分野で議論されている難問です。
測定の問題:脳の活動を直接観測することは困難であり、間接的な方法を用いる必要があります。
モデルの複雑性:脳の機能を完全に再現できるようなモデルを構築することは、非常に困難です。

5.知性の物理学の将来展望
汎用人工知能の実現:人間の知能に匹敵する、あるいはそれを超える人工知能の開発が期待されます。
脳疾患の治療:脳のメカニズムの解明は、アルツハイマー病や統合失調症などの脳疾患の治療法開発につながる可能性があります。
人間理解の深化:知性の物理学は、人間がどのように思考し、学習し、創造性を発揮するのかをより深く理解するための新たな視点を提供します。

6.より専門的な用語
相転移:物質の状態が、ある特定の条件下で急激に変化する現象。脳の学習過程における相転移が注目されています。
自由エネルギー原理:脳が、外界の情報と内部モデルとの間の不一致を最小化するように機能するという仮説。
結合係数:神経回路網において、ニューロン間の接続の強さを表すパラメータ。学習によって変化します。

知性の物理学は、物理学、脳科学、コンピュータサイエンスなど、多岐にわたる分野の研究者が集結し、共同で研究を進めている最先端の学問分野です。
この分野の研究は、人間の知性の謎を解き明かすだけでなく、人類の未来を大きく変える可能性を秘めています。 

図:知性の物理学のイメージ(Imagen3に拒否られ,DALL-E3に描かせたもの)


結局なんだかよくわからないのであった。神経網が生成する人間の知性と,ニューラルネットが生成するAIを同じ土俵の上に上げて,後者は単に設計された機械(もしくはソフトウェア)ではなくて,物理的な現象としての創発過程として理解しようという話だ。というのも,生成AIがこのようにうまく機能している状態がそもそもよく理解できていないからである。とにかく計算リソースをつぎこんで適当にダイヤルを回しているうちに動いてしまったようなこと。

その上で,これを知性の物理学というからには,知性とは何かを定量的に捉えて,測定可能な量を用いて定義する必要があるのだけれども,そのあたりは十分説明されていない。すなわち何らかの主導原理的なストーリーがなくて,あるいは鍵となる仮説や実験事実の背景がないままに,妖しいキーワードとしての,脳科学,量子脳理論,複雑系が多用されるのはちょっとかんべんしてほしいかなあ。

あと,ハーバードやMITが西海岸と違って,より理学部的にアプローチしているという話はわからなくもなかったが,医学・生理学とのつながりを重視する方向に傾きすぎているのではないかという気もした。いや,もちろんそちら側に正解があるのかもしれないけれど,どうなのだろうか。



2024年9月22日日曜日

OpenAI o1(4)

OpenAI o1(3)からの続き

引き続き,o1 のプログラミング能力について検証してみよう。数学体感教室2024の問題3を一般化したものについて,o1-mini に Julia プログラムを作成させた。1回目は関数定義が重複するエラーが出ていたので,そのエラーコードを読ませると,2回目には正しい答えが得られた。
Q(koshix):
$a_i \ (i=1 ... n) $が正の整数であり,$n$個の$a_i$の組 $(a_1, a_2,  ..., a_n)$ 最大公約数は1であるとする。
$a_1/a_2=k_1,\  2*a_2/a_3=k_2, \ 3*a_3/a_4=k_3,\  ... (n-1)*a_{n-1}/a_n \\ =k_{n-1},  n*a_n/a_1 = k_n $において,$(k_1, k_2, ... k_n)$ は整数となって,$k_1*k_2*k_3*...*k_{n-1}*k_n = n!$ が成り立つ。
$n$を与えたときに,上記の条件を満足する$(k_1, k_2, ..., k_n)$ の組の数 $b_n$ を求める Julia プログラムを作成せよ。
このプログラムを用いて,$ b_1, b_2, ..., b_8$ の値を計算せよ。

A(OpenAI o1-mini 思考時間29秒):
以下に、与えられた条件を満たす $(k_1, k_2, ..., k_n)$の組の数 $b_n$ を計算する Julia プログラムを示します。このプログラムは、各 $n$に対して $n!$ の素因数分解を行い、各素数の指数を用いて組み合わせの数を計算します。

アプローチ
1.素数の列挙:各 $n$ に対して,$n!$ の素因数分解に必要な素数を列挙します。
2.指数の計算:各素数 $p$ について,$n!$ 中の $p$ の指数 $e_p$ を計算します。
これは,$\lfloor \dfrac{n}{p} \rfloor + \lfloor \dfrac{n}{p^2} \rfloor +\lfloor \dfrac{n}{p^3} \rfloor +\cdots $で求められます・
3.組み合わせの計算:各素数 $p$ に対して,$\binom{n+e_p-1}{e_p}$を計算します。これにいおり,$e_p$ 個の指数を $k_i$ に分配する方法の数が求まります。
4.総数の計算:すべての素数についての組み合わせの数を掛け合わせることで、総数 $b_n$ を得ます。

Julia プログラム(修正版)
以下のJuliaプログラムは、上記のアプローチに基づいて $b_n$ を計算します。

# Primes.jl パッケージのインポート
import Primes: primes

# n! における素数 p の指数を計算する関数
function exponent_in_factorial(n::Int, p::Int)::Int
    exponent = 0
    power = p
    while power <= n
        exponent += div(n, power)
        power *= p
    end
    return exponent
end

# b_n を計算する関数
function calculate_b(n::Int)::Int
    if n == 0
        return 1
    end
    
    # n >= 2 の場合のみ素数を取得
    if n >= 2
        primes_list = Primes.primes(2, n)
    else
        primes_list = Int[]  # 空の配列
    end
    
    total = 1
    for p in primes_list
        e_p = exponent_in_factorial(n, p)
        # 組み合わせの計算
        total *= binomial(n + e_p - 1, e_p)
    end
    return total
end

# b_1 から b_8 までを計算して表示
for n in 1:8
    bn = calculate_b(n)
    println("b_$n = $bn")
end

プログラムの説明
・exponent_in_factorial 関数:与えられた $n$ と素数 $p$ に対して,$n!$ の中の $p$ の指数を計算します。
・calculate_b 関数:与えられた $n$ に対して,$b_n$ を計算します。まず,$n$ 以下の素数を取得し、各素数についての組み合わせの数を計算して掛け合わせます。
・メインループ: $n=1$ から $n=8$ までの $b_n$ を計算し,結果を表示します。

実行結果
上記のプログラムを実行すると、以下のように $b_1$ から $b_8$ までの値が得られます。
$b_1 = 1$
$b_2 = 2$
$b_3 = 9$
$b_4 = 80$
$b_5 = 875$
$b_6 = 15876$
$b_7 = 288120$
$b_8 = 7907328$
これにより、各 $n$ に対して条件を満たす $(k_1, k_2, ..., k_n)$ の組の数 $b_n$ を効率的に計算することができます。
このプログラムは,Mathematicaだとより簡潔に表現できる。これは,もとの関数を2つ与えた上で,ChatGPT-4oに作ってもらった。エラーが出ていたが,3回目の修正で正しい答えに到達した。
f[n_] := FactorInteger[n!]
g[n_, k_] := Binomial[n + k - 1, k]
h[n_] := 
 Module[{factors = f[n], product = 1}, 
  Do[product *= g[n, pair[[2]]], {pair, factors}];
  product]
a = Table[h[k], {k, 1, 8}]
ListPlot[Log[a]] 
{1, 2, 9, 80, 875, 15876, 288120, 7907328} 

図:n=1-8 に対するh[n] の対数のListPlot(Mathematica)

2024年9月21日土曜日

OpenAI o1(3)

OpenAI o1(2)からの続き

前回の真鍋さんのMIPOの次の問題にチャレンジしたところ,OpenAI o1から正解は出てこなかった。とりあえず,自力で考えてみようとしたら,なかなか頭が働かない。次のような整数問題だ。
Q(koshix):
最大公約数が1である正の整数の組(a1,a2,a3,a4,a5,a6)であって, k1=a1/a2, k2=2*a2/a3, k3=3*a3/a4, k4=4*a4/a5, k5=5*a5/a6, k6=6*a6/a1 として,(k1, k2, k3, k4, k5, k6) がすべて 整数であるようなものはいくつあるか。
答えは6と出たが,正解は,15876 (=126^2) なのだった。実は,自分もAIと同じ間違いをしていて,すべてのa_i の組が互いに素であると思い込んでいた。そうではなくて,(a1, a2, a3, a4, a5, a6)の6つの数の最大公約数が1という条件なのだ。

つまり,k1*k2*k3*k4*k5*k6=6!=720を6つの正の整数(k1,k2,k3,k4,k5,k6)の積に分解する場合の数を求めればよい。つまり,720を素因数分解した 2^4*3^2*5 の各指数のべきを6つの箱に分配する場合の数(重複組み合わせ)の積になり,6H4*6H2*6H1=126*21*6=15876 である。

計算方法はわかったが,これが正しいためには,(a1,a2,a3,a4,a5,a6)と(k1,k2,k3,k4,k5,k6)が一対一対応する必要がある。その証明を OpenAI o1にきいて見よう。

Q(koshix):
a_i (i=1 ... n) が正の整数であり,(a_1, a_2 ..., a_n) の組の最大公約数は1であるとする。
a_1/a_2=k_1, 2*a_2/a_3=k_2, 3*a_3/a_4=k_3, ... (n-1)*a_{n-1}/a_n=k_{n-1}, n*a_n/a_1 = k_n 
において,(k_1, k_2, ... k_n) は整数となって,k_1*k_2*k_3*...*k_{n-1}*k_n = n! が成り立つ。
このとき,一つの(k_1, k_2, ... k_n) に対して必ず一つの(a_1, a_2 ..., a_n) が対応することを証明してください。

A(OpenAI o1)
証明:
まず、与えられた条件から $ a_i $ を $ k_i $ を用いて表現します。

ステップ1:$ a_i $ を $ k_i $ と $ a_1 $ で表す
最初の方程式から始めます。
1. $\dfrac{a_1}{a_2} = k_1$  ⇒  $ a_1 = k_1 a_2 $
2. $\dfrac{2a_2}{a_3} = k_2$  ⇒  $ a_3 = \dfrac{2a_2}{k_2} $
3. $\dfrac{3a_3}{a_4} = k_3$  ⇒  $ a_4 = \dfrac{3a_3}{k_3} $
   ⋮
このパターンを一般化すると、
$ a_i = \dfrac{(i-1)! \, a_1}{\prod_{j=1}^{i-1} k_j} $
となります。

ステップ2:最後の方程式を利用して $ k_n $ を表す
最後の方程式は
$\dfrac{n a_n}{a_1} = k_n$
これに $ a_n $ の表現を代入すると、
$ \dfrac{n \cdot \dfrac{(n-1)! \, a_1}{\prod_{j=1}^{n-1} k_j}}{a_1} = k_n \Rightarrow \dfrac{n!}{\prod_{j=1}^{n-1} k_j} = k_n $
したがって、$ k_1 k_2 \cdots k_n = n! $ が成り立ちます。

ステップ3: $ a_i $ の一意性の証明
$ a_i $ を $ a_1 $ と $ k_i $ で表すことができましたが、$ a_i $ が整数であるためには、$ a_1 $ が適切な値である必要があります。具体的には、すべての $ a_i $ が整数となる最小の $ a_1 $ を見つけます。
各 $ a_i $ に対して、分母となる $ \dfrac{\prod_{j=1}^{i-1} k_j}{(i-1)!} $ が存在します。すべての $ a_i $ が整数となるためには、$ a_1 $ がこれらの分母の最小公倍数(LCM)の倍数である必要があります。
すなわち、
$ a_1 = \operatorname{lcm}\left(1, k_1, \dfrac{k_1 k_2}{2}, \dfrac{k_1 k_2 k_3}{6}, \dots, \dfrac{k_1 k_2 \cdots k_{n-1}}{(n-1)!}\right) $
この $ a_1 $ を用いると、すべての $ a_i $ は一意に定まります。

ステップ4:最大公約数が1であることの確認
もし他に $ a_i' $ という解があると仮定すると、比 $ \dfrac{a_i}{a_i'} $ はすべて等しくなります。しかし、$ \gcd(a_1, a_2, \dots, a_n) = 1 $ であるため、この比は1でなければなりません。したがって、$ a_i = a_i' $ となり、一意性が証明されます。

結論
以上より、与えられた $ (k_1, k_2, \dots, k_n) $ に対して、一意な $ (a_1, a_2, \dots, a_n) $ が存在することが証明されました。よって、一つの $(k_1, k_2, ..., k_n)$ に対して必ず一つの $(a_1, a_2, ..., a_n)$ が対応します。
なるほど,素晴らしい。ちょっと気になったのは,分母である$ \dfrac{\prod_{j=1}^{i-1} k_j}{(i-1)!} $ が必ず整数なのかどうかである。具体的に試して見ると,必ずしも整数にならない場合がある。そんなときは,分母を形成する有理数の分子だけに着目して最小公倍数を考えれば良い。分母の有理数の分母は元の数の分子に回るだけだからである。そんなわけで,多少詰めが甘いような気がするけれど,ここまで推論できれば大したものである。


2024年9月15日日曜日

コンカフェ

コンカフェ
〔名〕(コンセプトカフェ Concept Cafe の略)
①特定のテーマやコンセプトに基づいた特色ある飲食店。メイド喫茶猫カフェ、漫画・アニメのキャラクターをモチーフとしたカフェなどが代表的。飲食の提供に加え、店員の衣装や店内の装飾、演出を通じて非日常的な体験を提供することが特徴。
コスプレ系飲食店(参考:カフェー)  (ChatGPT-4oより)

 漫才の草稿をChatGPT-4oとClaude 3.5 Sonnetに直列でかけた結果は次のとおり。

阿: このまえ、コンカフェ行ってきましてね。

吽: コンカフェ?

阿: あれ、コンカフェ知らん?

吽: コンカフェ…あぁーん、「婚活カフェ」のことやな?

阿: ちゃうがな!「コンセプトカフェ」やがな!

吽: ああ、そうか!…って、それ、なんやのん?

阿: 知らんのかいな!きみ、「メイドカフェ」は知ってるやろ?

吽: あぁ、毎日その前通ってるわ。メイドさんが「お帰りなさいませ、ご主人様~」言うてくれる店やろ?

阿: そうそう!その「メイド」をいろんなものに変えたんが「コンセプトカフェ」や。

吽: いろんなもんって、たとえば何に変わるん?

阿: 例えば、お姫さま、忍者、執事とかのコスプレやな。

吽: へぇ~、忍者カフェとか面白そうやな。どんなことするん?

阿: 忍者の格好したスタッフが目の前で手裏剣投げたりすんねん!

吽: えぇ!それ、めっちゃ危険やん!「ドリンクお待たせしました~」って言いながら手裏剣飛んできたら命懸けやん!

阿: そんなん言うけど、ほんま安全に配慮してるんやで?

吽: 配慮しても手裏剣は飛んでくるな!せめてドリンク頼んだら水遁の術で水出してくれんと!

阿: そんなんやったら「席流されます~」やんけ!

吽: まぁ、そうやな。ほな、ウチらも「漫才カフェ」とかやったらどうや?

阿: 漫才カフェ?どんなんやねん、それ。

吽: 客が漫才見ながら、コーヒー飲んで笑うんや。そんで、ウチらがネタやってな、あとは手裏剣投げたり…

阿: いや、それ結局忍者カフェと変わらんやないか!

吽: ほな、水遁の術で…

阿: もう、やめとけ!そんなん誰も来んわ!

吽: えぇ~、でも面白そうやん。

阿: お前、そんなんやったら客全員逃げ出すで!結局、普通のカフェがええんやって!

吽: そうか…ほな、普通のカフェで、ただウチらが店員やるってのはどうや?

阿: それ、もう「漫才カフェ」やなくて「ボケカフェ」やな!

 


図:コンカフェの例(DALL-E3による)

2024年9月14日土曜日

OpenAI o1(2)

OpenAI o1(1)からの続き

昨日の問題を,他の生成AIにも解かせてみた。「 a<b<c をみたす正の整数の組(a,b,c)であって, a^2-2005a > b^2-2005b > c^2-2005c が成り立つものはいくつあるか。(正解は334334000個) 」というものだ。(元の問題は20005だったが,入力ミスで2005にしてしまった。)

PlamoやClaudeは国語はできるけど,数学が不得意な生徒のような答えだ。Perplexityは数学的な推論ではなくてプログラミングで解決しようとしたが,プログラムはちょっと間違っている。
(1) Genspark 解答:解は存在しない。
f(x) = x^2-2005xのピークと増減までは理解している。

(2) Perplexity 解答:83個。
解をアルゴリズムを提案し,pythonコードを与える。
これで計算するように指示した実行結果がこれ。

(3) ChatGPT-4o 解答:1個
f(x) = x^2-2005xのピークと増減までは理解している。

(4) Gemini 解答:2個
f(x) = x^2-2005xのピークと増減までは理解している。

(5) Claude 解答:1個
f(x) = x^2-2005xのピークと増減までは理解している。

(6) Plamo 解答:124個
説明が日本語的で,そもそものロジックがあやしい。

 

GPT-4oに推論時間スケーリングに関する論文を 解説してもらうと,

Q(koshix):
この内容を分かりやすく説明してください。OpenAI o1 との関係についても言及してください。

A(ChatGPT-4o):
この論文「Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters」では、大規模言語モデル(LLM)のテスト時計算をどのように効率的に拡張できるかについて論じています。具体的には、モデルのパラメータ数を単に増やすよりも、テスト時に追加の計算を投入する方が、難しいタスクでのモデルのパフォーマンスを向上させるのに効果的である可能性があることを示しています。

主なポイントは次の通りです:

1.テスト時の計算拡張
   - テスト時に追加の計算能力を使うことで、より複雑な質問や問題に対する解答の質を向上させることができます。たとえば、複数の回答を生成して、その中から最も適切なものを選ぶ「Best-of-N」戦略を使うことで、より正確な解答が得られることが示されています。

2.テスト時の計算と学習時の計算のトレードオフ
   - テスト時の計算を効果的に使用することで、より大きなモデルや大量の学習を必要としない場面もあることがわかりました。特に簡単な問題や中程度の難易度の問題では、モデルのパラメータを増やすよりも、テスト時の計算にリソースを割く方が効果的です。

3.問題の難易度に応じた計算資源の配分
   - 問題の難易度に応じて、テスト時にどのような計算を行うべきかを動的に決定する「compute-optimal strategy(計算最適戦略)」を提案しています。簡単な問題では、モデルがすでにある程度正しい答えを出すので、答えを少し修正するだけで良い場合が多いですが、難しい問題では、より大規模な探索が必要となることが示されています。

 OpenAI o1 との関係
この論文に直接「OpenAI o1」というモデルが登場しているわけではありませんが、OpenAIが取り組んでいるLLM技術全般に関連しています。特に、GPT-4やそれ以降のモデルでも、テスト時の計算や推論の改善が重要視されており、この論文で述べられている「テスト時の計算拡張」は、OpenAIの研究テーマにも深く関係していると考えられます。

2024年9月13日金曜日

OpenAI o1(1)

GPT-4oからの続き

今年の5月にOpenAIがGTP-4oをリリースした。試してみるとなかなか良かったので,早速ChatGPT を再サブスクリプションしてから4ヶ月が経過した。ところが,この業界は流れが速いので,いつの間にかChatGPT-4oは取り残されつつあった。Claude 3.5 Sonnet がいいとか,Gemini 1.5 Proも使えるようになったとか,Perplexity やGenspark が最高だ!とか,他にも NapkinAI やらGammasやら話題が目白押し。ChatGPT一強から,これらの組み合わせによる群雄割拠の世界になってきた。

GPT-4oはわりと大きなファイルを読み込め,イメージも生成できるので,まだ,若干のアドバンテージはあったのだけれど,ネット上ではそろそろ解約するかという話題が湧き出して液状化現象を呈していた。さあ,そこに登場したのが,OpenAI o1 だ。OpenAIからのリリース文をGeminiに要約させると次のようなものだった。
OpenAIは、複雑な問題を解く能力に特化した新しいAIモデルシリーズ「OpenAI o1-preview」を発表しました。 このモデルは、問題解決に時間をかけ、より深く思考することで、従来のモデルよりも複雑なタスクをこなせるようになっています。特に、科学、コーディング、数学といった分野で高い能力を発揮し、国際数学オリンピックの予選問題を83%の正解率で解くなど、驚異的な成果を上げています。

o1-previewは、人間のように思考する過程を模倣するように訓練されており、様々な戦略を試したり、自身の誤りを認識したりすることができます。 ただし、現時点ではChatGPTのような一般的な機能は備わっていません。

安全性についても、OpenAIは新たな対策を講じています。 例えば、ユーザーが安全な範囲を超えた質問をしても、o1-previewがそれに従わないようにする仕組みが強化されています。また、外部の研究機関と協力し、モデルの安全性評価を行っています。

OpenAIは、o1-previewが科学やエンジニアリング分野における複雑な問題解決に貢献すると期待しています。 例えば、医療研究者が遺伝子データを解析したり、物理学者が複雑な方程式を解いたりする際に、このモデルが役立つ可能性があります。
o1-previwと簡易版でより高速な o1-mini が有料ユーザ向けに公開されていたので,すぐに使うことができた。ただし,o1-previewは 30回/週,o1-miniは 50回/週の上限が定められていた。o1は必ずしもChatGPT-4o の延長線上に位置するわけではないようだ。これらの試みがどこかで次のプレAGIモデルに統合されるのかもしれない。


早速試してみるべく,OpenAIにあった見本をそのまま実行してみた。問題は次の通りである。
$\mathcal{B}$ を表面積が 54,体積が 23 の直方体の集合とします。
$r$ を、集合 $\mathcal{B}$ の各直方体を内包できる最小の球の半径とします。
$r^2$ の値は、互いに素な正の整数 $p$ と $q$ を用いて $\frac{p}{q}$ と表すことができます。$ p + q$ を求めなさい。
推論プロセスが順次進行し,思考時間TT=105秒で正しい答えがでてきた。うーん,どうやら自分よりは賢そうである。ちょっと太刀打ちできないかもしれない。ただ,OpenAIのプレスリリースについて要約を求めると次のような答えであり,ChatGPT-4oほど融通がきかなかった。
申し訳ありませんが、2023年10月までの知識では指定されたURLや「OpenAI O1プレビュー」に関する情報を持っておりません。しかし、OpenAIのサービスや製品についてご質問があれば、できる限りお手伝いいたします。

真鍋さんのMIPOのページで,朝日新聞の数学体験教室の問題を解いていたので,こちらを与えてみることにする。
Q(koshix): a<b<c をみたす正の整数の組(a,b,c)であって, a^2-2005a > b^2-2005b > c^2-2005c が成り立つものはいくつあるか。

A(OpenAI o1 TT=24秒): 問題を解くために,a > b > c,a^2−2005a < b^2−2005b < c^2−2005c を満たす正の整数の組 (a,b,c) を求めます。 
 まず,関数 f(x)=x2−2005x を考えます。この関数の挙動を理解することが重要です。極値を求めるために,導関数を計算してゼロと等しくします: f'(x)=2x−2005=0⟹x=1002.5 
これは,f(x) が x≤1002.5 のとき減少し,x≥1002.5 のとき増加することを意味します。 
したがって: 
整数 x≤1002 の範囲では,f(x) は減少関数です。 
整数 x≥1003 の範囲では,f(x) は増加関数です。
 a > b > c であり, f(a) < f(b) < f(c) を満たすためには,a,b,c ≥ 1002 でなければなりません。これは, f(x) がこの範囲で減少するためです。
もし a,b,c ≤ 1003 であれば,f(x) は増加するので、不等式 f(a) < f(b) < f(c) は成立しません。
したがって、求める組の数は,1から1002までの整数から異なる3つの整数を選ぶ組み合わせの数になります。これは組み合わせの公式で計算できます: 
 組の数=1002_C_3=1002×1001×1000 / 3×2×1 これを計算すると:
答え:167,167,000 
 この計算は正しいです。
おしい。 ほとんど正しいのだけれど,c' = 2005-c の点も条件を満たすので,この答えの2倍が正解となっている。それでも,ここまでの推論ができるのはすごいわ。どうやら,推論時間に関するスケーリングの発見がキモらしいので,これからますます,GPUパワーが必要になるのか・・・