On a Thread of the Web: OpenAI o1（１）

GPT-4oからの続き

今年の5月にOpenAIがGTP-4oをリリースした。試してみるとなかなか良かったので，早速ChatGPT を再サブスクリプションしてから4ヶ月が経過した。ところが，この業界は流れが速いので，いつの間にかChatGPT-4oは取り残されつつあった。Claude 3.5 Sonnet がいいとか，Gemini 1.5 Proも使えるようになったとか，Perplexity やGenspark が最高だ！とか，他にも NapkinAI やらGammasやら話題が目白押し。ChatGPT一強から，これらの組み合わせによる群雄割拠の世界になってきた。

GPT-4oはわりと大きなファイルを読み込め，イメージも生成できるので，まだ，若干のアドバンテージはあったのだけれど，ネット上ではそろそろ解約するかという話題が湧き出して液状化現象を呈していた。さあ，そこに登場したのが，OpenAI o1 だ。OpenAIからのリリース文をGeminiに要約させると次のようなものだった。

OpenAIは、複雑な問題を解く能力に特化した新しいAIモデルシリーズ「OpenAI o1-preview」を発表しました。このモデルは、問題解決に時間をかけ、より深く思考することで、従来のモデルよりも複雑なタスクをこなせるようになっています。特に、科学、コーディング、数学といった分野で高い能力を発揮し、国際数学オリンピックの予選問題を83%の正解率で解くなど、驚異的な成果を上げています。

o1-previewは、人間のように思考する過程を模倣するように訓練されており、様々な戦略を試したり、自身の誤りを認識したりすることができます。ただし、現時点ではChatGPTのような一般的な機能は備わっていません。

安全性についても、OpenAIは新たな対策を講じています。例えば、ユーザーが安全な範囲を超えた質問をしても、o1-previewがそれに従わないようにする仕組みが強化されています。また、外部の研究機関と協力し、モデルの安全性評価を行っています。

OpenAIは、o1-previewが科学やエンジニアリング分野における複雑な問題解決に貢献すると期待しています。例えば、医療研究者が遺伝子データを解析したり、物理学者が複雑な方程式を解いたりする際に、このモデルが役立つ可能性があります。

o1-previwと簡易版でより高速な o1-mini が有料ユーザ向けに公開されていたので，すぐに使うことができた。ただし，o1-previewは 30回/週，o1-miniは 50回/週の上限が定められていた。o1は必ずしもChatGPT-4o の延長線上に位置するわけではないようだ。これらの試みがどこかで次のプレAGIモデルに統合されるのかもしれない。

早速試してみるべく，OpenAIにあった見本をそのまま実行してみた。問題は次の通りである。

$\mathcal{B}$ を表面積が 54，体積が 23 の直方体の集合とします。
$r$ を、集合 $\mathcal{B}$ の各直方体を内包できる最小の球の半径とします。
$r^2$ の値は、互いに素な正の整数 $p$ と $q$ を用いて $\frac{p}{q}$ と表すことができます。$ p + q$ を求めなさい。

推論プロセスが順次進行し，思考時間TT=105秒で正しい答えがでてきた。うーん，どうやら自分よりは賢そうである。ちょっと太刀打ちできないかもしれない。ただ，OpenAIのプレスリリースについて要約を求めると次のような答えであり，ChatGPT-4oほど融通がきかなかった。

申し訳ありませんが、2023年10月までの知識では指定されたURLや「OpenAI O1プレビュー」に関する情報を持っておりません。しかし、OpenAIのサービスや製品についてご質問があれば、できる限りお手伝いいたします。

真鍋さんのMIPOのページで，朝日新聞の数学体験教室の問題を解いていたので，こちらを与えてみることにする。

Ｑ（koshix）： a<b<c をみたす正の整数の組(a,b,c)であって， a^2-2005a > b^2-2005b > c^2-2005c が成り立つものはいくつあるか。

Ａ（OpenAI o1　TT=24秒）：問題を解くために，a > b > c，a^2−2005a < b^2−2005b < c^2−2005c を満たす正の整数の組 (a,b,c) を求めます。
まず，関数 f(x)=x2−2005x を考えます。この関数の挙動を理解することが重要です。極値を求めるために，導関数を計算してゼロと等しくします： f'(x)=2x−2005=0⟹x=1002.5
これは，f(x) が x≤1002.5 のとき減少し，x≥1002.5 のとき増加することを意味します。
したがって：
整数 x≤1002 の範囲では，f(x) は減少関数です。
整数 x≥1003 の範囲では，f(x) は増加関数です。
a > b > c であり， f(a) < f(b) < f(c) を満たすためには，a,b,c ≥ 1002 でなければなりません。これは， f(x) がこの範囲で減少するためです。
もし a,b,c ≤ 1003 であれば，f(x) は増加するので、不等式 f(a) < f(b) < f(c) は成立しません。
したがって、求める組の数は，1から1002までの整数から異なる3つの整数を選ぶ組み合わせの数になります。これは組み合わせの公式で計算できます：
組の数=1002_C_3=1002×1001×1000 / 3×2×1 これを計算すると：
答え：167,167,000
この計算は正しいです。

おしい。ほとんど正しいのだけれど，c' = 2005-c の点も条件を満たすので，この答えの2倍が正解となっている。それでも，ここまでの推論ができるのはすごいわ。どうやら，推論時間に関するスケーリングの発見がキモらしいので，これからますます，GPUパワーが必要になるのか・・・

On a Thread of the Web

2024年9月13日金曜日

OpenAI o1（１）

0 件のコメント: