On a Thread of the Web: OpenAI o1（２）

2024年9月14日土曜日

OpenAI o1（２）

昨日の問題を，他の生成AIにも解かせてみた。「 a<b<c をみたす正の整数の組(a,b,c)であって， a^2-2005a > b^2-2005b > c^2-2005c が成り立つものはいくつあるか。（正解は334334000個）」というものだ。（元の問題は20005だったが，入力ミスで2005にしてしまった。）

PlamoやClaudeは国語はできるけど，数学が不得意な生徒のような答えだ。Perplexityは数学的な推論ではなくてプログラミングで解決しようとしたが，プログラムはちょっと間違っている。

(1) Genspark 解答：解は存在しない。
f(x) = x^2-2005xのピークと増減までは理解している。

(2) Perplexity 解答：83個。
解をアルゴリズムを提案し，pythonコードを与える。
これで計算するように指示した実行結果がこれ。

(3) ChatGPT-4o 解答：1個
f(x) = x^2-2005xのピークと増減までは理解している。

(4) Gemini 解答：2個
f(x) = x^2-2005xのピークと増減までは理解している。

(5) Claude 解答：1個
f(x) = x^2-2005xのピークと増減までは理解している。

(6) Plamo 解答：124個
説明が日本語的で，そもそものロジックがあやしい。

GPT-4oに推論時間スケーリングに関する論文を解説してもらうと，

Ｑ（koshix）：
この内容を分かりやすく説明してください。OpenAI o1 との関係についても言及してください。

Ａ（ChatGPT-4o）：
この論文「Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters」では、大規模言語モデル（LLM）のテスト時計算をどのように効率的に拡張できるかについて論じています。具体的には、モデルのパラメータ数を単に増やすよりも、テスト時に追加の計算を投入する方が、難しいタスクでのモデルのパフォーマンスを向上させるのに効果的である可能性があることを示しています。

主なポイントは次の通りです：

１．テスト時の計算拡張：
- テスト時に追加の計算能力を使うことで、より複雑な質問や問題に対する解答の質を向上させることができます。たとえば、複数の回答を生成して、その中から最も適切なものを選ぶ「Best-of-N」戦略を使うことで、より正確な解答が得られることが示されています。

２．テスト時の計算と学習時の計算のトレードオフ：
- テスト時の計算を効果的に使用することで、より大きなモデルや大量の学習を必要としない場面もあることがわかりました。特に簡単な問題や中程度の難易度の問題では、モデルのパラメータを増やすよりも、テスト時の計算にリソースを割く方が効果的です。

３．問題の難易度に応じた計算資源の配分：
- 問題の難易度に応じて、テスト時にどのような計算を行うべきかを動的に決定する「compute-optimal strategy（計算最適戦略）」を提案しています。簡単な問題では、モデルがすでにある程度正しい答えを出すので、答えを少し修正するだけで良い場合が多いですが、難しい問題では、より大規模な探索が必要となることが示されています。

OpenAI o1 との関係
この論文に直接「OpenAI o1」というモデルが登場しているわけではありませんが、OpenAIが取り組んでいるLLM技術全般に関連しています。特に、GPT-4やそれ以降のモデルでも、テスト時の計算や推論の改善が重要視されており、この論文で述べられている「テスト時の計算拡張」は、OpenAIの研究テーマにも深く関係していると考えられます。