On a Thread of the Web: Claude 3.7 Sonnet

2025年3月5日水曜日

Claude 3.7 Sonnet

AnthropicのClaude 3.5 Sonnet は，他の生成AIチャットに比べて表現力は優れているの。ただ，ChatGPT や Gemini が推論モデルの方に進んできたので，ちょっと遠ざかりぎみだった。

Claudeに課金はしていないがユーザ登録しているので，Anthropic TeamからClaude 3.7 Sonnet のお知らせがきた。

Claude 3.7 Sonnetは初のハイブリッド推論モデルであり、これまでで最もインテリジェントなモデルです。コーディングの最先端であり、コンテンツ生成、データ分析、プランニングの大幅な改善を実現しています。
Proプランにアップグレードすると、クロード3.7ソネットを拡張思考で使用できるようになります。拡張思考は、数学、物理学、複雑なコーディングの課題のパフォーマンスを向上させます。

ネットの評判は上々で，ChatGPT Pro から乗り換えるという話もちらほら。無料ユーザーなので拡張思考は使えないが，取りあえず試してみることにする。テーマは，野村総研が出している日本の金融資産分布の分析だ。

Ｑ（koshix）：
日本の金融資産の保有額で分類した階層別分布が以下のように与えられます。
(1) マス層：0～3,000万円, 4425万世帯, 711兆円
(2) アッパーマス層：3,000万円～5,000万円, 577万世帯, 282兆円
(3) 準富裕層：5,000万円～1億円, 404万世帯, 333兆円
(4) 富裕層：1億円～5億円, 154万世帯, 334兆円
(5) 超富裕層：5億円以上, 11.8万世帯, 135兆円
これをおおむね再現する連続な確率密度分布関数を数値的に求めてください。

Ａ（ChatGPT o3-mini-high）：
（66秒推論後，いちばんもっともらしいけれどやっぱり誤っている回答，とくに指定せずに対数正規分布（μ=7.055, σ=1.147）とパレート分布（α=2.547）の混合モデルが選択された。）

Ａ（Gemini 2.0 Flash Thinking Experimental）：
（対数正規分布 μ=7.16, σ=1.05 が提案された。）

Ａ（DeepSeek R1 from Perplexity Pro）：
（KDE関数を用いたpythonコードが提案された。グラフも出てきたがちょっと違う。）

Ａ（Claude 3.7 Sonnet）：
（思考時間が短くスイスイと結果のpythonプログラムを掃き出してくる。最初は，対数正規分布だけだったので，パレート分布との混合モデルを依頼するとなんとか対応できた。GPT o3-mini にはかなわない。というのも精度が甘かったのである）

図：Claude 3.7 Sonnet が導いた確率密度分布関数のコードから

推論モデルを使う場合，プロンプトとしてこちらであらかじめ考えた条件を詳しく入れるとかえって話がややこしくなってうまくいかないことが多かった。むしろざっくりと任せてしまったほうがいいのかもしれない。まだ発展途上。コードについては自分のレベルに比べて十分に複雑なものに対応できるし，エラー情報にも正しく対応してくれる。

P. S. 一週間後の3月5日，Claude3.7 も Claude3.5 Sonnet もすべて有料（$20）のPROモードに移行してしまった。無料で使えるのは Claude 3.5 Haiku だけだ。そうか，そうくるか。