オイラーの定理からの続き
イーロン・マスクが支配しているX(旧Twitter)からはなるべく遠ざかりたい。日本語で自分がフォローしている空間はそこまで荒れていないし,情報量も多いので悩ましいところだ。そのマスクが2023年7月に立ち上げたAI開発企業が xAIだ。
xAIのチャットボットであるGrokは,Xの有料ユーザ向けに提供されているものだと思って無視していたが,いつの間にか Grok3 ベータ版がXの無料ユーザにも公開されていた。テストを誘導するための一時的な措置だろう。というわけで,この推論モデルの実力を試してみる。
図:Grokのアイコン(どこかから引用)
Tsujimotter が提起していた,「2の200乗の下2桁はいくつか?」の解法7選 にちなんだ問いだ。
Q(koshix):整数m,nに対して,mod(n^m,100) がm=0,1,…に対して,周期的に振る舞うことを証明し,その周期のはじまるmの値が n によってどのように定まるかを求めてください。A(Grok3):(124行ほど考えて,微妙に誤りが含まれた生ぬるい回答を返してきた。論理的な推論というよりも,具体的な計算の試行錯誤のような印象を受ける)A(DeepSeek R1):(371秒かけて中国語で考察した後,ある程度妥当だけれど不完全な回答を中国語で返してきた。日本語に直してとお願いしたら,「服务器繁忙,请稍后再试。」だと。)A(Gemini 2.0 Flash Thinking Experimental):(253行ほど考えて,あまり整理されていない回答を返してきた。頭悪いのかと思ったが,最後の結論はもしかすると良いのかもしれない。自分自身の理解が不十分なのか?)A(ChatGPT o3-mini-highl):(37秒かけて日本語で考察した後,もっともらしい整理された答えを返してきた。)
ということで,Grok3は巷の一部の評判ほどのものではないようだ。DeepSeek R1も相変わらずイマイチなので,とりあえず様子見ながら,o3-mini-highを中心に使うのがよろし。
0 件のコメント:
コメントを投稿