On a Thread of the Web: 俳句

2026年4月15日水曜日

俳句

図：ちょっと微妙な俳句のイメージ（ChatGPTによる）

中国製のMiniMax M2.7 という新しいLLMが登場してなにやらすごいというので試してみた。Gemini 3.1Proを越えるという触れ込みだ。もとのサイトでは有料版のプランの案内だけだったので，Kimiに尋ねると，https://agent.minimax.io/ で無料のChatBotが使えるという。

こういうときは，俳句について尋ねるに限る。Ｑ（koshix）：日本語出来ますか？俳句について教えてください。というと，もっちゃり時間がかかって，イマイチの答えがかえってきた。季語（しきご）はないでしょう。名高い俳人：**芭蕉」（はせがわ）— 現代俳句の確立者，それは誰だ。

そんなわけで，ちょっと期待外れに終ってしまった。現在使っている生成AIはどうなのか確かめてみた。1. ChatGPT，2. Gemini，3. Claude，4. Grok，5. Kimi，6. DeepSeek，7. Qwen の諸氏である。なお，Copilotはあまり使う気がしないので無視していたが，確認すると，まあそこそこだった。

さらに，それらの結果をすべて並べて，その内容について比較評価してもらった。Ｑ（koshix）：俳句について7つの生成AI(LLM)にききました。内容の正確性や，適切さを評価して，すぐれた回答から順位付けしてください。その回答を整理したのが以下の表だ。各行が評価対象，各列は評価者を表している。

	字数	chat	gemi	clau	grok	kimi	dpsk	qwen	平均	順位
1 ChatGPT	1464	1	1	1	1	1	2	1	1.1	1
2 Gemini	935	2	5	4	3	4	5	2	3.6	4
3 Claude	924	6	2	2	4	2	1	3	2.9	2
4 Grok	1671	4	3	3	2	3	3	5	3.3	3
5 Kimi	574	7	7	7	7	7	7	7	7.0	7
6 DeepSeek	667	5	6	5	6	5	4	6	5.3	6
7 Qwen	899	3	4	6	5	6	6	4	4.9	5
順位偏差		1.93	0.53	0.53	0.93	0.53	1.07	1.20

ChatGPTの評判が良いのだが，自分にはあまりあわない。むしろ，Claudeの記述がしっくりくる。ただ，ChatGPTがClaudeを低く評価したポイントがあってそれは確かにその通りだ。しかし，ChatGPTは平均的な順位からいちばんズレて偏った評価をしている。一方，Gemini，Claude，Kimiは平均順位をほぼ再現している。俳句に対しては中国製の5,6,7 はいまいち成績が良くなかったようだ。

0 件のコメント:

コメントを投稿