2026年4月15日水曜日

俳句


図:ちょっと微妙な俳句のイメージ(ChatGPTによる)



中国製のMiniMax M2.7 という新しいLLMが登場してなにやらすごいというので試してみた。Gemini 3.1Proを越えるという触れ込みだ。もとのサイトでは有料版のプランの案内だけだったので,Kimiに尋ねると,https://agent.minimax.io/ で無料のChatBotが使えるという。

こういうときは,俳句について尋ねるに限る。Q(koshix):日本語出来ますか?俳句について教えてください。というと,もっちゃり時間がかかって,イマイチの答えがかえってきた。季語(しきご)はないでしょう。名高い俳人:**芭蕉」(はせがわ)— 現代俳句の確立者,それは誰だ。

そんなわけで,ちょっと期待外れに終ってしまった。現在使っている生成はどうなのか確かめてみた。1. ChatGPT,2. Gemini,3. Claude,4. Grok,5. Kimi,6. DeepSeek,7. Qwen の諸氏である。なお,Copilotはあまり使う気がしないので無視していたが,確認すると,まあそこそこだった。

さらに,それらの結果をすべて並べて,その内容について比較評価してもらった。Q(koshix):俳句について7つの生成AI(LLM)にききました。内容の正確性や,適切さを評価して,すぐれた回答から順位付けしてください。その回答を整理したのが以下の表だ。各行が評価対象,各列は評価者を表している。
     
 字数chatgemiclaugrokkimidpskqwen平均順位
1 ChatGPT146411111211.11
2 Gemini93525434523.64
3 Claude92462242132.92
4 Grok167143323353.33
5 Kimi57477777777.07
6 DeepSeek66756565465.36
7 Qwen89934656644.95
順位偏差 1.930.530.530.930.531.071.20  


ChatGPTの評判が良いのだが,自分にはあまりあわない。むしろ,Claudeの記述がしっくりくる。ただ,ChatGPTがClaudeを低く評価したポイントがあってそれは確かにその通りだ。しかし,ChatGPTは平均的な順位からいちばんズレた偏った評価をしている。一方,Gemini,Claude,Kimiは平均順位をほぼ再現している。俳句に対しては中国製の5,6,7 はいまいち成績が良くなかったようだ。

0 件のコメント: