こういうときは,俳句について尋ねるに限る。Q(koshix):日本語出来ますか?俳句について教えてください。というと,もっちゃり時間がかかって,イマイチの答えがかえってきた。季語(しきご)はないでしょう。名高い俳人:**芭蕉」(はせがわ)— 現代俳句の確立者,それは誰だ。
そんなわけで,ちょっと期待外れに終ってしまった。現在使っている生成はどうなのか確かめてみた。1. ChatGPT,2. Gemini,3. Claude,4. Grok,5. Kimi,6. DeepSeek,7. Qwen の諸氏である。なお,Copilotはあまり使う気がしないので無視していたが,確認すると,まあそこそこだった。
さらに,それらの結果をすべて並べて,その内容について比較評価してもらった。Q(koshix):俳句について7つの生成AI(LLM)にききました。内容の正確性や,適切さを評価して,すぐれた回答から順位付けしてください。その回答を整理したのが以下の表だ。各行が評価対象,各列は評価者を表している。
| 字数 | chat | gemi | clau | grok | kimi | dpsk | qwen | 平均 | 順位 | |
| 1 ChatGPT | 1464 | 1 | 1 | 1 | 1 | 1 | 2 | 1 | 1.1 | 1 |
| 2 Gemini | 935 | 2 | 5 | 4 | 3 | 4 | 5 | 2 | 3.6 | 4 |
| 3 Claude | 924 | 6 | 2 | 2 | 4 | 2 | 1 | 3 | 2.9 | 2 |
| 4 Grok | 1671 | 4 | 3 | 3 | 2 | 3 | 3 | 5 | 3.3 | 3 |
| 5 Kimi | 574 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7.0 | 7 |
| 6 DeepSeek | 667 | 5 | 6 | 5 | 6 | 5 | 4 | 6 | 5.3 | 6 |
| 7 Qwen | 899 | 3 | 4 | 6 | 5 | 6 | 6 | 4 | 4.9 | 5 |
| 順位偏差 | 1.93 | 0.53 | 0.53 | 0.93 | 0.53 | 1.07 | 1.20 |
ChatGPTの評判が良いのだが,自分にはあまりあわない。むしろ,Claudeの記述がしっくりくる。ただ,ChatGPTがClaudeを低く評価したポイントがあってそれは確かにその通りだ。しかし,ChatGPTは平均的な順位からいちばんズレた偏った評価をしている。一方,Gemini,Claude,Kimiは平均順位をほぼ再現している。俳句に対しては中国製の5,6,7 はいまいち成績が良くなかったようだ。
0 件のコメント:
コメントを投稿