2024年7月3日水曜日

LLM パフォーマンスランキング

生成AIでプレゼンテーションファイルが 上手に作れるという話があった。それで次のような1枚ものの資料(sgvファイル)を作ってもらうことにした。これが正しいのかどうかはよくわからない。ただ,雰囲気はあっているような気がする。(注:macOSでsvgファイルを表示させるフリーソフトは,Gapplin.app

Q(koshix):
最新のLLMランキングをテーマに、X(Twitter)によくあるリッチな図解資料をsvgで作ってください。
Q(koshix):
Perplexity や Gemini 1.5 Pro や Command R+ などはこれには含まれないのでしょうか? → すぐ改善してくれた。
Q(koshix):
それぞれのLLMノ特徴などが短いテキストで → 入力中断したけれども回答有。
Q(koshix):
ClaudeはClaude 3.5 sonnetですか?GPT-4はGPT-4oですか? → モデル名が付加。
Q(koshix):
これらのデータの根拠となるURLはわかりますか? → 回答は断られた。
Q(koshix):
自分の印象では,Perplexity PRO はもっと能力が高いような気がするのですけれど。→ 簡単にリクエストに答えて修正したくれたが,そんなのでいいのか。
Q(koshix):
水色のバーの幅を8割程度にして,各モデルの説明の文字が被らないように工夫してください。 → まあまあ対応できた。
Q(koshix):
ありがとうございました。 
A(Glaude 3.5 Sonnet):
どういたしまして。お役に立てて嬉しいです。
LLM(大規模言語モデル)の分野は急速に発展しており、各モデルの能力や特徴が日々変化しています。このような図解は、現状の概要を把握するのに役立ちますが、特定の用途に最適なモデルを選ぶ際には、より詳細な調査が必要になるでしょう。
今回の図解作成プロセスを通じて、以下のような重要な点が浮き彫りになりました:

1.ユーザーフィードバックの重要性:Perplexity PROの例のように、実際のユーザー体験は公開情報だけでは把握しきれない価値を持つことがあります。
2.評価の複雑さ:単一の指標でAIモデルの能力を評価することは難しく、多角的な視点が必要です。
3.情報の更新速度:AI分野では情報が急速に古くなるため、常に最新の情報を参照することが重要です。
4.用途による適性の違い:モデルの強みは用途によって異なるため、具体的なタスクに基づいて評価することが大切です。

この分野に興味をお持ちでしたら、各AIプロバイダーの公式ブログや、arXiv.orgなどの学術プレプリントサーバー、そして信頼できるAI関連のニュースサイトを定期的にチェックすることをお勧めします。それによって、常に最新の動向を把握することができるでしょう。 
 


図:Claude 3.5 Sonnet が生成したLLM ランキング

 

0 件のコメント: