arxivにタイトルが面白そうな論文をみつけた。ダイヤモンド・エイジのプリマーのような話を期待していたが違った。しかしながら,これはこれで自分の現在の興味と関係していた。
数学のように厳密な答えが一意に定まる領域では,LLMの出力が正しいかどうかはプログラムで機械的に判定できる。しかし,生活上のアドバイス,文章表現や対話の自然さといった領域で,正解ラベル(教師データ)がないタスクの場合どうやってLLMを訓練するかという問題がある。
Compute as Teacher(CaT)は,次の手順で実現される。
(1) 問題となるモデルに複数の回答(8, 16個)を探索させる。
(2) 固定されたアンカーモデル(先生)が複数の回答を材料として,
矛盾を避けて良いところを集めた新しい模範回答を合成する。
(3) この模範解答を教師信号として評価したパラメータにより,
強化学習でもとのモデルを改善する。
これによって正解ラベルがない場合のLLMの訓練が可能になるというわけだ。
そこで,これを自分の普段のAI(LLM)利用の場合に応用できないかと考えた。
私の手元にあるのは,自分ではパラメタに介入できない複数のLLMモデル(Chatgpt, Gemini, Claude, Grok, Kimi, DeepSeek, Perplexity)である。そこで,ChatGPT以外を探索用モデル,ChatGPTを固定の合成用モデル,自分自身を評価用モデルとしてループを回したらどうか。すなわち,合成解と各探索モデルの回答の差異から複数のLLMの信頼度を自分が認識して,使い方や重みづけを変えていけるのではないかというものだ(まあ今でも暗にそれらしいことをしているわけだ)。
ChatGPTに相談すると次のようなテンプレートを提案してくれた。
=====================================================================
以下は5つの異なるLLMの回答です。共通点・矛盾点・欠落点をすべて整理し,それらを統合して,より正確でバランスの取れた“合成回答(参考解)”を作ってください。
必要なら、各モデルの長所・短所も明示して構いません。
【回答A(Gemini)】
~~~
【回答B(Claude)】
~~~
【回答C(Grok)】
~~~
【回答D(Kimi)】
~~~
【回答E(DeepSeek)】
~~~
【回答F(Perplexity)】
~~~
# 出力形式
1. 合成内容の要点整理
2. 5つの回答の矛盾点・一致点の比較
3. あなた自身の最終的な合成回答(CaT Unified Response)
====================================================================
図:arxivの論文からの引用

0 件のコメント:
コメントを投稿