On a Thread of the Web: Compute as Teacher（CaT）

2025年12月16日火曜日

Compute as Teacher（CaT）

arxivにタイトルが面白そうな論文をみつけた。ダイヤモンド・エイジのプリマーのような話を期待していたが違った。しかしながら，これはこれで自分の現在の興味と関係していた。

論文は Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision でメタの超知能研究所によるものだ。

数学のように厳密な答えが一意に定まる領域では，LLMの出力が正しいかどうかはプログラムで機械的に判定できる。しかし，生活上のアドバイス，文章表現や対話の自然さといった領域で，正解ラベル（教師データ）がないタスクの場合どうやってLLMを訓練するかという問題がある。

Compute as Teacher（CaT）は，次の手順で実現される。

(1) 問題となるモデルに複数の回答（8, 16個）を探索させる。

(2) 固定されたアンカーモデル（先生）が複数の回答を材料として，

矛盾を避けて良いところを集めた新しい模範回答を合成する。

(3) この模範解答を教師信号として評価したパラメータにより，

強化学習でもとのモデルを改善する。

これによって正解ラベルがない場合のLLMの訓練が可能になるというわけだ。

そこで，これを自分の普段のAI（LLM）利用の場合に応用できないかと考えた。

私の手元にあるのは，自分ではパラメタに介入できない複数のLLMモデル（Chatgpt, Gemini, Claude, Grok, Kimi, DeepSeek, Perplexity）である。そこで，ChatGPT以外を探索用モデル，ChatGPTを固定の合成用モデル，自分自身を評価用モデルとしてループを回したらどうか。すなわち，合成解と各探索モデルの回答の差異から複数のLLMの信頼度を自分が認識して，使い方や重みづけを変えていけるのではないかというものだ（まあ今でも暗にそれらしいことをしているわけだ）。

ChatGPTに相談すると次のようなテンプレートを提案してくれた。

=====================================================================

以下は5つの異なるLLMの回答です。共通点・矛盾点・欠落点をすべて整理し，それらを統合して，より正確でバランスの取れた“合成回答（参考解）”を作ってください。

必要なら、各モデルの長所・短所も明示して構いません。

【回答A（Gemini）】

～～～

【回答B（Claude）】

～～～

【回答C（Grok）】

～～～

【回答D（Kimi）】

～～～

【回答E（DeepSeek）】

～～～

【回答F（Perplexity）】

～～～

# 出力形式

1. 合成内容の要点整理

2. 5つの回答の矛盾点・一致点の比較

3. あなた自身の最終的な合成回答（CaT Unified Response）

====================================================================

図：arxivの論文からの引用

0 件のコメント:

コメントを投稿