2026年6月24日水曜日

分散LLMクラウド

トークンからの続き



図:Nano Banana 2による分散LLMクラウドのイメージ(ChatGPTには拒否られた)



トークンの値段を眺めるうちに、もう少し実装寄りの妄想が湧いてきた。


きっかけは手元のMacだ。近い将来、Mac StudioM5 Maxが載り、メモリ128GBで中規模LLMが動かせるとする。これを24時間フル稼働させたら、クラウドAPI価格に換算して月いくら分のトークンを生成するのか。ChatGPTに見積もってもらった。

生成速度を50トークン/秒とすると、月におよそ1.3億トークン。これを出力価格で換算すると、

Gemini Flash-Lite級(出力0.4ドル/100万)50ドル程度

Claude Sonnet級(出力15ドル/100万)2000ドル弱

GPT-5.5級(出力30ドル/100万)4000ドル弱


同じ1.3億トークンでも、どのAPI価格に対応させるかで価値が二桁変わるMac Studio 1台が、見方によって月数十ドルの箱にも、月数千ドルの箱にも見える。もっとも、ローカルの中規模モデルがGPT-5.5級に賢いはずもなく、フル稼働も理想化しすぎだ。現実的には「月5002000ドル分のAPI利用を自前化できる可能性」あたりが堅い。


ここで本題。Mac 1台でこれだけ遊んでいるなら、国中・世界中のローカルマシンをつないで、ひとつのLLMサービスにできないか。巨大クラウドに頼らない分散型のLLM基盤を、スタートアップとして立ち上げられないか。ChatGPTにぶつけてみた。


評価は「筋はよいが、『分散ローカルでChatGPT対抗』は厳しく、『低価格・プライバシー・地域性・主権性・非同期大量処理』に絞れば余地はある」だった。先行例も多い。計算資源を売買するAkashAI推論をサブネットで評価するBittensor、協調推論の研究実装PetalsMac同士をつなぐexo。私の妄想は空想ではなく、すでに複数の系譜がある。


肝心なのは「何を分散するか」だ。1回の質問を複数ノードで分割して巨大モデルを動かす方式は、ネットワーク遅延が致命的になる。計算を細切れにして遠くへ配ると、通信の往復で待たされ、かえって遅い。一方、各ノードが小~中規模モデルを独立に動かし大量のリクエストをさばく方式なら可能性がある。これはスパコンというよりLLM版のUber、あるいは電力アグリゲータだ。「GPT-5級でなくていいから安く大量に要約したい」「社内文書を外部に出したくない」「夜間にバッチで翻訳・分類したい」――即時・最高品質ではなく、安く・国内に閉じて・監査可能、が価値になる。


ここで知らない単語が出たので説明してもらった。ソブリンAIは「データ・計算資源・モデル・運用を自分たちで管理するAI」。要は「AIは使いたいが外国企業に丸投げしたくない」という政策目標だ。exoMacPCを束ねてLLMを動かすオープンソース。SLAは「月99.9%稼働」などを明文化したサービス品質保証契約。個人のMacは突然スリープしたり再起動したりするので、「今日は誰かのMacが寝ているので処理できません」では業務に使えない。家庭用Macが世界平和の礎になる前に、まずSLAという勤怠管理を片づけねばならない。

事業化の壁は4つ。ノードが信用できない(出力を覗かれる)、品質保証が難しい(指定モデルを正しく動かしたか検証できない)、SLAが難しい(参加離脱・回線・発熱・スリープを吸収する仕組みが要る)、価格競争(大手が推論価格を急落させており安売りだけでは負ける)。


そこで提案された設計は三段階。第一に、世界中から家庭PCを集めるのではなく、大学・自治体・企業など信頼できる小規模クラスターから始める(「いきなりP2Pの大海原に出ると海賊もクラゲもいる。まずは湾内で船を浮かべるべき」とのこと)。第二に、用途を高機能チャットでなく安価な非同期処理に絞る(要約・分類・翻訳・RAG・議事録整形。8B70B級で十分)。第三に、「国内ノードのみ」「医療機関ノードのみ」といった信頼境界を設計したLLM処理市場にする。


日本での現状も聞いた。結論は「構想そのもの――全国のローカルMacを束ねた商用分散LLMクラウド――を正面からやる例は見当たらないが、周辺は動いている」。政府は経産省・NEDOGENIACで基盤モデル開発と計算資源確保に本腰だが、これは「開発者にGPUを使わせる支援」で分散資源の市場化とは別物。国内GPUクラウドはさくら・KDDIGMO・ソフトバンクが整備中で、廃校をGPUデータセンターに転用するハイレゾの「GPUSOROBAN」は、遊休資源をAIに変える点で私の妄想に近い匂いがする。


つまり構想には空白地帯がある。ただし「誰も思いつかない」のではなく、信用・品質保証・SLA・課金・通信遅延・電力コストが難しく、まだ事業化しにくいから残っているのだ。最終助言は明快だった。いきなり「全国の個人Macを束ねます」と言わず、まず「大学・自治体・中小企業の既存GPU/Mac Studioを認証済みノードとして束ねるプライベート分散LLM処理基盤」から始め、用途を非同期バッチに絞り、そこから地域・業界・国レベルへ広げる――。


筋は通っている。問題は、これをやる体力と気力が残っているかだ。MediaWikiの国旗テンプレートひとつでヒイヒイ言う人間が世界規模の分散AI基盤を立ち上げる図は想像しにくい。ただ、妄想を文章にしておけば、いつか誰かが拾ってくれるかもしれない。蜘蛛の糸は、垂らしておくに限る。


(注:この記事は,ChatGPTとの対話をもとに,Claudeに,自分のスタイルを見せて,ブログ記事として完全に書き下ろしてもらったものである。

2026年6月23日火曜日

トークン



図:ChatGPTによるトークンのイメージ


生成AILLM)に何から何まで頼り切る生活をしていると、課金の話が気になってくる。APIを叩くほどお金が飛ぶし、その勘定は「トークン」という妙な単位でなされる。そこでChatGPTに、各社の1トークンが何ドルなのか、この3年半でどう変わったのかを聞いてみた。


トークンとは、AIが文章を処理する最小単位で、ざっくり単語の一部のようなものだ。各社のAPIは入力トークンと出力トークンを別価格で売っており、一般に書くほう(出力)が読むほう(入力)より高い。オーダー感覚はこうだ。

1トークンは「数百万分の1ドル」程度、1ドルでは「数万~数千万トークン」買える。

・フロンティア級(GPT-5.5Claude Opus級):入力100万トークンあたり5ドル前後、出力2530ドル前後。

・実用主力級(Claude SonnetGemini Pro級):入力23ドル、出力1215ドル前後。

・廉価大量処理級(Gemini Flash-Lite級):入力0.1ドル、出力0.4ドル前後。

トークンはもはや単なる「文字量の単位」ではなく、AI屋台の食券だとChatGPTは言う。屋台ごとに一皿の大きさが違うので、同じ食券1枚でも腹の満たされ方がまるで違う。なかなかうまい比喩だ。


おもしろいのは、この3年半の値段の動きだ。1ドルで買える入力トークン数の概算推移はこうなる。

時期

1ドルで買える入力トークン

2022年末

5

2024年初

200

2026年現在

1000


この3年半で、安いモデル同士なら1ドルで買えるトークンはざっと200。ムーアの法則どころの騒ぎではない。ただし「同じ知能のトークンが200倍安くなった」わけではない。安いのは小さいモデルの軽いトークンで、深い推論をするモデルのトークンはいまでも高い。値段の世界は「安価な大量処理」と「高価な深い推論」に分岐した


さて、ここからが本題。トークンがこれだけ「数えられて値段のつく量」になってくると、将来ドルやユーロに代わる世界共通通貨にならないか、という妄想が湧いてくる。

トークンは通貨の条件をいくつか満たす。正確に数えられ(計量可能)、生成には電力とGPUと時間がかかる(希少性)。ただし価値の安定だけは絶望的だ。3年半で200分の1になる単位など、通貨としては最悪のデフレで、「トークン本位制」は成り立たない。


そこで視点を変える。価値が下がるのは「素のトークン」の話だ。もし「ある基準モデルが基準時間で生成する標準1トークン」のようなものを単位として固定できたらどうか。金本位制ならぬ計算本位制である。トークンの背後にあるのは電力(エネルギー)と計算(労働の代替)だから、マルクスの労働価値説をもじってトークン価値説とでも呼べる。AIが世界の知的労働の相当部分を担えば、「いくらトークンを消費したか」がそのまま「どれだけ知的労働を投下したか」の尺度になる。


もちろん夢見がちな話だ。価値の安定、決済の信頼、国家の裏付け、そして「標準皿」を誰が定義し保証するのか――メートル原器を決めるのと同じ難しさが山ほどある。それでも、20世紀が石油を巡って動いたなら、21世紀は計算(トークン)を巡って動くのかもしれない。各国は早くも「ソブリンAI」「計算資源の確保」と言い始めている。エネルギー安全保障ならぬ計算安全保障の時代だ。とすれば、トークンが準通貨的な戦略物資になる未来も、そう荒唐無稽ではない。


1トークン=0.1円」が新聞の経済欄に載る日が来るかは分からない。ただ、食券を握って屋台街を歩きながら、それが世界通貨になる日を夢想するのは、ちょっと楽しい。夢を見るのは無料だが、トークンは無料ではない。



(注:この記事は,ChatGPTとの対話をもとに,Claudeに,自分のスタイルを見せて,ブログ記事として完全に書き下ろしてもらったものである。

2026年6月22日月曜日

Claude Cowork

Claude Codeからの続き


図:Claude Cowork のインフォグラフィックス(ChatGPTによる)



Apple製品の技術的背景を含めた解説でよく見ていた Leo Tohyama さんが,Claude Cowork について解説していた[1][2]。Claude はChatとCodeを使ってきたが,さっそく試してみる。

先日 NotebookLM + Claude(2),1ヶ月のClaudeのプロプランを契約してすぐ解除していたので,6/16までは Claude Cowork が使えるはずだった。ところで,Claude Cowork はmacのアプリ版から使うことが指示されていて。それに従って進めると,アプリ版ではフリープラン扱いになっていた。相談すると,Web版をログアウトして再ログインせよとのこと。そのとおりにすると,Web版もプロプランからフリープランに変わってしまった。おいおい。

Claudeのサポートで尋ねるが要領を得ない。今考えると最初にすぐにプロプランを解除したのがまずかったらしい(でも期限までは使える)。仕方がないので,再度7/4までの1ヶ月プロプランを取得した。そういえば,Claudeは4月の切り替え時点でもデポジットをクリアされていた。どうも相性が悪い。

(1) Cowork で月々のルーチンワーク blogspotのpdfダウンロードを試したが,ホームディレクトリがCoworkと共有できないので,別ディレクトリでの作業が必要となり,もう一度 venv環境の設定が要求される。これはちょっと面倒だ。

(2) Coworkとは,結局のところローカルディレクトリにアクセスできるだけなのではないかと,Claude Chatに聞いてみたところ,違うといわれた。
❌ それ以外にも重要な差異があります
1. エージェント的な実行能力
Cowork は「アウトカム指向のナレッジワーク」に特化しており、ファイル・アプリ・接続されたシステムをまたいでタスクを実行します。Chat が1ターンごとの応答なのに対し、Cowork はマルチステップのタスクを自律的に実行します。
2. 実行環境(サンドボックスVM)
Cowork は隔離・保護されたバーチャルマシン上で動作し、広範なインターネットから分離されています。Chat にはこの実行環境がありません。
3. 組み込みインテグレーション
Cowork には Google Drive・Slack・Gmail などの組み込み連携や、営業・財務・オペレーション向けのプラグインがあらかじめ用意されています。
4. 使用量消費の違い
Cowork のマルチステップタスクは通常のチャットより多くのプラン使用量を消費します。Pro ユーザーは同等の作業でも Max ユーザーより早く制限に達します。
5. メモリは共有されない
Chat と Cowork は異なるツールであり、メモリを自動共有しません
使用量消費が一番ネックになりそうだ。プロプランだと5時間で10-45プロンプトのローリングウィンドウをすぐに使い果たしてしまうといわれた。

(3) それでは,具体的にこれ!というおすすめの体験例はどういうものかを聞いてみた。
例1:複数ファイルの横断要約
「この3つのPDFを読んで、共通点と相違点を1枚のMarkdownにまとめてフォルダに保存して」
Chat:PDFを1つずつ貼り付けて、結果をコピーして自分でファイルに保存
Cowork:ファイルを渡すだけで、読んで・まとめて・保存まで一気にやる

例2:スクリーンショットからの情報抽出
「この画像ファイル群から金額が書いてあるものだけ抽出して、合計をExcelに出して」
Chat:1枚ずつ添付して聞く作業を繰り返す必要がある
Cowork:フォルダを渡せば全部処理してファイルを生成してくれる

例3:週次レポートの自動生成(定期タスク)
「毎週月曜に、先週作ったメモファイルを読んで週報ドラフトを作って」
Chat:毎回手動で依頼が必要
Cowork:スケジュール設定で自動実行できる。
いちおう頭の片隅に置いておこう(絶対忘れるやつね)。