On a Thread of the Web: DeepSeek（１）

2025年1月29日水曜日

DeepSeek（１）

DeepSeekは2023年に設立された中国のAIスタートアップ企業であり，オープンソースLLM（オープンウェイトモデル）の開発を進めている。

2024年12月にDeepSeek V3 がリリースされた。パラメタ数670B，学習期間55日，558万米ドル，学習トークン 14.8Tというもの。ベンチマークではChatGPT 4oに匹敵する性能を出した。このころ試しに使ってみて，まあまあだという印象をもったけれど，すぐにリンクを消してしまった。ただ，開発費用やAPI料金は他の大規模言語モデルより1桁以上安いので注目された。

2025年1月20日にDeepSeek R1 がリリースされた。ChatGPT o1に対応する推論モデルだ。これがo1を上回る性能を持ち，なおかつNVIDIAのH100ではなく性能が1/2の中国向けH800を使って，かなり安価に実現できたという噂で衝撃が広まっていった（米輸出規制前の旧型のA100 1万台をもっているらしい）。

この結果が今回のNVIDIAや米国AI関連の株価急落につながった。DeepSeek V3もR1も自由に無料で使えるのだ。1月28日には，DDoS攻撃があってサービスが不安定だったが，無事にiPhoneのアプリ版もダウンロードできた。なかなかよいではないの。iPhoneのアプリのダウンロード数はChatGPTを抜いてトップに躍り出たということだ。