2025年1月29日水曜日

DeepSeek(1)

DeepSeekは2023年に設立された中国のAIスタートアップ企業であり,オープンソースLLM(オープンウェイトモデル)の開発を進めている。

2024年12月にDeepSeek V3 がリリースされた。パラメタ数670B,学習期間55日,558万米ドル,学習トークン 14.8Tというもの。ベンチマークではChatGPT 4oに匹敵する性能を出した。このころ試しに使ってみて,まあまあだという印象をもったけれど,すぐにリンクを消してしまった。ただ,開発費用やAPI料金は他の大規模言語モデルより1桁以上安いので注目された。

2025年1月20日にDeepSeek R1 がリリースされた。ChatGPT o1に対応する推論モデルだ。これがo1を上回る性能を持ち,なおかつNVIDIAのH100ではなく性能が1/2の中国向けH800を使って,かなり安価に実現できたという噂で衝撃が広まっていった(米輸出規制前の旧型のA100 1万台をもっているらしい)。

この結果が今回のNVIDIAや米国AI関連の株価急落につながった。DeepSeek V3もR1も自由に無料で使えるのだ。1月28日には,DDoS攻撃があってサービスが不安定だったが,無事にiPhoneのアプリ版もダウンロードできた。なかなかよいではないの。iPhoneのアプリのダウンロード数はChatGPTを抜いてトップに躍り出たということだ。

図:DeepSeekのアイコン(DeepSeekから引用)

[6]DeepSeek騒動その1〜創設者梁文鋒氏とは何者か?(シンギュラリティサロン,2025.1.30)
[7]DeepSeek騒動その2〜DeepSeekによるAI業界革命(シンギュラリティサロン,2025.1.30)

0 件のコメント: