On a Thread of the Web: 1.58ビット

2024年3月1日金曜日

1.58ビット

大規模言語モデルの新しい論文が話題になっている。

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bitsというものだ。

深層学習の計算には膨大な量のニューラルネットの係数行列の演算が必要だが，時間がかかるのは行列の積の計算である。ところで，その係数を64bit実数値ではなく，{-1,0,1}の3値で置き換えてしまうというのが，BitNet 1bit大規模言語モデルの発想だ。これにより，行列における積の計算が和の計算に置き換わってしまう。

果たして，そんなことがうまくいくのかと思うのだけれど，これを実際にやってのけたのが上の論文であり，その概要は次のようになっている。

BitNetのような最近の研究は、1ビット大規模言語モデル（LLM）の新しい時代への道を開いている。この研究では、1ビットLLMのバリエーションであるBitNet b1.58を紹介する。BitNet b1.58では、LLMのすべてのパラメータ（重み）が3値{-1, 0, 1}である。このLLMは、同じモデルサイズと同じ学習トークンを持つ全精度（FP16またはBF16）Transformer LLMとパープレキシティとエンドタスクパフォーマンスの両面で一致し、レイテンシ、メモリ、スループット、エネルギー消費の点で大幅にコスト効率が高い。さらに深いことに、1.58ビットLLMは、高性能でコスト効率に優れた新世代のLLMを訓練するための新しいスケーリング則とレシピを定義している。さらに、新しい計算パラダイムを可能にし、1ビットLLMに最適化された特定のハードウェアを設計するための扉を開く。

もし，これが本当ならば，現在のNVIDIAのGPU ブームは一過性のモノになってしまうかもしれない。LLMには新しいアーキテクチャの半導体チップが必要になるのだから。

なお，1.58bit は {-1,0,1}の3値の情報量，$\log_2 3 = \dfrac{\log 3}{\log 2} = 1.58...$ から来ている。

［１］驚異の1ビットLLMを試す。果たして本当に学習できるのか?（shi3z）