深層学習の計算には膨大な量のニューラルネットの係数行列の演算が必要だが,時間がかかるのは行列の積の計算である。ところで,その係数を64bit実数値ではなく,{-1,0,1}の3値で置き換えてしまうというのが,BitNet 1bit大規模言語モデルの発想だ。これにより,行列における積の計算が和の計算に置き換わってしまう。
果たして,そんなことがうまくいくのかと思うのだけれど,これを実際にやってのけたのが上の論文であり,その概要は次のようになっている。
BitNetのような最近の研究は、1ビット大規模言語モデル(LLM)の新しい時代への道を開いている。この研究では、1ビットLLMのバリエーションであるBitNet b1.58を紹介する。BitNet b1.58では、LLMのすべてのパラメータ(重み)が3値{-1, 0, 1}である。このLLMは、同じモデルサイズと同じ学習トークンを持つ全精度(FP16またはBF16)Transformer LLMとパープレキシティとエンドタスクパフォーマンスの両面で一致し、レイテンシ、メモリ、スループット、エネルギー消費の点で大幅にコスト効率が高い。さらに深いことに、1.58ビットLLMは、高性能でコスト効率に優れた新世代のLLMを訓練するための新しいスケーリング則とレシピを定義している。さらに、新しい計算パラダイムを可能にし、1ビットLLMに最適化された特定のハードウェアを設計するための扉を開く。
もし,これが本当ならば,現在のNVIDIAのGPU ブームは一過性のモノになってしまうかもしれない。LLMには新しいアーキテクチャの半導体チップが必要になるのだから。
なお,1.58bit は {-1,0,1}の3値の情報量,$\log_2 3 = \dfrac{\log 3}{\log 2} = 1.58...$ から来ている。
[1]驚異の1ビットLLMを試す。果たして本当に学習できるのか?(shi3z)
0 件のコメント:
コメントを投稿