ラベル 機械学習 の投稿を表示しています。 すべての投稿を表示
ラベル 機械学習 の投稿を表示しています。 すべての投稿を表示

2024年3月1日金曜日

1.58ビット

大規模言語モデルの新しい論文が話題になっている。


深層学習の計算には膨大な量のニューラルネットの係数行列の演算が必要だが,時間がかかるのは行列の積の計算である。ところで,その係数を64bit実数値ではなく,{-1,0,1}の3値で置き換えてしまうというのが,BitNet 1bit大規模言語モデルの発想だ。これにより,行列における積の計算が和の計算に置き換わってしまう。

果たして,そんなことがうまくいくのかと思うのだけれど,これを実際にやってのけたのが上の論文であり,その概要は次のようになっている。
BitNetのような最近の研究は、1ビット大規模言語モデル(LLM)の新しい時代への道を開いている。この研究では、1ビットLLMのバリエーションであるBitNet b1.58を紹介する。BitNet b1.58では、LLMのすべてのパラメータ(重み)が3値{-1, 0, 1}である。このLLMは、同じモデルサイズと同じ学習トークンを持つ全精度(FP16またはBF16)Transformer LLMとパープレキシティとエンドタスクパフォーマンスの両面で一致し、レイテンシ、メモリ、スループット、エネルギー消費の点で大幅にコスト効率が高い。さらに深いことに、1.58ビットLLMは、高性能でコスト効率に優れた新世代のLLMを訓練するための新しいスケーリング則とレシピを定義している。さらに、新しい計算パラダイムを可能にし、1ビットLLMに最適化された特定のハードウェアを設計するための扉を開く。

もし,これが本当ならば,現在のNVIDIAのGPU ブームは一過性のモノになってしまうかもしれない。LLMには新しいアーキテクチャの半導体チップが必要になるのだから。

なお,1.58bit は {-1,0,1}の3値の情報量,$\log_2 3 = \dfrac{\log 3}{\log 2} = 1.58...$ から来ている。

[1]驚異の1ビットLLMを試す。果たして本当に学習できるのか?(shi3z)

2019年12月12日木曜日

機械学習と公平性

2019年12月10日に,人工知能学会 倫理委員会・日本ソフトウェア科学会 機械学習工学研究会・
電子情報通信学会 情報論的学習理論と機械学習研究会の三者が連名で「機械学習と公平性に関する声明」を発表した。

声明を出した背景としては,2018年10月にAmazon.comが採用時に利用していた機械学習システムが女性に対して不利益に働くことに気づいてこのシステムの利用を停止したという報道を挙げている。

しかし,それでは時間が開きすぎている。直接書かれてはいないが,東京大学大学院情報学環・学際情報学府特任准教授が11月20日にTwitter上で差別的な発言をして,それが炎上したことがきっかけになっている。

情報学環長・学際情報学府長の越塚登先生は,11月24日に学内向け文書,11月26日に学生向けMLでメッセージを発しており,それを11月28日には公開している。それなりに迅速な対応がなされたと思う。

一方,当該教員の属する寄付講座についても,マネックス証券はただちに見解を発表し,寄付の停止に至るようだ。

機械学習が社会にもたらす影響は非常に大きなものになりそうだ。センサーが張り巡らされた社会を,センサーの塊をつねに携帯しながら活動する個人が,ほとんどの情報を無担保に預けながら,ブラックボックスにつつまれたプロセスで評価される社会だ。機械学習の説明責任(というか説明システムの理論的な研究や開発)についての議論もスタートしている。

P. S. 大澤昇平はネトウヨにアピールしながら寄付を集め始めたようだ(2019.12.12)。


[1]学環・学府特任准教授の不適切な書き込みに関する学生へのメッセージ(2019.11.28)
[2]学環・学府特任准教授の不適切な書き込み等に関する調査委員会の設置について(2019.11.28)
[3]学生留学生委員会から情報学環・学際情報学府の学生の皆さんへ(2019.11.29)
[4]大澤昇平特任准教授による2019.12.12付のSNS書込みに対する見解(2019.12.13)
[5]寄付講座担当特任准教授の不適切な書き込みに関する見解(マネックス 2019.11.24)
[6]寄付講座担当特任准教授の不適切な書き込みに関する当社の見解について(オークファン 2019.11.25)
[7]Japanese academia appears soft on racism(ASIA TIMES 2019.11.25)
[8]Announcement: terminating our business relationship with Daisy AI (Streamer 2019.11.27)

2019年6月16日日曜日

Software 2.0

テスラのAI部門長アンドレイ・カルパシー(1986-)が,2017年,MediumSoftware 2.0 という記事を書いた。

問題解決のために用いられる従来のプログラム(C++,Java,・・・)をソフトウェア1.0とよび,ニューラルネットワークによる問題解決を1つのツールとして見るのではなく,ソフトウェア2.0として考えようということを提案している。

すなわちニューラルネットワークの重みがプログラムに相当すると考えるのである。この重みの数(ニューラルネットワークのノード数)は膨大な数になることから,従来のプログラムのようにアルゴリズムを考えて人間がコード化するプログラミングとは質的に違ったものになっている。そして,その適応範囲が,画像認識,音声認識,機械翻訳,ゲームと広がっている。

もちろん,ソフトウェア2.0がすべてのソフトウェアによる問題解決をカバーすることはできないので,ソフトウェア1.0と共存することになるが,ニューラルネットワークについての一つの見方を提供するものである。そして,これが,サイエンスにおいてニューラルネットワーク(ディープラーニング)を利用することが持つ意味について,再考させることにつながるのかもしれない。

図 Software 2.0のイメージ(Medium Software2.0から引用)


2019年6月2日日曜日

AI Feynman(4)

AI Feynman(3)からの続き)

2018年に発表されたウーとテグマークの論文 "Toward an AI Physicist for Unsupervised Learning"は,AI Feynman 論文に先行するものだ。2018年のインターネットでは,AI物理学者が仮想現実の物理法則を発見したものとして話題になっていた。

その要約は次のようなものである。
物理学でよく用いられる4つの戦略を使用して,教師なし機械学習を改善するという課題に挑戦する。その4つは,分割統治,オッカムのかみそり,統一,そして絶え間ない学習である。1つのモデルを使ってすべてを学ぶのではなく,学習と「理論」の操作を中心に置いた新しいパラダイムを提案する。それは(過去の観測から)将来を予測し,その予測が正しい領域を定めるものだ。特に,各理論がその比較的有利な領域に特化するための新しい一般化平均損失,および不良データを除いて理論を単純な数式にまとめることを目指す区別可能な記述長を導入する。理論は「理論ハブ」に格納され,そこでは学習された理論を継続的に統合し,新しい環境に出会ったときに理論を提案することができる。我々は,実装した「AI Physicist」学習エージェントを,しだいに複雑化する環境でテストする。重力,電磁気力,調和運動,弾性衝突などのランダムな組み合わせを含む仮想世界における物体の軌道の教師なし学習を行う。我々の学習エージェントは,同等の複雑さの順伝搬型ニューラルネットより速く学習し,約10億分の1の平均二乗予測誤差を与える。また,整数や有理数の理論パラメータを正しく予言する。この学習エージェントは区分的に一定の力が働く場における非線形カオス二重振り子についても,異なる運動則をもつ領域をうまく同定することができた。

2019年6月1日土曜日

AI Feynman(3)

AI Feynman(2)からの続き)

機械学習と物理で紹介したように,日本物理学会誌では,人工知能と物理学というシリーズが始まっている。第1回目に神嶌敏弘さんが,機械学習の分野の全体像と歴史の概観をしているが,データマイニング・機械学習分野の概要という資料もわかりやすい。

神嶌さんの物理学会誌の特集記事に「変わりゆく機械学習と変わらない機械学習」というのがある。機械学習の自然科学での活用の節で,ドミンゴの "The Master Algorithm" からの引用として,自然科学の研究をブラーエ,ケプラー,ニュートンの業績になぞらえて三段階に分類してとらえることができると紹介している。なんのことはない武谷三男の三段階論ではないか。

「実験データを集めるブラーエの段階, 経験則を発見するケプラーの段階,そしてその経験則の背後の理論を見つけ出すニュートンの段階である」というのは武谷三段階論の現象論,実体論,本質論に対応している。それぞれに対して,データマイニング・機械学習・深層学習・AI(それぞれの分野の概念的な構造関係が十分理解できていないので暫定的に並列にしている)で何ができるかを考えることができる。

テグマークのAI Feynmanは,実体論なのだろうか,本質論なのだろうか。あるいは階層の異る現象論なのだろうか(広重徹ならばそのような三段階論による当嵌めの構図それ自体に意義をとなえるかもしれない)。

AI Feynman(4)に続く)


2019年5月31日金曜日

AI Feynman(2)

AI Feynman(1)からの続き

ニューラルネットワークあるいはディープラーニングを自然科学とくに物理学に応用するという話は昔からあった。30年近く前にもニューラルネットワークで原子核の結合エネルギーを分析するような話題を見かけたことがあるような気がする。

物理科学でのニューラルネットワーク/ディープラーニングの利用というと次のようなものが想像できた。望遠鏡や加速器で得られたデータを分析してシグナルを発見する。物質の合成過程の膨大なデータから目的の性質を持つ組み合わせを推定する。などなど。

で,最近は こんな本が出版されるまでに至る。

ディープラーニングと物理学 原理がわかる、応用ができる(田中・富谷・橋本)

 もう一歩進めると,いわゆるAI(機械学習)で物理学の法則を発見することができるのかが問題になる。理論が予め存在しその方程式のパラメータを探すのではなく,理論それ自身を作り出すことができるかだ。テグマークの論文はその方向の試みなのだろう。

(AI Feynman(3)に続く)

2019年5月30日木曜日

AI Feynman(1)

2019年5月29日にarxivのphysics.comp-phに,MITのTegmarkとUdrescuの論文がアップロードされた。そのタイトルは,"AI Feynman: a Physics-Inspired Method for Symbolic Regression"である。なんだかおもしろそう。

さて,その要約は,次のようなものだった。
物理学と人工知能(AI)の双方にとって核心的な課題の一つは数式回帰である。つまり,未知関数からのデータに一致する数式表現を発見することである。 この問題は原理的にNP困難である可能性が高いが,実用的な興味の対象となる関数はしばしば対称性,分離性,合成性および他の単純化できる特性を示す。 この精神のもとで,我々は,ニューラルネットワークと物理学に着想を得た技術を組み合わせた再帰的多次元記号回帰アルゴリズムを開発した。 我々はそれを「ファインマン物理学講義」からの100の方程式に適用し,そのアルゴリズムはすべてを発見する。従来のソフトウェアでは71だけが見つかった。より困難なテストセットでも,到達水準を15%から90%に向上させた。
AI Feynman(2)に続く)

2019年3月16日土曜日

機械学習と物理

長らく物理学会には足を向けていない。今年の第74回年会は九州大学の伊都キャンパスで開催されている。ちょうど今の時間に,シンポジウム「機械学習と物理」が行われている。こんな感じ。

1(一般シンポジウム講演)はじめに
 阪大理・物理,橋本幸士
2(一般シンポジウム講演)物性物理のグランドチャレンジに対する重回帰分析と機械学習
 東大院工,今田正俊
3(一般シンポジウム講演)強い相互作用の最難問 — 中性子星の状態方程式
 東大理・物理・原子核理論,福嶋健二
4(一般シンポジウム講演)データ駆動手法による相関物質の予測と理解
 産総研 CD-FMat,三宅隆
5(一般シンポジウム講演)機械学習によるマルコフ連鎖モンテカルロ法の高速化へ向けて
 理研(AIP/iTHEMS), 慶應大・数理,田中章詞
6(一般シンポジウム講演)機械学習による特徴抽出と,繰り込み群や熱力学との関係
 OIST,船井正太郎
7(一般シンポジウム講演)広域撮像宇宙サーベイによるビッグデータ宇宙論
 東大理・物理・宇宙理論,吉田直紀
8(一般シンポジウム講演)量子力学と機械学習の数理
 東北大院情報科学,大関真之

ちなみに,昨年の2018年度日本物理学会科学セミナーのテーマも「AI(人工知能)と物理学(東京大学駒場キャンパス 数理科学研究棟 大講義室)」であった。そのプログラムは以下の通り(ちょっと被っている)。

8月11日(土・祝)10:00-16:30
1 はじめに
 日本物理学会会長 川村 光
2 情報処理技術としてのAI
 中島 秀之(札幌市立大学 学長)
3 思考力を競うゲームの人工知能技術発展の歴史と現状
 保木 邦仁(電気通信大学大学院情報理工学研究科 准教授)
4 広域宇宙撮像データを用いたビッグデータ宇宙論
 吉田 直紀(東京大学大学院理学系研究科 教授)
5 量子コンピュータが人工知能を加速する
 大関 真之(東北大学大学院情報科学研究科 准教授)
6 深層学習と時空
 橋本 幸士 (大阪大学大学院理学研究科 教授)
8月12日(日)10:00-16:40
7 深層学習とは何か、そしてどんなことが出来るようになっているのか
 瀧 雅人(理化学研究所数理創造プログラム(iTHEMS) 上級研究員)
8 多層畳み込みニューラルネットワークで求めた量子相転移の相図
 大槻 東巳(上智大学理工学部機能創造理工学科 教授)
9 人工知能と脳科学
 甘利 俊一(理化学研究所脳神経科学研究センター 特別顧問)
10 量子力学の問題をニューラルネットワークで解く
 斎藤 弘樹(電気通信大学大学院情報理工学研究科 教授)
11 AI は物理において何の役に立つか?
 寺倉 清之(物質・材料研究機構 名誉フェロー・エグゼクティブアドバイザー)
12 おわりに
 日本物理学会科学セミナー担当理事 迫田 和彰

日本物理学会誌の方でも「シリーズ 人工知能と物理学」という特集が開始され,産総研の神嶌敏弘さんの「変わりゆく機械学習と変わらない機械学習」が読める。そのうち日本物理教育学会誌にも,「機械学習と物理教育」とか「人工知能と物理教育」などの特集が組まれる時代がくるのだろうか。5年後?10年後?

参考:Quantum Machine Learning(Wikipedia)
List of Acronyms
ANN: Artificial neural network
BM: Boltzmann machine
BN: Bayesian network
CDL: Classical deep learning
CML: Classical machine learning
HMM: Hidden Markov model
HQMM: Hidden quantum Markov model
k-NN: k-nearest neighbours
NMR: Nuclear magnetic resonance
PCA: Principal component analysis
QBN: Quantum Bayesian network
QDL: Quantum deep learning
QML: Quantum machine learning
QPCA: Quantum principal component analysis
QRAM: Quantum random access memory 
RAM: Random access memory
SQW: Stochastic quantum walk 
SVM: Support vector machine
WNN: Weightless neural network