On a Thread of the Web: すべての本をデジタルに

本は消えるか？からの続き

トランプ時代の米国が，TPPから離脱するということで，著作権を70年延長するというのが避けられたかと一瞬気を許した2016年，「環太平洋パートナーシップ協定の締結に伴う関係法律の整備に関する法律案」が成立し著作権法も改悪されてしまった。青空文庫への影響も多大だ。

一方，著作権の例外規定によって著作物が自由に使える場合として，2019年改正ではAI による深層学習や情報解析に対応する条文が追加された。その延長線上で，これまでに人類が著した全ての本をデジタル化して大規模言語モデルに投入する場合にどの程度の情報量になるのかを考えてみよう。

Wikipediaには，Books published per country per year というデータがあった。年度にばらつきが在るものの，全世界では1年に220万冊（米国28万，中国21万，英国19万，日本14万など）という数字がある。そこで，世界人口と一年当たりの本の出版冊数が比例すると仮定する。その比例定数は，3×10^-4 冊/人となる。世界人口は1920年に20億人，2020年に80億人とすれば，この100年間の延べ人口・年は，(80+20)*100/2=5000億人・年なので，この100年の総出版冊数は1.5億冊と評価できる。

もし，それらの本が1冊100ページで1ページあたり1kBの文字情報があれば，1冊あたり100kBの情報量となる。これを先ほどの総出版冊数にかけると 1.5×10^13 byte = 15 TBだ。本以外の出版物や内部文書のことを考慮しても，100TBもあれば人類がこれまでに生産してきたすべての文字情報は格納できてしまう。画像も含めれば1-2桁増えるかもしれない。

2050年には世界人口90億になって，先ほどの延べ人口が2500億人・年分追加になる。つまり，これまでの結果を1.5倍すればよいので，25TBもあれば，シンギュラリティまでに人間が書いた本をすべて持ち運べるの。デジタル端末の容量を1000倍になればそれが可能になる（クラウドにおけば今でも可能だけれど）。

図：本が消えるイメージ（DiffusionBeeによる）

P. S. 話題爆発中のAI「ChatGPT」の仕組みにせまる！によれば，ChatGPTのパラメタは1750億であり，入力したコーパス量は570GBにのぼるらしい。そのコーパスをつくるために，インターネット空間でクロールした素データの量は45TBらしい。これはたぶんすごいゴミの山なので，先ほどの相対的にまともな100TBとは比べ物にならないだろう。

On a Thread of the Web

2022年12月16日金曜日

すべての本をデジタルに

0 件のコメント:

コメントを投稿