生成AIが学習するために必要なデータについてもう一度考えてみる。
生成AIにインプットする「人間のデータ」のタイプは,デジタルデータの種類にも対応して次のように分類される。
・テキスト(人間の書いた文書)文学,非文学
・音声(人間が発した言葉)会話,音楽
・画像(人間の描いたもの,撮影したもの)絵画,写真,デザイン
・映像(人間が作ったもの,撮影したもの)ビデオ
・嗅覚・味覚・触覚(非視聴覚データ)料理
そして,このうちの簡単にネットで入手できるタイプのテキストデータが枯渇するという話だった。そもそも人間のすべての活動には情報(データ)がついてまわる。わかりやすいものは,ウェブ上に公開されているいる言語テキストだけれど,そうでないものも多い。
例えば,ある製品を構成しているすべての部品リスト,それを製作し流通させている会社のリスト,その際に発生する費用のリスト,ある部品の製作にかかわる工程のリスト,それに必要なエネルギーや労働力のリストなど,企業活動におけるサプライチェーンの実態情報は表には出ていないので,生成AIの入力にはなっていない。たぶん。
こんな感じで,各分野の人間の社会的な活動にまつわる非常に多くの情報はまだ埋もれたままだ。
それ以前に,有史以来蓄積してきたテキストデータもすべてが網羅されていない。ChatGPTは,浄瑠璃の床本のデータも,古典文学のデータも,仏教の経典も,俳句や短歌のデータも,主なもの以外は何も知らない(個別の取組みはあるにせよ)。シェークスピアとか聖書だと違うのかもしれない。とにかく,まだまだやるべきことは多いはずなのだけれど,たぶん手間とお金がかかるので放置されている。
ということで,人間のデータの時代は本当はまだ終るべきではないと思う。
図:経験の時代のイメージ(ChatGPT 4oによる)
P. S. 日本の古典に関しては,有名なもの以外,ほとんどフェイクな回答が返ってくる。内閣府や文部科学省は,日本学術会議をいじめている暇があったら,日本古典籍の完全学習を目指して資源を投入してほしい。J-POPと並んで,ビンボー日本の生き残る道だから。
0 件のコメント:
コメントを投稿