On a Thread of the Web: NDL Ngram Viewer

2022年6月4日土曜日

NDL Ngram Viewer

NDLラボは国立国会図書館の実験的サービスを提供するサイトである。

そこで，NDL Ngram Viewerが5月から公開されている。国立国会図書館デジタルコレクションでインターネット公開されている資料のうち，著作権保護期間が満了した図書資料約28万点のOCRテキストデータから集計した，約8.3億種類の単語及びフレーズを使って，ある単語やフレーズが年代別にどのくらい使われているかを可視化するアプリケーションだ。

複数の単語を／で並べて入力すると１つのグラフでこれらを比較することができる。横軸は年代だが，著作権保護期間満了という条件があるため，明治から戦後しばらくまでの間は有効だが，それを外れると例外的な点しかでてこない。正規表現が使えるのでかなり凝った処理ができそうだ。

グラフの横軸が年代で，縦軸に単語の出現頻度あるいは出現確率が出てくる。出現確率は，総N-gram数を分母にと書いてあったので？？となった。N-gramというと，昔，全文検索エンジンを勉強していたときにでてきた記憶がある。単語のかわりに文字を単位とし，N文字の並びの出現頻度を使って全文検索を実現するものだ。単語の区切りにとらわれず，すべての文字の並びを切り出して処理していた。総N-gram数というと膨大な数にならないか。

説明をよく読んでみると，「全文テキストデータに対して異体字等の丸め処理を行った後，NormalモードのKuromojiで形態素解析を行い，形態素gramで1gramから5gramまでの総出現頻度が4以上の単語及びフレーズを集計しています」とあった。そういうことね，文字ではなく形態素解析で品詞分解したものを使うのか，しかも 1≦N≦5 なので，これならば適当な数に収まる。

さっそく，「代数学/幾何学/解析学/統計学」や「宇宙/原子/原子核/素粒子」などで調べてみた。「力学/電磁気学/熱力学/統計力学」として力学は使えないことに気付く。なぜならば形態素解析では，熱力学も統計力学も熱+力学，統計+力学に分解されるので，ここからも力学のヒットが生じてしまうからだ。うーん・・・。これは仕方ないのかもしれない。