2022年6月4日土曜日

NDL Ngram Viewer

 NDLラボ国立国会図書館の実験的サービスを提供するサイトである。

そこで,NDL Ngram Viewerが5月から公開されている。国立国会図書館デジタルコレクションでインターネット公開されている資料のうち,著作権保護期間が満了した図書資料約28万点のOCRテキストデータから集計した,約8.3億種類の単語及びフレーズを使って,ある単語やフレーズが年代別にどのくらい使われているかを可視化するアプリケーションだ。

複数の単語を/で並べて入力すると1つのグラフでこれらを比較することができる。横軸は年代だが,著作権保護期間満了という条件があるため,明治から戦後しばらくまでの間は有効だが,それを外れると例外的な点しかでてこない。正規表現が使えるのでかなり凝った処理ができそうだ。

グラフの横軸が年代で,縦軸に単語の出現頻度あるいは出現確率が出てくる。出現確率は,総N-gram数を分母にと書いてあったので??となった。N-gramというと,昔,全文検索エンジンを勉強していたときにでてきた記憶がある。単語のかわりに文字を単位とし,N文字の並びの出現頻度を使って全文検索を実現するものだ。単語の区切りにとらわれず,すべての文字の並びを切り出して処理していた。総N-gram数というと膨大な数にならないか。

説明をよく読んでみると,「全文テキストデータに対して異体字等の丸め処理を行った後,NormalモードのKuromojiで形態素解析を行い,形態素gramで1gramから5gramまでの総出現頻度が4以上の単語及びフレーズを集計しています」とあった。そういうことね,文字ではなく形態素解析で品詞分解したものを使うのか,しかも 1≦N≦5 なので,これならば適当な数に収まる。

さっそく,「代数学/幾何学/解析学/統計学」や「宇宙/原子/原子核/素粒子」などで調べてみた。「力学/電磁気学/熱力学/統計力学」として力学は使えないことに気付く。なぜならば形態素解析では,熱力学も統計力学も熱+力学,統計+力学に分解されるので,ここからも力学のヒットが生じてしまうからだ。うーん・・・。これは仕方ないのかもしれない。




図:Ngram Viewerの出力(電磁気学/熱力学/統計力学/量子力学)
上段は総Ngram数に対する相対確率,下段は出現頻度の絶対値

0 件のコメント: