2024年11月30日土曜日

古典籍OCR-Lite

NDLデジタルコレクションからの続き

NHK大河ドラマの「光る君へ」では毎回,出演者の努力の結晶である美しい筆運びが披露されている。古典籍のくずし字を読めたらいいなと思うことはしばしばで,教科書を買って積ん読状態にして挫折したことも何度もある。最近は,OCR技術が進んだのでその恩恵を被ることができるようになった。

NDL古典籍OCR-Liteは,GPUを持たないノートパソコンの環境で,江戸期以前の和古書,清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCRだ。先日,NDLラボ公式GitHub公開されたところだ

Mac版のアプリケーションも公開されているので,怪しくないよとmacOSに宣言してあげれば使うことができる。早速試してみた。「古」を象ったアイコンのアプリケーションだ。

国立国会図書館デジタルコレクション枕草紙の最初の1ページを試しに与えてみたところ,
結果は次のようなテキストファイルで出力された。
枕草紙「阿波国81 
春はあけほのそらはいたくかろみにたるにやう〳〵
しろくなりゆく山きはのすこしつゝあかみて
むらさきたちたる雲のほそくたな引たる
なといとおかし
夏はよる月のころはさらなりやみもなをほたる
おほ〳〵とひちかひた又たゝ一二なとほのかに
うちひかりてゆくもいとおかし
雨のとやかにふりたるさへこそおかしけれ
秋は夕暮夕日のきはやかにさして山の葉ちかみ
あれ?普通の枕草子とは違うのかな?


写真:枕草紙のイメージ(NDLデジタルライブラリから引用)


0 件のコメント: