NHK大河ドラマの「光る君へ」では毎回,出演者の努力の結晶である美しい筆運びが披露されている。古典籍のくずし字を読めたらいいなと思うことはしばしばで,教科書を買って積ん読状態にして挫折したことも何度もある。最近は,OCR技術が進んだのでその恩恵を被ることができるようになった。
NDL古典籍OCR-Liteは,GPUを持たないノートパソコンの環境で,江戸期以前の和古書,清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCRだ。先日,NDLラボ公式GitHubで公開されたところだ。
Mac版のアプリケーションも公開されているので,怪しくないよとmacOSに宣言してあげれば使うことができる。早速試してみた。「古」を象ったアイコンのアプリケーションだ。
国立国会図書館デジタルコレクションの枕草紙の最初の1ページを試しに与えてみたところ,
結果は次のようなテキストファイルで出力された。
枕草紙「阿波国81
春はあけほのそらはいたくかろみにたるにやう〳〵しろくなりゆく山きはのすこしつゝあかみてむらさきたちたる雲のほそくたな引たるなといとおかし夏はよる月のころはさらなりやみもなをほたるおほ〳〵とひちかひた又たゝ一二なとほのかにうちひかりてゆくもいとおかし雨のとやかにふりたるさへこそおかしけれ秋は夕暮夕日のきはやかにさして山の葉ちかみ
あれ?普通の枕草子とは違うのかな?
写真:枕草紙のイメージ(NDLデジタルライブラリから引用)
0 件のコメント:
コメントを投稿