2026年3月1日日曜日

NDLOCR-Lite

古典籍OCR-Liteからの続き


 図:NDLOCR-Liteの実行例の画面(蜘蛛の糸:芥川龍之介)

2月24日,国立国会図書館(NDL)からNDLOCR-Liteの公開の案内があった。
NDLOCR-Liteは、NDLOCRの軽量版を目指して開発したOCRであり、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、図書や雑誌といった資料のデジタル化画像からテキストデータが作成できるOCRです。
前回の,古典籍の方はくずし字や旧字への対応を謳っていたが,今回は一般的なOCRである。前回同様,Mac版もあって,GUIアプリでもコマンドラインでも使えることが有り難い。図はApple Silicon用アプリでの実行画面である。

コマンドラインで使う方法は,NDLOCR-Liteアプリケーションのリポジトリの中にある。

source myenv/bin/activate
これでpythonの仮想環境に移動

git clone https://github.com/ndl-lab/ndlocr-lite
cd ndlocr-lite
pip install -r requirements.txt
cd src
(例1:ディレクトリからの)
python3 ocr.py --sourcedir sample-dir --output tmpdir
(例2:画像ファイルからの)
python3 ocr.py --sourceimg sample.jpg --output tmpdir

以下のような内容のテキストファイルができる。(一部抜粋引用)
或日のことでございます。お釋迦樣は極樂の蓮池のふちを、獨りでぶら〳〵
お歩きになつていらつしやいました。
池の中に咲いてゐる蓮の花は、みんな玉のやうにまつ白で、そのまん中にあ
る金色の蕋からは、何とも言へない好い匂が、絶間なくあたりへ溢れて居りま
した。

[1] ウェブアプリで使いやすくなった NDLOCR-Lite