NDLOCR-Liteは、NDLOCRの軽量版を目指して開発したOCRであり、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、図書や雑誌といった資料のデジタル化画像からテキストデータが作成できるOCRです。
前回の,古典籍の方はくずし字や旧字への対応を謳っていたが,今回は一般的なOCRである。前回同様,Mac版もあって,GUIアプリでもコマンドラインでも使えることが有り難い。図はApple Silicon用アプリでの実行画面である。
コマンドラインで使う方法は,NDLOCR-Liteアプリケーションのリポジトリの中にある。
source myenv/bin/activate
これでpythonの仮想環境に移動
git clone https://github.com/ndl-lab/ndlocr-lite
cd ndlocr-lite
pip install -r requirements.txt
cd src
(例1:ディレクトリからの)
python3 ocr.py --sourcedir sample-dir --output tmpdir
(例2:画像ファイルからの)
python3 ocr.py --sourceimg sample.jpg --output tmpdir
以下のような内容のテキストファイルができる。(一部抜粋引用)
或日のことでございます。お釋迦樣は極樂の蓮池のふちを、獨りでぶら〳〵お歩きになつていらつしやいました。池の中に咲いてゐる蓮の花は、みんな玉のやうにまつ白で、そのまん中にある金色の蕋からは、何とも言へない好い匂が、絶間なくあたりへ溢れて居りました。