On a Thread of the Web: MacのOCR（１）

2023年1月8日日曜日

だいぶ以前，MacでOCRを使いたいと思ったことがあった。散々探し回ったけれどなかなか適当なアプリケーションがなくてそのままになっていた。

ふと気がつくとMacでOCRできるコマンドがころがっていた。Tesseractというものだ。homebrewでインストールしてみると，すでに導入済みだ。あれ？いつ入れたっけ。覚えていないので再インストールし，ついでに日本語セットもインストールした。

brew install tesseract
brew install tesseract-lang
tesseract --list-langs | grep jpn
jpn
jpn_vert
tesseract test.png test.txt -l jpn+jpn_vert

tesseractでOCRを体験しようにあるような例を一通り試してみたところうまくいっている。横書きと縦書きの混合文も大丈夫だけれど，日本語と英語が混じっている場合，わずかに狂いが生じる場合もありそうだ。また，手書き文字はやはりうまくいかない。これが実用的かどうかはちょっと未知数。

しかし，そもそも何をOCRしようと思っていたのかを忘れてしまっている老人だった。

あっ，思い出した（というかblogを検索して見つけた，こういうときのために毎日ログをとっているわけだ）。WHOのCOVID関係のデータがpdfになっていて，そこからテキストデータを取り出したかったのだ。しかし，これは，pdftotextで解決済みだった（久々のPerl 2020.3.18）。