石原純の「現代物理の基礎理論」という古いpdfファイルを見かけた。中央公論社が1943年の3月に発行した,國民學術協會編の國民學術選書の一冊である。講演録の「現代物理學の基礎理論」と書き下ろしの「自然科学の方法論について」からなる160ページ(63MB)ほどの本だ。
画像イメージのpdfなので,そのままではテキストが取り出せない。さっそく前回のショートカットによるmacOSのOCR機能を使ったコマンドに2-3ページを投入する。すぐにテキストは抽出出来たものの,解像度の悪い旧字ファイルなので,精度が悪い。
Geminiに相談したところ,
第1推奨:高性能な市販PDFソフト/OCRサービス(Adobe Acrobat Proなど)
第2推奨:Google ドライブのOCR機能(フリー)
第3推奨:macOS標準の「プレビュー」アプリ(低精度・非推奨)
とのことだった。
市販のものはコストがかかるので,GoogleドライブのOCR機能を試すことに。
(1) Googleドライブにpdfファイルをアップロード
(2) Googleドライブ中のpdfファイルを選び右クリック,Googleドキュメントを選んで開く。
(3) これでtextファイルができあがり。
・63MBの元ファイルは扱えなかったので,qpdf --split-pages=15 ishihara.pdf ishihara.pdf で分割した。20ページ分割ではエラーだったので,15ページ分割でOKとなる。
・でき上がったファイルは1文字1ページで1万ページに達したが,普通のテキストエディタにそのままコピペすれば問題なし。
・やはり旧字の誤認識が混じるがさきほどよりはましである。
肝腎の本書の内容はそこまでおもしろくはないかもしれない。
写真:石原純(理科ハウスから引用)

0 件のコメント:
コメントを投稿