2026年3月31日火曜日

GLM-OCR

NDLOCR-Lite からの続き 


図:GLM-OCRのイメージ(Nano Banana 2 による)


なぜか知らないが,OCRについてのこだわりが強い。そこまで使い込むわけではないのだけれど(というか普段ほとんど使わない),イメージファイルをテキスト化することができれば,検索の俎上にのるという誘惑が大きい。

最近ネットで目にしたのが GLM-OCRである。 触れ込みはつぎのとおり
「OCRはAPIに送るもの」という発想が変わる。
・GLM-OCRは約2GB VRAMでローカル動作。
・表も数式も扱えて、Mac Studio M2 Ultraで約260 tok/s。
・ローカルモデルは驚異的なペースで改善され軽量に。
Geminiに尋ねると,ollama run glm-ocr で使えるとのこと。ollamaはインストール済みだ。
Ollama は,自分のPC上で大規模言語モデル(LLM)を動かすための軽量な実行環境だ。もう少し構造的に言うと、Ollamaは次の3つをまとめたものになる。
モデル管理:LlamaなどのLLMをダウンロード・切り替えする仕組み
推論エンジン:実際にテキスト生成を計算する部分(llama.cpp系)
APIサーバ:外部プログラムから使えるインターフェース(localhostで動く)
その後,出てくるプロンプトに対して, >>> analyze this: /Users/koshi/Desktop/qm.jpg
などとすればよい。日本語はあまりうまく認識できていなかったが,数式や表がでてくるところは,NDL-OCR より多少マシかも知れない。

0 件のコメント: