On a Thread of the Web: GLM-OCR

2026年3月31日火曜日

GLM-OCR

NDLOCR-Lite からの続き

図：GLM-OCRのイメージ（Nano Banana 2 による）

なぜか知らないが，OCRについてのこだわりが強い。そこまで使い込むわけではないのだけれど（というか普段ほとんど使わない），イメージファイルをテキスト化することができれば，検索の俎上にのるという誘惑が大きい。

最近ネットで目にしたのが GLM-OCRである。触れ込みはつぎのとおり。

「OCRはAPIに送るもの」という発想が変わる。
・GLM-OCRは約2GB VRAMでローカル動作。
・表も数式も扱えて、Mac Studio M2 Ultraで約260 tok/s。
・ローカルモデルは驚異的なペースで改善され軽量に。

Geminiに尋ねると，ollama run glm-ocr で使えるとのこと。ollamaはインストール済みだ。

Ollama は，自分のPC上で大規模言語モデル（LLM）を動かすための軽量な実行環境だ。もう少し構造的に言うと、Ollamaは次の3つをまとめたものになる。
・モデル管理：LlamaなどのLLMをダウンロード・切り替えする仕組み
・推論エンジン：実際にテキスト生成を計算する部分（llama.cpp系）
・APIサーバ：外部プログラムから使えるインターフェース（localhostで動く）

その後，出てくるプロンプトに対して， >>> analyze this: /Users/koshi/Desktop/qm.jpg

などとすればよい。日本語はあまりうまく認識できていなかったが，数式や表がでてくるところは，NDL-OCR より多少マシかも知れない。