図:GLM-OCRのイメージ(Nano Banana 2 による)
なぜか知らないが,OCRについてのこだわりが強い。そこまで使い込むわけではないのだけれど(というか普段ほとんど使わない),イメージファイルをテキスト化することができれば,検索の俎上にのるという誘惑が大きい。
最近ネットで目にしたのが GLM-OCRである。 触れ込みはつぎのとおり。
「OCRはAPIに送るもの」という発想が変わる。
・GLM-OCRは約2GB VRAMでローカル動作。
・表も数式も扱えて、Mac Studio M2 Ultraで約260 tok/s。
・ローカルモデルは驚異的なペースで改善され軽量に。
Geminiに尋ねると,ollama run glm-ocr で使えるとのこと。ollamaはインストール済みだ。
Ollama は,自分のPC上で大規模言語モデル(LLM)を動かすための軽量な実行環境だ。もう少し構造的に言うと、Ollamaは次の3つをまとめたものになる。・モデル管理:LlamaなどのLLMをダウンロード・切り替えする仕組み・推論エンジン:実際にテキスト生成を計算する部分(llama.cpp系)・APIサーバ:外部プログラムから使えるインターフェース(localhostで動く)
その後,出てくるプロンプトに対して, >>> analyze this: /Users/koshi/Desktop/qm.jpg
などとすればよい。日本語はあまりうまく認識できていなかったが,数式や表がでてくるところは,NDL-OCR より多少マシかも知れない。
0 件のコメント:
コメントを投稿