2026年4月11日土曜日

markitdown

pdf2mdからの続き


図:マークダウンのイメージ(Geminiによる)


マイクロソフトが,いろいろなタイプのドキュメントをマークダウン化できるツール(markitdown) を出しているという。PDF,PowerPoint,Word,Excel,Images (EXIF metadata and OCR),Audio (EXIF metadata and speech transcription),HTML,Text-based formats (CSV, JSON, XML),ZIP files (iterates over contents),Youtube URLs,EPubsなどなど。いいじゃないですか。

さっそくインストールしてみた。最近のものかと思えば,2024年12月の記事があったので,前からあったのか。それでもバージョンは 0.15なので,いまひとつ進んでいないような。

% git clone https://github.com/microsoft/markitdown.git
% source myenv/bin/activate
(myenv) % pip install markitdown
(myenv) % which markitdown
/Users/koshi/myenv/bin/markitdown
(myenv) % markitdown ~/Desktop/mext.pdf -o ~/Desktop/mext.md

こんな感じで使えるには使えたのだが・・・,文部科学省のpdfファイルのせいなのか・・・
出力がまったくちゃんとしたmdファイルにはなっていないので,もとのpdfファイルの構造が見えなくなってしまっている。MacDownで確認するまでもない。

ChatGPTに相談してもあきらめ顔だった。1年前の記事だとなんとなくよさげだが,どうやらそうでもない。pdf2mdのほうがよほどましなので困ってしまう。

0 件のコメント: