2019年1月18日金曜日

日本古典籍データセット

Yahoo!知恵袋データ(第3版)  からの続き)


国立情報学研究所(NII)の情報研究データリポジトリの末尾には,提供を完了したデータセットとして,国文研データセットがあげられており,情報・システム研究機構 人文学オープンデータ共同利用センターに移管されたとされている。

それがこちら,人文学オープンデータ共同利用センター日本古典籍データセットである。このセンターにはこれ以外にも下記のような7種のデータセット等が提供されている。日本古典籍データセットの方は,2017年12月現在で(最近は滞っているのだろうか・・・)1767点(329,702コマ)のデータが集積されている。すべてのzipデータを合計すると665GB以上とのことで取り扱い注意だ。その内容は以下のとおり。

古典籍画像データ 
 各作品の画像データをJPEG形式で保存したものです。国文学分野のほか、国文学研究資料館が所蔵する医学や理学、産業など多分野の古典籍、さらに味の素 食の文化センターが所蔵する料理本等で、国文学研究資料館が撮影した古典籍を含みます。

書誌データ 
 各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「新日本古典籍総合データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。

本文テキストデータ 
 翻刻した本文テキストデータをプレーンテキストまたはDOCX形式で保存したものです。一部の作品に限ります。

タグデータ 
 国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式でまとめたものです。一部の作品に限ります。

こちらはライセンスが, なので,ちょっと安心である。
本文テキストデータを充実させてほしいかな。浄瑠璃の床本データとか。


- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
(1) 江戸料理レシピデータセット
(2) 日本古典籍くずし字データセット
(3) KMNISTデータセット
(4) 武鑑全集
(5) 顔貌コレクション
(6) 近代雑誌データセット
(7) Geoshapeリポジトリ

P. S. 「国文研の古典籍オープンデータセットであそぶ

0 件のコメント: