2019年1月17日木曜日

Yahoo!知恵袋データ(第3版)

国立情報学研究所(NII)が,情報学研究データリポジトリとして,様々なデータセットを公開している(下記リスト参照)。最近公開されたのが,Yahoo!知恵袋データ(第3版)だ。Yahoo!知恵袋は,Yahoo株式会社が2004年から公開している利用者参加によるQ&A型のコミュニケーションサイトで,現時点の質問総数が 2.0 億件,回答総数が 4.9 億件,利用登録数が 0.47 億件である。ここには,研究機関への研究データ提供に関する注意も掲載されている。

「Yahoo! JAPANでは投稿者のYahoo! JAPAN IDを暗号化するなど、個人を特定することができない情報に処理したうえで投稿内容、投稿日時などの投稿に関する情報を大学、独立行政法人などの研究機関に提供します。Yahoo! JAPANが提供する情報によって、当該大学、独立行政法人などが投稿者が誰であるかを知ることはありません。」

一般に,Yahoo!知恵袋の回答の信頼度はあまり高くないといわれているような気がするが(実証データを見たことはない),ある分野でどんな質問が出されており,何が問題とされているのかについては,一定の知見を得ることができる。これをある種のeラーニングシステムや,自学自習システムのベースとして利用することは可能かもしれない。

10年ほど前に教育学部理科の卒業研究で「小学校教員のための理科質問検索システムの構築について」というテーマを取り上げたときに,質問のデータベース構築のために,インターネット上のQ&Aシステムでよく取り上げられる質問を参考にしたり,附属学校で子どもたちにアンケートをとったりしたことがあったのを思い出した。


ところで,Yahoo!知恵袋データ(第3版)の利用条件はかなりきつい。基本的に大学等の研究機関の研究者に限定されているため,企業との共同研究なども難しそうである。

「申請の単位は大学の研究室等とし,申請者は研究室等を代表する常勤の職員(大学の場合は教員等,研究機関の場合は研究員等)の方として下さい。また,契約締結者は法人を代表してデータ利用契約書を締結する権限のある方で,データ利用に関する同意書に押印いただく公印をお持ちの方(通常は学部長相当以上の方)としてください。
 本データを利用できるのは,申請者自身および申請者と同一機関に所属(職員,在学生など正規の在籍に限る)し,かつ同一研究室等において申請者の管理の下で研究活動を行う方のみです。たとえ共同研究で使用する場合あっても,他機関や他の独立した研究室の方が使用する場合は,別途に申請して下さい。」となっている。


Yahoo!知恵袋の場合は年齢情報はないが,学習者の抱く疑問(Q&AのQのみで良いかもしれない)のデータベースが,完全なオープン・リソースとして,学校教育の各分野や領域で整備されるとおもしろいことができそうな気がするのだが・・・


- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
(1) Yahoo!データセット
 ・Yahoo!知恵袋データ(第3版)
(2) 楽天データセット
 ・楽天市場の全商品データ,レビューデータ
 ・楽天トラベルの施設データ,レビューデータ
 ・楽天GORAのゴルフ場データ,レビューデータ
 ・楽天レシピのレシピ情報,レシピ画像
 ・PriceMinisterのユーザレビュー,レビュー有効性情報アノテーション付きデータ
(3) ニコニコデータセット
 ・ニコニコ動画コメント等データ
 ・ニコニコ大百科データ
(4) リクルートデータセット
 ・ホットペッパービューティーデータ
(5) クックパッドデータセット
 ・レシピデータ,献立データ
(6) LIFULL HOME'Sデータセット
 ・賃貸物件スナップショットデータ(賃貸物件データ+画像データ)
 ・高精細度間取り図画像データ
 ・賃貸・売買物件月次データ
(7) 不満調査データセット
 ・投稿された不満データ,ユーザ情報
 ・カテゴリ別不満特徴語辞書
(8) Sansanデータセット
 ・サンプル名刺データ
(9) インテージデータセット
 ・i-SSPデータ
 ・みんレポデータ


日本古典籍データセットに続く)

0 件のコメント: