ラベル データ の投稿を表示しています。 すべての投稿を表示
ラベル データ の投稿を表示しています。 すべての投稿を表示

2019年6月27日木曜日

教育ビッグデータ(2)

教育ビッグデータ(1)からの続き)

文部科学省の政策提言に「教育ビッグデータ」という言葉を発見したときに軽い違和感があった。ディープラーニング(あるいはAI)が流行するにつれてやや背景に退き気味だった「ビッグデータ」に再会したような気分だった。

ビッグデータの定義は,「高ボリューム,高速度,高バラエティのいずれか(あるいは全て)の情報資産であり,新しい形の処理を必要とし,意思決定の高度化,見識の発見,プロセスの最適化に寄与する」である。ビックデータを背景にしながら,その解析にもちいられるディープラーニングがAIの表の顔としてもてはやされていた。

なお,教育ビッグデータ=教育データマイニングラーニング・アナリティクスということで,教育工学の何度目かのお色直しであり,25年前のインターネット,10年前のeラーニング・デジタル教科書,などの正当な後継者としての役割を与えられるのだろう。

Googleトレンドで,データマイニング,ビッグデータ,ディープラーニングのポピュラリティを,この15年間について調べると次のようになった。

図 Googleトレンドによる人気度の傾向

20年前にはやったデータマイニングは漸減している。2013年にはビッグデータがピークを迎え,その4年後にはディープラーニングがピークを迎えている。次には何がはやるのか楽しみだ。

[1]ビッグデータとは何か(総務省)
[2]教育ビッグデータ早わかり(デジタル・ノレッジ)
[3]教育ビッグデータを用いた教育・学習支援のためのクラウド情報基盤(京都大学)
[4]ラーニングアナリティクスセンター(九州大学基幹教育院)
[5]実用段階に入ったビッグデータの教育活用(岡山大学教育学部)
[6]教育ビッグデータで変わる教育(ベネッセ教育総合研究所)
[7]Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics: An Issue Brief(US Department of Education)
[8What is Big Data? A Consensual Definition and a Review of Key Research TopicsAndrea De Mauro, Marco Greco and Michele Grimaldi
[9]EducationalDatamining.org
[10]Learning Analytics (UNESCO)
[11]ビッグデータから見落とされる人間的洞察(トリシア・ワン)

教育ビッグデータ(3)に続く)

2019年6月26日水曜日

教育ビッグデータ(1)

2019年6月25日に,文部科学省は「新時代の学びを支える先端技術活用推進方策(最終まとめ)」を公表した。普通ならば,何らかの検討組織を編成して,文部科学大臣が諮問するような形を取りそうなものだ。ここでは,2018年11月に提出された「柴山・学びの革新プラン」というスケッチを踏まえて,文部科学省初等中等教育局に「学びの先端技術活用推進室」を新設している。そして,よく分からないブラックボックスで「地方自治体、事業者,研究者等の知見を有する関係者と意見交換」した結果として,3ヶ月で中間まとめ,半年で最終まとめを公表している。また,具体的な政策に落とし込む詰めの作業には今年いっぱいかかるようだ。(P. S. ただちに,先端技術・教育ビッグデータ利活用推進本部を設けて,そこで作業することになったのか)

以下,だらだらとした感想。

【1】社会構造や雇用環境の変化に対応する教育として,「子供の多様化に向き合った公正に個別最適化した学び」が必要だとしている。一歩間違うとかなり危険なものになりそうだが,そのあたりの重要な原理的な問題点にはあまり触れられることもなく,とりあえず結論を目指して突っ走ったような印象を受ける。

【2】上記目的ののために,ICT 環境を基盤とした先端技術や教育ビッグデータの活用が必要であるとしている。個別の学びのためにセンシング技術が重要だということで,日本中の子供たちに脳波や運動測定のためのヘッドギアか腕輪がつけられそうな勢いかと思ったが,説明の例としては発話と視線のデータ取得があげられている。

【3】EBPM(エビデンス・ベースド・ポリシー・メイキング)がということばが説明なしに使われているのかと思ったがこれは自分の勘違い。要は教育ビッグデータを収集・分析したいということだ。誰が。ベネッセですか。

【4】ビッグデータ化に関連して,学習指導要領のコード化によるデータの標準化のイメージが示されていた。教育コンテンツ一般とすると範囲が広すぎるけれど,学習指導要領は有限だからなんとかなるのか。探究学習などで指導要領から外れるコンテンツはどうするのかしら。あるいは旧NICER現在はGENESなのかNICERDBなのか)の二の舞いとか。

【5】SINETを初等中等教育に開放するといっても,結局教育委員会単位で束ねてつなぎ込むわけで。クラウドを推進するのであれば,各学校が独立にプロバイダーに直接つなぐ予算をつけるほうがよくないか。

【6】おまけとして,校務の効率化のため遠隔技術を活用した研修や会議を進めるとある。かつてのメディア教育開発センターの衛星通信システムSCSでは国立大学全体をカバーするような運用会議を実施していたけれど,あっという間に廃止されてしまった。

【7】結局,これらを実現するための学校ICT環境の整備+個人向け端末(私費)への誘導で,大手ベンダーやら内田洋行やらもろもろの企業に商機を与えるのが主目的なのかもしれない。

【8】従来取り散らかしながら進められてきた,あるいは進めようとして障害にぶつかっていたICT政策をてんこ盛りにしているような気がする。それもこれも,経産省フレーバに満ちあふれる官邸への対抗意識に満ちた忖度の結晶。

結論:教育ビッグデータは,EBPMによる予算獲得のための擬似餌の可能性が高い。十分に検討や設計がされておらず,これで収益を得る企業や組織は非常に限定される。ICT環境の基盤整備が本命で(受益企業などが圧倒的に増える),このブレークスルーのためにさまざまな要素を盛り込んだと思われる。あるいは,その構造全体を擬似餌とみれば,子どもたちが1人1端末を自由に学校で使う世界への第一歩をめざしているという,超希望的観測も成り立たないとはいえない。これまでの歴史をみれば,文部科学省が鳴り物入りで政策的に進めようとすることは,たいていつまづいたり大きな副作用を生ずるのだけれど。

教育ビッグデータ(2)に続く)

2019年1月18日金曜日

日本古典籍データセット

Yahoo!知恵袋データ(第3版)  からの続き)


国立情報学研究所(NII)の情報研究データリポジトリの末尾には,提供を完了したデータセットとして,国文研データセットがあげられており,情報・システム研究機構 人文学オープンデータ共同利用センターに移管されたとされている。

それがこちら,人文学オープンデータ共同利用センター日本古典籍データセットである。このセンターにはこれ以外にも下記のような7種のデータセット等が提供されている。日本古典籍データセットの方は,2017年12月現在で(最近は滞っているのだろうか・・・)1767点(329,702コマ)のデータが集積されている。すべてのzipデータを合計すると665GB以上とのことで取り扱い注意だ。その内容は以下のとおり。

古典籍画像データ 
 各作品の画像データをJPEG形式で保存したものです。国文学分野のほか、国文学研究資料館が所蔵する医学や理学、産業など多分野の古典籍、さらに味の素 食の文化センターが所蔵する料理本等で、国文学研究資料館が撮影した古典籍を含みます。

書誌データ 
 各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「新日本古典籍総合データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。

本文テキストデータ 
 翻刻した本文テキストデータをプレーンテキストまたはDOCX形式で保存したものです。一部の作品に限ります。

タグデータ 
 国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式でまとめたものです。一部の作品に限ります。

こちらはライセンスが, なので,ちょっと安心である。
本文テキストデータを充実させてほしいかな。浄瑠璃の床本データとか。


- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
(1) 江戸料理レシピデータセット
(2) 日本古典籍くずし字データセット
(3) KMNISTデータセット
(4) 武鑑全集
(5) 顔貌コレクション
(6) 近代雑誌データセット
(7) Geoshapeリポジトリ

P. S. 「国文研の古典籍オープンデータセットであそぶ

2019年1月17日木曜日

Yahoo!知恵袋データ(第3版)

国立情報学研究所(NII)が,情報学研究データリポジトリとして,様々なデータセットを公開している(下記リスト参照)。最近公開されたのが,Yahoo!知恵袋データ(第3版)だ。Yahoo!知恵袋は,Yahoo株式会社が2004年から公開している利用者参加によるQ&A型のコミュニケーションサイトで,現時点の質問総数が 2.0 億件,回答総数が 4.9 億件,利用登録数が 0.47 億件である。ここには,研究機関への研究データ提供に関する注意も掲載されている。

「Yahoo! JAPANでは投稿者のYahoo! JAPAN IDを暗号化するなど、個人を特定することができない情報に処理したうえで投稿内容、投稿日時などの投稿に関する情報を大学、独立行政法人などの研究機関に提供します。Yahoo! JAPANが提供する情報によって、当該大学、独立行政法人などが投稿者が誰であるかを知ることはありません。」

一般に,Yahoo!知恵袋の回答の信頼度はあまり高くないといわれているような気がするが(実証データを見たことはない),ある分野でどんな質問が出されており,何が問題とされているのかについては,一定の知見を得ることができる。これをある種のeラーニングシステムや,自学自習システムのベースとして利用することは可能かもしれない。

10年ほど前に教育学部理科の卒業研究で「小学校教員のための理科質問検索システムの構築について」というテーマを取り上げたときに,質問のデータベース構築のために,インターネット上のQ&Aシステムでよく取り上げられる質問を参考にしたり,附属学校で子どもたちにアンケートをとったりしたことがあったのを思い出した。


ところで,Yahoo!知恵袋データ(第3版)の利用条件はかなりきつい。基本的に大学等の研究機関の研究者に限定されているため,企業との共同研究なども難しそうである。

「申請の単位は大学の研究室等とし,申請者は研究室等を代表する常勤の職員(大学の場合は教員等,研究機関の場合は研究員等)の方として下さい。また,契約締結者は法人を代表してデータ利用契約書を締結する権限のある方で,データ利用に関する同意書に押印いただく公印をお持ちの方(通常は学部長相当以上の方)としてください。
 本データを利用できるのは,申請者自身および申請者と同一機関に所属(職員,在学生など正規の在籍に限る)し,かつ同一研究室等において申請者の管理の下で研究活動を行う方のみです。たとえ共同研究で使用する場合あっても,他機関や他の独立した研究室の方が使用する場合は,別途に申請して下さい。」となっている。


Yahoo!知恵袋の場合は年齢情報はないが,学習者の抱く疑問(Q&AのQのみで良いかもしれない)のデータベースが,完全なオープン・リソースとして,学校教育の各分野や領域で整備されるとおもしろいことができそうな気がするのだが・・・


- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
(1) Yahoo!データセット
 ・Yahoo!知恵袋データ(第3版)
(2) 楽天データセット
 ・楽天市場の全商品データ,レビューデータ
 ・楽天トラベルの施設データ,レビューデータ
 ・楽天GORAのゴルフ場データ,レビューデータ
 ・楽天レシピのレシピ情報,レシピ画像
 ・PriceMinisterのユーザレビュー,レビュー有効性情報アノテーション付きデータ
(3) ニコニコデータセット
 ・ニコニコ動画コメント等データ
 ・ニコニコ大百科データ
(4) リクルートデータセット
 ・ホットペッパービューティーデータ
(5) クックパッドデータセット
 ・レシピデータ,献立データ
(6) LIFULL HOME'Sデータセット
 ・賃貸物件スナップショットデータ(賃貸物件データ+画像データ)
 ・高精細度間取り図画像データ
 ・賃貸・売買物件月次データ
(7) 不満調査データセット
 ・投稿された不満データ,ユーザ情報
 ・カテゴリ別不満特徴語辞書
(8) Sansanデータセット
 ・サンプル名刺データ
(9) インテージデータセット
 ・i-SSPデータ
 ・みんレポデータ


日本古典籍データセットに続く)