ラベル データ の投稿を表示しています。 すべての投稿を表示
ラベル データ の投稿を表示しています。 すべての投稿を表示

2023年9月14日木曜日

大学ポートレート

国際卓越研究大学からの続き

生成系AIによる調べものが挫折すると,原点のインターネット検索に戻ることになる。もちろん,各大学にアクセスして調べればいいのだが,各大学の情報構造がまちまちなので,これがとてつもなく面倒な話だ。

そんなとき,大学ポートレートというサイトに行き当たった。独立行政法人大学改革支援・学位授与機構が運営している。が,運営先を微妙に隠そうとしている。面倒なやつだ。

これを見ると,各大学の基本情報が同じ形式で整理されているので,目的が達成できそうだった。残念ながら,職員数と財務情報=大学予算規模が欠けている。そう,教員数は懇切丁寧に示しながら,職員数がいまひとつ分かりにくい大学が多かった。

不良老人の常で,こういう場合は早速クレ—ムを入れるのだった。

大学ポートレートの情報,大変参考になります。

現在,基本情報として,大学名,本部所在地,設立年(設置認可年),大学の連絡先(代表番号、メールアドレスなど)大学の種類,総学生数(学部),総学生数(大学院),総教員数(本務者)の8項目があげられています。

要望:
(1)総職員数,(2)大学の予算規模(≒損益計算書の経常収益または経常支出に対応するもの)の2項目を基本情報として追加していただけないでしょうか。

理由;
(1)大学の教育や運営には教員だけでなく,職員や支援スタッフがどれだけ充実しているかというのがますます重要な情報になっています。

(2)大学ファンドの運用規模が,各大学の予算規模と比べてどの程度のオーダーであり,日本の高等教育がどうなるかの全体像を理解するには,各大学の予算規模を基本情報として把握する必要があります。大学ポートレートの目的は必ずしも受験生だけのものでなく,広く国民が高等教育の在り方を理解するためのものだと思いますので,こうした情報は基本情報になると考えられます。

会社規模のイメージをつかむには,資本金,従業員数,売上高,純利益などを見ますね。どうぞよろしくお願いします。

追伸:対話型の生成AIの能力がもう少し向上すれば,このような手間は不要になるのですが,試してみたところ,あまりうまくいきませんでした。


要望への返事は返さないそうなので,暖簾に腕押し以外の何ものでもない。


と思っていたら,早速ていねいな御返事をいただいた。結論を要約すると以下のようになる。こちらの要望とは若干ズレているが,お忙しいところどうもありがとうございました。
(1)総職員数について
 大学改革支援・学位授与機構でまとめております「大学基本情報」にデータがございます。https://portal.niad.ac.jp/ptrt/table.html
(2)大学の予算規模について
 大学ポートレートの「基本情報」ページの一番下に、「財務諸表等」の項目があり、各大学法人ウェブサイトでの該当ページへのリンクを掲載しております。

2023年3月25日土曜日

教育データの利活用

3月22日に,文部科学省の教育データの利活用に関する有識者会議(2020.7-)が「教育データの利活用に係わる留意事項(第1版)」を公表した。

日経新聞では,「学習端末データ授業改善に活用/教師の経験頼み脱却」というタイトルの記事になっていた。BingChatに無理矢理要約させると次のようになった。
文部科学省が公表した指針によると、小中高校の児童生徒が学校で使うデジタル端末に蓄積された情報の活用について、初めての指針を公表したそうです。この指針により、教師が経験に頼ることなく、学習端末に蓄積されたデータを活用し、授業改善につなげることができるようになるそうです。また、ビッグデータの分析力を備えた外部機関との連携が求められるそうです。
日経の記事はかなりバイアスがかかったまとめ方をしていた。「留意事項」はもっと抽象的なものになっていて,(1) 個人情報の適切な取り扱い,(2) プライバシーの保護,(3) セキュリティ対策,について言及しながらシステムを外注する際のチェックポイントを整理したようなものだ。

10年前に,今後の大阪教育大学の方向性とからめて教育ビッグデータの重要性(と危険性)を話題にしていたころから進んでいない。スローガンに伴う具体的なイメージがはっきりしないのだ。いや自分が勉強していないだけかもしれない。

(1) 収集される学習データは非常に多様化し,複雑化するとおもわれる。従来型の成績+デジタルポートフォリオイメージでよいのか。
(2) 授業改善のための分析は結局外注することになるのではないか。あるいは分析ツールを買わされるのだろうか。教師が片手間でできる簡単な仕事ではない。
(3) 対話型AIをインターフェースとすれば,上記2つの課題は解決するのかもしれない。ビッグデータといいなわらしていたころとはかなり違うことになるが,問題解決のヒントくらいは見つかるかもしれない。
(4) この対話型AIシステムクラウドを日本国が自前で準備して無料で使わせるくらいのことをしてもバチはあたらないだろう(かなりこわい話だけれど,米国依存だとさらにマズイ)。

最初のコラムで,牽制するかのように「デジタル・シティズンシップ」を取り上げているのも唐突感が否めないがまあいいか。それにしても,この「留意事項」から感じる息苦しさはなんなのだろうか。個人情報保護法や著作権法にがんじがらめになっている上,自由な空気からほど遠い学校教育現場にこのようなシステムを導入すると,結局壮大な抑圧的管理網がかぶさるだけのような気もする。


P. S.  山本一郎いわく「統計量で教育データを扱うはずが,全量悉皆データをそのまま人工知能にぶち込んでしまい,自ら情報漏洩の危険を冒すお調子者教師」が散見されるそうだ。これはこれでピントがズレているような・・・



2022年12月16日金曜日

すべての本をデジタルに

本は消えるか?からの続き

トランプ時代の米国が,TPPから離脱するということで,著作権を70年延長するというのが避けられたかと一瞬気を許した2016年,「環太平洋パートナーシップ協定の締結に伴う関係法律の整備に関する法律案」が成立し著作権法も改悪されてしまった。青空文庫への影響も多大だ。

一方,著作権の例外規定によって著作物が自由に使える場合として,2019年改正ではAI による深層学習や情報解析に対応する条文が追加された。その延長線上で,これまでに人類が著した全ての本をデジタル化して大規模言語モデルに投入する場合にどの程度の情報量になるのかを考えてみよう。

Wikipediaには,Books published per country per year というデータがあった。年度にばらつきが在るものの,全世界では1年に220万冊(米国28万,中国21万,英国19万,日本14万など)という数字がある。そこで,世界人口と一年当たりの本の出版冊数が比例すると仮定する。その比例定数は,3×10^-4 冊/人となる。世界人口は1920年に20億人,2020年に80億人とすれば,この100年間の延べ人口・年は,(80+20)*100/2=5000億人・年なので,この100年の総出版冊数は1.5億冊と評価できる。

もし,それらの本が1冊100ページで1ページあたり1kBの文字情報があれば,1冊あたり100kBの情報量となる。これを先ほどの総出版冊数にかけると 1.5×10^13 byte = 15 TBだ。本以外の出版物や内部文書のことを考慮しても,100TBもあれば人類がこれまでに生産してきたすべての文字情報は格納できてしまう。画像も含めれば1-2桁増えるかもしれない。

2050年には世界人口90億になって,先ほどの延べ人口が2500億人・年分追加になる。つまり,これまでの結果を1.5倍すればよいので,25TBもあれば,シンギュラリティまでに人間が書いた本をすべて持ち運べるの。デジタル端末の容量を1000倍になればそれが可能になる(クラウドにおけば今でも可能だけれど)。


図:本が消えるイメージ(DiffusionBeeによる)

P. S. 話題爆発中のAI「ChatGPT」の仕組みにせまる!によれば,ChatGPTのパラメタは1750億であり,入力したコーパス量は570GBにのぼるらしい。そのコーパスをつくるために,インターネット空間でクロールした素データの量は45TBらしい。これはたぶんすごいゴミの山なので,先ほどの相対的にまともな100TBとは比べ物にならないだろう。

2022年6月4日土曜日

NDL Ngram Viewer

 NDLラボ国立国会図書館の実験的サービスを提供するサイトである。

そこで,NDL Ngram Viewerが5月から公開されている。国立国会図書館デジタルコレクションでインターネット公開されている資料のうち,著作権保護期間が満了した図書資料約28万点のOCRテキストデータから集計した,約8.3億種類の単語及びフレーズを使って,ある単語やフレーズが年代別にどのくらい使われているかを可視化するアプリケーションだ。

複数の単語を/で並べて入力すると1つのグラフでこれらを比較することができる。横軸は年代だが,著作権保護期間満了という条件があるため,明治から戦後しばらくまでの間は有効だが,それを外れると例外的な点しかでてこない。正規表現が使えるのでかなり凝った処理ができそうだ。

グラフの横軸が年代で,縦軸に単語の出現頻度あるいは出現確率が出てくる。出現確率は,総N-gram数を分母にと書いてあったので??となった。N-gramというと,昔,全文検索エンジンを勉強していたときにでてきた記憶がある。単語のかわりに文字を単位とし,N文字の並びの出現頻度を使って全文検索を実現するものだ。単語の区切りにとらわれず,すべての文字の並びを切り出して処理していた。総N-gram数というと膨大な数にならないか。

説明をよく読んでみると,「全文テキストデータに対して異体字等の丸め処理を行った後,NormalモードのKuromojiで形態素解析を行い,形態素gramで1gramから5gramまでの総出現頻度が4以上の単語及びフレーズを集計しています」とあった。そういうことね,文字ではなく形態素解析で品詞分解したものを使うのか,しかも 1≦N≦5 なので,これならば適当な数に収まる。

さっそく,「代数学/幾何学/解析学/統計学」や「宇宙/原子/原子核/素粒子」などで調べてみた。「力学/電磁気学/熱力学/統計力学」として力学は使えないことに気付く。なぜならば形態素解析では,熱力学も統計力学も熱+力学,統計+力学に分解されるので,ここからも力学のヒットが生じてしまうからだ。うーん・・・。これは仕方ないのかもしれない。




図:Ngram Viewerの出力(電磁気学/熱力学/統計力学/量子力学)
上段は総Ngram数に対する相対確率,下段は出現頻度の絶対値

2022年4月9日土曜日

Wordle(6)

 Wordle(5)からの続き   

Wordleを解くための支援プログラムを次のようなものとする。「5文字単語のデータベースを用意して,ワイルドカードを含む与えられた候補にマッチする単語を全て選び出して表示する」。perlでプログラムを組みたいところだったが,pythonの練習をすることにした。

5文字単語データベースとしては,前回示した WikiText-103 word Level からwords.shで処理したものを用いる。その後は,久々の python プログラミングなので,よちよち歩きながら試行錯誤する。

(1) コマンドラインの引数は,sysモジュールをimportすれば,sys.argv[n]でアクセスできる。sys.argv[0]はpythonスクリプト名,sys.argv[1] 以下で複数の引数を受け渡す。
(2) ファイルのオープンとクローズの方法は記載の通り。第1引数は先に求めてある5文字単語データファイル名である。
(3) テキストファイルを1行づつ分割して読み込むには,datalist=f.readlines() などとするとその結果のリストが 得られる。
(4) perlのようにdatalistから1行づつ取り出して処理をするのが,for data in datalist: である。
(5) 正規表現によるマッチングには,re モジュールをimportしたうえで,re.search(r'正規表現' , 原データ) という形式による。これが Noneでなければマッチしていることになる。
(6) 第2引数で入力する5文字のワイルドカードをピリオド(. )にしておけばそのまま正規表現として使えてるので便利である。
(7) データファイルは,wc -l で生成しているので,頭に頻度を表した数桁の数字が空白を区切りに付加されているため,'\d* '+arg としている。文字列の結合には,プラス(+)演算子を用いる。
(8) print文で余分の改行を削除するには,end="" をつければよい。
# usage: word.py w.txt a.b.c
import sys
import re

f = open(sys.argv[1], 'r')
datalist = f.readlines()
arg = sys.argv[2]

for data in datalist:
# print(arg, data, re.search(r'\d* '+arg, data))
  if(re.search(r'\d* '+arg, data) != None):
    print(data, end="")

f.close()

2022年4月8日金曜日

Wordle(5)

Wordle(4)からの続き

前回の復習:英文のテキストデータセットと単語の文字数 n が与えられたとする。文字数がnの単語を1行とした一時ファイルを作る。大文字は小文字に変換している。次に,wc -l によって一時ファイルの行数=n文字単語数を出力したものを並べたファイルを作る。また,上記の wc -l の前にsort | uniq フィルターをかけてユニークな n文字単語数についても同様のファイルを作る。これが,前回のwords.shプログラムのアルゴリズムだった。

具体例として,最初は手元にある数冊の英書の数千ページ(80MB)のpdfファイルからユニークにソートされた5文字単語(3万4千語)を抽出したものでテストした。もう少し大きなデータがないかと,オープンコーパスを色々探してみたが,なかなか適当なものがない。

最終的に,Wikipediaの記事を使ったデータセットにたどり着いた。多言語のWIki-40Bが前処理済で良さげだったが,TensorFlowを使えという指示が面倒であり,英語データで340万ページ2GBは大きすぎる。WikiText-103 Word Levelの方は,圧縮後181MBでそのままダウンロードできそうなので,こちらを使うことにした。

WikiText-103 Word Levelの解凍後のテキストデータは539MBあった。これをwords.shにかけると,1-20文字の単語(うちユニークな語)が約8300万語(約21万語),このうち5文字の単語(うちユニークな語)が約960万語(約2万4千語)であった。

WikiText-103 Word Level における,n文字単語(うちユニークな語)の出現頻度を下図に示す(オレンジが総語数の出現頻度,ブルーがユニーク語数の出現頻度)。n文字単語の出現ピークはn=3にあって約20%,ユニークなn文字単語の出現ピークはn=7にあって,約16%となった。5文字単語の場合は,ともに約11%となっている。


図:WikiText-103 Word Levelにおける単語出現頻度(横軸は文字数)

2021年6月20日日曜日

教育データサイエンスセンター

文部科学省:青木栄一からの続き 

2021年の10月,国立教育政策研究所の下に教育データサイエンスセンターが設置される予定だ。定員が5名のごく小規模な組織である。その目的は,(1) 全国学力・学習状況調査のCBT(Computer Based Testing)化,(2) 教育データサイエンスの普及活動,(3) 教育データ利活用に関わる検討 などとなっている。

教育ビッグデータとは,児童・生徒・学生の学習履歴や行動履歴を広範に収集分析して,個人の学習活動にフィードバックするとともに,教育行政の改善につなげよういうものである。その大きな流れにおける文部科学省側の動きの一つが教育データサイエンスセンターだろう。

これについても,青木栄一さんが「文部科学省」の中で注意を促している。すなわち,文部科学省に対する間接統治の文脈で 268pに,

「間接統治」の「旨味」は,官邸の主である首相が代替わりしても忘れられることはないだろう。むしろ経産省以外の他官庁,その他の政治主体も教育・学術・科学技術の「間接統治」を目論む流れが強まっていくだろう。総務省は学校でのICT活用の主導権を経産省から取り戻そうとするかもしれないし,財務省は効率的(安上がり)な教育政策をさらに実現するかもしれない。また,学校の抱える多種多様で大量の個人データは,マイナンバーを通じた国民管理にはうってつけである。例えば,生徒個人の成績データや問題行動データ(暴力・暴言など)を犯罪抑止に使おうとすることは十分ありえる

権力の源泉は,情報ひと(人事)とかね(予算)である。情報を持つものが権力を掌握し,ひととかねを通じて支配構造を貫徹する。ビッグデータはその情報の部分の鍵なのだ。すでに張り巡らされた監視カメラとネットを流通するデータは補足されているが,GIGAスクール構想によって学校の中にもこの神経網が張り巡らされることになる。

2021年4月28日水曜日

免許証番号

免許証番号のルールについての記事が流れてみたので,自分の免許証の12桁を確認してみた。 公安委員会番号が使われていて標準の都道府県コードではないのだった。

(1) 1-2桁目:都道府県等の公安委員会番号 北海道10,函館11,旭川12,釧路13,北見14,青森20,岩手21,宮城22,秋田23,山形24,福島25,東京30,茨城40,栃木41,群馬42,埼玉43,千葉44,神奈川45,新潟46,山梨47,長野48,静岡49,富山50,石川51,福井52,岐阜53,愛知54,三重55,滋賀60,京都61,大阪62,兵庫63,奈良64,和歌山65,鳥取70,島根71,岡山72,広島73,山口74,徳島80,香川81,愛媛82,高知83,福岡90,佐賀91,長崎92,熊本93,大分94,宮崎95,鹿児島96,沖縄97

(2) 3-4桁目:最初に免許証を取得した西暦年度の下二桁

(3) 5-10桁目:公安委員会管理番号 6桁なので毎年各公安委員会で100万件まで扱える。

(4) 11桁目:チェックディジット

(5) 12桁:再発行回数

[1]免許証番号とは(Zurich)

2021年4月2日金曜日

生物季節観測

標本木からの続き

 桜の開花は天気予報で知らされる。気象庁はこれまで生物季節観測として,桜だけでなく動物23種目,植物34種目の生物季節現象を記録してきた。ところで,気象庁大気海洋部は,昨年の11月に「生物季節観測の種目・現象の変更について」として,令和3年1月からこれらの観測を植物6種類9現象(あじさいの開花,いちょうの黄葉・落葉 , うめの開花, かえでの紅葉・落葉 , さくらの開花・満開 , すすきの開花)のみに変更すると発表した。まあ,国が貧しくなるとリストラはどんどん進行するのだ。

ところが,3月30日には気象庁と環境庁が,「生物季節観測」の発展的な活用に向けた試行調査の開始について,ということで,国立環境研究所も含めて存続の方向で進められるようだ。朝の散歩で,奈良盆地中央部における四季折々の植物や動物を見る機会が増えていたのでちょっとホッとした。スマートフォンのアプリにも生物名を判定するものがあって,これを市民からの情報提供のツールとして役立てるとか,学校教育と連携するなどの手もあるだろう。そもそも日本人の感性は古来,これらの環境によって育まれ,俳句などの文芸に結実しているわけで,この根幹の部分の情報が欠落することの損失は計り知れなかったと思う。

[1]気象庁に問いたい。動物季節観測の完全廃止は、気象業務法の精神に反するのではないだろうか(森田正光)

[2]生物季節観測,廃止・縮小から一転存続へ 気象庁と環境省、国立環境研究所がタッグを組む(森田正光)

2020年12月23日水曜日

OpenData API

 だいたい,日本のIT政策やシステムはほとんどダメダメのようにみえるけれど,オープンデータAPIポータルというのはちょっと良さげなので,登録してみた。すべての行政データをカバーするのかスゴイと思っていたら,新型コロナウィルス感染症関連情報だけなのか。ちょっと残念。早速ユーザ登録してみたが,英語のアナウンスというのはまあよいとして結構スマートに標準的なユーザ登録方法が実装されている。パスワードで特殊文字を要求されたのでハイフンを使ったが,違うような雰囲気だった。ハイフンは特殊文字ではないのだろうか。

札幌市,会津若松市,群馬県,東京都,神奈川県,横浜市,福井県,三重県,神戸市,福岡市が早速対応していた。もちろん大阪や奈良はないのであった。

著作権について記述されている,利用規約の第12条は以下の通り,まあいいんじゃないの。

本サイトに掲載されている各地方公共団体が著作権を有する著作物の利用(複製、公衆送信、翻訳・変形等の翻案等)については、クリエイティブ・コモンズ・ライセンス(以下「CCライセンス」という。)の著作権を有するもの(ロゴ、シンボルマーク等を除く。)は、クリエイティブ・コモンズ・ライセンス(以下「CCライセンス」といいます。)の表示4.0 国際(CC BY 4.0)((https://creativecommons.org/licenses/by/4.0/legalcode.ja)に規定される著作権利用許諾条件を指します。)により利用できます。なお、数値データ、簡単な表・グラフ等のデータは著作権の対象ではありませんので、ライセンス欄に「CC BY」の表記がある場合でも、当該データのうち、これらのデータについてはCCライセンスの適用はなく、 自由に利用できます。

2020年9月15日火曜日

ワードクラウド(2)

ワードクラウド(1)からの続き

時事通信の首相動静は,2020年に加えて,2019年,2018年,2017年の3年分がアーカイブされていた。これを使って首相動静のワードクラウドを求めたところ,午前○時などで埋まってしまった。そこで,次の4つのパターンをエディタ(JEdit)の正規表現検索で除去した。

{午.*?時,同.*時,□.*?分,同.*?分}を除いた。ただし,□は全角空白のことである。その結果は以下のとおりである。秋葉剛男は外務事務次官,警察官僚の北村滋は2019年9月までは内閣情報官。なお,2020年の西村明宏と岡田直樹(金沢市出身)は内閣官房副長官なのか。

図1 2017年の首相動静ワードクラウド(USERLOCALより)

図1 2018年の首相動静ワードクラウド(USERLOCALより)

図1 2019年の首相動静ワードクラウド(USERLOCALより)


2020年9月14日月曜日

ワードクラウド(1)

 物理教育学会誌第68巻第3号(2020)の談話室で,渡會兼也君が「授業評価の記述文を簡単に分析する方法」という記事を書いていた。USER LOCAL AIテキストマイニングのページを使うというものだったので,簡単に試してみることができた。匿名で1万字,ユーザー登録すると20万字までのテキストを無料で分析することができる。さっそく,2020年の1月から8月の首相動静を分析してみた。ただし,次のワードはあらかじめ除去した。{私邸,公邸,官邸,富ケ谷,同所,現在,着,発,来客,午_○時○分}などなど。その結果は次のとおり。


図 2020年1-8月の首相動静のワードクラウド(USER LOCALから)


2020年5月9日土曜日

ハナノナ

このところCOVID-19の話ばかり書いてきたのでちょっと食傷気味である。

今日は別の話題です。「無料でカメラを向けた花の名前を即座にAIが教えてくれるアプリハナノナを使ってみた」という記事があったのでさっそくiPhoneにインストールしたところ,なかなかすごいのだった。ベランダのムラサキカタバミを早速言い当てた。

千葉工業大学のステアラボ(人工知能・ソフトウェア技術研究センター)で2017年に開発されたものらしい。ウエブサービスハナノナとして始まった。最近,認識できる花の種類のが770種類にまでアップデートされ,iPhoneアプリも登場した。この手のアプリはのどから手が出るほどほしかった。まあ,ないことはなかったのです。これまでに,京都大学発祥?のいきものコレクションアプリBIOMEを使ったこともあるのだけれど,機能を欲張りすぎた割には精度がいまいちで,アプリ画面のこやしになっていた。

その点,ハナノナは単純な機能がよいのである(草木にも拡張してほしい)。この調子でトリノナ(鳥類),ムシノナ(節足動物・両生類・爬虫類),クモノナ(雲です),ホシノナ(☆です),イシノナ(岩石鉱物),トモノナ(ホ乳類),ウオノナ(魚類・水生生物)など作っていただけるとうれしいなあ。これらができた後でモノノナ(万物)に統合されるのはOKです。これで小学校の理科はOKです。


図 本日の朝の散歩におけるハナノナの成果の一部(2020.5.9撮影)

追伸:モノノナのイメージが出てきた。目に映るものの名前をできる限り知りたい(デイリーポータル,2020.05.22)

2020年4月15日水曜日

モビリティデータ

Appleが,新型コロナウイルス感染症(COVID-19)拡大防止に向けた世界各地での活動を支援するため,Appleマップによるモビリティデータの傾向を示すデータ(Apple Maps Mobility Trends Reports)を提供した。

しばらく前にはgoogleも同様のデータ(COVID-19 Community Mobility Reports)を公開していた。例えば日本の時系列はpdfファイルとして提供されている。このデータを再構成して,4月5日の時点でのいくつかの国の特徴を比較したものが次の図である。
図1 グーグルモビリティトレンドからの4/5の傾向(平常時との比率)

アップルの方は,上方の種類は限定されているが,時系列のCSVデータも提供されていてありがたい。ここではその結果だけを例示してみよう。

図2 日本のモビリティトレンド(1/13-4/15)

図3 韓国のモビリティトレンド(1/13-4/15)

日本の3月下旬の緩みがはっきりと現れている。まだまだ活動制限のレベルは不十分であり,西浦博さんがあせって,重篤者85万人,死者40万人という発表を(遅すぎると思うが)したのもわからなくはない。しかし前提条件がよく理解できないのだ。例えばNHKのニュースでは,以下のような説明があったが・・・
外出自粛などの感染防止対策を何も行わなかった場合、感染が広がり始めてからおよそ60日でピークを迎えると推計しています。
その場合の重篤な患者は合計で▽15歳から64歳まででおよそ20万人、▽65歳以上で65万人の合わせておよそ85万人に上るとしています。
その場合、人工呼吸器が足りず、必要な治療が受けられなくなり、中国でも重篤患者の半数が死亡しているという研究があるということで、日本国内でも半数にあたるおよそ40万人以上が死亡すると推計しています。
いずれにせよ,相変わらず安倍政権支持率は40%の水準を維持しており,日本の政治はびくともしていない。


2020年2月10日月曜日

Japan e-Portfolio

公共財としての教育ビッグデータ(2)からの続き

文部科学省による「大学入学者選抜改革推進依託事業」が,2016年度から2018年度まで実施された。その狙いは次のようなものである。
本事業は,「思考力等」や「主体性等」を評価する大学入学者選抜改革を進める上での具体的な課題・問題点を整理するとともに,多面的・総合的な評価を行うための実践的で具体的な評価手法を構築し,その成果を全国の大学に普及することにより,各大学の入学者選抜の改革を推進することを目的としている。
人文社会分野(国語科),人文社会分野(地理歴史科・公民科),理数分野,情報分野,主体性等分野の5事業が選定され,それぞれの分野で代表大学の元に,複数の国立・私立大学等が参画した。

このうちの,主体性等分野では「「主体性等」をより適切に評価する面接や書類審査等 教科・科目によらない評価手法の調査研究」というテーマで,関西学院大学の代表のもとに,大阪大学,大阪教育大学,神戸大学,佐賀大学,早稲田大学,同志社大学,立命館大学,関西大学の9大学で進められた。その概要は以下の通りである。
学力の3要素の「主体性等」をより適切に評価するため,教育委員会,高等学校等と連携し,調査書・提出書類や面接等を実践的に活用する方法,高校段階でのeポートフォリオとインターネットによる出願のシステムの構築, 「主体性等」の評価尺度・基準の開発等を行う。
昨年(2019年)の3月18日には,文部科学省で委託事業成果報告会も開催されている。各教科分野での取り組みは,この度の大学入学共通テストへの移行になんらかの寄与をしているのだと思うが,主体性分野の方はより現実的な結果をもたらした。それが,2019年4月に立ち上がった一般社団法人教育情報管理機構とここが運営する高大接続ポータルサイトJapan e-Portfolio である。ベネッセのIDをそのまま使って高等学校からのデータ入力に対応していたものが批判され,2021年からは独自のIDシステムに変更するとしている。まあ,いくらあがいてもその背景にはベネッセがしっかりと食い込んでいるのだろう。

教育情報管理機構は元金沢大学学長の山崎光悦(機械工学)会長のもと,正会員として,改革推進事業を進めてきた大学を含む国公立大学法人や私立の学校法人など34法人が参加している。大阪大学だけが抜けたのはなぜだろうか。

そして,すでに令和2年度の大学入学者選抜には複数の大学でこのe-Portfolioが用いられることになった。はい,大阪教育大学も岐阜聖徳学園大学も入っております。

自分自身も,大阪教育大学の在職時に「eポートフォリオはいいんじゃないですか」と気軽に応援しつつ,大学の特徴づけのツールとしての活用に期待して推進する側にいたので,全く大きなことはいえないし,猛省しなければならないのだが,e-Portfolioがすべての高校生を覆うようになってしまうことには非常に大きな不安と危惧の念を持っている。

インターネット上の言説空間でも,まともな考えを持つ人々の大多数はこれに対する異議を申し立てている。まずいですよね。すべての高校生の活動が常に大学入試ポートフォリオという「金銭的」な価値に変換されて,365日24時間監視されているような心理的効果を持つシステムというものは。そして,これは,高校生だけでなく全ての子ども,あるいは場合によっては社会人(労働者)にまで伝染しかねないパンデミック同様の脅威なのだろう。来るべき未来に訪れるかもしれない個人情報システムによる個人資産の完全把握を凌駕する,個人の活動や思惟産物の完全把握は,全国民的DNAデータベースに匹敵する個としての人の危機かもしれない。もしくは,完全に単一化された人類の集合意識への進化への一里塚なのか・・・

2019年11月18日月曜日

公共財としての教育ビッグデータ(2)

例えば,JAPAN e-Portfolio は関連大学が構成員となる一般社団法人教育情報管理機構が運用主体となっている。その会員についてのページを見ると,正会員は大学である。国立大学が6法人,公立大学が3法人,私立大学が18法人となっている。賛助会員には教育産業の企業が名を連ねている。ベネッセが含まれる特別賛助会員が4社,指定賛助会員が4社,賛助会員が1社である。年会費300万円特別賛助会員の説明は以下の通り。
当該会員が運営する学習支援システム事業,ポートフォリオ事業,SNS事業,データベース事業等これらに類する事業において取得したデータ又は本機構が運営する高大接続ポータルサイト「JAPAN e-Portfolio」(以下、「JeP」という。)が所有するデータ等,JePに連携し,蓄積した情報を活用して事業を行う会員が支払う会費
*『「JAPAN e-Portfolio」(以下、「JeP」という。)が所有するデータ等」』とは「JAPAN e-Portfolio」の入力項目などシステム本体の情報を指します。生徒が「JAPAN e-Portforio」に入力し,蓄積された個人情報は,一切共有されることはありません。
ベネッセの個人情報漏れが起こったときには,これでもうおしまいだなと思ったのだが,あっという間に,復活を果たしただけでなく,ありとあらゆる教育公共事業案件に首を突っ込み,この優位性を背景に各学校への攻勢を強めている。これまでは,全国学力テストだったが,これに加えて,大学入試共通テストや,高校生のポートフォリオなど膨大なデータを手中に収めようとしている。このままでいけば文部科学省は民営化されて,ベネッセに取って代わられる日も近い。


2019年11月17日日曜日

公共財としての教育ビッグデータ(1)

日経朝刊で,公正取引委員会の杉本和行委員長が,「医療や金融分野などのビッグデータは多くの事業者が利用可能な「公共財」になりうるとの考え方を示した」。ここには教育分野が含まれていないが,まさに公共財として位置づけて,広く公開と流通を図ることが必要な部分は含まれているはずだ。もちろん,個人情報の機微に関る部分も多いため,その取り扱いにも注意は必要だが,それは医療や金融でも同じことだ。

数年前から清和会・政府の進めている教育政策の特徴は,一つには右翼的イデオロギー貫徹による教育支配であり,もう一つが,公共財としての教育を売り払う利権支配である。そして,その矛盾が噴出したのが,森友・加計・大学入試問題だ。巷では,モリ・カケ・サクラとして安倍の不正をあげつらっているが,本当にこわいのは,もてあそばれている日本の教育システムの破壊ではないのか。

岡山という地域をベースにしたベネッセ加計学園グループの深い結びつきについては,いろいろとネット上に情報が流れているが,そこに様々な公益法人や文部科学省からの天下りなどが絡み合い,複雑な病巣を構成している。そこに巣食う企業人や大学人や官僚崩れが,トップダウンの準公的な諮問会議や私的なワーキンググループを隠れみのに互いの利権を貪りながら,十分に吟味されておらず,当事者や専門家を排除した政策を立案している。

[1]教育情報管理機構JAPAN e-Portfolioの実施大学の団体+特定賛助会員など)
[2]進学基準機構佐藤禎一が理事長のベネッセ系一般財団法人)
[3]学力評価研究機構(ベネッセグループの株式会社)
[4]福武教育文化振興財団(ベネッセグループの公益財団法人)
[5]高校生のための学びの基礎診断(文部科学省)

2019年8月29日木曜日

arXiv

arXivは,コーネル大学図書館が運用する物理科学や数理科学のプレプリントアーカイブである。1991年にLANLロスアラモス国立研究所の物理学分野のプレプリントサーバとして始まった。かつては京都大学基礎物理学研究所にもミラーサーバが置かれており,日本国内のユーザはそちらを利用するように誘導されていたが,2015年には廃止されてしまった。現在の対象分野は,Physics,Mathematics,Computer Science,Quantitative Biology,Quantitative Finence,Statistics,Electrical Engineering and Systems Science,Economics

プレプリントといえば,昔は,IBMの電動タイプライターで打った原稿をもって,大坪先生と一緒に理学部の1階にあるたいへん調子の悪い印刷機と格闘していたことを思い出すが,arXivが普及してきた頃には,もう物理(原子核理論)の研究からからはほどんど足を洗っていた。したがって,arXivとのつき合いは論文などをダウンロードして読むだけだ。

そのarXivに関連した話題が2つ。
(1)arXivとは関係ないが,Center for Open Science が運用する教育学分野のEdArXivができた。arXivに教育分野ができたのかと勘違いしていたが,それは間違いだった。
(2)arXivの行動規範,arXiv Code of Conduct が示された。フィードバックを募集中。
著者に関連するポリシーとして,モデレーションプライバシー投稿条件オーサーシップポリシーなどもある。

2019年6月29日土曜日

道徳教育ビッグデータ

20XX年,教育基本法が再度改正され,日本の教育の目的は,次のようになった。
第一条 教育は,道徳的人格の完成を目指し,国家及び社会の形成者として必要な強い心と頑強な身体を備えた国民の育成を期して行なう。

教育基本法の趣旨を踏まえるならば道徳教育がすべての教育課程の中心であるべきだ,という道徳教育学者の強い主張を支えに,学習指導要領のトップに特別の教科「道徳」が位置することになった。道徳教育を主担当できるのは,教職大学院の道徳教育エクステンションプログラムを修了した主幹教諭以上のものに限られる。全国で毎年400名が養成されており,将来的には,全国4万校の各学校に1名が配置される予定だ。

道徳教育は,道の教育に対応する知識の部分と,徳の教育に対応する実践の部分から成り立っている。道徳的な知識については,一人一台の学習コンピュータによって毎日15分,自分の好きな時間に学ぶことになっている。ゲーミフィケーションや児童心理学の知識をフル動員して作られたアドベンチャー型デジタル教材なので,子どもたちは喜んでこれにはまっている。

問題になるのは,徳の部分である。政治家や企業人だけにとどまらず,教師ですら道徳的な実践を日常的に続けることは難しい。いくら国民的道徳放送で洗脳を続けてるとはいえ,毎日のように道徳警察と道徳裁判所のお世話になる民が後を絶たたない。悪の芽は子どものうちから摘まなければならない。そこで考え出されたのが,学校の道徳通貨ゼン(Zen)の導入である。ゼンは「善」からきている。

全国の子どもたちの24時間のふるまいは,各学校ごとにデザインされ,すべての子ども達が日の丸の鉢巻きのように締めているウェアラブル・バンダナを通じて,全てライフレコーディングされる。バンダナは,位置,発話,聴覚,視覚,生体の各情報収集機能を持ち,各学校に建てられた無線通信塔を通じて,リアルタイムにネットワークアクセスすることによって,道徳教育ビッグデータとして収集されることになった。

国家戦略特区制度を活用し,文部科学省はある特定の業者にすべての運用を随意契約で委託した。情報は,セキュリティ万全のブロックチェーンで管理され,その β 社が運営する道徳クラウド上の道徳教育ビッグデータサイトに収集される。ビッグデータはつぶれかけていた国産企業の粋を集めた量子スーパーコンピュータを用いたディープモラルラーニングシステムにかけられ,これによって価値判断が行われる。

道徳教育を実効的なものにするため,道徳教育ビッグデータから各個人ごとに評価された結果は,道徳通貨ゼンに換算されて個人に付与されることになった。すべての行為には,時間と空間とネットワーク構造で変化する善悪の重みがダイナミックに定まり,児童生徒が持つ道徳通貨バーチャル通帳(通称ゼンノート)にゼンのポイントとして記録されていく。善行をつめばゼンが貯まり,悪いことをすればゼンが消耗する。

当初は,古典的な徳目が道徳の基準として設定されていたのであるが,ディープラーニングの学習が進むとともに,その基準は徐々に変化していった。通貨の本質が影響し,やがて毎月のように善悪の基準は変化するようになった。もう何が善で何が悪かは絶対的なものではない。何が事実で何がフェイクかが区別できなくなったのと同じである。簡単にいうと,ある種の投票システムのデリバディブによって善が決まっているのだ。このため,株式市況と並んで,道徳価値市況が毎日のネットニュースに流れている。

例えば,日刊ゼンポイントニュースサイトでは,次のような記事のネット番組が放送されている。本日のはやりの善行はこれだ。おとめ座でA型の君にお奨めの善行リスト。今日は避けたい方角と行為。みのがしてもらえる隠れ悪行のリスト。このネット動画をみてゼンポイントをかせごう。将来のゼンポイントのために,こんなスキル磨きに投資しよう。これが闇ゼンポイント交換サイトの全貌だ。大人の悪行を暴いてゼンポイントをかせげ。

さて,その通帳のゼンポイントの高によって,子どもたちの選択可能な進路が決まるのでたいへんだ。道徳帝大に入学するためには,高いポイントが必要だ。知識や技能を問う一斉マークシート試験などはとっくの昔に廃止されている。一般レベルの英語教育の四技能もバンダナの簡易翻訳機能のおかげで,あっという間に不要の長物になった。職業倫理に結びついたゼンポイントの基準が進学や就職のすべての鍵を握っている。

さて,このような世界で,競争が発生すると,他者に対してより高いゼンを獲得するためのベストな行動はどんなものになるのだろうか。そのために各個人のデジタル・ゼン・アシスタントは何をサジェストするのだろうか・・・続く


P. S. 虚構新聞じゃないけど,ゼンポイントがもう現実化してしまった・・・orz
 東京都,善行にポイント 小池知事「SDGsを切り口に」(日本経済新聞 2019.12.6)

2019年6月28日金曜日

教育ビッグデータ(3)

教育ビッグデータ(2)からの続き)

新時代の学びを支える先端技術活用推進方策 (最終まとめ)の,2.学校現場における先端技術・教育ビッグデータの効果的な活用をもう少しだけ読んでみた。

前段の「学校現場で先端技術の効果的な活用を促進するために」の方は次の項目からなる。
・遠隔・オンライン教育
・デジタル教科書・教材
・協働学習支援ツール
・AV・VR
・AIを活用したドリル
・センシング
・統合型校務支援システム

このうち遠隔・オンライン教育にかなりの説明を割いていることが目立つ。SINETの開放(といってもVPNの提供くらいしかメリットがなさそうだけど)に加えて,大学や企業を巻き込む「マッチング&アドバイザリープラットフォーム」機能を有するポータルサイトを創設するという提案まで踏み込んでいる。初等中等教育をダシに,SINETの強化を図るということ?よくわかりません。

その他の項目はなんだか手垢のついたものばかりで,目新しいものはないし,センシングも腰が引けている。総じて教育ビッグデータとの関連をきれいに見せきれていない。最近の情報教育の主流派のみなさんが推奨してきた一連のシステムを,総花的に並べている。なぜか,教育工学の伝統につながる学習履歴の収集とその分析というキーワードが強調されていないような気がする。危険・注意だからかもしれないが。

後段の「教育ビッグデータの現状・課題と可能性」では,関連企業団体であるICT CONNECT21 からの海外事例報告のあと,多くのページをデータの標準化の話に割いている。文部科学省による学校調査を自動化・効率化するためのシステムとして「教育ビッグデータ的なもの」を使うという話であればそれでよいのだろうと思う。まさに,英国モデルであり,各ベンダーはその標準を満足する個別システムを自由に設計すればよいのだから。

ところで,教育ビッグデータが目指しているとして,この政策まとめで最初に謳ったものはなんだったのだろうか。非常な危険を伴うが,「公正に個別最適化された学び 誰一人取り残すことなく子供の力を最大限引き出す学び」なのであれば,ちょっとベクトルが違うような気もしないではない。しかしながら,道徳教育でフル回転している現在の文部科学省が,教育ビッグデータといった瞬間,「道徳教育ビッグデータ」で統合される恐ろしい世界が迫ってくるようでなので,そうなれないのであれば逆に良いのかもしれない。