ラベル 統計 の投稿を表示しています。 すべての投稿を表示
ラベル 統計 の投稿を表示しています。 すべての投稿を表示

2020年6月28日日曜日

THE MATH(S) FIX

THE MATH(S) FIX スティーヴン・ウルフラムの弟のコンラッド・ウルフラムによる数学教育革新のための青写真についての本である。

ウェブサイトのはしがきを訳すると,こんな感じだった。

 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
AI時代の教育の青写真

なぜ私たちは皆,生涯のうち何年にもわたって数学を教えられているのか?それは本当に役に立っているのだろうか,あるいは,ほとんどが失敗であり多くの人に学びの力を与えられていないのか?それはAI時代に不可欠なものか,それとも時代遅れの通過儀礼なのだろうか?

"The Math(s) Fix: An Education Blueprint for th AI Age" は,なぜ数学教育が世界的に危機的状況にあるのか,また,どうして根本的に新しい主流科目を創るのことが唯一の解決策なのか,を明らかにする画期的な本だ。

この本は,今日の数学教育が,現代的な計算・データ科学・人工知能(AI)が必要とされる現代社会を発展させるための機能を十分果たしていないということを主張する。その代わりに,学生はコンピュータが得意とするものと競争することを強いられて負けてしまっている。

本書は,「数学が苦手」であることが,学習者のせいというより,科目の失敗が原因であること,すなわち,教育のエコシステムが行き詰まり,学生・親・教師・学校・雇用者・政策立案者が,現実世界の要求に追いつこうと間違った方向に走っていることを説明する唯一の本である。

しかし,この本はさらに先を行くものである。問題を解決して,AI時代の教育の普遍的な改革の種を蒔くために,学校における中核的な計算思考科目としての完全に代替的なビジョンを初めて提示しているものだから。
 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

これがたぶんコンピューテーショナル・シンキング(計算論的思考)の王道なのだと思われる。でも,GIGAスクール構想にみんな出払ってしまっており,プログラミング教育とその周辺の話題はすっかり霞んでしまっていた。


図:THE MATH(S) FIX の表紙(Wolfram Media から引用)



2020年5月19日火曜日

COVID-19 K値

中野さんのK値の続き

とうとう,日本経済新聞の5月19日朝刊4面に『感染把握に新指標「K値」』としてとりあげられるまでになった。西村康稔経済財政・再生相が取り上げてしまったのが原因である。中野さんはK=0.05が緊急事態宣言解除の目安だとしている。

テルミンの人やネコの実況中継の人は一様に口をそろえてその怪しさを強調している。感染症の専門家でもないのに口を出すなと。「どの口がゆうてるの」という例のフレーズを思い出してしまう今日この頃であるが,その気持ちはわからなくはない。でも西浦さん自身が,1週間単位の新規感染数の比率のような量を指標にする可能性について言及していたので,とんでもではないと思う。単純な四則演算のたぐいであたりまえのことかもしれないが,それでも特徴量を取り出すことはありうると思う。

そんなわけで,各国や地域のK値がどうなっているかを比較してみる。なお,これまで 5日移動平均した r 値 =  (当日の総感染者数)/ (1週間前の総感染者数) を計算してきており,これをK=1-1/rによって換算したものをプロットしたのが次の図である。


図1 アジアの各地域のK値の推移(3/1-5/16)

インドは0.3を越えシンガポールやフィリピンも0.1以上の高い水準を維持している。日本や東京は0.04以下に収束し,韓国,香港,台湾は0.02以下の低い値となっている。

図2 欧米の各地域のK値の推移(3/1-5/16)

欧米はアジア各地域のような多様な振る舞いはしておらず,ここ1ヶ月はおおむね単調減少しているようだ(スペインは統計の修正があったので不自然な窪みがある)。3グループに分かれる。ロシアとスウェーデンが0.3以上のグループを形成し,英国,カナダ,米国が0.1近傍のグループとなっている。これまで感染者が爆発していた,イタリア,スペインやフランスドイツは土は,0.05近傍に収束しつつある。ブラジルは感染爆発が危惧されているが,この指標上はおとなしい第3グループに含まれているがまだ予断は許さない。

2020年5月18日月曜日

CFR(致命率)(2)


人口当り死亡数だけを見ていてもわからないことがあるので,致命率を考える。ただ,ここでは致命率に近いものとして,「致命率」=死亡数累計(t)/新規感染者累計(t-7)」を考える。時間の単位は日である。グラフは各国や地域の新規感染者数累計が10ppmを越えたところを時間の基準として採用した。7日のずれは14日のほうがよいかもしれないが,感染から死亡までの時間のずれをある程度考慮したものである。

図1 アジアにおける「致命率」の推移


図2 欧米における「致命率」の推移

アジアではほぼこの値が収束に向っている,ただしシンガポールだけは特異的に値が小さくその動向も他とは異なっている。安定後に再び感染数が急増したにもかかわらず死亡数が一定で非常に小さいまま推移しているからである。日本や東京が増加傾向をしめしているのがちょっと気になる。

欧米ではアジアより1桁大きい水準で収束に向っている。ここで特異的なのはロシアであり,これも感染数の増加に比べて死亡数は非常に低い水準にとどまっている。カナダ,アメリカは欧州より低い水準になっているが,ブラジルは欧州に次ぐ値になっている。



2020年5月17日日曜日

COVID-19 人口当り死亡数

東京や大阪の新規感染数の報告値がおちてきたので,残る8道府県の緊急事態宣言の解除が視野に入ってきた。迷走する政府の対応にもかかわらず欧米に比べて感染数累計や死亡数累計が小さいことが謎をよんでいる。ただ,日本だけが特別というわけでなく,アジア・オセアニア対欧州・アメリカという構図なのだと思われる。オーストラリアやニュージーランドも低い数字なので人種的影響があるという説はかなり疑問であるし,日本の文化的特異性というのも同様にうなずけない。

図1 アジアの人口1万人当りの死亡数

図2 欧米の人口1万人当りの死亡数

アジアの中での日本は必ずしも低い水準というわけではない。すでに韓国をも越えておりフィリピンと同じ水準である。しかし欧米は軒並み1を越えているので,それに比べれば十分に少ないという印象を持つのもわからなくはない。ただ,死亡数を完全に把握的できているのかどうかは議論の余地があるかもしれないが,オーダーは変えないと思う。

(注:横軸の日付の基準日は各国・地域の新規感染数累計が10ppmに達した時点)

2020年5月7日木曜日

中野さんのK値

阪大の杉山清寛さんのFacebookから,RCNPの中野貴志さん(ペンタクオークでおなじみ)がCOVID-19の収束状況を判定するK値というのを考案しているという情報がみつかった。あれ,こちらで計算していたものと本質的に同じ量ではないか。彼のK値は次式で与えられる[2]。総感染者数は我々の(というか普通報道されている)新規感染数累計(Confirmed)のことだ。3月の末に,新規感染数累計の増倍率という記事[1]を書いていた(忘れていた)。

    K = 1 - (1週間前の総感染者数) / (当日の総感染者数)

こちらで計算を続けていたのは,r = (当日の総感染者数)/ (1週間前の総感染者数) = 1/(1-K) である。最近1に収束してきて(下に有界な単調減少数列)おもしろい情報がとれないので更新を停止したところであった。なるほど,こうすれば,初期段階の感度は悪いが,収束段階の感度はよくなる。また,中野さんの最近の論考[3]ではさらに考察が進化していた。まあ,物理屋さんがやるとだいたいこういう発想になるのだろう。



図1 アジアの新規感染数累計増倍率の推移(2020.3.1-5.4)


図2 ヨーロッパの新規感染数累計増倍率の推移(2020.3.9-5.4)

その3月下旬から4月にかけて日本だけが他の国と違う振る舞いを見せていてどきどきしたが,やがて収まった。逆にシンガポールの異常を発見したのもこれを観察していたときだった。

[1]新規感染数累計の増倍率(2020.3.31)
[2]COVID-19 感染状況の推移について(中野貴志,2020.4.19)
[3]K 値で読み解く COVID-19 の感染状況と今後の推移(中野貴志・池田陽一,2020.5.6)
[4]新型コロナウイルス感染症(COVID-19)について(吉森保,2020.5.10)

2020年5月5日火曜日

CFR(致命率)(1)

一つの集団におけるある感染症の致命率(Case Fatality Rate)とは,その集団における感染者数に対する,その感染症が原因となる死亡者数の比率である。COVID-19における各国の致命率の時間推移が次のサイトMotality Risk of COVID-19 (Our World in Data)にある。そこでいくつかの代表的な国々を選んで図示してみた。

図 各国のCFRの推移(3/20-5/2)

アジアが欧米に比べて明らかに低いのは何故かという問題提起があったが,これをみれば,米国と中国は同じオーダーである。ここに載せていない,台湾,香港,シンガポールが非常に小さいのは確かである。

2020年5月2日土曜日

WHOのSituation reports

WHOがCOVID-19の特設ページで毎日掲載しているSituation reportsの様式が,5月1日版から模様替えした。なんでもいいからCSVで出してほしい。日本の厚生労働省とかわらないのか。

これまでは,もとのpdfファイルから,pdftotext(コマンドラインツール)でテキストにしたものと, PDFelement6 Pro(無料版)でエクセル化したものとを組み合わせて,国・地域別データを整理した日次統計テキストファイルをつくっていた。

新しい様式ではpdftotextの出力がちょっとましな感じだったので,perlプログラミング1発+若干の手作業による修正で,上記の日次統計テキストファイルまでたどり着くことができそうだ。

いや,Johns Hopkins 大学のCSVデータを使えという話もあるかもしれないが,いちおうそこはほれ,WHOを支持しているので。

あいかわらず正規表現もまともに習得していないので泥臭いperlプログラムになった。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
# /usr/local/bin/perl
# 05/02/2020 K. Koshigiri 
# 05/07/2020 K. Koshigiri -> revised version
# extract data from WHO covid-19 reports
# https://www.who.int/emergencies/diseases/
# novel-coronavirus-2019/situation-reports/
# usage:: ./who.pl < pdf-in.txt > out.txt

while($line = <STDIN>) {
  chomp($line);
  if($line =~ /([A-Z].*)/) {
    $a=$1;
    $a =~ s/\(.*//;
    $flg='a';
  } elsif($flg eq 'a' && $line =~ /([\d\h]+)/) {
    $b=$1;
    $b =~ s/\h//;
    $flg='b';
  } elsif($flg eq 'b' && $line =~ /([\d\h]+)/) {
    $c=$1;
    $c =~ s/\h//;
    $flg='c';
  } elsif($flg eq 'c' && $line =~ /([\d\h]+)/) {
    $d=$1;
    $d =~ s/\h//;
    $flg='d';
  } elsif($flg eq 'd' && $line =~ /([\d\h]+)/) {
    $e=$1;
    $e =~ s/\h//;
    $flg='';
    print("$a\n$b\n$c\n$d\n$e\n");
  }
}
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
※WHOのデータ形式が変わったので,若干修正した(2020.5.7)。

2020年5月1日金曜日

実効再生産数

新型コロナウイルス感染症対策専門家会議が5月1日の発表で実効再生産数$R_t$の値を示していた。だいぶ前に東京で$R_t$=1.7という数字を出して以来,この値については沈黙していたので,あちこちから不満があがっていたためかもしれない。


図 全国の実効再生産数の値(朝日新聞から引用)

新規感染数のピークが600人を越えていないのは何故だろう。生データや簡単な移動平均では600人を越えると思う。また,推定感染者数となってため,減少期の振動構造も消えているのだろうか。

2020年4月30日木曜日

新規感染数の推移

5月6日が期限であった全国の緊急事態宣言が1ヶ月程度延長されそうであまり異論はないようにみえる。twitterで各国の新規感染数を比較しながらこの問題を検討している人がいた。自分でもやってみた。ただし時間軸は揃え,イタリア,英国,日本×5,スウェーデン×5を試しにやってみる。


 図 新規感染数の推移(3/12-4/29)(日本とスウェーデンは5倍した値)

日本のデータが信頼性に欠けているということはさんざん指摘されている。それでもなお日本は,英国の高止まりやスウェーデンの上昇傾向とは異なりイタリアのような下降線に近いようにみえてしまう。本当のところはどうなのだろうか。まだ予断を許さない。

2020年4月26日日曜日

COVID-19雑感(2)

昨日のものを再編してみた。

○ニューヨーク州の抗体検査による既感染累計が人口の14%というのはほんとうだろうか。
 (もしそうならモデルパラメタの前提がそもそも間違っている)

○スウェーデンの試み(ロックダウンしない)は成功するのだろうか。死亡数累計が人口の0.02%を越えて増加中である。スペインの0.04%よりは小さいが,増加率が・・・

○ブラジル,ロシアなどもじわじわと増えている。


図 欧州・米州の新規感染数累計の推移(人口の10ppm時点を原点)

2020年4月25日土曜日

COVID-19雑感(1)

徒然なるままに・・・

○日本は相変わらず情緒的な対処法で乗り切ろうとしている。正確なデータがないままに。

○シンガポールの新規感染数累計は,人口比で0.2%となり湖北省の0.1%を越えた。まだ収まる様子がみえないのだけれど大丈夫かしら(それにしては死亡数累計が少ない)。

○東京は,韓国・オーストラリアを越えてまだ収束先がみえない。日本全体も上昇中。
 (残念なことに,石川県と福井県が人口比で東京についで2位と3位なのだ)

○台湾,中国,韓国,香港は,第1段階が終息している。


○通常のインフルエンザと比較して問題なしとする正論?は正しいのだろうか。

図 アジア・太平洋の新規感染数累計の推移(人口の10ppm時点を原点)

2020年4月14日火曜日

基準の変更と比較

アジアの状況欧州の状況,からの続き

アジア太平洋と欧州・北米の新規感染者数累計を人口で規格化したグラフを考えてきた。これを並べて比較してみる。これまでは基準を人口の1ppmを越えた時点としてこれを各国の共通の原点とした対数グラフを考えた。その基準点を人口の10ppmになった時点に変更して比べてみる。累計数がかなり増加してきたため,最近の特徴をよく観察したいと思ったので。

図1 アジア・太平洋地域の新規感染数累計対人口比の推移(100ppm)

図2 欧州・北米地域の新規感染数累計対人口比の推移(100ppm)

イランは比較のために両方のグラフに含めている。欧米はすべてイランを上回っている。グラフで示した欧米主要国の新規感染数累計は人口比ではすでに湖北省を越えているわけだ。しかし,アジアでは震源地の中国湖北省以外はすべてイランの水準を下回っている。

①欧米は同じ傾向で推移している。指数関数的増加の時定数がしだいに減りつつある
②アジアは,中国が既に収束し,韓国がこれに続いている。
③オーストラリア,香港,マレーシアも減速の兆が見える。
④台湾は一貫して低水準に押さえ込んでいる。
⑤シンガポールは当初,台湾や香港と並んだ優等生だったが,その後抑え切れていない。
⑥日本(東京)は,ほぼ一定の時定数での指数関数的な増加を続けている(新規感染数累計は1.107倍/日,死亡数累計は1.046/日の割合で増えている)。

もし,この定数が変化しなければ,緊急事態宣言の期限である5月6日には日本の新規感染数累計は6万人に達する。これは人口比で500ppmであり,韓国の200ppmや湖北省(武漢以外)の370ppmを超える水準に相当する。また,このときの死亡数は260人程度にとどまり,そのまま推移すれば,死亡数(5/6の21日後)/新規感染数累計(5/6) = 1%というリーズナブルな値が得られる(感染数と死亡数の間に21日程度の遅れがあると仮定している)。

2020年4月13日月曜日

欧米の状況



欧米の状況を見ると新規感染数累計は人口比で10ppmを越えているところがある。スペインの30ppmは湖北省(武漢以外)の10倍近い水準であり,下記の国々の新規感染数累計をはすべて湖北省(武漢以外)以上の値となっている。ただし,対数グラフ上は上に凸となっていて増加率は減少に向いつつある。


図1 人口当りの新規感染数累計(単位100ppm,基準日は1ppm達成時)


図2 人口当りの新規感染数累計の対数(単位100ppm,基準日は1ppm達成時) 

2020年4月12日日曜日

アジアの状況

新型コロナウイルス感染症の感染者数の増加が5/6には収まるように考えている人が多いのかもしれない。うまくいけば7月には一端終息に向ったようにみえる可能性もある。しかし,集団免疫が獲得できずワクチンもない現状では,緊急事態宣言レベルの制限を継続するか,断続的に緩めたり強めたりすることの繰り替えしかの二択ではないだろうか。中国以外で終息に近い状態を実現しているのは台湾だけだ。それに近いのは韓国。香港もシンガポールも完全にはおさまっていない。どこまで耐えられることか。

図1 人口当りの新規感染数累計(単位100ppm,基準日は1ppm達成時)

図2 人口当りの新規感染数累計の対数(100 ppm,基準日は1ppm達成時)

注:上記は武漢を除いた湖北省の値であり,370ppmに収束している。武漢を含めた湖北省の収束値は1150ppmであり,上記の3.1倍に相当する。湖北省の全体イメージは湖北省(武漢以外)を全体に3倍程度スケールしたものと考えられることに注意する。

2020年3月18日水曜日

久々のPerl

久しぶりにPerlのプログラムを書いた。20年ぶりとか13年ぶりとか8年ぶりとかの感じ。目的はWHOの "Coronavirus disease (COVID-2019) situation reports" から各国別のConfirmedとDeathsの継時データを取り出すことである。一応形が整ったのであるが,WHOはpdfファイル中の表のデータ構造をコロナウィルスのようにどんどん変化させているので何だかすっきり行かない。結局,一部の古いものについては年度ごとにpdfから取り出したテキストデータ側を手動で調整する必要がある(これらすべてに対応させるほうが面倒なのだ)。

なお,pdfからのテキストファイルの取出にはpdftotextを使った。
(例)$ pdftotext -f 3 -l 6 20200312-sitrep-52-covid-19.pdf 52.txt

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
#!/usr/bin/perl
# /usr/local/bin/perl
# 03/17/2020 K. Koshigiri
# extract data from WHO covid-19 reports
# https://www.who.int/emergencies/diseases/
# novel-coronavirus-2019/situation-reports/
# usage:: ./corona.pl Japan ??.txt

$country = shift(@ARGV);
print("$country:\n");

foreach $file (@ARGV) {
  open(IN, \$file) || die "\$file: ";
  $file =~ /^([0-9]+).txt/;
  \$no=\$1;
  print($no,',');

  while($line = <IN>) {
    chomp($line);
    if(\$line =~ /\$country\$/) {
      $flg='y';
    } elsif(\$flg eq 'y' && \$line =~ /([0-9]+)/) {
      print("$1,");      
    } else {
      $flg='n';
    }
  }
  print("\n");

}
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

手元のMacBook Proの Catalina(10.15.3)に附属のperlは2013年バージョン5.18.4(This is perl 5, version 18, subversion 4 (v5.18.4) built for darwin-thread-multi-2level)だった。最新は,5.30.2のようで,Perl6はどうなっているのかと思えば,そうそう楽土になっていた。

2020年3月3日火曜日

休校中の高校生に贈る「情報」の課題A

[課題A]
新型コロナウイルス感染症の拡大を防ぐためという理由で,3月2日から全国ほぼ一斉に小中高等学校が休校となりました。これが本当に効果があるのかどうかを検討し,より良い対策がないかをグループで相談しながら考えてください。なお,国会中継がある日は必ずそれを見るようにしてください。

①日本における人々全体の平均的な1日における感染機会C(活動)は,(1)その活動をする人数の割合(分母は日本の人口),(2)その活動時間(分母は24時間),(3)その活動中の平均的な人の密集度(単位は人/㎡),の3つの積をすべての人について加えたものに比例すると仮定します。このとき,全国の学校を休校にした効果,すなわちC(平常時)-C(休校時)はいくらになるでしょうか,考えて下さい。
(ヒント)ある人のブログに「全国の小中高等学校の休業の効果」という計算例があるので,どうしてもわからない場合にはこれも参考にして下さい。

②全国の学校を休校にする以外で,社会を大きく混乱させずに感染機会を減らすにはどうすればよいか,それぞれについてC(活動)を計算して,最も効果的な対策を考えなさい。
(ヒント)通勤ラッシュの解消,カラオケ,居酒屋,パチンコ,スポーツジムにいかない,等。ただし,必ず数値的な根拠を引用データによって示してください。

③上記のシミュレーションの前提条件は,どの程度正しいか,どこが間違っている可能性があるのかについて友達と議論してください。
(ヒント)友達がいない場合は家族の方々でも結構です。


2019年10月19日土曜日

児童生徒の自殺

先日のNHKニュースによると,児童生徒の自殺者数が増加しており,平成30年度は,昭和63年以来最多の332人に達したとあった。子どもの数は減っているのだから,実数ではなく比率で比較するべきだと思って統計データを調べてみた。

日本の統計データは,総務省統計局政府統計ポータルサイト e-Stat に集約されているとはいうものの,本当に探しにくく使いにくいものが多い。データを改ざんし,廃棄し,まともに整理できないという,さんざんな日本政府なのである。大学にAI教育を強制しているので,そのうち自動化されることを見越しているのだろう。

なんとか次の2つのデータにたどりついた。
[1]学校基本調査年次統計在学者数(e-Stat)
[2]平成30年度 児童生徒の問題行動・不登校等生徒指導上の諸課題に関する調査結果(平成30年度) 7.自殺(学校から報告のあったもの)(e-Stat)

あくまでも学校から報告のあったものであり,調査対象の定義も時期によって変動しているが,傾向は捉えられているだろう。小学生の自殺数は1桁以上小さいのでこれを除き,中学生と高校生の各年度の自殺者数をその年度の在学者数で除したものをグラフ化した。

図 日本の中学・高校生の自殺率(1974-2018)

文部科学省には,生徒指導のカテゴリーに自殺予防というページがあり,児童生徒の自殺予防に関する調査研究協力者会議(平成30年度)が設けられていて,それなりに対応している。しかし,この会議の基本資料であるべき児童生徒の自殺者数推移は横ばいであるという結論を誘導するグラフになっている。出発点がこんな認識なのでこの先が思いやられるのであった。

[1]10代前半の自殺,100年ぶりの高水準に。その要因は(石井志昂:不登校新聞)