On a Thread of the Web: 統計

ラベル統計の投稿を表示しています。すべての投稿を表示

2022年7月14日木曜日

世界人口デー

7月11日は国連が定めた世界人口デーだ。日経の夕刊と朝刊に渡って世界人口の記事が掲載されていた。ひとつは，今年の11月に世界人口が80億人に達するということ。もうひとつは，世界人口の増加率が1%を割り込んで（中国も2022年に人口減に転じている）おり，2086年には，ピークの104億人になってその後は減少に転ずるということだった。

1970年代に世界の人口爆発が問題だとされたときに，様々な刷り込みを受けた世代なので，感慨も一入だ。最近の世界人口の変化は，10億人（1804），20億人（1927），30億人（1960），40億人（1974），50億人（1987），60億人（1999），70億人（2011），80億人（2022），90億人（2040），104億人（2086* peak），となっている。自分が生まれてから死ぬまでに世界人口が約3倍になっているということか。

東アジアの人口増加が終って，南アジア（インド）が主役になる時代がきた。そして，その次にはアフリカが待っている。

［１］World Populaton Clock
［２］World Population by Year

2022年6月30日木曜日

全国ハザードマップ

NHK全国ハザードマップが公開されている。

洪水や土砂災害の危険性が全国の市町村の地図上に表現されているものだ。天理市のハザードマップも印刷物として配布されていたが，それに相当する。自宅の周りは，洪水による浸水の恐れはなさそうだけれど，数百メートル先には危険地帯が迫っている。

NHKのハザードマップは，全国の市町村ごとのデータを統合して，任意の場所について一つのインターフェースでリスクを調べることを可能にしたものだ。これがなかなか大変な作業だったということが，34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由という記事になっている。

なぜ34TBも必要なのと普通は考える。例えば，面積が60 ㎢の天理市のハザードマップのpdfファイルは7枚，15MBある。37万㎢の日本全体にスケールするには6000倍すればよく，必要なファイルサイズは90GBだ。34TB/90GB =300倍ほど過大になっている（様々な情報を格納するためのベクターデータなら1桁余分に必要かもしれないが，2桁ではないだろう）。

災害に遭遇するのは，自分が住んでいる市町村に居る場合とは限らないから，いつでも，どこでも，誰でもが簡単に全国のハザード情報を検索できるシステムの必要性や重要性は言を待たない。実際，国土交通省には重ねるハザードマップというシステムは存在している。しかし，掲載されている河川数が水防法で規定されている2200河川の43%にすぎない（これに限らず，憲法改正によって危険な緊急事態条項の導入に血道を上げる前にやるべきことが山積している日本なのだった）。

そこで，NHKががんばって，1800の地方自治体に電話をかけてデータを集めたところ，外注した成果物がpdfファイルのみで元のデジタルデータがないとか，データの格納ファイルが整理されていないとか，関係ないデータが山のように混入しているとか，そもそもデータ形式が統一されていないとか。それが34TBのデータであり，これから散々苦労して必要な情報を蒸留して作り上げたのがNHK全国ハザードマップだった。この涙なくして語れない的な読み物を一読することをお薦めする。

デジタル庁がやるべきなのは，あるいは，災害出動に価値のある自衛隊の防衛予算をまわすべきなのは，こんなところからだと思われる。

図：NHK全国ハザードマップのイメージ

P. S. NHK全国ハザードマップは期間限定の試験的デジタルコンテンツとある。もったいないので，国土交通省で引き継いだらいいのに。

［１］ハザードマップポータルサイト（国土交通省）

2022年6月14日火曜日

SDGs

京阪奈三教育大学の連携が追求されていた10年前，奈良教育大学の特徴的な活動として，ESD（Education for Sustainable Development：持続可能な開発のための教育）という言葉を聞いたのが，SDGs（Sustainable Development Goals：持続可能な開発目標）への最初の接触だった。

その当時は，まったくピンと来なくて，この人達は何を目指しているのだろうか？状態だった。いまでも奈良教育大学の活動は続いている。2022年4月1日から，奈良教育大学ESD・SDGsセンターが設置され，6月26日には設立記念シンポジウムが開催される。

その後，SDGsという言葉をしばしば耳にするようになったがまじめに調べてはいなかった。3-4年前の日本経済新聞の正月版別刷にSDGsの17の目標が詳しく説明されているのを読んで，初めて得心が行った。なんだかいいこと書いてあるじゃないのというわけだ。

ところがその後，SDGsの旗ががあちらでもこちらでも振られるのに，微妙な違和感を感じるようになった。結局，資本主義の延命策を国連の名のもとで宣伝しているだけではないのか。その証拠に，投資会社が率先して，SDGsの双子の兄弟であるESG（Environmental, Social, and Corporate Governance）を売り込んでいる。

このSDGsの流行は実は日本固有の現象ではないのかと，萩原雅之さんが数日前にFacebookで指摘していた。Google Trendsを使って，あるキーワードの検索数を国別・年度別に傾向分析することができる。その結果，SDGsというキーワードは日本で突出して多く調べられていることがわかった。アフリカ諸国がそれに次ぐのだが，欧米ではかなり少ないのだった。

図：SDGsの検索傾向と国別比較

［１］マネジメントファッションにおけるマスメディアの役割 : SDGsを事例として（八塩圭子）

2022年2月3日木曜日

機械判読可能データ

令和2年12月なのでデジタル庁ができる前のこと。統計表における機械判読可能なデータの表記方法の統一ルールが策定されていた。この積み重ねがデジタル化された社会を作るわけだが，そもそもデータを改竄することになんのためらいもない政府だとどうなのか。

総務省が，政府統計の総合窓口（e-Stat）に掲載する各省庁の統計表における機械判読可能なデータの表記方法の統一ルールを策定した。e-Statは，日本の政府統計関係情報のワンストップサービスを実現するため2008年から本運用を開始した政府統計のポータルサイトだ。総務省統計局が整備し，独立行政法人統計センターが運用管理している。

「統計表における機械判読可能なデータ作成に関する表記方法」として，Excel形式のデータ表の場合について，作成ガイドラインが示されている。

1-1 ファイル形式はExcelかCSVとなっているか
1-2 1セル1データとなっているか
1-3 数値データは数値属性とし，文字列を含まないこと
1-4 セルの結合をしていないか
1-5 スペースや改行等で体裁を整えていないか
1-6 項目名等を省略していないか
1-7 数式を使用している場合は，数値データに修正しているか
1-8 オブジェクトを使用していないか
1-9 データの単位を記載しているか
1-10 機種依存文字を使用していないか
1-11 e-Stat の時間軸コードの表記，⻄暦表記又は和暦に⻄暦の併記がされているか
1-12 地域コード又は地域名称が表記されているか
1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合
2-1 データが分断されていないか
2-2 1シートに複数の表が掲載されていないか

ガイドラインは，それぞれの項目について悪い例と改善した例が具体的に示されていて，たいへんわかりやすい。この項目がそのままでチェックシートとなっていて，実践的に利用できる。

高等学校の必履修科目である教科「情報」では，これを取り上げればよいのに。プログラミング言語はperlにして・・・というかプログラミング言語はなんでもよいので，データストリームを処理するアルゴリズムを中心にする。htmlファイルやCSVファイルから必要な情報を取り出して加工し，最終的なデータ処理やプレゼンテーションに結びつけるとかいうテーマの演習を積み重ねたら，日本の情報化が一段と進むものと思われる。

［１］統計表における機械判読可能なデータの表記方法（奥村晴彦）

2021年12月19日日曜日

メタバース（２）

メタバース（１）からの続き

1992年にスノウ・クラッシュで誕生し，2003年にSecond Lifeとして実体化し，2007年ごろに第1次ブームを迎えて消え去ったメタバースである。2021年に第2次ブームが立ち上がるかどうかの時期に差し掛かっている。コロナ禍とそれにともなう在宅勤務が追い風になっていることは間違いない。

この様子を，論文について調べてみた。１つは日本語の論文であり，これはCiNiiのキーワード検索（メタバース OR metaverse）による。もう１つは英語の科学系の論文であり，これはarXivのキーワード検索による。後者では13本しか見つからなかった。案外少ないので学術用語としては十分定着していないのかもしれない。

2007　 2
2008　 10 (1)
2009　 15 (6)
2010　 9 (2)
2011　 8 (5)
2012　 7 (5)
2013　 0
2014　 0
2015　 1
2016　 0
2017　 2
2018　 1
2019　 1 (1)
2020　 2
2021　 8 (2)

これは前者のCiNiiでヒットした文献の数（合計66件）である。2008年から2009年にピークがあり，2021年に再び増大している。なお，括弧内はタイトルに（メタバース OR metaverse）を含むもの。

P. S. CiNiiは，もうすぐ（2022年4月から）CiNii Researchに移行する。すでに試運転は始まっているので，こちらでも試してみたが，あまりクリアな結果は得られなかった。

写真：スノウ・クラッシュ下の書影（amazonから引用）

2021年10月7日木曜日

名字マップ

名字マップというのがあった。

この日本の名字マップは，電話帳や住宅地図の表札名の約4千万件のデータを，都道府県ごとに集計し，地図化したものです。表示方法としては絶対数と特化係数が選べます。また，2画面で異なる名字を地図化したり，絶対数と特化係数の地図を比較したりできます。
特化係数：当該の名字が各都道府県でどの程度特化しているかを示したもので、最大値が100であれば、全国的に均等に分布していることになります。

早速試してみたが，マイナーな名字ではあまり有り難みがないのだった。越桐だと，石川２，東京２，福井１，千葉１，奈良１，兵庫１の計８件である。特化係数は石川と福井で2500程度，ついで奈良の1000ということだった。ちょっとこの係数のイメージが掴めない。

図：２種類の名前の特化係数の比較例（© OpenStreetMap contributors）

2021年9月4日土曜日

コロナワクチン接種状況（５）

コロナワクチン接種状況（４）からの続き

8月が終わったので，ここまでのコロナワクチン接種状況を復習しておく。6月21日から職域接種が開始された。7月中に65歳以上の希望者全員のワクチン接種を完了するという目標のもとに，6月21日から7月20日の平均接種回数は約150万回になった。しかし，その後，少し失速して7月21日から8月20日の平均接種回数は約130万回にとどまっている。

8月末に総接種回数は1億3千万回に達しており，子どもを除く必要総回数2億2千万回の56%に達している。現在，平均120万回/日の速度で接種が進んでいるため，もしこのペースが維持できれば，9月末には1億6千万回（75%），10月末には2億回（90%）となるので，次に来ると考えられる第6波の様相はこれまでとは違ったものになるのかもしれない。

6月21日以降のデータとして報告されているワクチン接種回数は，土日や祝日が欠損しているので，これを線形補間してさらに7日平均接種回数の値を求めたのが次のグラフである。なお，職域接種の統計への計上は8月に入ってからなので，これも6月22日から線形にならしている。

図：7日平均ワクチン接種回数の推移（6/22-9/3）

2021年8月23日月曜日

人類減少

日本経済新聞が大げさなタイトルをつけて，本日の1面トップと2面コラムと6面の特集面を使って，21世紀の後半には世界人口が減少するという予測記事を出していた。

記事のもとになっているのはワシントン大学医学部の保健指標評価研究所（The Institute for Health Metrics and Evaluation：IHME）の2020年7月14日の論文，Fertility, mortality, migration, and population scenarios for 195 countries and territories from 2017 to 2100: a forecasting analysis for the Global Burden of Disease Study である。

うーん，なんで1年遅れの情報を今ごろに出しているのだろうか。1年かけて「人口と世界」という連載特集を組んでいくための準備をしていたのかもしれない。重要な話だとは思うが・・・

IHMEはコロナ感染症の予測にも力を入れているが，日本の感染状況の予測はぶれがおおきくてこれまでも必ずしも当たっていないのだ。まあ，日本の統計が壊滅状態であることも一因かもしれないが，これならばコロラド先生や牧野さんの方がよっぽど正確なのである。

ワシントン大学グループの予測は，国連の中位予測と下位予測の間に含まれている。世界人口は，2067年に97億人でピークとなり，2100年には87億人まで減少する。日本の人口はこの段階で半減し5900万人になっている。

1972年にローマクラブの報告を見て以来，世界人口は指数関数的な爆発をしていて，どうなるのだろうという頭しかなかったが，ついに減少が予測されるところまできていたのだった。そもそも近年は指数関数的な振る舞いをしていないのだった。

国連統計にある世界人口の対数をとって時間に対して直線になっていれば指数関数滴増加である。1950年から2020年までの70年のデータを使って計算してみた。1950年から1960年までは，世界人口は年率1.8%で増加しているが，2000年から2010年までは，年率が1.1%に減少している。というわけで人類の人口の指数関数的増加は終焉を迎えていたのだった。

図：世界人口の対数の推移（10^10が100億人）

（直線は1950-1960年が指数関的増加として外挿したもの）

［１］国際連合（UN）World Population Prospects の使い方（総務省統計局）

2021年7月31日土曜日

コロナワクチン接種状況（４）

コロナワクチン接種状況（３）からの続き

6月中旬の上記記事で，菅首相の話はおかしいのではと指摘したが，その後の遡及入力分を補正すると最終的にはこのころに100万回/日を越えたという彼らの言明の方が正しかった。

ただし，政府の内部データによるシミュレーションは必ずしも正確ではなく，累計接種回数で10%，300万回程度過小評価していた値を当時報告していた。また，6月10日から6月16日の平均ワクチン接種回数は現時点で109万回にまでなっていて，発表時点の週平均104万回という値を上回ったことになる。

そこで首相官邸のコロナワクチンのページで報告されているワクチン接種回数に遡及入力補正を行った現時点でのワクチン総接種回数推定値を求めてみた。遡及入力分がだらだらと指数関数的に登録されると仮定して，7月1日分の一般接種分データの1ヶ月分の推移からざっくりパラメタを求めた。$N(t) = N_0 \{1 - 0.5 * \exp (-t/7) \} $で近似できたことにしよう。

図：ワクチン一般接種回数の遡及入力曲線（7/1データの29日分の推移から）

7/29時点の政府データの総接種回数は，医療従事者等1200万回，一般接種7200万回（うち高齢者5600万回）の合計8400万回になっている。これは遡及分を含んでいない（はず）。

図　一日当たりワクチン接種回数の推移（深いdipはオリンピック開始時）

遡及分を補正すると400万回分くらい増えるので，7月末までの総接種回数は，合計8800万回である（注：こちらの集計では，医療従事者等1070万回，一般7570万回，合計8640万回なので若干の齟齬がある）。結局，現時点の補正後の高齢者ワクチン総接種回数は，5900万回程度なので，当初の予想通り，高齢者については7月末までにワクチン総接種回数ベースでほぼ80%が完了したことになる。

仮にこのまま日本における一日のワクチン接種回数が140万回/日で推移すれば，(2.2億回-8800万回)/140万回/日 = 94日≒3ヶ月かかるので，10月末には希望者への接種がほぼ完了するはずだ。現時点で総接種回数ベースで40%が完了しているので，8月末に60%，9月末に80%，10月末に100%というわけだ。

（注：ここは総接種回数ベースの議論なので，第1回目とか第2回目の割合はまた別の話）

2021年7月8日木曜日

ワクチン接種統計のマジック

オリンピック開始まであと残りわずかとなった。今日，緊急事態宣言が東京・沖縄で8/22まで発出され，蔓延防止等重点措置が埼玉・千葉・神奈川・大阪で 8/22まで延長された。また，北海道・愛知・京都・兵庫・福岡については7/11までで蔓延防止等重点措置が解除された。

7時のNHKニュースの枠で，菅首相記者会見がだらだらと放送されている。気になったことがある。ワクチン接種のロジスティックスというか管理態勢は破綻していると思うのだが，総数としては必要分が確保されていて（地方自治体に滞留している）というところまではよい。ところで，現時点で1日あたり130-140万回のペースで接種が進んでいると菅は発言した。

いや，いくらなんでもそれはないだろうと，首相官邸のワクチンのページをみると，なにやら内閣官房の新型ワクチンの統計のページの形式が変更されている。あやしい。しかも，新しく設けられている日別のファイルをみると（データ列が途中で入れ替わっているという単純ミスがある），確かに日平均130万回以上接種がすすんでいるかのように見える。

で，よく調べてみると，これには，毎日の遡及入力が含まれない段階の各報告日の過小評価した合計の一覧がならんでいる。一方，それらの最終日において一定の遡及入力が加わったものを並べた結果とは違ってくる。このため，政府発表の数値は，最終的に遡及入力が収束するものと比べて，日々の増加分を過大評価することになっている。グラフでみたほうがわかりやすいだろう。

図　ワクチン接種統計のマジック（2021.7.8の政府統計より）

青が遡及入力を含むより現実的な値，橙は政府統計値

2021年7月6日火曜日

東京オリンピック（３）

東京オリンピック（２）からの続き

東京都議会選で自民・公明が過半数割れして都民ファーストが踏みとどまったことから，東京五輪無観客作戦が進められているような報道がされている。結局は徳仁天皇の意向が微妙に無視しきれなかったからなのかもしれない。

その朝日新聞の説は，収容人員が50%で5000人を超える会場は無観客にするというものだ。ただし，IOC関係者やスポンサー枠など五輪貴族様は例外扱いで，犠牲になる小中学生もカウントにはいれないのだろう。それでも，とりあえず計算してみるとつぎのとおり。

　　　会場　　　　　　　　　　　　　収容定員　日数　　延人数

1 オリンピックスタジアム　　　 68,000 　13 　0

2 東京体育館　　　　　　　　　 7,000 　13 　45,500

3 国立代々木競技場　　　　　　 10,200 　16 　0

4 日本武道館　　　　　　　　　 11,000 　11 　0

5 東京国際フォーラム　　　　　 5,000 　10 　25,000

6 国技館　　　　　　　　　　　 7,300 　15 　54,750

7 馬事公苑　　　　　　　　　　 9,300 　12 　55,800

8 武蔵野の森総合スポーツプラザ 7,200 　11 　39,600

9 東京スタジアム　　　　　　　 48,000 　10 　0

10 武蔵野の森公園　　　　　　　 -

11 有明アリーナ　　　　　　　　 15,000 　16 　0

12 有明体操競技場　　　　　　　 12,000 　14 　0

13 有明アーバンスポーツパーク　 7,000 　 8 　28,000

14 有明テニスの森　　　　　　　 19,900 　 9 　0

15 お台場海浜公園　　　　　　　 5,500 　 5 　13,750

16 潮風公園　　　　　　　　　　 12,000 　15 　0

17 青海アーバンスポーツパーク　 8,400 　 9 　37,800

18 大井ホッケー競技場　　　　　 15,000 　14 　0

19 海の森クロスカントリーコース 16,000 　 1 　0

20 海の森水上競技場　　　　　　 16,000 　14 　0

21 カヌー・スラロームセンター　 7,500 　 6 　22,500

22 夢の島公園アーチェリー場　　 5,600 　 9 　25,200

23 東京アクアティクスセンター　 15,000 　27 　0

24 東京辰巳国際水泳場　　　　　 4,700 　16 　37,600

25 札幌大通公園　　　　　　　　 -

26 幕張メッセAホール・Bホール　 9,000 　20 　90,000

27 釣ヶ崎海岸サーフィンビーチ　 6,000 　 8 　24,000

28 さいたまスーパーアリーナ　　 21,000 　15 　0

29 陸上自衛隊朝霞訓練場　　　　 3,200 　10 　16,000

30 霞ヶ関カンツリークラブ　　　 25,000 　 8 　0

31 江の島ヨットハーバー　　　　 3,000 　11 　16,500

32 伊豆ベロドローム　　　　　　 3,600 　 7 　12,600

33 伊豆 MTBコース　　　　　　　 11,500 　 2 　0

34 富士スピードウェイ　　　　　 22,000 　 3 　0

35 福島あづま球場　　　　　　　 14,300 　 3 　0

36 横浜スタジアム　　　　　　　 35,000 　13 　0

37 札幌ドーム　　　　　　　　　 41,000 　 5 　0

38 宮城スタジアム　　　　　　　 49,000 　 6 　0

39 茨城カシマスタジアム　　　　 40,000 　 8 　0

40 埼玉スタジアム2002　　　　　 64,000 　 8 　0

41 横浜国際総合競技場　　　　　 72,000 　 8 　0

　　合　　計　　　　　　　　　　　　　　544,700

合計は，54万人ということになった。これに特別枠が加われば，ざっと100万人というところで，当初の目論見であった300万人の1/3にはなる。1日平均5万人の直接の人出効果に相当する。抽選の手間が省けて便利なのかもしれないが，開会式も閉会式も陸上も水泳もサッカーも野球も「いわゆる無観客」なのか。

2021年6月22日火曜日

東京オリンピック（２）

東京オリンピック（１）からの続き

開催中止や無観客どころか，会場定員の50%で上限1万人＋小中学生枠＋大会関係者枠（スポンサー招待等含むかも）＋酒類販売OKという悲惨な状況になっているけれど，マスメディアは，スポーツの時間になると急に表情を変えてオリンピックの宣伝に暇がない。

さて，これによって，どのくらいの新たな人出が発生するかを評価してみた。

　　　会場　　　　　　　　　　　　　収容定員　日数　　延人数
1 オリンピックスタジアム　　　 68,000 　13 　130,000
2 東京体育館　　　　　　　　　 7,000 　13 　45,500
3 国立代々木競技場　　　　　　 10,200 　16 　81,600
4 日本武道館　　　　　　　　　 11,000 　11 　60,500
5 東京国際フォーラム　　　　　 5,000 　10 　25,000
6 国技館　　　　　　　　　　　 7,300 　15 　54,750
7 馬事公苑　　　　　　　　　　 9,300 　12 　55,800
8 武蔵野の森総合スポーツプラザ 7,200 　11 　39,600
9 東京スタジアム　　　　　　　 48,000 　10 　100,000
10 武蔵野の森公園　　　　　　　 -
11 有明アリーナ　　　　　　　　 15,000 　16 　120,000
12 有明体操競技場　　　　　　　 12,000 　14 　84,000
13 有明アーバンスポーツパーク　 7,000 　 8 　28,000
14 有明テニスの森　　　　　　　 19,900 　 9 　89,550
15 お台場海浜公園　　　　　　　 5,500 　 5 　13,750
16 潮風公園　　　　　　　　　　 12,000 　15 　90,000
17 青海アーバンスポーツパーク　 8,400 　 9 　37,800
18 大井ホッケー競技場　　　　　 15,000 　14 　105,000
19 海の森クロスカントリーコース 16,000 　 1 　8,000
20 海の森水上競技場　　　　　　 16,000 　14 　112,000
21 カヌー・スラロームセンター　 7,500 　 6 　22,500
22 夢の島公園アーチェリー場　　 5,600 　 9 　25,200
23 東京アクアティクスセンター　 15,000 　27 　202,500
24 東京辰巳国際水泳場　　　　　 4,700 　16 　37,600
25 札幌大通公園　　　　　　　　 -
26 幕張メッセAホール・Bホール　 9,000 　20 　90,000
27 釣ヶ崎海岸サーフィンビーチ　 6,000 　 8 　24,000
28 さいたまスーパーアリーナ　　 21,000 　15 　150,000
29 陸上自衛隊朝霞訓練場　　　　 3,200 　10 　16,000
30 霞ヶ関カンツリークラブ　　　 25,000 　 8 　80,000
31 江の島ヨットハーバー　　　　 3,000 　11 　16,500
32 伊豆ベロドローム　　　　　　 3,600 　 7 　12,600
33 伊豆 MTBコース　　　　　　　 11,500 　 2 　11,500
34 富士スピードウェイ　　　　　 22,000 　 3 　30,000
35 福島あづま球場　　　　　　　 14,300 　 3 　21,450
36 横浜スタジアム　　　　　　　 35,000 　13 　130,000
37 札幌ドーム　　　　　　　　　 41,000 　 5 　50,000
38 宮城スタジアム　　　　　　　 49,000 　 6 　60,000
39 茨城カシマスタジアム　　　　 40,000 　 8 　80,000
40 埼玉スタジアム2002　　　　　 64,000 　 8 　80,000
41 横浜国際総合競技場　　　　　 72,000 　 8 　80,000

　　合　　計　　　　　　　　　　　　　　2,500,700

東京オリンピック2020によって，新型コロナ感染症が終息していない状況で新たに250万人の人出を持ち込むことになる。さらに，小中学生枠（東京都だけで約80万人）と大会関係者枠（スポンサー枠等？万人）が加わるので，およそ300万人のオーダーであり，直接的な影響としては一日あたり平均約15万人の人出が加わる。

東京都特別区部への通勤・通学による流入人口は約300万人なので，これと比べれば，5%の増加というイメージだ。この流れに付随してさまざまな活動が生起するとともに，「オリンピックやっているくらいだから大丈夫だよね」効果が間接的な影響として想定される。

P. S. 赤旗6/24によれば，一般観戦チケット（再抽選後）272万枚，スポンサー等関係者向け50万枚+α，学校関係59万内の合計最大381万枚ということだ。これなら，１日平均18万人の人出となる。

［１］オリンピック競技スケジュール
［２］オリンピック競技会場

［３］東京都特別区部への流入人口

2021年6月18日金曜日

コロナワクチン接種状況（３）

コロナワクチン接種状況（２）からの続き

6/17に，6/20まで出されていた緊急事態宣言や蔓延防止等重点措置の継続・変更・解除についての菅首相の記者会見があった。相変わらず，リスクコミュニケーションに失敗しているのだが，気になったのがワクチン接種100万回を達成したという部分。

もし，首相官邸の新型コロナワクチンについてのデータが正しくて，それ以外の接種統計情報がないのであれば，菅首相の説明は誤っている。しかし，だれもこれを指摘していない。いや，リベラシオンとラジオ・フランスの特派員のKaryn Nishimuraさんがtwitterでつぶやいていた。その結果，当日の資料が公開された。

図　首相記者会見でのワクチン接種回数資料（2021.6.17）

6/16水と6/9水の差分が728万回なので，1日平均104万回に達したと書いてあるし，菅首相は自信満々で説明していた。　うーん，ホントなの？　政府のデータが，厚生労働省の新型コロナワクチンの接種実績（2/17-4/9=159万回）と首相官邸のこれまでのワクチン総接種回数だけであれば，首相記者会見で出された数字はおかしいように思われる。それ以外の情報が加わっていたり情報が加工されているのであれば，その限りではない。

そもそも，注釈にある「土日は接種がないので金曜日分・月曜日分をつないで補完」とあるが，土日の情報が欠けているのは医療関係従事者等分であり，これも月曜分として，土日を含めた数字が計上されているため，注釈のような補完をすればダブルカウンティングになってしまう。

ただし，6/9-6/16の期間ではこの影響は高々36万回程度であって，大きな要因ではない。6/17付の政府公表データが正しいのであれば，新型コロナワクチン総接種回数は，6/9で2093万回（2038万回），6/16で2660万回（2766万回）なので，その差は567万回（728万回）となる（カッコ内は記者会見資料）。先程の本当は正しくない補完の効果を加えても，603万回にしかならないので，残念ながら菅首相のいう1日100万回には惜しくも到達しないのであった。

P. S. コロナワクチン接種状況（２）で指摘した，まだ加えられていない遡及入力分を評価しているから平均100万回/日突破は正しいという説があった。あるいはそうなのかも知れないので，来週もう一度確認してみることにしよう。

2021年6月11日金曜日

コロナワクチン接種状況（２）

コロナワクチン接種状況（１）からの続き

自衛隊が東京と大阪で運営する大規模接種センターが現段階で予約が2割とか3割しか満たされていないために，全国からの接種を可能にするらしい。おい，人流はどうなった。大阪維新もそうだけれど，安倍−菅政権を通して十分に吟味検討されていない政策が，整合性も反省もなくいきあたりばったりに積み重ねられている。アジャイル政策開発といえばもっともらしくごまかせるのかな。

さて，証拠に基づく政策づくり（EBPM）とはほど遠い現状で，重要な社会統計データの質や信頼性についても不審な点が多々観測される。コロナワクチンの接種回数統計もその一つかもしれない。前回に続いて，医療関係従事者と高齢者の接種回数をプロットしてみた。一日あたりの接種回数100万回の目標にはほぼ順調に接近しているように見える。ただし，菅首相が100万回に達したと言及したのは嘘であり，高齢者分だけに限ればまだ60万人程度の水準である。

図１　ワクチン接種状況（2021.6.10まで）

高齢者向けワクチン接種統計はワクチン記録システム（VRS）によって集計されているようだが，いまだに１ヶ月以上過去のデータが更新され続けている。つまり，首相官邸のワクチン接種回数データは，数日の遅れはあってもそれより過去のデータは変化しないというものではなくて，毎回の更新時に全過去データへの修正が行われるということだ（医療関係従事者のほうはそうなっておらず過去分は確定した状態で更新される）。

善意で解釈すれば，VRSの導入がまだ続いていて，利用できるようになった会場での遡及入力が行われているということなのかもしれないが，それにしても時系列統計としてどうなのよという感じである。

図２　6/10時点の接種回数と6/9時点からの遡及差分（対数軸）

2021年6月1日火曜日

コロナワクチン接種状況（１）

コロナワクチン接種能力からの続き

6月に入りました。温室いちごが終わってヒノヒカリの田植えがそろそろ始まる。首相官邸のコロナワクチンのページが更新されたので，5月末までの状況がわかった。これを眺めると次のようなことがわかる。

(1) 医療従事者向けのワクチン接種総回数は760万回を越え，予定の960万回に対して80%の実施率となった。しかし，ここにきて一日あたりの接種回数は鈍っている。

(2) 高齢者向けを含めた1日あたりのワクチン接種能力は50万回/日程度に至った。この調子で6月末までに100万回/日になって，7月末まで推移すると，高齢者向けのワクチン接種総回数は5800万回となり，予定の7200万回の80%が達成見込みとなる。

モデルナワクチンによる職場や大学での集団接種がうまく進めば良いけれど，相変わらず十分に設計されていない感が漂ってくる。接種体制を各組織で調達せよということなので，そう簡単な話ではなさそうだ。

図１　ワクチン接種回数の推移

図２　都道府県の人口に対する x 医療関係従事者と y 高齢者の接種率 (%)

［１］新型コロナウイルスワクチンの接種体制確保について（厚生労働省）

2021年5月24日月曜日

コロナワクチン接種予想

コロナワクチン接種率からの続き

5月24日（月）から東京と大阪で防衛省・自衛隊が設置した大規模接種センターの運用が始まった。自衛隊の医官が80人，看護官が200人，民間の看護師が200人，民間のスタッフが200人でこれに一般の自衛隊員が加わる。総スタッフ数は，大阪会場が340人，東京会場が700人と思われるので，およそ次のような内訳ではないかと推定される（あまり自信はない）。

東京会場：医官 50，看護官 130，自衛官 280，民間看護師 110，民間スタッフ 130；合計 700
大阪会場：医官 30，看護官 70，自衛官 80，民間看護師 90，民間スタッフ 70；合計 340
合計：医官 80，看護官 200，自衛官 360，民間看護師 200，民間スタッフ 200；合計 1040

民間の看護師とスタッフ，医官や看護官以外の自衛官には，余ったワクチンを接種するということだけれど，なんだかなあ。接種会場のスタッフにまずワクチンを打つべきだと思うが。

これらの会場では，モデルナのワクチン（2回の接種間隔は4週間）を，1日あたり当初 5000人/2500人，最大 1万人/5千人の接種を実施する。100万人/日の目標からするとそれほど大きな効果はないが，これに習って各地方自治体でも大規模接種会場が設置されるようだ。

菅首相は，7月末の高齢者ワクチン接種完了に異常に固執している。しかし，現在のワクチン接種数を外挿すると多分実現は無理である。ただし，3600万人の高齢者全てが希望するわけでなはいなどというめちゃくちゃな後付けの理由で持って，80%達成時点で目標は達成されたといい出す可能性はある。

首相官邸の新型コロナワクチンのデータからざっくりと見積もると（接種回数が線形に増加して，5月末に最大値の100万回/日に到達すると仮定），非常にうまく進んだとして，5月末までに400万回，6月中に2400万回，7月中に3000万回の合計5800万回がこなせれば，目標の7月末の高齢者ワクチン接種は，80％の達成率となる。

図　ワクチン接種状況（医療従事者と高齢者と合計の推移）

［１］ワクチン大規模接種センターきょうから東京大阪で接種開始（NHK）

2021年5月23日日曜日

コロナワクチン接種率

日本政府（各省庁等）の統計データの管理技術にはなかなか残念な綻びが散見される。コロナワクチン接種率もその一つだ。政権の見栄えのために厚生労働省から引き剥がして内閣府に設けた「新型コロナワクチンについて」のページには，医療従事者等と高齢者等の総ワクチン接種回数のデータが，日別と都道府県別で上がっている。しかし，データは必ずしも定時に定常的にアップロードされるわけではなく，目詰まりしながら間欠的に提示されている。都道府県別データに至っては，5月23日の時点で5月14日や16日のデータが最新という有様だ。

WHOの新型コロナウイルス感染者数と死亡者数でも多くの国では毎日更新データが提供されているが，スペインなど１週間で２回ほど更新される程度の国もある。なお，日本は，このデータについては毎日更新ができている。

この直近のワクチン接種回数の都道府県別データを，各都道府県の人口で除したものを医療従事者と高齢者を２つの要素として散布図にしてみた。juliaのグラフィックスのgadfly.jlを用いると簡単にできることがわかったので，それを使ってみた。

- - - - - - - - - - - - - - - -
using Gadfly
using Compose
using DataFrames
X = [4.0,4.2,5.2,4.1,4.8,4.8,4.4,4.0,4.1,4.2,3.5,3.2,3.6,3.0,4.3,5.0,5.0,6.3,3.6,4.3,4.3,3.7,3.9,4.6,4.0,4.0,3.4,3.4,4.6,5.4,5.6,5.3,4.8,4.6,5.8,6.8,4.8,5.6,6.7,4.0,7.1,5.9,6.0,5.9,5.3,5.7,4.6]
Y = [0.6,1.3,1.3,0.7,2.1,2.1,1.3,0.7,0.7,1.0,0.4,0.4,0.5,0.4,1.1,0.4,1.8,1.4,1.3,1.2,1.0,0.5,0.8,0.7,1.4,0.5,0.5,0.5,1.0,3.5,2.3,1.5,0.4,0.8,2.5,1.6,1.8,0.6,3.2,0.4,1.7,0.9,1.0,1.2,1.8,1.4,0.9]
Labels = ["北海道","青森","岩手","宮城","秋田","山形","福島","茨城","栃木","群馬","埼玉","千葉","東京","神奈川","新潟","富山","石川","福井","山梨","長野","岐阜","静岡","愛知","三重","滋賀","京都","大阪","兵庫","奈良","和歌山","鳥取","島根","岡山","広島","山口","徳島","香川","愛媛","高知","福岡","佐賀","長崎","熊本","大分","宮崎","鹿児島","沖縄"]

plot(x=X, y=Y, label=Labels, Geom.point, Geom.label, Theme(major_label_font="CMU Serif",minor_label_font="CMU Serif",major_label_font_size=12pt,minor_label_font_size=12pt))
#plot(x=X, y=Y, Guide.annotation(compose(context(), text(X, Y, Labels))))
- - - - - - - - - - - - - - - -

図　都道府県別コロナワクチン接種率（x: 医療従事者 %，y: 高齢者 %）

ラベルの重複処理ができているといえばできているのだけれど，欠落しているといえばそうなわけで，これを解決すると（#でコメントアウトしたcomposeによる方法）見にくくなってしまうので一長一短なのだった。

エビデンスベースの政策立案（EBPM）が鳴り物入りで喧伝されているが，公文書を堂々と改竄・隠蔽して憚らない文化の中で，恣意的なエビデンスのチェリーピッキングが横行することを考えれば，地味でも着実に正規化された標準データを蓄積して情報公開を進めることの方が，つまらないデジタル庁を設けるよりもまず最優先の課題だと思われる。

2021年5月22日土曜日

ラベル付き散布図

Rをjupyterでからの続き

ラベル付き散布図と格闘している。

(1) Excel が一番簡単そうで，調べるとすぐに事例が見つかった。しかし，これはWindows版の場合であり，残念ながらMac版（Microsoft Office 2019 Home & Student）にはその機能がなかった。

(2) Rは統計グラフがお手の物のはずなので多分あるだろう。そこでRをjupyter上に持ってきた。これも簡単に事例が見つかった。見本通りにやってみると，

#今回使うライブラリ
library(maptools)
#データの準備
CC <- c("CAN","DNK","FIN","FRA","DEU","ITA","JPN","KOR","NLD","POL","SWE","GBR","USA")
PAR <- c(13.7,15.7,16.6,16.6,20.2,20.1,22.1,10.3,14.9,13.5,17.6,15.6,12.8)
SE <- c(3.8,7.4,8.6,11.5,8.5,12.2,9.3,1.9,5.4,8.9,9.4,6.2,5.5)
sample <- data.frame(PAR, SE)
rownames(sample) <- CC

以下のerrorが出て（これは例題に対しては実害はなかったが）日本語も化けてしまう。

Checking rgeos availability: FALSE
Note: when rgeos is not available, polygon geometry computations in maptools
depend on gpclib, which has a restricted licence. It is disabled by default;
to enable gpclib, type gpclibPermit()

ただ，日本語文字化けを避けるには（エラーは残るものの），次のようにすればよかった。

par(family= "HiraKakuProN-W3")
plot(sample$PAR, sample$SE, xlab="65歳以上人口比率(%)", ylab="対GDP比高齢者向け社会支出(%)")
pointLabel(x=sample$PAR, y=sample$SE, labels=rownames(sample))

図 R on jupyter のラベル付き散布図の例

(3) juliaではラベル付き散布図の例が探せなかったが，labelled scatter をキーワードとするといとも簡単に解が見つかってしまった。こちらは日本語もすんなり通ってくれる。

2021年5月21日金曜日

Rをjupyterで

ラベル付き散布図を描きたいのだ。なかなかうまく探しきれず，Rが一番手っ取り早そうなので，Rをjupyterから使えるようにすることを試みた。

とりあえず，brewでRをインストールすると最新のarm版だった。

brew install R
R —version
R version 4.1.0 (2021-05-18)

次にコマンドラインでRを起動し，R環境の中で３つのコマンドを実行する［１］。
>install.package(“devtools”) … CRAN ダウンロードは Japan/Tokyo 47 から

１つ目のコマンド（上記）で次のエラーが出てしまった。

>1: install.packages("devtools") で:
> installation of package ‘gert’ had non-zero exit status
>2: install.packages("devtools") で:
> installation of package ‘usethis’ had non-zero exit status
>3: install.packages("devtools") で:
> installation of package ‘devtools’ had non-zero exit status
>> Configuration failed to find libgit2 library. Try installing:
> * brew: libgit2 (MacOS)

そこで，brewでlibgit2をインストールしてから再挑戦する。

brew install libgit2
R
> install.packages("devtools")
> devtools::install_github("IRkernel/IRkernel")
> IRkernel::installspec()
jupyter lab … これで OK!

これでうまくいった。

写真：jupyterlabの起動画面

［１］JupyterlabでRとJavascriptを使う（Qiita）

2021年2月16日火曜日

四半期GDP

NHKの2月15日のニュースで，2020年度10-12月期のGDP成長率の速報値が報道されていた。前の四半期2020年度7-9月期と比べて，実質年率12.7%の成長ということだった。なんじゃこれ。コロナショックからの立ち直り過程なのでGDPは増えるのが当たり前だから，比較すべきは前四半期ではなくて，前年の同四半期であるべきではないか。あいかわらずNHKの報道はひどい。

と思っていたのだが，ひどいのはNHKだけではなくて，この情報源である内閣府経済社会総合研究所国民経済計算部の2020 年 10-12 月期GDP速報(1 次速報値) ~ ポイント解説 ~でした。NHKはそれを右から左に垂れ流しているだけ。もっともWeb版では少しアレンジされているので，GDPが伸びているという印象は若干弱めてある。

そもそもGDPには季節要因の周期性もあるはずだ。データは公開されているので自分で確認してみるため，統計表一覧（2020年10-12月期 1次速報値）の実質原系列（CSV形式34kB）のデータを可視化した。

図１　四半期実質GDPの推移（✕10億円）

図２　四半期実質GDPの前年比増減率の推移

リーマンショックの2009-2010年，コロナショックの2020年を除いた時期の前四半期比増減率を平均すると，1-3月期（-2.93%），4-6月期（-2.21%），7-9月期（2.44%），10-12月期（3.62%）というはっきりとした年周期構造がみられた。少なくともこの部分を差し引いて判断する必要がある。

まあ，こんな細かな話はどうでも良くて，中国を含む先進諸国で日本だけがGDPを伸ばしていないことのほうが問題なのかも。

登録: 投稿 (Atom)