日本政府(各省庁等)の統計データの管理技術にはなかなか残念な綻びが散見される。コロナワクチン接種率もその一つだ。政権の見栄えのために厚生労働省から引き剥がして内閣府に設けた「新型コロナワクチンについて」のページには,医療従事者等と高齢者等の総ワクチン接種回数のデータが,日別と都道府県別で上がっている。しかし,データは必ずしも定時に定常的にアップロードされるわけではなく,目詰まりしながら間欠的に提示されている。都道府県別データに至っては,5月23日の時点で5月14日や16日のデータが最新という有様だ。
WHOの新型コロナウイルス感染者数と死亡者数でも多くの国では毎日更新データが提供されているが,スペインなど1週間で2回ほど更新される程度の国もある。なお,日本は,このデータについては毎日更新ができている。
この直近のワクチン接種回数の都道府県別データを,各都道府県の人口で除したものを医療従事者と高齢者を2つの要素として散布図にしてみた。juliaのグラフィックスのgadfly.jlを用いると簡単にできることがわかったので,それを使ってみた。
- - - - - - - - - - - - - - - -using Gadfly
using Compose
using DataFrames
X = [4.0,4.2,5.2,4.1,4.8,4.8,4.4,4.0,4.1,4.2,3.5,3.2,3.6,3.0,4.3,5.0,5.0,6.3,3.6,4.3,4.3,3.7,3.9,4.6,4.0,4.0,3.4,3.4,4.6,5.4,5.6,5.3,4.8,4.6,5.8,6.8,4.8,5.6,6.7,4.0,7.1,5.9,6.0,5.9,5.3,5.7,4.6]
Y = [0.6,1.3,1.3,0.7,2.1,2.1,1.3,0.7,0.7,1.0,0.4,0.4,0.5,0.4,1.1,0.4,1.8,1.4,1.3,1.2,1.0,0.5,0.8,0.7,1.4,0.5,0.5,0.5,1.0,3.5,2.3,1.5,0.4,0.8,2.5,1.6,1.8,0.6,3.2,0.4,1.7,0.9,1.0,1.2,1.8,1.4,0.9]
Labels = ["北海道","青森","岩手","宮城","秋田","山形","福島","茨城","栃木","群馬","埼玉","千葉","東京","神奈川","新潟","富山","石川","福井","山梨","長野","岐阜","静岡","愛知","三重","滋賀","京都","大阪","兵庫","奈良","和歌山","鳥取","島根","岡山","広島","山口","徳島","香川","愛媛","高知","福岡","佐賀","長崎","熊本","大分","宮崎","鹿児島","沖縄"]
plot(x=X, y=Y, label=Labels, Geom.point, Geom.label, Theme(major_label_font="CMU Serif",minor_label_font="CMU Serif",major_label_font_size=12pt,minor_label_font_size=12pt))
#plot(x=X, y=Y, Guide.annotation(compose(context(), text(X, Y, Labels))))
- - - - - - - - - - - - - - - -
ラベルの重複処理ができているといえばできているのだけれど,欠落しているといえばそうなわけで,これを解決すると(#でコメントアウトしたcomposeによる方法)見にくくなってしまうので一長一短なのだった。
エビデンスベースの政策立案(EBPM)が鳴り物入りで喧伝されているが,公文書を堂々と改竄・隠蔽して憚らない文化の中で,恣意的なエビデンスのチェリーピッキングが横行することを考えれば,地味でも着実に正規化された標準データを蓄積して情報公開を進めることの方が,つまらないデジタル庁を設けるよりもまず最優先の課題だと思われる。