On a Thread of the Web: 統計

ラベル統計の投稿を表示しています。すべての投稿を表示

2023年7月24日月曜日

最小二乗法（４）

$(a,\ b)$ に対する平均二乗誤差，$(\sigma_a^2,\ \sigma_b^2)$を考える。$(a,\ b)$ は直接測定された$(x, \ y)$の関数であるが，このうち$x_i$の誤差は非常に小さく，$y_i$の誤差だけが$n$個の独立変数として伝搬して$(a,\ b)$ に反映すると仮定する。ただし，各$y_i$自身の平均二乗誤差は共通でありこれを$\sigma_y^2$とおく。

誤差伝播の法則より，

$\displaystyle \sigma_a^2= \sum_{i=1}^n \Bigl( \frac{\partial a}{\partial y_i}\Bigr) ^2 \sigma_y^2 = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{i=1}^n \Bigl( x_i-\overline{x} \Bigr) ^2 = \frac{\sigma_y^2}{n \Delta^2} \Bigl( \overline{x^2}-\overline{x}^2 \Bigr) = \frac{\sigma_y^2}{n \Delta} $

$\displaystyle \sigma_b^2= \sum_{i=1}^n \Bigl( \frac{\partial b}{\partial y_i}\Bigr) ^2 \sigma_y^2 = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{i=1}^n \Bigl( \overline{x^2}-\overline{x}x_i \Bigr) ^2 = \frac{\sigma_y^2 \ \overline{x^2}}{n \Delta^2} \Bigl( \overline{x^2}-\overline{x}^2 \Bigr) = \frac{ \sigma_y^2 \ \overline{x^2}}{n \Delta}$

残るは，$\displaystyle \sigma_y^2 = \frac{1}{n} \sum_{i=1}^n (\varepsilon_i)^2\ $を実験値から導くことになる。ここで，$ \varepsilon_i = y_i-(a_0 x_i + b_0) = y_i - (a x_i + b) + (a x_i + b) -(a_0 x_i + b_0) = \delta_i + \tilde{\varepsilon_i}$ である。

ただし，$a_0 x_i + b_0$が未知の真値，$a x_i + b$が平均値に対応し，$ \delta_i$が残差， $\tilde{\varepsilon_i}$が平均値の誤差に相当する。

$\displaystyle \therefore \sigma_y^2 =\frac{1}{n}\sum_{i=i}^n \Bigl\{ \delta_i^2 + \tilde{\varepsilon_i}^2 \Bigr\}$ ここで，$\displaystyle \frac{2}{n} \sum_{i=1}^n \delta_i \tilde{\varepsilon}_i =0$ である。なぜならば$\tilde{\varepsilon}_i$は$x_i$の一次関数であり，正規方程式より， $\sum_{i=1}^n \delta_i = 0$ と $\sum_{i=1}^n \delta_i x_i=0$ が成り立つから。

そこで，$y(x_i)=a x_i+b$として，$\displaystyle \tilde{\sigma^2}_{y(x_i)} = \frac{1}{n}\sum_{i=i}^n \tilde{\varepsilon_i}^2 = \frac{1}{n}\sum_{i=i}^n \Bigl\{ a x_i + b - a_0 x_i - b_0 \Bigr\}^2$を求めることになるが，ここで，$(a, b)$が $y_i$の関数として誤差伝搬の法則を再度使って，$\sigma_y^2$で表せばよい（と吉澤康和さんの「新しい誤差論（1989）」に書いてあった）。

2023年7月23日日曜日

最小二乗法（３）

最小二乗法（２）からの続き

物理量 $x$を設定したとき，$y$が測定される。$n$回測定では，$(x_1,\ y_1),\ (x_2,\ y_2),\ \cdots (x_n,\ y_n)$ が得られたとする。２つの物理量の間には，$y\ =\ a x + b$という1次関数の関係があって，$(a,\ b)$にも物理量としての意味がある。

この$(a, \ b)$を求めるため，$\displaystyle S(a,b)=\frac{1}{n}\sum_{i=1}^n (y_i-a x_i -b)^2$を最小化するという条件を課す。すなわち，$\frac{\partial S}{\partial a}=0, \frac{\partial S}{\partial b}=0, $これから次の$(a,\ b)$に関する連立方程式（正規方程式）が得られる。

$\displaystyle \frac{1}{n} \sum_{i=1}^n x_i \bigl( y_i - a x_i - b \bigr) = 0 \rightarrow \quad a \overline{x^2} + b \overline{x} = \overline{xy} $

$\displaystyle \frac{1}{n} \sum_{i=1}^n \bigl( y_i - a x_i - b \bigr) = 0 \quad \rightarrow \quad a \overline{x} + b = \overline{y} $

これを解くと次の解が得られる。ただし，$\Delta = \overline{x^2} - (\overline{x})^2$ である。

$a=\frac{1}{\Delta}\bigl(\overline{xy}-\overline{x} \cdot \overline{y} \bigr)$

$b=\frac{1}{\Delta}\bigl( (\overline{x^2}\cdot \overline{y}-\overline{x} \cdot \overline{xy} \bigr)$

2023年7月22日土曜日

最小二乗法（２）

最小二乗法（１）からの続き

間接測定と誤差伝播（でんぱ）の法則について考えるため，物理量$z$が，独立な物理量 $a,\ b,\ c,\ \cdots$の関数で，$z=f(a,\ b,\ c,\ \cdots) $と表されるとする。

ここで，$(a_i,\ b_i,\ c_i\ \cdots)$を各物理量の$i$番目の測定値とする。また，残差を用いて，$(a_i,\ b_i,\ c_i\ \cdots) = (\bar{a}+\delta^a_i,\ \bar{b}+\delta^b_i,\ \bar{c}+\delta^c_i,\ \cdots)$とする。

$z(a_i,\ b_i,\ c_i,\ \cdots) = f (\bar{a}+\delta^a_i,\ \bar{b}+\delta^b_i,\ \bar{c}+\delta^c_i,\ \cdots) $

$\simeq f(\bar{a}, \bar{b}, \bar{c}, \cdots)+ \frac{\partial f}{\partial a} \delta^a_i + \frac{\partial f}{\partial b} \delta^b_i + \frac{\partial f}{\partial c} \delta^c_i + \cdots = \bar{z} + \delta^z_i $

として，$ \delta^z_i$を定義する。

残差と平均二乗誤差の関係から，間接測定される物理量zについて，$\displaystyle \sigma_z^2 = \frac{1}{n-1} \sum_{i=1}^n (\delta^z_i )^2$ が成り立つ。

$\displaystyle \therefore \sigma_z^2 = \frac{1}{n-1} \sum_{i=1}^n \Bigl( \frac{\partial f}{\partial a} \delta^a_i + \frac{\partial f}{\partial b} \delta^b_i + \frac{\partial f}{\partial c} \delta^c_i \cdots \Bigr)^2$

$\displaystyle = \frac{1}{n-1} \sum_{i=1}^n \Bigl \{ \bigl( \frac{\partial f}{\partial a} \delta^a_i \bigr)^2+ \bigl(\frac{\partial f}{\partial b} \delta^b_i \bigr)^2 +\bigl ( \frac{\partial f}{\partial c} \delta^c_i \bigr)^2+ \cdots \Bigr\}$

$\displaystyle \therefore \sigma_z^2 = \Bigl( \frac{\partial f}{\partial a}\Bigr )^2 \sigma_a^2 + \Bigl( \frac{\partial f}{\partial b} \Bigr)^2 \sigma_b^2 +\Bigl( \frac{\partial f}{\partial c} \Bigr)^2 \sigma_c^2 + \cdots$

これが誤差伝播の法則といわれるものである。

なお，ここで独立な物理量の残差の積和がゼロになると仮定している。例えば，

$\displaystyle \sum_{i=1}^n \delta^a_i \delta^b_i = 0\ $などなど

2023年7月21日金曜日

最小二乗法（１）

授業シリーズその１，オンライン授業の1コマ分を実験誤差のテーマにするべく頑張った話

昔，最小二乗法の計算は手回し計算機で大変な思いで計算していた記憶がある。実験ノートは，測定データ$x_i$と$y_i$の計算表で埋め尽くされていた。データ処理といえばこれだった。後に，関数電卓にもその機能が組み込まれるようになったが，今では Excelで一発なのかもしれない。

まず，誤差を定義する必要がある。我々が昔勉強した本では，誤差＝実験値−真の値 から出発していた。しかし，最近の本ではどうも様子が怪しくなっている。そもその真の値とはなにか，どうやって定義するのか，などなど。かといって，いきなり確率分布関数を持ってきて数理統計学の枠内で議論するのも大層な話だ。精度ということばも測定の不確かさに置き換わっているようだ。

とりあえず，１つの物理量$x$ の測定を考える。その真の値が$X$であると仮定する。$n$回の測定で$\ (x_1,\ x_2,\ x_3,\ \cdots,\ x_n\ )$ という測定値が得られたとする。誤差を$\ \varepsilon_i = x_i - X$で定義する。誤差は真の値のまわりで偏らずに分布する，すなわち$\ \displaystyle \sum_{i=1}^n \varepsilon_i = 0$であるとする。これから，$\displaystyle \sum_{i=1}^n x_i = n X$となる。これを$X$の定儀式とみなすと，真の値$X$が $n$や実験データ$x_i$に依存することになってしまう。

そこで，$\displaystyle \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$で平均値を定義する。これは真の値の推定値（最確値）だと考えられる。このとき，残差=実験値−平均値，すなわち，$\delta_i = x_i - \bar{x}$ で定義する。

次に，実験データの精度は誤差のばらつきで表現される。平均二乗誤差は，$\displaystyle \sigma^2 = \frac{1}{n} \sum_{i=1}^n \varepsilon_i^2\ $で定義し，標準偏差は $\sigma =\sqrt{\sigma^2}\ $とする。

ところで，この定義では，真の値がわからないので，誤差の$\varepsilon_i$は未知であり，平均二乗誤差も求まらない。そこで，残差の$\delta_i$から導くことを考える。$\varepsilon_i = x_i - X = x_i - \bar{x} + \bar{x} -X = \delta_i + \bar{x} - X$ となることから，

$\displaystyle \sigma^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i + (\bar{x} -X) \Bigr\}^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + 2 \delta_i (\bar{x} -X) + (\bar{x} -X)^2 \Bigr\} $

$\displaystyle = \frac{1}{n} \sum_{i=1}^n \delta_i^2 + (\bar{x} -X)^2$

ここで，$ \displaystyle \sum_{i=1}^n \delta_i = 0$を用いた。また，$\displaystyle \sum_{i \neq j}^n \varepsilon_i \varepsilon_j = 0$より上式第２項は，

$\displaystyle ( \bar{x} -X )^2 = \{ \frac{1}{n} \sum_{i=1}^n (x_i - X) \}^2 = \frac{1}{n^2} \sum_{i, j=1}^n \varepsilon_i \varepsilon_j = \frac{1}{n} \sigma^2 $

これを先ほどの式に代入して移項の上整理すると，$\sigma^2 $を$\delta_i$を用いて表せる。

$\displaystyle \sigma^2 = \frac{1}{n-1} \sum_{i=1}^n \delta_i^2 $

2023年6月8日木曜日

会話行動に関する調査

シンセティック・メディア（２）からの続き

シンセティック・メディアについて考えるための，人の情報環境について考えていた。情報通新メディアの利用時間のデータは見つかったので，対面コミュニケーションの時間のデータがないか探してみた。国立国語研究所の日常会話コーパスプロジェクトの中に，「一日の会話行動に関する調査報告（2017）」が見つかった。

243人の調査対象に平日2日，休日1日のすべての会話を記録してもらった結果，1日平均の会話数 12.7回，会話時間長 6.2時間，1回の会話時間 29分という結果になった。会話時間の約6時間というのは，情報通信メディアの利用時間約6時間とほぼ同じであった。

図：一日の平均会話の特徴

会話相手の人数がN人の時，自分の発話割合は，1/(N+1)である仮定する。上記の相手人数の割合の加重平均をとれば，(38.3/2+17.9/3+12.5/4+6.6/5+4.3/6+3.2/7+1.9/8+1.5/9+1.1/10+12.7/20)%=32%となる。

したがって，一日の平均会話時間の1/3の2時間は自分が話し，残りの4時間は相手の話を聞いているということになる。

2023年6月7日水曜日

社会生活基本調査

情報通信メディアの利用時間からの続き

さらに，ブラウズしていたら，社会生活基本調査というものに行き着いた。

社会生活基本調査は，統計法に基づく基幹統計調査として，生活時間の配分や余暇時間における主な活動（学習・自己啓発・訓練，ボランティア活動，スポーツ，趣味・娯楽及び旅行・行楽）を調査し，国民の社会生活の実態を明らかにするための基礎資料を得ることを目的として５年ごとに実施しています。

というもので，直近は令和3年（2021年）版だ。詳細行動分類による生活時間に関する結果が昨年の12月に公表されている。ここにスマートフォン・パソコンの使用時間があった。使用者率が65%，平均使用時間（使用者についての）が4.29時間である。この調査は，10歳から75歳以上を対象としているため，情報通信メディアの利用時間（6時間）に比べれば，値が小さくなるのはしかたがない。14歳以下や65歳以上をのぞけば，使用者率78.9%，平均使用時間4.89時間程度にはなるので，6時間にはとどかないがまあ同じオーダにはなっている。

使用者率が78.9%というのは低すぎるような気がするのだけれど・・・。

図：令和3年度社会生活基本調査から

2023年6月6日火曜日

情報通信メディアの利用時間

シンセティック・メディア（２）からの続き

視聴覚メディアからの影響と実体験や対面コミュニケーションによる影響を考えるための基本情報は何かと考えた。とりあえず，視聴覚メディアに接している時間ならばデータがあるかもしれないと思って，調べたところ，総務省の「情報通信メディアの利用時間と情報行動に関する調査報告書」というのが見つかった。

とりあえず分かったことは次の通り。

(1) 対象は，全国の125地点の13歳から69歳までの1500人

(2) メディア視聴時間の合計は平均6時間程度であり，年代とともに微増するがほぼ一定

(3) 一日平均のTV（リアル+録画）視聴時間は3時間，ネット視聴時間も3時間（1 : 1）

(4) 20代の場合は，TV視聴時間が1.5時間，ネット視聴時間が4.5時間（1 : 3）

睡眠時間や自分だけの時間の和が12時間とすれば，他者とともにある時間が6時間，メディア視聴時間が6時間という配分になる。他者とともにある時間のうちコミュニケーションに費やされるのがどのくらいかは，人によってかなり違うだろうし，測定も難しそうに思える（ノンバーバルコミュニケーションとかやぎさん郵便状態をどうやって評価するのだろう）。

図：年代別のメディア視聴時間（縦軸分，横軸 ×10代）

追伸：総務省のICT活用のためのリテラシー向上に関する検討会資料

「各セグメントにおけるメディアの利用状況に関する調査」にもネットメディア接触時間のデータがある。全体平均では200分であり，上記の結果と矛盾しないが，10代では450-500分となっていて，図の結果とはかなり様子が違う。

2023年6月3日土曜日

合計特殊出生率

奥村晴彦先生が，Rで合計特殊出生率のグラフを描いていたのでまね（写経）をしてみた。

厚生労働省の発表では，2022年の合計特殊出生率が1.26となって（前年は1.30），2005年に並んで過去最低を記録した，というのがニュースになったからかな。

写経は成功したが，日本語タイトルが文字化けしていた。ネットで検索すると解決できた。次に，グリッドラインを入れるべく検索したが要領を得ないし，なんだかずれてしまう。GPT-4に相談したところ2回目で正解にたどりつけた。最後に，奥村先生はクリップボードからデータを入力するという高等技術を使っていたので，低レベルのテキストファイル入力に切り替えた。自分で考える力がどんどん喪失されていく・・・

その結果が次のRプログラムと図である。

# X = read.table(pipe("pbpaste"), header=TRUE) （奥村先生のテクニック for macOS）

X <- read.table('/Users/koshi/Desktop/birth.txt', header =TRUE)
par(family = "HiraKakuProN-W3")
plot(X$年, X\$合計特殊出生率, type="o", pch=16, xlab="", ylab="")
t = c(range(X\$合計特殊出生率), X$合計特殊出生率[length(X[,1])])
axis(4, t, t)
title("合計特殊出生率", line=0.5)

# x軸とy軸のメモリの位置を手動で指定
x_ticks <- pretty(X\$年, 11) # 11個のメモリを生成
y_ticks <- pretty(X\$合計特殊出生率, 9) # 9個のメモリを生成

# x軸に対してグリッド線を描画
for (i in x_ticks) {
abline(v = i, col = "lightgray", lty = "dotted")
}

# y軸に対してグリッド線を描画
for (i in y_ticks) {
abline(h = i, col = "lightgray", lty = "dotted")
}

図：合計特殊出生率の推移（1970-2022）

2022年9月16日金曜日

ファクターＸ

2年半前の2020年春，新型コロナウイルス感染症の蔓延が始まったころ，欧米諸国に比べて日本の感染者数や死亡数は圧倒的に少なかった。その原因は何かということで，あれやこれやの説があったが決定的な証拠がなくて，当初はファクターＸ（あるいはなぞなぞ効果 by コロラド先生）とよばれていた。

その後，優等生だったニュージーランドや韓国や台湾でも感染が急拡大してしまい，日本を含む東アジア太平洋地域の特殊性というのは，いつのまにか話題にならなくなった。

2022年夏の第7波のピークを過ぎた頃から，感染者数が過去に比べてかなり大きいにも関わらず，重症化率や致命率がそれほどでもないという理由で，様々な規制が緩和されようとしている。WHOも，コロナの終わりが視野に入ってきたと口走るようになった。

データアナリスト（マーケティングリサーチャー）の萩原雅之さんが，Our World in Dataから，日本の人口当たりの新規感染者数を世界と比較していたので，死亡数や致命率もあわせて確かめてみることにする。やはり，第6波以降の報告値は大きく変わってしまった。なんでだろう。

図１：百万人当たりの1週移動平均新規感染数（日本/世界）の推移（OWD）

第1,2波では世界平均の1/10ほどだったものが，第3,4,5波では。2-3分の1程度になり，なぞなぞ効果は消えたといわれた。さらに，第6波では世界平均を上回り，第7波では逆に1桁近く日本の方が大きくなってしまった。現時点では主要国中，台湾，韓国，に続き第3位になっている。

図２：百万人当たりの1週移動平均新規死亡数（日本/世界）の推移（OWD）

死亡数でも感染者数と同様の傾向があるが，世界平均を上回るのは第5波からである。第7波では，人口当たり死亡数は世界平均を1桁近く上回り，現時点では主要国中第1位になっている。ほとんどニュースでは取り上げられていないけれど。そして，その日本の中でもダントツなのが維新に牛耳られている大阪だ。

図３：１週移動平均致命率（日本/世界）の推移（OWD）

第1波から第4波の致命率は2〜5%もあって，行動制限も当然という状況だった。第5波には1%前後まで収まり，第6,7波にかけては0.1%のオーダーまで下がっている（たぶんそれでもインフルエンザよりは高い）。これがこのまま続くのかどうかは変異株の性質次第かもしれない。

東京における第7波の新規感染者数のピークは8月の第1週の3.3万人/日であった。現在まで，平均3.4%/日の割合で減少している。これが続けば，9月末には5700人/日，10月末には2000人/日，11月末には700人/日とおさまるペースだ。第8波については，変異株や冬場に向かう環境変化の効果次第でどうなるかわからない（なお，全国の値は東京の7-8倍程度である）。

2022年8月30日火曜日

遠山プランから20年

自由民主党清和政策研究会の，森政権（2000-2001）と小泉政権（2001-2006）によって日本は転落への道をたどりはじめたといえるのかもしれない。安倍政権（2006-2007, 2012-2020）からの事態はこれにとどめを刺している。

遠山敦子は，小泉政権の文部科学大臣であり，初等中等教育ではゆとり教育からの脱却，高等教育ではいわゆる遠山プラン（2001）という新自由主義的大学改革プランを打ち出した。

そこでは，(1) 国立大学の再編・統合を大胆に進める。(2) 国立大学に民間的発想の経営手法を導入する。(3) 大学に第三者評価による競争原理を導入する。の三原則が示された。これによって，教員養成単科大学はおおいに振り回されて右往左往することになる。2004年には国立大学が法人化され，さらに混乱に拍車がかかった。現在もこの方向性での「改革」が継続強化されている。

この結果，日本の国立大学は疲弊の一途をたどることになる。その証拠の一例として学術論文のTop 10% 引用数の世界ランキングがある。文部科学省の科学技術・政策研究所（NISTEP）が最近まとめた科学技術指標2022では，日本がランキングの12位にまで落ち込んだことが示された。

2年ごとに報告されている科学研究のベンチマーキング2021では，2018年までの移動平均値が示されている。2003年以降，学術論文のTop 10% 引用数は着実に順位を下げ続け，今回さらにワンランクダウンしたということになる。

図：遠山プラン・国立大学法人化以降の日本の凋落指標（NISTEPから引用）

2022年7月14日木曜日

世界人口デー

人類減少からの続き

7月11日は国連が定めた世界人口デーだ。日経の夕刊と朝刊に渡って世界人口の記事が掲載されていた。ひとつは，今年の11月に世界人口が80億人に達するということ。もうひとつは，世界人口の増加率が1%を割り込んで（中国も2022年に人口減に転じている）おり，2086年には，ピークの104億人になってその後は減少に転ずるということだった。

1970年代に世界の人口爆発が問題だとされたときに，様々な刷り込みを受けた世代なので，感慨も一入だ。最近の世界人口の変化は，10億人（1804），20億人（1927），30億人（1960），40億人（1974），50億人（1987），60億人（1999），70億人（2011），80億人（2022），90億人（2040），104億人（2086* peak），となっている。自分が生まれてから死ぬまでに世界人口が約3倍になっているということか。

東アジアの人口増加が終って，南アジア（インド）が主役になる時代がきた。そして，その次にはアフリカが待っている。

［１］World Populaton Clock
［２］World Population by Year

2022年6月30日木曜日

全国ハザードマップ

NHK全国ハザードマップが公開されている。

洪水や土砂災害の危険性が全国の市町村の地図上に表現されているものだ。天理市のハザードマップも印刷物として配布されていたが，それに相当する。自宅の周りは，洪水による浸水の恐れはなさそうだけれど，数百メートル先には危険地帯が迫っている。

NHKのハザードマップは，全国の市町村ごとのデータを統合して，任意の場所について一つのインターフェースでリスクを調べることを可能にしたものだ。これがなかなか大変な作業だったということが，34テラバイトのデータと格闘して「全国ハザードマップ」を公開した理由という記事になっている。

なぜ34TBも必要なのと普通は考える。例えば，面積が60 ㎢の天理市のハザードマップのpdfファイルは7枚，15MBある。37万㎢の日本全体にスケールするには6000倍すればよく，必要なファイルサイズは90GBだ。34TB/90GB =300倍ほど過大になっている（様々な情報を格納するためのベクターデータなら1桁余分に必要かもしれないが，2桁ではないだろう）。

災害に遭遇するのは，自分が住んでいる市町村に居る場合とは限らないから，いつでも，どこでも，誰でもが簡単に全国のハザード情報を検索できるシステムの必要性や重要性は言を待たない。実際，国土交通省には重ねるハザードマップというシステムは存在している。しかし，掲載されている河川数が水防法で規定されている2200河川の43%にすぎない（これに限らず，憲法改正によって危険な緊急事態条項の導入に血道を上げる前にやるべきことが山積している日本なのだった）。

そこで，NHKががんばって，1800の地方自治体に電話をかけてデータを集めたところ，外注した成果物がpdfファイルのみで元のデジタルデータがないとか，データの格納ファイルが整理されていないとか，関係ないデータが山のように混入しているとか，そもそもデータ形式が統一されていないとか。それが34TBのデータであり，これから散々苦労して必要な情報を蒸留して作り上げたのがNHK全国ハザードマップだった。この涙なくして語れない的な読み物を一読することをお薦めする。

デジタル庁がやるべきなのは，あるいは，災害出動に価値のある自衛隊の防衛予算をまわすべきなのは，こんなところからだと思われる。

図：NHK全国ハザードマップのイメージ

P. S. NHK全国ハザードマップは期間限定の試験的デジタルコンテンツとある。もったいないので，国土交通省で引き継いだらいいのに。

［１］ハザードマップポータルサイト（国土交通省）

2022年6月14日火曜日

SDGs

京阪奈三教育大学の連携が追求されていた10年前，奈良教育大学の特徴的な活動として，ESD（Education for Sustainable Development：持続可能な開発のための教育）という言葉を聞いたのが，SDGs（Sustainable Development Goals：持続可能な開発目標）への最初の接触だった。

その当時は，まったくピンと来なくて，この人達は何を目指しているのだろうか？状態だった。いまでも奈良教育大学の活動は続いている。2022年4月1日から，奈良教育大学ESD・SDGsセンターが設置され，6月26日には設立記念シンポジウムが開催される。

その後，SDGsという言葉をしばしば耳にするようになったがまじめに調べてはいなかった。3-4年前の日本経済新聞の正月版別刷にSDGsの17の目標が詳しく説明されているのを読んで，初めて得心が行った。なんだかいいこと書いてあるじゃないのというわけだ。

ところがその後，SDGsの旗ががあちらでもこちらでも振られるのに，微妙な違和感を感じるようになった。結局，資本主義の延命策を国連の名のもとで宣伝しているだけではないのか。その証拠に，投資会社が率先して，SDGsの双子の兄弟であるESG（Environmental, Social, and Corporate Governance）を売り込んでいる。

このSDGsの流行は実は日本固有の現象ではないのかと，萩原雅之さんが数日前にFacebookで指摘していた。Google Trendsを使って，あるキーワードの検索数を国別・年度別に傾向分析することができる。その結果，SDGsというキーワードは日本で突出して多く調べられていることがわかった。アフリカ諸国がそれに次ぐのだが，欧米ではかなり少ないのだった。

図：SDGsの検索傾向と国別比較

［１］マネジメントファッションにおけるマスメディアの役割 : SDGsを事例として（八塩圭子）

2022年2月3日木曜日

機械判読可能データ

令和2年12月なのでデジタル庁ができる前のこと。統計表における機械判読可能なデータの表記方法の統一ルールが策定されていた。この積み重ねがデジタル化された社会を作るわけだが，そもそもデータを改竄することになんのためらいもない政府だとどうなのか。

総務省が，政府統計の総合窓口（e-Stat）に掲載する各省庁の統計表における機械判読可能なデータの表記方法の統一ルールを策定した。e-Statは，日本の政府統計関係情報のワンストップサービスを実現するため2008年から本運用を開始した政府統計のポータルサイトだ。総務省統計局が整備し，独立行政法人統計センターが運用管理している。

「統計表における機械判読可能なデータ作成に関する表記方法」として，Excel形式のデータ表の場合について，作成ガイドラインが示されている。

1-1 ファイル形式はExcelかCSVとなっているか
1-2 1セル1データとなっているか
1-3 数値データは数値属性とし，文字列を含まないこと
1-4 セルの結合をしていないか
1-5 スペースや改行等で体裁を整えていないか
1-6 項目名等を省略していないか
1-7 数式を使用している場合は，数値データに修正しているか
1-8 オブジェクトを使用していないか
1-9 データの単位を記載しているか
1-10 機種依存文字を使用していないか
1-11 e-Stat の時間軸コードの表記，⻄暦表記又は和暦に⻄暦の併記がされているか
1-12 地域コード又は地域名称が表記されているか
1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合
2-1 データが分断されていないか
2-2 1シートに複数の表が掲載されていないか

ガイドラインは，それぞれの項目について悪い例と改善した例が具体的に示されていて，たいへんわかりやすい。この項目がそのままでチェックシートとなっていて，実践的に利用できる。

高等学校の必履修科目である教科「情報」では，これを取り上げればよいのに。プログラミング言語はperlにして・・・というかプログラミング言語はなんでもよいので，データストリームを処理するアルゴリズムを中心にする。htmlファイルやCSVファイルから必要な情報を取り出して加工し，最終的なデータ処理やプレゼンテーションに結びつけるとかいうテーマの演習を積み重ねたら，日本の情報化が一段と進むものと思われる。

［１］統計表における機械判読可能なデータの表記方法（奥村晴彦）

2021年12月19日日曜日

メタバース（２）

メタバース（１）からの続き

1992年にスノウ・クラッシュで誕生し，2003年にSecond Lifeとして実体化し，2007年ごろに第1次ブームを迎えて消え去ったメタバースである。2021年に第2次ブームが立ち上がるかどうかの時期に差し掛かっている。コロナ禍とそれにともなう在宅勤務が追い風になっていることは間違いない。

この様子を，論文について調べてみた。１つは日本語の論文であり，これはCiNiiのキーワード検索（メタバース OR metaverse）による。もう１つは英語の科学系の論文であり，これはarXivのキーワード検索による。後者では13本しか見つからなかった。案外少ないので学術用語としては十分定着していないのかもしれない。

2007　 2
2008　 10 (1)
2009　 15 (6)
2010　 9 (2)
2011　 8 (5)
2012　 7 (5)
2013　 0
2014　 0
2015　 1
2016　 0
2017　 2
2018　 1
2019　 1 (1)
2020　 2
2021　 8 (2)

これは前者のCiNiiでヒットした文献の数（合計66件）である。2008年から2009年にピークがあり，2021年に再び増大している。なお，括弧内はタイトルに（メタバース OR metaverse）を含むもの。

P. S. CiNiiは，もうすぐ（2022年4月から）CiNii Researchに移行する。すでに試運転は始まっているので，こちらでも試してみたが，あまりクリアな結果は得られなかった。

写真：スノウ・クラッシュ下の書影（amazonから引用）

2021年10月7日木曜日

名字マップ

名字マップというのがあった。

この日本の名字マップは，電話帳や住宅地図の表札名の約4千万件のデータを，都道府県ごとに集計し，地図化したものです。表示方法としては絶対数と特化係数が選べます。また，2画面で異なる名字を地図化したり，絶対数と特化係数の地図を比較したりできます。
特化係数：当該の名字が各都道府県でどの程度特化しているかを示したもので、最大値が100であれば、全国的に均等に分布していることになります。

早速試してみたが，マイナーな名字ではあまり有り難みがないのだった。越桐だと，石川２，東京２，福井１，千葉１，奈良１，兵庫１の計８件である。特化係数は石川と福井で2500程度，ついで奈良の1000ということだった。ちょっとこの係数のイメージが掴めない。

2021年9月4日土曜日

コロナワクチン接種状況（５）

コロナワクチン接種状況（４）からの続き

8月が終わったので，ここまでのコロナワクチン接種状況を復習しておく。6月21日から職域接種が開始された。7月中に65歳以上の希望者全員のワクチン接種を完了するという目標のもとに，6月21日から7月20日の平均接種回数は約150万回になった。しかし，その後，少し失速して7月21日から8月20日の平均接種回数は約130万回にとどまっている。

8月末に総接種回数は1億3千万回に達しており，子どもを除く必要総回数2億2千万回の56%に達している。現在，平均120万回/日の速度で接種が進んでいるため，もしこのペースが維持できれば，9月末には1億6千万回（75%），10月末には2億回（90%）となるので，次に来ると考えられる第6波の様相はこれまでとは違ったものになるのかもしれない。

6月21日以降のデータとして報告されているワクチン接種回数は，土日や祝日が欠損しているので，これを線形補間してさらに7日平均接種回数の値を求めたのが次のグラフである。なお，職域接種の統計への計上は8月に入ってからなので，これも6月22日から線形にならしている。

図：7日平均ワクチン接種回数の推移（6/22-9/3）

2021年8月23日月曜日

人類減少

日本経済新聞が大げさなタイトルをつけて，本日の1面トップと2面コラムと6面の特集面を使って，21世紀の後半には世界人口が減少するという予測記事を出していた。

記事のもとになっているのはワシントン大学医学部の保健指標評価研究所（The Institute for Health Metrics and Evaluation：IHME）の2020年7月14日の論文，Fertility, mortality, migration, and population scenarios for 195 countries and territories from 2017 to 2100: a forecasting analysis for the Global Burden of Disease Study である。

うーん，なんで1年遅れの情報を今ごろに出しているのだろうか。1年かけて「人口と世界」という連載特集を組んでいくための準備をしていたのかもしれない。重要な話だとは思うが・・・

IHMEはコロナ感染症の予測にも力を入れているが，日本の感染状況の予測はぶれがおおきくてこれまでも必ずしも当たっていないのだ。まあ，日本の統計が壊滅状態であることも一因かもしれないが，これならばコロラド先生や牧野さんの方がよっぽど正確なのである。

ワシントン大学グループの予測は，国連の中位予測と下位予測の間に含まれている。世界人口は，2067年に97億人でピークとなり，2100年には87億人まで減少する。日本の人口はこの段階で半減し5900万人になっている。

1972年にローマクラブの報告を見て以来，世界人口は指数関数的な爆発をしていて，どうなるのだろうという頭しかなかったが，ついに減少が予測されるところまできていたのだった。そもそも近年は指数関数的な振る舞いをしていないのだった。

国連統計にある世界人口の対数をとって時間に対して直線になっていれば指数関数滴増加である。1950年から2020年までの70年のデータを使って計算してみた。1950年から1960年までは，世界人口は年率1.8%で増加しているが，2000年から2010年までは，年率が1.1%に減少している。というわけで人類の人口の指数関数的増加は終焉を迎えていたのだった。

図：世界人口の対数の推移（10^10が100億人）

（直線は1950-1960年が指数関的増加として外挿したもの）

［１］国際連合（UN）World Population Prospects の使い方（総務省統計局）

2021年7月31日土曜日

コロナワクチン接種状況（４）

コロナワクチン接種状況（３）からの続き

6月中旬の上記記事で，菅首相の話はおかしいのではと指摘したが，その後の遡及入力分を補正すると最終的にはこのころに100万回/日を越えたという彼らの言明の方が正しかった。

ただし，政府の内部データによるシミュレーションは必ずしも正確ではなく，累計接種回数で10%，300万回程度過小評価していた値を当時報告していた。また，6月10日から6月16日の平均ワクチン接種回数は現時点で109万回にまでなっていて，発表時点の週平均104万回という値を上回ったことになる。

そこで首相官邸のコロナワクチンのページで報告されているワクチン接種回数に遡及入力補正を行った現時点でのワクチン総接種回数推定値を求めてみた。遡及入力分がだらだらと指数関数的に登録されると仮定して，7月1日分の一般接種分データの1ヶ月分の推移からざっくりパラメタを求めた。$N(t) = N_0 \{1 - 0.5 * \exp (-t/7) \} $で近似できたことにしよう。

図：ワクチン一般接種回数の遡及入力曲線（7/1データの29日分の推移から）

7/29時点の政府データの総接種回数は，医療従事者等1200万回，一般接種7200万回（うち高齢者5600万回）の合計8400万回になっている。これは遡及分を含んでいない（はず）。

図　一日当たりワクチン接種回数の推移（深いdipはオリンピック開始時）

遡及分を補正すると400万回分くらい増えるので，7月末までの総接種回数は，合計8800万回である（注：こちらの集計では，医療従事者等1070万回，一般7570万回，合計8640万回なので若干の齟齬がある）。結局，現時点の補正後の高齢者ワクチン総接種回数は，5900万回程度なので，当初の予想通り，高齢者については7月末までにワクチン総接種回数ベースでほぼ80%が完了したことになる。

仮にこのまま日本における一日のワクチン接種回数が140万回/日で推移すれば，(2.2億回-8800万回)/140万回/日 = 94日≒3ヶ月かかるので，10月末には希望者への接種がほぼ完了するはずだ。現時点で総接種回数ベースで40%が完了しているので，8月末に60%，9月末に80%，10月末に100%というわけだ。

（注：ここは総接種回数ベースの議論なので，第1回目とか第2回目の割合はまた別の話）

2021年7月8日木曜日

ワクチン接種統計のマジック

オリンピック開始まであと残りわずかとなった。今日，緊急事態宣言が東京・沖縄で8/22まで発出され，蔓延防止等重点措置が埼玉・千葉・神奈川・大阪で 8/22まで延長された。また，北海道・愛知・京都・兵庫・福岡については7/11までで蔓延防止等重点措置が解除された。

7時のNHKニュースの枠で，菅首相記者会見がだらだらと放送されている。気になったことがある。ワクチン接種のロジスティックスというか管理態勢は破綻していると思うのだが，総数としては必要分が確保されていて（地方自治体に滞留している）というところまではよい。ところで，現時点で1日あたり130-140万回のペースで接種が進んでいると菅は発言した。

いや，いくらなんでもそれはないだろうと，首相官邸のワクチンのページをみると，なにやら内閣官房の新型ワクチンの統計のページの形式が変更されている。あやしい。しかも，新しく設けられている日別のファイルをみると（データ列が途中で入れ替わっているという単純ミスがある），確かに日平均130万回以上接種がすすんでいるかのように見える。

で，よく調べてみると，これには，毎日の遡及入力が含まれない段階の各報告日の過小評価した合計の一覧がならんでいる。一方，それらの最終日において一定の遡及入力が加わったものを並べた結果とは違ってくる。このため，政府発表の数値は，最終的に遡及入力が収束するものと比べて，日々の増加分を過大評価することになっている。グラフでみたほうがわかりやすいだろう。

図　ワクチン接種統計のマジック（2021.7.8の政府統計より）

青が遡及入力を含むより現実的な値，橙は政府統計値

登録: 投稿 (Atom)