ラベル 統計 の投稿を表示しています。 すべての投稿を表示
ラベル 統計 の投稿を表示しています。 すべての投稿を表示

2024年4月28日日曜日

関係人口

関係人口という耳慣れない言葉がでてきて,石川県が全国一だという。なんだそれは。

総務省に関係人口のポータルサイトには次のように説明されている。
関係人口」とは、移住した「定住人口」でもなく、観光に来た「交流人口」でもない、地域と多様に関わる人々を指す言葉です。
地方圏は、人口減少・高齢化により、地域づくりの担い手不足という課題に直面していますが、変化を生み出す人材が地域に入り始めている例も多くあり、「関係人口」と呼ばれる地域外の人材が、地域づくりの担い手となることが期待されています。
とても曖昧な定義だけれど,人口減少社会で地方圏の活性化を図るためのツールにしたいという気持ちはわからないでもない。図の例示をみると,「行き来する者(風の人)」「地域内にルーツがある者(近居・遠居)」「何らかの関わりがある者(過去の勤務や居住、滞在等)」なのだ。自分は石川県の関係人口にカウントされる。少しだけわかった気がする・・・わけでもない。なお,肝腎の石川県は,マッチングナビのリンク無し4県に含まれていて,まったくやる気無しだった。

さて,今回関係人口を持ち出したのが,株式会社ブランド総合研究所の関係人口意識調査2024である。詳細データが欲しければ10万円必要となる。2021年から始めているが,よくある商売だ。ニュースリリースでは,「石川など北陸の関係人口は増加。32都道府県で減少」となっている。調査日は,2024年2月2日〜4日で,インターネット上の19歳から79歳,17686人の有効回答を分析したものだ。

トップの石川県の関係人口は,1831.1万人であり昨年の95.6万人から1815%増えている。あほらしい。これは令和6年能登半島地震の効果を調べているだけで,特異値を拾うほとんど意味を成さない統計データになっている。これを10万円で買う自治体はどこなのか。

そもそも観光で何度か訪れたも関係人口に含めているように見え,総務省の定義とも齟齬があるのだ。もう少しまじめにやってほしい。

図:総務省がイメージしている関係人口(総務省から引用)

[1]関係人口とは何か?(自治体・公共Week)
[2]関係人口地方創成フォーラム(内閣府地方創成推進事務局)
[3]全国の関係人口は1800万人超(国土交通省,2021年)
[4]関係人口の実態把握(国土交通省国土政策局,2021年)
[5]現代日本社会における「関係人口」の実態分析(杉本あおい他,2020年)

2024年4月9日火曜日

国立大学法人化20年

2004年4月に国立大学が法人化されてから20年がたった。

各新聞では,国立大学法人化20年の功罪をとりあげている。大半は,正確な分析や反省を抜きにして,研究を強化しようというなまぬるい無内容なスローガンを掲げたものだ。

驚いたのは朝日新聞の国立大学学長アンケートだ。86国立大学の79人が回答し,その7割が法人化によって大学は教育研究機関として悪い方向に進んだと回答した。記事のタイトルもそのようになっている。びっくりしたのはそうではなくて,3割26人がよくなったと回答していることのほうだ。すごいよね。

中日新聞でも同様の傾向が出ていた。中部圏16大学の学長の4割が法人化を評価しているというものだ。現体制の勝者としての学長達の多くはこのシステムを評価しているのか。なるほど,闇が深いわけだ。

日本経済新聞の4月8日朝刊教育面では,ボストンカレッジのフィリップ・アルトバック名誉教授を引っ張り出してきて,日本の大学の国際競争への課題を語らせていた。いいのだけれど,明らかな誤認が含まれていた。「日本の問題は,学生の80%近くが私立大学の通っていることだ。これらの多くは規模が小さく,人口が急速に減る地方に位置している。・・・」

前段は正しいが,後段は誤り。日本の私立大学の学生定員の多くは都市部にある。地方にはそもそも私立大学も少ないのだ。確かめた結果が以下の表。

国公立大学私立大学合計(%)
北海道0.600.921.53 
青森県0.660.571.23 
岩手県0.540.360.90 
宮城県0.611.522.13 
秋田県0.760.150.91 
山形県0.740.351.09 
福島県0.370.430.80 
茨城県0.610.340.96 
栃木県0.210.861.07 
群馬県0.610.861.47 
埼玉県0.111.351.47 
千葉県0.181.541.72 
東京都0.374.514.88 
神奈川県0.141.761.90 
新潟県0.680.601.28 
富山県0.960.101.06 
石川県0.921.532.45 
福井県0.800.501.30 
山梨県1.030.931.97 
長野県0.630.220.85 
岐阜県0.340.661.00 
静岡県0.380.540.92 
愛知県0.352.002.35 
三重県0.360.410.77 
滋賀県0.491.782.27 
京都府0.834.885.71 
大阪府0.362.292.64 
兵庫県0.371.732.10 
奈良県0.371.081.45 
和歌山県0.570.370.94 
鳥取県1.170.061.23 
島根県1.090.001.09 
岡山県0.661.362.02 
広島県0.621.321.94 
山口県1.090.271.36 
徳島県0.890.711.59 
香川県0.630.310.94 
愛媛県0.630.641.27 
高知県1.250.121.37 
福岡県0.531.602.13 
佐賀県0.710.240.95 
長崎県0.800.481.27 
熊本県0.560.831.39 
大分県0.450.891.34 
宮崎県0.560.330.89 
鹿児島県0.590.390.98 
沖縄県0.680.551.23 
平均値0.610.961.58
標準偏差0.260.970.93

平成5年度の各都道府県の本部所在大学の学部学生数を,当該自治体の人口で除したもの(%)。上位は黄色,下位は水色で示した。明らかに私立大学学生の割合が高いのは首都圏,近畿圏と名古屋なのである。なお,国公私立全大学生数の対人口比は,京都-東京-大阪-石川-名古屋の順で高い。江戸時代の都市の文化度順なのか?


図:各都道府県の国公立大学の学生率(横軸)と私立大学の学生率(縦軸)

東京と京都が私立大学の突出した2点に対応している。私立大学の全国での偏りは非常に大きい。国立大学は関東圏の数県を除けば,高々1:3の範囲に収まっている。


2024年2月5日月曜日

三角分布と変数変換

一様分布と変数変換からの続き

2つの確率変数の三角分布があったとき,これを変数変換したときの確率分布を考える。

与える分布は,$p(x)=2x\ \theta(x) \theta(1-x),\ q(y) = 2y\ \theta(y) \theta(1-y)\ $とする。したがって,$0 \le x \le 1,\ 0 \le y \le 1 \ $を満足する。このとき,$\displaystyle \int_0^1 \int_0^1 p(x) q(y)\ dx dy =1$
これは,$\displaystyle \int_0^1 dx \int_0^x dy\ p(x) q(y) + \int_0^1 dx \int_x^1 dy\ p(x) q(y) =1$とも書ける。


(1)$\underline{X = x+y,\ Y = x-y \quad (0 \le X \le 2,\ -1 \le Y \le 1)\ }$の場合
このとき,$x = (X+Y)/2, \ y=(X-Y)/2, \ J(X,Y)=\frac{1}{2}\ $
$p(x) q(y) = 4 p q = (X+Y)(X-Y) = X^2-Y^2$

積分領域は, $-X \le Y \le 2-X$ かつ $X \le Y \le X-2$
$f(X,Y)\ $の期待値は,$\langle f \rangle = \int_0^1 dX \int_{-X}^{X} f(X,Y) \frac{X^2-Y^2}{2} dY + \int_1^2 dX \int_{X-2}^{2-X} f(X,Y)  \frac{X^2-Y^2}{2} dY$

(1-1) $\langle 1 \rangle =  \int_0^1 dX \Big\lbrack X^2 Y - \frac{Y^3}{3} \Big\rbrack_{0}^{X} + \int_1^2 dX \Big\lbrack X^2 Y - \frac{Y^3}{3} \Big\rbrack_{0}^{2-X} $
$\quad = \int_0^1 \frac{2}{3}X^3 dX + \int_1^2 \frac{2}{3}(2-X)(X^2+2X-2) dX $
$\quad =  \Big\lbrack  \frac{1}{6}X^4 \Big\rbrack_0^1 +\Big\lbrack  -\frac{X^4}{6} + 2X^2-\frac{8}{3}X \Big\rbrack_1^2 = 1$

(1-2) $\langle |Y| \rangle =  \int_0^1 dX \int_0^X (X^2Y-Y^3) dY + \int_1^2 dX \int_0^{2-X}(X^2Y-Y^3) dY$
$\quad = \int_0^1 \Bigl(\frac{X^4}{2}-\frac{X^4}{4} \Bigr) dX +  \int_1^2 \Bigl\{ \frac{X^2(2-X)^2}{2} - \frac{(2-X)^4}{4} \Bigr\} dX $
$\quad =  \Big\lbrack \frac{1}{20}X^5 \Big\rbrack_0^1 +   \Big\lbrack  \frac{1}{20}X^5 -\frac{4}{3}X^3 + 4X^2 -4X  \Big\rbrack_1^2 = \dfrac{4}{15} \ $


(2)$\underline{X = x+y,\ Y = xy \quad (0 \le X \le 2,\ 0 \le Y \le 1)\ }$の場合
このとき,$x = (X \pm \sqrt{X^2-4Y})/2, \ y=(X \mp \sqrt{X^2-4Y} )/2, \ J(X,Y)=\frac{1}{\sqrt{X^2-4Y}}$
$p(x) q(y) = 4 p q = (X \pm \sqrt{X^2-4Y})(X \mp \sqrt{X^2-4Y} ) = 4Y$

積分領域は, $0 \le Y$ かつ $X-1 \le Y \le X^2/4$
$f(X,Y)\ $の期待値は,$x>y$と$y>x$の場合をそれぞれ加えることで,
$\langle f \rangle = 2 \int_0^1 dX \int_0^{X^2/4} f(X,Y) \frac{4Y}{\sqrt{X^2-4Y}} dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4} f(X,Y) \frac{4Y}{\sqrt{X^2-4Y}} dY$

(2-1) $\langle 1 \rangle = 2 \int_0^1 dX \int_0^{X^2/4} \frac{4Y}{\sqrt{X^2-4Y}} dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4}  \frac{4Y}{\sqrt{X^2-4Y}} dY$
$\quad = 2 \int_0^1 dX \Big\lbrack -\frac{X^2+2Y}{3} \sqrt{X^2-4Y}  \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack -\frac{X^2+2Y}{3} \sqrt{X^2-4Y} \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 \frac{2 }{3}X^3 dX + \int_1^2 \frac{2}{3}(2-X)(x^2+2X-2) dX$
$\quad =  \Big\lbrack \frac{1}{6}X^4 \Big\rbrack_0^1 +  \Big\lbrack  -\frac{1}{6}X^4+ 2 X^2-\frac{8}{3}X  \Big\rbrack_1^2= 1$

(2-2) $\langle \sqrt{X^2-4Y} \rangle = 2 \int_0^1 dX \int_0^{X^2/4}  4Y dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4} 4Y dY$
$\quad = 2 \int_0^1 dX \Big\lbrack 2Y^2 \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack 2Y^2 \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 \frac{1}{4}X^4 dX + \int_1^2 \Bigl\{ \frac{1}{4}X^4-4(X-1)^2 \Bigr\} dX  $
$\quad = \Big\lbrack \frac{1}{20}X^5 \Big\rbrack_0^2 +  \Big\lbrack -\frac{4}{3}(X-1)^3  \Big\rbrack_1^2 = \dfrac{4}{15}$ 

2024年2月4日日曜日

一様分布と変数変換

確率変数の積からの続き

2つの確率変数の一様分布があったとき,これを変数変換したときの確率分布を考える。

与える分布は,$p(x)=\theta(x) \theta(1-x),\ q(y) = \theta(y) \theta(1-y)\ $とする。したがって,$0 \le x \le 1,\ 0 \le y \le 1 \ $を満足する。このとき,$\displaystyle \int_0^1 \int_0^1 p(x) q(y)\ dx dy =1$
これは,$\displaystyle \int_0^1 dx \int_0^x dy\ p(x) q(y) + \int_0^1 dx \int_x^1 dy\ p(x) q(y) =1$とも書ける。


(1)$\underline{X = x+y,\ Y = x-y \quad (0 \le X \le 2,\ -1 \le Y \le 1)\ }$の場合
このとき,$x = (X+Y)/2, \ y=(X-Y)/2, \ J(X,Y)=\frac{1}{2}\ $

積分領域は, $-X \le Y \le 2-X$ かつ $X \le Y \le X-2$
$f(X,Y)\ $の期待値は,$\langle f \rangle = \int_0^1 dX \int_{-X}^{X} f(X,Y) J(X,Y) dY + \int_1^2 dX \int_{X-2}^{2-X} f(X,Y) J(X,Y) dY$

(1-1) $\langle 1 \rangle =  \int_0^1 dX \Big\lbrack \frac{Y}{2}\Big\rbrack_{-X}^{X} + \int_1^2 dX \Big\lbrack \frac{Y}{2}\Big\rbrack_{X-2}^{2-X} = \int_0^1 X dX + \int_1^2 (2-X) dX = 1$

(1-2) $\langle |Y| \rangle =  \int_0^1 dX \Big\lbrack \frac{Y^2}{2} \Big\rbrack_0^{X} + \int_1^2 dX \Big\lbrack \frac{Y^2}{2} \Big\rbrack_0^{2-X} = \int_0^1 \frac{X^2}{2}dX +  \int_1^2 \frac{(2-X)^2}{2} dX $
$\quad =  \Big\lbrack \frac{X^3}{6} \Big\rbrack_0^1 +   \Big\lbrack \frac{(X-2)^3}{6} \Big\rbrack_1^2 = \dfrac{1}{3} \ $


(2)$\underline{X = x+y,\ Y = xy \quad (0 \le X \le 2,\ 0 \le Y \le 1)\ }$の場合
このとき,$x = (X \pm \sqrt{X^2-4Y})/2, \ y=(X \mp \sqrt{X^2-4Y} )/2, \ J(X,Y)=\frac{1}{\sqrt{X^2-4Y}}$

積分領域は, $0 \le Y$ かつ $X-1 \le Y \le X^2/4$
$f(X,Y)\ $の期待値は,$x>y$と$y>x$の場合をそれぞれ加えることで,
$\langle f \rangle = 2 \int_0^1 dX \int_0^{X^2/4} f(X,Y) J(X,Y) dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4} f(X,Y) J(X,Y) dY$

(2-1) $\langle 1 \rangle = 2 \int_0^1 dX \int_0^{X^2/4} \frac{1}{\sqrt{X^2-4Y}} dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4}  \frac{1}{\sqrt{X^2-4Y}} dY$
$\quad = 2 \int_0^1 dX \Big\lbrack -\frac{1}{2} \sqrt{X^2-4Y}  \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack -\frac{1}{2} \sqrt{X^2-4Y} \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 X dX + \int_1^2 (X-1) dX  = 1$

(2-2) $\langle \sqrt{X^2-4Y} \rangle = 2 \int_0^1 dX \int_0^{X^2/4}  dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4}  dY$
$\quad = 2 \int_0^1 dX \Big\lbrack Y \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack Y \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 \frac{X^2}{2} dX + \int_1^2 (\frac{X^2}{2}-2X + 2) dX  = \Big\lbrack \frac{X^3}{6} \Big\rbrack_0^2 +  \Big\lbrack -X^2 + 2X \Big\rbrack_1^2 = \dfrac{1}{3}$ 

2024年2月2日金曜日

確率変数の積

将来必要になりそうな,確率変数の積の確率分布関数を求める。

2つの確率変数$X$と$Y$が確率密度分布関数$p(x),\ q(y)$に対応している。このとき,確率変数$Z=X*Y$はどのような確率分布をするか,再び,緑川章一さんのノートで勉強する。

確率変数 $Z=X*Y$の確率分布関数を $r(z)$とすると,$r(z) = \int_0^1  \int_0^1  p(x) q(y) \delta(z- x*y) \ dx\ dy =  \int_{0}^{1} \dfrac{1}{|y|} p(z/y) q(y) \ dy $となる。ここでデルタ関数の性質,$\delta(a x) = \delta(x)/|a|$を用いた。この$\ z \ $の範囲は,$ 0 < z < \infty$ である

(1)$X$と$Y$が,それぞれ一様分布,$p(x)  =  1 \ (0 \le x \le 1)$ ,$q(y)  =  1 \ (0 \le y \le 1)$を満足している場合。ここで,$0< z/y<1\ $より,$z<y<1$である。したがって,

$r(z) = \int_z^1 \frac{1}{y} 1*1 \ dy= -\log z$

(2)$X$と$Y$が,それぞれ三角分布,$p(x) = 2x \ (0 \le x \le 1)$,$q(y) = 2y \ (0 \le y \le 1)$をしている場合(単位円内の点の一様分布の動径変数)。

$r(z) = \int_z^1 \dfrac{1}{y} \dfrac{2z}{y} (2y)\ dy = \int_z^1 \dfrac{4z}{y} \ dy = - 4z \log z$

うーん,あんまりうれしくないかもしれない。後々$\log$の計算が残るので。

2024年1月25日木曜日

確率変数の和と差

都道府県の長さからの続き

2つの確率変数$X$と$Y$がある。それぞれはある確率密度分布関数$p(x),\ q(y)$に対応している。このとき,確率変数$X \pm Y$はどのような確率分布をするかという問題を考えたい。

これについては,緑川章一さんのノートが参考になった。やはり専門の近い物理屋さんが書いたものは読みやくて助かる。これをまとめてみる。

$X$と$Y$が,それぞれ一様分布,$p(x)  =  1 \ (0 \le x \le 1)$ ,$q(y)  =  1 \ (0 \le y \le 1)$をしている。このとき,確率変数$Z$を $Z=X \pm Y$として,その確率分布関数の $r_{\pm}(z)$を求める。これは,$r_{\pm}(z) = \int  \int  p(x) q(y ) \delta(z-(x \pm y)) \ dx\ dy =  \int_{0}^{1} p(z \mp y) q(y) \ dy $となる。
なお,この$\ z \ $の範囲は,$r_{+}(z) \rightarrow 0 < z < 2$,$r_{-} \rightarrow -1 < z < 1 $ である

$\therefore \ r_{+}(z) \ \rightarrow \ ( 0 \le y \le 1 \ \&\& \  z-1 \le y \le z )$,つまり,
$r_{+}(z) = z\ (0 < z < 1),r_{+}(z) = 2-z \ (1 < z < 2)$
$\therefore \ r_{-}(z) \ \rightarrow \ ( 0 \le y \le 1 \ \&\& \  -z \le y \le 1-z )$,つまり,
$r_{-}(z) = 1+z \ (-1< z <0),r_{-}(z) = 1-z \ (0 < z < 1)$

図:確率分布関数の範囲

2023年12月17日日曜日

情報伝達活動の構造(2)

情報伝達活動の構造(1)からの続き

そもそも,年齢によって,職種によって,個人の生活スタイルによって,まったく異なるものを平均しようというのに無理がある。


図:一日の時間と情報伝達活動のモデル

会話行動に関する調査からは,平均会話時間が6時間と出てくる。ただ,会話密度が変われば,発話・受話量はまったく変わってしまうことになるが,図ではその値を書き込んだ。

TVとネットの視聴時間がそれぞれ3時間で計6時間という「情報通信メディアの利用時間と情報行動に関する調査報告書」の結果も反映しているが,ネットでのアウトプットを2時間分加えてみた。これも他の作業と並行・重複していたりで,集中度によってその内容は大きく影響される。

身体活動を中心とした労働の場面では,会話やネットでやりとりされる情報密度はずっと少ないかもしれないし,オフィスワークや対人活動が主となる仕事ならば,逆にさらに情報密度が高まるかもしれない。

これを解決するには,典型的なモデルを複数設定して,そこでの平均を提示することだ。実証的な研究に繋げるためには,GoProのようなアクションカムを24-8時間装着して,その活動を記録して分析すればよいことになる。ありそうだけれで適当な論文は探しきれていない。

総務省の情報通信政策研究所の情報流通インデックス研究会の報告書では,流通するメディア情報については客観的な指標が設定されている。問題は,これを各個人レベルに落とし込んだときの,有効な吸収率や反射率がどうなるかということ。




2023年12月16日土曜日

情報伝達活動の構造(1)

からの続き

りんちゃんの「棒」は「—」や「|」の問題だった。そうすると答えが変わってくる。
頻度の高い漢字の平均画数が7画程度で,これを棒の数とします。児童・生徒・学生の間は1日100字書いたとして(PCなど除く)10年間≒3000日では,〜30万字程度漢字をかくことになるので,〜200万画くらいかな。
1画5mmだとすれば,200万画は1000kmである。鉛筆1本で 50kmかけるらしいので,鉛筆20本あれば十分だ。ホントか,削りながらの場合は1000本くらいになりそうだ。ジェットストリームのSXR-07では替え芯1本で700mということだから,1400本なのか。


で,あらためて自分が行う情報活動の入出力量について,どの程度になるのか気になった。
のシリーズで半年前に少し考えていたことだけれど,再度見直してみる。

まず,定量的なデータについて考察する前に,個人の情報伝達活動を整理してみた。

図:情報伝達活動の構造

一番下の意識主体が,一人の人だとする。一般化できるように意識主体としている。これが,情報をやり取りするのだけれど,その情報伝達の様態を,(A)入力,(B)出力,(C)対話に分類する。(A)と(B)だけでも十分かもしれないが,あえて独立に(C)という連続的な入出力モード=対話を考えてみる。

また,その情報伝達の対象は,(イ)個体(これも個人=一人の人でもよいが,少し一般化した),(ロ)集団(組織でも社会でもよい),これまたあえて独立に(ハ)AI,を設定した。やりとりされる伝達情報の形態は,(1)静的データ(テキストや図画像),(2)動的データ(音声・音楽,動画),(3)実世界(対面による物理的化学的な接触を含む)とする。(1)と(2)ではメディアを媒介する視聴覚情報だけにフィルタされている。

都合,3×3×3=27通りのパターンに分類できる。技術的な問題を考える場合には,情報伝達の形態を図の右囲みのようにさらに7項目に細分化して考えることもできる。

(例)会話=(イ・ロ,C,3),手紙=(イ,A・B,1),電話=(イ,C,2),
ラジオ・テレビ・映画=(ロ,A,2),SNS=(ロ,A・B,1),VLOG=(ロ,B,2),演劇・音楽=(ロ,A,3),演説・講演=(ロ,B,3),生成AIチャット=(ハ,C,1)

2023年12月14日木曜日

フェイスブックで,芳賀さんが息子のりんちゃんから受けた質問について書いていた。

人生でどのくらい,文字の「」を書かないといけないか」という趣旨のものだ。なぜその質問がでてきたのかはよくわからない。なぜ「棒」なのかな。書くのが面倒だからなのかな。そういう話ではないのかな。犬も歩けば棒にあたったのかな。

準備のための一般論
 モノゴコロついてから惚けるまで,およそ75年≒900ヶ月≒3900週≒2万7千日≒66万時間≒3900万分≒24億秒あるとする。このとき,人生におけるある事象の頻度と総数はおよそ次のように対応する。
 10年に 1回 〜 10回
   3年に 1回 〜 30回
   1年に 1回 〜 100回
  年に 4回 〜 300回
  月に 1回 〜 1000回
  週に 1回 〜 4000回
   3日に 1回 〜 1万回
   1日に 1回 〜 3万回
   1日に 3回 〜 10万回
名前との比較
 一生の間に自分の名前はどのくらい書くだろうか。宅配のサインも含めて週に1回よりは多いような気がするので,多分1万回のオーダーになる。「棒」はこれよりは2桁以上少ないのではないか。100回ほどか

ブログの計量
 自分のブログであるOn a Thread of the Webの5年分のデータを全文検索してみると,「棒」は16回ヒットした。つまり,最近は年平均に3回ということになる。75年をかけると,生涯では 200回 程度書くことになるのではないか。

生成AIの考え
Q(私):日本人が一日に書く漢字の数は400字程度です。一生には,1000万字程度の漢字を書くことになるでしょう。このうち,「棒」という漢字を書く回数は何回程度だと推定されますか?
A(Claude):
はい、ご指摘の通り、日本人が一生のうちに書く漢字はおよそ1000万字とされています。このうち、「棒」という漢字が何回含まれるかを推定するため、次のように考えます。日本語の漢字使用頻度データによると、「棒」の出現頻度は0.0026%,1000万字の0.0026%は2600字。したがって、一生のうちに書く漢字1000万字のなかで、「棒」という漢字が含まれる頻度はおよそ2600回と推定されます。
なお,Copilotが4690回,Perplexityが4800回,Bardは200万回,ChatGPTは10億回と答えた。(注)上記の仮定である1日に400字というのは,手書きだけではなくて,SNSなどでのスマホやPCにおけるデジタル入力も含めたつもりだけれど,どうだろうか。

漢字出現頻度
 ClaudeやPerplexityは,漢字の出現頻度という量を持ち出してきた。Perplexityでは,0.0048%とされた。そんなデータがあるのかと検索してみた。令和1年に文化庁の漢字出現度数調査というレポートがある。出現確率ではなく,出現順位が与えられている。棒は1200位あたりで,結構高頻度で出現する文字だった。もう少し調べてみると,mwSoft Blog[1]というサイトが見つかった。2012年6月Wikipediaデータにおける出現漢字をまとめたものだ。このデータを拝借すると,「棒」は1375位で38,285回/528,530,037回(上位3000字の総計)=0.00724%=724回という結果が得られた。

結論
 平均的な人が「書く」漢字の「棒」は,100回〜1000回程度じゃないでしょうか。

参考(学校で棒が出てくる場面)
 棒読み。棒暗記。棒立ち。棒グラフ。棒磁石。乳棒。制御棒。溶接棒。指揮棒。鉄棒。棒高跳び。段違い平行棒。棒球(だま)。綿棒。編み棒。棒針。相棒。泥棒。片棒。棒ダラ。アメン棒。お先棒。棒切れ。火かき棒。金棒。警棒。用心棒。こん棒。ゲバ棒。点棒。

P. S. このページだけで12年分くらいの「棒」を書いてしまった。


写真:画像生成AIがイメージしている「棒」(Diffusion Beeより引用)


2023年7月31日月曜日

コーシー=シュワルツの不等式


数理統計学を真面目に勉強してこなかったのでいろいろ不都合が生じている。統計的因果推論とか深層機械学習とか量子測定理論とか,簡単に読み砕けない資料がたくさんたまる。

授業で扱った最小二乗法と実験誤差の話を整理しようとしても,背景には数理統計学が控えている。昔,阪大の南園グループによるベータ崩壊の実験と我々の理論を突き合わせたときに,χスクェアフィットの計算を散々繰り返したけれど,所与の公式を使うだけであってその理論的根拠をつきつめて考えたはしなかった。

そこで最初から勉強を始めようとすると,いきなり確率変数でつまづくのだった。コンピュータプログラムのサブルーチンや関数のようなものだと思えば納得できるといえばいえるのだけれど,自然言語と数学的記号を使って理解しようとするとなかなかその本質がつかみきれない。入門書は沢山あるけれど,どれも何だか気持ち悪い。

竹村彰道(1952-)さんの現代数理統計学の本(旧版)が手元にあって,読みやすいかなとページをめくってみると,記述統計の復習から始まった。これなら大丈夫かと思いきや,いきなり,標本相関関数の大きさが -1から 1の範囲に限定されることは,コーシー=シュワルツの不等式を用いて容易に示すことができると説明無しにあった。

n次元ユークリッド空間のベクトルの内積の話だと思えばそのとおりなのだけれど,証明したことはなかったかも。Wikipediaでは数学的帰納法で証明していた。$A_k=(a_1,\ a_2,\ \cdots,\ a_k),\ B_k=(b_1,\ b_2,\ \cdots,\ b_k),\ $として,$\displaystyle S^{aa}_k=\sum_{i=1}^k a_i^2,\ S^{bb}_k=\sum_{i=1}^k b_i^2,\ S^{ab}_k=\sum_{i=1}^k a_i b_i, \quad R^{ab}_k=\frac{S^{ab}_k}{\sqrt{S^{aa}_k S^{bb}_k}} $
つまり,$ \bigl( S^{ab}_k \bigr)^2  \le S^{aa}_k S^{bb}_k$を証明すれば良い。

$k=1$の場合は,$ \bigl( S^{ab}_1 \bigr)^2 -  S^{aa}_1 S^{bb}_1 = (a_1 b_1)^2- (a_1^2)(b_1^2) = 0 $

$k=2$の場合は,$ \bigl( S^{ab}_2 \bigr)^2 -  S^{aa}_2 S^{bb}_2 = (a_1 b_1+a_2 b_2)^2- (a_1^2+a_2^2)(b_1^2+b_2^2) =  -(a_1 b_2- a_2 b_1)^2  < 0 $

$k \ge 2$に対して,$ \bigl( S^{ab}_k \bigr)^2  \le S^{aa}_k S^{bb}_k$ が成り立つと仮定して,$k+1$の場合を考える。与式は,$ \bigl( S^{ab}_k + a_{k+1}b_{k+1} \bigr)^2 - \bigl( S^{aa}_k + a_{k+1}^2 \bigr) \bigl(  S^{bb}_k + b_{k+1}^2 \bigr) $
$= \bigl( S^{ab}_k  \bigr)^2 - S^{aa}_k S^{bb}_k - \Bigl( a_{k+1}^2 S^{bb}_k + b_{k+1}^2 S^{aa}_k -2 a_{k+1}b_{k+1} S^{ab}_k \Bigr)$
$= \bigl( S^{ab}_k  \bigr)^2 - S^{aa}_k S^{bb}_k - \sum_{i=1}^k \Bigl( a_{k+1}^2 b_i^2 + b_{k+1}^2 a_i^2 -2 a_{k+1}b_{k+1} a_i b_i \Bigr)$
$=\bigl( S^{ab}_k  \bigr)^2 - S^{aa}_k S^{bb}_k - \sum_{i=1}^k \Bigl( a_{k+1} b_i - b_{k+1} a_i \Bigr)^2 < 0$

Wikipediaの証明などでは,$a_i, b_i >0$の場合だけに妥当するものが多いのでちょっと困る。
まあ,$\displaystyle f_k(x) = \sum_{i=1}^k (a_i x - b_i)^2$ の判別式$D \le 0$から証明するのが最も簡単なのだけど。


[1]賢者に学ぶ統計学の智(西内啓×竹村彰通,ダイヤモンド社)

2023年7月30日日曜日

最小二乗法(6)

最小二乗法(5)からの続き

実験データを$y = a x + b$にフィットする場合,最小二乗法で$(a,\  b)$とその平均二乗誤差$(\sigma_a^2,\ \sigma_b^2)$を求めてきた。これを,$y = f(x) = a x^2 + b x + c\ $に拡張して,自由度3が登場するかどうかを確認してみる。吉澤康和さんの「新しい誤差論」には結果だけ書いてある。

(1) a, b, c を決定する正規方程式とその解

$ \begin{pmatrix}\overline{x^4} & \overline{x^3} & \overline{x^2} \\ \overline{x^3} & \overline{x^2} & \overline{x^1} \\ \overline{x^2} & \overline{x} & 1 \\ \end{pmatrix} \begin{pmatrix} a \\ b \\ c \\ \end{pmatrix}= \begin{pmatrix}\overline{x^2\ y}\\ \overline{x\ y} \\ \overline{y} \\ \end{pmatrix}$ 

$ \begin{pmatrix} a \\ b \\ c \\ \end{pmatrix}= \dfrac{1}{\Delta_3} \begin{pmatrix}\overline{x^2\ y}(\overline{x^2}-\overline{x}^2)+\overline{x\ y}(\overline{x^2}\overline{x}-\overline{x^3})+\overline{y}(\overline{x^3}\overline{x}-\overline{x^2}^2)  \\ \overline{x^2\ y}(\overline{x^2}\overline{x}-\overline{x^3}) + \overline{x\ y}(\overline{x^4}-\overline{x^2}^2) + \overline{y}(\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) \\ \overline{x^2\ y}(\overline{x^3}\overline{x}-\overline{x^2}^2) + \overline{x\ y}(\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) +\overline{y}(\overline{x^4}\overline{x^2}-\overline{x^3}^2) \\ \end{pmatrix}$ 

ただし,$\Delta_3 = \overline{x^4}\overline{x^2}+2\overline{x^3}\overline{x^2}\overline{x}-\overline{x^2}^3-\overline{x^3}^2-\overline{x^4}\overline{x}^2$

$y_i$を共通の平均二乗誤差$\sigma^2_y$を持つ独立変数として,誤差伝播の法則より,

$\displaystyle \sigma_a^2= \sum_{i=1}^n \Bigl( \frac{\partial a}{\partial y_i}\Bigr) ^2 \sigma_y^2, \quad \sigma_b^2= \sum_{i=1}^n \Bigl( \frac{\partial b}{\partial y_i}\Bigr) ^2 \sigma_y^2 , \quad \sigma_c^2= \sum_{i=1}^n \Bigl( \frac{\partial c}{\partial y_i}\Bigr) ^2 \sigma_y^2 $ 

さらに,真の値$f_0(x_i)=a_0 x_i^2 + b_0 x_i + c_0$に対して,$\varepsilon_i = y_i -f(x_i)+ f(x_i) -f_0(x_i) =  \delta_i + f(x_i) -f_0(x_i) $ として,$\displaystyle \sigma_y^2 = \frac{1}{n} \sum_{i=1}^n \varepsilon_i^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + \tilde{\sigma}^2_{f(x_i)} \Bigr\}$

ところで,$\displaystyle \tilde{\sigma}^2_{f(x_i)} = \sum_{j=1}^n \Bigl\{ \frac{\partial(a x_i^2 + b x_i + c)}{\partial y_j}\Bigr\}^2$ であり,この項を再度  $\sigma_y^2$ で表してもとの式に戻して計算すれば良い。

つまり,$\displaystyle \frac{\partial a}{\partial y_j}, \  \frac{\partial b}{\partial y_j},\  \frac{\partial c}{\partial y_j}$が計算できればよいことになる。
$\displaystyle \frac{\partial a}{\partial y_j}=\frac{1}{n \Delta_3}\Bigl\{ x_j^2 (\overline{x^2}-\overline{x}^2)+ x_j(\overline{x^2}\overline{x}-\overline{x^3})+(\overline{x^3}\overline{x}-\overline{x^2}^2) \Bigr\}$
$\displaystyle \frac{\partial b}{\partial y_j}=\frac{1}{n \Delta_3}\Bigl\{ x_j^2 (\overline{x^2}\overline{x}-\overline{x^3}) + x_j (\overline{x^4}-\overline{x^2}^2) + (\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) \Bigr\}$
$\displaystyle \frac{\partial c}{\partial y_j}=\frac{1}{n \Delta_3}\Bigl\{ x_j^2 (\overline{x^3}\overline{x}-\overline{x^2}^2) + x_j (\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) +(\overline{x^4}\overline{x^2}-\overline{x^3}^2) \Bigr\}$

Mathematicaの力を借りると,計算結果が因数分解できて分子から$\Delta_3$が出る。
$\displaystyle \sigma_a^2 = \sum_{j=1}^n \Bigl( \frac{\partial a}{\partial y_j}\Bigr) ^2 = \frac{1}{n \Delta_3} \bigl( \overline{x^2} -\overline{x}^2 \bigr) \sigma_y^2$
$\displaystyle \sigma_b^2 = \sum_{j=1}^n \Bigl( \frac{\partial b}{\partial y_j}\Bigr) ^2 = \frac{1}{n \Delta_3} \bigl( \overline{x^4} - \overline{x^2}^2 \bigr) \sigma_y^2$
$\displaystyle \sigma_c^2 = \sum_{j=1}^n \Bigl( \frac{\partial c}{\partial y_j}\Bigr) ^2 = \frac{1}{n \Delta_3} \bigl( \overline{x^4} \overline{x^2}-\overline{x^3}^2  \bigr) \sigma_y^2$

$\displaystyle \sum_{j=1}^n \Bigl( \frac{\partial a}{\partial y_j}\frac{\partial b}{\partial y_j}\Bigr)  = \frac{1}{n \Delta_3} \bigl( \overline{x}\overline{x^2} -\overline{x^3} \bigr) \sigma_y^2$
$\displaystyle \sum_{j=1}^n \Bigl( \frac{\partial b}{\partial y_j}\frac{\partial c}{\partial y_j}\Bigr)  = \frac{1}{n \Delta_3} \bigl( \overline{x^2}\overline{x^3} - \overline{x}\overline{x^4} \bigr) \sigma_y^2$
$\displaystyle \sum_{j=1}^n \Bigl( \frac{\partial c}{\partial y_j}\frac{\partial a}{\partial y_j}\Bigr)  = \frac{1}{n \Delta_3} \bigl( \overline{x^4} \overline{x^2}-\overline{x^3}^2  \bigr) \sigma_y^2$

このとき
$\displaystyle \tilde{\sigma}^2_{f(x_i)}= \sum_{j=1}^n \Bigl\{ \frac{\partial a}{\partial y_i} x_i^2 + \frac{\partial b}{\partial y_j} x_i + \frac{\partial c}{\partial y_j} \Bigr\} ^2 = \frac{\sigma_y^2}{n \Delta_3} $
$\Bigl\{\bigl( \overline{x^2}-\overline{x}^2 \bigr) x_i^4 + 2 \bigl( \overline{x}\overline{x^3} -\overline{x^3} \bigr) x_i^3 + \bigl( \overline{x^4}-\overline{x^2}^2 + 2( \overline{x^3}\overline{x} - \overline{x^2}^2) \bigr) x_i^2 $
$+ 2\bigl( \overline{x^2}\overline{x^3} - \overline{x} \overline{x^4} \bigr) x_i + \bigl( \overline{x^2}\overline{x^4}-\overline{x^3}^2 \bigr)  \Bigr\}$

$x_i$について平均操作するとMathematicaを使い分子から$\Delta_3$が出ると。
$\displaystyle \frac{1}{n}\sum_{i=1}^n  \tilde{\sigma}^2_{f(x_i)} = \frac{\sigma_y^2}{n \Delta_3}$
$\Bigl\{\bigl( \overline{x^2}-\overline{x}^2 \bigr) \overline{x^4}+ 2 \bigl( \overline{x}\overline{x^3} -\overline{x^3} \bigr) \overline{x^3} + \bigl( \overline{x^4}-\overline{x^2}^2 + 2( \overline{x^3}\overline{x} - \overline{x^2}^2) \bigr) \overline{x^2} $
$\displaystyle + 2\bigl( \overline{x^2}\overline{x^3} - \overline{x} \overline{x^4} \bigr) \overline{x}+ \bigl( \overline{x^2}\overline{x^4}-\overline{x^3}^2 \bigr)  \Bigr\} = \frac{3}{n} \sigma_y^2$

したがって,自由度n-3の場合の式が得られた。
$\displaystyle \sigma_y^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + \tilde{\sigma}^2_{f(x_i)} \Bigr\} =  \frac{1}{n} \sum_{i=1}^n  \delta_i^2 + \frac{3}{n} \sigma_y^2$
$\displaystyle \therefore \sigma_y^2 = \frac{1}{n-3} \sum_{i=1}^n \delta_i^2$

2023年7月25日火曜日

最小二乗法(5)

最小二乗法(4)からの続き

完全にスッキリしなくて何だか気持ち悪いのだけれど,いきなり自由度がとかいわれて$n-2$が出てくるのがいやなので,吉澤さんの本に従って話を進めてみる。

$\displaystyle \tilde{\sigma^2}_{y(x_i)} =  \frac{1}{n}\sum_{i=i}^n  \tilde{\varepsilon_i}^2 = \frac{1}{n}\sum_{i=i}^n  \Bigl\{ a x_i + b - a_0 x_i - b_0  \Bigr\}^2$
これから,$f(x_i) = y(x_i) =  a  \bm{x_i} + b$として,独立変数$y_j$について,
$\displaystyle \tilde{\sigma^2}_{y(x_i)} =  \sigma_y^2 \sum_{j=i}^n  \Bigl\{ \frac{\partial a}{\partial y_j}\bm{x_i} + \frac{\partial b}{\partial y_j} \Bigr\}^2 = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{j=i}^n  \Bigl\{ (x_j-\overline{x}) \bm{x_i} + ( \overline{x^2} -\overline{x} x_j ) \Bigr\}^2$
$\displaystyle = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{j=i}^n  \Bigl\{ ( \bm{x_i}-\overline{x} ) x_j + ( \overline{x^2} - \overline{x}  \bm{x_i} ) \Bigr\}^2$
$\displaystyle = \frac{\sigma_y^2}{n \Delta^2}  \Bigl\{ \overline{x^2} ( \bm{x_i}-\overline{x} )^2 + 2 \overline{x} (\bm{x_i} - \overline{x})(\overline{x^2} -\overline{x} \bm{x_i}) + ( \overline{x^2} - \overline{x}  \bm{x_i} )^2  \Bigr\}$
$\displaystyle = \frac{\sigma_y^2}{n \Delta^2}  \Bigl\{ \bm{x_i}^2 ( \overline{x^2} - \overline{x}^2) + 2 \bm{x_i} (\overline{x}^3 - \overline{x^2} \overline{x}) + ( \overline{x^2}^2 - \overline{x^2} \overline{x}^2 )  \Bigr\}$
$\displaystyle = \frac{\sigma_y^2}{n \Delta}  \Bigl\{ \bm{x_i}^2  - 2 \bm{x_i} \overline{x} + \overline{x^2}  \Bigr\}$

添え字 $i$について平均すると,$\displaystyle \frac{1}{n}\sum_{i=1}^n \tilde{\sigma^2}_{y(x_i)} =\frac{\sigma_y^2}{n \Delta}\Bigl\{ \overline{x^2}  - 2 \overline{x} \overline{x} + \overline{x^2}  \Bigr\} =  \frac{2 \sigma_y^2}{n}$
そこで,
$\displaystyle \sigma_y^2 =\frac{1}{n}\sum_{i=1}^n \Bigl\{ \delta_i^2 + \tilde{\varepsilon_i}^2 \Bigr\} = \frac{1}{n}\sum_{i=i}^n \delta_i^2 + \tilde{\sigma^2}_{y(x_i)} = \frac{1}{n} \sum_{i=1}^n \delta_i^2 + \frac{2 \sigma_y^2}{n}$
$\displaystyle \therefore \sigma_y^2 = \frac{1}{n-2}\sum_{i=1}^n \delta_i^2 = \frac{1}{n-2}\sum_{i=1}^n (y_i - a x_i -b )^2$