ラベル 統計 の投稿を表示しています。 すべての投稿を表示
ラベル 統計 の投稿を表示しています。 すべての投稿を表示

2024年2月5日月曜日

三角分布と変数変換

一様分布と変数変換からの続き

2つの確率変数の三角分布があったとき,これを変数変換したときの確率分布を考える。

与える分布は,$p(x)=2x\ \theta(x) \theta(1-x),\ q(y) = 2y\ \theta(y) \theta(1-y)\ $とする。したがって,$0 \le x \le 1,\ 0 \le y \le 1 \ $を満足する。このとき,$\displaystyle \int_0^1 \int_0^1 p(x) q(y)\ dx dy =1$
これは,$\displaystyle \int_0^1 dx \int_0^x dy\ p(x) q(y) + \int_0^1 dx \int_x^1 dy\ p(x) q(y) =1$とも書ける。


(1)$\underline{X = x+y,\ Y = x-y \quad (0 \le X \le 2,\ -1 \le Y \le 1)\ }$の場合
このとき,$x = (X+Y)/2, \ y=(X-Y)/2, \ J(X,Y)=\frac{1}{2}\ $
$p(x) q(y) = 4 p q = (X+Y)(X-Y) = X^2-Y^2$

積分領域は, $-X \le Y \le 2-X$ かつ $X \le Y \le X-2$
$f(X,Y)\ $の期待値は,$\langle f \rangle = \int_0^1 dX \int_{-X}^{X} f(X,Y) \frac{X^2-Y^2}{2} dY + \int_1^2 dX \int_{X-2}^{2-X} f(X,Y)  \frac{X^2-Y^2}{2} dY$

(1-1) $\langle 1 \rangle =  \int_0^1 dX \Big\lbrack X^2 Y - \frac{Y^3}{3} \Big\rbrack_{0}^{X} + \int_1^2 dX \Big\lbrack X^2 Y - \frac{Y^3}{3} \Big\rbrack_{0}^{2-X} $
$\quad = \int_0^1 \frac{2}{3}X^3 dX + \int_1^2 \frac{2}{3}(2-X)(X^2+2X-2) dX $
$\quad =  \Big\lbrack  \frac{1}{6}X^4 \Big\rbrack_0^1 +\Big\lbrack  -\frac{X^4}{6} + 2X^2-\frac{8}{3}X \Big\rbrack_1^2 = 1$

(1-2) $\langle |Y| \rangle =  \int_0^1 dX \int_0^X (X^2Y-Y^3) dY + \int_1^2 dX \int_0^{2-X}(X^2Y-Y^3) dY$
$\quad = \int_0^1 \Bigl(\frac{X^4}{2}-\frac{X^4}{4} \Bigr) dX +  \int_1^2 \Bigl\{ \frac{X^2(2-X)^2}{2} - \frac{(2-X)^4}{4} \Bigr\} dX $
$\quad =  \Big\lbrack \frac{1}{20}X^5 \Big\rbrack_0^1 +   \Big\lbrack  \frac{1}{20}X^5 -\frac{4}{3}X^3 + 4X^2 -4X  \Big\rbrack_1^2 = \dfrac{4}{15} \ $


(2)$\underline{X = x+y,\ Y = xy \quad (0 \le X \le 2,\ 0 \le Y \le 1)\ }$の場合
このとき,$x = (X \pm \sqrt{X^2-4Y})/2, \ y=(X \mp \sqrt{X^2-4Y} )/2, \ J(X,Y)=\frac{1}{\sqrt{X^2-4Y}}$
$p(x) q(y) = 4 p q = (X \pm \sqrt{X^2-4Y})(X \mp \sqrt{X^2-4Y} ) = 4Y$

積分領域は, $0 \le Y$ かつ $X-1 \le Y \le X^2/4$
$f(X,Y)\ $の期待値は,$x>y$と$y>x$の場合をそれぞれ加えることで,
$\langle f \rangle = 2 \int_0^1 dX \int_0^{X^2/4} f(X,Y) \frac{4Y}{\sqrt{X^2-4Y}} dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4} f(X,Y) \frac{4Y}{\sqrt{X^2-4Y}} dY$

(2-1) $\langle 1 \rangle = 2 \int_0^1 dX \int_0^{X^2/4} \frac{4Y}{\sqrt{X^2-4Y}} dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4}  \frac{4Y}{\sqrt{X^2-4Y}} dY$
$\quad = 2 \int_0^1 dX \Big\lbrack -\frac{X^2+2Y}{3} \sqrt{X^2-4Y}  \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack -\frac{X^2+2Y}{3} \sqrt{X^2-4Y} \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 \frac{2 }{3}X^3 dX + \int_1^2 \frac{2}{3}(2-X)(x^2+2X-2) dX$
$\quad =  \Big\lbrack \frac{1}{6}X^4 \Big\rbrack_0^1 +  \Big\lbrack  -\frac{1}{6}X^4+ 2 X^2-\frac{8}{3}X  \Big\rbrack_1^2= 1$

(2-2) $\langle \sqrt{X^2-4Y} \rangle = 2 \int_0^1 dX \int_0^{X^2/4}  4Y dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4} 4Y dY$
$\quad = 2 \int_0^1 dX \Big\lbrack 2Y^2 \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack 2Y^2 \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 \frac{1}{4}X^4 dX + \int_1^2 \Bigl\{ \frac{1}{4}X^4-4(X-1)^2 \Bigr\} dX  $
$\quad = \Big\lbrack \frac{1}{20}X^5 \Big\rbrack_0^2 +  \Big\lbrack -\frac{4}{3}(X-1)^3  \Big\rbrack_1^2 = \dfrac{4}{15}$ 

2024年2月4日日曜日

一様分布と変数変換

確率変数の積からの続き

2つの確率変数の一様分布があったとき,これを変数変換したときの確率分布を考える。

与える分布は,$p(x)=\theta(x) \theta(1-x),\ q(y) = \theta(y) \theta(1-y)\ $とする。したがって,$0 \le x \le 1,\ 0 \le y \le 1 \ $を満足する。このとき,$\displaystyle \int_0^1 \int_0^1 p(x) q(y)\ dx dy =1$
これは,$\displaystyle \int_0^1 dx \int_0^x dy\ p(x) q(y) + \int_0^1 dx \int_x^1 dy\ p(x) q(y) =1$とも書ける。


(1)$\underline{X = x+y,\ Y = x-y \quad (0 \le X \le 2,\ -1 \le Y \le 1)\ }$の場合
このとき,$x = (X+Y)/2, \ y=(X-Y)/2, \ J(X,Y)=\frac{1}{2}\ $

積分領域は, $-X \le Y \le 2-X$ かつ $X \le Y \le X-2$
$f(X,Y)\ $の期待値は,$\langle f \rangle = \int_0^1 dX \int_{-X}^{X} f(X,Y) J(X,Y) dY + \int_1^2 dX \int_{X-2}^{2-X} f(X,Y) J(X,Y) dY$

(1-1) $\langle 1 \rangle =  \int_0^1 dX \Big\lbrack \frac{Y}{2}\Big\rbrack_{-X}^{X} + \int_1^2 dX \Big\lbrack \frac{Y}{2}\Big\rbrack_{X-2}^{2-X} = \int_0^1 X dX + \int_1^2 (2-X) dX = 1$

(1-2) $\langle |Y| \rangle =  \int_0^1 dX \Big\lbrack \frac{Y^2}{2} \Big\rbrack_0^{X} + \int_1^2 dX \Big\lbrack \frac{Y^2}{2} \Big\rbrack_0^{2-X} = \int_0^1 \frac{X^2}{2}dX +  \int_1^2 \frac{(2-X)^2}{2} dX $
$\quad =  \Big\lbrack \frac{X^3}{6} \Big\rbrack_0^1 +   \Big\lbrack \frac{(X-2)^3}{6} \Big\rbrack_1^2 = \dfrac{1}{3} \ $


(2)$\underline{X = x+y,\ Y = xy \quad (0 \le X \le 2,\ 0 \le Y \le 1)\ }$の場合
このとき,$x = (X \pm \sqrt{X^2-4Y})/2, \ y=(X \mp \sqrt{X^2-4Y} )/2, \ J(X,Y)=\frac{1}{\sqrt{X^2-4Y}}$

積分領域は, $0 \le Y$ かつ $X-1 \le Y \le X^2/4$
$f(X,Y)\ $の期待値は,$x>y$と$y>x$の場合をそれぞれ加えることで,
$\langle f \rangle = 2 \int_0^1 dX \int_0^{X^2/4} f(X,Y) J(X,Y) dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4} f(X,Y) J(X,Y) dY$

(2-1) $\langle 1 \rangle = 2 \int_0^1 dX \int_0^{X^2/4} \frac{1}{\sqrt{X^2-4Y}} dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4}  \frac{1}{\sqrt{X^2-4Y}} dY$
$\quad = 2 \int_0^1 dX \Big\lbrack -\frac{1}{2} \sqrt{X^2-4Y}  \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack -\frac{1}{2} \sqrt{X^2-4Y} \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 X dX + \int_1^2 (X-1) dX  = 1$

(2-2) $\langle \sqrt{X^2-4Y} \rangle = 2 \int_0^1 dX \int_0^{X^2/4}  dY + 2 \int_1^2 dX \int_{X-1}^{X^2/4}  dY$
$\quad = 2 \int_0^1 dX \Big\lbrack Y \Big\rbrack_0^{X^2/4} + 2 \int_1^2 dX  \Big\lbrack Y \Big\rbrack_{X-1}^{X^2/4}$
$\quad = \int_0^1 \frac{X^2}{2} dX + \int_1^2 (\frac{X^2}{2}-2X + 2) dX  = \Big\lbrack \frac{X^3}{6} \Big\rbrack_0^2 +  \Big\lbrack -X^2 + 2X \Big\rbrack_1^2 = \dfrac{1}{3}$ 

2024年2月2日金曜日

確率変数の積

将来必要になりそうな,確率変数の積の確率分布関数を求める。

2つの確率変数$X$と$Y$が確率密度分布関数$p(x),\ q(y)$に対応している。このとき,確率変数$Z=X*Y$はどのような確率分布をするか,再び,緑川章一さんのノートで勉強する。

確率変数 $Z=X*Y$の確率分布関数を $r(z)$とすると,$r(z) = \int_0^1  \int_0^1  p(x) q(y) \delta(z- x*y) \ dx\ dy =  \int_{0}^{1} \dfrac{1}{|y|} p(z/y) q(y) \ dy $となる。ここでデルタ関数の性質,$\delta(a x) = \delta(x)/|a|$を用いた。この$\ z \ $の範囲は,$ 0 < z < \infty$ である

(1)$X$と$Y$が,それぞれ一様分布,$p(x)  =  1 \ (0 \le x \le 1)$ ,$q(y)  =  1 \ (0 \le y \le 1)$を満足している場合。ここで,$0< z/y<1\ $より,$z<y<1$である。したがって,

$r(z) = \int_z^1 \frac{1}{y} 1*1 \ dy= -\log z$

(2)$X$と$Y$が,それぞれ三角分布,$p(x) = 2x \ (0 \le x \le 1)$,$q(y) = 2y \ (0 \le y \le 1)$をしている場合(単位円内の点の一様分布の動径変数)。

$r(z) = \int_z^1 \dfrac{1}{y} \dfrac{2z}{y} (2y)\ dy = \int_z^1 \dfrac{4z}{y} \ dy = - 4z \log z$

うーん,あんまりうれしくないかもしれない。後々$\log$の計算が残るので。

2024年1月25日木曜日

確率変数の和と差

都道府県の長さからの続き

2つの確率変数$X$と$Y$がある。それぞれはある確率密度分布関数$p(x),\ q(y)$に対応している。このとき,確率変数$X \pm Y$はどのような確率分布をするかという問題を考えたい。

これについては,緑川章一さんのノートが参考になった。やはり専門の近い物理屋さんが書いたものは読みやくて助かる。これをまとめてみる。

$X$と$Y$が,それぞれ一様分布,$p(x)  =  1 \ (0 \le x \le 1)$ ,$q(y)  =  1 \ (0 \le y \le 1)$をしている。このとき,確率変数$Z$を $Z=X \pm Y$として,その確率分布関数の $r_{\pm}(z)$を求める。これは,$r_{\pm}(z) = \int  \int  p(x) q(y ) \delta(z-(x \pm y)) \ dx\ dy =  \int_{0}^{1} p(z \mp y) q(y) \ dy $となる。
なお,この$\ z \ $の範囲は,$r_{+}(z) \rightarrow 0 < z < 2$,$r_{-} \rightarrow -1 < z < 1 $ である

$\therefore \ r_{+}(z) \ \rightarrow \ ( 0 \le y \le 1 \ \&\& \  z-1 \le y \le z )$,つまり,
$r_{+}(z) = z\ (0 < z < 1),r_{+}(z) = 2-z \ (1 < z < 2)$
$\therefore \ r_{-}(z) \ \rightarrow \ ( 0 \le y \le 1 \ \&\& \  -z \le y \le 1-z )$,つまり,
$r_{-}(z) = 1+z \ (-1< z <0),r_{-}(z) = 1-z \ (0 < z < 1)$

図:確率分布関数の範囲

2023年12月17日日曜日

情報伝達活動の構造(2)

情報伝達活動の構造(1)からの続き

そもそも,年齢によって,職種によって,個人の生活スタイルによって,まったく異なるものを平均しようというのに無理がある。


図:一日の時間と情報伝達活動のモデル

会話行動に関する調査からは,平均会話時間が6時間と出てくる。ただ,会話密度が変われば,発話・受話量はまったく変わってしまうことになるが,図ではその値を書き込んだ。

TVとネットの視聴時間がそれぞれ3時間で計6時間という「情報通信メディアの利用時間と情報行動に関する調査報告書」の結果も反映しているが,ネットでのアウトプットを2時間分加えてみた。これも他の作業と並行・重複していたりで,集中度によってその内容は大きく影響される。

身体活動を中心とした労働の場面では,会話やネットでやりとりされる情報密度はずっと少ないかもしれないし,オフィスワークや対人活動が主となる仕事ならば,逆にさらに情報密度が高まるかもしれない。

これを解決するには,典型的なモデルを複数設定して,そこでの平均を提示することだ。実証的な研究に繋げるためには,GoProのようなアクションカムを24-8時間装着して,その活動を記録して分析すればよいことになる。ありそうだけれで適当な論文は探しきれていない。

総務省の情報通信政策研究所の情報流通インデックス研究会の報告書では,流通するメディア情報については客観的な指標が設定されている。問題は,これを各個人レベルに落とし込んだときの,有効な吸収率や反射率がどうなるかということ。




2023年12月16日土曜日

情報伝達活動の構造(1)

からの続き

りんちゃんの「棒」は「—」や「|」の問題だった。そうすると答えが変わってくる。
頻度の高い漢字の平均画数が7画程度で,これを棒の数とします。児童・生徒・学生の間は1日100字書いたとして(PCなど除く)10年間≒3000日では,〜30万字程度漢字をかくことになるので,〜200万画くらいかな。
1画5mmだとすれば,200万画は1000kmである。鉛筆1本で 50kmかけるらしいので,鉛筆20本あれば十分だ。ホントか,削りながらの場合は1000本くらいになりそうだ。ジェットストリームのSXR-07では替え芯1本で700mということだから,1400本なのか。


で,あらためて自分が行う情報活動の入出力量について,どの程度になるのか気になった。
のシリーズで半年前に少し考えていたことだけれど,再度見直してみる。

まず,定量的なデータについて考察する前に,個人の情報伝達活動を整理してみた。

図:情報伝達活動の構造

一番下の意識主体が,一人の人だとする。一般化できるように意識主体としている。これが,情報をやり取りするのだけれど,その情報伝達の様態を,(A)入力,(B)出力,(C)対話に分類する。(A)と(B)だけでも十分かもしれないが,あえて独立に(C)という連続的な入出力モード=対話を考えてみる。

また,その情報伝達の対象は,(イ)個体(これも個人=一人の人でもよいが,少し一般化した),(ロ)集団(組織でも社会でもよい),これまたあえて独立に(ハ)AI,を設定した。やりとりされる伝達情報の形態は,(1)静的データ(テキストや図画像),(2)動的データ(音声・音楽,動画),(3)実世界(対面による物理的化学的な接触を含む)とする。(1)と(2)ではメディアを媒介する視聴覚情報だけにフィルタされている。

都合,3×3×3=27通りのパターンに分類できる。技術的な問題を考える場合には,情報伝達の形態を図の右囲みのようにさらに7項目に細分化して考えることもできる。

(例)会話=(イ・ロ,C,3),手紙=(イ,A・B,1),電話=(イ,C,2),
ラジオ・テレビ・映画=(ロ,A,2),SNS=(ロ,A・B,1),VLOG=(ロ,B,2),演劇・音楽=(ロ,A,3),演説・講演=(ロ,B,3),生成AIチャット=(ハ,C,1)

2023年12月14日木曜日

フェイスブックで,芳賀さんが息子のりんちゃんから受けた質問について書いていた。

人生でどのくらい,文字の「」を書かないといけないか」という趣旨のものだ。なぜその質問がでてきたのかはよくわからない。なぜ「棒」なのかな。書くのが面倒だからなのかな。そういう話ではないのかな。犬も歩けば棒にあたったのかな。

準備のための一般論
 モノゴコロついてから惚けるまで,およそ75年≒900ヶ月≒3900週≒2万7千日≒66万時間≒3900万分≒24億秒あるとする。このとき,人生におけるある事象の頻度と総数はおよそ次のように対応する。
 10年に 1回 〜 10回
   3年に 1回 〜 30回
   1年に 1回 〜 100回
  年に 4回 〜 300回
  月に 1回 〜 1000回
  週に 1回 〜 4000回
   3日に 1回 〜 1万回
   1日に 1回 〜 3万回
   1日に 3回 〜 10万回
名前との比較
 一生の間に自分の名前はどのくらい書くだろうか。宅配のサインも含めて週に1回よりは多いような気がするので,多分1万回のオーダーになる。「棒」はこれよりは2桁以上少ないのではないか。100回ほどか

ブログの計量
 自分のブログであるOn a Thread of the Webの5年分のデータを全文検索してみると,「棒」は16回ヒットした。つまり,最近は年平均に3回ということになる。75年をかけると,生涯では 200回 程度書くことになるのではないか。

生成AIの考え
Q(私):日本人が一日に書く漢字の数は400字程度です。一生には,1000万字程度の漢字を書くことになるでしょう。このうち,「棒」という漢字を書く回数は何回程度だと推定されますか?
A(Claude):
はい、ご指摘の通り、日本人が一生のうちに書く漢字はおよそ1000万字とされています。このうち、「棒」という漢字が何回含まれるかを推定するため、次のように考えます。日本語の漢字使用頻度データによると、「棒」の出現頻度は0.0026%,1000万字の0.0026%は2600字。したがって、一生のうちに書く漢字1000万字のなかで、「棒」という漢字が含まれる頻度はおよそ2600回と推定されます。
なお,Copilotが4690回,Perplexityが4800回,Bardは200万回,ChatGPTは10億回と答えた。(注)上記の仮定である1日に400字というのは,手書きだけではなくて,SNSなどでのスマホやPCにおけるデジタル入力も含めたつもりだけれど,どうだろうか。

漢字出現頻度
 ClaudeやPerplexityは,漢字の出現頻度という量を持ち出してきた。Perplexityでは,0.0048%とされた。そんなデータがあるのかと検索してみた。令和1年に文化庁の漢字出現度数調査というレポートがある。出現確率ではなく,出現順位が与えられている。棒は1200位あたりで,結構高頻度で出現する文字だった。もう少し調べてみると,mwSoft Blog[1]というサイトが見つかった。2012年6月Wikipediaデータにおける出現漢字をまとめたものだ。このデータを拝借すると,「棒」は1375位で38,285回/528,530,037回(上位3000字の総計)=0.00724%=724回という結果が得られた。

結論
 平均的な人が「書く」漢字の「棒」は,100回〜1000回程度じゃないでしょうか。

参考(学校で棒が出てくる場面)
 棒読み。棒暗記。棒立ち。棒グラフ。棒磁石。乳棒。制御棒。溶接棒。指揮棒。鉄棒。棒高跳び。段違い平行棒。棒球(だま)。綿棒。編み棒。棒針。相棒。泥棒。片棒。棒ダラ。アメン棒。お先棒。棒切れ。火かき棒。金棒。警棒。用心棒。こん棒。ゲバ棒。点棒。

P. S. このページだけで12年分くらいの「棒」を書いてしまった。


写真:画像生成AIがイメージしている「棒」(Diffusion Beeより引用)


2023年7月31日月曜日

コーシー=シュワルツの不等式


数理統計学を真面目に勉強してこなかったのでいろいろ不都合が生じている。統計的因果推論とか深層機械学習とか量子測定理論とか,簡単に読み砕けない資料がたくさんたまる。

授業で扱った最小二乗法と実験誤差の話を整理しようとしても,背景には数理統計学が控えている。昔,阪大の南園グループによるベータ崩壊の実験と我々の理論を突き合わせたときに,χスクェアフィットの計算を散々繰り返したけれど,所与の公式を使うだけであってその理論的根拠をつきつめて考えたはしなかった。

そこで最初から勉強を始めようとすると,いきなり確率変数でつまづくのだった。コンピュータプログラムのサブルーチンや関数のようなものだと思えば納得できるといえばいえるのだけれど,自然言語と数学的記号を使って理解しようとするとなかなかその本質がつかみきれない。入門書は沢山あるけれど,どれも何だか気持ち悪い。

竹村彰道(1952-)さんの現代数理統計学の本(旧版)が手元にあって,読みやすいかなとページをめくってみると,記述統計の復習から始まった。これなら大丈夫かと思いきや,いきなり,標本相関関数の大きさが -1から 1の範囲に限定されることは,コーシー=シュワルツの不等式を用いて容易に示すことができると説明無しにあった。

n次元ユークリッド空間のベクトルの内積の話だと思えばそのとおりなのだけれど,証明したことはなかったかも。Wikipediaでは数学的帰納法で証明していた。$A_k=(a_1,\ a_2,\ \cdots,\ a_k),\ B_k=(b_1,\ b_2,\ \cdots,\ b_k),\ $として,$\displaystyle S^{aa}_k=\sum_{i=1}^k a_i^2,\ S^{bb}_k=\sum_{i=1}^k b_i^2,\ S^{ab}_k=\sum_{i=1}^k a_i b_i, \quad R^{ab}_k=\frac{S^{ab}_k}{\sqrt{S^{aa}_k S^{bb}_k}} $
つまり,$ \bigl( S^{ab}_k \bigr)^2  \le S^{aa}_k S^{bb}_k$を証明すれば良い。

$k=1$の場合は,$ \bigl( S^{ab}_1 \bigr)^2 -  S^{aa}_1 S^{bb}_1 = (a_1 b_1)^2- (a_1^2)(b_1^2) = 0 $

$k=2$の場合は,$ \bigl( S^{ab}_2 \bigr)^2 -  S^{aa}_2 S^{bb}_2 = (a_1 b_1+a_2 b_2)^2- (a_1^2+a_2^2)(b_1^2+b_2^2) =  -(a_1 b_2- a_2 b_1)^2  < 0 $

$k \ge 2$に対して,$ \bigl( S^{ab}_k \bigr)^2  \le S^{aa}_k S^{bb}_k$ が成り立つと仮定して,$k+1$の場合を考える。与式は,$ \bigl( S^{ab}_k + a_{k+1}b_{k+1} \bigr)^2 - \bigl( S^{aa}_k + a_{k+1}^2 \bigr) \bigl(  S^{bb}_k + b_{k+1}^2 \bigr) $
$= \bigl( S^{ab}_k  \bigr)^2 - S^{aa}_k S^{bb}_k - \Bigl( a_{k+1}^2 S^{bb}_k + b_{k+1}^2 S^{aa}_k -2 a_{k+1}b_{k+1} S^{ab}_k \Bigr)$
$= \bigl( S^{ab}_k  \bigr)^2 - S^{aa}_k S^{bb}_k - \sum_{i=1}^k \Bigl( a_{k+1}^2 b_i^2 + b_{k+1}^2 a_i^2 -2 a_{k+1}b_{k+1} a_i b_i \Bigr)$
$=\bigl( S^{ab}_k  \bigr)^2 - S^{aa}_k S^{bb}_k - \sum_{i=1}^k \Bigl( a_{k+1} b_i - b_{k+1} a_i \Bigr)^2 < 0$

Wikipediaの証明などでは,$a_i, b_i >0$の場合だけに妥当するものが多いのでちょっと困る。
まあ,$\displaystyle f_k(x) = \sum_{i=1}^k (a_i x - b_i)^2$ の判別式$D \le 0$から証明するのが最も簡単なのだけど。


[1]賢者に学ぶ統計学の智(西内啓×竹村彰通,ダイヤモンド社)

2023年7月30日日曜日

最小二乗法(6)

最小二乗法(5)からの続き

実験データを$y = a x + b$にフィットする場合,最小二乗法で$(a,\  b)$とその平均二乗誤差$(\sigma_a^2,\ \sigma_b^2)$を求めてきた。これを,$y = f(x) = a x^2 + b x + c\ $に拡張して,自由度3が登場するかどうかを確認してみる。吉澤康和さんの「新しい誤差論」には結果だけ書いてある。

(1) a, b, c を決定する正規方程式とその解

$ \begin{pmatrix}\overline{x^4} & \overline{x^3} & \overline{x^2} \\ \overline{x^3} & \overline{x^2} & \overline{x^1} \\ \overline{x^2} & \overline{x} & 1 \\ \end{pmatrix} \begin{pmatrix} a \\ b \\ c \\ \end{pmatrix}= \begin{pmatrix}\overline{x^2\ y}\\ \overline{x\ y} \\ \overline{y} \\ \end{pmatrix}$ 

$ \begin{pmatrix} a \\ b \\ c \\ \end{pmatrix}= \dfrac{1}{\Delta_3} \begin{pmatrix}\overline{x^2\ y}(\overline{x^2}-\overline{x}^2)+\overline{x\ y}(\overline{x^2}\overline{x}-\overline{x^3})+\overline{y}(\overline{x^3}\overline{x}-\overline{x^2}^2)  \\ \overline{x^2\ y}(\overline{x^2}\overline{x}-\overline{x^3}) + \overline{x\ y}(\overline{x^4}-\overline{x^2}^2) + \overline{y}(\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) \\ \overline{x^2\ y}(\overline{x^3}\overline{x}-\overline{x^2}^2) + \overline{x\ y}(\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) +\overline{y}(\overline{x^4}\overline{x^2}-\overline{x^3}^2) \\ \end{pmatrix}$ 

ただし,$\Delta_3 = \overline{x^4}\overline{x^2}+2\overline{x^3}\overline{x^2}\overline{x}-\overline{x^2}^3-\overline{x^3}^2-\overline{x^4}\overline{x}^2$

$y_i$を共通の平均二乗誤差$\sigma^2_y$を持つ独立変数として,誤差伝播の法則より,

$\displaystyle \sigma_a^2= \sum_{i=1}^n \Bigl( \frac{\partial a}{\partial y_i}\Bigr) ^2 \sigma_y^2, \quad \sigma_b^2= \sum_{i=1}^n \Bigl( \frac{\partial b}{\partial y_i}\Bigr) ^2 \sigma_y^2 , \quad \sigma_c^2= \sum_{i=1}^n \Bigl( \frac{\partial c}{\partial y_i}\Bigr) ^2 \sigma_y^2 $ 

さらに,真の値$f_0(x_i)=a_0 x_i^2 + b_0 x_i + c_0$に対して,$\varepsilon_i = y_i -f(x_i)+ f(x_i) -f_0(x_i) =  \delta_i + f(x_i) -f_0(x_i) $ として,$\displaystyle \sigma_y^2 = \frac{1}{n} \sum_{i=1}^n \varepsilon_i^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + \tilde{\sigma}^2_{f(x_i)} \Bigr\}$

ところで,$\displaystyle \tilde{\sigma}^2_{f(x_i)} = \sum_{j=1}^n \Bigl\{ \frac{\partial(a x_i^2 + b x_i + c)}{\partial y_j}\Bigr\}^2$ であり,この項を再度  $\sigma_y^2$ で表してもとの式に戻して計算すれば良い。

つまり,$\displaystyle \frac{\partial a}{\partial y_j}, \  \frac{\partial b}{\partial y_j},\  \frac{\partial c}{\partial y_j}$が計算できればよいことになる。
$\displaystyle \frac{\partial a}{\partial y_j}=\frac{1}{n \Delta_3}\Bigl\{ x_j^2 (\overline{x^2}-\overline{x}^2)+ x_j(\overline{x^2}\overline{x}-\overline{x^3})+(\overline{x^3}\overline{x}-\overline{x^2}^2) \Bigr\}$
$\displaystyle \frac{\partial b}{\partial y_j}=\frac{1}{n \Delta_3}\Bigl\{ x_j^2 (\overline{x^2}\overline{x}-\overline{x^3}) + x_j (\overline{x^4}-\overline{x^2}^2) + (\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) \Bigr\}$
$\displaystyle \frac{\partial c}{\partial y_j}=\frac{1}{n \Delta_3}\Bigl\{ x_j^2 (\overline{x^3}\overline{x}-\overline{x^2}^2) + x_j (\overline{x^3}\overline{x^2}-\overline{x^4}\overline{x}) +(\overline{x^4}\overline{x^2}-\overline{x^3}^2) \Bigr\}$

Mathematicaの力を借りると,計算結果が因数分解できて分子から$\Delta_3$が出る。
$\displaystyle \sigma_a^2 = \sum_{j=1}^n \Bigl( \frac{\partial a}{\partial y_j}\Bigr) ^2 = \frac{1}{n \Delta_3} \bigl( \overline{x^2} -\overline{x}^2 \bigr) \sigma_y^2$
$\displaystyle \sigma_b^2 = \sum_{j=1}^n \Bigl( \frac{\partial b}{\partial y_j}\Bigr) ^2 = \frac{1}{n \Delta_3} \bigl( \overline{x^4} - \overline{x^2}^2 \bigr) \sigma_y^2$
$\displaystyle \sigma_c^2 = \sum_{j=1}^n \Bigl( \frac{\partial c}{\partial y_j}\Bigr) ^2 = \frac{1}{n \Delta_3} \bigl( \overline{x^4} \overline{x^2}-\overline{x^3}^2  \bigr) \sigma_y^2$

$\displaystyle \sum_{j=1}^n \Bigl( \frac{\partial a}{\partial y_j}\frac{\partial b}{\partial y_j}\Bigr)  = \frac{1}{n \Delta_3} \bigl( \overline{x}\overline{x^2} -\overline{x^3} \bigr) \sigma_y^2$
$\displaystyle \sum_{j=1}^n \Bigl( \frac{\partial b}{\partial y_j}\frac{\partial c}{\partial y_j}\Bigr)  = \frac{1}{n \Delta_3} \bigl( \overline{x^2}\overline{x^3} - \overline{x}\overline{x^4} \bigr) \sigma_y^2$
$\displaystyle \sum_{j=1}^n \Bigl( \frac{\partial c}{\partial y_j}\frac{\partial a}{\partial y_j}\Bigr)  = \frac{1}{n \Delta_3} \bigl( \overline{x^4} \overline{x^2}-\overline{x^3}^2  \bigr) \sigma_y^2$

このとき
$\displaystyle \tilde{\sigma}^2_{f(x_i)}= \sum_{j=1}^n \Bigl\{ \frac{\partial a}{\partial y_i} x_i^2 + \frac{\partial b}{\partial y_j} x_i + \frac{\partial c}{\partial y_j} \Bigr\} ^2 = \frac{\sigma_y^2}{n \Delta_3} $
$\Bigl\{\bigl( \overline{x^2}-\overline{x}^2 \bigr) x_i^4 + 2 \bigl( \overline{x}\overline{x^3} -\overline{x^3} \bigr) x_i^3 + \bigl( \overline{x^4}-\overline{x^2}^2 + 2( \overline{x^3}\overline{x} - \overline{x^2}^2) \bigr) x_i^2 $
$+ 2\bigl( \overline{x^2}\overline{x^3} - \overline{x} \overline{x^4} \bigr) x_i + \bigl( \overline{x^2}\overline{x^4}-\overline{x^3}^2 \bigr)  \Bigr\}$

$x_i$について平均操作するとMathematicaを使い分子から$\Delta_3$が出ると。
$\displaystyle \frac{1}{n}\sum_{i=1}^n  \tilde{\sigma}^2_{f(x_i)} = \frac{\sigma_y^2}{n \Delta_3}$
$\Bigl\{\bigl( \overline{x^2}-\overline{x}^2 \bigr) \overline{x^4}+ 2 \bigl( \overline{x}\overline{x^3} -\overline{x^3} \bigr) \overline{x^3} + \bigl( \overline{x^4}-\overline{x^2}^2 + 2( \overline{x^3}\overline{x} - \overline{x^2}^2) \bigr) \overline{x^2} $
$\displaystyle + 2\bigl( \overline{x^2}\overline{x^3} - \overline{x} \overline{x^4} \bigr) \overline{x}+ \bigl( \overline{x^2}\overline{x^4}-\overline{x^3}^2 \bigr)  \Bigr\} = \frac{3}{n} \sigma_y^2$

したがって,自由度n-3の場合の式が得られた。
$\displaystyle \sigma_y^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + \tilde{\sigma}^2_{f(x_i)} \Bigr\} =  \frac{1}{n} \sum_{i=1}^n  \delta_i^2 + \frac{3}{n} \sigma_y^2$
$\displaystyle \therefore \sigma_y^2 = \frac{1}{n-3} \sum_{i=1}^n \delta_i^2$

2023年7月25日火曜日

最小二乗法(5)

最小二乗法(4)からの続き

完全にスッキリしなくて何だか気持ち悪いのだけれど,いきなり自由度がとかいわれて$n-2$が出てくるのがいやなので,吉澤さんの本に従って話を進めてみる。

$\displaystyle \tilde{\sigma^2}_{y(x_i)} =  \frac{1}{n}\sum_{i=i}^n  \tilde{\varepsilon_i}^2 = \frac{1}{n}\sum_{i=i}^n  \Bigl\{ a x_i + b - a_0 x_i - b_0  \Bigr\}^2$
これから,$f(x_i) = y(x_i) =  a  \bm{x_i} + b$として,独立変数$y_j$について,
$\displaystyle \tilde{\sigma^2}_{y(x_i)} =  \sigma_y^2 \sum_{j=i}^n  \Bigl\{ \frac{\partial a}{\partial y_j}\bm{x_i} + \frac{\partial b}{\partial y_j} \Bigr\}^2 = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{j=i}^n  \Bigl\{ (x_j-\overline{x}) \bm{x_i} + ( \overline{x^2} -\overline{x} x_j ) \Bigr\}^2$
$\displaystyle = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{j=i}^n  \Bigl\{ ( \bm{x_i}-\overline{x} ) x_j + ( \overline{x^2} - \overline{x}  \bm{x_i} ) \Bigr\}^2$
$\displaystyle = \frac{\sigma_y^2}{n \Delta^2}  \Bigl\{ \overline{x^2} ( \bm{x_i}-\overline{x} )^2 + 2 \overline{x} (\bm{x_i} - \overline{x})(\overline{x^2} -\overline{x} \bm{x_i}) + ( \overline{x^2} - \overline{x}  \bm{x_i} )^2  \Bigr\}$
$\displaystyle = \frac{\sigma_y^2}{n \Delta^2}  \Bigl\{ \bm{x_i}^2 ( \overline{x^2} - \overline{x}^2) + 2 \bm{x_i} (\overline{x}^3 - \overline{x^2} \overline{x}) + ( \overline{x^2}^2 - \overline{x^2} \overline{x}^2 )  \Bigr\}$
$\displaystyle = \frac{\sigma_y^2}{n \Delta}  \Bigl\{ \bm{x_i}^2  - 2 \bm{x_i} \overline{x} + \overline{x^2}  \Bigr\}$

添え字 $i$について平均すると,$\displaystyle \frac{1}{n}\sum_{i=1}^n \tilde{\sigma^2}_{y(x_i)} =\frac{\sigma_y^2}{n \Delta}\Bigl\{ \overline{x^2}  - 2 \overline{x} \overline{x} + \overline{x^2}  \Bigr\} =  \frac{2 \sigma_y^2}{n}$
そこで,
$\displaystyle \sigma_y^2 =\frac{1}{n}\sum_{i=1}^n \Bigl\{ \delta_i^2 + \tilde{\varepsilon_i}^2 \Bigr\} = \frac{1}{n}\sum_{i=i}^n \delta_i^2 + \tilde{\sigma^2}_{y(x_i)} = \frac{1}{n} \sum_{i=1}^n \delta_i^2 + \frac{2 \sigma_y^2}{n}$
$\displaystyle \therefore \sigma_y^2 = \frac{1}{n-2}\sum_{i=1}^n \delta_i^2 = \frac{1}{n-2}\sum_{i=1}^n (y_i - a x_i -b )^2$

2023年7月24日月曜日

最小二乗法(4)

最小二乗法(3)からの続き

$(a,\  b)$  に対する平均二乗誤差,$(\sigma_a^2,\ \sigma_b^2)$を考える。$(a,\  b)$ は直接測定された$(x, \ y)$の関数であるが,このうち$x_i$の誤差は非常に小さく,$y_i$の誤差だけが$n$個の独立変数として伝搬して$(a,\  b)$ に反映すると仮定する。ただし,各$y_i$自身の平均二乗誤差は共通でありこれを$\sigma_y^2$とおく。

誤差伝播の法則より,
$\displaystyle \sigma_a^2= \sum_{i=1}^n \Bigl( \frac{\partial a}{\partial y_i}\Bigr) ^2 \sigma_y^2 = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{i=1}^n  \Bigl( x_i-\overline{x} \Bigr) ^2 = \frac{\sigma_y^2}{n \Delta^2} \Bigl( \overline{x^2}-\overline{x}^2 \Bigr) = \frac{\sigma_y^2}{n \Delta} $

$\displaystyle \sigma_b^2= \sum_{i=1}^n \Bigl( \frac{\partial b}{\partial y_i}\Bigr) ^2 \sigma_y^2 = \frac{\sigma_y^2}{n^2 \Delta^2} \sum_{i=1}^n  \Bigl( \overline{x^2}-\overline{x}x_i \Bigr) ^2 = \frac{\sigma_y^2 \ \overline{x^2}}{n \Delta^2} \Bigl( \overline{x^2}-\overline{x}^2 \Bigr) = \frac{ \sigma_y^2 \ \overline{x^2}}{n \Delta}$

残るは,$\displaystyle \sigma_y^2 = \frac{1}{n} \sum_{i=1}^n (\varepsilon_i)^2\  $を実験値から導くことになる。ここで,$ \varepsilon_i = y_i-(a_0 x_i + b_0)  = y_i - (a x_i + b) + (a x_i + b) -(a_0 x_i + b_0) = \delta_i + \tilde{\varepsilon_i}$ である。
ただし,$a_0 x_i + b_0$が未知の真値,$a x_i + b$が平均値に対応し,$ \delta_i$が残差, $\tilde{\varepsilon_i}$が平均値の誤差に相当する。

$\displaystyle \therefore \sigma_y^2 =\frac{1}{n}\sum_{i=i}^n \Bigl\{ \delta_i^2 + \tilde{\varepsilon_i}^2 \Bigr\}$ ここで,$\displaystyle \frac{2}{n} \sum_{i=1}^n \delta_i \tilde{\varepsilon}_i =0$ である。なぜならば$\tilde{\varepsilon}_i$は$x_i$の一次関数であり,正規方程式より, $\sum_{i=1}^n \delta_i = 0$ と $\sum_{i=1}^n \delta_i x_i=0$ が成り立つから。

そこで,$y(x_i)=a x_i+b$として,$\displaystyle \tilde{\sigma^2}_{y(x_i)} =  \frac{1}{n}\sum_{i=i}^n  \tilde{\varepsilon_i}^2 = \frac{1}{n}\sum_{i=i}^n  \Bigl\{ a x_i + b - a_0 x_i - b_0  \Bigr\}^2$を求めることになるが,ここで,$(a, b)$が $y_i$の関数として誤差伝搬の法則を再度使って,$\sigma_y^2$で表せばよい(と吉澤康和さんの「新しい誤差論(1989)」に書いてあった)。


2023年7月23日日曜日

最小二乗法(3)


物理量 $x$を設定したとき,$y$が測定される。$n$回測定では,$(x_1,\ y_1),\ (x_2,\ y_2),\ \cdots (x_n,\ y_n)$ が得られたとする。2つの物理量の間には,$y\ =\ a x + b$という1次関数の関係があって,$(a,\ b)$にも物理量としての意味がある。

この$(a, \ b)$を求めるため,$\displaystyle S(a,b)=\frac{1}{n}\sum_{i=1}^n (y_i-a x_i -b)^2$を最小化するという条件を課す。すなわち,$\frac{\partial S}{\partial a}=0, \frac{\partial S}{\partial b}=0, $これから次の$(a,\ b)$に関する連立方程式(正規方程式)が得られる。

$\displaystyle \frac{1}{n} \sum_{i=1}^n x_i \bigl( y_i - a x_i - b \bigr) = 0 \rightarrow \quad a \overline{x^2} + b \overline{x} = \overline{xy} $
$\displaystyle \frac{1}{n} \sum_{i=1}^n \bigl( y_i - a x_i - b \bigr) = 0  \quad \rightarrow \quad a \overline{x} + b = \overline{y} $

これを解くと次の解が得られる。ただし,$\Delta = \overline{x^2} - (\overline{x})^2$ である。
$a=\frac{1}{\Delta}\bigl(\overline{xy}-\overline{x} \cdot \overline{y} \bigr)$
$b=\frac{1}{\Delta}\bigl( (\overline{x^2}\cdot \overline{y}-\overline{x} \cdot \overline{xy} \bigr)$



2023年7月22日土曜日

最小二乗法(2)

最小二乗法(1)からの続き

間接測定と誤差伝播(でんぱ)の法則について考えるため,物理量$z$が,独立な物理量 $a,\ b,\ c,\ \cdots$の関数で,$z=f(a,\ b,\ c,\ \cdots) $と表されるとする。

ここで,$(a_i,\ b_i,\ c_i\ \cdots)$を各物理量の$i$番目の測定値とする。また,残差を用いて,$(a_i,\ b_i,\ c_i\ \cdots) = (\bar{a}+\delta^a_i,\ \bar{b}+\delta^b_i,\ \bar{c}+\delta^c_i,\ \cdots)$とする。

$z(a_i,\ b_i,\ c_i,\ \cdots) = f (\bar{a}+\delta^a_i,\ \bar{b}+\delta^b_i,\ \bar{c}+\delta^c_i,\ \cdots) $
$\simeq f(\bar{a}, \bar{b}, \bar{c}, \cdots)+  \frac{\partial f}{\partial a} \delta^a_i + \frac{\partial f}{\partial b} \delta^b_i + \frac{\partial f}{\partial c} \delta^c_i + \cdots = \bar{z} + \delta^z_i $ 
として,$ \delta^z_i$を定義する。

残差と平均二乗誤差の関係から,間接測定される物理量zについて,$\displaystyle \sigma_z^2 = \frac{1}{n-1} \sum_{i=1}^n (\delta^z_i )^2$ が成り立つ。

$\displaystyle \therefore \sigma_z^2 = \frac{1}{n-1} \sum_{i=1}^n \Bigl( \frac{\partial f}{\partial a} \delta^a_i + \frac{\partial f}{\partial b} \delta^b_i + \frac{\partial f}{\partial c} \delta^c_i \cdots \Bigr)^2$
$\displaystyle = \frac{1}{n-1} \sum_{i=1}^n \Bigl \{ \bigl( \frac{\partial f}{\partial a} \delta^a_i \bigr)^2+ \bigl(\frac{\partial f}{\partial b} \delta^b_i \bigr)^2 +\bigl ( \frac{\partial f}{\partial c} \delta^c_i \bigr)^2+ \cdots \Bigr\}$

$\displaystyle \therefore \sigma_z^2 = \Bigl( \frac{\partial f}{\partial a}\Bigr )^2 \sigma_a^2 + \Bigl( \frac{\partial f}{\partial b} \Bigr)^2 \sigma_b^2 +\Bigl( \frac{\partial f}{\partial c} \Bigr)^2  \sigma_c^2 + \cdots$

これが誤差伝播の法則といわれるものである。
なお,ここで独立な物理量の残差の積和がゼロになると仮定している。例えば,
$\displaystyle \sum_{i=1}^n \delta^a_i \delta^b_i = 0\ $などなど

2023年7月21日金曜日

最小二乗法(1)

授業シリーズその1,オンライン授業の1コマ分を実験誤差のテーマにするべく頑張った話

昔,最小二乗法の計算は手回し計算機で大変な思いで計算していた記憶がある。実験ノートは,測定データ$x_i$と$y_i$の計算表で埋め尽くされていた。データ処理といえばこれだった。後に,関数電卓にもその機能が組み込まれるようになったが,今では Excelで一発なのかもしれない。

まず,誤差を定義する必要がある。我々が昔勉強した本では,誤差=実験値−真の値 から出発していた。しかし,最近の本ではどうも様子が怪しくなっている。そもその真の値とはなにか,どうやって定義するのか,などなど。かといって,いきなり確率分布関数を持ってきて数理統計学の枠内で議論するのも大層な話だ。精度ということばも測定の不確かさに置き換わっているようだ。

とりあえず,1つの物理量$x$ の測定を考える。その真の値が$X$であると仮定する。$n$回の測定で$\ (x_1,\  x_2,\  x_3,\  \cdots,\  x_n\ )$ という測定値が得られたとする。誤差を$\ \varepsilon_i = x_i - X$で定義する。誤差は真の値のまわりで偏らずに分布する,すなわち$\  \displaystyle \sum_{i=1}^n \varepsilon_i = 0$であるとする。これから,$\displaystyle \sum_{i=1}^n x_i = n X$となる。これを$X$の定儀式とみなすと,真の値$X$が $n$や実験データ$x_i$に依存することになってしまう。

そこで,$\displaystyle \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$で平均値を定義する。これは真の値の推定値(最確値)だと考えられる。このとき,残差=実験値−平均値,すなわち,$\delta_i = x_i - \bar{x}$ で定義する。

次に,実験データの精度は誤差のばらつきで表現される。平均二乗誤差は,$\displaystyle \sigma^2 = \frac{1}{n} \sum_{i=1}^n \varepsilon_i^2\ $で定義し,標準偏差は $\sigma =\sqrt{\sigma^2}\ $とする。

ところで,この定義では,真の値がわからないので,誤差の$\varepsilon_i$は未知であり,平均二乗誤差も求まらない。そこで,残差の$\delta_i$から導くことを考える。$\varepsilon_i = x_i - X = x_i - \bar{x} + \bar{x} -X = \delta_i + \bar{x} - X$ となることから,

$\displaystyle \sigma^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i + (\bar{x} -X) \Bigr\}^2 =  \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + 2 \delta_i (\bar{x} -X) +  (\bar{x} -X)^2 \Bigr\}  $
$\displaystyle = \frac{1}{n} \sum_{i=1}^n \delta_i^2 + (\bar{x} -X)^2$

ここで,$ \displaystyle \sum_{i=1}^n \delta_i = 0$を用いた。また,$\displaystyle \sum_{i \neq j}^n \varepsilon_i \varepsilon_j = 0$より 上式第2項は,
$\displaystyle ( \bar{x} -X )^2 = \{ \frac{1}{n} \sum_{i=1}^n (x_i - X) \}^2 =  \frac{1}{n^2} \sum_{i, j=1}^n \varepsilon_i \varepsilon_j = \frac{1}{n} \sigma^2 $ 

これを先ほどの式に代入して移項の上整理すると,$\sigma^2 $を$\delta_i$を用いて表せる。
$\displaystyle \sigma^2 = \frac{1}{n-1} \sum_{i=1}^n \delta_i^2 $

2023年6月8日木曜日

会話行動に関する調査


シンセティック・メディアについて考えるための,人の情報環境について考えていた。情報通新メディアの利用時間のデータは見つかったので,対面コミュニケーションの時間のデータがないか探してみた。国立国語研究所日常会話コーパスプロジェクトの中に,「一日の会話行動に関する調査報告(2017)」が見つかった。

243人の調査対象に平日2日,休日1日のすべての会話を記録してもらった結果,1日平均の会話数 12.7回,会話時間長 6.2時間,1回の会話時間 29分という結果になった。会話時間の約6時間というのは,情報通信メディアの利用時間約6時間とほぼ同じであった。


図:一日の平均会話の特徴

会話相手の人数がN人の時,自分の発話割合は,1/(N+1)である仮定する。上記の相手人数の割合の加重平均をとれば,(38.3/2+17.9/3+12.5/4+6.6/5+4.3/6+3.2/7+1.9/8+1.5/9+1.1/10+12.7/20)%=32%となる。
したがって,一日の平均会話時間の1/3の2時間は自分が話し,残りの4時間は相手の話を聞いているということになる。

2023年6月7日水曜日

社会生活基本調査

情報通信メディアの利用時間からの続き

さらに,ブラウズしていたら,社会生活基本調査というものに行き着いた。
社会生活基本調査は,統計法に基づく基幹統計調査として,生活時間の配分や余暇時間における主な活動(学習・自己啓発・訓練,ボランティア活動,スポーツ,趣味・娯楽及び旅行・行楽)を調査し,国民の社会生活の実態を明らかにするための基礎資料を得ることを目的として5年ごとに実施しています。

というもので,直近は令和3年(2021年)版だ。詳細行動分類による生活時間に関する結果が昨年の12月に公表されている。ここにスマートフォン・パソコンの使用時間があった。使用者率が65%,平均使用時間(使用者についての)が4.29時間である。この調査は,10歳から75歳以上を対象としているため,情報通信メディアの利用時間(6時間)に比べれば,値が小さくなるのはしかたがない。14歳以下や65歳以上をのぞけば,使用者率78.9%,平均使用時間4.89時間程度にはなるので,6時間にはとどかないがまあ同じオーダにはなっている。

使用者率が78.9%というのは低すぎるような気がするのだけれど・・・。


図:令和3年度社会生活基本調査から


2023年6月6日火曜日

情報通信メディアの利用時間

シンセティック・メディア(2)からの続き

視聴覚メディアからの影響と実体験や対面コミュニケーションによる影響を考えるための基本情報は何かと考えた。とりあえず,視聴覚メディアに接している時間ならばデータがあるかもしれないと思って,調べたところ,総務省の「情報通信メディアの利用時間と情報行動に関する調査報告書」というのが見つかった。

とりあえず分かったことは次の通り。
(1) 対象は,全国の125地点の13歳から69歳までの1500人
(2) メディア視聴時間の合計は平均6時間程度であり,年代とともに微増するがほぼ一定
(3) 一日平均のTV(リアル+録画)視聴時間は3時間,ネット視聴時間も3時間(1 : 1)
(4) 20代の場合は,TV視聴時間が1.5時間,ネット視聴時間が4.5時間(1 : 3)

睡眠時間や自分だけの時間の和が12時間とすれば,他者とともにある時間が6時間,メディア視聴時間が6時間という配分になる。他者とともにある時間のうちコミュニケーションに費やされるのがどのくらいかは,人によってかなり違うだろうし,測定も難しそうに思える(ノンバーバルコミュニケーションとかやぎさん郵便状態をどうやって評価するのだろう)。


図:年代別のメディア視聴時間(縦軸 分,横軸 ×10代)

追伸:総務省のICT活用のためのリテラシー向上に関する検討会資料
各セグメントにおけるメディアの利用状況に関する調査」にもネットメディア接触時間のデータがある。全体平均では200分であり,上記の結果と矛盾しないが,10代では450-500分となっていて,図の結果とはかなり様子が違う。

2023年6月3日土曜日

合計特殊出生率(1)

奥村晴彦先生が,Rで合計特殊出生率グラフを描いていたのでまね(写経)をしてみた。

厚生労働省の発表では,2022年の合計特殊出生率が1.26となって(前年は1.30),2005年に並んで過去最低を記録した,というのがニュースになったからかな。

写経は成功したが,日本語タイトルが文字化けしていた。ネットで検索すると解決できた。次に,グリッドラインを入れるべく検索したが要領を得ないし,なんだかずれてしまう。GPT-4に相談したところ2回目で正解にたどりつけた。最後に,奥村先生はクリップボードからデータを入力するという高等技術を使っていたので,低レベルのテキストファイル入力に切り替えた。自分で考える力がどんどん喪失されていく・・・

その結果が次のRプログラムと図である。

# X = read.table(pipe("pbpaste"), header=TRUE) (奥村先生のテクニック for macOS)

X <- read.table('/Users/koshi/Desktop/birth.txt', header =TRUE)
par(family = "HiraKakuProN-W3")
plot(X$年, X\$合計特殊出生率, type="o", pch=16, xlab="", ylab="")
t = c(range(X\$合計特殊出生率), X$合計特殊出生率[length(X[,1])])
axis(4, t, t)
title("合計特殊出生率", line=0.5)

# x軸とy軸のメモリの位置を手動で指定
x_ticks <- pretty(X\$年, 11)  # 11個のメモリを生成
y_ticks <- pretty(X\$合計特殊出生率, 9)  # 9個のメモリを生成

# x軸に対してグリッド線を描画
for (i in x_ticks) {
  abline(v = i, col = "lightgray", lty = "dotted")
}

# y軸に対してグリッド線を描画
for (i in y_ticks) {
  abline(h = i, col = "lightgray", lty = "dotted")
}


図:合計特殊出生率の推移(1970-2022)


2022年9月16日金曜日

ファクターX

2年半前の2020年春,新型コロナ ウイルス感染症の蔓延が始まったころ,欧米諸国に比べて日本の感染者数や死亡数は圧倒的に少なかった。その原因は何かということで,あれやこれやの説があったが決定的な証拠がなくて,当初はファクターX(あるいはなぞなぞ効果 by コロラド先生)とよばれていた。

その後,優等生だったニュージーランドや韓国や台湾でも感染が急拡大してしまい,日本を含む東アジア太平洋地域の特殊性というのは,いつのまにか話題にならなくなった。

2022年夏の第7波のピークを過ぎた頃から,感染者数が過去に比べてかなり大きいにも関わらず,重症化率や致命率がそれほどでもないという理由で,様々な規制が緩和されようとしている。WHOも,コロナの終わりが視野に入ってきたと口走るようになった。

データアナリスト(マーケティングリサーチャー)の萩原雅之さんが,Our World in Dataから,日本の人口当たりの新規感染者数を世界と比較していたので,死亡数や致命率もあわせて確かめてみることにする。やはり,第6波以降の報告値は大きく変わってしまった。なんでだろう。




第1,2波では世界平均の1/10ほどだったものが,第3,4,5波では。2-3分の1程度になり,なぞなぞ効果は消えたといわれた。さらに,第6波では世界平均を上回り,第7波では逆に1桁近く日本の方が大きくなってしまった。現時点では主要国中,台湾,韓国,に続き第3位になっている。





死亡数でも感染者数と同様の傾向があるが,世界平均を上回るのは第5波からである。第7波では,人口当たり死亡数は世界平均を1桁近く上回り,現時点では主要国中第1位になっている。ほとんどニュースでは取り上げられていないけれど。そして,その日本の中でもダントツなのが維新に牛耳られている大阪





第1波から第4波の致命率は2〜5%もあって,行動制限も当然という状況だった。第5波には1%前後まで収まり,第6,7波にかけては0.1%のオーダーまで下がっている(たぶんそれでもインフルエンザよりは高い)。これがこのまま続くのかどうかは変異株の性質次第かもしれない。

東京における第7波の新規感染者数のピークは8月の第1週の3.3万人/日であった。現在まで,平均3.4%/日の割合で減少している。これが続けば,9月末には5700人/日,10月末には2000人/日,11月末には700人/日とおさまるペースだ。第8波については,変異株や冬場に向かう環境変化の効果次第でどうなるかわからない(なお,全国の値は東京の7-8倍程度である)。

2022年8月30日火曜日

遠山プランから20年

自由民主党清和政策研究会の,森政権(2000-2001)と小泉政権(2001-2006)によって日本は転落への道をたどりはじめたといえるのかもしれない。安倍政権(2006-2007, 2012-2020)からの事態はこれにとどめを刺している。

遠山敦子は,小泉政権の文部科学大臣であり,初等中等教育ではゆとり教育からの脱却,高等教育ではいわゆる遠山プラン(2001)という新自由主義的大学改革プランを打ち出した。

そこでは,(1) 国立大学の再編・統合を大胆に進める。(2) 国立大学に民間的発想の経営手法を導入する。(3) 大学に第三者評価による競争原理を導入する。の三原則が示された。これによって,教員養成単科大学はおおいに振り回されて右往左往することになる。2004年には国立大学が法人化され,さらに混乱に拍車がかかった。現在もこの方向性での「改革」が継続強化されている。

この結果,日本の国立大学は疲弊の一途をたどることになる。その証拠の一例として学術論文のTop 10% 引用数の世界ランキングがある。文部科学省の科学技術・政策研究所(NISTEP)が最近まとめた科学技術指標2022では,日本がランキングの12位にまで落ち込んだことが示された。

2年ごとに報告されている科学研究のベンチマーキング2021では,2018年までの移動平均値が示されている。2003年以降,学術論文のTop 10% 引用数は着実に順位を下げ続け,今回さらにワンランクダウンしたということになる。


図:遠山プラン・国立大学法人化以降の日本の凋落指標(NISTEPから引用)