2023年7月21日金曜日

最小二乗法(1)

授業シリーズその1,オンライン授業の1コマ分を実験誤差のテーマにするべく頑張った話

昔,最小二乗法の計算は手回し計算機で大変な思いで計算していた記憶がある。実験ノートは,測定データ$x_i$と$y_i$の計算表で埋め尽くされていた。データ処理といえばこれだった。後に,関数電卓にもその機能が組み込まれるようになったが,今では Excelで一発なのかもしれない。

まず,誤差を定義する必要がある。我々が昔勉強した本では,誤差=実験値−真の値 から出発していた。しかし,最近の本ではどうも様子が怪しくなっている。そもその真の値とはなにか,どうやって定義するのか,などなど。かといって,いきなり確率分布関数を持ってきて数理統計学の枠内で議論するのも大層な話だ。精度ということばも測定の不確かさに置き換わっているようだ。

とりあえず,1つの物理量$x$ の測定を考える。その真の値が$X$であると仮定する。$n$回の測定で$\ (x_1,\  x_2,\  x_3,\  \cdots,\  x_n\ )$ という測定値が得られたとする。誤差を$\ \varepsilon_i = x_i - X$で定義する。誤差は真の値のまわりで偏らずに分布する,すなわち$\  \displaystyle \sum_{i=1}^n \varepsilon_i = 0$であるとする。これから,$\displaystyle \sum_{i=1}^n x_i = n X$となる。これを$X$の定儀式とみなすと,真の値$X$が $n$や実験データ$x_i$に依存することになってしまう。

そこで,$\displaystyle \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i$で平均値を定義する。これは真の値の推定値(最確値)だと考えられる。このとき,残差=実験値−平均値,すなわち,$\delta_i = x_i - \bar{x}$ で定義する。

次に,実験データの精度は誤差のばらつきで表現される。平均二乗誤差は,$\displaystyle \sigma^2 = \frac{1}{n} \sum_{i=1}^n \varepsilon_i^2\ $で定義し,標準偏差は $\sigma =\sqrt{\sigma^2}\ $とする。

ところで,この定義では,真の値がわからないので,誤差の$\varepsilon_i$は未知であり,平均二乗誤差も求まらない。そこで,残差の$\delta_i$から導くことを考える。$\varepsilon_i = x_i - X = x_i - \bar{x} + \bar{x} -X = \delta_i + \bar{x} - X$ となることから,

$\displaystyle \sigma^2 = \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i + (\bar{x} -X) \Bigr\}^2 =  \frac{1}{n} \sum_{i=1}^n \Bigl\{ \delta_i^2 + 2 \delta_i (\bar{x} -X) +  (\bar{x} -X)^2 \Bigr\}  $
$\displaystyle = \frac{1}{n} \sum_{i=1}^n \delta_i^2 + (\bar{x} -X)^2$

ここで,$ \displaystyle \sum_{i=1}^n \delta_i = 0$を用いた。また,$\displaystyle \sum_{i \neq j}^n \varepsilon_i \varepsilon_j = 0$より 上式第2項は,
$\displaystyle ( \bar{x} -X )^2 = \{ \frac{1}{n} \sum_{i=1}^n (x_i - X) \}^2 =  \frac{1}{n^2} \sum_{i, j=1}^n \varepsilon_i \varepsilon_j = \frac{1}{n} \sigma^2 $ 

これを先ほどの式に代入して移項の上整理すると,$\sigma^2 $を$\delta_i$を用いて表せる。
$\displaystyle \sigma^2 = \frac{1}{n-1} \sum_{i=1}^n \delta_i^2 $

0 件のコメント: