2024年9月12日木曜日

対数正規分布

世帯の金融資産分布は,対数正規分布を考えるのが妥当だと Geminiがいった。Perplexityによれば 零端があるので,パレート分布がいいのかもしれない。

ここでは,対数正規分布を仮定して日本の世帯の金融資産保有額に関するパラメタを探してみる。金融資産の値を変数 xとして,世帯数の確率密度分布を f1[x, μ, σ] ,累積確率密度分布をg1[x, μ, σ] とする。これにともない,金融資産×世帯数の確率密度分布を f2[x, μ, σ] ,累積確率密度分布をg2[x, μ, σ,λ] とする。積分定数の不定性があることからパラメタλを追加した。Mathematicaのコードは次のようになる。
In[1]:= f1[x_, μ_, σ_] := (E^(-((μ - Log[x])^2/(2 σ^2))) Sqrt[2/π])/(2 x σ)
Integrate[f1[x, μ, σ], x]

Out[1]= 1/2 Erf[(-μ + Log[x])/(Sqrt[2] σ)]

In[2]:= 
p1 = {{0.3, 0.778}, {0.5, 0.912}, {1.0, 0.972}, {5.0, 0.998}};
q1 = ListPlot[p1, PlotStyle -> {Red, PointSize[Small]}, 
   AxesLabel -> {"x", "y"}, PlotRange -> {0, 1.2}];

In[3]:= 
g1[x_, μ_, σ_] := 1/2*Erf[(-μ + Log[x])/(Sqrt[2] σ)] + 0.5
nlm = NonlinearModelFit[p1, g1[x, μ, σ], {μ, σ}, x];
nlm["BestFitParameters"]

Out[3]= {μ -> -1.92447, σ -> 0.933737}

In[4]:= Show[q1, 
 Plot[g1[x, -1.92447, 0.933737], {x, 0, 5}, PlotRange -> {0, 1}]]


In[5]:= f2[x_, μ_, σ_] := x*f1[x, μ, σ]
Integrate[f2[x, μ, σ], x]

Out[5]= -(1/2) E^(μ + σ^2/2)
  Erf[(μ + σ^2 - Log[x])/(Sqrt[2] σ)]

In[6]:= 
p2 = {{0.02, 0.01}, {0.3, 0.125}, {0.5, 0.187}, {1.0, 0.234},
 {5.0, 0.282}, {20.0, 0.302}};
q2 = ListPlot[p2, PlotStyle -> {Red, PointSize[Small]}, 
   AxesLabel -> {"x", "y"}, PlotRange -> {-0.1, 0.35}];

In[7]:= g2[x_, μ_, σ_, λ_] := -(1/2) E^(μ + σ^2/2) 
Erf[(μ + σ^2 - Log[x])/(    Sqrt[2] σ)] + λ

nlm = NonlinearModelFit[p2, g2[x, μ, σ, λ], {μ, σ, λ}, x];
nlm["BestFitParameters"]

Out[7]= {μ -> -1.72573, σ -> 0.914071, λ -> 0.154702}

In[8]:= Show[q2, 
 Plot[g2[x, -1.72573, 0.914071, 0.154702], {x, 0, 20}, 
 PlotRange -> {0, 0.35}]]

非線形モデルフィットするためのデータは,野村総研の「日本の富裕層は149万世帯、その純金融資産総額は364兆円と推計」というレポートを用いた。前段と後段のパラメタは本来同じでなければならないが,そこまで含めた解析はできていない。対数正規分布だと両方に整合的な結果は得られないかもしれないがよくわからない。




(付)上記の図から得られた分布データ
金融資産 世帯数 世帯割合 資産額 資産割合
1 0.0-0.3  4213.2  0.778   678  0.415
2 0.3-0.5  726.3  0.134   332  0.203
3 0.5-1.0  325.4  0.060  258  0.158
4 1.0-5.0  139.5  0.026  259  0.159
5 5.0→  9    0.002  105  0.064
   5413.4  1.000  1632  1.000

このデータから得られる金融資産の世帯平均値は3010万円であるが,先ほど仮定した分布における最頻値は590万円。 生命保険文化センターの最近のデータとは少しズレがあるかもしれない。


0 件のコメント: