回帰

公開

目次

最小 2 乗法ではなぜ残差平方和を最小化するのか

最小 2 乗法では、データ[(x1,y1),..,(xi,yi),..,(xN,yN)][(x_1,y_1),..,(x_i,y_i),..,(x_N,y_N)]が与えられたとき、

min{i=1N(yif^(xi))2}\min \left\{ \sum^N_{i=1}(y_i-\hat{f}(x_i))^2 \right\}

を満たす関数f^\hat{f}を求めます。すなわち、残差平方和(residual sum of squares: RSS)を最小化します。

因果関係の仮定

xxyyの間に因果関係を仮定します。つまり、「xxならばyy」なのか「yyならばxx」なのかを区別する必要があります。因果の向きを逆転させる(xxyyを入れ替える)と最小 2 乗法の結果も異なってしまいます。

最尤推定

xxならばyy」という因果関係を仮定することにします。ちなみに統計ではこのようなxx説明変数yy目的変数と呼びます。このとき、yyxxで説明するモデルffを考えると、

y=f(x;θ)+ϵy = f(x;\theta) + \epsilon

と表すことができます。ここでθ\thetaはモデルffが持つパラメーターで、ϵ\epsilon誤差を表します。

ϵ\epsilonが確率分布p(ϵ)p(\epsilon)に従うとき、データd=[(x1,y1),..,(xi,yi),..,(xN,yN)]\bm{d}=[(x_1,y_1),..,(x_i,y_i),..,(x_N,y_N)]が得られる確率P(d)P(\bm{d})は、

P(d)=i=1Np(ϵi)=i=1Np(yif(xi;θ))P(\bm{d}) = \prod^N_{i=1}p(\epsilon_i) = \prod^N_{i=1}p\left(y_i - f(x_i;\theta)\right)

で書けます(このとき各データは互いに独立とします)。ここで考え方を変えて、データd\bm{d}が与えられたときのパラメーターθ\thetaの関数L(θd)L(\theta|\bm{d})を考えても、

L(θd)=P(d)=i=1Np(yif(xi;θ))L(\theta|\bm{d}) = P(\bm{d}) = \prod^N_{i=1}p\left(y_i - f(x_i;\theta)\right)

で書けます。このL(θd)L(\theta|\bm{d})尤度と呼ばれる値で、データd\bm{d}におけるパラメーターθ\theta尤もらしさ(もっともらしさ)を表しています。この尤度を最大化するように、つまりもっとも尤もらしいパラメーターθ\thetaを推定する手法を最尤推定と言います。

ここで、尤もらしさとはあくまでデータd\bm{d}との適合度でしかないことには注意が必要です。

誤差分布の仮定

尤度L(θd)L(\theta|\bm{d})を最大化するようなパラメーターθ^\hat{\theta}を推定するには、誤差の確率分布p(ϵ)p(\epsilon)が分かっていればよさそうです。そこで、ここでは確率分布として平均 0 の正規分布を仮定してみます。このとき、確率分布p(ϵ)p(\epsilon)は、

p(ϵ)=12πσ2exp(ϵ22σ2)p(\epsilon) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp{\left( -\frac{\epsilon^2}{2\sigma^2} \right)}

で書けます。このとき、尤度L(θd)L(\theta|\bm{d})は、

L(θd)=i=1N12πσi2exp((yif(xi;θ))22σi2)=i=1N12πσi2exp(12i=1N(yif(xi;θ))2σi2)\begin{aligned} L(\theta|\bm{d}) &= \prod^N_{i=1} \frac{1}{\sqrt{2\pi\sigma_i^2}} \exp{\left( -\frac{(y_i - f(x_i;\theta))^2}{2\sigma_i^2} \right)} \\ &= \prod^N_{i=1} \frac{1}{\sqrt{2\pi\sigma_i^2}} \cdot \exp{\left( -\frac{1}{2}\sum^N_{i=1}\frac{(y_i - f(x_i;\theta))^2}{\sigma_i^2} \right)} \end{aligned}

となります。

最小 2 乗法へ

最後に尤度L(θd)L(\theta|\bm{d})を最大化するようなパラメーターθ^\hat{\theta}、つまり最尤推定されるモデル関数f^\hat{f}を求めていきます。いま誤差の分散σi2\sigma_i^2一定ならば、推定されるモデル関数f^\hat{f}は、

min{i=1N(yif^(xi))2}\min \left\{ \sum^N_{i=1}(y_i - \hat{f}(x_i))^2 \right\}

を満たすことが分かります。


プロフィール画像
tamaosa

釣りと登山が好き。

Privacy PolicyBuilt with Gatsby, © 2019 Tamaosa