相関係数、最小二乗法、LARSの幾何学的解釈
統計の数式、特に基本的な概念はベクトルとして考えてイメージするとスマートに解釈できる事が多いです。
まずは相関係数。
いきなりですが、相関係数は以下のように式展開するとcosθになります。
簡便のため、ベクトルxとyの平均は0と仮定します。
このxとyをいくつかのパターンで幾何学的に表現すると次のようになります。
yとそれぞれのxとの関連は以下のようになります(θ2=30°とします)。
角度 | 相関係数、cosθ | |
---|---|---|
x1 | 0 | 1 |
x2 | 30 | 0.86 |
x3 | 90 | 0 |
x4 | 150 | -0.86 |
x5 | 180 | -1 |
こんな感じで、無相関ってのはベクトルで考えると直交しているってことなんですね。
次に最小二乗法をベクトルで解釈します。
最小二乗法は文字通り、二乗和を最小にする方法です。
幾何学的には、(y-βx)のベクトルの長さを最小にするβを求めるということです。
βxはベクトルxを伸ばしたベクトルなので、ベクトル(y-βx)の長さが最小になるβは、、、
このように、yからxへ垂線の足を引いた点になります。
ちなみに(y-βx)は誤差なので、「誤差ベクトルと説明変数ベクトル(βx)は直交しているので無相関である」という説明もできたりします。
これで回帰モデルの幾何学的解釈に慣れたところで、、、
ここから本題のLARSです。
LARSはEfron先生が考案した方法で、Least Angle Regressionの略です。
無理やり日本語にすると、最小角度回帰ってところです。
この文献にあるLARSの幾何学的解釈をまず見ましょう。
http://www.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf
説明は下の英語に書いてありますが、箇条書きで訳します。
- yからx1、x2の空間への射影(垂線の足)がy2
- まずy2との角度が小さいx1の方へ回帰する
- ベクトル(y2-μ1)がx1とx2の角度を2分割するようなμ1を選択する
- y2の方に進む
階段状になっているのはステップワイズ法の状況(らしい)
このアイディアだけでも脱帽ものなんですが、さらに凄いのはLARSの結果が先日説明したLASSOとほぼ同じということ!
LASSOはペナルティを入れる方法で、LARSは角度を2分割するように進んでいくという全く違う概念なのですが、結果は酷似している。。。
なぜなんでしょうかね!?
綺麗に説明できたらかっこいいと思います。
ちなみに、結果が似てんだったらLARSを使わなくてもLASSOを使えばいいんじゃね?って事になりますが、、、
ロマンですよロマン。