相関係数が1だと傾き1なの?
松谷です。
データの分析の本をこの前読んでいたので、その話題を。
高校で学ぶ相関係数というのがあります。
2つのデータの相関関係を測る数値の1つです。身長か高いほど体重が多いとか。勉強時間が多いほど、ゲームの時間が少ないとかそういう関係を測るときに使えます。
(これから下の画像が全て消えていますね。。一応それらをまとめたpdfデータをupしてますので、データの分析まとめ参考まで。この11ページ以降の内容です。)
そこで、1つ疑問を持つ人がいるかもしれません。
相関係数と傾きって関係あるの?と。
いやもっというと、相関係数が1のとき傾きは1なの?という疑問です。
実際、傾きが1になるように点をプロットして、相関係数を求めてみました。
散布図の点をつないだとき一直線上にあるとき相関係数が1であることは知られています。
ふむふむ。
相関係数の定義通り、共分散と標準偏差を求めて計算すると、相関係数は1になりました。
では、傾きは違うけど、一直線の場合はどうなんだと。
こんな感じのときですね。傾き2ですね。
このとき、相関係数は2なのか?
それはないんですね。相関係数は-1から1の間に収まっていますので。ちなみに、これはコーシーシュワルツの不等式で容易に示されます。(n文字のやつ)
ということで、調べてみると、
あー、適当なデータをとったので、計算が面倒くさいやつですね。
ということで、共分散と分散の別公式を使い出しました。そうすると、やはり相関係数は1でした!
そうなんです、傾き関係ないんですね。
さらに言うと原点を通る直線でなくてもよいんですね。
まあ、そんな感じです。
じゃあ相関係数はなんなんだという気持ちがあるかなと思います。
回帰直線というんですが、全部の点からの距離の2乗の和が最小になるようにうまく直線を引いてやるんですね。そのとき、距離の2乗の和が0になる、すなわち全ての点が回帰直線と距離がない、すなわち回帰直線にのっかってるときに、相関係数が1になるようになってるんですね。
最小2乗法というのと関連する話ですね。
まあ、誰も興味なさそうな話でしたね。。。