相関係数が1だと傾き1なの?

松谷です。

データの分析の本をこの前読んでいたので、その話題を。

高校で学ぶ相関係数というのがあります。

2つのデータの相関関係を測る数値の1つです。身長か高いほど体重が多いとか。勉強時間が多いほど、ゲームの時間が少ないとかそういう関係を測るときに使えます。

(これから下の画像が全て消えていますね。。一応それらをまとめたpdfデータをupしてますので、データの分析まとめ参考まで。この11ページ以降の内容です。)

 

そこで、1つ疑問を持つ人がいるかもしれません。

相関係数と傾きって関係あるの?と。

いやもっというと、相関係数が1のとき傾きは1なの?という疑問です。

実際、傾きが1になるように点をプロットして、相関係数を求めてみました。

散布図の点をつないだとき一直線上にあるとき相関係数が1であることは知られています。

C900DD8D-39A0-4498-830F-1EA09DF4619D

ふむふむ。

相関係数の定義通り、共分散と標準偏差を求めて計算すると、相関係数は1になりました。

では、傾きは違うけど、一直線の場合はどうなんだと。

060EF6A5-FE78-4419-AA9B-BC58059C41B5

こんな感じのときですね。傾き2ですね。

このとき、相関係数は2なのか?

それはないんですね。相関係数は-1から1の間に収まっていますので。ちなみに、これはコーシーシュワルツの不等式で容易に示されます。(n文字のやつ)

ということで、調べてみると、

72BE496B-8DD8-4D3D-B037-B8DD71C277DD

あー、適当なデータをとったので、計算が面倒くさいやつですね。

ということで、共分散と分散の別公式を使い出しました。そうすると、やはり相関係数は1でした!

そうなんです、傾き関係ないんですね。

さらに言うと原点を通る直線でなくてもよいんですね。

A58B2F84-26B8-4AC3-BF3E-9A6C82D03113

まあ、そんな感じです。

じゃあ相関係数はなんなんだという気持ちがあるかなと思います。

回帰直線というんですが、全部の点からの距離の2乗の和が最小になるようにうまく直線を引いてやるんですね。そのとき、距離の2乗の和が0になる、すなわち全ての点が回帰直線と距離がない、すなわち回帰直線にのっかってるときに、相関係数が1になるようになってるんですね。

最小2乗法というのと関連する話ですね。

 

まあ、誰も興味なさそうな話でしたね。。。