Correlation Coefficient 相關係數

在上一節中提到了兩個變數的關係, 也利用了 Scatter Diagram 秀出了變數的分佈情況, 這節中利用 相關係數 (correlation coefficient r),而 r 具有下列的性質, 更能具體的表示兩變數的 線性相關 (linear relation),

1
$-1 \leq r \leq 1$
2
|r| 是相關的強度, 正負號表示方向
r>0
(x,y)是由左下到右上的帶狀, 稱為正相關.
r<0
(x,y)是由左上到右下的帶狀, 稱為負相關.
r=+1
(x,y)恰成一條正斜率的線, 稱為完全正相關.
r=-1
(x,y)恰成一條負斜率的線, 稱為完全負相關.
3
r 接近 0 時, 則(x,y)線性關係相當的弱, 可能 (x,y) 不呈線性 (linear association), 或是呈曲線的狀況.

兩個變數呈高度相關的話, 並非一定具有相關性, 可能隱含有第三個變數所導致的, 當然兩個變數不呈線性關係時, 也不代表沒有關係, 只能說兩變數無線性相關, 原因也可能是有隱含的第三個變數所影響, 潛伏的變數可能偽造相關性. 由下圖可以清楚的看出, (x,y) 的分佈與 r 的變化狀況.