Linear Regression 線性迴歸

在上一節中介紹了相關係數 (correlation coefficient) 用來解釋 (x,y)的之間的關係, 現在要介紹的是一個重要的統計方法, 由另一個容易得到的變數資料, 經由統計分析, 預測我們有興趣但卻不易得到的變數資料, 其中原因可能是數據取得不易, 耗時或不符成本, 收集數據有困難等.

利用 線性迴歸 (linear regression) 的方法, 將 (x,y)的關係式表示出來, 以 x 為變數 (predictor or input variable), y為反應變數 (response or output variable), 可以看成假設由x已知的角度來預測未知的y所產生的結果, 最後以一線性估計線 (linear predictor) 來說明 (x,y) 的關係, 相關係數只說明了 (x,y)具有一直線關係, 這條估計線比相關係數解釋了更多的訊息.

一條直線 y=a+bx, 含有兩個常數分別說明如下,

截距
intercept a, 此直線在原點處的高度
斜率
slope b, 當 x 增加一個單位時, y 的增加量

在估計線中這兩個常數也隱含了重要的資訊, 此線是利用 最小平方法 (method of least squares) 所求得的最佳直線, 表示保證所有的資料到此線的距離和為最小, 方法將留待後述.

最小平方法的原理
最小平方法的原理是決定未知參數的值使得總差異為最小. 總差異 D 的定義如下,
         $D=\sum (\mbox{觀察的反應值}-\mbox{預測的反應值})^2$
其中預測的反應值含模式的未知參數. 由此所決定的參數值稱為最小平方估計值 (least squares estimates).