Linear Regression 線性迴歸
在上一節中介紹了相關係數 (correlation coefficient) 用來解釋 (x,y)的之間的關係, 現在要介紹的是一個重要的統計方法, 由另一個容易得到的變數資料, 經由統計分析, 預測我們有興趣但卻不易得到的變數資料, 其中原因可能是數據取得不易, 耗時或不符成本, 收集數據有困難等.
利用 線性迴歸 (linear regression) 的方法, 將 (x,y)的關係式表示出來, 以 x 為變數 (predictor or input variable), y為反應變數 (response or output variable), 可以看成假設由x已知的角度來預測未知的y所產生的結果, 最後以一線性估計線 (linear predictor) 來說明 (x,y) 的關係, 相關係數只說明了 (x,y)具有一直線關係, 這條估計線比相關係數解釋了更多的訊息.
一條直線 y=a+bx, 含有兩個常數分別說明如下,
在估計線中這兩個常數也隱含了重要的資訊, 此線是利用 最小平方法 (method of least squares) 所求得的最佳直線, 表示保證所有的資料到此線的距離和為最小, 方法將留待後述.