統計學(二) 筆記 - 第十五章 複迴歸(Multiple Regression)

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二下統計學重點整理
並非所有人都適用,部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記,老師上課可能不太適用會忘記抄到

複迴歸模型 Multiple Regression Model

第十四章 簡單線性迴歸(Simple Linear Rejression)提到的獨立變數,就是這邊的自變數。
因為獨立變數是表示只有此變數可以在簡單迴歸方程式中,但可以有多個自變數在複迴歸方程式中

  • 功能
  • Model 公式
    • 複迴歸公式為 \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + … + \beta_p x_p + \mathcal{E} \)
      • 其中 \(\beta\) 為自變數的係數
      • \(p\) 表示總共的自變數數量
      • \(\mathcal{E} \) 為隨機變數誤差項
    • Expect 公式 \(E(y) = \beta+0 + \beta_1 x_1 + \beta_2 x_2 + … + \beta_p x_p \)
      • 其中 \(\beta\) 為自變數的係數
      • \(p\) 表示自變數數量
      • \(\mathcal{E} = 0 \),由於此自變數是期望值的誤差項,因此在計算期望值時並不需用到。
  • 估計複迴歸模型 Estimation Multiple Regression Equation
    • 由於我們不能確定期望值方程式中的 \(\beta_0 + \beta_1 x + \beta_2 x_2 + … + \beta_p x_p \),因此我們透過樣本資料與估計線性迴歸方程式得出 \(b_0, b_1, b_2, … , b_p\),再透過 \(b_0, b_1, b_2, … , b_p\) 去估計 \(\beta_0 , \beta_1 , \beta_2 , … , \beta_p \)
    • 其中我們的資料不可以有任意自變數 遺失,有遺失就必須刪除。

最小平方法 Least Squares Method

  • 使用最小平方法來推複迴歸公式
  • Least Squares Criterion 公式為 \(min \sum (y_i - \hat{y_i})^2\)
  • 由於我們有大量的的 \(b\) 要運算,且常會使用到矩陣運算,因此我們使用電腦進行運算
  • 因此主要重點為解讀資料,並非如何去計算複迴歸模型公式

舉例:程式設計師薪水調查,有 20 位程式設計師的資料,其中資料有 年資、程式能力、薪水,我們想要想確認年資是否與程式能力、年資有關係?

資料如下:

  • 訂出迴歸模型公式
    • \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \mathcal{E}\)
    • 其中 \(y = 薪水\),1000 美金為一單位
    • \(x_1 = 年資\)
    • \(x_2 = 程式能力\)
    • 每個自變數定義都必須寫出來
  • 透過程式進行運算,推出 \(b_0, b_1, b_2, R^2\)

  • 運算結果如下
    • 其中我們可以知道 常數 constant 3.17394
    • 經驗 \(x_1\) 的係數為 1.404
    • 程式能力 \(x_2\) 的係數為 0.251
    • 因此公式為 \(y = 3.174 + 1.404 x_1 + 0.251 x_2\),其中 y 則是 1000 美金為一單位
  • 解釋相關係數 Interpreting the Coefficients
    • 其中我們可以知道在其他數字不變,只有 \(b_i\) 改變的情況下,會給 y 帶來多少的改變
    • 舉例
      • 在其他係數不變,年資每增加一單位,薪水則增加 1.404 單位。
      • 在其他係數不變,程式設計能力增加一單位,薪水增加 0.251 單位。

複判定係數 Multiple Cofficient of Determination

  • 判定係數:用來表示此迴歸模型可以解釋百分之 \(r^2\)的資料
  • 複習 ANOVA 公式 \(\sum (y_i - \bar{y})^2 = \sum (\hat{y_i}- \bar{y})^2 + \sum (y_i - \hat{y_i})^2 \)
    • 其中 \(SST = \sum (y_i - \bar{y})^2\) 總平方和 total sum of squares
    • 其中 \(SSR = \sum (\hat{y_i}- \bar{y})^2\) 迴歸平方和
    • 其中 \(SSE = \sum (y_i - \hat{y_i})^2 \) 誤差平方和
  • 我們透過電腦計算時 ANOVA 表則會有 SST 與 SSR,圖表如下

  • 判定係數公式 \(r^2 = SSR / SST \)
    • 其中 SSR 迴歸平方和
    • SST 誤差平方和
    • 當 \(r^2\) 越大時則表示此迴歸方程式能夠解讀資料的能力越好
  • 調整複判定係數公式 Adjusted Multiple Coefficient of Determination
    • 其中在複迴歸判定係數中,只要我們增加更多的自變數進入複迴歸,那 SSE 必定會減少,SST 不變,SSR 就會增加,因此 R 平方係數一定會增加,因此我們解釋資料一定會更好
    • 即使假如此自變數與 y 沒有關聯,但多一個變數勢必可以對誤差降低帶來影響。
    • 雖然只要增加新的自變數就可以讓 \(r^2\) 越高,但是如果我們增加更多的自變數,則我們的自由度會將低,(自由度是取決於資料筆數 - 自變數與因變數),這樣我們在做顯著性測試、區間預測時則會因為自由度降低帶來負面效果。
    • 因此並不是追求增加變數就是好的 \(r^2\),因此我們就調整判定係公式來推估在複迴歸
    • 調整後複判定係數公式 \(R_a^2 = 1 - (1- r^2) \frac{n-1}{n-p-1}\)
      • 其中 \(r^2 \) 為未調整的判定係數
      • \(n\) 資料筆數
      • \(p\) 自變數與因變數的總和
    • 調整複判定係數公式 Adjusted Multiple Coefficient of Determination 資料來源為此連結 ppt 第 15 頁

舉例:根據先前程式設計師的舉例,請告訴我調整後判定係數的數值是多少

  • 答:\(R_a^2 = 1 - (1- 0.834179) \frac{20-1}{20-2-1} = 0.814671\)
  • 透過圖片進行解釋
    • 其中紅色線條就是我們的方程式,而其標示的米黃色亮面為 \(x_1, x_2\) 為任意數值情況下,所在的區域
    • 藍色線條為當 \(x_1, x_2 \) 為一固定值時,其位置在哪裡
    • 綠色圈圈則是我們預測的數值,透過紅色線條公式去計算後,所對應的點,且一定會在米黃色亮面上。
    • 紫色圈圈為實際的數值,紫色圈圈往下則有 \(\mathcal{E}\),那就是針對此點的誤差範圍。

複迴歸模型假設 Model Assumptions

定義 \(\mathcal{E} = y_i - \hat{y_i}\)

我們對於 \(\mathcal{E}\) 有以下假設

  • 我們假設 \(\mathcal{E}\) 是平均數為零的隨機變數
    • 因此我們可以表示 \(E(\mathcal{E}) = 0\)
    • 所以 \(y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + … + \beta_p x_p + \mathcal{E}\),才可以省略 \(\mathcal{E}\)
  • \(\mathcal{E}\) 的變異數定義為 \(\sigma^2\),因此迴歸線裡面的所有的自變數中的 \(\mathcal{E}\) 變異數為 都是 \(\sigma^2\)
  • \(\mathcal{E}\) 為獨立變數,每一個變數的 \(\mathcal{E}\) 都不同,互相獨立
  • \(\mathcal{E}\) 是常態分配的隨機變數

顯著性測試 Testing for Significance

  • 在簡單線性迴歸方程式中,使用 F 檢定與 T 檢定都可以
  • 在複迴歸方程式中,F 檢定與 T 檢定則有不同意義
    • F 檢定是檢定所有的自變數是否跟 y 有關係
    • T 檢定是檢定單一自變數是否跟 y 有關係

F test

  • 假設檢定
    • \(H_0: \beta_1 = \beta_2 = … = \beta_p = 0 \)
    • \(H_1: \) 上面公式不符合,表示並沒有全部自變數與 y 沒有關聯
  • F test Statisitic
    \(F = MSR / MSE \)
  • Rejection Rule
    • Reject \(H_0\) if \(p-value \leq \alpha \) or \(F \geq F_\alpha\)
    • 其中 \(F_a\) 為我們計算的 f 描述
    • 分子自由度為 \(p\),使用的自變數總數、分母自由度為 \(n-p-1\),資料總數 - 自變數 - 1

舉例:根據先前程式設計師的舉例,我們想確定這些自變數是否與 y 有關聯

  • 假設檢定
    • \(H_0: \beta_1 = \beta_2 = 0 \)
    • \(H_1: \) 上面公式不符合
  • \(\alpha \) 為 0.05
  • Rejection Rule
    • Reject \(H_0\) if \(p-value \leq 0.05 \) or \(F \geq F_{0.05} = 3.59\)
    • 其中 \(F_a\) 為我們計算的 f 描述
    • 分子自由度為 \(p = 2\),使用的自變數總數、分母自由度為 \(n-p-1 = 17\),資料總數 - 自變數 - 1,其中 1 是因變數
  • F test Statisitic
    \(F = MSR / MSE \)
  • 透過電腦計算 F 與 p-value,由於都是透過電腦計算,因此不需要使用 probability distribution app 計算

  • colclusion
    由於我們計算出來的 \(F = 42.76 \geq F_{0.05} = 3.59\),因此我們拒絕 \(H_0\),表示並沒有全部自變數與 y 沒有關聯,因此我們需要做 t 檢定去看哪個自變數與 y 沒有關聯。

T test

  • 假設檢定
    • \(H_0: \beta_i = 0 \)
    • \(H_1: \beta_i != 0\)
  • Test Statistic
    • 公式 \(t = \frac{b_i}{s_{b_i}}\)
  • Rejcetion Rule
    • Reject \(H_0\) if \(p-value \leq \alpha \) or \(t \leq -t_{a/2} \) or \(t \geq t_{a/2}\)
    • 其中 \(t_{a/2}\) 為 t 描述
    • 自由度為 \(n-p-1\),資料總數 - 自變數 - 1,其中 1 是因變數

舉例:根據先前程式設計師的舉例,我們想知道年資、程式能力是否與 y 有關聯

  • 假設檢定
    • \(H_0: \beta_i = 0 \)
    • \(H_1: \beta_i != 0\)
  • Test Statistic
    • 公式 \(t = \frac{b_i}{s_{b_i}}\)
  • \(\alpha \) 為 0.05
  • Rejcetion Rule
    • Reject \(H_0\) if \(p-value \leq \alpha = 0.05 \) or \(t \leq -t_{a/2} = 2.11\) or \(t \geq t_{a/2} = 2.11\)
    • 其中 \(t_{a/2}\) 為 t 描述
    • 自由度為 \(n-p-1 = 17\),資料總數 - 自變數 - 1,其中 1 是因變數
  • 透過電腦計算 T 與 p-value,由於都是透過電腦計算,因此不需要使用 probability distribution app 計算

  • 年資
    • Reject \(H_0\) if \(p-value = 0.00000 \leq \alpha = 0.05 \)
    • 拒絕 \(H_0\) 因此工作年資與薪資有關聯且正相關,因為迴歸方程式為 \(+ b_0\)
  • 程式能力
    • Reject \(H_0\) if \(p-value = 0.00478 \leq \alpha = 0.05 \)
    • 拒絕 \(H_0\) 因此程式能力與薪資有關聯且正相關,因為迴歸方程式為 \(+ b_1\)

Multicollinearity 共線性

  • 由於我們會有兩個以上的自變數,這時候我們沒有辦法保證自變數們沒有相關性,例如:有 A,B,C 三個自變數,其中 A,B 有大量相關性。
  • 比較寬鬆的方法是排列組合每一個自變數,兩個自變數為一組(定義 pair 自變數),只要 pair 自變數的相關係數大於 0.7 (\(|r| > 0.7\)),就必須將 pair 自變數中其中一個自變數做刪除。相關係數說明 by 大衛的筆記
  • 引發甚麼問題?
    • 由於我們只預測 y 值,如果兩個自變數\(x_1, x_2\) 相關係數高,舉例: \(y = 1 + 0.4 x_1 + 0.5 x_2 \),那在實際應用上 \(x_1, x_2\) 都會呈同向或反向變動,此時這樣就會對 y 造成失真的問題。
    • 假設 \(x_1, x_2\) 分別是月收入,年收入、\(y\) 為生活支出花費,如果月收入降低,年收入也會降低,那麼在實際資料上兩者會同時降低或增加,\(y\) 就會大量劇動,導致失真。
    • 資料來源 by wiki
  • 因此建議我們在跑回歸方程式時,先確定自變數(\(x\)) 是否有共線性問題,以避免我們回歸做太多次。

使用估計迴歸方程式來預測或預估 Using the Estimated Regression Equation for Estimation and Prediction

主要用途

  • 採用信心區間,給定 x 推出 y 的平均值為多少
  • 採用預測區間,給定 x 的值我們想知道在 x 的情況下 y 值(特定數值)為多少
  • 在使用預測區間時,其範圍會比信心區間來的更大
  • 複迴歸計算較為麻煩,因此全部都用軟體運算,因此就不講了QQ,如果不清楚上面名詞則可以透過簡單線性迴歸中的估計迴歸方程式來預測或預估,來了解這些知識。

我們可以看 第十四章 簡單線性迴歸(Simple Linear Rejression) - 使用估計迴歸方程式來預測或預估 Using the Estimated Regression Equation for Estimation and Prediction by 大衞的筆記 來知道信心區間、預測區間是甚麼,為甚麼預測區間會比信心區間來的大。

類別型變數在複迴歸下的應用 Categorical Independent Variables

在建立回歸模型時,有一些是類別型的變數,例如我們現在加入一個變數 \(x_2\),只要他是男生就是 1、女生就是 0。這種作法,我們稱之為 虛擬或表示變數 dummy or indicator variable

舉例:根據先前程式設計師的舉例

  • 因此我們現在的預估方程式改為 \(\hat{y} = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \mathcal{E}\)
    • 其中 \(\hat{y}\) 是薪水
    • \(x_1\) 是年資
    • \(x_2\) 是程式能力
    • \(x_3\) 是否有碩士學歷,0 表示沒有、1 表示有,此變數為 dummy or indicator variable
  • 計算出來的 ANOVA 表如下,其中在這次的回歸測試中,調整後 \(R^2\) 比沒有加入碩士學歷此變數的回歸模型調整後 \(R^2 \) 更好

  • 我們現在看 t test,針對每一個變數進行假設檢定
    • 可以發現 \(x_3\) 是否有碩士學歷與 y 並沒有關係。註: test score 為程式能力

複雜的類別變數 More Complex Categorical Variables

  • 在某些情況下,類別型變數會有超過 2 個以上的類別型變數,舉例:信用卡的銀行
  • 在這種情況,我們是增加自變數的變數量
    • 舉例:某一類別型變數有 3 個分類,分類的 level 為 A、B、C
    • 答:那我們則需要新增兩個自變數 \(x_1, x_2\),其中 \(A = (0,0),B = (1,0),C = (0,1)\),\((i,j)\) 分別是 \(x_1, x_2\)
  • 如果我們有更多的 level 要進行分類,那就需要更多的自變數表示,如果有 \(k-level\) 那我們的自變數就需要 \(k-1\)
    每一個 \(k-level\) 只能在一個 dummy variable 中表示 1,除了有一個 \(level\) 可以再全部的 dummy variable 表示零

殘差分析 Residual Analysis

羅吉斯迴歸 Logistic Regression

  • 有一些自變數是屬於類別變數,那我們要怎麼拿來回測呢?如果這個類別變數只有二元的關係時,可以將變數設定為 0、1。EX: 要不要來上課,\(不上課 = 0\)、\(上課 = 1\)
  • 如果 \(y\) 變數是類別型變數時,那麼我們的模型回歸方程式也會跟著改變,羅吉斯回歸方程式
  • 羅吉斯回歸方程式如下:(blog 的 bug mathjax 在次方項太長時,顯示效果並不好)

  • 因此我們在解釋羅吉斯回歸方程式,我們會這樣解釋 \(E(y) = \text{estimate of } P(y=1| x_1, x_2, …, x_p)\),在 \( x_1, x_2, …, x_p\) 都是特定值的情況下,那我們會做 \(y\) 的機率是多少?
    • 由於我們要預測類別型變數時,我們沒辦法接受 y 值為負,因為 y 也是類別型函數,因此變數只有 0、1,如果有負值或大於 1 就表示超出合理範圍內,舉例示意圖如下

  • 因此我們的預估羅吉斯回歸方程式如下:(blog 的 bug mathjax 在次方項太長時,顯示效果並不好)

    • 其中 \(b\) 是預估 \(\beta\)參數

舉例:西門公司想要發行型錄,型錄裡面都會附上 200 元的折扣卷,由於型錄成本過高,所以主管想透過顧客是否為使用折價卷來判定是否需要給此顧客型錄,因此西門管理部門想要透過回歸來判斷我們應該要給那些顧客型錄,這樣就能降低折扣卷成本,我們用來預測的自變數有西門聯名信用卡公司、顧客去年花費

  • 其中我們找了 100 份樣本
    • 50 份發給有西門聯名的信用卡客戶
    • 50 份則是發給沒有西門聯名信用卡的客戶
  • 我們會記錄以下資訊
    • 此顧客去年花多少錢在我們公司上
    • 此顧客是否使用西門聯名信用卡消費
    • 此顧客是否有使用型錄中的 200 元折扣卷
  • 其中我們將 \(x_1, x_2\) 分別為年花費、是否有聯名信用卡,\(y\) 則是我們要預測的是否有使用 200 元折扣卷,其中我們這邊擷取 10 筆資料,作為示意圖

  • 其中預估羅吉斯回歸方程式請看圖片,通常都透過電腦進行計算 (blog 的 bug mathjax 在次方項太長時,顯示效果並不好)

  • 因此我們可以進行推估
    • 消費 2000 元、沒有使用西門聯名信用卡,那使用折價卷的機率則是 0.1880 (blog 的 bug mathjax 在次方項太長時,顯示效果並不好)
    • 消費 2000 元、使用西門聯名信用卡,那使用折價卷的機率則是 0.4099 (blog 的 bug mathjax 在次方項太長時,顯示效果並不好)
    • 計算如下

  • 我們將資料彙成表,公司則是決定在 \(\hat{y} >= 0.4\) 的才進行發行
    • 因此如果有聯名信用卡,年花費必須大於等於 2000 來給予型錄
    • 因此如果沒有聯名信用卡,年花費必須大於等於 6000 來給予型錄

顯著性測試 Testing for Signifcance

在羅吉斯回歸中,我們也有的顯著性測試

整體的顯著性測試

  • Hypotheses
    • \(H_0: \beta_1 = \beta_2 = … = 0 \)
    • \(H_1:\) 不符合上面方程式
  • Test Statistics 使用 Statistic G,這邊我們暫時不對 G 做解釋,因為老師沒有教
  • Rejection Rule: Reject \(H_0\) if \(p-value \leq \alpha\)

單體顯著性測試

  • Hypotheses
    • \(H_0: \beta_1 = 0 \)
    • \(H_1:\) 不符合上面方程式
  • Test Statistics 使用 Statistic z,\(z = b_i / s_{b_i}\)
  • Rejection Rule: Reject \(H_0\) if \(p-value \leq \alpha\)

舉例:根據先前西門公司的舉例,我們想知道整體顯著性測試是否拒絕 \(H_0\),如果沒有,那我們要找出哪個自變數沒有拒絕 \(H_0\)

  • 可以看出整體的顯著性測試(G) 的 p-value = 0.001,因此全部都有符合
  • 可以看到截距、花費、是否有信用卡的顯著性測試(Z) 的 p-value 分別為 0.000、0.008、0.013,因此都有符合單體顯著性測試

勝算比 Odds Ration

  • 我們有時候會好奇,在 \(x_1, x_2 , … , x_p \) 都是固定的狀態下時,那我們能獲得 \(y\) 的機率是多少?這就是勝算比。注意:\(y=1\) 是我們期望的結果、\(y=0\) 則是我們不希望的結果。
    勝算公式: \(odds = \frac{P(1| x_1, x_2,…,x_p)}{P(0| x_1, x_2,…,x_p)} = \frac{P(1| x_1, x_2,…,x_p)}{1 - P(1| x_1, x_2,…,x_p)}\)
  • 那們如果我們想要比較兩種 \(x_1, x_2 , … , x_p \) 不一樣的狀態時分別定義 A、B,這時就是用到 Odds Rations 勝算比,我們是比較但 B 勝出一次時 A 會勝出幾次

舉例:根據先前西門公司的舉例,我們想要知道有用信用卡進行消費會比沒有用信用卡消費的人的勝算比

答案如下:

  • 版權聲明: 本部落格所有文章除有特別聲明外,均採用 Apache License 2.0 許可協議。轉載請註明出處!
  • © 2020-2024 John Doe
  • Powered by Hexo Theme Ayer
  • PV: UV: