統計學(二) 筆記 - 第十四章 簡單線性迴歸(Simple Linear Regression)

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二下統計學重點整理
並非所有人都適用,部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記,老師上課可能不太適用會忘記抄到

簡單線性迴歸 Simple Linear Regression Model

  • 功能
    • 了解變數與變數的關聯性
    • 透過獨立變數(independent variable)去預測因變數(dependent variable),定義 y
    • 透過 x 去預測 y
  • 說明
    • 簡單線性迴歸只有一個獨立變數去預測因變數
    • 因此關聯圖應該是一條直線
    • 如果需要多個獨立變數去預測因變數則使用複迴歸(multiple regression)
  • 公式
    • 簡單線性迴歸模型(model) \(y = \beta_0 + \beta_1 x + \mathcal{E} \)
      • \(\beta_0\) and \(\beta_1\) 是模型的參數
      • \(\mathcal{E}\) 則是隨機變數的誤差項(error term)
    • 期望值的 y \(E(y) = \beta_0 + \beta_1 x\),在此 \(\mathcal{E} = 0\)
      • \(\beta_0 \) 為迴歸線的截距
      • \(\beta_1 \) 為迴歸線的斜率
      • \(E(y)\) 是當 x 為多少時 y 的期望值
      • 正相關示意圖

      • 負相關示意圖

      • 無相關示意圖

    • 估計(estimated) 線性迴歸 \(\hat{y} = b_0 + b_1 x\)
      • \(b_0 \) 為迴歸線的截距
      • \(b_1 \) 為迴歸線的斜率
      • \(\hat{y}\) 是當 x 為多少時 y 的期望值
  • 估計程序 Estimation Process
    • 由於我們不能確定期望值方程式中的 \(\beta_0 + \beta_1 x\),因此我們透過樣本資料與估計線性迴歸方程式得出 \(b_0, b_1\),再透過 \(b_0, b_1\) 去估計 \(\beta_0 , \beta_1 x\)

最小平方法 Least Squares Method

最小平方法用於判斷模型的誤差方式

  • 公式 Least Squares Criterion
    • 標準公式 \(min \sum (y_i - \hat{y_i})^2\)
    • \(y_i\) 實際的因變數
    • \(\hat{y_i}\) 推估的因變數
  • 估計迴歸方程式斜率 Slope for the Estimated Regression Equation
    • 公式 \(b_1 = \frac{\sum (x_i - \bar{x}) (y_i - \bar{y})}{\sum (x_i - \bar{x})^2 }\)
    • \(x_i\) 獨立變數的數值
    • \(y_i\) 因變數的數值
    • \(\bar{x}\) 獨立變數的平均值
    • \(\bar{y}\) 因變數的平均值
  • y 截距 for 估計迴歸方程式斜率為 \(b_0 = \bar{y} - b_{1}\bar{x}\)

舉例:車車銷售商,有一個禮拜的促銷方案,會在電視上投放廣告,這裡則有前 5 次的銷售資料

資料如下

作答

判定係數 Cofficient of Determination

  • 複習 ANOVA 公式 \(\sum (y_i - \bar{y})^2 = \sum (\hat{y_i}- \bar{y})^2 + \sum (y_i - \hat{y_i})^2 \)
    • 其中 \(SST = \sum (y_i - \bar{y})^2\) 總平方和 total sum of squares
    • 其中 \(SSR = \sum (\hat{y_i}- \bar{y})^2\) 迴歸平方和
    • 其中 \(SSE = \sum (y_i - \hat{y_i})^2 \) 誤差平方和
  • 透過圖表來進行描述,如果以單點來看,則紅色部分為 SSR,藍色部分為 SSE,而中間綠色的點則是 SST

  • 判定係數公式 \(r^2 = SSR / SST \)
    • 其中 SSR 迴歸平方和
    • SST 誤差平方和
    • 當 \(r^2\) 越大時則表示此迴歸方程式能夠解讀資料的能力越好

舉例:根據車車銷售商那題,求他的判定係數多少

\(r^2 = SSR / SST = 100 / 114 = 0.8772\)
因此我們可以知道此迴歸方程式可以很好的解釋這筆資料,有 87.72% 可以透過此方程式解讀電視廣告與汽車銷售數量。

樣本相關係數 Sample Correlation Coefficient

  • 如果相關係數為 1 表示正相關,如果是 -1 則是負相關
  • 定義 \(r_{xy}\) 為 x,y 變數相關係數
  • \(r_{xy} = (\text{sign of} b_1) \sqrt{\text{Coefficient of Determination}}\)
  • \(r_{xy} = (\text{sign of} b_1) \sqrt{r^2}\)
  • \(b_1\) 則是迴歸估計方程式的斜率 \(\hat{y} = b_0 + b_1 x\)

舉例:根據車車銷售商那題,我們想知道電視廣告與銷售車車的相關係數

  • \(r_{xy} = (\text{sign of} b_1) \sqrt{r^2}\)
  • 迴歸估計方程式為 \(\hat{y} = 10 + 5x \),由於是 ‘+’ 號因此一定是正相關
  • \(r_{xy} = + \sqrt{0.8772}\)
  • \(r_{xy} = + 0.9366\)

假設模型下的誤差項 Model Assumptions About the Error Term \(\mathcal{E}\)

定義 \(\mathcal{E} = y_i - \hat{y_i}\)

我們對於 \(\mathcal{E}\) 有以下假設

  • 我們假設 \(\mathcal{E}\) 是平均數為零的隨機變數
    • 因此我們可以表示 \(E(\mathcal{E}) = 0\)
    • 所以 \(y = \beta_0 + \beta_1 x + \mathcal{E}\),才可以省略 \(\mathcal{E}\)
  • \(\mathcal{E}\) 的變異數定義為 \(\sigma^2\),因此迴歸線裡面的所有的獨立變數中的 \(\mathcal{E}\) 變異數為 都是 \(\sigma^2\)
  • \(\mathcal{E}\) 為獨立變數,每一個變數的 \(\mathcal{E}\) 都不同,互相獨立
  • \(\mathcal{E}\) 是常態分配的隨機變數

圖表解釋如下

其中我們可以看到當 \(x=0\) 後,綠線(我們的期望線性迴歸模型)一路 x 遞增。
此時再 \(x=10\),我們可以看到藍點的部分為綠線與紅線(實際情況的 y 因變數)的交接處,理論上我們期望線性迴歸模型是預估此點
而 \(\mathcal{E}\) 就是偏離藍點,並只出現在\(x=10\)紅線中的某一點,因此 \(y = \beta_0 + \beta_1 x + \mathcal{E}\),才會是使用 ‘+’ 號
其中 \(x=10\) 也可以改成 20,30

顯著性測試 Testing for Significance

  • 顯著性測試檢定 \(\beta_1\) 是否為零,來檢測獨立變數與因變數是否有關聯
    主要透過簡單迴歸分析公式 \(y = \beta_0 + \beta_1 x + \mathcal{E} \),當 \(\beta_1\) 為 0 時,我們可以得知那 x 跟 y 並沒有關係
  • 主要是使用 t 檢定 or f 檢定來假設測試顯著性測試
  • t 檢定與 f 檢定變異數則是 \(\sigma^2\),也就是 \(\mathcal{E} \)
  • 估計變異數 \(\sigma^2\)
    • 公式 \(s^2 = MSE = SSE / (n-2)\)
    • 其中 \(SSE = \sum (y_i - \hat{y_i})^2 = \sum (y_i - b_0 - b_1 x_i)^2 \)
    • 因此估計標準差就為 \(s = \sqrt{MSE} = \sqrt{\frac{SSE}{n-2}}\)

t 檢定 t Test

  • 假設檢定
    • \(H_0: \beta_1 = 0 \)
    • \(H_1: \beta_1 != 0\)
  • Test Statistic
    • 公式 \(t = \frac{b_1}{s_{b_1}}\)
    • 其中 \(s_{b_1} = \frac{s}{\sqrt{\sum (x_i - \bar{x})^2}}\)
  • Rejcetion Rule
    • Reject \(H_0\) if \(p-value \leq \alpha \) or \(t \leq -t_{a/2} \) or \(t \geq t_{a/2}\)
    • 其中 \(t_{a/2}\) 為 t 描述
    • \(n-2\) 為自由度,主要是因為減掉獨立變數與因變數

舉例:根據車車銷售商那題,我們想知道投放電視廣告與銷售車輛是否有關聯

資料如下

  • 假設檢定

    • \(H_0: \beta_1 = 0 \)
    • \(H_1: \beta_1 != 0\)
  • 顯著性水準為 \(\alpha = 0.05\)

  • Rejcetion Rule

    • Reject \(H_0\) if \(p-value \leq \alpha \) or \( |t| \geq t_{a/2} = 3.182\),注意 \(a / 2 = 0.05\)
    • 其中 \(t_{a/2}\) 為 t 描述
    • \(n-2\) 為自由度,主要是因為減掉獨立變數與因變數
    • 使用 probability distribution app 計算

  • Test Statistic
    公式 \(t = \frac{b_1}{s_{b_1}} = \frac{5}{1.08} = 4.63\),老師已經把 \(s_{b_1}\) 已經做完。

  • 確認並拒絕 \(H_0\)
    if \(p-value=0.01 \leq \alpha=0.05 \) or \( 4.63=|t| \geq t_{a/2} = 3.182\),因此拒絕 \(H_0\),我們可以確認電視廣告與汽車銷售數量是有關聯的。

對 \(\beta_1\) 做信賴區間

  • 我們可以透過百分之 95 的信賴區間對 \(\beta_1\) 做假設檢定,如果要 reject \(H_0\),那 \(\beta_1\) 就不能在信賴區間內。
  • 信賴區間公式
    • 公式為 \(\beta+1 \pm t_{a/2} s_{b_1}\)
    • 其中 \(t_{a/2}\) 為 t 描述
    • \(n-2\) 為自由度,主要是因為減掉獨立變數與因變數
  • Reject Rule
    reject \(H_0\),那 \(\beta_1\) 就不能在信賴區間內。

舉例:延續根據車車銷售商那題,請使用信賴區間做假設檢定

  • 百分之 95 的信賴區間計算
    \(\beta_1 \pm t_{a/2} s_{b_1} = 5 \pm 3.182(1.08) = 5 \pm 3.44 \)
  • 結論
    0 並沒有在 \(5 \pm 3.44\),因此拒絕 \(H_0\),我們可以確認電視廣告與汽車銷售數量是有關聯的。

F 檢定

  • 假設檢定
    • \(H_0: \beta_1 = 0 \)
    • \(H_1: \beta_1 != 0\)
  • F test Statisitic
    \(F = MSR / MSE \)
  • Rejection Rule
    • Reject \(H_0\) if \(p-value \leq \alpha \) or \(F \geq F_\alpha\)
    • 其中 \(F_a\) 為我們計算的 f 描述
    • 分子自由度為 1、分母自由度為 \(n-2\)
    • \(n-2\) 為自由度,主要是因為減掉獨立變數與因變數

舉例:延續根據車車銷售商那題,請使用 F檢定做假設檢定

  • 假設檢定
    • \(H_0: \beta_1 = 0 \)
    • \(H_1: \beta_1 != 0\)
  • 顯著性測試 \(\alpha = 0.05\)
  • Rejection rule
    • Reject \(H_0\) if \(p-value \leq 0.05 \) or \(F \geq 10.13\),分子自由度為 1、分母自由度為 3
    • 使用 probability distribution app 計算

  • F test Statisitic
    \(F = MSR / MSE = 100 / 4.667 = 21.43 \)
  • Conclusion
    • Reject \(H_0\) if \(0.019 \leq \alpha \) or \(21.43 =F \geq F_\alpha = 10.13\),都有符合;因此拒絕 \(H_0\),我們可以確認電視廣告與汽車銷售數量是有關聯的。

顯著性水準的重要解釋 Some Cautions about the Interpreatation of Significance Tests

我們上面有進行假設檢定,如果成功 Reject \(H_0\),我們必須注意我們並不能說 x 與 y 有因果關係,只能說有統計關係,因為我們不能夠確定這件事情的變數就只有這兩個。
也許其實這件事情應該要有 3 個變數,但我們的簡單迴歸模型則只有用 2 個變數,也許這兩個變數都是因變數,而那個沒有用的才是獨立變數。

我們在做好假設檢定的顯著性水準後,我們必須說我們是針對模型的最小 x 值 to 最大 x 值去做假設檢定,因為我們沒有辦法肯定超出此範圍的 x,y 關係是如何;舉例:Largest x value 右邊之後就跟先前的線條不同,也就表示 Largest x value 右邊後的 y 會因為 x 而快速成長。

使用估計迴歸方程式來預測或預估 Using the Estimated Regression Equation for Estimation and Prediction

主要用途

  • 採用信心區間,給定 x 推出 y 的平均值為多少
  • 採用預測區間,給定 x 的值我們想知道在 x 的情況下 y 值(特定數值)為多少
  • 在使用預測區間時,其範圍會比信心區間來的更大

區間估計公式

通常回歸方程式做完後預測出來的值不一定完全準確,因為我們的回歸預測方程式是 \(y = \beta_0 + \beta_1 x \),我們忽略是 \(\mathcal{E} \),因此我們要預估 \( \mathcal{E} \) 因此才需要此估計公式進行計算

  • 信心區間估計 Confidence Interval Estimate of \(E(y^*) \)
    • \(\hat{y}^* \pm t_{a/2} s_{\hat{y}^*} \)
    • 其中信賴係數為 \(1-\alpha\),自由度為 \(n-2\),其中 2 為獨立變數與因變數的總和
    • \(s = \sqrt{MSE} = SSE / (n-2) \)
    • \(s_{\hat{y}^*} = s \sqrt{\frac{1}{n} + \frac{( x^* - \bar{x} )^2}{\sum (x_i - \bar{x})^2}}\)
  • 預測區間估計 Prediction Interval Estimate of \(y*\)
    • \(\hat{y}^* \pm t_{a/2} s_{\text{pred}}\)
    • 其中信賴係數為 \(1-\alpha\),自由度為 \(n-2\)
    • \(s = \sqrt{MSE} \)
    • \(s_{\text{pred}} = s \sqrt{1 + \frac{1}{n} + \frac{( x^* - \bar{x} )^2}{\sum (x_i - \bar{x})^2}} \)
  • 圖片說明信心區間、預估區間
    • 我們可以看到中間的信賴區間與預估區間最小,則是因為當 \(x^* = \bar{x}\),那項會變成零,因此中間的範圍就變小
    • 我們可以看到預估區間的範圍比信賴區間大則是因為預估區間在 \(s_{\text{pred}} \) 多了一個 1

舉例:延續根據車車銷售商那題,再有 3 個電視廣告的情況下,我們透過信賴區間、預測區間可以得知平均汽車銷售數量為?

  • \(\hat{y} = 10 + 5(3) = 25\) cars,通過前面的資料可以推出
  • \(E(y^*) \) 的信賴區間
    • \(E(y^*) \) 估計的標準差
      • \(s = \sqrt{MSE} = \sqrt{4.667}\)
      • \(s_{\hat{y}^*} = s \sqrt{\frac{1}{n} + \frac{( x^* - \bar{x} )^2}{\sum (x_i - \bar{x})^2}}\)
      • \(s_{\hat{y}^*} = 2.16025 \sqrt{\frac{1}{5} + \frac{(3-2)^2}{(1-2)^2+(3-2)^2+(2-2)^2+(1-2)^2+(3-2)^2}}\)
      • \(s_{\hat{y}^*} = 2.16025 \sqrt{\frac{1}{5} + \sqrt{1}{4}} = 1.4491\)
    • 因此根據信心區間估計 \(\hat{y}^* \pm t_{a/2} s_{\hat{y}^*} \)
      \(25 \pm 3.1824(1.4491) = 25 \pm 4.61\),因此我們預估 3 個電視廣告,銷售汽車數量大約在 20.39 to 29.61
  • \(y^* \) 的預估區間
    • \(y^* \) 估計的標準差
      • \(s_{\text{pred}} = s \sqrt{1 + \frac{1}{n} + \frac{( x^* - \bar{x} )^2}{\sum (x_i - \bar{x})^2}} \)
      • \(s_{\text{pred}} = 2.16025 \sqrt{1 + \frac{1}{5} + \frac{1}{4}}\)
      • \(s_{\text{pred}} = 2.16025(1.20416) = 2.6013\)
    • 因此根據預測區間估計 \(\hat{y}^* \pm t_{a/2} s_{\text{pred}}\)
      • \(25 \pm 3.1824(2.6013) = 25 \pm 8.28\),因此我們預估 3 個電視廣告,銷售汽車數量大約在 16.72 to 33.28

使用電腦計算 Computer Solution

根據上面文章我們可以知道如果使用手工去推估迴歸分析時非常麻煩,因此我們這邊則是使用電腦軟體來計算迴測。

下面我們則是延續根據車車銷售商那題,使用 minitab 與 excel 分析

  • Minitab,使用圖片進行說明,我目前也沒有操作過此軟體並不太熟,可以開兩個分頁來確認答案是否正確

  • Excel 進行迴歸分析
    • 操作方式 資料 > 資料分析 > 迴歸,對 x 輸入獨立變數、y 輸入因變數,檢查是否需要標記後按確定應該能產生此圖
    • 截距是 \(b_0\)
    • 我們可以用 #TV Ads(x) 對 x,y 是否有相關進行假設檢定,其中我們可以知道 1.5626 to 8.4374 並無包含 0,因此 reject \(H_0\)
    • 圖片說明

殘差分析: 合法模型假設 Residual Analysis: Validating Model Assumptions

  • 我們之前在假設模型下的誤差項 提到
    • 我們假設 \(\mathcal{E}\) 是平均數為零且常態分配的隨機變數
    • 因此我們可以表示 \(E(\mathcal{E}) = 0\)
    • 所以 \(y = \beta_0 + \beta_1 x + \mathcal{E}\),才可以省略 \(\mathcal{E}\)
    • \(\mathcal{E}\) 的變異數定義為 \(\sigma^2\),因此迴歸線裡面的所有的獨立變數都是 \(\sigma^2\)
      • 如果此假設成立,那理論上每個點的殘差應該都非常靠近此虛線

      • 如果假設不成立,那每點殘差應該會非常離散

      • 還有一種情況,是我們的線並不適合此模型,但理論上我們可以根據殘差畫出區間,那表示我們的獨立變數可能並不適用

    • \(\mathcal{E}\) 為獨立變數,每一個變數的 \(\mathcal{E}\) 都不同,互相獨立
    • \(\mathcal{E}\) 為常態分配
      • 殘差標準化公式為
        • \(\frac{y_i - \hat{y_i}}{s_{y_i - \hat{y_i}}}\)
        • 其中 \(s_{y_i - \hat{y_i}} = s \sqrt{1-h_i}\)
        • \( h_i = \frac{1}{n} + \frac{( x_i - \bar{x} )^2}{\sum (x_i - \bar{x})^2} \)
      • 只要殘差標準化公式為 -2 to 2 之間,那我們就認定 \(\mathcal{E}\) 是常態分配
  • 而我們這邊則是要對 \(\mathcal{E}\) 來判斷是否符合我們上面的假設
    • 符合則表示有適用
    • 不符合我們的假設表示此模型並不適用
  • 每一筆資料的殘差值公式為 \(y_i - \hat{y_i}\)

我們直接透過舉例來進行說明,一樣是車車銷售商

資料如下,其中 \(\hat{y}\) 就是 Predicted y、\(y_i\) 是 number of Cars Sold、\(y_i - \hat{y_i}\) Residuals

我們可以得知上面每一個 \(x_i\) 標準化殘差公式中都沒有數值超過 -2 or 2,因此我們可以認定 \(\mathcal{E}\) 是常態分配

Normal Probability Plot

在標準差為 1,平均數為 0 的標準常態機率分配中,我們使用機率隨機抽取出 x,定義 order_x 為隨機抽取出 x 並由小到大排序,再來我們與資料中每一個 \(x_i\) 標準化殘差公式進行畫圖。

  • X 軸為 order_x
  • Y 軸為 資料中每一個 \(x_i\) 標準化殘差公式
  • 再來我們以 45 度畫一條線,如果每一個紅點都離 45 度線非常近那我們一樣可以認定 \(\mathcal{E}\) 是常態分配
  • 畫圖如下

殘差分析: 離群值與能透過一個點就使線圖改變的值 Residual Analysis: Outliers and Influential Observations

Normal Probability Plot 中,我們可以發現幾種情況

  • Outier,其中有一個紅點離其他資料過遠

  • Influential Observations,只因為 Influential Observations value 就讓綠線圖原本應該跟隨藍線的圖,畫成了綠色

我們為了要避免這兩種狀況,我們則有一些方法

  • 將離群值大於 2 and 小於 2 刪除,但假如大量殘差都是 1.5 時,此種方法並不適用
  • 將殘差值的最大與最小前 5 % 刪除。

謝謝大家把他看完,我也打了好久QQQQQ,學習的心得總是覺得很麻煩,但又一定要做。
我認為沒有留下紀錄的人生就是沒有存在過。

  • 版權聲明: 本部落格所有文章除有特別聲明外,均採用 Apache License 2.0 許可協議。轉載請註明出處!
  • © 2020-2024 John Doe
  • Powered by Hexo Theme Ayer
  • PV: UV: