統計學(二) 筆記 - 第十章 推論兩個平均數或是母體參數(Inference About Means and Proportions with Two Population)

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二下統計學重點整理
並非所有人都適用,部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記,老師上課可能不太適用會忘記抄到

此章有四個重點,分別為

  • 推論兩個不一樣的已知母體平均數 (Inference About the Difference Between Two Population Known Means)
  • 推論兩個不一樣的已知母體平均數 (Inference About the Difference Between Two Population Known Means)
  • 推論兩個不一樣的已知母體平均數樣本 (Inference About the Difference Between Two Population Means: Matched Sample)
  • 推論兩個不一樣的母體參數 (Inference About the Difference Between Two Population Proportions)
  • 可點擊右邊的 menu 選擇要看的重點

推論兩個不一樣的已知母體平均數 (Inference About the Difference Between Two Population Known Means)

估計兩個不一樣的已知母體平均數 (Estimating the Difference Between Two Population Means)

直接透過重點進行說明

  • 兩個不同母體的平均數分別為 \(\mu_1, \mu_2\)
  • 兩個平均數的差異就是 \(\mu_1 - \mu_2\)
  • 估計 \(\mu_1 - \mu_2\),我們先選擇隨機樣本 \(n_1\) 從母體 1,在選擇隨機樣本 \(n_2\) 從母體 2
  • 定義 \(\bar{x_1}\) 等於 sample1 mean,\(\bar{x_2}\) 等於 sample2 mean
  • 母體平均數的點估計差值就是 \(\bar{x_1} - \bar{x_2}\),此公式的計算方式將在下點介紹,名稱為 Sample Distritubion。
  • 不懂區間估計可看統計學(一) 筆記 - 第八章 區間估計(Interval Estimation)

抽樣分配公式 (Sample Distritubion)

  • 期望值 \(E(\bar{x_1} - \bar{x_2}) = \mu_1 - \mu_2\)
  • 標準差 \(\sigma_{\bar{x_1} - \bar{x_2}} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\)
    • \(\sigma_1, \sigma_2\) 分別是母體 1,2 的標準差
    • \(n_1, n_2\) 分別是母體 1,2 的抽樣大小
  • 區間估計 \(\bar{x_1} - \bar{x_2} \pm z_{a/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\)
    • \(1-a\) 則是信心水準

舉例: A 高爾夫球設備製造商開發出了新球桿可以將高爾夫球打得更遠,而同時 B 也開發了一個新球桿,A 公司 population size 120balls, population mean 275yards, standard error = 15yards, B 公司 population size 80balls,mean 258yards, standard error = 20yards,詢問在 95% 的信心水準之中,這兩家公司的平均擊球差異是多少

  • 定義 population1 為 A 公司,population2 為 B 公司,我們透過抽取樣本的方式(用點估計)來算出 \(\mu_1 - \mu_2\),但因為是樣本所以會有誤差的問題。
  • 因此先算出點估計量 \(\mu_1 - \mu_2 = \bar{x_1} - \bar{x_2} = 275-258 = 17\)
  • 再來我們帶抽樣分配公式,\(\bar{x_1} - \bar{x_2} \pm z_{a/2} \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} = 17 \pm 1.96 \sqrt{\frac{(15)^2}{120} + \frac{(20)^2}{80}} = 17 \pm 5.14\),也就是平均擊球差異會落在 11.86yards to 22.14yards.

假設檢定兩個不一樣的已知母體平均數 Hypothesis Tests About \(\mu_1 - \mu_2\)

先定義下左、右、雙尾的假設檢定,下方的 \(D_0\) 為數值

  • 左尾
    • \(H_0: \mu_1 - \mu_2 \geq D_0\)
    • \(H_1: \mu_1 - \mu_2 < D_0\)
  • 右尾
    • \(H_0: \mu_1 - \mu_2 \leq D_0\)
    • \(H_1: \mu_1 - \mu_2 > D_0\)
  • 雙尾
    • \(H_0: \mu_1 - \mu_2 = D_0\)
    • \(H_1: \mu_1 - \mu_2 <> D_0\)
  • 而公式為 \(z = (\bar{x_1} - \bar{x_2})-D_0 / \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\),注意已知的檢定量要用 z,未知的才有 t。
  • 不懂假設統計可看統計學(二) 筆記 - 第九章 假說檢定(hypothesis testing)

舉例: A 高爾夫球設備製造商開發出了新球桿可以將高爾夫球打得更遠,而同時 B 也開發了一個新球桿,A 公司 population size 120balls, population mean 275yards, standard error = 15yards, B 公司 population size 80balls, population mean 258yards, standard error = 20yards,詢問在 1% 的顯著性測試下是不是 A 公司大於 B 公司。

  • 定義 population1 為 A 公司,population2 為 B 公司
  • 因此定義對立假設與虛無假設
    • \(H_0: \mu_1 - \mu_2 \leq 0\)
    • \(H_1: \mu_1 - \mu_2 > 0\)
  • 設定顯著性測試 0.01
  • 收集樣本,計算 z
    \(z = ((\bar{x_1} - \bar{x_2})-D_0) / \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} = ((235-218)-0) / \sqrt{\frac{(15^2)}{120} + \frac{(20)^2}{80}} = \frac{17}{2.62} = 6.49\)
  • 使用方法
    • p-Value Approach
      • \(z = 6.49, p = 0.000007\),\(1-p-value = 1 - 0.000007) = 0.999993\)
      • 因為 \(p-value = 0.000007 < \alpha = 0.01\),因此我們拒絕 \(H_0\)
      • 因此在百分之一的顯著性測試下,A 公司的球桿擊球距離大於 B
    • Critical Value Approach
      • \(a = 0.01, z_{0.01} = 2.33\),因此 Reject \(H_0\) if \(z \geq 2.33 \)
      • \(z = 6.49 \geq 2.33\),因此我們拒絕 \(H_0\)
      • 因此在百分之一的顯著性測試下,A 公司的球桿擊球距離大於 B

推論兩個不一樣的未知母體平均數 (Inference About the Difference Between Two Population unKnown Means)

區間估計來推估兩個不一樣的未知母體平均數

  • 區間估計的公式為
    \(\bar{x_1} - \bar{x_2} \pm t_{a/2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\),s 為樣本標準差,其中 t 為自由度,但遇到兩個母體樣本因此公式變得比較麻煩,其中 \(t_{a/2} = (\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2 / (\frac{1}{n_1-1}(\frac{s_1^2}{n_1})^2 + \frac{1}{n_2-1}(\frac{s_2^2}{n_2})^2) \)

舉例: A 公司生產出一種新車款想與 B 公司的最新車款就比較,在百分之 90 的信賴區間想要知道兩家平均油耗差異,其中 A 公司 sample size 24cars, sample mean 29.8mpg, sample stdandard 2.56mpg, B 公司為 sample size 28cars, sample mean 27.3mpg, sample stdandard 1.81mpg。

  • 定義 population1 為 A 公司,population2 為 B 公司
  • 因此先算出點估計量 \(\mu_1 - \mu_2 = \bar{x_1} - \bar{x_2} = 29.8-27.3 = 2.5\)
  • 設定顯著性測試 0.1,\(a/2=0.5\)
  • 計算 t \(t_{a/2} = (\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2 / (\frac{1}{n_1-1}(\frac{s_1^2}{n_1})^2 + \frac{1}{n_2-1}(\frac{s_2^2}{n_2})^2) \),帶入數字後就是 \((\frac{(2.56)^2}{24} + \frac{(1.81)^2}{28})^2 / (\frac{1}{24-1}(\frac{(2.56^2)}{24}^2) + \frac{1}{28-1} (\frac{(1.81)^2}{28})^2) = 40.585 \),大約等於 40,這裡通常會判斷 40 與 41 的 t 哪個比較大,為了符合百分之 90 的信賴區間,因此選擇偏差較大的 40,如果這裡選 41 那有可能會小於百分之 90 的信賴區間,保險起見用 40,\(t_{a/2} = 1.684\)
  • 帶入區間估計公式 \(\bar{x_1} - \bar{x_2} \pm t_{a/2} \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} = 29.8-27.3 \pm 1.684 \sqrt{\frac{(2.56)^2}{24} + \frac{(1.81)^2}{28}} = 2.5 \pm 1.052\),因此在百分之 90% 的信心水準之下,兩家平均油耗差異大約會在 1.448 to 3.552 mpg。

假設檢定來推估兩個不一樣的未知母體平均數

先定義下左、右、雙尾的假設檢定,下方的 \(D_0\) 為數值

  • 左尾
    • \(H_0: \mu_1 - \mu_2 \geq D_0\)
    • \(H_1: \mu_1 - \mu_2 < D_0\)
  • 右尾
    • \(H_0: \mu_1 - \mu_2 \leq D_0\)
    • \(H_1: \mu_1 - \mu_2 > D_0\)
  • 雙尾
    • \(H_0: \mu_1 - \mu_2 = D_0\)
    • \(H_1: \mu_1 - \mu_2 <> D_0\)
  • 而公式為 \(t = (\bar{x_1} - \bar{x_2})-D_0 / \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}\),注意已知的檢定量要用 z,未知的才有 t。

舉例: A 公司生產出一種新車款想與 B 公司的最新車款就比較,在 5% 的顯著性測試中,我們想知道 A 公司是不是平均油耗比 B 公司好,其中 A 公司 sample size 24cars, sample mean 29.8mpg, sample stdandard 2.56mpg, B 公司為 sample size 28cars, sample mean 27.3mpg, sample stdandard 1.81mpg。

  • 定義 population1 為 A 公司,population2 為 B 公司
  • 因此定義對立假設與虛無假設
    • \(H_0: \mu_1 - \mu_2 \leq 0\)
    • \(H_1: \mu_1 - \mu_2 > 0\)
  • 設定顯著性測試 0.05
  • 收集樣本,計算 t
    \(t = (\bar{x_1} - \bar{x_2})-D_0 / \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} = \frac{(29.8-27.3) -0}{\sqrt{\frac{(2.56)^2}{24} + \frac{(1.81)^2}{28}}} = 4.003\)
  • 使用方法
    • p-Value Approach
      • 先計算自由度
        計算 \(t_{a} = (\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2 / (\frac{1}{n_1-1}(\frac{s_1^2}{n_1})^2 + \frac{1}{n_2-1}(\frac{s_2^2}{n_2})^2) \),帶入數字後就是 \((\frac{(2.56)^2}{24} + \frac{(1.81)^2}{28})^2 / (\frac{1}{24-1}(\frac{(2.56^2)}{24}^2) + \frac{1}{28-1} (\frac{(1.81)^2}{28})^2) = 40.585 \),大約等於 40,這裡通常會判斷 40 與 41 的 t 哪個比較大,為了符合百分之 90 的信賴區間,因此選擇偏差較大的 40,如果這裡選 41 那有可能會小於百分之 90 的信賴區間,保險起見用 40,\(t_{a} = 1.684\)
      • \(t=4.003, p = 0.00013\),\(1-p-value = 1 - 0.00013 = 0.99987\)
      • \(p-value = 0.00013 < 0.05 = \alpha \),因此我們拒絕 \(H_0\)
      • 因此在百分之五的顯著性測試下,A 公司車款的平均油耗比 B 公司車款好
    • Critical Value Approach
      • \(a = 0.05, t_{0.05} = 1.684\),因此 Reject \(H_0\) if \(t \geq 1.684 \)
      • \(z = 4.003 \geq 1.684\),因此我們拒絕 \(H_0\)
      • 因此在百分之五的顯著性測試下,A 公司車款的平均油耗比 B 公司車款好

推論兩個不一樣的已知母體平均數樣本,配對樣本情況 (Inference About the Difference Between Two Population Means: Matched Sample)

定義配對樣本情況,相同的樣本但在兩次的測試中有不一樣的結果,通常是實驗前跟實驗後的對照。

由於這種樣本會比其前兩種方式的樣本差來的更小很多,因為並不是獨立關係,而是改變了甚麼。

這邊直接透過舉例來進行說明。

舉例:A 公司要將文件送至各地的子公司,她們有兩家快遞公司可以選擇,在百分之 95 的信心水準中,他們想知道這兩家快遞公司送到子公司的時間是不是不一樣?

樣本資料如下

  • 定義 UPX 為 A 公司,INTEX 為 B 公司
  • 因此定義對立假設與虛無假設
    • \(H_0: \mu_d = 0\)
    • \(H_1: \mu_d <> 0\)
    • \(\mu_d\) 為兩家公司的送的時間差別
  • 設定顯著性測試 0.05
  • 計算假設檢定的所有值,標準差、平均數、t
    • \(\bar{d} = \frac{\sum d_i}{n} = \frac{(7+6+…+5)}{10} = 2.7\)
    • \(s_d = \frac{\sum (d_i - \bar{d})^2}{n-1} = \sqrt{\frac{76.1}{9}} = 2.9\)
    • \(t = \frac{\bar{d} - \mu_d}{s_d / \sqrt{n}} = \frac{2.7-0}{2.9 / \sqrt{10}} = 2.94 \),\(\mu_d\) 則是 \(H_0\) 的狀態(通常是等於)。
  • 使用方法
    • p-Value Approach
      • 先計算自由度
        \(t=2.94, df =9\),df = 自由度,雙尾的機率則是落在 0.01649
      • \(p = 0.01649\),\(1-p-value = 1 - 0.01649 = 0.98351\)
      • \(p-value = 0.01649 < 0.05 = \alpha \),因此我們拒絕 \(H_0\)
      • 在百分之 95% 的信心水準中,我們可以知道這兩家送文件到子公司時有時間差。
    • Critical Value Approach
      • \(a = 0.05, t_{0.025} = 2.262\),因此 Reject \(H_0\) if \(t \geq 2.262 \)
      • \(t=2.94 \geq 2.262\),因此 Reject \(H_0\)
      • 在百分之 95% 的信心水準中,我們可以知道這兩家送文件到子公司時有時間差。

當兩個母體平均數的變異數相同時

  • 此時我們的 t 檢定可以優化成 \(t = (\bar{x_1} - \bar{x_2}) / (s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} ) \)
  • 而其中的 \(s_p\) 可以優化為 \(s_p = \sqrt{\frac{(n_1-1) s_1^2 + (n_2-1) s_2^2}{n_1 + n_2 -2}}\)

推論兩個不一樣的母體參數 (Inference About the Difference Between Two Population Proportions)

先來定義一些必要資訊

  • 區間估計 \(p_1 - p_2\)
  • 假設檢定則是 \(p_1 - p_2\)
  • Expected Value
    \(E(\bar{p_1} - \bar{p_2}) = p_1 - p_2\)
  • Standard Deviation(Standard Error)
    \(\sigma_{p_1 - p_2} = \sqrt{\frac{p_1 ( 1- p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}\)
    • \(n_1\) 母體 A 的樣本大小
    • \(n_2\) 母體 B 的樣本大小
  • 必須要符合此四條件,才能夠用常態分配推論兩個不一樣的母體參數
    • \(n_1 p_1 \geq 5\) and \(n_1(1-p_1) \geq 5\)
    • \(n_2 p_2 \geq 5\) and \(n_2(1-p_2) \geq 5\)
  • \(z = \frac{\bar{p_1} - \bar{p_2}}{\sigma_{\bar{p_1} - \bar{p_2}}}\)

用圖片來表示的畫如下

因此我們就可以推出區間估計公式為 \(\bar{p_1} - \bar{p_2} \pm z_{a/2} \sqrt{\frac{\bar{p_1} ( 1- \bar{p_1)}}{n_1}+\frac{\bar{p_2}(1-\bar{p_2})}{n_2}} \)

舉例:行銷協會想要評估這次的行銷活動有沒有效,先進行市話調查,想知道有多少人知道這個商品,分為前測與後測,前測是在還沒開始此行銷活動,後測則是開始;前測得知在 150 人中有 60 位知道此商品,後測則是 250 人中有 120 人知道此商品,我們想知道這些資料能否證明此行銷活動前後有多少人知道的差異

  • 先來定義參數
    • \(p_1\) 為後測後,知道商品的數量
    • \(p_2\) 為前測後,知道商品的數量
    • \(\bar{p_1}\) 為後測的樣本參數
    • \(\bar{p_2}\) 為前測的樣本參數
  • 所以 \(p_1 - p_2 = \frac{120}{250} - \frac{60}{150} = 0.48-0.40=0.08\)
  • 區間估計
    • 顯著性測試 0.05
    • 因此 \(z_{0.025} = 1.96\)
    • \(0.48 - 0.40 \pm 1.96 \sqrt{\frac{0.48(0.52)}{250} + \frac{0.40(0.60)}{150}} = 0.08 \pm 1.96(0.510) = 0.08 \pm 0.10\)
    • 因此在百分之 95% 的信心,在宣傳前與宣傳後的差異會落在 0 to 0.18

假設檢定 Hypothesis Tests about \(p_1 - p_2\)

先定義下左、右、雙尾的假設檢定

  • 左尾
    • \(H_0: p_1 - p_2 \geq D_0\)
    • \(H_1: p_1 - p_2 < D_0\)
  • 右尾
    • \(H_0: p_1 - p_2 \leq D_0\)
    • \(H_1: p_1 - p_2 > D_0\)
  • 雙尾
    • \(H_0: p_1 - p_2 = D_0\)
    • \(H_1: p_1 - p_2 <> D_0\)

再來定義假設檢定中需要的標準差、點估計、z 值

  • 標準差 \(\bar{p_1} - \bar{p_2}\) 當 \(p_1 = p_2 = p\)
    公式為 \(\sigma_{\bar{p_1} - \bar{p_2}} = \sqrt{p(1-p) (\frac{1}{n_1}+\frac{1}{n_2})}\)
  • 混和估計量 pooled Estimator 當 \(p_1 = p_2 = p\),為兩個樣本混合的點估計量,能夠更方便的計算
    公式為 \(\bar{p} = \frac{n_1 \bar{p_1} + n_2 \bar{p_2}}{n_1 + n_2}\)
  • 假設檢定中的 z 值則是 \(z=\frac{(\bar{p_1} - \bar{p_2})}{\sqrt{p(1-p) (\frac{1}{n_1}+\frac{1}{n_2})}}\)

舉例:行銷協會想要評估這次的行銷活動有沒有效,先進行市話調查,想知道有多少人知道這個商品,分為前測與後測,前測是在還沒開始此行銷活動,後測則是開始;前測得知在 150 人中有 60 位知道此商品,後測則是 250 人中有 120 人知道此商品,再百分之 95 的信心水準中,我們想知道這些資料能否證明此行銷活動可以提高商品知名度

此舉例是將 \(p_1\) and \(p_2\) 混和

  • 定義 \(p_1\) 是後測,定義 \(p_2\) 是前測
  • 因此定義對立假設與虛無假設
    • \(H_0: p_1 - p_2 \leq 0\)
    • \(H_1: p_1 - p_2 > 0\)
  • 設定顯著性測試 0.05
  • 計算 z 檢定
    • \(\bar{p} = \frac{250(0.48) + 150(0.40)}{250+150} = \frac{180}{400} = 0.45\)
    • \(\sigma_{\bar{p_1} - \bar{p_2}} = \sqrt{p(1-p) (\frac{1}{n_1}+\frac{1}{n_2})} = \sqrt{0.45(0.55)(\frac{1}{250}+\frac{1}{150})} = 0.514\)
    • \(z=\frac{(\bar{p_1} - \bar{p_2})}{\sqrt{p(1-p) (\frac{1}{n_1}+\frac{1}{n_2})}} = \frac{(0.48-0.40)-0}{0.0514} = \frac{0.08}{0.0514} = 1.56\),其中的 \(\frac{(0.48-0.40)-0}{0.0514}\),為甚麼要減零是指前面 \(H_0: p_1 - p_2 \leq 0\) 的意思
    • 要特別注意,母體參數不需要用 t 檢定,前面有提到必須符合四條件(其中兩個是\(n_1 p_1 \geq 5\) and \(n_1(1-p_1) \geq 5\))就可以用常態分配
  • 使用方法
    • p-Value Approach
      • \(z=1.56, p-value=0.0594\)
      • \(p-value > a = 0.05\),因此我們不拒絕 \(H_0\)
      • 因此我們不能肯定在此行銷活動後,我們的商品知名度會提高
    • Critical Value Approach
      • \(a=0.05, z_{0.05} = 1.645\),因此 Reject \(H_0\) if \(t \geq 1.645\)
      • \(1.56 < 1.645\),因此我們不拒絕 \(H_0\)
      • 因此我們不能肯定在此行銷活動後,我們的商品知名度會提高

參考連結

  • 版權聲明: 本部落格所有文章除有特別聲明外,均採用 Apache License 2.0 許可協議。轉載請註明出處!
  • © 2020-2024 John Doe
  • Powered by Hexo Theme Ayer
  • PV: UV: