統計學(二) 筆記 - 第十二章 比較多種比例,適合性檢定與適宜性檢定(Comparing Multiple Proportions, Test of Independence and Goodness Fit)

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二下統計學重點整理
並非所有人都適用,部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記,老師上課可能不太適用會忘記抄到

前言

此章節都必須使用假設檢定,因此如果不熟假設檢定可以先看 北科大二下統計學筆記 by 大衛的筆記

建議複習完後,再來看此章節。

全部的資料都是使用卡方分配,且全部的資料都是使用類別型的資料

測試是否母體相等 Testing the Equality of Population Proportions

  • 定義名詞
    • \(p_1\) 母體 1 的母體比例
    • \(p_2\) 母體 2 的母體比例
    • \(p_3\) 母體 3 的母體比例
    • \(k \geq 3\),至少要有三種母體
    • \(H_0 = p_1 = p_2 = p_3\) 全部母體都一樣
    • \(H_1\) 其中有一個或多個母體比例不一樣
  • 結論
    • 如果 拒絕 \(H_0\)表示,我們不能確認可能其中有一個或多個母體比例不同
    • 如果 拒絕 \(H_0\)表示,我們可以確認其中一定有一個或多個母體比例不同,之後還可以用更多分析來得知是哪個母體比例與其他不同

公式

  • 期望公式是 \(e_{ij} = \frac{\text{(Row i Total)} \text{(Column j Total)} }{\text{Total Sample Size}}\)
  • 卡方分配敘述統計 chi-square test statistic
    • 公式 \(x^2 = \sum_i \sum_j \frac{(f_{ij} - e_{ij})^2}{e_{ij}}\)
    • \(f_{ij}\) 我們實際資料所計算出來的機率
    • \(e_{ij}\) 我們透過預期公式計算出來的機率
    • 注意:卡方分配的自由度必須是 \(k-1\),k 等於分類的母體,每一個欄位值(cell)都必須要大於 5
  • 拒絕法則 Rejection Rule
    • p-value 方法 Reject \(H_0 \) if \(p-value \leq \alpha\)
    • Critical Value approach Reject \(H_0\) if \(x^2 \geq x_{\alpha}^2\)
    • 其中自由度 \(k-1\)

舉例:建商有三種類型的房子,為了規劃生產線,因此建商想要了解顧客對於這三種類型的房子的滿意度如何,然後比較是否這些房子滿意度都相同

  • 定義名詞
    • \(p_1\) 第一種房子的母體比例
    • \(p_2\) 第二種房子的母體比例
    • \(p_3\) 第三種房子的母體比例
  • 現在我們進行抽樣,每一個樣本包含分類資料,表示消費者會不會再購買他們之前所買的房子類型
  • 資料如下,其中 Colonial 是第一種、log 是第二種、A-frame 是第三類

  • 我們想知道,這三種房屋回購率比例是不是一樣
  • 進行假設測試
    • 我們現在定義 \(H_0\) 就是全部母體比例相同,因此期望公式是 \(e_{ij} = \frac{\text{(Row i Total)} \text{(Column j Total)} }{\text{Total Sample Size}}\),記住,這是預期符合比例計算出來的值
    • 如果我們計算出來的假設檢定值小於顯著型測試就 reject \(H_0\)
    • 其中計算完如下,裡面的 97.50 則是透過 \((260)(135)/360 = 97.50\),以此類推

    • 直接透過表格告訴你卡方敘述測試統計

  • 拒絕法則 Rejection Rule
    • p-value
      • p-value 方法 Reject \(H_0 \) if \(p-value \leq \alpha\)
      • Critical Value approach Reject \(H_0\) if \(x^2 \geq x_{\alpha}^2\)
      • 其中自由度 \(k-1\),k 等於分類的母體
      • 圖表資料如下

      • 我們計算出來的卡方分配,透過 probability Distrubution app 計算如下,機率為 0.98690

      • 因此 \(p-value = 1- 0.98690 = 0.0131 \leq 0.05 = \alpha\),所以拒絕 \(H_0\)
      • 所以這三種比例不完全相同
    • cirtical value
      • 由於 \(\alpha = 0.05 \) 的 \(x^2 = 5.991\),而我們計算出來的 \(x_k^2 = 8.67\),因此拒絕 \(H_0\)。
      • 因此這三種比例不完全相同

多重比較程序 Multiple Comparisons Procedure

但我們接受 \(H_1\) 時,勢必我們要找出到底是哪個比例不一樣,此時就需要用到多重比較程序。
我們計算 critical value,如果兩者房屋的差異大於 critical value,就表示他們有顯著差異。

這邊我們延續上面的舉例,找出哪個母體比例與其他不同

  • 計算比例
    • 第一種房子為 \(\bar{p_1} = \frac{100}{135} = 0.741\)
    • 第二種房子為 \(\bar{p_2} = \frac{81}{101} = 0.802\)
    • 第三種房子為 \(\bar{p_3} = \frac{83}{124} = 0.669\)
  • 進行比較
    • 第一種與第二種房屋差異為 \(| \bar{p_1} - \bar{p_2}| = |0.741- 0.802| = 0.061\)
    • 第一種與第三種房屋差異為 \(| \bar{p_1} - \bar{p_3}| = |0.741- 0.669| = 0.072\)
    • 第二種與第三種房屋差異為 \(| \bar{p_2} - \bar{p_3}| = |0.802- 0.669| = 0.133\)
  • 計算臨界值 Critical Value
    • \(CV_{ij} = \sqrt{x_{\alpha ; k-1}^2} \sqrt{\frac{\bar{p_i}(1-\bar{p_i})}{n_i} + \frac{\bar{p_j}(1-\bar{p_j})}{n_j }} \)
    • 透過圖表顯示差異,其中第二種房屋與第三種房屋的明顯差異

    • 於是我們現在回去看例子,是哪種房屋的回購比例比較高,回去看計算比例,現在我們可以得知,購買第二種房屋的比例較高有 0.802

獨立性測試 Test of Independence

計算兩個類別變數是否相互獨立,使用此測試的 step 如下:

  • 建立虛無與對立假設
    • \(H_0\) 變數是相互獨立
    • \(H_1\) 變數不獨立
  • 紀錄樣本
  • 計算預期頻率,\(e_{ij}\)
    \(e_{ij} = \frac{\text{(Row i Total)} \text{(Column j Total)} }{\text{Total Sample Size}}\)
  • 計算測試檢定
    \(x^2= \sum_i \sum_j \frac{f_{ij} - e_{ij}^2}{e_ij}\)
  • 確認拒絕法則
    • Reject \(H_0\) if \(p-value \leq \alpha\) or \(x^2 \geq x_{\alpha}^2\)
    • 其中 \(\alpha\) 為顯著性水準,其中自由度為 \((r-1)(c-1)\),r 為 rows and m is columns

舉例:建商想要知道不同的種類房子與房價是否獨立的嗎?下面有資料,然後我們現在要測試下列這四種分類是否為獨立變數

資料如下,其中資料分類成四種分類與兩種價格

  • 建立虛無與對立假設
    • \(H_0\) 房價與房屋類型是相互獨立
    • \(H_1\) 房價與房屋類型不獨立
  • 計算預期頻率如下

  • 計算自由度
    由於價格分兩類,房屋分四類,所以就是 \((2-1)(4-1) = 3\)
  • Rejection Rule
    在 \(\alpha = 0.05 \),與自由度為 3 時, \(X_{0.05}^2 = 7.815\),因此 Reject \(H_0\) if \(p-value \leq \alpha = 0.05 \) or \(X^2 \geq 7.815\)
    • 計算卡方分配
      \(X^2 = \frac{(18-16.5)^2}{16.5} + \frac{(6-11)^2}{11} + … + \frac{(3-6.75)^2}{6.75} = 0.1364+2.2727+…+2.0833 = 9.149\)
    • p-value
      當自由度為 3 時,用 probability distribution app 計算出來的值為 0.02737
      • 圖片表示

      • 因此 \(a = 0.05 \geq 0.0274 = p-value\),reject \(H_0\)
    • Critical Value
      在自由度為 3 時,機率 0.05 為 \(X^2 =7.815\),我們計算出來的卡方分配 \(9.149 \geq 7.815\),所以拒絕 \(H_0\)
  • 總結
    在百分之 95 的信心水準中,我們可以知道房價與房屋類型不獨立

適合度檢定 Goodness of Fit Test

檢定卡方分配 Goodness of Fit Test: Chi-Square

檢定所有類型的資料是否符合我們預期的卡方分配,使用此測試的 step 如下:

  • 建立虛無與對立假設
    • \(H_0\) 母體每一種分類符合我們所設定的機率分配
    • \(H_1\) 母體每一種分類一個或多個不符合我們所設定的機率分配
  • 蒐集樣本,並計算出觀察頻率 \(f_{i}\)
  • 假設 \(H_0\) 是對的,計算期望頻率 \(e_i\),對於樣本的每一種分類
  • 計算卡方檢定,公式為 \(X^2= \sum_{i=1}^k \frac{(f_i - e_i )^2}{e_i}\),其中
    • \(f_i\) 觀察頻率
    • \(e_i\) 期望頻率
    • \(k\) 分類總數,其中 \(k-1\) 為自由度,且裡面每項數值(cell)都要大於 5
    • 此公式只適用在卡方(chi-square)分配
  • 拒絕法則
    • p-value apporach: Reject \(H_0\) if \(p-value \leq \alpha\)
    • Critical value approach: Reject \(H_0\) if \(X^2 \geq X_{\alpha}^2\)

舉例:建商有 colonial, log capin, split-level, A-frame,這四種類型房子,規劃人員想知道這四種房子哪些會引起之前的消費者才重新購買

資料如下:

  • 建立虛無與對立假設
    • \(H_0: p_C = p_L = p_S = p_A = 0.25\)
    • \(H_1\) 讓上面的等式不成立
    • \(p_C\) 購買 colonial 的母體比例
    • \(p_L\) 購買 log capin 的母體比例
    • \(p_S\) 購買 split-level 的母體比例
    • \(p_A\) 購買 A-frame 的母體比例
  • Rejection Rule
    • 自由度為 3,機率為 0.95,用 probability distribution app 計算出來的值為 7.815
    • 透過圖表表示

  • Expected Frequencies
    • \(e_C = 0.25(100) = 25\)
    • \(e_L = 0.25(100) = 25\)
    • \(e_S = 0.25(100) = 25\)
    • \(e_A = 0.25(100) = 25\)
  • 計算卡方值
    \(x^2 = \frac{(30-25)^2}{25} + \frac{(20-25)^2}{25} + \frac{(35-25)^2}{25}+ \frac{(15-25)^2}{25} = 1+1+4+4 = 10\)
  • 使用方法
    • p-value approach
      • 自由度為 3,x = 10,用 probability distribution app 計算出來的機率為 0.01857
      • 因此 \(p-value = 0.01857 \leq 0.05 = \alpha\),拒絕 \(H_0\)
    • critical value approach
      • \(X^2 = 10 \geq 7.815\),拒絕 \(H_0\)
  • 結論
    在百分之 95 的信心水準中,我們可以知道購買此四種房屋比例並不同

檢定常態分配 Goodness of Fit Test: Normal Distribution

檢定所有類型的資料是否符合我們預期的常態分配,使用此測試的 step 如下:

  • 建立虛無與對立假設
    • \(H_0\) 母體每一種分類符合常態機率分配
    • \(H_1\) 母體每一種分類一個或多個不合常態機率分配
  • 蒐集樣本
    • 計算 mean and standard
    • 確定區間裡面每個值,並計算預期頻率,至少區間都不小於 5
    • 紀錄其觀察區間
  • 計算期望頻率 \(e_i\),對於樣本的每一種分類
  • 計算常態分配公式 \(X^2 = \sum_{i=1}^k \frac{(f_i - e_i )^2}{e_i}\)
  • 拒絕法則
    • \(X_a^2\) 為顯著性測試的值
    • \(X^2\) 為題目的實際數值
    • Reject \(H_0\) if \(X^2 \geq X_a^2\) or \(p-value < \alpha\),且自由度必須是 \(k-p-1\),而 k 表示區間,其中 p 為我們在樣本中用到的統計參數(例如: 平均數、標準差)

舉例:電腦製造商要評估銷售員績效,查看她們年銷售量,在 0.05 的顯著水準中,想看業務員是否都遵守常態機率分配

資料如下,表示三十位銷售員銷售的數量

  • 建立虛無與對立假設
    • \(H_0\) 母體銷售量符合常態分配且平均數 71 標準差 18.54
    • \(H_1\) 與 \(H_0\) 不同
  • 符合檢定常態分配要求,每個區間的值要大於 5,因此 \(30/5=6\),我們將常態分配分成 6 個區間,因此我們要讓常態分配的每塊區間機率都是 \(1 / 6 = 0.1667\),圖表如下。(其中 z 值不同的原因是要使每塊區間機率都是 0.1667,公式轉換則是 \(\text{mean} + (\text{每個區間的機率分界點}\text{standard deviation}) \)),此題目分界點為 0.97, 0.81 … 等。

  • 樣本觀察頻率與預期頻率如下

  • 計算常態分配
    \(X^2 = \frac{(1)^2}{5} + \frac{(-2)^2}{5} +\frac{(1)^2}{5} + \frac{(0)^2}{5} + \frac{(-1)^2}{5} + \frac{(1)^2}{5} = 1.600\)
  • Rejection Rule
    • \(\alpha = 0.05 \) and 自由度 (k-p-1=6-2-1=3\), p 為平均數與標準差。
    • 自由度為 3,機率等於 0.05,用 probability distribution app 計算出來的\(X_a^2\) 7.815
    • 自由度為 3,\(X^2=1.600\),用 probability distribution app 計算出來的機率為 0.6594
  • 使用方法
    • p-value
      \(p-value = 0.6594 \geq 0.05 = \alpha\),not rejected \(H_0\)
    • critical value
      \(X_a^2 = 7.815 \geq 1.6 = X^2\),not rejected \(H_0\)
  • 結論
    沒有證據可以表示,他們並不符合常態分配。

辛苦大衛了。

  • 版權聲明: 本部落格所有文章除有特別聲明外,均採用 Apache License 2.0 許可協議。轉載請註明出處!
  • © 2020-2024 John Doe
  • Powered by Hexo Theme Ayer
  • PV: UV: