統計學(一) 筆記 - 第八章區間估計(Interval Estimation)

2020-12-29

北科上課筆記 / 統計 statistics

字數統計： 2.8k | 閱讀時間≈ 10分鐘

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二上統計學重點整理
並非所有人都適用，部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記，老師上課可能不太適用會忘記抄到

Margin of Error and the Interval Estimate 邊際誤差與區間估計

點估計值基本上不會完全相等母體參數，也就是母體的正確答案
透過 Interval Estimate 區間估計可以幫助我們推出正確的點估計值
區間估計公式：\(\text{Point Estimate } \pm \text{Margin of Error }\)，其中點估計量通常會用 \(\bar{x}\) 代替
區間估計可以告訴我們 Point Estimate 多靠近母體參數。
母體參數
我們要詢問母體的某一件事，每一個人都必須適用，且通常都是判斷有或沒有，例如判斷所有的學生們有沒有統計都及格。

Margin error 邊際誤差

通常設 \(E\) 來表示邊際誤差
邊際誤差公式為 \(E = z_{a/2} \frac{\sigma}{\sqrt{n}}\)
- 其中 n 為我們必要的樣本估計大小
  將邊際誤差公式移項就可以得到 \(n = \frac{(z_{a/2}^2 \ \ \sigma^2)}{E^2}\)
標準差未知的情況
- 如果一開始不知道標準差就看母體標準差未知的點估計量
- 再抽測之前，先進行前側，這樣就知道標準差。
- 預估猜測
如果知道標準差的估計量就看母體標準差已知的點估計量

舉例 - 公司想要知道各戶在 outlet 消費的平均花費是多少，在信心水準有 95% 的情況下邊際誤差是 500 或是更小，請問我們應該要蒐集多少樣本，公司認為標準差為 4500。

先透過公式進行推導，\(z_{a/2}\frac{\sigma }{\sqrt{n}} = 500 \)
接著進行查表，當 \(z_{0.025} = 1.96 \)，因此標準差為 4500，就可以推出公式 \(n = \frac{(1.96)^2(4500)^2}{(500)^2} = 311.17 = 312 \)
因此我們就可以推出至少要有 312 個樣本才可以符合題目的要求。

Interval Estimate of a Population Mean \(\sigma \) Known 母體標準差已知的點估計量

要符合下面條件
- 透過母體 \(\sigma \) 來計算
- 通常沒有辦法很精確的來找出母體 \(\sigma \)，但可以透過歷史資料來得出，這時我們就稱之為已知。
- 抽樣樣本 n 要大於 30
- 如果母體與常態分布相似則 n 大於 15 即可。
- 如果有高偏態或離群值很多時， n 至少要大於 50
樣本平均值分布為常態分布
點估計量 \(\mu \)
- 公式 \(\bar{x} \pm Z_{a/2} \frac{\sigma}{\sqrt{n}}\)
- \(\bar{x}\) 為樣本平均數
- \(1-a \) 信賴係數
- \(Z_{a/2} \) 為常態分布的信賴區間
- \(\sigma\) 母體標準差
- \(n\) 樣本大小
常用的信賴區間、與信賴水準，信賴水準就是常態分配的 \(平均值 \pm 標準差 \)
- \( a / 2 \)，非信賴區間的面積
- 查表時，是先看 \(a / 2 \) 的值後進行查表，透過右邊的標準差來找出 Z 值是多少
舉例 - 透過上面那張圖可以知道在 \(\bar{x} \pm 1.645 \sigma_{\bar{x}}\) 有 90 % 的機率會包含母體平均數。
- 因此 90 % 稱為信賴水準 (confidence level )
- 0.9 也被稱為信賴係數(confidence coefficient)，信賴水準的小數表示就稱為信賴係數。

舉例 - 百貨公司想知道消費者消費金額，抽出 100 份，並透過此知道點估計量

由於母體 \(\sigma \) 已經給出 20，且母體極大才能夠這樣算。

這裡主要是要讓讀者知道點估計量也會是常態分配

因此我們可以知道樣本標準差為 2。

Normal Probability Distribution

複習一下常態分配中的經驗法則
- \(平均值 \pm 一個標準差 = 68.26 \% \)
- \(平均值 \pm 兩個標準差 = 95.44 \% \)
- \(平均值 \pm 三個標準差 = 99.72 \% \)
在樣本平均值 \(\bar{x} \) 值中，我們推算出來的樣本標準差將會是信心區間，也就是每次的抽樣樣本平均值會落在樣本標準差裡面的機率會是多少。
- 舉例，樣本標準差為 2，那下次抽樣樣本的平均值會落差標準差 2 的機率是多少
  根據上面講的經驗法則，\(平均值 \pm 兩個標準差 = 95.44 \% \)，因此機率則會是 95.44%
圖解
- \(\bar{x_1 }\) and \(\bar{x_3 }\)
  這兩次的抽樣樣本中數值則有落在母體平均值當中
- \(\bar{x_2 }\)
  這次的抽樣樣本中數值則沒有落在母體平均值當中
- z 則是在手算時會使用到，第七章常用到
- a (藍色區塊) 則是在抽樣樣本不會落在\(平均值 \pm 標準差 \) 的其他機率，除以 2 是因為左右一半都有面積

舉例 - 承上題，我們想知道 \(\mu \pm 3.92 \) 的值差幾個標準差並有多少機率母體平均數會落在此區間

我們剛剛已經算是樣本標準差為 2，因此是 95.44% ，因此只需要 \(3.92 / 2 = 1.96 \)，因此落在 \(1.96 \sigma{\bar{x}}\)

舉例 - Discounr Sounds 在美國有 260 家的店，還想要開新的店，於是他先去調查新店(不是地名)地區的年收入，樣本 n = 36，且年收入平均值為 41,100，母體沒有高偏態，標準差為 4,500 且信賴區間為 0.95，算出一個範圍在隨機抽樣中有 95 % 的機會有包含母體平均數

因為抽樣會比起直接將整個母體查詢會更快一些，且母體沒有高偏態，因此可以進行常態分配。

往上數第四張圖已經說明 95% 的信心水準是 \(\bar{x} \pm 1.96 \sigma_{\bar{x}}\) 區間會包含母體平均數。

因此邊際誤差(margin of error) \(Z_{a/2} \frac{\sigma}{\sqrt{n}} = 1.96(\frac{4500}{\sqrt{36}}) = 1,470\)，因此在 95% 的信賴水準下邊際誤差會是 1,470。

再將母體平均值 \( 41,100 \pm 1,470 \) 也就是 \(39,630 \ to \ 42,570\)，就是我們的區間估計且有 95% 的信賴水準

在其他信賴區間時的邊際誤差與區間估計

Interval Estimate of a Population Mean \(\sigma \) Unknown 母體標準差未知的點估計量

沒辦法透過過去歷史資料來推出 \(\sigma \) 時，透過隨機樣本來找出 \(\sigma \)，這個時候要使用 t 分配(Distribution)

t Distribution

由一群相似的機率分配組合
依照參數來決定自由度 (degrees of freedom)
Degrees of freedom
再算樣本標準差有多少獨立的個數，在減掉 \(\bar{x}\)，就是自由度
自由度越大圖形越瘦長且會接近常態分配，如下圖
t 值概念類似於標準常態機率分布的 z
當自由度大於 100 時，t 與 z 值接近相同
當 t 變成無限大時則與 z 相同
Adequate Sample Size 足夠樣本數量
- 樣本數必須要大於 30 才可以使用
- 在母體高度偏態或有很多離群值時，樣本數量要高於 50 才可以使用
- 母體並不是常態分配，但有對稱性時則樣本數只需要 15 筆即可
- 母體分配與常態分配相同，那樣本數低於 15 也可以
區間估計公式
- 基本上類似於常態分配，但在一些非常態分布時也可以使用
- \(\bar{x} \pm t_{a/2} \frac{s}{\sqrt{n}}\)
- \(1-a\) 信賴係數
- \(t_{a/2}\) 為 t 值的區域，為 \(n-1\) 的自由度， t 要查表
- \(s\) 樣本標準差

舉例 - 記者想要知道學生花多少錢在校外住宿，在離學校半英里裡面隨機抽樣出 16 筆雅房租金資料，平均租金 750 元、標準差 55，想要建立百分之 95% 的信賴區間，來求出母體的平均租金與標準差

在 95 % 的信心區間中， \(\alpha = 0.05 \) and \(\alpha / 2 = 0.025 \)，因此可以找出\(t_{0.025}\)與在自由度為 \(n-1 = 16 - 1 = 15\)的 t 值，因此我們可以說明 \(t_{0.025} =2.131 \)

下方為查表

根據區間估計公式 \(\bar{x} \pm t_{a/2} \frac{s}{\sqrt{n}} = 750 \pm 2.131 \frac{55}{\sqrt{16}} = 750 \pm 29.30 \)，透過此公式我們可以肯定在 95% 的信賴區間，母體的平均值會介於 720.70 to 779.30 。

Summary of Interval Estimate Procedures for a Population Mean 區間估計的計算統整

Interval Estimate of a Population Proportion 母體比例的區間估計

公式為 \(\bar{p} \pm \text{Margin of Error}\)，將邊際誤差拆開就是
- 等同於 \(\bar{p} \pm z_{a/2} \sqrt{\frac{\bar{p} (1-\bar{p}) }{n}}\)
- \(1-a\) 為信心係數
- \(z_{a/2}\) 為常態分配中，非信心水準的區塊
- \(bar{p}\) 樣本母體
在計算區間估計時，\(\bar{p}\) 會決定區間估計的距離
\(\bar{p} \) 要能夠使用常態分配時，必須要符合兩個條件
- \(n(1-p) \geq 5 \)
- \(np \geq 5 \)
用圖表來看

舉例 - 民意公司想要調查投票者的薪資，因此進行調查，他調查 500 位選民有 220 位會投給 A，PSI 有 95% 的信心水準，想要知道會支持 A 候選人的比例有多少。

因此透過公式 \(\bar{p} \pm z_{a/2} \sqrt{\frac{\bar{p} (1-\bar{p}) }{n}}\)，並將其值帶入

\(n = 500 \)
\(\bar{p} = 220 / 500 = 0.44 \)
\(z_{a/2} = 1.96 \)

帶入後則會得到 \(0.44 \pm 1.96 \sqrt{\frac{0.44-(1-0.44)}{500}} = 0.44 \pm 0.0435 \)

因此民意公司在 95% 的信心水準之下，會投給 A 候選人的比例在於 0.3965 to 0.4835。

Sample Size for an Interval Estimate of a Population Proportion 決定母體比例的區間估計的樣本大小

找出邊際誤差的公式為 \(E = z_{a/2} \sqrt{\frac{\bar{p} (1-\bar{p}) }{n}}\) ，其中，\(\bar{p}\)因為我們還沒抽樣還不知道，因此我們這邊用\(\star{p}\) 表示還不知道樣本大小的 p

因此公式就是 \(n = \frac{(z_{a/2} \ )^2 \ \star{p} (1-\star{p})}{E^2}\)

\(\star{p}\) 怎麼得出
- 透過過去歷史資料得出
- 前側，先簡單抽樣一次
- 判斷，猜測
- 使用 0.5 當參考，但這是最後手段。

舉例 - 民意公司希望有 99% 的機率樣本比例離平均數為正負 0.03(邊際誤差)，需要多少的樣本才能達到這個目標？根據過去資料通常樣本比例必須要是 0.44

因此根據邊際誤差公式 \(z_{a/2} \sqrt{\frac{p(1-p)}{n}} = 0.03 \)
在 99% 的信心水準中，\(z_{0.005} = 2.576\)，\(\bar{p} = 0.44 \)
因此將公式寫出就是 \(n = \frac{(z_{a/2} \ )^2 \ p* (1-p*)}{E^2} = \frac{(2.576)^2(0.44)(0.56)}{(0.03)^2} \approx 1817 \)

也就是樣本大小至少要大於 1817，才可以符合離平均數誤差為 0.03 之間且信心水準為 0.99。

如果題目沒有給出樣本比例時，則就用 0.5 來計算。

版權聲明： 本部落格所有文章除有特別聲明外，均採用 Apache License 2.0 許可協議。轉載請註明出處！