統計學(一) 筆記 - 第七章抽樣與抽樣分配(Sampling and Sampling Distributions)

2020-12-01

北科上課筆記 / 統計 statistics

字數統計： 2.9k | 閱讀時間≈ 11分鐘

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二上統計學重點整理
並非所有人都適用，部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記，老師上課可能不太適用會忘記抄到

名詞介紹

element
我們收集到的每一個資料
population 母體
我們資料整體，樣本(sample)則是資料裡面的其中一個集合
target population (目標母體)
我們想要選擇的母體
sampled population 抽樣母體
我們抽樣的整體資料
frame 抽樣清單
從 sampled population 抽取的清單

Selecting Sample 選擇樣本

Sampling from a Finite Population (有限母體)

舉例，信用卡名單、倉庫存貨、公司股東。

簡單隨機樣本
每一個元素被抽出的機率相同
sampling with replacement 歸還抽樣
抽完放回去
sampling without replacement 不歸還抽樣
抽完不放回去

Sampling from a Infinite Population (無限母體)

在無限母體中沒有 frame，因為 frame 會等於無限。
舉例：銀行產生的交易，因為會不斷產生因此不確定性很高。

random sample
- 每一個元素都是從相同母題抽出來
- 每一個元素都是獨立，即抽完不放回

Point Estimation 點估計量

推測母體參數中某個數值

\( \bar{x} \) 的點估計量就是平均值
s 點估計量為母體標準差
\( \bar{p} \) 為母體比例 p 的點估計量

舉例 - St. Andrew’s College

Recall that St. Andrew’s College received 900 applications from prospective students. The application form contains a variety of information including the individual’s Scholastic Aptitude Test (SAT) score and whether or not the individual desires on-campus housing.

回想一下，聖安德魯學院收到了來自潛在學生的900份申請。申請表包含各種信息，包括個人的學業能力測驗（SAT）分數以及個人是否希望在校內住宿。

P.S. 這裡的資料是在影片前面的抽樣資料為虛擬且抽樣數為 30，因此數字看看就好

20 為申請住宿的量
50520 為分數總合
210512 則是透過公式與原始資料得出

下面這張圖片則是透過完整原始資料來進行計算

比較：

Introduction to Sampling Distributions 抽樣分配

每一次的抽樣計算出來的值都有可能不一樣，因為選擇的樣本不同。

但透過抽樣分配的次數越多，根據抽樣分配的次數會發現圖形長得像常態分配，即越偏差母體標準差的抽樣分配機率越小，越靠近的越大。

舉例 - 關於公司管理職

公司總共有 2500 位管理職(母體)，我們想要知道下面以下問題：

母體的平均年薪
母體的年薪標準差
母體中有完成教育訓練的值(母體參數)

答案 - 透過點估計量

抽樣資料如下，有 30 筆
Point estimation
- \(\bar{x} = \frac{\Sigma X_i}{n} = \frac{1,554,420}{30} = 51,814 \)
- \(s = \sqrt{\frac{\Sigma (X_i - \bar{x})^2 }{n-1}} = \sqrt{\frac{325,009,260}{29}} = 3348 \)
- \(\bar{p} = \frac{x}{n} = \frac{19}{30} = 0.63 \)
為甚麼樣本標準差分母是？ n-1 觀念說明
- 為什麼統計的樣本標準差計算要除(n-1)而母體標準差則除n？ - 電子製造，工作狂人
- 淺談自由度 (樣本標準差公式中的分母為什麼要採用 n-1 ) - 教育部高中數學學科電子報

比對 - 原始資料

Sampling Distribution of \(\bar{x} \)

就是要找出母體平均數。

Expected Value of \(\bar{x} \)
公式為 \(E(\bar{x})=\mu \)，其中 \(\mu \) 為母體平均值
Standard Deviation of \(\bar{x} \)
- \(\sigma_{\bar{x}} \) 為樣本標準差，也稱為標準誤(standard error)
- \(\sigma \) 為母體標準差
- \(n \) 為樣本大小
- \(N \) 為母體大小
- Finite Population 有限母體公式
  - \(\sigma_x = \sqrt{\frac{N-n}{N-1}}(\frac{\sigma}{\sqrt{n}})\)
  - 其中前項為校正因子(\(\sqrt{\frac{N-n}{N-1}}\))用來修正數值，但當 N 的數量趨近無限大時，校正因子幾乎會被視為零。
  - 當 \(n/N \leq 0.05 \) 時，就可以使用無限母體公式會更好計算，校正因子也幾乎變為零
  - 當 \(\frac{n}{N} > 0.05 \) 時，\(\bar{x} \) 為常態分配
- Infinite Population 無限母體公式
  \(\sigma_x = \frac{\sigma}{\sqrt{n}}\) 且 \(\bar{x} \) 為常態分配
\(\bar{x} \) 服從常態分配有以下情況
- 樣本資料大於等於 30 筆資料時
- 如果有高度偏態(skew)或是 outliers(離群值)太多時，只要樣本資料大於 50 筆也會是常態分配
透過機率來說明 \(\bar{x} \) 有多靠近母體平均值

Central Limit Theorem (中央極限定理)

中央極限定理提出越是大量的樣本抽取數量其圖形會逐漸變成常態分佈的形狀

透過圖形來證明

Population 2 的圖形通常稱為兔耳型圖圖

我們透過上面的圖可以推出無論是什麼樣的圖都可以推出常態分布的樣本分配，只要樣本資料夠多

舉例 - 我們想找出離母體平均數加減 10 分有多少數量，也就是我們想要找 1687 ~ 1707 間的母體數量

我們在先前的舉例中算出 \(\sigma_x = \frac{\sigma}{\sqrt{n}} = \frac{87.4}{\sqrt{30}} = 15.96 \)

現在我們先計算 z 值來轉換成標準常態機率分配，\(z = (1707 - 1697) / 15.96 = 0.63 \)，查表可以看到 z = 0.63 時機率為 0.7357，再來 \(z = (1687 - 1697) / 15.96 = -0.63 \)，查表可以得出 0.2643，兩個相減就等於 0.4714

舉例 - 根據上面的例子，我們現在抽樣 100 樣本，我們想要找 1687 ~ 1707 間的母體數量

這時候 \(E(x)\) 不變，母體平均值還是 1697。

但因為我們的抽取樣本數量改變，因此標準差改變，透過標準差公式也就變成，\(\sigma_x = \sqrt{\frac{N-n}{N-1}}(\frac{\sigma}{\sqrt{n}}) = \frac{900-100}{900-1}(\frac{87.4}{\sqrt{100}}) = 0.9433(8.74) = 8.2\)

跟上一個舉例進行比較，可以得證當樣本數量變大時，會符合中央極限定理

因為圖形不同，因此區間面積也不同需要再重新計算，當 n = 100 時，\(P(1687 \leq \bar{x} \leq 1707 ) = 0.7776\)

Sampling Distribution of \(\bar{p} \)

透過抽取 n 個元素的隨機樣本，計算\(\bar{p} \)之後再推論 \(p\)。

Expected Value of \(\bar{p} \)
公式為 \(E(\bar{p}) = p \)
Standard Deviation of \(\bar{p} \)
- \(\sigma_{\bar{p}} \) 為樣本標準差，也稱為標準誤(standard error)
- \(\sigma \) 為母體標準差
- \(n \) 為樣本大小
- \(N \) 為母體大小
- 當 \(np > 5 \) 時，\(n(1-p) \geq 5 \) 為常態分配
- Finite Population 有限母體公式
  - \(\sigma_p = \sqrt{\frac{N-n}{N-1}}(\sqrt{\frac{p(1-p)}{n}})\)
  - 其中前項為校正因子(\(\sqrt{\frac{N-n}{N-1}}\))用來修正數值，但當 N 的數量趨近無限大時，校正因子幾乎會被視為零。
  - 當 \(n/N \leq 0.05 \) 時，就可以使用無限母體公式會更好計算，校正因子也幾乎變為零
- Infinite Population 無限母體公式
  公式為 \(\sigma_p =(\sqrt{\frac{p(1-p)}{n}})\)

舉例 - 有 72 % 的學生申請宿舍，我們抽樣 30 學生，想請問在此樣本中學生申請宿舍的在 72% 加減 0.05 的機率是多少

我們先檢查是否有常態分配，n=30, p=0.72，因此 \(np = 30(0.72) = 21.6 \geq 5 \) and \(n(1-p) = 30(0.28) = 8.4 \geq 5 \)，都有大於 5，因此符合使用常態分配條件。

由於這裡我們並不確定母體有多少學生，因此是 Infinite Population，計算就是 \(\sigma_{\bar{p}} = \sqrt{\frac{0.72(1-0.72)}{30}} = 0.082\)

一樣先轉換成 z 值成為標準常態機率分配，\(z = (0.77-0.72)/0.082 =0.61\)，查表發現 \(0.61z = 0.7291 \)，再來查另外一個值 \(z = (0.67-0.72)/0.082 =-0.61\)，查表發現 \(-0.61z = 0.2709 \)，兩個相減就得出常態分配面積區間，答案為 0.4582。

因此在這樣本中有 \((0.67 * 30) \) ~ \( (0.77 * 30)\) 機率的學生要申請宿舍的機率為 0.4582。

舉例 - 主管的抽樣分配，題目如下，想詢問抽樣值為平均值 \(\pm 500\) 的機率為多少

也就是我們要找出 \(P(51300 \leq \bar{x} \leq 52300) \)，的機率是多少，如果用手算的話則需要用到 Z，\(z = \frac{51300-51800}{730.30} = -0.68 \)、\(z = \frac{52300-51800}{730.30} = 0.68 \)

\(P(51300 \leq \bar{x} \leq 52300) \\
= P(-0.68 \leq z \leq 0.68 ) \\
= P(z \leq 0.68 ) - P(z \leq -0.68 ) \\
= 0.7517 - 0.2484 = 0.5034 \)

compare between n = 30 and n = 100

作法與先前相同，就不贅述

舉例 - 承上題，當抽樣數為 100 (n = 100)，抽樣主管有成功完成教育訓練的標準誤

旁邊的公式為答案。

60 % 的人會完成員工訓練，因此期望值為 0.6，再來透過公式計算。
\(\sigma_{p} = \sqrt{\frac{p(1-p)}{n}} = \sqrt{\frac{0.6(1-0.6)}{30}} = 0.894 \)

舉例 - 承上題，抽樣主管有成功完成教育訓練的值在期望至 \(\pm 0.05 \)

先透過 Z 轉換，之後即可，題目大同小異，透過圖片附上答案。

Propertires of Point Estimators 點估計量的特性

點估計量的符號為 \(\hat{\theta}\)
Unbiased 不偏性
- 期望值等於要估計的母體參數
- 圖舉例，右邊是 Biased 有偏誤
Efficiency 有效性
- 在有兩個抽樣分配的 \(\hat{\theta}\)，且兩個的\(\hat{\theta}\) 位置一樣時，則先取標準差(x 軸)比較少的值
- 圖舉例
Consistency 一致性
- 當樣本數(n)變大時，標準差則會越來越小，當樣本數越大時則優先使用此點估計量

Other Sampling Methods 其他抽樣方法

機率抽樣
每一個母體元素都有一個特定的機率被選為抽樣樣本
非機率抽樣
由於我們沒辦法預估每一個母體元素機率為多少，因此稱為非機率抽樣。
找出最適合的抽樣方法最重要。

機率抽樣 - Stratified Random Sampling 分層隨機抽樣

strata
將母體分成好幾組
母體的每一個元素都必須被使用分組，且只能使用一次
每一組的元素同質性越高越好
可以根據年齡、工作部門、產業來區分
有符合上述條件時，精準度會集高且抽樣資料不須太多
圖表

機率抽樣 - Cluster Sampling 叢式/集群抽樣

clusters
將母體分組，每組同質性極低，小生態圈
接下來抽出幾群，那些就是我們的抽樣資料
Sampling
透過市區、學校來抽樣
Advantage
節省成本
Disadvantage
抽樣資料比分成抽樣的資料需要更大些，才符合真實性
圖表

機率抽樣 - Systematic Sampling 系統抽樣

先將母體資料打亂後再進行編號
從母體(N)抽出樣本(n)，那我們就是 \(y = N/n\) 為我們要抽出的元素量(y)
再透過母體資料編號，for(i = 0 ; i<= y ; i++)，找出我們的抽樣元素
Advantage
簡單

非機率抽樣 - Convenience Sampling 便利抽樣

透過非機率抽樣
Sampling
如發傳單，因為沒辦法得知收到傳單與沒收到傳單的機率。
Advantage
抽樣很方便
Disadvantage
沒辦法很精準的代表母體

非機率抽樣 - Judgment Sampling 判斷抽樣

透過個人的知識去推斷出母體那些值可以被參考
例如記者想詢問立委對環保的意見
記者可以找出對比較熟悉環保的立委進行尋問
Advantage
~~可以造謠，~~比較簡單。
Disadvantage
很看記者素質

版權聲明： 本部落格所有文章除有特別聲明外，均採用 Apache License 2.0 許可協議。轉載請註明出處！