統計學(一) 筆記 - 大二上第二次段考 (L4-L6)

筆記說明

此筆記用途在於台北科技大學資訊與財金管理系大二上統計學重點整理
並非所有人都適用,部分對我而言稍加容易的內容並不會寫在此內。
這是觀看影片心得後的筆記,老師上課可能不太適用會忘記抄到

Chapter 4 Introduction to Probability (介紹機率)

名詞介紹

  • Random Experiments 隨機實驗
  • Counting Rules 計數規則
  • Assigning Probabilities 分配機率
  • Event 事件
  • Conditional Probability 條件機率
  • Bayes’ Theorem 貝式定理

Uncertainties 不確定性

管理人員對於不確定性的選擇進行分析,如

  • 提高物品售價時,銷售機會減少?
  • 透過新的組裝方式會不會增加生產率
  • 新投資獲利的機會會多少

Probability 機率

  • 用數字表示事件發生的可能性
  • 機率的值只會在 0 - 1 之間
  • 機率值越靠近零表示越不容易發生
  • 機率值越靠近一表示越容易發生

Statistical Experiments 統計實驗

  • 統計學中的實驗概念與物理實驗不同
  • 在統計實驗中,機率表示結果
  • 即使實驗完全相同,出來的結果也有可能完全不同
  • 統計實驗有時候又被稱為隨機實驗

Random Experiment and Its Sample Space 隨機實驗與樣本空間

  • 隨機實驗
    產生一個明顯的實驗結果
  • 樣本空間
    所有實驗結果的集合(set)
  • 樣本點
    其中一個實驗結果的集合(set)的一個元素為 sample point(樣本點)

A Counting Rule for Multiple-Step Experiments 多步驟的實驗技術

如果實驗中需要 k 個步驟,那假設第一步可能有 \(n_1\) 個結果,第二步有 \(n_2\) 個結果,依此類推,那實驗結果的總數為 \(n_1 * n_2 * … * n_k \)。

多步驟實驗的圖形表示大都是樹狀圖

舉例


Counting Rule for Combinations 計數規則的組合

使用 Combinations 進行計數,在 \(N\) 個實驗中拿出 \( n \) 個結果,則使用 \(C_n^N = \frac{N!}{n!(N-n)!}\)

組合是沒有注意順序的,即 1,2,3 與 1,3,2 視為相同

Counting Rule for Permutations 計數規則的排列

使用 Permutations 進行計數,在 \(N\) 個實驗中拿出 \(n\) 個結果,使用 \(P_n^N = \frac{N!}{(N-n)!}\)

組合是有注意順序的,即 1,2,3 與 1,3,2 不相同

Assigning Probabilities 指派機率

Basic Requirements for Assigning Probabilities

  • 每一個實驗結果機率都必須介於 0-1 之間
  • 所有的實驗結果相加起來必等於 1

Method

  • Classical Method
    將所有的實驗結果機率平均分配,分配為 \(1 \ n \)
  • Relative Frequency Method
    根據實驗或歷史數據分配機率,通常是用百分比進行分配
  • Subjective Method 主觀方法
    透過主觀方式分配機率,爽,想怎麼分配就怎麼分配
  • 通常會結合上面三種方法,來找到最正確的實驗結果機率

Events and Their Probabilities 事件與他們的機率

  • 事件是樣本點的集合
  • 每一個事件的機率等同於此事件總和的樣本點機率,如:事件 A 發生機率是 40%,那 A 事件中的每個樣本點發生機率總和一定等於 40%
  • 如果我們可以識別實驗中的每個樣本點並幫她分配機率,就可以算出此事件的機率
  • 事件 = 樣本空間每一個元素分配到的機率

Some Basic Relationships of Probability 機率的基本觀念

  • Complement (餘集)

  • Union 聯集
    • Addition Law(加法律)
      \(P(A \cup B) = P(A) + P(B) - P(A \cap B) \)

  • Intersection 交集
    • Multiplication Law(乘法律)
      \(P(A \cap B) = P(B)P(A|B) = P(A)P(B|A) \),其中 \(P(A|B)\)為條件機率

  • Mutually Exclusive 互斥
    • 如果一個事件發生,那另外一個事件就一定無法發聲
    • Addition Law(加法律)
      \(P(A \cup B ) = P(A) + P(B) \)

Conditional Probability 條件機率

一個事件(A)中又發生另外一個事件(B)的機率稱為條件機率,例如選出撲克牌為偶數(A)且大於 6 (B)的機率是多少

條件機率符號通常用 \(P(A|B) \),計算方式為 \(P(A|B) = \frac{P(A \cap B)}{P(B)}\)

Joint Probability Table 聯合機率表

  • Joint Probabilities 出現在表格的主體,即 1 處
  • Marginal Probabilties(邊際機率,即單獨只看某事件的機率)通常在表格的邊界,即 2 處

Independent Events 獨立事件

如果 A 事件不會影響到 B 事件,我們就說 A 跟 B 是獨立事件,因此可以這樣表達 \(P(A|B) = P(A) \) or \(P(B|A) = P(B) \)

  • multiplication law 乘法律
    • 此 Law 也可以用來驗證這兩個事件是不是獨立事件
    • 如果是獨立事件則乘法律出來的答案應該是 \(P(A \cap B ) = P(A)P(B) \)
      multiplication law 乘法律公式可以點擊此連結並移到下方的Intersection 交集

Mutual Exclusiveness and Independence 互斥與獨立

  • 互斥事件與獨立事件不同
  • 機率大於 0 的兩個事件不會同時有互斥與獨立,即兩個事件只要機率 \(> 0\),就表示一定有關係
  • 如果知道事件 A , B 是互斥事件,當 A 發生時 B 不會發生,因此他們是有相關的,並不是獨立事件,因為會互相影響
  • 如果事件 A , B 不是互斥事件,那他們有可能是獨立事件

Bayes’ Theorem 貝式定理

公式

用途

根據已知的 A 機率推出 B 機率

流程圖如下:

舉例

在鎮上興建購物中心是一個很好的主意,可以帶來不錯的收益,但必須通過鎮公所的允許,否則不能建照。規畫委員會要向鎮公所提出建議,來獲得支持或反對興建購物中心

\(A_1 \) = 支持興建 , 機率為 0.7
\(A_2 \) = 反對興建 , 機率為 0.3

situlation A

目前規畫委員會建議不要興建購物中心(B),此事件的發生會不會影響到鎮公所支持或反對興建購物中心的機率?

根據過去歷史 \(P(B|A_1)=0.2\) and \(P(B|A_2)=0.9\)

我們可以透過歷史推出 \(P(B_C | A_1) = 0.8 \) and \(P(B_C | A_2) = 0.1 \)

樹狀圖則如下:

根據我們規畫委員會的建議後,我們可以得出
\(P(A_1 |B) = \frac{P(A_1)P(B|A_1)}{P(A_1)P(B|A_1) + P(A_2)P(B|A_2)} \\ = \frac{(0.7)(0.2)}{(0.7)(0.2) + (0.3)(0.9)} = 0.34 \)

其中 \(P(B) = P(A_1 \cap B) + P(A_2 \cap B) \)

conclusion A-1

這對不想要興建購物中心的人認為是一個好消息,因為從原本支持興建的機率 0.7 降至 0.34

透過表來解讀則是

  • (4) 是表示在歷史資料中遇到的情況去乘這次的情況,來說明這次有可能成功的機率,但必須注意的是小數相乘會越來越小,因此不可以透過 14% 去算,分母已經不再是 1 了
  • P(B) 則表示這兩種可能總共的機率
  • (5) 再來則是透過 P(B) 來找出每一個 \(P(A_i)\) 的機率


Chapter 5 Discrete Probability Distributions 離散機率分配

Discrete random variable(離散隨機變數) 為有限數量或無限數量的序列值,且可以透過圖表、公式、表格來描述離散的機率分布

甚麼時機用 Discrete Probability Distributions,進行舉例

  • 一個家庭有多少個小孩,Infinite Sequence
  • 家裡有沒有狗或貓,有這四種結果,有狗、有貓、沒有狗貓、有狗貓, finite Sequences
  • 在此時則不可以使用 Discrete Probability Distributions
    詢問台北到高雄的距離,此時要使用 Continuous

Random Variables

隨機變數是透過數值描述實驗結果,類似樣本空間隨機抽樣本點

Type Of discrete probability distributions

  • First Type
    透過規則將實驗結果的機率指定並確定給每一個隨機變數
  • Second Type
    透過數學公式給予每一個隨機變數值的機率

probability function 機率函數

機率分布透過機率函數 \(f(x) \)定義,為該函數的隨機變數每一個值提供機率,並且 \(f(x) \geq 0 \) and \(\Sigma f(x) = 1\)

通常透過三種方式來指派機率給予隨機變數,古典法、主觀法、頻率關聯法,透過頻率關聯法的稱為 empirical discrete distribution (實證離散分布)

discrete probability distributions specified by formulas (離散機率分布公式)

除了圖表與表格外,通常會有公式來給予機率函數的每一個值(x)指定機率,來描述離散分布

下面是機率公式,適合的應用範圍

機率公式 應用情況
離散均勻 發生n次 則每一次的機率就是1/n
二項 求在 n 是實驗中 x 次成功才能達到期望結果的機率
負二項 需要x 次實驗才能夠達到期望結果的機率
幾何 在第一次成功的次數
卜瓦松 在特定的空間(或單點)內發生次數(離散)的機率
超幾何 N次試驗中成功的機率(但取後不放回)
指數機率 詢問區間中的連續變數機率
常態機率分布 最常用的機率分布之一,通常題目會告訴要用此公式

期望值 \(E(x) \)

  • 在離散機率分布中,期望值與平均值為一樣,公式為 \(E(x) = \mu = \Sigma x f(x) \)
  • 期望值是隨機變數的加權平均,權重則是隨機變數的機率
  • 期望值不是隨機變數可以設定的值

Variance and Standard Deviation 變異數與標準差

  • 變異數公式為 \(Var(x) = \sigma^2 = \Sigma(x-\mu)^2 f(x) \)
  • 變異數是隨機變數值減去平均值(期望值)次方在乘機率的加權平均,權重則是隨機變數的機率
  • 標準差 \(\sigma \),是變異數開平方的值

discrete-uniform 離散均勻

  • The discrete uniform probability distributionis 是數學公式中最簡單的離散機率分布
  • 公式為 \(f(x) = 1 / n \),n = 隨機變數的總和
  • 基本上每一個隨機變數的值都很有可能相同

Bivariate 二元

  • 涉及兩個隨機變數的機率分配時可以使用 bivariate probability distribution
  • 每一個實驗結果都有兩個值,一個隨機變數
  • 通常我們在使用此機率分布時,我們會對於隨機變數與另一隨機變數的關聯性產生興趣

舉例 A - 員工滿意度

舉例有 200 位員工對他的工作滿意度與福利待遇進行調查,如下圖





Covariance 共變異數

公式:\(\sigma_{xy} = [ Var(x+y) - Var(x) - Var(y)] /2 \) or \(\sigma_{xy} = \Sigma_{i,j} [ x_i - E(x_i) ] [y_i - E(y_i) ] f(x_i,y_i)\)

Correlation Coefficient 相關係數

公式 \(\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x \sigma_y}\)

  • 延續剛剛的舉例,如圖:

舉例 B - 金融資產配置

透過金融資產分配進行舉例

  • 其中 a = 0.5 and b = 0.5 為我們資產配置各一半,其中共變異數將在下頁說明

  • 共變異數

  • 結果

  • 標準差為其投資組合風險,期望值為投資應能得到的報酬,實際獲利範圍應為\(期望值 * \pm 標準差 \)

binomial 二項

  • 此公式可以找出在 y 次實驗中 x 次成功的機率分布
  • 透過 n 個相同實驗組成
  • 每一次的實驗都有兩個結果,成功或失敗
  • 平穩性假設 (stationarity assumption)
    成功的機率(p),在每一項實驗都是獨立,亦即不會受到其他實驗影響
  • Probability Distributions APP - binomial
    • n 實驗的次數
    • p 實驗的成功機率
    • x 我們想要知道的實驗成功次數

      舉例 - 員工離職


需要注意的是員工只可以離職一次,因此我們找出員工的離職機率只可以是離職一次的機率


Expected Value and Variance and Standarad Deviation

  • Excpected Value
    \(E(x) = np = \mu \)
  • Variance
    \(Var(x) = np(1-p) = \sigma^2 \)
  • Standard Deviation
    \(\sigma = \sqrt{np(1-p)}\)
  • p 為我們想要得到的實驗結果機率

QUESTION A: 此 3 個員工明年會有一個人想要離職的機率是多少

設 n = 3 , p = 0.1 , x = 1 再透過 Probability Distributions APP 可以得出 0.243

negative binomial 負二項

  • 需要多少次的實驗才能達到我們的期望結果
  • 每一次的實驗都有兩個結果,成功或失敗
  • 透過 n 個相同實驗組成
  • 平穩性假設 (stationarity assumption)
    成功的機率(p),在每一項實驗都是獨立,亦即不會受到其他實驗影響
  • 實驗只會進行到第一次我們期望結果,就結束
  • Probability Distributions APP - binomial(2)
    • r 實驗成功的次數
    • p 實驗的成功機率
    • x 我們想要知道可以符合我們的實驗次數

舉例 - 我們想要知道擲五次硬幣,有兩次正面的機率是多少,投擲正反面的機率都是 0.5

設 r = 2 , p = 0.5 , x = 5 再透過 Probability Distributions APP 可以得出 0.125

Expected Value and Variance

  • Expected Value
    \(E(x) = \mu = \frac{r}{p} \)
  • Variance
    \(Var(x) = \sigma^2 = \frac{r(1-p)}{p^2}\)

geometric 幾何

  • 每一次的實驗都有兩個結果,成功或失敗
  • 平穩性假設 (stationarity assumption)
    成功的機率(p),在每一項實驗都是獨立,亦即不會受到其他實驗影響
  • geometric 是 negative binomial 的特例
  • 需要一次我們想要的期望結果的成功次數
  • 如果將 negative binomial r = 1,即變成了 geometric
  • Probability Distributions APP - Geometric(2)
    • x 實驗 x 後第一次我們想要的結果出現
    • p 實驗的成功機率

舉例 - 擲四次硬幣,前面三次都是反面,最後一次為正面的機率是多少,投擲正反面的機率都是 0.5

設 p = 0.5 , x = 4,再透過 Probability Distributions APP 可以得出 0.0625

Expected Value and Variance

  • Expected Value
    \(E(x) = \mu = \frac{1}{p} \)
  • Variance
    \(Var(x) = \sigma^2 = \frac{(1-p)}{p^2}\)

Poisson 卜瓦松

  • Poisson 通常用於一段區間或時間內發生的次數,為離散的隨機變數,可以是無限的序列,即 x 趨近於無限
  • Poisson 的二個性質
    • 在兩個相同長度但並不是同一個區間,發生的機率可能相同
    • 發生與不發生為獨立事件,兩者沒有任何關係
  • 一個應用舉例關於 Poisson
    • 一小時內到達收費站的車輛數量
  • Probability Distributions APP - Poisson
    • \(\lambda \) 平均值 or 期望值
    • x 一個區間發生的次數

舉例 - 周末晚上通常每小時會有 6 個病人到急診室,想請問 30 分鐘內會有 4 個人到達的機率是多少

設 \(\lambda \) = 3 , x = 4 ,再透過 Probability Distributions APP 可以得出 0.16803

Expected Value and Variance

  • Expected Value = Mean = \(\mu = \sigma^2 \)
  • Variance \(Var(x) = \sigma^2\)

hypergeometric 超幾何

  • hypergeometric 可以找出 n 次實驗中成功的機率但實驗結果並不具有獨立性,且 x 趨近於無限
  • hypergeometric 的兩個性質
    • 與 binomial 相似
    • 但實驗不獨立,也就是前面做的實驗會影響到下一次的實驗
  • Probability Distributions APP - hypergeometric
    • x 為實驗成功次數
    • n 為我們希望發生的實驗次數
    • N 為實際上會有的實驗結果
    • M 為我們想知道的成功次數
  • hypergeometric 限制
    • 我們想知道的成功次數不可以大於我們想知道的成功次數,即 \(x \leq M\)
    • \(n-x \leq N - M \),即我們不想知道的失敗次數一定要大於或等於會失敗的次數
    • 沒有滿足上面兩條件則機率必定是 0
  • 當母體極大時,可以使用 binomial 來近似
  • hypergeometric 的其他變數,透過 binomial 來算出的變數
    • \(p = \frac{M}{N}\) 為第一次發生實驗成功的機率
    • 如果母體值極大,也就表示 \((N-n) / (N-1) = 1 \),極限的概念
    • Expect Value = \( E(x) = np\)
    • Variance = \(Var(x) = np(1-p) \)

舉例 - 手中有兩顆沒電的電池與全新電池,現在隨機選擇兩顆電池,能拿到全新的電池機率是多少

  • x = 2 我們想知道選到兩顆好電池的機率
  • n = 2 我們隨機選擇兩顆電池
  • N = 4 這四顆電池我們都有機會拿到,因此我們的實驗結果會有 4 個
  • M = 2 其中成功的機率最高為 2 次,因為好電池只有兩顆
  • 透過 Probability Distributions APP 可以得出 0.1667

Expected Value and Variance

  • Expected Value = Mean = \(\mu = n \frac{M}{N} \)
  • Variance \(Var(x) = \sigma^2 = n(\frac{M}{N})(1- \frac{M}{N})(\frac{N-n}{N-1})\)

Chapter 6 Continuous Probability Distributions 連續機率分布

Continuous random variable(連續隨機變數) 為一個區間的任何數值,特質為下

  • 沒辦法去討論特定的值,每一個點的機率都為零
  • 連續機率分布討論隨機變量在區間中取值的機率
  • 透過兩個點連線(\(x_1 , x_2 \))的區間為機率圖下的面積
    • Uniform

    • Normal

    • Exponential

  • 連續機率分布的變數,個人認為不太會用到,如果看之後的 ppt 會用到我在修正
    • Probability density function

Uniform Probability Distribution 均勻機率分配

  • 根據上方 Uniform 的圖 y 軸為 \(1/(b-a) \),x 軸為單位刻度。
  • 只要區間與機率成為正比,隨機變量就會均勻分布
  • 公式
    • \(f(x) = 1 / (b-a) , for \ a \leq x \leq b \\ = 0 , elsewhere \)
    • a 為最小的變數刻度
    • b 為最大的變數刻度
  • Expected Value
    • \(E(x) = (a+b) / 2\)
    • \(Var(x) = (b-a)^2 / 12 \)

舉例 - 顧客通常測取沙拉的分量在 5 ounces and 15 ounces 之間,在平均機率分布下客人拿取 12 ounces ~ 15 ounces 機率多少

  • 畫圖如下

  • 現在要取 12 ounces ~ 15 ounces

  • 期望值就為 \((5+15)/2 = 10 \)
  • 變異數就為 \((15-5)^2 / 12 = 8.33\)

Normal Probability Distribution 常態機率分布

  • Normal Probability Distribution 是 Continuous Probability Distributions 的最重要理論
  • 常被廣泛用於統計推論中,如:降雨量、成績
  • 常態分配為對稱,沒有 skewness
  • 圖形中的最高點為,mean、median、mode,圖形寬度隨著標準差拉大或拉小
  • 經驗法則
    • 68.26% 的值會落在正負一個標準差
    • 95.44% 的值會落在正負兩個標準差
    • 99.72% 的值會落在正負三個標準差
  • Probability Distributions APP - Normal
    • \(\mu \) 平均值
    • \(\sigma \) 標準差
    • x 我們所要詢問的值

Standard Normal Probability Distribution 標準常態機率分布

當平均值等於零且標準差為一時,則是 Standard Normal Probability Distribution

  • 將常態機率分配轉換成標準常態機率分配,透過 z 來轉換
    \(z = \frac{x-\mu }{\sigma}\),
  • z 的值介於 1 ~ -1 之間,是標準常態分配的 x 軸

舉例 - 商店銷售機油,當機油庫存少於 20 gallons 時要補貨,經理不希望有缺貨的時機,目前確定標準差為 6、平均值為 15、使用常態分布,想詢問當需求訂單超過 20 gallons 時機率為多少

  • 畫圖

  • 透過 Probability Distributions APP 可以得出 0.2033
    • \(\sigma = 6 \)
    • \(\mu = 15 \)
    • \(x > 20 \)
    • 圖片

舉例 - 承上一個舉例,經理希望缺貨的可能性不超過 0.05,那應該甚麼時候補貨

我們可以透過標準常態機率分配,來找出適合的補貨點,需要使用到 z,來轉換成標準常態機率分配,因為經理已經說了希望缺貨的可能性不超過 0.05,透過查表的方式可以找出。
如果是透過手機,就用二分搜尋逼近 x 值即可

  • 查完表後,找到適合的 z 值,在帶回 z 函數,可以推出 \( x = \mu + z_0.05 * \sigma \)

Normal Approximation of Binomial Probabilities 常態近似二項機率分配

當實驗次數增加後,很難手動或使用計算機來計算二項式機率函數,常態近似二項機率分配可以幫助我們快速計算二項機率分布的值近似值,下面說說一些限制要求與條件。

  • \(np \geq 5 \)
  • \(n(1-p) \geq 5 \)
  • \(\mu = np \)
  • \(\sigma = \sqrt{np(1-p)}\)
  • 因為是使用連續分布來近似離散分布,所以要透過加減來校正因子
    舉例,如果是要問 x = 12 時且單位量為 1 時,我們使用常態近似二項機率分配則要 \(P(11.5 < x < 12.5) \),因為區間對於單位點的機率都是零

舉例 - 公司有 10% 的發票記錄錯誤,隨機選了 100 張發票,試問裡面會有 12 張發票記錄錯誤的機率,使用常態近似二項機率分配

  • 先判斷是否有超過限制
    • \( np = 100(0.1) = 10 \geq 5 \),有符合
    • \(n(1-p) = 100(0.9) = 90 \geq 5 \),有符合
    • \(\mu = np = 100(0.1) = 10 \))
    • \(\sigma = \sqrt{np(1-p)} = [100(0.1)(0.9)]^(\frac{1}{2}) = 3 \)
  • 透過 Probability Distributions APP 可以得出 0.1052
    • \(mu = 10\)
    • \(\sigma = 3 \)
    • \(x < 11.5 = 0.7967 \)
    • \(x < 12.5 = 0.6915 \)
    • \(0.7967 - 0.6915 = 0.1052 \)

Exponential Probability Distribution 指數機率分配

  • Exponential Probability Distribution 用來描述完成任務所需要的時間,應用如
    • 車輛到達收費站德時間
    • 完成問卷需要的時間
  • 指數機率分佈的標準差與平均值皆相等
  • 指數機率分佈向右偏(即圖形主要面積在左邊),偏度為二
  • Probability Distributions APP - Exponential
    • \(\lambda = \frac{1}{\mu}\)
    • x 為我們所期望得到的目標,如找出一段時間內 x 次紅綠燈為紅燈的次數

舉例 - 從家裡到火車站平均開車時間為 3 分鐘,透過指數機率分布,想找出連續兩次到達時間不大於兩分鐘的機率是多少

  • 透過 Probability Distributions APP 可以得出 0.4862
    • \(\lambda = 0.3333 = \frac{1}{\mu} \)
    • \(x <= 2 \)
    • 圖片

  • 版權聲明: 本部落格所有文章除有特別聲明外,均採用 Apache License 2.0 許可協議。轉載請註明出處!
  • © 2020-2024 John Doe
  • Powered by Hexo Theme Ayer
  • PV: UV: