抽樣

跳轉到: 導航, 搜索

抽樣(sampling)，從研究對象的全體（統計學上稱為總體）中隨機抽取一部分(統計學上稱為樣本)進行研究，並據以論斷總體特徵的統計學方法。在醫學中廣泛採用。例如，為了制訂中國少年兒童生長發育時身體的正常值，中國3億少年兒童就是研究的總體，在用抽樣方法進行研究時，只需從總體中抽取一個樣本(如10萬人)進行身體測量，最後以此10萬人的測量結果來推論全國少年兒童身體生長發育的正常值。用樣本來推論總體是有條件的，並不是從總體中抽取的任何一部分樣本都可用來推論總體，只有在解決了樣本的代表性、可比性的前提下，掌握了抽樣誤差的大小及發生機率時，才能用樣本來推論總體。此即抽樣研究中的四性（代表性、可靠性、可比性、顯著性）。

樣本的代表性

一個有代表性的樣本，必須是總體的一個具體而微的縮影，也就是說，樣本除了比總體小以外，在組成、變異等特徵方面，均應與總體相同。上例中，中國的3億少年兒童是由地理區域、民族、家庭經濟狀況、文化背景各不相同的少年兒童組成。從中抽取的10萬人的樣本，也必須包括地理區域、民族、家庭經濟狀況、文化背景各不相同的少年兒童，而且各特徵的內部構成必須與總體基本一致。如果只抽南方兒童，某個測量指標將偏低，如果只抽北方兒童，此測量指標必然偏高。又如，欲了解某藥對急性細菌性痢疾的療效，如果只抽取在傳染病院住院的急性菌痢病人為樣本，那麼它對總體來說就沒有代表性，因為急性菌痢有輕有重，而病情的輕重是影響療效的重要因素，住院者多為重症，故其療效實際是對重症急性菌痢的療效，而不能代表全部急性菌痢的療效。為了保證樣本具有代表性，首先要對研究的總體有十分明確的認識，例如，為了研究某藥對細菌性痢疾的療效，研究總體就應包括急性、慢性、不同年齡不同病情不同菌型的患者的全體。具有代表性的樣本就必須包括上述各種類型的病人。又如為了研究某藥對兒童急性普通型菌痢的療效，則研究總體就是15歲以下，不合併中毒性休克的急性菌痢患者的全體。此時抽樣只需包括15歲以下，無中毒性休克的急性菌痢病人。上述第一種情況中，總體範圍太大，樣本數量必然很大，而實際工作中，往往不能達到如此大的樣本。後一種情況中，由於總體範圍較小，抽樣容易得多，但其結論也只能推論14歲以下普通型急性菌痢的療效，而不能推廣至各種類型的菌痢患者。另外，當研究總體不夠明確、具體時，往往易導致系統誤差。例如，要研究3歲兒童的身高，就必須明確規定出生年月的範圍（如1986年滿 3周歲的兒童應為1983年1月1日至1983年12月31日出生的兒童），否則由於各地計算年齡的方法不同，則很可能將不到3歲的孩子誤抽為樣本，這樣必然影響研究結果的準確性。

為了保證樣本具有代表性，抽樣時還應當遵守隨機的原則，即要保證總體中，每個個體都有同等機會被抽到。例如，要在某工廠內觀察某中藥對某病的療效，除對影響該病的因素（如病程、病情等）要作明確具體的規定外，還要使在規定範圍內的全體病人中，每個人都有同等的被抽取為觀察對象的機會。如可按病人的工作證號編碼抽樣，也可按車間班組抽樣，而不能由醫務室提供受試者名單，因為這樣提供的名單往往是病程長、病情重或經其他藥物治療無效者的名單。同樣，也不能讓患者自願報名受試。因為一般中藥服用較麻煩，且味苦，故多數患者往往先選擇服用簡便的藥物，如果讓患者自願報名，則多數受試者，必然是療程過長或其他藥物治療無效者。

樣本的可靠性

一個有代表性的樣本，不一定就可以用來推論總體，這是因為從有變異的總體中抽取樣本，即使遵循了隨機化的原則，偶然的抽樣機遇也會使樣本與總體之間有一定的差異。例如，在某地正常成年人的總體中，隨機抽取1000人，測定血清谷氨酸－丙氨酸轉氨酶(GPT)的平均值為85單位。在同樣條件下(抽樣方法、檢測技術、儀器試藥均相同)再抽取1000人進行測定，則平均值不一定仍是85單位，而可能是75、80或90單位等。如果由於偶然的機會，多抽取了一些GPT高的人，所得平均值就偏高。多抽取了一些 GPT低的人，平均值就偏低。這種偶然的抽樣機會導致的誤差，在統計學上稱為抽樣誤差。抽樣誤差在抽樣調查中客觀存在，不可避免。因此，在用樣本推論總體時，必須考慮抽樣誤差的大小及其發生規律，從而藉此確定用樣本推論總體的可信程度。

標準誤

用來表示抽樣誤差大小的指標，實際是均數的標準差（見平均數、變異度）。在統計學中標準差是反映事物變異程度的指標。例如20歲左右女青年的身高可以1.5米至1.9米，但若分別測量兩組同年齡的女青年（賓館服務員和大學生）的身高並計算其標準差，則結果必然是大學生組的標準差大於賓館服務員組。這是因為招收賓館服務員時身高有一定的要求，過矮過高的都不錄取，故她們的身高變異程度小，或者說身高較整齊；而大學生的身高並非錄取條件，故她們的身高參差不齊，或者說變異程度大。設有一研究總體，總體均數為 μ，在此總體中，多次重複抽樣，每次抽樣均可得到一個樣本均數，這些樣本均數必然有的比 μ大，有的比μ 小；有的距離μ 較近，有的距離μ 很遠。這些樣本均數也有一個變異程度，用來表示這種變異程度的指標就是均數的標準差，或稱為標準誤。

標準誤（抽樣誤差）的大小與該事物的變異程度成正比（從變異大的總體中抽樣，抽樣誤差大，反之抽樣誤差小），與樣本數的平方根成反比（樣本數愈大，抽樣誤差愈小）。

可信限

也稱可信區間。樣本統計值與總體統計值之間，由於偶然的抽樣機遇總會存在一定的差異。因此，用樣本推論總體時，只能推論總體所在的範圍，及在此範圍內的機率，而不可能確切推論總體的統計值。這種用樣本推論總體所在的範圍，即稱為可信限，常用的有95％及99％的可信限。以下簡述其原理及計算方法。

假設某地區全部正常成年人的血清膽固醇的總平均值為160mg/100ml，在此總體內重複抽樣1000次，則可得1000個樣本均數。可以看到這些樣本均數有的比 160大，有的比160小，但與160接近的最多，距離160往兩端愈遠的愈少。如果把這些樣本均數的分布用直方圖表示，即可得圖1。圖中橫軸為均數的組段（血清膽固醇），縱軸為樣本數。若抽樣次數再增加，組再分細，則可得圖2。當抽樣次數增加到無限多，直方圖的鋸齒消失，成為一條光滑的曲線，即圖3，此曲線與統計學中的正態曲線極為近似。因此可以借用正態曲線的規律來推論總體所在的範圍。

正態曲線

以總體均數為中心（最高點），往兩端逐漸降低但與橫軸永不相交，兩側完全對稱的鐘形曲線（圖 4）。若以此曲線下的總面積為100％，以μ 表示總體均數，σ塣表示總體標準誤，則曲線下各部分的面積有如下分布規律：

μ±σ_塣的面積占曲線下總面積的68.27％

μ±1.96σ_塣的面積占曲線下總面積的95.00％

μ±2.58σ_塣的面積占曲線下總面積的99.00％總體標準誤 σ_塣是說明樣本均數圍繞總體均數變異程度的指標，在實際工作中常用樣本標準誤S_塣來代替。μ±S_塣的面積佔總面積的68％的含義是：若從同一總體中重複抽取100個樣本，則這100個樣本均數有68個在 μ±S塣的範圍內，比 μ－S塣小的和比μ＋S_塣大的樣本均數各有16個。換一個角度來說，68％就是一個樣本均數落在μ－S_塣至 μ＋S_塣範圍內的機率。

同理， μ±1.96S_塣的面積佔總面積的95％，這說明一個樣本均數落在 μ－1.96S_塣至μ＋1.96S塣範圍內的可能性是95％，而比 μ－1.96S_塣小的和比μ＋1.96S塣大的可能性各有2.5％。μ±2.58S_塣的面積，佔總面積的99％，這說明一個樣本均數落在 μ－2.58S_塣至μ＋2.58S_塣範圍內的可能性是99％，在此範圍以外的可能性只有1％。

以上規律是樣本均數(塢)，距離總體均數(μ)的規律，但也可把它視為總體均數離開樣本均數的規律，因為在實際工作中，可以得到的是樣本均數，要推論的是總體均數。既然樣本均數與總體均數相差±S_塣的機率是68％，相差±1.96S_塣的機率是95％；那麼總體均數與樣本均數相差±S_塣的機率當然也是68％，總體均數與樣本均數相差 ±1.96S_塣的機率也是95％。因此所謂塢±1.96S_塣即95％的可信限。它的含意是:總體均數在塢±1.96S_塣範圍內的機率是95％。或者說總體均數在塢±1.96S_塣範圍內的可信程度是95％。所謂塢±2.58S_塣即99％的可信限，它的含意是，總體均數在塢±2.58S_塣範圍內的機率是99％，或者說總體均數在塢±2.58S_塣範圍內的可信程度為99％。

例如，為了了解某地正常成年人血清膽固醇的平均值，隨機抽取500人，測得樣本均值塢＝165.0mg/100ml，標準差S=52.0mg/ml，並由n=500求得S塣＝2.33mg/100ml;則95％的可信限為：165±1.96×2.33，即160.43～169.57mg/100ml。這說明該地區正常成年人血清膽固醇的平均值在160.43～169.57mg/100ml範圍內的機率為95％。

樣本的可比性

在醫學研究中，常常需要判斷某種治療或預防措施的效果；也常需要分析研究影響疾病發生及轉歸的因素。在解決這兩類問題時，往往要同時抽取兩個或兩個以上的樣本進行對比分析，因為許多疾病可能自愈或自然緩解，沒有對比分析就很難下結論。例如，有人用柳樹葉治療急性黃疸型肝炎（以下簡稱急黃肝）120例，10周後基本治癒者93例，治癒率為 77.5％。於是下結論：「柳葉治療急黃肝療效好」。這樣的結論是不科學的。實際上，急黃肝只要注意休息、營養，不給任何特殊治療，10周後也必然會有一部分人自愈。如有人曾對與上述病人相同的70例急黃肝進行觀察，除維生素B、C及酵母外，不給其他任何藥物，10周後基本治癒的49例，治癒率70％，這說明急黃肝不給特殊治療，也有70％自愈，所謂77.5％的柳樹葉療效實際上是虛假的。

在對比分析研究時，最重要的前提是對比組之間必須具有可比性。樣本間的可比性指相互比較的樣本之間，除了要比較的因素（如不同藥物）以外，其他影響研究結果的主要因素要控制得基本相同。例如，要比較不同治療方法對高血壓病的療效時，比較組間除治療方法不同以外，其他影響治療效果的主要因素，如病情、病人的年齡等均應控制得基本相同。

表1、表2為不同方劑對高血壓病療效的資料。不能根據表2就得出結論:小方劑的療效比大方劑好，因為從表1可以看出兩組病人的病情相差很大。大方劑組中Ⅰ期病人佔28.8％，其餘為Ⅱ、Ⅲ期病人;而小方劑組中Ⅰ期病人佔55.9％，其餘為Ⅱ、Ⅲ期病人。這說明大方劑組病人病情重得多。這組病人的療效不好是因為治療方法不好（方劑過大）還是病情較重，據此資料是不能斷定的。

控制樣本間的可比性，實際是去除混雜因素的干擾。表3、表4為高血壓流行學調查報告的資料。研究者分析了高血壓的患病率與吸煙和年齡的關係，經顯著性檢驗後，認為這兩個因素均影響高血壓的患病率。兩個表的觀察總數均為1133，但表 3在吸煙組與不吸煙組中，並未控制年齡基本相同；而表4未控制各年齡組中，吸煙者的比重基本一致，故上述結論是站不住腳的。正確的做法應該將兩個因素放在一起來考慮，如表5所示，表中縱向看為吸煙的和不吸煙的不同年齡組的患病率；橫向看則為在同一年齡組中(即控制年齡相同)吸煙者和不吸煙者的患病率。表5表明高血壓的患病率與病人的年齡有關(隨年齡升高而升高)，而與吸煙無關。應該指出表5這樣的組合表的分析，只適用於因素較少的情況（一般3～4個因素）。因素過多時，分組過多，每個格子內的數據就少，而樣本往往達不到足夠分析的數量，因素較多時，一般用多元分析的方法處理（見多變數統計分析）。

樣本的顯著性

若同時抽取多個樣本進行研究，則同樣也存在抽樣誤差問題。大量實踐證明，黃連素治療急性普通型細菌性痢疾的療效為90％。設某中草藥治療同類痢疾的總有效率為70％。若從黃連素治療的急性菌痢總體中抽樣，由於抽樣機遇完全可能得到p₁及p₂的樣本（圖5），當然，也可以得到其他數值的樣本。同理，在用中草藥治療的急性菌痢總體中抽樣，也完全可能得到p₃及p₄的樣本。p₁和p₂來自同一總體，它們之間有10％的差異，這是由於抽樣的偶然機遇所致。p₁與p₃之間也有10％的差異，但它們來自不同的總體，這種差異是本質因素（本例為治療藥物不同）不同所致。由此可見：當兩樣本（或多樣本）間有差異時，其來源有兩種可能性，一是兩樣本間本來沒有什麼差異，它們來自同一總體，它們之間的差異是偶然的抽樣機遇所致，是沒有意義的；另一種情況是兩樣本來自本質不同的兩個總體，它們之間的差異不能用偶然的抽樣機遇來解釋，是有意義的。統計學中的顯著性檢驗，即用以檢驗這兩類差異中，哪一類發生的可能性大。顯著性檢驗的方法很多，但無論哪一種方法，其基本原理都是先假設兩樣本來自同一總體，即先假設兩樣本之間的差異是偶然的抽樣機遇所致，是沒有意義的（這一假設在統計學上，稱為檢驗假設或無效假設）。然後根據一定的公式計算，獲得兩樣本之差由偶然的抽樣機遇所致的機率p值。若p值大，說明兩樣本之間的差異由偶然的抽樣機遇所致的機會大，符合原假設，不能推翻原假設，也即兩樣本之間，無本質差別，或差異無意義（無顯著性）。若p值小，說明兩樣本之間的差異由偶然的抽樣機遇所致的機會小，故可以推翻原假設，也即兩樣本之間的差異是由某些本質因素不同所致，是有意義的（有顯著性）。統計學上人為規定顯著性的界限如下:p≤0.05為有顯著性，p>0.05為無顯著性，p≤0.01為有極(高度)顯著性。應當強調的是，p值的大小與樣本間差異的大小是兩回事，p值說明的是樣本間的差異由偶然抽樣機遇所致的機率大小，而不是樣本間的差異大小。另外，只有在樣本具有可比性的前提下，進行顯著性檢驗才有意義，否則p值再小，也不能反映樣本間的差異有意義。

出自A+醫學百科「抽樣」條目 http://cht.a-hospital.com/w/%E6%8A%BD%E6%A0%B7 轉載請保留此連結

關於「抽樣」的留言：	訂閱討論RSS
目前暫無留言
添加留言

抽樣

目錄

樣本的代表性

樣本的可靠性

標準誤

可信限

正態曲線

樣本的可比性

樣本的顯著性

更多醫學百科條目

個人工具

名字空間

檢視

動作

搜索

導航

功能菜單

工具箱