抽樣
A+醫學百科 >> 抽樣 |
抽樣(sampling),從研究對象的全體(統計學上稱為總體)中隨機抽取一部分(統計學上稱為樣本)進行研究,並據以論斷總體特徵的統計學方法。在醫學中廣泛採用。例如,為了制訂中國少年兒童生長發育時身體的正常值,中國3億少年兒童就是研究的總體,在用抽樣方法進行研究時,只需從總體中抽取一個樣本(如10萬人)進行身體測量,最後以此10萬人的測量結果來推論全國少年兒童身體生長發育的正常值。用樣本來推論總體是有條件的,並不是從總體中抽取的任何一部分樣本都可用來推論總體,只有在解決了樣本的代表性、可比性的前提下,掌握了抽樣誤差的大小及發生機率時,才能用樣本來推論總體。此即抽樣研究中的四性(代表性、可靠性、可比性、顯著性)。
目錄 |
樣本的代表性
一個有代表性的樣本,必須是總體的一個具體而微的縮影,也就是說,樣本除了比總體小以外,在組成、變異等特徵方面,均應與總體相同。上例中,中國的3億少年兒童是由地理區域、民族、家庭經濟狀況、文化背景各不相同的少年兒童組成。從中抽取的10萬人的樣本,也必須包括地理區域、民族、家庭經濟狀況、文化背景各不相同的少年兒童,而且各特徵的內部構成必須與總體基本一致。如果只抽南方兒童,某個測量指標將偏低,如果只抽北方兒童,此測量指標必然偏高。又如,欲了解某藥對急性細菌性痢疾的療效,如果只抽取在傳染病院住院的急性菌痢病人為樣本,那麼它對總體來說就沒有代表性,因為急性菌痢有輕有重,而病情的輕重是影響療效的重要因素,住院者多為重症,故其療效實際是對重症急性菌痢的療效,而不能代表全部急性菌痢的療效。為了保證樣本具有代表性,首先要對研究的總體有十分明確的認識,例如,為了研究某藥對細菌性痢疾的療效,研究總體就應包括急性、慢性、不同年齡不同病情不同菌型的患者的全體。具有代表性的樣本就必須包括上述各種類型的病人。又如為了研究某藥對兒童急性普通型菌痢的療效,則研究總體就是15歲以下,不合併中毒性休克的急性菌痢患者的全體。此時抽樣只需包括15歲以下,無中毒性休克的急性菌痢病人。上述第一種情況中,總體範圍太大,樣本數量必然很大,而實際工作中,往往不能達到如此大的樣本。後一種情況中,由於總體範圍較小,抽樣容易得多,但其結論也只能推論14歲以下普通型急性菌痢的療效,而不能推廣至各種類型的菌痢患者。另外,當研究總體不夠明確、具體時,往往易導致系統誤差。例如,要研究3歲兒童的身高,就必須明確規定出生年月的範圍(如1986年滿 3周歲的兒童應為1983年1月1日至1983年12月31日出生的兒童),否則由於各地計算年齡的方法不同,則很可能將不到3歲的孩子誤抽為樣本,這樣必然影響研究結果的準確性。
為了保證樣本具有代表性,抽樣時還應當遵守隨機的原則,即要保證總體中,每個個體都有同等機會被抽到。例如,要在某工廠內觀察某中藥對某病的療效,除對影響該病的因素(如病程、病情等)要作明確具體的規定外,還要使在規定範圍內的全體病人中,每個人都有同等的被抽取為觀察對象的機會。如可按病人的工作證號編碼抽樣,也可按車間班組抽樣,而不能由醫務室提供受試者名單,因為這樣提供的名單往往是病程長、病情重或經其他藥物治療無效者的名單。同樣,也不能讓患者自願報名受試。因為一般中藥服用較麻煩,且味苦,故多數患者往往先選擇服用簡便的藥物,如果讓患者自願報名,則多數受試者,必然是療程過長或其他藥物治療無效者。
樣本的可靠性
一個有代表性的樣本,不一定就可以用來推論總體,這是因為從有變異的總體中抽取樣本,即使遵循了隨機化的原則,偶然的抽樣機遇也會使樣本與總體之間有一定的差異。例如,在某地正常成年人的總體中,隨機抽取1000人,測定血清谷氨酸-丙氨酸轉氨酶(GPT)的平均值為85單位。在同樣條件下(抽樣方法、檢測技術、儀器試藥均相同)再抽取1000人進行測定,則平均值不一定仍是85單位,而可能是75、80或90單位等。如果由於偶然的機會,多抽取了一些GPT高的人,所得平均值就偏高。多抽取了一些 GPT低的人,平均值就偏低。這種偶然的抽樣機會導致的誤差,在統計學上稱為抽樣誤差。抽樣誤差在抽樣調查中客觀存在,不可避免。因此,在用樣本推論總體時,必須考慮抽樣誤差的大小及其發生規律,從而藉此確定用樣本推論總體的可信程度。
標準誤
用來表示抽樣誤差大小的指標,實際是均數的標準差(見平均數、變異度)。在統計學中標準差是反映事物變異程度的指標。例如20歲左右女青年的身高可以1.5米至1.9米,但若分別測量兩組同年齡的女青年(賓館服務員和大學生)的身高並計算其標準差,則結果必然是大學生組的標準差大於賓館服務員組。這是因為招收賓館服務員時身高有一定的要求,過矮過高的都不錄取,故她們的身高變異程度小,或者說身高較整齊;而大學生的身高並非錄取條件,故她們的身高參差不齊,或者說變異程度大。設有一研究總體,總體均數為 μ,在此總體中,多次重複抽樣,每次抽樣均可得到一個樣本均數,這些樣本均數必然有的比 μ大,有的比μ 小;有的距離μ 較近,有的距離μ 很遠。這些樣本均數也有一個變異程度,用來表示這種變異程度的指標就是均數的標準差,或稱為標準誤。
標準誤(抽樣誤差)的大小與該事物的變異程度成正比(從變異大的總體中抽樣,抽樣誤差大,反之抽樣誤差小),與樣本數的平方根成反比(樣本數愈大,抽樣誤差愈小)。
可信限
也稱可信區間。樣本統計值與總體統計值之間,由於偶然的抽樣機遇總會存在一定的差異。因此,用樣本推論總體時,只能推論總體所在的範圍,及在此範圍內的機率,而不可能確切推論總體的統計值。這種用樣本推論總體所在的範圍,即稱為可信限,常用的有95%及99%的可信限。以下簡述其原理及計算方法。
假設某地區全部正常成年人的血清膽固醇的總平均值為160mg/100ml,在此總體內重複抽樣1000次,則可得1000個樣本均數。可以看到這些樣本均數有的比 160大,有的比160小,但與160接近的最多,距離160往兩端愈遠的愈少。如果把這些樣本均數的分布用直方圖表示,即可得圖1。圖中橫軸為均數的組段(血清膽固醇),縱軸為樣本數。若抽樣次數再增加,組再分細,則可得圖2。當抽樣次數增加到無限多,直方圖的鋸齒消失,成為一條光滑的曲線,即圖3,此曲線與統計學中的正態曲線極為近似。因此可以借用正態曲線的規律來推論總體所在的範圍。
正態曲線
以總體均數為中心(最高點),往兩端逐漸降低但與橫軸永不相交,兩側完全對稱的鐘形曲線(圖 4)。若以此曲線下的總面積為100%,以μ 表示總體均數,σ塣表示總體標準誤,則曲線下各部分的面積有如下分布規律:
μ±σ塣的面積占曲線下總面積的68.27%
μ±1.96σ塣的面積占曲線下總面積的95.00%
μ±2.58σ塣的面積占曲線下總面積的99.00%總體標準誤 σ塣 是說明樣本均數圍繞總體均數變異程度的指標,在實際工作中常用樣本標準誤S塣來代替。μ±S塣的面積佔總面積的68%的含義是:若從同一總體中重複抽取100個樣本,則這100個樣本均數有68個在 μ±S塣的範圍內,比 μ-S塣小的和比μ+S塣大的樣本均數各有16個。換一個角度來說,68%就是一個樣本均數落在μ-S塣至 μ+S塣範圍內的機率。
同理, μ±1.96S塣的面積佔總面積的95%,這說明一個樣本均數落在 μ-1.96S塣至μ+1.96S塣範圍內的可能性是95%,而比 μ-1.96S塣小的和比μ+1.96S塣大的可能性各有2.5%。μ±2.58S塣的面積,佔總面積的99%,這說明一個樣本均數落在 μ-2.58S塣至μ+2.58S塣範圍內的可能性是99%,在此範圍以外的可能性只有1%。
以上規律是樣本均數(塢),距離總體均數(μ)的規律,但也可把它視為總體均數離開樣本均數的規律,因為在實際工作中,可以得到的是樣本均數,要推論的是總體均數。既然樣本均數與總體均數相差±S塣的機率是68%,相差±1.96S塣的機率是95%;那麼總體均數與樣本均數相差±S塣的機率當然也是68%,總體均數與樣本均數相差 ±1.96S塣的機率也是95% 。因此所謂 塢±1.96S塣即95%的可信限。它的含意是:總體均數在塢±1.96S塣範圍內的機率是95%。或者說總體均數在 塢±1.96S塣範圍內的可信程度是95%。所謂塢±2.58S塣即99%的可信限,它的含意是,總體均數在 塢±2.58S塣範圍內的機率是99%,或者說總體均數在 塢±2.58S塣範圍內的可信程度為99%。
例如,為了了解某地正常成年人血清膽固醇的平均值,隨機抽取500人,測得樣本均值塢=165.0mg/100ml,標準差S=52.0mg/ml,並由n=500求得S塣=2.33mg/100ml;則95%的可信限為:165±1.96×2.33,即160.43~169.57mg/100ml。這說明該地區正常成年人血清膽固醇的平均值在160.43~169.57mg/100ml範圍內的機率為95%。
樣本的可比性
在醫學研究中,常常需要判斷某種治療或預防措施的效果;也常需要分析研究影響疾病發生及轉歸的因素。在解決這兩類問題時,往往要同時抽取兩個或兩個以上的樣本進行對比分析,因為許多疾病可能自愈或自然緩解,沒有對比分析就很難下結論。例如,有人用柳樹葉治療急性黃疸型肝炎(以下簡稱急黃肝)120例,10周後基本治癒者93例,治癒率為 77.5%。於是下結論:「柳葉治療急黃肝療效好」。這樣的結論是不科學的。實際上,急黃肝只要注意休息、營養,不給任何特殊治療,10周後也必然會有一部分人自愈。如有人曾對與上述病人相同的70例急黃肝進行觀察,除維生素B、C及酵母外,不給其他任何藥物,10周後基本治癒的49例,治癒率70%,這說明急黃肝不給特殊治療,也有70%自愈,所謂77.5%的柳樹葉療效實際上是虛假的。
在對比分析研究時,最重要的前提是對比組之間必須具有可比性。樣本間的可比性指相互比較的樣本之間,除了要比較的因素(如不同藥物)以外,其他影響研究結果的主要因素要控制得基本相同。例如,要比較不同治療方法對高血壓病的療效時,比較組間除治療方法不同以外,其他影響治療效果的主要因素,如病情、病人的年齡等均應控制得基本相同。
表1、表2為不同方劑對高血壓病療效的資料。不能根據表2就得出結論:小方劑的療效比大方劑好,因為從表1可以看出兩組病人的病情相差很大。大方劑組中Ⅰ期病人佔28.8%,其餘為Ⅱ、Ⅲ期病人;而小方劑組中Ⅰ期病人佔55.9%,其餘為Ⅱ、Ⅲ期病人。這說明大方劑組病人病情重得多。這組病人的療效不好是因為治療方法不好(方劑過大)還是病情較重,據此資料是不能斷定的。
控制樣本間的可比性,實際是去除混雜因素的干擾。表3、表4為高血壓流行學調查報告的資料。研究者分析了高血壓的患病率與吸煙和年齡的關係,經顯著性檢驗後,認為這兩個因素均影響高血壓的患病率。兩個表的觀察總數均為1133,但表 3在吸煙組與不吸煙組中,並未控制年齡基本相同;而表4未控制各年齡組中,吸煙者的比重基本一致,故上述結論是站不住腳的。正確的做法應該將兩個因素放在一起來考慮,如表5所示,表中縱向看為吸煙的和不吸煙的不同年齡組的患病率;橫向看則為在同一年齡組中(即控制年齡相同)吸煙者和不吸煙者的患病率。表5表明高血壓的患病率與病人的年齡有關(隨年齡升高而升高),而與吸煙無關。應該指出表5這樣的組合表的分析,只適用於因素較少的情況(一般3~4個因素)。因素過多時,分組過多,每個格子內的數據就少,而樣本往往達不到足夠分析的數量,因素較多時,一般用多元分析的方法處理(見多變數統計分析)。
樣本的顯著性
若同時抽取多個樣本進行研究,則同樣也存在抽樣誤差問題。大量實踐證明,黃連素治療急性普通型細菌性痢疾的療效為90%。設某中草藥治療同類痢疾的總有效率為70%。若從黃連素治療的急性菌痢總體中抽樣,由於抽樣機遇完全可能得到p1及p2的樣本(圖5),當然,也可以得到其他數值的樣本。同理,在用中草藥治療的急性菌痢總體中抽樣,也完全可能得到p3及p4的樣本。p1和p2來自同一總體,它們之間有10%的差異,這是由於抽樣的偶然機遇所致。p1與p3之間也有10%的差異,但它們來自不同的總體,這種差異是本質因素(本例為治療藥物不同)不同所致。由此可見:當兩樣本(或多樣本)間有差異時,其來源有兩種可能性,一是兩樣本間本來沒有什麼差異,它們來自同一總體,它們之間的差異是偶然的抽樣機遇所致,是沒有意義的;另一種情況是兩樣本來自本質不同的兩個總體,它們之間的差異不能用偶然的抽樣機遇來解釋,是有意義的。統計學中的顯著性檢驗,即用以檢驗這兩類差異中,哪一類發生的可能性大。顯著性檢驗的方法很多,但無論哪一種方法,其基本原理都是先假設兩樣本來自同一總體,即先假設兩樣本之間的差異是偶然的抽樣機遇所致,是沒有意義的(這一假設在統計學上,稱為檢驗假設或無效假設)。然後根據一定的公式計算,獲得兩樣本之差由偶然的抽樣機遇所致的機率p值。若p值大,說明兩樣本之間的差異由偶然的抽樣機遇所致的機會大,符合原假設,不能推翻原假設,也即兩樣本之間,無本質差別,或差異無意義(無顯著性)。若p值小,說明兩樣本之間的差異由偶然的抽樣機遇所致的機會小,故可以推翻原假設,也即兩樣本之間的差異是由某些本質因素不同所致,是有意義的(有顯著性)。統計學上人為規定顯著性的界限如下:p≤0.05為有顯著性,p>0.05為無顯著性,p≤0.01為有極(高度)顯著性。應當強調的是,p值的大小與樣本間差異的大小是兩回事,p值說明的是樣本間的差異由偶然抽樣機遇所致的機率大小,而不是樣本間的差異大小。另外,只有在樣本具有可比性的前提下,進行顯著性檢驗才有意義,否則p值再小,也不能反映樣本間的差異有意義。
關於「抽樣」的留言: | 訂閱討論RSS |
目前暫無留言 | |
添加留言 |