預防醫學/常態分佈和醫學正常值範圍的估計
醫學電子書 >> 《預防醫學》 >> 計量數據分析(一) >> 常態分佈和醫學正常值範圍的估計 |
預防醫學 |
|
|
目錄 |
一、常態分佈
(一)常態分佈的圖形
將表18-1的110名20歲健康男大學生身高頻數分布繪成圖18-1中的(1),可見高峰位於中部,左右兩側大致對稱。可以設想,如果抽樣觀察例數逐漸增多,組段不斷分細,就會逐漸形成一條高峰位於中央(均數所在處)、兩側完全對稱地降低、但永遠不與橫軸相交的鐘型曲線(圖18-1中的(3)),這條曲線近似於數學上的常態分佈(normal distribution)曲線。
統計學家按其變化參數,推導出常態分佈密度函數f(X)
-∞<X<+∞公式(18.16)
式中μ為均數;σ為標準差;π為圓周率;е為自然對數的底,即2.71828。以上均為常數,僅X為變數。
為了應用方便,常將式(18.16)進行變數變換—u變換(即u=(X-μ)/σ),u變換後,μ=0,σ=1,使原來的常態分佈變換為標準常態分佈(standard normaldistribution)亦稱u分布,如圖18-2。
圖18-1 頻數分布逐漸接近常態分佈示意
圖18-2 常態分佈與標準常態分佈的面積與縱高
此時,式( 18.16)化成
- ∞<u<+∞ 公式(18.17)
式中,φ(u)為標準常態分佈的密度函數,即縱軸高度。
根據X和u的不同取值,分別按式(18.16)和式(18.17)可以繪出常態分佈和標準常態分佈的圖形(圖18-2)。
(二)常態分佈的特徵
由式(18.16 )gn (18.17)可看出常態分佈有下列特徵:①正態曲線(normal curve)在橫軸上方均數處最高。②常態分佈以均數為中心,左右對稱。③常態分佈兩個參數(parameter),即均數μ和標準差σ;常用N(μ,σ)表示均數為μ、標準差為σ的常態分佈;所以標準常態分佈用N(0,1)表示。④正態曲線在±1σ處各有一人拐點。⑤正態曲線下的面積分布有一定的規律。
二、正態曲線下面積的分布規律
正態曲線下一定區間的面積可以通過對式(18.16)和式(18.17)積分求得。為了省去計算的麻煩,有人按式(18.17)編成了附表18-1「標準常態分佈曲線下的面積」通過查表可求出正態曲線下某區間的面積,進而估計該區間的觀察例數佔總例數的百分數或變數值落在該區間的機率。查表時應注意:①表中曲線下面積為自-∞到u的面積;②當μ,σ已知時,先根據u變換(即u=(X-μ)/σ)求得u值,再查表;③當μ,σ未知且樣本含量n足夠大時,常用樣本均數x和樣本標準差s分別代替μ和σ進行u變換[即u=(X-μ)/S],求得u的估計值,再查表;④曲線下對稱於0的區間面積相等,如區間(-∞,-1.96)與區間(1.96,+∞)的面積相等;⑤曲線下橫軸上的總面積為100%或1。
下面三個區間的面積應用較多,要求記住,並結合圖18-3理解其意義。①標準常態分佈時區間(-1,1)或常態分佈時區間(μ-1σ,μ+1σ)的面積佔總面積的68.27%;②標準常態分佈時間(-1.96,1.96)或常態分佈時區間(μ-1.96,μ+1.96)的面積佔總面積的95.00%;③標準常態分佈區間(-2.58,2.58)或常態分佈時間區(μ-2.58,μ+2.58)的面積佔總面積的99.00%。
圖18-3 正態與標準正態曲線及其面積分布
三、醫學正常值範圍的估計
(一)正常值範圍(normal range)的意義
正常值是指正常人體或動物體的各種生理常數,正常人體液和排泄物中某種生理、生化指標或某種元素的含量,以及人體對各種試驗的正常反應值等。由於存在變異,各種數據不僅因人而異,而且同一個人還會隨機體內外環境的改變而改變,因而需要確定其波動的範圍,即正常值範圍。
制定正常值範圍,①首先要確定一批樣本含量足夠在的「正常人」。所謂「正常人」不是指機體任何器官、組織的形態及機能都正常的人,而是指排除了影響所研究指標的疾病的有關因素的同質人群。②根據指標的實際用途確定單側或雙側界值:若某種指標過高或過低均屬異常,需要確定正常值範圍的下限和上限,如白細胞計數;若某指標過高為異常,需確定上限,如尿鉛;若某指標過低為異常,需確定下限,如肺活量。③根據研究目的的和實用要求選定適當的百分界值,常用80%、90%、95%或99%,其中最常用的是95%。④根據資料的分布特點,選用恰當的界值計算方法,如常態分佈資料用常態分佈法;對數常態分佈資料用對數常態分佈法;偏態分布資料用百分位數法。
(二)正常值範圍估計
計算正常值百分界值的方法甚多,如常態分佈法、對數常態分佈法、正態機率紙法、百分位數法、曲線擬合法、容許區間法等。現以95%正常值範圍為例,主要介紹以下三種。
1.常態分佈法:適用於正誠或近似常態分佈資料。
雙側界值:x±1.96s
單側上界:x+1.645s
單側下界:x-1.645s
2.對數常態分佈法:適用於對數常態分佈資料。
雙側界值:lg-1(xlgx±1.96slgx)
單側上界:lg-1(xlgx+1.645slgx)
單側下界:lg-1(xlgx-1.645slgx)
3.百分位數法:常用於偏態分布資料。
雙側界值:P2.5和P97.5
單側上界:P95
單側下界:P5
例18.13 試估計表18-1中110名20歲健康男大學生身高的95%正常值範圍。
該指標計算雙側界值
x±1.96s=172.73±1.96×4.09
該指標的95%正常值範圍為 164.71~180.75(cm)
例18.14 某年某市調查了200例正常成人血鉛含量(μg/100g)如下,試估計該市成人血鉛含量95%正常值範圍單側上界。
3 | 4 | 4 | 4 | 4 | 4 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 5 | 6 | 6 | 6 | 6 |
6 | 6 | 6 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 7 | 8 | 8 | 8 | 8 |
8 | 8 | 8 | 8 | 8 | 8 | 8 | 9 | 9 | 9 | 9 | 9 | 9 | 9 | 10 | 10 | 10 | 10 | 10 | 10 |
10 | 10 | 10 | 11 | 11 | 11 | 11 | 11 | 12 | 12 | 12 | 12 | 12 | 12 | 12 | 13 | 13 | 13 | 13 | 13 |
13 | 13 | 13 | 13 | 13 | 13 | 13 | 14 | 14 | 14 | 14 | 14 | 14 | 14 | 14 | 14 | 14 | 15 | 15 | 15 |
15 | 15 | 15 | 15 | 16 | 16 | 16 | 16 | 16 | 16 | 17 | 17 | 17 | 17 | 17 | 17 | 17 | 17 | 17 | 17 |
17 | 17 | 18 | 18 | 18 | 18 | 18 | 19 | 19 | 19 | 19 | 19 | 19 | 20 | 20 | 20 | 20 | 20 | 20 | 20 |
20 | 21 | 21 | 21 | 21 | 21 | 22 | 22 | 22 | 22 | 22 | 22 | 23 | 23 | 23 | 24 | 24 | 24 | 24 | 24 |
24 | 25 | 25 | 26 | 26 | 26 | 26 | 26 | 27 | 27 | 28 | 28 | 29 | 29 | 30 | 30 | 31 | 31 | 31 | 31 |
32 | 32 | 32 | 32 | 32 | 32 | 33 | 33 | 36 | 38 | 38 | 39 | 40 | 41 | 41 | 43 | 47 | 50 | 53 | 60 |
該資料為偏態分布,經對數變換(即原始數據取對數)後,整理成頻數表,見表18-5。從頻數分布看,近似常態分佈,計算對數形式的均數與標準差,得:
xlgx=Σflgx/Σf=230.0/200=1.15
其95%正常值範圍的單側上界為lg-1xlgx+1.645slgx)=lg-11。5942=39(μg/100g)
即該市正常成人血鉛含量的95%正常值為39μg/100g以下。
例18.15 試用百分位數法估計例18.14資料的95%正常值的單側上界。
該資料不經對數轉換時為偏態分布,也可用百分位數法估計。先整理成頻數表,見表18-6。
P95=L+i/f95(n×95%-ΣfL)=38+5/7(200×95%-189)=38.7(μg/100g)
表18-5 200名血鉛值對數變換後的頻數表及gx slgx計算表
對數組段 | 頻數f | 組中值(lgX) | flgX | FlgX2 |
0.45~ | 1 | 0.5 | 0.5 | 0.25 |
0.55~ | 5 | 0.6 | 3.0 | 1.80 |
0.65~ | 10 | 0.7 | 7.0 | 4.90 |
0.75~ | 20 | 0.8 | 16.0 | 12.80 |
0.85~ | 11 | 0.9 | 9.9 | 8.91 |
0.95~ | 21 | 1.0 | 21.0 | 21.00 |
1.05~ | 29 | 1.1 | 31.9 | 35.09 |
1.15~ | 25 | 1.2 | 30.0 | 36.00 |
1.25~ | 30 | 1.3 | 39.0 | 50.07 |
1.35~ | 20 | 1.4 | 28.0 | 39.20 |
1.45~ | 16 | 1.5 | 24.0 | 36.00 |
1.55~ | 8 | 1.6 | 12.8 | 20.48 |
1.65~ | 3 | 1.7 | 5.1 | 8.67 |
1.75~1.84 | 1 | 1.8 | 1.8 | 3.24 |
合計 | 200 | 230.00 | 279.04 |
表18-6 200名血鉛值頻數表及P95計算表
組段 | 頻數f | 累計頻數Σf | 累計頻率(%) |
3~ | 36 | 36 | 18.0 |
8~ | 39 | 75 | 37.5 |
13~ | 47 | 122 | 61.0 |
18~ | 30 | 152 | 76.0 |
23~ | 18 | 170 | 85.0 |
28~ | 16 | 186 | 93.0 |
33~ | 3 | 189 | 94.5 |
38~ | 7 | 196 | 98.0 |
43~ | 1 | 197 | 98.5 |
48~ | 1 | 198 | 99.0 |
53~ | 1 | 199 | 99.5 |
58~62 | 1 | 200 | 100.0 |
離散趨勢指標 | 附表:標準常態分佈曲線下的面積 |
關於「預防醫學/常態分佈和醫學正常值範圍的估計」的留言: | 訂閱討論RSS |
目前暫無留言 | |
添加留言 |