預防醫學/診斷試驗
醫學電子書 >> 《預防醫學》 >> 診斷試驗和篩檢試驗 >> 診斷試驗 |
預防醫學 |
|
一、概述
正確的診斷在臨床工作中意義重大,它是選擇針對性防治措施的基礎。臨床醫師應當研究和掌握現有診斷試驗的特性和臨床價值,以指導臨床應用。隨著自然科學的進展,新的診斷試驗日益增多。為了提高診斷水平,應研究和評價這些新的診斷試驗,以確定其能否取代或充實現有的診斷方法和能否推廣。本章所討論的診斷試驗含義是廣泛的,它包括各種化驗室檢查,詢問病史,體檢所獲得的資料以及各種影像診斷和儀器診斷等。
診斷試驗主要應用於疾病診斷、疾病隨訪、療效考核以及藥物毒副作用的監測。根據不同的目的選擇適當的診斷試驗。一般說來,臨床醫師經過一定期限的臨床實踐以後,都積累了選擇診斷試驗的經驗。但單憑經驗難免不夠穩妥,有時可以耽誤診斷,未能給患者及時有效的治療,甚至造成不可彌補的損失。掌握科學的研究和評價診斷試驗的方法可為其選擇合理的診斷方法奠定基礎,同時可避免單憑經驗造成的錯誤。
一般說來,臨床醫師須在較長時間內多次使用某項診斷方法,而且在患同種疾病但不同類型的病例身上使用後方可對其性質和實用價值有較深入的理解。掌握科學的研究方法就可縮短上述過程。從文獻中人們不難看到,當推出一項新診斷試驗時,研究人員對該項試驗倍加稱讚,但使用一段時間後,發現其診斷價值並不理想,因此只有不斷地積累經驗,才能對它有較全面的認識。如開始在臨床上應用癌胚抗原時,人們認為它診斷結腸癌非常有價值,但後來發現這種抗原在其他癌症也會出現,甚至在近20%未患癌症的吸煙者中也呈陽性。應當說,開始在臨床上應用時,研究人員並非有意誇大其效率,而是在當時缺乏科學的研究和評價方法。
二、診斷試驗的研究方法和評價指標
(一)診斷試驗的研究方法
1.須同標準診斷方法(金標準,gold standard)進行盲法比較。標準診斷方法是指可靠的,公認的診斷方法,它能正確地區分有病和無病。臨床上常用的標準診斷方法包括病理學檢查,外科手術所見以及長期隨訪病例所獲得的肯定結論。例如,診斷冠心病的標準診斷方法是冠狀動脈造影,診斷腎炎的標準方法是腎組織活檢和屍體解剖,診斷膽結石的標準方法是手術所見。具體作法是運用標準診斷方法,在「盲」的條件下將病例區分為實際有病和無病兩組,再將待評價的診斷試驗與相同病例診斷的結果作比較,然後列出四格表,就可得出真假陽性和真假陰性的結果,如表33-1所示,並計算靈敏度、特異度、預測值和正確指數等。
表33-1 診斷試驗評價指標
金標準 | ||||
有病(D+) | 無病(D-) | |||
診斷 | 陽性(T+) | 真陽性TP | 假陽性FP | TP+FP |
陰性(T-) | 假陰性FN | 真陰性TN | FN+TN | |
合計 | TP+FN | FP+TN | TP+FP+FN+TN |
TN(true negative)=真陰性
FP(false positive)=假陽性
TP(true positive)=真陽性
FN(false negative)=假陰性
如選用標準診斷方法欠妥,則可造成四格表分類上的錯誤,影響診斷試驗的評價。例如以外科手術診斷膽結石作為標準診斷方法,來評價超聲圖診斷膽結石的診斷價值時,可以得出結論。但若以膽囊造影作為標準方法進行比較時,就難以斷定檢出結果的真偽。在難以得到標準診斷方法時,醫師們常將新推出的診斷試驗與現有的診斷方法比較。此時若新試驗比較靈敏,檢出的病例就多一些,如以現有方法作為標準,則將新試驗多檢出的病例錯判為假陽性。同樣,若新試驗更特異,則錯判為假陰性的病例將增加。
但獲得一項標準診斷方法並非易事。如以檢查組織貯存鐵是否缺乏作為診斷鐵缺乏的標準診斷方法,這就要作肝穿刺或骨髓活檢,再行鐵染色檢查。這種檢查方法甚至在某些貧血病例也難以做到。因此,不少醫師將鐵劑治療反應作為標準診斷方法。尚有一些病,如糖尿病,其標準診斷方法甚難確定。
為了避免外界環境因素干擾評價工作,要求待評價的診斷試驗與標準方法在同一時間和同一化驗室內進行比較。此外,為了減少或避免偏倚,檢驗人員在評價時應實施盲法原則,即他們在不了解病例臨床表現情況下進行比較。
2.被檢查的病例要具備代表性,即要包括各臨床型(輕、中、重型;有或無併發症者)病例。病例的代表性愈好,新的診斷試驗的實用價值愈大。
3.選擇對照。對照應在性別、年齡、某些生理狀態等方面與病例保持均衡。對照不應只包括健康人,還應包括確實未患該病的其他病例以及確實未患該病但在臨床上極易與該病混淆的其他病病例。
4.確定正常值。正常值的含義應說清,否則會直接影響正常值的數據。在常態分佈時,正常值可用平均數±2SD表示。非常態分佈時可用中位數或百分位數表示。繪製患病人群與未患人群診斷試驗測定值的頻數分布曲線時常有重疊。區別正常與異常的界限是否是最佳的臨界點,將對診斷試驗的靈敏度和特異度產生明顯的影響。
5.要說明病例的來源。不同來源的病例對評價一項診斷試驗有一定影響。這是由於不同人群某病患病率的差異對陽性預測值有影響。同時,對照的來源也應效待清楚。
(二)診斷試驗的評價指標
1.真實性(validity)或準確性(accuracy)要求一項診斷試驗具備能正確地鑒別某病例患和未患某病的能力。這種反映患病實際情況的程度稱作真實性,亦稱準確性。
一項診斷試驗與標準診斷方法進行比較時可得出四種結果(表33-1)。正確結果,即真病例得出陽性結果(真陽性)和非病例得出陰性結果(真陰性);錯誤結果,即真病例得出陰性結果(假陰性)和非病例得出陽性結果(假陽性)。一項診斷試驗得出的正確結果愈多,該試驗的真實性也愈高。
一項診斷試驗的真實性包括靈敏度(sensitivity)和特異度(specificity)兩方面。前者是指一項診斷試驗能將實際患病的病例正確地判斷為患某病的能力,後者是指一項診斷試驗能將實際未患某病的病例正確地判斷為未患某病的能力。
靈敏度即真陽性率,為診斷試驗陽性的患者占患者總數比例,理想的應為100%。特異度即真陰性率,為診斷試驗陰性非患者占無病總人數的比例,理想的應為100%。
假陰性率為實際患病,經診斷試驗判斷為無病的百分率,即診斷試驗判斷為陰性的患者占患者總數的比例,又稱漏診率(統計學上稱β錯誤),理想的應是0%。
假陰性率為實際患病,經診斷試驗判斷為無病的百分率,即診斷試驗判斷為陰性的非患者佔全部無病者的比例,臨床上稱為誤診率(統計學上稱為α錯誤),理想的應是0%。
靈敏度與特異度之和,減100%為正確指數,亦稱約登指數(Youdon』s Index),理想的應為100%。其值愈大愈好。但應注意,正確指數大時,並未告知是靈敏度高還是特異度高,因此,它不能代替上述四項指標。
現以喉拭培養結果為標準診斷方法,評價僅憑臨床觀察診斷β-溶血性鏈球菌感染的真實性,結果見表33-2。
表33-2 以喉拭培養法評價臨床診斷的真實性
喉拭培養 | 合計 | |||
陽性 | 陰性 | |||
臨床診斷 | 陽性 | 27 | 35 | 62 |
陰性 | 10 | 77 | 87 | |
合計 | 37 | 112 | 149 |
靈敏度%=(27/37)×100%=73%
特異度%=(77/112)×100%=69%
假陽性率%=1-69/100=31%
假陰性率%=1-73/100=27%
從表33-2還可看出,計算診斷試驗的靈敏度或假陰性率只與患者數有關,而與非患者數無關;計算診斷試驗的特異度或假陽性率只與非患者數有關,而與患者數無關。還要看到靈敏度與假陰性率之和為1。特異度與假陽性率之和為1。
在臨床工作中,醫師希望一項診斷試驗的靈敏度和特異度均高。但實際上很難如願。事實是若提高靈敏度必然以降低特異度為代價,反之亦然。這種反比關係在連續的計量資料測量中容易見到。
現以診斷青光眼為例說明上述現象。眼內壓升高,視神經萎縮和視野的典型缺損是診斷青光眼的三個重要組成部分。人的眼內壓水平在一天內有波動,而在青光眼患者,其波動範圍會更大,因而眼內壓水平並非診斷青光眼的一個可靠指標。再者,眼內壓水平相同的人,眼內病理改變並不一樣。雖然眼內壓水平高者患青光眼的可能性低者較大,但需作進一步檢查才能作出診斷。
圖33-1 青光眼病人和正常人眼內壓分布模式圖
眼內壓水平與是否患青光眼的關係可見圖33-1。甲組為未患青光眼者,眼內壓水平波動在1.9~3.5kPa(14~26mmHg)之間。乙組為青光眼患者,其眼內壓水平在2.9~5.6kPa(22~42mmHg)之間。兩組人眼內壓水平在2.9~3.5kPa(22~26mmHg)處有重疊。如欲診斷出全部青光眼患者,即要求試驗的靈敏度為100%,則診斷值應定為2.9kPa(22mmHg),但相當一部分眼內壓水平在2.9~3.5kPa(22~26mmHg)之間的未患青光眼的人也將診斷為陽性,造成誤診,即特異度差。若將診斷值規定為3.5kPa(26mmHg),則所有未患青光眼者均為陽性,特異度為100%,但眼內壓水平在2.9~3.5kPa之間的青光眼患者將診斷為陰性,造成漏診,即靈敏度差。上述事例說明一項診斷試驗要同時兼顧高靈敏度和高特異度是困難的。在臨床實踐中,是將診斷值定在2.9~3.5kPa之間,即在重疊區的某處。具體確定陽性診斷值的作法,一般只能從臨床需要出發,權衡利弊得失再作出。若所研究的疾病病死率高,預後不佳,漏診將帶來嚴重後果或早期診斷可明顯改善預後,則診斷試驗的陽性界限可向左移。這樣,試驗的靈敏度高,陰性結果可排除疾病的存在,但同時假陽性增多。若現有的治療措施不夠理想,可將陽性界限右移以降低靈敏度,提高特異度。當為假陽性者進一步檢查所需費用太高,為了節約經費或假陽性可使人心身遭受嚴重的痛苦或經濟受到損失時,高特異度尤為必要。
在糖尿病,如以不同的血糖水平作為診斷標準時,同樣可以看到靈敏度和特異度的上述反比關係,如表33-3所示。隨著血糖水平陽性界限的增高,試驗的靈敏度下降,特異度升高,反之亦然。看來將糖尿病診斷試驗陽性界限或標準規定在7.15mmol/L(130mg/dl)時為宜,因此時靈敏度和特異度均處在80%左右。
表33-3 以不同血糖水平作為糖尿病診斷標準時的靈敏度和特異度
餐後2小時的血糖水平 | 靈敏度% | 特異度 | |
Mmol/L | Mg/dl | ||
4.40 | 80 | 100 | 1.2 |
4.95 | 60 | 98.6 | 7.3 |
5.50 | 100 | 97.1 | 25.3 |
6.05 | 110 | 92.9 | 48.4 |
6.60 | 120 | 88.6 | 68.2 |
7.15 | 130 | 85.7 | 82.4 |
7.70 | 140 | 74.3 | 91.2 |
8.25 | 150 | 64.3 | 96.1 |
8.80 | 160 | 55.7 | 98.6 |
9.35 | 170 | 52.9 | 99.6 |
9.90 | 180 | 50.0 | 99.8 |
10.45 | 190 | 44.3 | 99.8 |
11.00 | 200 | 37.1 | 100.0 |
2.可靠性(reliabiliy)、重複性(repeatability)或精密度(precision)是指一項診斷試驗在完全相同的條件下,重複作時獲得相同結果的穩定程度。在臨床實踐中,一般用符合率來表示可靠性。
影響試驗可靠性的因素有:
(1)所使用的儀器、藥品和試劑的變異:儀器,甚至是精密的儀器,如事前未校正,也可造成測量結果的系統誤差。藥品的質量,試劑配製的方法以及檢驗室的環境因素都可對試驗結果產生影響。
(2)測量變異:這與試驗操作者的技術和責任心有關,因為任何測量都可出現不同程度的測量變異。若操作者能遵循操作規程,操作細心則可減少這種變異。若操作者可在某種程度上自行判斷測量結果,則這種變異可以很大甚至難以控制。如用幾種方法(即在不同的檢驗室,由不同的操作人員中使用不同的儀器)進行測量,測量數值的系統誤差將是難以避免的。
測量變異尚包括觀察者間誤差(inter-observererror)和觀察者自身誤差(intra-observer error)。例如,兩位眼科醫師同時分別檢查100例強疑視網膜炎病人,按病情輕重分別登記,結果兩人判斷的符合率為72%(表33-4)。
表33-4 兩位眼科醫師獨立檢查100例視網膜炎病人的結果比較
A專家判斷病情結果 | B專家判斷病情結果 | 合計 | |||
無 | 輕 | 中 | 重 | ||
無 | 24 | 5 | 2 | 0 | 31 |
輕 | 4 | 18 | 2 | 1 | 25 |
中 | 1 | 3 | 18 | 2 | 24 |
重 | 1 | 2 | 5 | 12 | 20 |
合計 | 30 | 28 | 27 | 15 | 100 |
這是觀察者間誤差。
同一觀察者對同一批標本前後兩次檢查也有誤差。例如一位細胞學專家兩次重複檢查肺癌細胞塗片100張,兩次結果的符合率僅49%(表33-5)。這是觀察者自身誤差。
表33-5 同一專家重複兩次檢查100張肺癌細胞塗片結果比較
第一次結果 | 第二次結果 | 合計 | ||||
不滿意 | 陰性 | 模稜兩可 | 疑似癌細胞 | 陽性 | ||
不滿意 | 2 | 1 | 1 | 0 | 0 | 4 |
陰性 | 7 | 26 | 19 | 1 | 0 | 53 |
模稜兩可 | 4 | 2 | 11 | 5 | 3 | 25 |
疑似癌細胞 | 0 | 0 | 1 | 6 | 6 | 13 |
陽性 | 1 | 0 | 0 | 0 | 4 | 5 |
合計 | 14 | 29 | 32 | 12 | 13 | 100 |
(3)生物學變異:不同季節和一日內的不同時間個體內部的生物學狀態不斷地發生變化,也就是產生變異。這樣,在某個時點獲得的某生物學現象的測量值只能是該時期內多次測量所獲得的數值一個樣本,並不能代表各次測量的真實數值。臨床上各項檢驗工作多是在某一時點進行的,並將各種檢驗結果用於指導臨床實踐。所以臨床醫師應對個體的生物學變異給予足夠的重視。
此外,不同個體的生物學狀態不同,這也將影響某生物學現象的測量值,使之產生變異。
實際上,臨床上獲得的測量值是上述幾種影響試驗可靠性的因素的累加值,如圖33-2所示。它說明不同來源的變異對血壓測量值的影響以及這些變異來源的累加作用。還可以看出不同觀察者間的測量值雖有差異,甚至可以相差1.5kPa(12mmHg),但可以說由測量所致的變異相對較小,而同一個體在一天內不同時間的血壓測量值的變異卻很大。這說明一次血壓測量值並不能代表該病例的通常血壓。最下面的那條血壓測量值曲線是許多病例、多個觀察者一天中多次測量的結果,它突出地說明上述各種影響可靠性因素的累加作用。
圖33-2 變異的來源:血壓的測量
資料來源:周崐,臨床實用流行病學,第一版,黑龍江人民出版社,哈爾濱,1989
3.真實性和可靠性之間的關係兩者不一定彼此相關。如圖33-3所示,有的診斷試驗真實又可靠(A),有的真實但不很可靠(B),因為它的各次測量值圍繞真實值散在分布,而且範圍較廣;另一些試驗可難可靠但不很真實(C),其測量結果雖穩定,但系統地偏離真實值;有的試驗既不真實又不可靠(D)。一項診斷的實用價值決定於其真實性,而真實性又受到可靠性的制約。
4.預測值(predictive value)靈敏度和特異度是一項診斷試驗的特徵,在決定是否採用某項試驗時醫師應考慮這些特徵。一旦採用了某項診斷試驗,醫師就要仔細考慮試驗結果的意義。如獲陽性結果,患某病的可能性是多少;若獲陰性結果,未患某病的可能性是怎樣?這就是預測值。陽性預測值是指試驗陽性的病例中真陽性的比例;陰性預測值是指試驗陰性的病例中真陰性的比例。按表33-1,預測值的計算方法如下:
圖33-3真實性與可靠性關係示意圖
根據表33-1提供的數據,臨床上診斷為溶血性鏈球菌咽炎的病例中,陽性預測值為44%,陰性預測值為88%。
習慣上以+PV(或PV+)表示陽性預測值,以-PV(或PV-)表示陰性觀測值。一般說來,試驗的靈敏度愈高,陰性預測值就愈高;特異度高的試驗,陽性預測值就越好。但診斷試驗的靈敏度和特異度並不能完全決定試驗的陽性預測值,在很大程度上與人群某病的患病率有關。不同人群某病患病率可相差甚大,臨床醫師對此已有共識。例如酸性磷酸酶可用於診斷前列腺癌,其靈敏度為70%,特異度為90%。若將之用於不同人群,所獲不同人群陽性預測值差別甚大,如表33-6所示。如在一般人群中用此法作前列腺癌篩檢,結果出現大量假陽性者,檢查結果很不令人滿意。如將此法在高危人群(男性,75歲以上)中作篩檢,陽性預測值為5.6%,即平均每18名陽性者中只1名證實患前列腺癌。若將本項診斷試驗用來診斷可觸及前列腺結節病例時,陽性預測值為93%,即93%陽性患者患前列腺癌。
表33-6 患病率與預測值的關係
患病率(1/10萬) | 陽性預測值 | |
一般人群 | 35 | 0.4 |
男性,75歲以上 | 500 | 5.6 |
臨床觸及前列腺結節 | 50000 | 93.0 |
資料來源:孫中行,臨床流行病學287頁,1989
三、提高診斷試驗效率的方法
人們都在努力尋求既靈敏又特異的診斷試驗,但在臨床實踐中這種理想的方法並不多,可以採用下述兩種方法來提高診斷試驗的效率。
(一)選擇患病率高的人群(高危人群)
綜上所述,一項診斷試驗的靈敏度與特異度是相對固定的,而人群患病率水平對一項診斷試驗陽性預測值的影響卻很大。這樣,結論是很清楚的,就是將一項診斷試驗用於患病率低的人群,則陽性預測值較低,但若將其用於高危人群,則可明顯提高陽性預測值。現舉例說明怎樣選擇患病率不同的人群來提高運動心電圖試驗的效率。已知運動心電圖試驗的靈敏度和特異度分別為80%和74%。接受運動心電圖檢查的人群共有三種情況,即病例甲是老年人,具有典型心絞痛症状,病例乙是胸痛待查的中年人,病例丙是因情緒變化而產生胸痛症状的青年人,如表33-7所示,病例甲患心絞痛的可能性為90%,通過心電圖運動試驗估計其陽性預測值為97%,即增加了7%;病例丙患心絞痛的可能性為10%,根據同樣的方法,估計其陽性預測值為25%,即增加了15%;病例乙患心絞痛的可能性為50%,根據同法,估計其陽性預測值為75%,即增加了25%。由此可見,若在估計冠心病患病率為40%~60%的人群中用心電圖運動試驗來作冠心病診斷時,診斷的效率提高,即此時陽性和陰性預測值均明顯增加。
表33-7 不同的估計患病率,心電圖運動試驗的預測值
估計患病率(%) | 試驗陽性 | 試驗陰性 | ||
預測值(%) | 增加數(%) | 預測值(%) | 增加數(%) | |
90 | 97 | 7 | 29 | 19 |
80 | 92 | 12 | 48 | 28 |
70 | 88 | 18 | 61 | 31 |
60 | 82 | 22 | 71 | 31 |
50 | 75 | 25 | 79 | 29 |
40 | 67 | 27 | 85 | 25 |
30 | 57 | 27 | 90 | 20 |
20 | 43 | 21 | 94 | 14 |
10 | 25 | 15 | 97 | 7 |
資料來源:孫中行,臨床流行病學,301頁,1989
(二)採用聯合試驗的方法
現已證明,採用聯合試驗的方法可提高診斷試驗的效率。聯合試驗的方法有兩種,即並聯和串聯。
1.並聯試驗(parallel test)又稱平行試驗。這種方法的作法是同時作幾項診斷試驗,只要其中一項為陽性就可診斷患某病。與單項診斷試驗比較,並聯試驗可提高靈敏度和陰性預測值,卻使特異度和陽性預測值下降,即並聯試驗使漏診率下降,卻增加了假陽性率。若臨床醫師需要一項靈敏度高的診斷試驗,而此時只有兩項或多項不十分靈敏的診斷方法,並聯試驗是他首選的方法。例如,已知靜脈造影術是診斷下肢深靜脈栓塞的標準診斷方法,但這種方法既昂貴,又不安全。尚有兩種方法即陰抗體積描記圖和注射125I纖維蛋白原作下肢掃描也可用於該病的診斷。如使用單項試驗,靈敏度和特異度各為74%。若並聯使用上述兩項試驗,其靈敏度和特異度可分別達到94%和91%,見表33-8。由此可見,並聯使用上述兩項診斷試驗是診斷下肢靜脈栓塞的安全和節約的方法,並可提供準確的資料,因而可取代靜脈造影術。
表33-8 阻抗體積描記圖和注射125I纖維蛋白原掃描兩法
平行試驗與靜脈造影術的比較
靜脈造影術(參照試驗)的結果 | ||||
陽性 | 陰性 | 合計 | ||
阻抗體積描記圖和125I纖維蛋白原掃描 | 兩者之一或兩者均陽性 | 81 | 10 | 91 |
兩者均陰性 | 5 | 104 | 109 | |
合計 | 86 | 114 | 200 |
靈敏度=81/86×100=94%
特異度=104/114×100=91%
資料來源:孫中行,臨床流行病學,302頁,1989
2.串聯試驗(serial test)也稱系列試驗。這種方法是依次順序地作幾項試驗,但只有全部試驗皆呈現陽性時才能作出診斷。具體的作法如表33-9所示。由於需要取得前一項診斷的結果才能作另一項試驗,因而串聯試驗要用去一段時間。臨床上是先作較簡單、安全的試驗,當出現陽性結果時,再作比較複雜或有一定危險的試驗。
表33-9 聯合試驗的判斷方法
聯合試驗方式 | 結果 | 判斷結果 | |
試驗1 | 試驗2 | ||
平行試驗 | + | + | + |
+ | - | + | |
- | + | + | |
- | - | - | |
系列試驗 | + | + | + |
+ | - | - | |
- | 不必作 | - |
資料來源:孫中行,臨床流行病學,302頁,1989
酶試驗 | 靈敏度(%) | 特異度(%) |
CPK | 96 | 67 |
SGOT | 91 | 74 |
LDH | 87 | 91 |
CPK、SGOT、LDH | 78 | 95 |
資料來源:孫中行,臨床流行病學,303頁,1989
串聯試驗可提高診斷試驗的特異度和陽性預測值,即出現陽性結果時患該病的可能性就更大,即降低了誤診率,卻增加了漏診率。當幾項診斷試驗特異度均不高時,採用串聯試驗最為適宜。例如,診斷心肌梗塞的三種試驗中沒有一項是特異的,見表33-10。若單獨使用其中任何一項試驗則漏診不少患者。如採用串聯試驗方法則提高了心肌梗塞診斷的特異度,降低了誤診率。
診斷試驗和篩檢試驗 | 篩檢試驗 |
關於「預防醫學/診斷試驗」的留言: | 訂閱討論RSS |
目前暫無留言 | |
添加留言 |