信度

跳轉到: 導航, 搜索

信度系指測驗結果的一致性、穩定性及可靠性,一般多以內部一致性來加以表示該測驗信度的高低。信度係數愈高即表示該測驗的結果愈一致、穩定與可靠。系統誤差對信度沒什麼影響,因為系統誤差總是以相同的方式影響測量值的,因此不會造成不一致性。反之,隨機誤差可能導致不致性,從而降低信度。信度可以定義為隨機誤差R影響測量值的程度。如果R=0,就認為測量是完全可信的,信度最高。

目錄

信度的定義

信度主要是指測量結果的可靠性、一致性和穩定性,即測驗結果是否反映了被測者的穩定的、一貫性的真實特徵。和信度相關的一個概念是效度,信度是效度的前提條件。

信度只受隨機誤差的影響,隨機誤差越大,信度越低。因此,信度可以視為測試結果受隨機誤差影響的程度。系統誤差產生恆定效應,不影響信度。

每一個測試的實得分數(X)總是由真實分數(T)和誤差(E)兩部分構成的,用公式表示如下:

X=T+E

如果我們討論一組測驗分數的特性時,可用方差代表具體分數,得到公式:

S^2(x)=S^2(t)+S^2(e)

公式中,S^2(x)是實得分數的方差,S^2(t)是真分數的方差,S^2(e)是誤差的方差

在測量理論中,信度被定義為:一組測量分數的真分數方差與中方差(實得方差)的比率。即:

r(xx)=S^2(t)/S^2(x)

由於真實分數的方差是無法統計的,因此轉化為:

r(xx)=S^2(x)-S^2(e)/S^2(x)

=1-S^2(e)/S^2(x)

因此,信度也可以看做是總方差中非測量誤差的方差所佔的比例  

信度的指標

一、信度係數與信度指數

大部分情況下,信度是以信度係數為指標,它是一種相關係數。常常是同一被試樣本所得到的兩組資料的相關,理論上說就是真分數方差與實得分數方差的比值,公式為:

r(xx)=r^2(xt)=S^2(t)/S^2(x)

公式中r^2(xt)是真分數標準差與實得分數標準差的比值,稱作信度係數,公式為:

r(xt)=S(t)/S(x)

可見信度指數的平方就是信度係數。

二、測量標準誤

信度係數僅表示一組測量的實得分數與真分數的符合程度,但並沒有直接指出個人測驗分數的變異量。我們可以用一組被試兩次測量結果來代替對同一個人的反覆施測,於是有了信度的另一個指標,公式為:

SE=S(x)√1-r(xx)

公式中SE為測量的標準誤,S(x)是所得分數的標準差,r(xx)為測驗的信度係數,從公式我們可以看出測量的標準誤與信度之間有互為消長的關係:信度越高,標準誤越小,信度越低,標準誤越大。  

影響信度的因素

一、樣本特徵

1、樣本團體異質性的影響

2、樣本團體的平均能力水平的影響

二、測量長度

一般來說,在一個測試中增加同質的題目,可以使信度提高。

需注意的是,增加測驗長度的效果應當遵循報酬遞減原則。通過斯皮爾曼-布朗公式的導出公式可以計算出最少應增加的題目:

K=r(kk)*(1-r(xx))/r(xx)*(r(kk)-1)

K為改變後的長度與原長度之比,r(xx)為原測試的信度,r(kk)為測驗長度是原來的K倍時的信度估計。

三、測驗難度

理論上說,只有測驗難度為50%時,才能使測驗分數分布範圍最大,求得的信度也最高。事實上,難度為0.50隻適合於簡答型題目,對於選擇題目由於猜測因素,難度值應當提高,洛德提出在學習成績中,為了保證其可靠性,各類選擇題的理想平均難度為:五擇一測,0.70;四擇一測,0.74;三擇一測,0.77;是非題。0.85

在實際情況下,如果某個測驗適用範圍廣,其難度水平通常適用於中等能力水平的被試,而對較高水平的被試和較低水平的被試可能較易或較難,使得分數分布範圍縮小,信度水平降低,因此一個標準化的測驗,應根據不同能力水平的報告測驗的難度,以作為選擇測驗的參考

四、時間間隔

時間間隔只對重測信度和不同時測量時的複本信度有影響,對其餘的信度來說,不存在時間間隔問題。

註:我們對一套問卷的信度檢驗值(一般是指克隆巴赫阿爾法信度係數)有時會出現過低的情況,可能的原因有:

1、試卷本身設計不合理,不是圍繞一個主題或是有矛盾的題目。如果試卷中有題目讓完全相同的人選擇不同的答案,試卷的信度會降低。

2、題目區分度過低,特別指有對錯之分的題目。如果一道題正確率或錯誤率達到90%,可以從新審視題目設計是否合理。區分度過低的題目中真實偏差的成分較少,隨機偏差的成分相對較多,試卷的信度會降低。

3、無關變數進入信度檢驗。除了重測信度,其他信度檢驗方法都只考慮有序變數,無序變數,如出身城市,喜好顏色等,如果我們沒有對城市或顏色排序的話,帶入信度檢驗意義難明,可能會導致試卷的信度降低。

4、題目選項反序。對有序變數,如果變數值之間序的意義相反,會降低甚至得出負的信度。比如檢驗老師對學生評分的信度,如果一個老師的評分以10分為最高分,1分最低,另一個以1分最高,10分最低。如果不經處理帶入信度計算,信度會降低。  

信度評估的方法

一、重測信度,又稱為穩定性係數,它的計量方法是採用重測法:用同一測驗,在不同時間對同一群體施測兩次,這兩次測量分數的相關係數即為重測係數。

重測信度所考察的誤差來源是時間的變化所帶來的隨機影響。在評估重測信度時,必須注意重測間隔的時間。對於人格測驗,重測間隔在兩周到6個月間比較合適。

在進行重測信度的評估時,還應注意以下兩個重要問題:⑴重測信度一般只反映由隨機因素導致的變化,而不反映被試行為的長久變化。⑵不同的行為受隨機誤差影響不同。

二、複本信度,是以兩個測驗複本來測量同一群體,然後求得應試者在這兩個測驗上得分的相關係數。複本信度的高低反映了這兩個測驗複本在內容上的等值性程度。兩個等值的測驗互為複本。

計算複本信度的主要目的在於考察兩個測驗複本的題目取樣或內容取樣是否等值。複本信度也考慮兩個複本實施的時間間隔。

複本信度的主要優點在於:⑴能夠避免重測信度的一些問題,如記憶效果、練習效應等;⑵適用於進行長期追蹤研究或調查某些干涉變數對測驗成績影響;⑶減少了輔導或作弊的可能性。☆複本信度的局限性在於:⑴如果測量的行為易受練習的影響,則複本信度只能減少而不能消除這種影響;⑵有些測驗的性質會由於重複而發生改變;⑶有些測驗很難找到合適的複本。

三、內部一致性信度,主要反映的是測驗內部題目之間的關係,考察測驗的各個題目是否測量了相同的內容或特質。內部一致性信度又分為分半信度同質性信度。

分半信度係數是通過將測驗分成兩半,計算這兩半測驗之間的相關性而獲得的信度係數。測驗愈長,信度係數愈高。同質性信度是指測驗內部的各題目在多大程度上考察了同一內容。同質性信度低時,即使各個測試題看起來似乎是測量同一特質,但測驗實際上是異質的,即測驗測量了不止一種特質。同質性分析與項目分析中的內部一致性分析相類似。

四、評分者信度,是指不同評分者對同樣對象進行評定時的一致性。最簡單的估計方法就是隨機抽取若干份答卷,由兩個獨立的評分者打分,再求每份答卷兩個評判分數的相關係數。這種相關係數的計算可以用積差相關方法,也可以採用斯皮爾曼等級相關方法。

=  

信度 評介方法

信度

一般通過使用同一量表進行不同測量,分析各測量結果之間聯繫的方法來評價信度。如果聯繫密切,各測量結果具有一致性,則認為量表是可信的。評介信度的方法主要有:再預測量、替換形式、內部一致性方法。

再測信度

用同樣的量表,對同一組訪問對象在盡可量相同的情況下,在不同的時間進行兩次測量。兩次測量相距一般在兩到四周之間。用兩次測量結果間的相關分析或差異的顯著性檢驗方法,可以評價量表信度的高低。結果越是相關,差異越不顯著則信度越高。 用再次測量法評價信度存在一些問題。結果與時間間隔關係密切。在其他方面都相同的情況下,時間間隔越長,信度越低。其次,最初的測量可能會改變被測特徵。例如,測量人們對低脂肪食品的態度可能會使他們更為關心健康問題,從而對低脂食品持更為肯定的態度。第一,實施重複測量有時是不可能的,例如測量消費者對某種新產品的反應。第二,第一次測量的答案可能會對以後測量有影響。受訪者可能會圖回憶第一次受測時給出的答案。第三,在兩次測量之間一個有利的信息可能會使受訪者的態度更為有利。最後,再測信度的相關係數可能會由於被測項目自身之間的相關而偏高。兩次測量中,同一項目自身之間的相關性要比不同項目間的相關性高。因此,即使不同項目之間的相關性很差,也可能得以很高的再測相關係數。

替換形式信度

用兩個形式不同的等價量表,對同一組受訪者在不同的時間(通常間隔兩到四周)進行測量。兩次測量結果間的相關性被用來評價量表的信度。

這個方法存在兩個主要問題。首先,構造等價的量表不但費時,而且花錢。其次,很難構造出完全等價的量表。兩個量表在內容上應該等價。從嚴格的意義上說,兩個量表的測量項目應具有相同的均值、方差和相關性,但即使這些條件都滿足了,還是有可能出現內容不等價的情況。低相關可能是量表的信度不夠造成的,也可能是由於量表形式不等價而造成的。

內部一致信度

內部一致信度用於評價累加量表的信度。在這種量表中,各個測量項目的得分被累加以得到一個總分,每個項目都測量整個量表所要測量對象的某個方面,項目之間就它們各自的特徵而言應該是一致的。內部一致信度強調的是組成量表的一組測量項目內部的一致性。

折半信度是測量內部一致性是簡單的方法。量表中的項目被分成兩半並計算測量結果的相關係數。這兩半相關係數高,則說明量表內部一致性高。量表的項目可按序號的奇、性分為兩半,也可以隨機地合。問題在於劃分兩部分的方法可能會影響到評價結果。克服這一問題的常用方法是採用X係數。

X係數,也稱為克朗巴哈X係數,是量表所有可能的項目劃分方法的得到的折半信度係數的平均值。X係數的值在0和1之間。如果X係數不超過0.6,一般認為內部一致信度不足。X係數的一個重要特性是它們值會隨著量表項目的增加而增加。因此,X係數可能由於量表中包含多餘的測量項目而被人為地、不適當地提高。還有一種可以和X係數同時使用的係數。係數能夠幫助評價,在計算X係數的過程中,平均數的計算是否掩蓋了某些不相關的測量項目。

有些具有多個項目的量表可能在結構上是多維的,那含有幾組,每一組項目測量一個方面的特徵。例如,商店的形象就是一種多維的結構,包括商品的、商品的花色種類、貨與保修政策、人員服務、價格、商店位置、店面局等等。用於測量商店形象的量表就要包括測量以上每個維度(方面)的測量項目。這些維度之間是比較獨立的,因此,在包含各個準度的整個表內部考察一致性是不適宜的。不過,如果每個準度是由幾個測量項目組成,可以計算每個度的內部一致性。  

信度 效度和信度

信度

效度和信度的關係可以用測量值的構成公式O=T S R來理解。如果測量是完全有效的,即0=T,S=0,R=0,此時測量必然是完全可信的,若量表的信度不足,它也不可能完全有效,因為有O=T R。如果量表是完全可信的,可以達到完全有效,也可能達不到,因為有可能存在導致誤差,雖然缺管信度必然缺乏效度,但信度的大小並不能體現效度的大小。信度是效度的必要條件,但不是充分條件。從理論的角度來看,量應具有足夠的效度和信度;從實踐的觀點來看,一個好的量表還應該具有實用性。實用性指量表的經濟性、便利性和可解釋性。  

信度 分析

信度

信度是指一個衡量的正確性或精確性,信度包括穩定性以及一致性;學者 Kerlinger認為信度可以衡量出工具(問卷)的可靠度、一致性與穩定性。

測驗信度越高,表示測驗結果越可信,但也無法期望兩次測驗結果完全一致,信度除受測驗質量影響外,亦受很多其它受測者因素的影響,故沒有一份測驗是完全可靠的。信度只是一種程度上大小的差別而已。一致性高的問卷便是只同一群人接受性質相同題型相同目的相同的各種問卷測量後,在各衡量結果間顯示出強烈的正相關。穩定性高的測量工具則是指一群人在不同時空下接受同樣的衡量工具時,結果的差異很小。一般信度的測量時容易產生誤差的原因,是來自研究者的因素包括:測量內容(遣詞用句、問題形式等)不當、情境(時間長短、氣氛、前言說明等)以及研究者本身的疏忽(聽錯、記錯等);而來自受訪者的因素則可能是由於其個性、年齡、教育程度、社會階層及其它心理因素等,而影響其答題的正確性。

檢視信度的方法有很多種,其中,最常用的是第四種 Cronbach α係數,簡介以下四種:

1、再測法:使用同一份問卷,對同一群受測者,在不同的時間,前後測試兩次,求出者兩次分數的相關係數,此係數又稱為穩定係數。

需注意:相關係數高,表示此測驗的信度高,前後兩次測驗間隔的時間要適當。若兩次測驗間隔太短,受測者記憶猶新通常分數會提高,不過如果題數夠多則可避免這種影響;但若兩次測驗間隔太長,受測者心智成長影響,穩定係數也可能會降低。

2、複本相關法:複本是內容相似,難易度相當的兩份測驗,對同一群受測者,第一次用甲份測試,第二次使用乙份,兩份分數的相關係數為複本係數或等值係數。若兩份測驗不是同時實施,亦可相距一段時間再施測,這樣算出的相關係數為穩定和等值係數。複本相關法是測驗信度量測的一種最好方法,但是要編製複本測驗相當困難。而且複本相關法並不受記憶效用的影響,對測量誤差的相關性也比再測法低。

3、折半法:與複本相關法很類似,折半法是在同一時間施測,最好能對兩半問題的內容性質、難易度加以考慮,使兩半的問題儘可能有一致性。

折半信度係數:將同一量表中測驗題目(項目內容相似),折成兩半(單數題、偶數題),求這兩個各半測驗總分之相關係數。

4、柯能畢曲α係數:1951年Cronbach提出α係數,克服部分折半法的缺點,為目前社會科學研究最常使用的信度。量測一組同義或平行測驗總和的信度,如果尺度中的所有項目都在反映相同的特質,則各項目之間應具有真實的相關存在。若某一項目和尺度中其它項目之間並無相關存在,就表示該項目不屬於該尺度,而應將之剔除。只要有做問卷就可以做信度分析,提供各項客觀的指標,作為測驗與量表良窳程度的具體證據。  

信度 測試信度

信度

測試信度也叫測試的可靠性,指的是測試結果是否穩定可靠。也就是說,測試的成績是不是反映了受試者的實際語言水平。例如,如果同一套測試在對同一測試對象(即受試者本身沒有變化)進行的數次測試中,受試者的分數忽高忽低的話,則說明該測試缺乏信度。測試的信度與測試的效度有著密切的關係。一般說來,只有信度較高的測試才能有較高的效度,但效度較高不能保證信度也一定較高。測試的信度主要涉及到試題本身的可靠性和評分的可靠性這兩個方面。試題本身是否可靠主要取決於試題的範圍、數量、試題的區分度等因素;評分是否可靠則要看評分標準是否客觀和準確。

測試的信度通常用一種相關係數(即兩個數之間的比例關係)來表示,相關係數越大,信度則越高。當係數為1.00時,說明測試的可靠性達到最高程度;而係數是0.00時,則測試的可靠性降到最低程度。在一般情況下,係數不會高到1.00,也不會降到0.00,而是在兩者之間。對信度指數的要求因測試類別的不同而不同,人們通常對標準化測試的信度係數要求在0.90以上,例如「托福」的信度大致為0.95,而課堂測試的信度係數則以0.70-0.80之間為可接受性係數。測試信度的計算方法有很多種,以下僅介紹三種易於操作的方法:

1)重測法。用同一套試卷在兩個不同時間內來測試同一批受試者,這樣便獲得兩組分數,然後計算出兩組分數的相關係數。當然,在兩次測試中,學生第二次的測試成績理應比第一次的要高,因為在第二次測試時學生已經有了進步而且臨場經驗也更豐富了。但是若該試題是比較可靠的,每個學生在兩次測試中的排名次序應該是基本不變的。

2)交替形式法。對同一批受試者使用試題類型完全相同,難易程度相當,但具體題目不同的兩套對等試卷先後進行兩次測試,然後計算出兩次得分的相關係數。

3)對半法。測試只進行一次,但將整份試卷的題目按單、雙數分成兩組來分別計分,算出兩組分數的相關係數,然後再用Spearman-Brown的公式計算整份試卷的信度係數。具體計算步驟是:將兩組分數的相關係數乘以2,再除以1加兩組分數的相關係數。

關於「信度」的留言: Feed-icon.png 訂閱討論RSS

目前暫無留言

添加留言

更多醫學百科條目

個人工具
名字空間
動作
導航
功能菜單
工具箱