標準差

跳轉到: 導航, 搜索

標準差(Standard Deviation) ,也稱均方差(mean square error),是各數據偏離平均數的距離的平均數,它是離均差平方和平均後的方根,用σ表示。標準差是方差的算術平方根。標準差能反映一個數據集的離散程度。平均數相同的,標準差未必相同。

目錄

簡介

公式

標準差也被稱為標準偏差,或者實驗標準差,公式如圖。

簡單來說,標準差是一組數據平均值分散程度的一種度量。一個較大的標準差,代表大部分數值和其平均值之間差異較大;一個較小的標準差,代表這些數值較接近平均值。

例如,兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是 7 ,但第二個集合具有較小的標準差。

標準差可以當作不確定性的一種測量。例如在物理科學中,做重複性測量時,測量數值集合的標準差代表這些測量的精確度。當要決定測量值是否符合預測值,測量值的標準差佔有決定性重要角色:如果測量平均值與預測值相差太遠(同時與標準差數值做比較),則認為測量值與預測值互相矛盾。這很容易理解,因為如果測量值都落在一定數值範圍之外,可以合理推論預測值是否正確。

標準差應用於投資上,可作為量度回報穩定性的指標。標準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高。相反,標準差數值越細,代表回報較為穩定,風險亦較小。

例如,A、B兩組各有6位學生參加同一次語文測驗,A組的分數為95、85、75、65、55、45,B組的分數為73、72、71、69、68、67。這兩組的平均數都是70,但A組的標準差為17.07分,B組的標準差為2.37分(此數據時在R統計軟體中運行獲得),說明A組學生之間的差距要比B組學生之間的差距大得多。

如是總體,標準差公式根號內除以n

如是樣本,標準差公式根號內除以(n-1)

因為我們大量接觸的是樣本,所以普遍使用根號內除以(n-1)

公式意義

所有數減去其平均值的平方和,所得結果除以該組數之個數(或個數減一),再把所得值開根號,所得之數就是這組數據的標準差。  

標準差的意義

標準差越高,表示實驗數據越離散,也就是說越不精確

反之,標準差越低,代表實驗的數據越精確  

離散度

標準差是反應一組數據離散程度最常用的一種量化形式,是表示精密確的最要指標。說起標準差首先得搞清楚它出現的目 的。我們使用方法去檢測它,但檢測方法總是有誤差的,所以檢測值並不是其真實值。檢測值與真實值之間的差距就是評價檢測方法最有決定性的指標。但是真實值 是多少,不得而知。因此怎樣量化檢測方法的準確性就成了難題。這也是臨床工作質控的目的:保證每批實驗結果的準確可靠。

雖然樣本的真實值是不可能知道的,但是每個樣本總是會有一個真實值的,不管它究竟是多少。可以想像,一個好的檢測方法,基檢測值應該很緊密的分散在真實值周圍。如何不緊密,那距真實值的就會大,準確性當然也就不好了,不可能想像離散度大的方法,會測出準確的結果。因此,離散度是評價方法的好壞的 最重要也是最基本的指標。

一組數據怎樣去評價和量化它的離散度呢?人們使用了很多種方法:  

極差

最直接也是最簡單的方法,即最大值-最小值(也就是極差)來評價一組數據的離散度。這一方法在日常生活中最為常見,比如比賽中去掉最高最低分就是極差的具體應用。  

離均差的平方和

由於誤差的不可控性,因此只由兩個數據來評判一組數據是不科學的。所以人們在要求更高的領域不使用極差來評判。其實,離散度就是數據偏離平均值的程度。因此將數據與均值之差(我們叫它離均差)加起來就能反映出一個準確的離散程度。和越大離散度也就越大。

但是由於偶然誤差是成常態分佈的,離均差有正有負,對於大樣本離均差的代數和為零的。為了避免正負問題,在數學有上有兩種方法:一種是取絕對 值,也就是常說的離均差絕對值之和。而為了避免符號問題,數學上最常用的是另一種方法--平方,這樣就都成了非負數。因此,離均差的平方和成了評價離散度 一個指標。  

方差(S2)

由於離均差的平方和與樣本個數有關,只能反應相同樣本的離散度,而實際工作中做比較很難做到相同的樣本,因此為了消除樣本個數的影響,增加可比性,將標準差求平均值,這就是我們所說的方差成了評價離散度的較好指標。

樣本量越大越能反映真實的情況,而算數均值卻完全忽略了這個問題,對此統計學上早有考慮,在統計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。  

標準差(SD)

由於方差是數據的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標準差。

在統計學中樣本的均差多是除以自由度(n-1),它是意思是樣本能自由選擇的程度。當選到只剩一個時,它不可能再有自由了,所以自由度是n-1。  

變異係數(CV)

標準差能很客觀準確的反映一組數據的離散程度,但是對於不同的檢目,或同一項目不同的樣本,標準差就缺乏可比性了,因此對於方法學評價來說又引入了變異係數CV。  

標準差與平均值之間的關係

一組數據的平均值及標準差常常同時做為參考的依據。在直覺上,如果數值的中心以平均值來考慮,則標準差為統計分布之一「自然」的測量。

定義公式:

標準差與平均值定義公式

  

標準差公式

1、方差s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/n

2、標準差=方差的算術平方根  

幾何學解釋

從幾何學的角度出發,標準差可以理解為一個從 n 維空間的一個點到一條直線的距離的函數。舉一個簡單的例子,一組數據中有3個值,X1,X2,X3。它們可以在3維空間中確定一個點 P = (X1,X2,X3)。想像一條通過原點的直線 。如果這組數據中的3個值都相等,則點 P 就是直線 L 上的一個點,P 到 L 的距離為0, 所以標準差也為0。若這3個值不都相等,過點 P 作垂線 PR 垂直於 L,PR 交 L 於點 R,則 R 的坐標為這3個值的平均數:

公式

運用一些代數知識,不難發現點 P 與點 R 之間的距離(也就是點 P 到直線 L 的距離)是。在 n 維空間中,這個規律同樣適用,把3換成 n 就可以了。  

標準差與標準誤的區別

標準差與標準誤都是心理統計學的內容,兩者不但在字面上比較相近,而且兩者都是表示距離某一個標準值或中間值的離散程度,即都表示變異程度,但是兩者是有著較大的區別的。

首先要從統計抽樣的方面說起。現實生活或者調查研究中,我們常常無法對某類欲進行調查的目標群體的所有成員都加以施測,而只能夠在所有成員(即樣本)中抽取一些成員出來進行調查,然後利用統計原理和方法對所得數據進行分析,分析出來的數據結果就是樣本的結果,然後用樣本結果推斷總體的情況。一個總體可以抽取出多個樣本,所抽取的樣本越多,其樣本均值就越接近總體數據的平均值。  

標準差(standard deviation, STD)

表示的就是樣本數據的離散程度。標準差就是樣本平均數方差的開平方,標準差通常是相對於樣本數據的平均值而定的,通常用M±SD來表示,表示樣本某個數據觀察值相距平均值有多遠。從這裡可以看到,標準差收到極值的影響。標準差越小,表明數據越聚集;標準差越大,表明數據越離散。標準差的大小因測驗而定,如果一個測驗是學術測驗,標準差大,表示學生分數的離散程度大,更能夠測量出學生的學業水平;如果一個側樣測量的是某種心理品質,標準差小,表明所編寫的題目是同質的,這時候的標準差小的更好。標準差與常態分佈有密切聯繫:在常態分佈中,1個標準差等於常態分佈下曲線的68.26%的面積,1.96個標準差等於95%的面積。這在測驗分數等值上有重要作用。  

標準誤(standard error, SE)

表示的是抽樣的誤差。因為從一個總體中可以抽取出無多個樣本,每一個樣本的數據都是對總體的數據的估計。標準誤代表的就是當前的樣本對總體數據的估計,標準誤代表的就是樣本均數與總體均數的相對誤差。標準誤是由樣本的標準差除以樣本人數的開平方來計算的。從這裡可以看到,標準誤更大的是受到樣本人數的影響。樣本人數越大,標準誤越小,那麼抽樣誤差就越小,就表明所抽取的樣本能夠較好地代表樣本。  

Excel函數

關於這個函數在EXCEL中的STDEVP函數有詳細描述,EXCEL中文版裡面就是用的「標準偏差」字樣。但我國的中文教材等通常還是使用的是「標準差」。

在EXCEL中STDEVP函數是另外一種標準差,也就是總體標準差。在繁體中文的一些地方可能叫做「母體標準差」

在R統計軟體中標準差的程序為: sum((x-mean(x))^2)/(length(x)-1)  

樣本標準差

在真實世界中,除非在某些特殊情況下,不然找到一個總體的真實的標準差是不現實的。大多數情況下,總體標準差是通過隨機抽取一定量的樣本並計算樣本標準差估計的。  

應用實例

標準差在確定企業最優資本結構中的應用

資本結構指的是企業各種資金來源的比例關係,是企業籌資活動的結果。最優資本結構是指能使企業資本成本最低且企業價值最大的資本結構;產權比率,即借入資本與自有資本的構成比例,是反映企業資本結構的重要變數。企業的資產由債務性資金和權益性資金組成,但其

分析圖

風險等級和收益率各不相同。根據投資組合理論,投資的多樣化可以分散掉一定的風險,因此資金提供者需要決定投資於債務性資金和權益性資金的比例。以便在權衡風險和收益的情況下保證其利益的最大化。

理論探索而外部資金提供者利益的最大化也就是企業價值的最大化,這一投資比例對於企業融資而言也就是企業的最優資本結構比例。

假定某企業的資金通過發行債券和股票兩種方式獲得,並且都屬於風險性資產。σ其中債券的收益率為rD,風險通過標準差σD來衡量;股票的收益率為rE,風險為σE;股票和債券的相關係數pDE,協方差為COV(rD,rE);債券所佔的比重wD,股票所佔比重為WE(WD + WE = 1)。根據投資組合理論,企業外部投資者對該企業投資所獲的期望收益率為E(rp) = WDE(rD) + wEE(rE),方差為

方差

1、企業債務性資金和權益性資金完全正相關,即相關係數pDE為1。企業外部投資者獲得的期望收益率為E(rp) = wDE(rD) + wEE(rE),風險標準差為σ = wDσD + wEσE,也就是組合的標準差等於各個部分標準差的加權平均值,通過投資組合不可能分散掉投資風險。根據投資組合理論,投資組合的不同比例對於投資者而言是無差異的。

2、企業債務性資金和權益性資金完全負相關,即其相關係數為-1。投資者獲得的報酬率的期望值及其方差分別為。根據投資組合理論,只有當投資比例大於σE / (σD + σE)時其投資組合才是有效的。對於企業籌資而言,也即企業的權益性資金的比例大幹σE / (σD + σE),企業的籌資比例才是有效的,而且當組合比例為σE / (σD + σE)時,企業的籌資組合風險為零。

3、企業債務性資金和權益性資金的相關係數大於-1小於1。理論上,一個企業的兩種籌資方式之間的相關程度較高,一方面兩種籌資方式都承擔系統風險,另一方面它們也承擔相同的公司風險。因此從實踐來看,企業的不同籌資方式間的相關程度不可能是完全的正相關和負相關。對於一個企業而言,債務性資金對企業有固定的要求權,權益性資金對企業只有剩餘要求權,因此債務性資金的波動不可能像權益性資金的波動那麼大。同時企業的風險會同時影響企業的債務性資金和權益性資金,因此企業的債務性資金和權益性資金的相關係數不可能為負數。企業不同的籌資方式間的相關係數一般在0-1之間。

那麼究竟在什麼比例下企業的價值才會達到最大呢?根據投資組合理論,當E(r1) > E(r2),且

方差3

時,才能出現r1,優於r2。可見,決定企業資本結構的直接因素主要是不同籌資方式的收益率和風險以及它們之間的相關係數。

關於「標準差」的留言: Feed-icon.png 訂閱討論RSS

目前暫無留言

添加留言

更多醫學百科條目

個人工具
名字空間
動作
導航
功能菜單
工具箱