離群值

與其他數值相比差異較大的數值

離群值(outlier)是指在數據中有一個或幾個數值與其他數值相比差異較大。

詳情介紹


醫學實驗中經常會有出現離群值的情況,究竟是由於隨機漲落引起的,還是由於某些確定因素造成的,有時難以判斷,如果處理不好將會引起較大的系統誤差。對離群值的處理有一些統計判斷的方法,如chanwennt準則規定,如果一個數值偏離觀測平均值的概率小於等於1/(2n),則該數據應當捨棄(其中n為觀察例數,概率可以很據數據的分佈進行估計)。

基本特徵


發現離群值也可以通過觀察值的頻數表或直方圖來初步判斷,也可通過統計軟體作觀察值的箱式圖來判斷,如果觀測值距箱式圖底線Q1(第25百分位數)或頂線Q3(第75百分位數)過遠,如超出箱體高度(四分位數間距)的兩倍以上,則可視該觀測值為離群值。當數據近似正態分佈時,有一種較為簡單的方法,可用均數加減2.5s來判斷,如觀測值在此範圍以外,可視為離群值。在統計學上也可用線性回歸的方法來對離群值進行判斷。當出現離群值的時候,要慎重處理,要將專業知識和統計學方法結合起來,首先應認真檢查原始數據,看能否從專業上加以合理的解釋,如數據存在邏輯錯誤而原始記錄又確實如此,又無法在找到該觀察對象進行核實,則只能將該觀測值刪除。如果數據間無明顯的邏輯錯誤,則可將離群值刪除前後各做一次統計分析,若前後結果不矛盾,則該例觀測值可予以保留。
離群值處理方法包括:
一、剔除離群值,不追加觀測值;
二、剔除離群值,追加觀測值;或剔除離群值,適宜地插補替代;
三、找到實際原因修正離群值,否則予以保留的;
離群值的取捨
1. 定義
在一組 平行測定 數據中,有時會出現個別值與其他值相差較遠,這種值叫離群值。
判斷一個測定值是否是離群值,不是把數據擺在一塊看一看,那個離得遠,那個是離群值,而是要經過計算、比較才能確定,我們用的方法就叫Q檢驗法。
2. 檢驗方法
(1)求Q:Q=
即:求出離群值與其最鄰近的一個數值的差,再將它與 極差 相比就得 Q值。
(2)比較:根據測定次數n和 置信度 查Q,若Q>Q,則離群值應捨去,反之則保留離群值。