分類變數

說明事物類別的名稱

分類變數(categorical variable)是說明事物類別的一個名稱,其取值是分類數據。如“性別”就是一個分類變數,其變數值為“男”或“女”;“行業”也是一個分類變數,其變數值可以為“零售業”、“旅遊業”、“汽車製造 業”等。

簡介


特徵

(categorical variable):其變數值是定性的,表現為互不相容的類別或屬性。

處理方法

中序次測度變數和名義測度變數的處理方法一樣,所以一般並不加以區分,序次測度變數常作為名義測度變數來用,把二者合稱為分類變數。

啞變數


分類自變數的啞變數(dummy variables)編碼來源:生物統計學論壇 在多重回歸、Logistic回歸模型中,自變數可以是連續型變數(interval variables),也可以是二項分類變數,和多分類變數。為了便於解釋,對二項分類變數(如好壞、死活、發病不發病等)一般按0、1編碼,一般0表示陰性或較輕情況,而1表示陽性或較嚴重情況。如果對二項分類變數按+1與-1編碼,那麼所得的logistic回歸OR=exp(2beta),多重回歸的beta同樣增加一倍,容易造成錯誤的解釋。因此建議盡量避免“+1”、“-1”編碼形式。多分類變數又可分為有序(等級)或無序(也叫名義),如果是有序(ordinal)分類變數,一般可按對因變數影響由小到大的順序編碼為1、2、3、...,或按數據的自然大小,將它當作連續型變數處理。如果是無序的(nominal)分類變數,則需要採用啞變數(dummy variables)進行編碼,下面以職業(J)為例加予以說明。假如職業分類為工、農、商、學、兵5類,則可定義比分類數少1個,即5-1=4個啞變數

類型


變數類型不是一成不變的,根據研究目的的需要,各類變數之間可以進行轉化。例如血紅蛋白量(g/L)原屬數值變數,若按血紅蛋白正常與偏低分為兩類時,可按二項分類資料分析;若按重度貧血、中度貧血、輕度貧血、正常、血紅蛋白增高分為五個等級時,可按等級資料分析(資料是根據臨床數據得出)。有時亦可將分類資料數量化,如可將病人的噁心反應以0、1、2、3表示,則可按數值變數資料(定量資料)分析。

分類


分類變數可分為無序變數和有序變數兩類。

釋義

無序分類變數(unordered categorical variable)是指所分類別或屬性之間無程度和順序的差別。,它又可分為①二項分類,如性別(男、女),藥物反應(陰性和陽性)等;②多項分類,如血型(O、A、B、AB),職業(工、農、商、學、兵)等。對於無序分類變數的分析,應先按類別分組,清點各組的觀察單位數,編製分類變數的頻數表,所得資料為無序分類資料,亦稱計數資料。
有序分類變數(ordinal categorical variable)各類別之間有程度的差別。如尿糖化驗結果按-、±、+、++、+++分類;療效按治癒、顯效、好轉、無效分類。對於有序分類變數,應先按等級順序分組,清點各組的觀察單位個數,編製有序變數(各等級)的頻數表,所得資料稱為等級資料。