有序分類變數

有序分類變數

有序分類變數,是指其取值的各類別之間存在著程度上的差別,給人以“半定量”的感覺,因此也稱為等級變數。是根據取值特徵而分類的一種定性變數。

背景


變數(variable)是觀測單位的某種特徵或屬性,變數的觀測值就是所謂的變數值,有時也稱數據或資料(data)。更準確地講,數據或資料是由具有若干變數值的觀測單位所組成的。例如在調查中常規問及的問題:你年齡多大?是什麼學歷?結婚了嗎?有工作嗎?家裡有多少人?對應的變數就是:年齡,學歷,婚姻狀況,就業情況,家庭人口數。
分類變數可分為無序變數和有序變數兩類。
無序分類變數(unordered categorical variable)是指所分類別或屬性之間無程度和順序的差別。,它又可分為①二項分類,如性別(男、女),藥物反應(陰性和陽性)等;②多項分類,如血型(O、A、B、AB),職業(工、農、商、學、兵)等。對於無序分類變數的分析,應先按類別分組,清點各組的觀察單位數,編製分類變數的頻數表,所得資料為無序分類資料,亦稱計數資料。

含義


有序分類變數(ordinal categorical variable)是統計學中,根據取值特徵而分類的一種定性變數。所謂有序分類變數,是指其取值的各類別之間存在著程度上的差別,給人以“半定量”的感覺,因此也稱為等級變數,如學歷(文盲、小學、初中、高中、大學、研究生等)。對於有序分類變數,應先按等級順序分組,清點各組的觀察單位個數,編製有序變數(各等級)的頻數表,所得資料稱為等級資料。

示例


有序多分類變數是很常見的變數形式,通常在變數中有多個可能會出現的取值,各取值之間還存在等級關係。比如高血壓分級(0=正常,1=正常高值,2=1級高血壓,3=2級高血壓,4=3級高血壓)、尿蛋白水平(0=-,1=±,2=+,3=++,4=+++)等等。與無序多分類變數不同,有序多分類變數的各個選項直接呈現向一個方向遞增或遞減的關係。
當Logistic回歸中需要將有序多分類變數代入自變數X時,我們如何處理呢?通常大家會習慣性的將有序多分類變數直接代入。這當然不是不對,但是有個前提條件,就是該有序多分類變數每改變一個單位的時候,結局風險增加倍數相同。每改變一個等級,對結局貢獻相同或相似時,可以簡單的用個例子和圖表示一下。比如我們關心研究對象是否接受治療,也就是研究對象中,有一部分人出現了“接受治療”這個結局。可能影響結局的變數之一是教育程度。