命名實體
命名實體
命名實體(named entity)所謂的命名實體就是人名、機構名、地名以及其他所有以名稱為標識的實體。更廣泛的實體還包括數字、日期、貨幣、地址等等。
NE類別一般都是根據問題定義的,常見有機構名、人名、地名等,也可以有時間、日期、數量短語等。
根據MUC會議的規定,命名實體的任務包括三個子任務:
1、實體名(Entity Name),包括人名、地名、機構名
2、時間表達式(Temporal Expressions),包括日期、時間和持續時間
3、數字錶達式(Number Expressions),包括錢、度量衡、百分比以及基數
2004年863NE評測中,命名實體的識別任務包括:
1、命名實體(ENAMEX),包括人名、地名、機構名
2、時間表達式(TIMEX),包括日期、時間
3、數值表達式(NUMEX)
在生物醫學領域內,重要的命名實體包括:基因名稱、蛋白質名稱、蛋白質結構屬性名稱、化合物名稱、藥物名稱和疾病名稱等,其中最重要的是基因名稱和蛋白質名稱。
命名實體識別是指在文檔集合中識別出特定類型的事物名稱或符號的過程。
命名實體識別由3個問題組成:1.識別出文本中的命名實體;2.確定該實體的類型;3.對於多個實體表示同一事物時,選擇其中的一個實體作為該組實體的代表。