命名實體識別

識別文本中具有特定意義的實體

命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。

作用


命名實體識別是信息提取、問答系統、句法分析、機器翻譯、面向Semantic Web的元數據標註等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中佔有重要地位。一般來說,命名實體識別的任務就是識別出待處理文本中三大類(實體類、時間類和數字類)、七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體

過程組成


通常包括兩部分:(1)實體邊界識別;(2)確定實體類別(人名、地名、機構名或其他)。英語中的命名實體具有比較明顯的形式標誌(即實體中的每個詞的第一個字母要大寫),所以實體邊界識別相對容易,任務的重點是確定實體的類別。和英語相比,漢語命名實體識別任務更加複雜,而且相對於實體類別標註子任務,實體邊界的識別更加困難。

難點


(1)漢語文本沒有類似英文文本中空格之類的顯式標示詞的邊界標示符,命名實體識別的第一步就是確定詞的邊界,即分詞;(2)漢語分詞和命名實體識別互相影響;(3)除了英語中定義的實體,外國人名譯名和地名譯名是存在於漢語中的兩類特殊實體類型;(4)現代漢語文本,尤其是網路漢語文本,常出現中英文交替使用,這時漢語命名實體識別的任務還包括識別其中的英文命名實體;(5)不同的命名實體具有不同的內部特徵,不可能用一個統一的模型來刻畫所有的實體內部特徵。