Wordnet
Wordnet
WordNet是由Princeton 大學的心理學家,語言學家和計算機工程師聯合設計的一種基於認知語言學的英語詞典。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個“單詞的網路”。
Wordnet
名詞網路的主幹是蘊涵關係的層次(上位/下位關係),它佔據了關係中的將近80%。層次中的最頂層是11個抽象概念,稱為基本類別始點(unique beginners),例如實體(entity,“有生命的或無生命的具體存在”),心理特徵(psychological feature,“生命有機體的精神上的特徵)。名詞層次中最深的層次是16個節點。
"WordNet: An Electronic Lexical Database"一書分三部分,16章。第一部分從第1章到第4章,前3章分別介紹WordNet中的名詞,形容詞,動詞,第4章介紹WordNet的設計細節及相關軟體的情況(這主要是由普林斯頓大學認知科學實驗室的研究人員寫的);第二部分和第三部分主要是由普林斯頓認知科學實驗室之外的參加WordNet研究工作的研究人員撰寫的。第5章和第6章描述了WordNet的改進;第7章從形式化的概念分析的角度描述了WordNet;第8到第16章討論了WordNet的各種不同應用。
(一)計算機與詞庫(computers and lexicon)
· 一個人即使不接受把人腦比作計算機的隱喻,也一定同意,計算機提供了一個良好的模式演練場,通過它,人們可以測試各種關於人類認知能力的理論模型。
· 越來越多的人認識到,一個大的詞庫對自然語言理解,人工智慧的各方面研究都具有重要的價值。
· 對大規模機器可讀詞典的需求同時也帶來許多基礎問題。首先是如何構造這樣一個詞庫,是手工編製還是機器自動生成?第二,詞典中應包含什麼樣的信息?第三,詞典應如何設計,即信息如何組織,以及用戶如何訪問?實際上,這些問題涉及到詞典的編纂方法,詞典的內容,詞典的使用方式這一系列非常基礎的問題。
(二)構造詞庫資料庫(constructing the lexical database)
· 構建詞典的兩種基本方式:自動獲取 / 手工編製。
手工構建詞典的優點之一是便於創建更為豐富的詞條信息;其次是便於控制。
(三)WordNet的內容
· WordNet的描述對象包含compound(複合詞)、phrasal verb(短語
動詞)、collocation(搭配詞)、idiomatic phrase(成語)、word(單詞),其中word是最基本的單位。
· WordNet並不把詞語分解成更小的有意義的單位(這是義素分析法/componential analyses的方法);WordNet也不包含比詞更大的組織單位(如腳本、框架之類的單位);由於WordNet把4個開放詞類區分為不同文件加以處理,因而WordNet中也不包含詞語的句法信息內容;WordNet包含緊湊短語,如bad person,這樣的語言成分不能被作為單個詞來加以解釋。
· 人們經常區分詞語知識和世界知識。前者體現在詞典中,後者體現在百科全書中。事實上二者的界限是模糊的。比如hit(“打”)某人是一種帶有敵意的行為,這是百科知識;而hit跟strike(“擊”)多多少少同義,並且hit可以帶一個直接賓語論元,這是詞語知識。但hit的直接賓語應該是固體(而不是像gas這樣的氣體),這是詞語知識還是百科知識就界限模糊了。不過毫無疑問,要理解語言,這兩部分知識是缺一不可的。Kay(1989)指出我們的大腦詞庫應該包含這兩部分知識。但是百科知識太多難以駕馭,WordNet不試圖包括百科知識。不過,在WordNet中,對於一些不常見的專業概念,比如不常見的植物和動物,詞語知識和百科知識是融合在一起的。
(四)WordNet的設計(the design of WordNet)
· 一般的詞典都是按照單詞拼寫的正字法原則進行組織的。但如果為了獲得詞語意義信息的目的,通過詞語語義屬性來組織詞典就更值得去做了。在線詞典跟傳統的紙張詞典不同,允許使用者從不同的途徑去訪問詞典信息。
· 第一個以意義作為組織原則的詞典是羅傑斯同義詞詞林(Roget's Thesaurus)。傳統的詞典是通過提供給用戶關於詞語的信息來幫助用戶理解那些他們不熟悉的詞的概念意義。WordNet既非傳統詞典,也非同義詞詞林。它混合了這兩種類型的詞典。
(五)作為同義詞詞林的WordNet (WordNet as a thesaurus)
· WordNet跟同義詞詞林相似的地方是:它也是以同義詞集合(synset)作為基本建構單位進行組織的。用戶腦子裡如果有一個已知的概念,就可以在同義詞集合中中找到一個適合的詞去表達這個概念。
· 但WordNet不僅僅是用同義詞集合的方式羅列概念。同義詞集合之間是以一定數量的關係類型相關聯的。這些關係包括上下位關係、整體部分關係、
繼承關係等。
(六)作為一般詞典的WordNet (WordNet as a dictionary)
· WordNet跟傳統的詞典相似的地方是它給出了同義詞集合的定義以及例句。在同義詞集合中包含對這些同義詞的定義。對一個同義詞集合中的不同的詞,分別給出適合的例句來加以區分。
(七)WordNet中的關係(relations in WordNet)
· 不同句法詞類中的語義關係類型也不同,比如儘管名詞都動詞都是分層級組織詞語之間的語義關係,但在名詞中,上下位關係是hyponymy關係,而動詞中是troponymy關係;動詞中的entailment(繼承)關係有些類似名詞中的meronymy(整體部分)關係。名詞的meronymy關係下面還分出三種類型的子關係(見“WordNet中的名詞”部分)。
(八)網球問題(the tennis problem)
· WordNet是基於同義性和反義(對義)性來描述詞語和概念之間的各種語義關係類型的。由於WordNet的注意力不是在文本和話語篇章水平上來描述詞和概念的語義,因此WordNet中沒有包含指示詞語在特定的篇章話題領域的相關概念關係。例如,WordNet中沒有將racquet(網球拍)、ball(球)、net(球網)等詞語以一定方式聯繫到一起。Roger Chaffin在一封私人信箋中,曾把這類問題稱為“tennis problem”(網球問題),指的就是如何把racquet、ball、net、court game(場地比賽);或者把physician(內科醫生)跟hospital(醫院)聯繫到一起。這對電子詞典來說,是一個挑戰。已經有一些相關的研究工作在探索如何從WordNet中包含的辭彙和概念之間的語義關係,來推導出話題信息。Hirst和St-Onge描述了一種所謂的“辭彙鏈”(lexical chain)的應用方法。“辭彙鏈”是在基於名詞的語義關係構成的上下文中的名詞的序列。Al-Halimi和Kazman則在類似的基礎上構造“辭彙樹”(lexical tree)來推導出話題信息。
(九)新的觀點,改進,應用(new perspectives, enhancements, and applications)
· 許多WordNet的用戶都對WordNet中缺乏跟語義處理的細節相匹配的句法信息而感到遺憾。的確,WordNet中幾乎沒有句法信息,因為它是作為一個語義知識庫構建的。但是,對形容詞的部分句法約束信息是包含在WordNet中的(考慮形容詞跟中心名詞的關係,以及形容詞作為屬性形容詞作表語使用的情況)。句法對動詞而言最為重要,對此,可以通過動詞的名詞論元、介詞短語以及義素組成等不同來加以次範疇化(分出動詞小類)。目前,WordNet的每個動詞同義詞集中包含了及物性和論元類型的基本信息,但有關這些論元的性質的細節就很少提到。知識工程以及推理方面的應用系統特別受益於動名間關係的信息。WordNet的一些用戶依靠其他一些語法知識庫,像COMLEX,來配合WordNet中的語義信息一道使用。事實上,有關動詞的句法信息和語義信息的區分基本是人為的。Levin(1985,1993)已經收集了令人印象深刻的證據來說明動詞的語義性質跟其句法行為之間的緊密聯繫。
(十)詞語和它的上下文(words and their contexts)
· 為了提供詞語的語境信息,普林斯頓(Princeton)認知科學實驗室開發了一個語義檢索工具(semantic concordance)——見《WordNet》一書第8章。該工具將文本和詞庫組成一個整體的資料庫,從而使文本中的單詞跟詞庫中合適的意義相關聯。這樣的語義檢索工具,既可以看作是這樣一個文本,其中的單詞帶有句法和語義信息的標註;也可以看作是一個詞庫,其中的詞條都配有指示義項用法環境的例句。跟WordNet語義詞庫配合的文本是來自Brown語料庫的語料(當代美國英語標準語料庫)以及一個中短篇小說的全文(the complete text of a novella)。
(十一)意義排歧(sense disambiguation)
· 儘管我們很清楚,在確定的上下文中,說者賦予多義詞確定的一個意義,但排歧的過程並不容易。對計算機而言,排歧需要多大的語境就是一個大問題。
· Leacock和Chodorow(見《WordNet》一書第11章)測試了對多義動詞“serve”進行多義詞歧義消解的不同策略。在三個試驗中,他們發現,選擇上下文的“窗口”大小為6個詞比較適宜,所得結果最優;此外,當將上下文信息和WordNet中有關詞語之間語義相似度的信息結合在一起使用時,排歧準確度最高。
(十二)信息檢索(information retrieval)
· 意義排歧對許多應用來說都是關鍵因素,比如信息檢索就是這樣的應用領域。Voorhees(見《WordNet》一書第12章)解釋說,要在大量文獻中發現所需的文檔,計算機就要在被查詢詞語和文檔標題或摘要之間進行有效地匹配操作。Voorhees探討了WordNet在詞語匹配方面的效力,發現意義分辨方面的困難阻礙了有效利用WordNet中的語義信息。只有先依靠手工選擇了概念,使得要查找的詞語的意義已知,這種情況下,WordNet中的語義關係信息才對提高檢索結果有幫助。
(十三)語義關係與文本連貫性(semantic relations and textual coherence)
· Hirst 和 St-Onge(見《WordNet》第13章)也討論了上下文的問題,尤其是一個連貫的文本是如何組成的。基於語篇是由意義相關的概念串聯起來的假設,他們使用了“辭彙鏈”(lexical chain)概念作為評估連貫性的一種方式。Hirst和St-Onge採用辭彙鏈來檢查文本中的用詞錯誤情況(malapropism)。他們把用詞錯誤定義為:一個詞所對應的概念跟該詞所在的文本中的其他詞所對應的概念無關。利用評估一個辭彙鏈中鏈接強度的方法,Hirst和St-Onge認為,文本中詞語之間的語義距離越大,出現用詞錯誤問題的可能性也越大。
· Al-Halimi和Kazman也對信息存貯,索引,檢索等問題感興趣(見《WordNet》第14章)。他們描述了一種自動對視頻會議的腳本按照話題進行索引的方法(不是按照關鍵詞索引),以及利用話題索引結果,通過匹配對腳本進行信息檢索。Al-Halimi和Kazman將話題信息描述為“辭彙樹”(lexical tree)——這是對“辭彙鏈”的一個修正。前者對後者的革新之一是考慮了不同的語義關係類型的信息相關性。
· Hirst和St-Onge指出,WordNet缺乏有關兩個相關詞之間語義距離的信息。他們舉的例子是:more stew than steak(燜肉比牛排多),其中“more ... than”是一個格式,用來連接兩個語義上相關的詞語。在這個例子中,兩個名詞(stew和steak)分屬6個同義詞集合(synset),顯然這無法反映出它們真實的語義距離。說英語的人知道“good person”(好人,聖人)的兩個上下位概念之間語義上是非常相似的。這兩個上下位概念分別是{saint, holy man, holy person, angel},{plaster saint},而且這兩個概念之間的相似性與它們跟第三個下位概念之間的相似性不同。第三個下位概念是{square shooter, straight arrow}(正人君子)。
(十四)知識工程(knowledge engineering)
· WordNet的諸多應用中,最具雄心壯志的也許是知識工程(見《WordNet》一書第15,16章)。
· Harabagiu和Moldovan(見《WordNet》一書第16章)指出,為常識推理建模需要一個擴展的知識庫,其中包括數量巨大的概念和關係。WordNet提供了前者,但在關係方面不足以支持推理。他們的解決方案是對WordNet中的註釋進行排歧,得到詞語之間的更多關係,從而將WordNet中的註釋轉變為語義網路,其中包含不同詞類之間的關係。他們舉了一個例子:在hungry(餓)和refrigerator(冰箱)之間存在一個路徑,因為這兩個標記詞在food(食物)這個節點上相撞,即通過food,可以把hungry和refrigerator聯繫到一起,從而用於常識推理。