計算語言學

修訂版

《計算語言學(修訂版)》是2014年清華大學出版社出版的圖書,作者是劉穎。

內容簡介


本書側重最經典的工作,闡述計算語言學的基本理論和方法,主要介紹現代句法理論和語義理論,詞法、句法和語義階段重要的分析演演算法、統計語言學和機器翻譯。
計算語言學是一門涉及語言學、計算機科學和數學等多門學科的交叉學科,覆蓋面廣。本書側重最經典的工作,闡述計算語言學的基本理論和方法,主要介紹現代句法理論和語義理論,詞法、句法和語義階段重要的分析演演算法、統計語言學和機器翻譯。本書結構完整,層次分明,條理清楚;既便於教學,又便於自學。可作為中文、外語、計算機等專業高年級本科生和研究生教材,也可供從事自然語言處理或信息處理的研究者參考。

前言


計算語言學,也稱自然語言處理或自然語言理解,它是研究如何利用計算機來分析、處理和理解自然語言的一門學科。計算語言學是植根於計算機科學、語言學和數學等多學科沃土而成長起來的一門新興學科。一般情況下,處理自然語言不僅要有語言學方面的知識,而且還要有數學和計算機科學方面的知識,因此,計算語言學就成為一門介於語言學、數學和計算機科學之間的邊緣性交叉學科。
本書第1章主要介紹計算語言學與計算機科學、數學和語言學學科之間的關係,並介紹了計算語言學的基本方法、主要內容、應用領域以及發展過程。第2章主要介紹了自然語言處理常用的語法詞典、語義詞典和語義框架詞典及其應用。語法詞典介紹了《現代漢語語法信息詞典》,語義詞典介紹了wordnet 、《同義詞詞林》和《知網》,除此之外還介紹了語義框架詞典framenet。第3章主要介紹漢語的切詞、切詞歧義以及如何消歧,介紹了英語的形態分析及主要分析演演算法以及日語的分詞、分詞歧義、分詞演演算法和日語開源分詞軟體。第4章主要介紹詞性標註的4種方法——規則方法、統計方法、規則與統計結合以及基於轉換的錯誤驅動方法。重點介紹用隱馬爾可夫模型、條件隨機場和最大熵模型進行詞性標註的統計處理過程。第5章主要介紹喬姆斯基的4種類型的文法和4種類型的自動機。文法和自動機是刻畫語言的有效手段,文法用來生成語言中的句子,自動機用來識別語言的句子,就描述一種語言而言,兩者是統一的。前者屬於形式語法理論,後者屬於自動機理論。第6章主要介紹20世紀50年代以來發展起來的用於自然語言處理的一些重要的句法理論,主要有基於類的語法理論和基於詞的語法理論,基於類的語法理論有:轉換生成語法、樹粘接語法、辭彙功能語法、功能合一語法、廣義短語結構語法和中心詞驅動的短語結構語法。基於詞的語法理論包括:範疇語法、依存語法和鏈語法等。喬姆斯基提出的短語結構語法分析能力不高,分析時難以區分大量的不合語法的句子,生成能力過強。後來喬姆斯基提出了轉換生成語法來克服短語結構語法的這些局限性,但轉換生成語法本身也有局限性,它的生成能力過強。於是,喬姆斯基提出管轄約束理論來限制轉換生成語法過強的生成能力。然而,由於轉換生成語法通常要涉及若干個句子之間的關係,在機器翻譯和自然語言處理中使用起來很不方便,不如短語結構語法那樣,就一個句子來分析一個句子,它的成分結構是單一的,非常便於進行機器翻譯的語法分析和自然語言處理。計算語言學的學者們拋棄了轉換生成語法,又轉向短語結構語法,於是80年代以來出現了各種增強的短語結構語法——辭彙功能語法、功能合一語法、廣義短語結構語法、中心詞驅動的短語結構語法等,這些語法都採用了複雜特徵結構來改進短語結構語法單一的特徵,採用合一運算來改進傳統的集合運算,從而有效地克服了短語結構語法的缺點,保持了短語結構語法的優點。基於詞的語法與基於類的語法不同,把語言知識主要都記錄在詞典中。第7章主要介紹了用於自然語言分析的擴充轉移網路、Early分析演演算法、Tomita分析演演算法、Chart分析演演算法和CYK分析演演算法。基於擴充轉移網路句法分析的優點在於所定義的操作接近人在理解語言時所採用的操作,缺點是隨著結點的增多,計算的複雜性就會急劇地增長,修改時非常困難。Tomita分析演演算法、Chart分析演演算法等都可以運用複雜特徵集和合一運算機制對短語結構語法進行分析。Tomita分析演演算法改進了LR分析演演算法,是一種高效的自然語言分析方法。Chart分析演演算法採用了線圖(chart)來記錄分析結果,線圖可以表示互不相連的樹,可以表示歧義。CYK演演算法是一種并行的分析演演算法。由於其演演算法容易實現、易於被人理解,因此被廣泛應用於機器翻譯中。第8章主要介紹了用於自然語言處理的一些語義理論以及如何運用這些理論。第9章主要介紹了語料庫及其標註、n元模型、HMM模型及HMM在語音識別和組塊識別中的應用、隨機上下文無關語法及在句法語義消歧中的應用、基於長度的句子對齊、支持向量機及用於入聲識別和最大熵模型及其應用。針對統計出現的數據稀疏問題,介紹了常見的數據稀疏處理方法。第10章系統地介紹了機器翻譯的方法、困難及解決策略、應用類型及應用領域和機器翻譯的自動評價。重點介紹了統計機器翻譯方法,包括基於詞對齊的機器翻譯、基於短語對齊的機器翻譯和基於句法的機器翻譯。詞對齊主要有IBM的詞對齊和基於HMM的詞對齊。短語對齊主要有利用詞對齊進行的短語對齊、對齊模板和層次的對齊短語。基於句法的統計機器翻譯介紹了樹串模型、串樹模型和樹樹模型。目前,基於短語對齊的統計翻譯譯文質量較高。
本書可作為中文、外語、計算機等專業高年級的本科教材,教授學時可為32~64學時。教師可根據學時安排上機,比如詞法分析、詞性標註和句法分析等。如果學生掌握了基本理論和演演算法,同時通過上機實現了一些重要演演算法,則能為掌握本門課程以及掌握計算機處理自然語言打下堅實基礎。
本書在寫作時盡量做到通俗易懂,所有的演演算法都舉例進行了詳細說明,並列出了計算機處理自然語言的詳細過程。本書的讀者如果具有一定的計算機科學方面的知識(如離散數學、數據結構等),則能更好地理解本書的所有內容。
本書的寫作參考了許多學者的論文和著作,本書能夠出版與他們所做的工作緊密相關。謹向他們表示衷心感謝。
由於本人水平和時間限制,書中難免存在疏漏和不足之處。歡迎各位讀者批評指正。
2014年7月

目錄


第1章計算語言學簡介
1.1計算語言學
1.1.1計算語言學概念
1.1.2計算語言學與計算機科學
1.1.3計算語言學與語言學
1.1.4計算語言學與數理語言學
1.1.5計算語言學與自然語言
1.2計算語言學主要研究的內容
1.3計算語言學理論的主要用途
1.3.1機器翻譯
1.3.2語音自動識別和自動生成
1.3.3自動文摘
1.3.4自動校對
1.3.5自然語言理解
1.3.6信息自動檢索
1.3.7自動問答
1.3.8自動分類
1.3.9信息抽取
1.4計算語言學研究的基本方法
1.4.1理性主義和經驗主義
1.4.2理性主義和經驗主義的區別
1.5計算語言學的發展歷程
1.6本章小結
第2章機器詞典
2.1《現代漢語語法信息詞典》
2.2《同義詞詞林》
2.3Wordnet
2.4Framenet
2.5《知網》
2.6本章小結
第3章詞法分析
3.1漢語的自動分詞
3.1.1詞與自動分詞
3.1.2漢語自動分詞的重要性
3.1.3漢語自動分詞方法
3.1.4漢語切分歧義及其處理
3.1.5未登錄詞的處理
3.1.6漢語分詞的難點
3.1.7漢語分詞評測
3.2屈折語的詞法分析
3.2.1屈折語的詞法分析
3.2.2屈折語的詞法分析技術
3.2.3詞法分析的原因
3.2.4詞法分析的程度
3.3日語分詞
3.3.1日語詞語特徵
3.3.2日語分詞的常用方法
3.3.3日語切詞和詞性標註
3.3.4日語開源切分和標註器
3.4本章小結
第4章詞性標註
4.1詞性標註概述
4.2詞性標註集
4.3詞性標註的研究方法
4.3.1規則方法
4.3.2統計方法進行詞性標註
4.3.3統計與規則相結合的方法
4.3.4基於轉換的錯誤驅動學習
4.4本章小結
第5章形式語言理論與自動機
5.1形式語言理論
5.1.1形式語法
5.1.2形式語法組成
5.1.3形式語法的定義
5.1.4形式語法的特點
5.1.5研究形式語法的必要性
5.1.6語法的類型
5.2自動機理論
5.2.1圖靈機
5.2.2線性有界自動機
5.2.3有限自動機
5.2.4下推自動機
5.3喬姆斯基層級和自然語言
5.3.1文法、自動機和語言的關係
5.3.2哪一種語法最宜於用來生成自然語言的句子
5.4本章小結
第6章現代句法理論
6.1轉換生成語法
6.1.1經典理論
6.1.2喬姆斯基的標準理論
6.1.3擴充式標準理論
6.2廣義的短語結構語法
6.2.1引言
6.2.2句法規則
6.2.3特徵制約系統
6.2.4語義解釋系統
6.3樹粘接語法
6.4中心詞驅動的短語結構語法
6.5功能合一文法
6.5.1複雜特徵集
6.5.2合一運算
6.6辭彙功能文法
6.6.1引言
6.6.2基本成分
6.6.3詞庫部分
6.6.4LFG的兩個語法層次結構
6.6.5功能合格條件
6.6.6辭彙功能語法特點
6.7範疇語法
6.8依存語法
6.9鏈語法(Link Grammar)
6.10本章小結
第7章句法分析
7.1句法分析概念
7.1.1分析策略
7.1.2句法分析
7.2有限狀態轉移網路、遞歸轉移網路和擴充轉移網路
7.2.1有限狀態轉移網路
7.2.2遞歸轉移網路
7.2.3擴充轉移網路
7.3自頂向下剖析
7.4厄爾利演演算法
7.5LR分析演演算法
7.5.1LR(0)演演算法
7.5.2LR(1)演演算法
7.5.3對LR(k)演演算法的評價
7.6富田勝演演算法
7.7自底向上的線圖演演算法
7.8自底向上與自頂向下相結合的線圖分析演演算法
7.9CYK演演算法
7.10本章進一步討論
7.11本章小結
第8章語義理論與語義分析
8.1格語法
8.1.1格的含義
8.1.2格語法
8.1.3辭彙部分
8.1.4轉換部分
8.1.5使用格語法進行語義分析:格框架約束分析技術
8.1.6格語法描寫漢語的局限性
8.2語義網路文法
8.2.1語義網路的概念
8.2.2語義網路的概念關係
8.2.3事件的語義網路表示
8.2.4事物間語義關係
8.2.5用語義網路進行推理
8.2.6用語義網路來翻譯
8.2.7基於語義網路的漢語處理
8.3義素分析法
8.4優選語義學
8.4.1語義元素
8.4.2語義公式
8.4.3語義模式
8.4.4使用優選理論翻譯英法句子的處理過程
8.4.5優選語義學主要特點
8.5蒙塔格語法
8.5.1引言
8.5.2MG句法部分
8.5.3MG翻譯部分
8.5.4MG語義部分
8.6本章進一步討論
第9章統計語言學
9.1概率統計與資訊理論基礎
9.2語料庫發展與加工技術
9.2.1語料庫的發展與加工
9.2.2語料庫的作用
9.3概率語法
9.3.1n元語法
9.3.2隱馬爾可夫模型及其應用
9.3.3概率上下文無關語法及其應用
9.4雙語語料庫中的對齊技術
9.4.1基於長度的句子對齊
9.4.2基於辭彙的句子對齊
9.5支持向量機
9.6最大熵模型
9.7參數平滑演演算法
9.8本章小結
第10章機器翻譯
10.1機器翻譯的概念
10.2機器翻譯方法
10.2.1直接翻譯法(第一代機器翻譯系統)
10.2.2基於轉換的方法
10.2.3基於中間語言方法
10.2.4統計機器翻譯
10.2.5基於實例方法
10.3機器翻譯難點
10.4機器翻譯系統採取的其他策略
10.5機器翻譯發展原因
10.6機器翻譯的應用
10.7機器翻譯自動評測方法
10.8本章小結