數理語言學

數理語言學

數理語言學 mathematical linguistics ,運用數學原理幫助掌握、運用和研究英語等語言的邊緣學科。

應用數學思想和數學方法來研究語言現象的一門新興的語言學科,它使語言學與現代數學、計算機科學、控制論以及人工智慧等學科發生密切的聯繫。

發展歷史


1847年,俄國數學家В.Я.布利亞科夫斯基認為可以用概率論來進行語法、詞源及語言歷史比較的研究。1894年,瑞士語言學家F de索緒爾認為,可以用數學公式有規律地表達語言中的量和量之間的關係。他又把語言學與幾何系統和只有複雜項的代數相比。1904年,波蘭語言學家J.N.博杜恩·德·庫爾德內認為,語言學家應該掌握初等數學和高等數學,語言學將根據數學的模式更多地擴展量的概念,並將發展新的演繹思想的方法。1933年,美國語言學家L.布龍菲爾德更認為數學是語言所能達到的最高境界。俄國數學家A.A.馬爾科夫(1856~1922) 甚至在1913年就採用了概率論的方法研究A.C.普希金的長詩《歐根·奧涅金》中的俄語母音和輔音字母的序列,從而建立了馬爾科夫隨機過程的數學理論。
20世紀40年代以來,由於通信技術的發展,需要尋求語言的最佳的編碼方法,以提高通道的傳輸能力,因而要對語言的統計特性進行精密的研究。機器翻譯、情報檢索等文獻自動處理技術的出現,又要求精確地描述和解釋語言的結構,建立語言的數學模型,並用數學方法來研究語言的語法和語義結構。
實踐中提出的這些要求,使語言學中建立數理語言學成為必要,而科學技術的發展也為數理語言學的產生提供了可能。例如,20世紀以來迅速發展的概率論、數理統計、資訊理論集合論、數理邏輯、圖論、格論、模糊數學抽象代數等數學部門,為用數學思想和方法研究語言提供了有力的武器;傳統語言學內出現的O.葉斯泊森的"分析句法", 結構語言學內L.布龍菲爾德、 Z.S.哈里斯等人提出的辨別語素、分析層次的一套嚴格的語言研究法,在這方面也有一定的啟示作用。控制論採用的一些方法,特別是模擬方法,可以作為建立語言數學模型的借鑒;計算機科學中對程序語言結構和編譯技術的研究,可以作為用數學思想和方法研究自然語言的參考;人工智慧所探討的有關智能活動的一般規律,對數理語言學的研究也有一般的指導作用。
1955年,美國哈佛大學首先創辦了數理語言學討論班,1957年正式開設數理語言學課程。此後,日本、蘇聯、聯邦德國、羅馬尼亞、法國、匈牙利、捷克斯洛伐克、英國、波蘭、瑞典、民主德國相繼開展這方面的教學和研究。中國從50年代末逐步開展了數理語言學的研究,在用數學方法研究漢語的自動分析和生成、漢字信息處理、言語統計等方面,都取得一定成績。有的單位還開設了數理語言學課程。

組成方面


數理語言學主要包括 3個方面:①代數語言學,②統計語言學,③應用數理語言學。代數語言學是採用集合論、數理邏輯、演演算法理論、模糊數學、圖論、格論等離散的、代數的方法來研究語言,統計語言學是採用概率論、數理統計和資訊理論等統計數學的方法來研究交際過程中語言成分使用的頻率和概率(統計規律),而把代數語言學和統計語言學應用於機器翻譯、人機對話以及情報檢索的技巧和方法的研究,就是應用數理語言學的內涵。

代數語言學


代數語言學的目的在於建立語言的代數模型,對客觀的語言現實進行抽象的代數描述和理論上的精確分析,從而把語言學的某些方面改造成數學那樣的演繹系統。代數語言學中的語言模型主要有分析性模型、生成性模型和辨識性模型 3種,分析性模型主要採用集合論的方法,對語法的基本概念進行數學描述,生成性模型著重於研究形式文法和自動機理論,闡明形式文法及其與自動機的關係,辨識性模型則研究句法類型演算方法。此外,還有把句法與語義結合起來研究的孟德斯鳩語法。這些語言模型的研究,衝破了語言學傳統的歸納方法的束縛,給語言學研究帶來了變革性的重大影響,而且,語言現象經過模型刻畫之後,更適於計算機處理,為自然語言的自動處理提供了手段(見代數語言學)。

統計語言學


統計語言學的目的在於建立語言的統計模型。採用統計方法來研究語言的音素和音位的,有語音統計學;研究親屬語言分化的年代,有語言年代學;研究文章風格的,有風格統計學。近年來,人們開始利用計算機進行自然語言的統計研究(見統計語言學)。
包括機器翻譯、人機對話、信息存儲、信息傳輸等在內的應用數理語言學,主要研究語言自動分析和語言自動生成的方法,目前則重視語義的形式化研究。數理語言學豐富了語言研究的手段和方法,並為語言學的研究開闢了一個新領域。