語料庫

語料庫

關於語料庫的三點基本認識:語料庫中存放的是在語言的實際使用中真實出現過的語言材料;語料庫是以電子計算機為載體承載語言知識的基礎資源;真實語料需要經過加工(分析和處理),才能成為有用的資源。

概述


語料庫

名詞(corpus,複數corpora)
指經科學取樣和加工的大規模電子文本庫。藉助計算機分析工具,研究者可開展相關的語言理論及應用研究。
corpus
n. ( pl. corpora)
refers to a large collection of well-sampled and processed electronic texts, on which language studies, theoretical or applied, can be conducted with the aid of computer tools.
語料庫是語料庫語言學研究的基礎資源,也是經驗主義語言研究方法的主要資源。應用於詞典編纂,語言教學,傳統語言研究,自然語言處理中基於統計或實例的研究等方面。

分類

語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這一點往往能夠體現在語料採集的原則和方式上。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料;⑵同質的(Homogeneous):只收集同一類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一範圍內的語言事實;⑷專用的(Specialized):只收集用於某一特定用途的語料。
除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的採集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關係,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到一起,多用於語言對比研究。已經累積了大量各種類型的語料庫,如:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。

特徵

語料庫有三點特徵
⒈語料庫中存放的是在語言的實際使用中真實出現過的語言材料,因此例句庫通常不應算作語料庫;
⒉語料庫是承載語言知識的基礎資源,但並不等於語言知識;
⒊真實語料需要經過加工(分析和處理),才能成為有用的資源。
語料庫的發展經歷了前期(計算機發明以前),第一代語料庫,第二代語料庫,到第三代語料庫

第三代


定義

【動態流通語料庫】
第三代語料庫是歷時語料庫。是基於大規模真實文本的語料庫,是對語言文字的使用進行動態追蹤的語料庫,是對語言的發展變化進行監測的語料庫,是"活"的語料庫.
苑春法,黃昌寧等人在1995年著文談到"第三代語料庫"的問題,並且介紹了美國計算語言學學會倡議的數據採取計劃ACL/DCI.認為這一代語料庫首先對所有可以得到的語料以文本形式存儲起來,它的容量一般為一億詞次以上,21世紀可望達到萬億詞次的量級。該文實際上已經將下一代語料庫的建設提上議事日程.

兩大特色

第三代語料庫有兩大特色:
1,語料的動態性:語料是不斷動態補充的.
2,語料的流通性:語料又多了一種新的"流通度"屬性,這是一種具有量化的屬性值的屬性.

特點

【第三代語料庫的特點】
時代:六,七十年代到八十年代及九十年代以來.
語料:從單語種到多語種.
數量:從百萬級到千萬級再到億級和萬億級.
加工:從詞法級到句法級再到語義和語用級.
文本:從抽樣到全文.
特點一:動態性
不確定一個固定的庫容量(例如:把庫容量目標確定為數百萬字,上千萬字,數千萬字,數億字等);
不確定一個固定的選擇文本的時間段(例如:確定為49年-82年,80年-90年,90年-95年語料等)
不確定一個固定的文本選擇範圍或應用領域(例如:確定為只收現代漢語文學語料,或新聞語料,或科技語料或中小學生語料等,從而建立一些專門的語料庫);
不確定一些固定的文本抽樣對象(例如:《人民日報》,《光明日報》,《人民文學》,《小說選刊》,或者老舍著作,巴金著作,毛澤東著作,鄧小平著作等).
是即期抽取的語料庫:根據大眾媒體的傳播情況,依據一定的原則來動態抽取.
是歷時的語料庫:可以觀察和測量到流通度的變化情況,可以追蹤到語言成分的產生,成長和消亡.
是動態變化的語料庫:大眾傳播媒體的情況是在不斷變化的,語料庫也要相應變化.(例如:1978年,中國報紙只有186種,基本上是單一的黨委機關報,到1995年底,已經增加到2202種,平均期印數增加4倍,總印張增加3·5倍,報紙的品種,功能,發行都有了相當大的變化如果要科學地反應語言的流通應用情況,語料庫的容量,選材,抽樣等怎麼可能一成不變呢)
特點二:流通性
1997年全世界期刊發行量最大的前50名的中國期刊(略)

雙語或多語


大致可分為三類:
一是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];
二是研究雙語語料的各種應用,如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;
三是雙語語料庫的設計、採集、編碼和管理問題。比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準,兩者均基於SGML標記語言研究
指不只有一種語言的語料庫。分為平行語料庫和對照語料庫兩種。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,因此可以用於翻譯或者機器翻譯研究;對照語料庫中兩種或多種語言的文本不構成對譯關係,只是領域相同,主題相近。通常只能用於兩種或多種語言的對比。
就前兩類研究來說,中國國內做了較多的跟蹤研究工作,而對於第三類研究,即雙語語料庫尤其是涉及漢語的雙語語料庫的建設、編碼和管理研究,探索工作似乎做的相對較少。
目前國內最大的語料交換平台是Tmxmall語料商城。