語料庫語言學
語料庫語言學
別的語言學科基本上都是研究有關領域與語言之間的關係,例如,社會語言學研究的是社會與語言的關係,心理語言學研究的是人的心理活動與語言之間的關係。而語料庫語言學則不同,它只是以語料庫為手段來研究語言。
語料庫語言學(Corpus Linguistics)主要研究機器可讀的自然語言文本的採集、存儲、檢索、統計、詞性和句法標註、句法語義分析,以及具有上述功能的語料庫在語言定量分析、詞典編纂、作品風格分析、自然語言理解和機器翻譯等領域中的應用。
語料庫語言學(Corpus Linguistics)
在一些人看來,語料庫語言學(corpus linguistics)是一個獨立的學科,它有自己獨到的理論體系和操作方法。由於語料庫語言學立足於大量真實的語言數據,對語料庫所做的系統而窮盡的觀察和概括所得到的結論對語言理論建設具有無可比擬的創新意義。而在另外一些研究者看來,語料庫語言學並非語言學的又一個分支學科,而是一種研究方法,這種方法基於大量的真實語言,可以用來回答通過其他途徑很難回答的問題,從而極大地豐富已有的研究方法。語料庫語言學以大量精心採集而來的真實文本(authentic texts)為研究素材,主要通過概率統計的方法得出結論,因此語料庫語言學從本質上講是實證性的(empirical)。
語料語言學受行為主義的影響下,從60年代開始發展,迄今已經有近五十年的歷史。
語料庫在發展的初期,只進行詞的一般分析,如詞頻統計等,後來增加了詞的語法屬性標註(如,詞性等),直到現在,人們越來越開始重視對語料庫作不同層次的標註,如:語音、構詞、句法、語義以及語用等層次的標註。
語料語言學在其發展的初期並沒有引起太大的共鳴,但是現代語料語言學已經得到越來越多人的承認,其應用也越來越廣泛,從語言分析、語言教學、詞典編撰到人工智慧等領域都開始應用語料庫。
語料語言學經歷過這幾十年的發展,不論在理論上,還是在技術上,都已趨於成熟。在語言教學領域中的應用也開始引起注意。我國對語料語言學研究取得了一定的成果,如:桂詩春教授主持的國家“九五”社科規劃項目“中國英語學習者語料庫”收集了從中學到大學的中國英語學習者的作文語料,共100多萬詞,並標註了學生在作文中常見的62類錯誤,錯誤類型包括了拼寫錯誤、詞語搭配錯誤、詞語用法錯誤以及語法結構錯誤等,這對於指導中國學生學習英語起到積極的作用。在語言教學中,可以應用語料庫來(1)分析學習者在語言學習過程中的常見錯誤;(2)確定語言學習項目的優先順序;(3)自動生成各種類型的練習等。