中國語言資源保護工程

中國語言資源保護工程

為推廣和規範使用國家通用語言文字,科學保護各民族語言文字,中國2015年啟動中國語言資源保護工程,目前已按計劃完成81個少數民族語言(含瀕危語言)調查點、53個漢語方言(含瀕危方言)調查點和32個語言文化調查點的工作任務。

2018年9月19日,教育部副部長、國家語委主任杜占元在長沙舉辦的首屆世界語言資源保護大會上介紹,“中國語言資源保護工程”計劃田野調查1500個地點,目前已經完成總體規劃的2/3,各項標誌性成果正陸續推出。

介紹


中國語言資源有聲資料庫是國家語言資源建設工程之一,它用現代信息技術採錄語言數據,經轉寫、標記等加工程序將相關的文本文件、音頻文件及視頻文件整理入庫,以資料庫、網際網路、博物館、語言實驗室等形式向學界和社會提供服務。

漢語部分


根據《中國語言資源有聲資料庫調查手冊》,中國語言資源有聲資料庫(漢語)部分設計為:
一、語言和方言調查
1.調查點:根據縣級行政單位設置調查點,原則上“一縣一點”,特殊情況下可以增點或減點。本調查重在反映當下語言的實態,因此調查點選擇縣城等在當地影響較大的地方。
2.調查對象:每個調查點根據性別因素和年齡因素選擇有代表性的4名發音合作人,其中男女各2人,老年青年各2人。
3.調查內容:調查內容分語言結構調查和話語調查兩大部分。
語言結構調查是基礎,用1000字調查語音系統,用1200詞調查基本辭彙系統,用50個句子調查主要的語法現象。
話語調查是重點,分為講述和對話兩部分。講述包括“規定故事”和“自選話題”。規定故事為《牛郎和織女》
4.調查方法:採用規定的錄音設備、軟體進行錄音,輔之以錄像和照片。並且,對調查內容還要按照一定要求進行必要的國際音標轉寫和漢字轉寫。最後,對一個調查點的所有調查資料和電子文件進行命名、分類、歸檔。
5.建庫:國家組織專人進行驗收,將調查材料統一建檔入庫。並及時組織專家對資料庫進行開發。
二、“地方普通話”調查
地方普通話調查與語言和方言調查一同進行。其選點要求也與語言和方言的調查相同,原則上是一縣一點。每調查點選擇3名發音合作人,這3名發音合作人的普通話水平處在不同的等級:1名相當於《普通話水平測試等級標準》 規定的三級甲等,1名僅次於三級乙等,1名普通話水平最差,接近方言。
地方普通話的調查內容是:1、用普通話講述規定故事《牛郎和織女》;2、用普通話朗讀兩篇短文《誠實與信任》《大學生村官》。調查得到的音頻文件等經整理驗收,建檔入庫,形成地方普通話語料庫。
地方普通話語料庫是中國語言資源有聲資料庫的一個分庫。

工程進展


2015年,語保工程啟動。
2019年,為期5年的語保工程一期建設順利完成,調查收集到123種語言和全國各地方言的原始語料數據1000多萬條,其中音視頻數據各500多萬條,總容量達100TB。
2021年4月19日從教育部獲悉,中國語言資源保護工程正式啟動二期建設,在大力推廣國家通用語言文字的同時,科學保護好漢語方言和少數民族語言資源,促進語言資源的開發利用。