信息處理中心

信息處理中心

中文信息處理是自然語言信息處理的一個分支,是一門與計算機科學、語言學、數學、信息學、聲學等多種學科相關聯的綜合性學科。中文信息處理分為漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。 e.cn

簡介


是指用計算機對中文的音、形、義等信息進行處理和加工。中文信息處理是自然語言信息處理的一個分支,是一門與計算機科學、語言學、數學、信息學、聲學等多種學科相關聯的綜合性學科。信息處理技術在現代有廣泛的應用,從1980年代開始,中文信息處理進入了快速發展階段,並極大地提高了中文社會的信息處理效率。
中文信息處理分為漢字信息處理與漢語信息處理兩部分,具體內容包括對字、詞、句、篇章的輸入、存儲、傳輸、輸出、識別、轉換、壓縮、檢索、分析、理解和生成等方面的處理技術。
中文信息處理的文字。不僅包括簡體漢字、繁體漢字,也包括藏文、蒙文、壯文、維吾爾文等大量少數民族的文字,還包括古漢語文字等。

研究內容


基礎研究:漢字字頻統計、詞頻統計、漢語自動分詞、句法屬性研究、漢字編碼字符集、通用漢字樣本庫、漢字屬性字典、語料庫等
輸入技術:中文輸入法、中文手寫輸入、中文語音輸入、文字識別等
輸出技術:漢字字模技術(字型庫)、漢字激光照排、漢語語音合成等
存儲技術:漢字型檔標準等
轉換技術:繁簡轉換等
信息處理:中文情報檢索、中文文本校對、機器翻譯、自然語言理解、中文人機界面等

參考資料


http://define.cnki.net/WebForms/WebDefines.aspx?searchword=%E4%BF%A1%E6%81%AF%E5%A4%84%E7%90%86%E4%B8%AD%E5%BF%83