漢字信息處理
漢字信息處理
漢字信息處理是計算機直接對漢字信息進行輸入輸出和加工處理的技術。
計算機直接對漢字信息進行輸入輸出和加工處理的技術。漢字字種繁多,字型複雜,漢字的信息處理與通用的字母數字類信息處理有很大差異,突出表現在漢字輸入輸出技術和漢字處理系統的軟體方面。但是,漢字信息在信息結構、交換、信息加工等方面與西文信息加工又存在共性。
因此,在漢字信息處理中多採用與西文信息處理兼容的途徑,以便充分利用已取得的計算機信息處理技術資源。同時,漢字信息處理還包括研究適合漢字特點的操作系統和漢字計算機語言。
信息的加工和處理傳統的二進位計算機所處理的字元數字類信息代碼種類較少,一般一個字元的代碼長度不超過7個二進位位,如ASCⅡ碼、EBCD碼等,它們代表的字元數不多於128~256個。而漢字字元種類多達數萬。為利用傳統的計算機技術處理漢字信息,將通用字元按一定規則組合,作為漢字的代碼。最流行的作法是雙位元組代碼表示法,如中國的漢字傳輸碼國家標準(GB23121-80)和日本的國家標準(JIS6226)規定,均利用兩個ASCⅡ碼(不包括其中的控制碼)表示一個漢字。因此,在漢字信息處理系統中,首要的問題是確定每個漢字同一組通用代碼集合的對應關係。這樣,在輸入設備接收漢字信息后,即按對應關係將其轉換為可由一般計算機處理的通用字元代碼,然後再利用傳統計算機的信息處理技術對這些代碼信息的組合進行處理,如信息的比較、分類合併、檢索、存儲、傳輸和交換等。處理后的代碼組合,再通過漢字輸出設備,按照同樣的對應關係轉換為漢字字形庫的相應序號,控制漢字輸出設備將處理后的漢字信息直觀地顯示或列印出來。用於漢字信息加工處理的硬體與通用信息處理的計算機硬體類似或相同。其軟體有對漢字信息進行處理的操作系統、漢字 BASIC語言、漢字FORTRAN語言、漢字COBOL語言、漢字文件系統和資料庫,以及漢字的文本編輯、字處理、通信傳輸、事務處理等。
漢字信息處理設備漢字信息處理設備從結構上可分為聯機型和離線(獨立)型兩種。聯機型由漢字終端和主機組成。漢字終端完成漢字信息的輸入,具備人-機漢字對話的功能。它將漢字按轉換規則變成通用字元信息組合,送到主機內進行加工處理。主機一般採用通用計算機。在硬體方面與通用機無多少差別。在軟體方面,採取的處理方法不同,方式上也有不同。一般採用代碼轉換方式或預編譯方式,以解決漢字代碼中出現的與原軟體系統不兼容而造成的某些障礙。離線型設備一般是一台獨立的漢字微型計算機,它完成漢字的輸入輸出、存儲和信息處理,漢字信息處理的原理和方法與聯機型類同,只是漢字輸入輸出代碼的轉換和處理都在系統內部分層次完成。獨立型漢字處理設備的典型代表是漢字個人計算機(即一種單用戶使用的微型計算機)。在具有漢字處理功能的個人計算機上。增設一個高集成度的存儲器,作為漢字字形庫,使用點陣密度較高的列印輸出設備,並配備可顯示漢字的屏幕。這種系統具備一整套漢字處理軟體,其成本和設備體積均與普通個人計算機相近。
漢字信息處理技術已在企業管理、機關事務處理、情報資料管理、軍事指揮等方面得到應用。微電子技術的發展和硬體性能價格比的提高,使漢字信息處理的技術水平和實用程度越來越接近西文信息處理。凡是西文信息處理系統所具備的功能,如靈活的編輯、製表、各類計算機的語言、大型的資料庫、網路交換等,漢字信息處理系統也已具備。其成本也與西文信息處理系統相接近。