信息抽取

信息抽取

信息抽取(Information Extraction: IE)是把文本里包含的信息進行結構化處理,變成表格一樣的組織形式。輸入信息抽取系統的是原始文本,輸出的是固定格式的信息點。信息點從各種各樣的文檔中被抽取出來,然後以統一的形式集成在一起。這就是信息抽取的主要任務。信息以統一的形式集成在一起的好處是方便檢查和比較。信息抽取技術並不試圖全面理解整篇文檔,只是對文檔中包含相關信息的部分進行分析。至於哪些信息是相關的,那將由系統設計時定下的領域範圍而定。

簡介


信息抽取 Information Extraction 技術

信息抽取技術對於從大量的文檔中抽取需要的特定事實來說是非常有用的。網際網路上就存在著這麼一個文檔庫。在網上,同一主題的信息通常分散存放在不同網站上,表現的形式也各不相同。若能將這些信息收集在一起,用結構化形式儲存,那將是有益的。
由於網上的信息載體主要是文本,所以,信息抽取技術對於那些把網際網路當成是知識來源的人來說是至關重要的。信息抽取系統可以看作是把信息從不同文檔中轉換成資料庫記錄的系統。因此,成功的信息抽取系統將把網際網路變成巨大的資料庫!

信息抽取 Information Extraction 挑戰

信息抽取技術是近十年來發展起來的新領域,遇到許多新的挑戰。
信息抽取原來的目標是從自然語言文檔中找到特定的信息,是自然語言處理領域特別有用的一個子領域。所開發的信息抽取系統既能處理含有表格信息的結構化文本,又能處理自由式文本(如新聞報道)。IE系統中的關鍵組成部分是一系列的抽取規則或模式,其作用是確定需要抽取的信息。網上文本信息的大量增加導致這方面的研究得到高度重視。

IR &IE區別


IR和IE

IR的目的是根用戶的查詢請求從文檔庫中找出相關的文檔。用戶必須從找到的文檔中翻閱自己所要的信息。
就其目的而言,IR和IE的不同可表達如下:IR從文檔庫中檢索相關的文檔,而IE是從文檔中取出相關信息點。這兩種技術因此是互補的。若結合起來可以為文本處理提供強大的工具。
IR和IE不單在目的上不同,而且使用的技術路線也不同。部分原因是因為其目的差異,另外還因為它們的發展歷史不同。多數IE的研究是從以規則為基礎的計算語言學和自然語言處理技術發源的。而IR則更多地受到信息理論、概率理論和統計學的影響。

IE的歷史

自動信息檢索已是一個成熟的學科,其歷史與文檔資料庫的歷史一樣長。但自動信息抽取技術則是近十年來發展起來的。有兩個因素對其發展有重要的影響:一是在線和離線文本數量的幾何級增加,另一是“消息理解研討會”(MUC)近十幾年來對該領域的關注和推動。
IE的前身是文本理解。人工智慧研究者一直致力於建造能把握整篇文檔的精確內容的系統。這些系統通常只在很窄的知識領域範圍內運行良好,向其他新領域移植的性能卻很差。
八十年代以來,美國政府一直支持MUC對信息抽取技術進行評測。各屆MUC吸引了許多來自不同學術機構和業界實驗室的研究者參加信息抽取系統競賽。每個參加單位根據預定的知識領域,開發一個信息抽取系統,然後用該系統處理相同的文檔庫。最後用一個官方的評分系統對結果進行打分。
研討會的目的是探求IE系統的量化評價體系。在此之前,評價這些系統的方法沒有章法可循,測試也通常在訓練集上進行。MUC首次進行了大規模的自然語言處理系統的評測。如何評價信息抽取系統由此變成重要的問題,評分標準也隨之制定出來。各屆研討會的測試主題各式各樣,包括拉丁美洲恐怖主義活動、合資企業、微電子技術和公司管理層的人事更迭。
過去五、六年,IE研究成果豐碩。英語和日語姓名識別的成功率達到了人類專家的水平。通過MUC用現有的技術水平,我們已有能力建造全自動的 IE系統。在有些任務方面的性能達到人類專家的水平。不過自1993年以來,每屆最高組別的有些任務,其成績一直沒有提高(但要記住MUC的任務一屆比一屆複雜)。一個顯著的進步是,越來越多的機構可以完成最高組別的任務。這要歸公於技術的普及和整合。目前,建造能達到如此高水平的系統需要大量的時間和專業人員。另外,目前大部分的研究都是圍繞書面文本,而且只有英語和其他幾種主要的語言。

純文本抽出通用程序庫


DMCTextFilter V4.2是HYFsoft推出的純文本抽出通用程序庫,DMCTextFilter可以從各種各樣的文檔格式的數據中或從插入的OLE對象中,完全除掉特殊控制信息,快速抽出純文本數據信息。便於用戶實現對多種文檔數據資源信息進行統一管理,編輯,檢索和瀏覽。
DMCTextFilter採用了先進的多語言、多平台、多線程的設計理念,支持多國語言(英語,中文簡體,中文繁體,日本語,韓國語),多種操作系統(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多種文字集合代碼。提供了多種形式的API功能介面(文件格式識別函數,文本抽出函數,文件屬性抽出函數,頁抽出函數,設定User Password的PDF文件的文本抽出函數等),便於用戶方便使用。用戶可以十分便利的將本產品組裝到自己的應用程序中,進行二次開發。通過調用本產品的提供的API功能介面,實現從多種文檔格式的數據中快速抽出純文本數據。

文件格式自動識別功能

本產品通過解析文件內部的信息,自動識別生成文件的應用程序名和其版本號,不依賴於文件的擴展名,能夠正確識別文件格式和相應的版本信息。可以識別的文件格式如下:支持Microsoft OfficeRTF、PDF、Visio、Outlook EML和MSG、Lotus1-2-3、HTMLAutoCAD DXF和DWG、IGES、PageMaker、ClarisWorks、AppleWorks、XML、WordPerfect、Mac Write、Works、Corel Presentations、QuarkXpress、DocuWorks、WPS、壓縮文件的LZH/ZIP/RAR以及一太郎、OASYS等文件格式

文本抽出功能

即使系統中沒有安裝作成文件的應用程序,可以從指定的文件或插入到文件中的OLE中抽出文本數據。

文件屬性抽出功能

從指定的文件中,抽出文件屬性信息。

頁抽出功能

從文件中,抽出指定頁中文本數據。

對加密的PDF文件文本抽出功能

從設有打開文檔口令密碼的PDF文件中抽出文本數據。

流(Stream)抽出功能

從指定的文件、或是嵌入到文件中的OLE對象中向流里抽取文本數據。

支持的語言種類

本產品支持以下語言:英語,中文簡體,中文繁體,日本語,韓國語

支持的字符集合的種類

抽出文本時,可以指定以下的字符集合作為文本文件的字符集(也可指定任意特殊字符集,但需要另行定製開發):GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等。