非結構化數據

無預定義數據模型的數據

非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用資料庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。

計算機信息化系統中的數據分為結構化數據和非結構化數據。非結構化數據其格式非常多樣,標準也是多樣性的,而且在技術上非結構化信息比結構化信息更難標準化和理解。所以存儲、檢索、發布以及利用需要更加智能化的IT技術,比如海量存儲、智能檢索、知識挖掘、內容保護、信息的增值開發利用等。

優勢


需要處理大量數據

非結構化數據在任何地方都可以得到。這些數據可以在你公司內部的郵件信息、聊天記錄以及搜集到的調查結果中得到,也可以是你對個人網站上的評論、對客戶關係管理系統中的評論或者是從你使用的個人應用程序中得到的文本欄位。而且也可以在公司外部的社會媒體、你監控的論壇以及來自於一些你很感興趣的話題的評論。

蘊藏著大量的價值

有些企業現在正投資幾十億美金分析結構化數據,卻對非結構化數據置之不理,在非結構化數據中蘊藏著有用的信息寶庫,利用數據可視化工具分析非結構化數據能夠幫助企業快速地了解現狀、顯示趨勢並且識別新出現的問題。

不依靠數據團隊

分析數據不需要一個專業性很強的數學家或數據科學團隊,公司也不需要專門聘請IT精英去做。真正的分析發生在用戶決策階段,即管理一個特殊產品細分市場的部門經理,可能是負責尋找最優活動方案的市場營銷者,也可能是負責預測客戶群體需求的總經理。終端用戶有能力、也有權利和動機去改善商業實踐,並且視覺文本分析工具可以幫助他們快速識別最相關的問題,及時採取行動,而這都不需要依靠數據科學家

終端用戶授權

正確的分析需要機器計算和人類解釋相結合。機器進行大量的信息處理,而終端客戶利用他們的商業頭腦,在已發生的事實基礎上決策出最好的實施方案。終端客戶必須清楚的知道哪一個數據集是有價值的,他們應該如何採集並將他們獲取的信息更好地應用到他們的商業領域。此外,一個公司的工作就是使終端用戶儘可能地收集到更多相關的數據並儘可能地根據這些數據中的信息作出最好的決策。
很明顯,非結構化數據分析可以用來創造新的競爭優勢。新的前沿可視化工具使用戶容易解釋,讓他們在點擊幾下滑鼠之後就能清楚地了解情況。從非結構化的數據源中挖掘信息從來就沒有像現在這樣如此簡單。

採集


在很多知識庫系統中,為了查詢大量積累下來的文檔,需要從PDF、Word、Rtf、Excel和PowerPoint等格式的文檔中提取可以描述文檔的文字,這些描述性的信息包括文檔標題、作者、主要內容等等。這樣一個過程就是非結構化數據的採集過程。
非結構化數據的採集是信息進一步處理的基礎。現在有許多開源庫己經實現了從非結構化文檔中採集關鍵信息的功能,但針對不同格式的文檔,所用的開源庫不盡相同。
例如,Apache POI是Apache軟體基金會的開放源碼函式庫,POI提供API給Java程序對Microsoft Office格式檔案讀和寫的功能。其結構包括:HSSF提供讀寫Microsoft Excel XLS格式檔案的功能;XSSF提供讀寫Microsoft Excel OOXML XLSX格式檔案的功能;HWPF提供讀寫MicrosoftWord DOC格式檔案的功能;HSLF提供讀Microsoft PowerPoint格式檔案的功能;HDGF提供讀寫Microsoft Visio格式檔案的功能等。
PDFBox是Java實現的PDF文檔協作類庫,提供PDF文檔的創建、處理以及文檔內容提取功能,也包含了一些命令行實用工具。主要特性包括:從PDF提取文本;合併PDF文檔;PDF文檔加密與解密;與Lucene搜索引擎的集成;填充PDFIXFDF表單數據;從文本文件創建PDF文檔;從PDF頁面創建圖片;列印PDF文檔。PDFBox還提供和Lucene的集成,它提供了一套簡單的方法把PDFDocuments加入到Lucene的索引中去。
另外還有parse-rtf可以對RTF文件處理,SearchWord可對Word和Excel,PPT文件進行處理等等。

查詢


隨著計算機、網際網路和數字媒體等的進一步普及,以文本、圖形、圖像、音頻、視頻等非結構化數據為主的信息急劇增加,面對如此巨大的信息海洋,特別是非結構化數據信息,如何存儲、查詢、分析、挖掘和利用這些海量信息資源就顯得尤為關鍵。傳統關係資料庫主要面向事務處理和數據分析應用領域,擅長解決結構化數據管理問題,在管理非結構化數據方面存在某些先天不足之處,尤其在處理海量非結構化信息時更是面臨巨大挑戰。為了應對非結構化數據管理的挑戰,出現了各種非結構化數據管理系統,例如基於傳統關係資料庫系統擴展的非結構化數據管理系統,基於NoSQL的非結構化數據管理系統等。
在非結構化數據管理系統中,查詢處理模塊是其中一個重要的組成部分,針對非結構化數據的特性設計合理的查詢處理框架和查詢優化策略對於非結構數據的快速、有效訪問極為重要。傳統的結構化查詢處理過程是:首先翻譯器翻譯查詢請求生成查詢表達式,然後由優化器優化查詢表達式,得到優化過的查詢計劃,最後由執行器選擇最優的查詢計劃執行,得到查詢結果。查詢處理的主要操作包括選擇操作、連接操作、投影操作、聚合函數、排序等。查詢優化的方法包括基於代價估算的優化和基於啟髮式規則的優化等。
非結構化查詢處理過程中除了結構化數據查詢處理所包含的操作外,還有兩個重要的操作相似性檢索和相似性連接。相似性檢索是指給定一個元素,在由該種類元素組成的集合中尋找與之相似的元素。例如論文查重系統用到文本的相似性檢索,谷歌的以圖搜圖的功能用到圖像的相似性檢索,手機上根據哼唱匹配音樂是音頻的相似性檢索等。相似性連接是資料庫連接操作在非結構化數據上的一種擴展,它尋找兩個元素種類相同的集合之間滿足相似性約束的元素對,在數據清洗、數據查重、抄襲檢測等領域有著重要的作用。非結構化查詢處理框架要針對這兩種非結構化數據特有的查詢操作對結構化查詢處理框架進行改進。
非結構化查詢優化,在代價估算上除了要考慮結構化數據的代價估算模型外,還要設法建立相似性查詢和相似性連接的代價估算模型,對於針對非結構化數據的全文索引和空間索引,也應該有不同與B樹索引的代價估算模型。代價估算模型除了要考慮CPU時間、IO時間外,由於非結構化數據一般都存儲在分散式系統之上,還需要考慮到中間結果網路傳輸所用的時間,所以中間結果的大小估算對於非結構化數據的查詢優化比結構化數據的查詢優化更為重要。非結構化數據的查詢優化中的啟髮式規則和結構化數據也有所不同。

存儲


IDC的一項調查報告中指出:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。據報道指出:平均只有1%-5%的數據是結構化的數據。如今,這種迅猛增長的從不使用的數據在企業里消耗著複雜而昂貴的一級存儲的存儲容量。如何更好的保留那些在全球範圍內具有潛在價值的不同類型的文件,而不是因為處理它們卻干擾日常的工作?雲存儲是越來越多的IT公司正在使用的存儲技術。