數據可視化
數據視覺表現形式的科技研究
數據可視化,是關於數據視覺表現形式的科學技術研究。其中,這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變數。
①數據空間:是由n維屬性和m個元素組成的數據集所構成的多維信息空間;
②數據開發:是指利用一定的演演算法和工具對數據進行定量的推演和計算;
③數據分析:指對多維數據進行切片、塊、旋轉等動作剖析數據,從而能多角度多側面觀察數據;
④數據可視化:是指將大型數據集中的數據以圖形圖像形式表示,並利用數據分析和開發工具發現其中未知信息的處理過程。
數據可視化已經提出了許多方法,這些方法根據其可視化的原理不同可以劃分為基於幾何的技術、面向像素技術、基於圖標的技術、基於層次的技術、基於圖像的技術和分散式技術等等。
報表類,如JReport,Excel,水晶報表,思邁特軟體(Smartbi),FineReport,ActiveReports報表等。
國內的數據可視化工具,有BDP商業數據平台-個人版,大數據魔鏡,數據觀,FineBI商業智能軟體等。
數據可視化技術的基本思想,是將資料庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。
數據可視化與信息圖形、信息可視化、科學可視化以及統計圖形密切相關。當前,在研究、教學和開發領域,數據可視化乃是一個極為活躍而又關鍵的方面。“數據可視化”這條術語實現了成熟的科學可視化領域與較年輕的信息可視化領域的統一。
關於數據可視化的適用範圍,存在著不同的劃分方法。一個常見的關注焦點就是信息的呈現。
邁克爾·弗蘭德利(2008),提出了數據可視化的兩個主要的組成部分:統計圖形和主題圖。
《Data Visualization: Modern Approaches》(意為“數據可視化:現代方法”)(2007),概括闡述了數據可視化的下列主題:
1)思維導圖
2)新聞的顯示
3)數據的顯示
4)連接的顯示
5)網站的顯示
6)文章與資源
7)工具與服務
所有這些主題全都與圖形設計和信息表達密切相關。
另一方面,Frits H. Post (2002)則從計算機科學的視角,將這一領域劃分為如下多個子領域:
1)可視化演演算法與技術方法
2)立體可視化
3)信息可視化
4)多解析度方法
5)建模技術方法
6)交互技術方法與體系架構
數據可視化的成功,應歸於其背後基本思想的完備性。依據數據及其內在模式和關係,利用計算機生成的圖像來獲得深入認識和知識。其第二個前提就是利用人類感覺系統的廣闊帶寬來操縱和解釋錯綜複雜的過程、涉及不同學科領域的數據集以及來源多樣的大型抽象數據集合的模擬。這些思想和概念極其重要,對於計算科學與工程方法學以及管理活動都有著精深而又廣泛的影響。《Data Visualization: The State of the Art》(意為“數據可視化:尖端技術水平”)一書當中重點強調了各種應用領域與它們各自所特有的問題求解可視化技術方法之間的相互作用。
數據可視化領域的起源,可以追溯到二十世紀50年代計算機圖形學的早期。當時,人們利用計算機創建出了首批圖形圖表。
1987年,由布魯斯·麥考梅克、托馬斯·德房蒂和瑪克辛·布朗所編寫的美國國家科學基金會報告《Visualization in Scientific Computing》(意為“科學計算之中的可視化”) ,對於這一領域產生了大幅度的促進和刺激。這份報告之中強調了新的基於計算機的可視化技術方法的必要性。隨著計算機運算能力的迅速提升,人們建立了規模越來越大,複雜程度越來越高的數值模型,從而造就了形形色色體積龐大的數值型數據集。同時,人們不但利用醫學掃描儀和顯微鏡之類的數據採集設備產生大型的數據集,而且還利用可以保存文本、數值和多媒體信息的大型資料庫來收集數據。因而,就需要高級的計算機圖形學技術與方法來處理和可視化這些規模龐大的數據集。
短語“Visualization in Scientific Computing”(意為“科學計算之中的可視化”)後來變成了“Scientific Visualization”(即“科學可視化”),而前者最初指的是作為科學計算之組成部分的可視化:也就是科學與工程實踐當中對於計算機建模和模擬的運用。
更近一些的時候,可視化也日益尤為關注數據,包括那些來自商業、財務、行政管理、數字媒體等方面的大型異質性數據集合。二十世紀90年代初期,人們發起了一個新的,稱為“信息可視化”的研究領域,旨在為許多應用領域之中對於抽象的異質性數據集的分析工作提供支持。因此,21世紀人們正在逐漸接受這個同時涵蓋科學可視化與信息可視化領域的新生術語“數據可視化” 。
一直以來,數據可視化就是一個處於不斷演變之中的概念,其邊界在不斷地擴大;因而,最好是對其加以寬泛的定義。數據可視化指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。與立體建模之類的特殊技術方法相比,數據可視化所涵蓋的技術方法要廣泛得多。
數據採集(有時縮寫為DAQ或DAS),又稱為“數據獲取”或“數據收集”,是指對現實世界進行採樣,以便產生可供計算機處理的數據的過程。通常,數據採集過程之中包括為了獲得所需信息,對於信號和波形進行採集並對它們加以處理的步驟。數據採集系統的組成元件當中包括用於將測量參數轉換成為電信號的感測器,而這些電信號則是由數據採集硬體來負責獲取的。
數據分析是指為了提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。數據分析與數據挖掘密切相關,但數據挖掘往往傾向於關注較大型的數據集,較少側重於推理,且常常採用的是最初為另外一種不同目的而採集的數據。在統計學領域,有些人將數據分析劃分為描述性統計分析、探索性數據分析以及驗證性數據分析;其中,探索性數據分析側重於在數據之中發現新的特徵,而驗證性數據分析則側重於已有假設的證實或證偽。
數據分析的類型包括:
1)探索性數據分析:是指為了形成值得假設的檢驗而對數據進行分析的一種方法,是對傳統統計學假設檢驗手段的補充。該方法由美國著名統計學家約翰·圖基命名。
2)定性數據分析:又稱為“定性資料分析”、“定性研究”或者“質性研究資料分析”,是指對諸如詞語、照片、觀察結果之類的非數值型數據(或者說資料)的分析。
2010年後數據可視化工具基本以表格,圖形(chart),地圖等可視化元素為主,數據可進行過濾,鑽取,數據聯動,跳轉,高亮等分析手段做動態分析。
可視化工具可以提供多樣的數據展現形式,多樣的圖形渲染形式,豐富的人機交互方式,支持商業邏輯的動態腳本引擎等等。
不同於一般的Dashboard或者Reporting產品,永洪科技的BI前端是發現型的:交互手段豐富,分析功能強大。用戶可以進一步與數據互動(Interactive),過濾(Filter)、鑽取(Drill)、刷取(Brush)、關聯(Associate)、變換(Transform)等等技術,讓用戶能夠:掌握信息,發現問題,找到答案,並採取行動。
數據治理涵蓋為特定組織機構之數據創建協調一致的企業級視圖(enterprise view)所需的人員、過程和技術,數據治理旨在:
1)增強決策制定過程中的一致性與信心
2)降低遭受監管罰款的風險
3)改善數據的安全性
4)最大限度地提高數據的創收潛力
5)指定信息質量責任
數據管理,又稱為“數據資源管理”,包括所有與管理作為有價值資源的數據相關的學科領域。對於數據管理,DAMA所提出的正式定義是:“數據資源管理是指用於正確管理企業或機構整個數據生命周期需求的體系架構、政策、規範和操作程序的制定和執行過程”。這項定義相當寬泛,涵蓋了許多可能在技術上並不直接接觸低層數據管理工作(如關係資料庫管理)的職業。
數據挖掘被描述為“從數據之中提取隱含的,先前未知的,潛在有用信息的非凡過程”,以及“從大型數據集或資料庫之中提取有用信息的科學”。與企業資源規劃相關的數據挖掘是指對大型交易數據集進行統計分析和邏輯分析,從中尋找可能有助於決策制定工作的模式的過程。
電商數據可視化,獲得信息的最佳方式之一是,通過視覺化方式,快速抓住要點信息。另外,電商數據通過視覺化呈現數據,也揭示了令人驚奇的模式和觀察結果,是不可能通過簡單統計就能顯而易見看到的模式和結論。“通過視覺化,我們把信息變成了一道可用眼睛來探索的風景線,一種信息地圖。當你在迷失在信息中時,信息地圖非常實用。”在電商行業尤為如此。