人們預期數(shù)據(jù)可視化過程會繼續(xù)發(fā)展,也許更多的是藝術(shù)和科學的混合,而不是數(shù)字計算技術(shù)。
顯示結(jié)果
數(shù)據(jù)可視化是指以圖形或圖表格式通過人工或以其他方式組織和顯示數(shù)據(jù),以使受眾能夠:
更清楚地查看分析結(jié)果
簡化正在使用的數(shù)據(jù)中的復雜性
了解并掌握正在使用的數(shù)據(jù)制作方法
可視化并不是一個新的概念
這種使用圖片(排版、色彩、對比度和形狀)來傳達或理解數(shù)據(jù)的概念并不是新鮮事物,從17世紀的手工描繪地圖和圖形到十九世紀初發(fā)明的餅圖都是這種形式。
如今,計算機可以用來快速處理大量的數(shù)據(jù),使可視化更具價值。展望未來,人們可以預期數(shù)據(jù)可視化過程將會繼續(xù)發(fā)展,也許更多的是一種藝術(shù)和科學的混合,而不是數(shù)字計算技術(shù)。
即時滿足
數(shù)據(jù)可視化演進過程的一個令人興奮的例子是,業(yè)界如何將數(shù)據(jù)可視化過程轉(zhuǎn)移到生成和發(fā)布圖表和圖形的過程中,供觀眾進行審查和仔細考慮,從而設(shè)定了交互式可視化的期望。
通過交互式的可視化,人們可以更多地使用數(shù)據(jù)可視化的概念,進一步利用技術(shù)讓觀眾與數(shù)據(jù)交互,為用戶提供自助服務能力,以實時(或接近實時)交互式地深入到生成的圖片、圖表、圖形(訪問更多或特定的細節(jié))來改變顯示的數(shù)據(jù)(可能是不同的時間框架或事件)以及如何處理和/或呈現(xiàn)(可能選擇條形圖而不是餅圖)。這使可視化更加有效和個性化。
人們可以通過使用數(shù)據(jù)驅(qū)動文檔(D3)的典型網(wǎng)絡瀏覽器在各種示例中介紹顯示大數(shù)據(jù)分析結(jié)果的主題。D3允許將預先構(gòu)建的數(shù)據(jù)可視化應用于數(shù)據(jù)集。
數(shù)據(jù)驅(qū)動的文件
數(shù)據(jù)驅(qū)動的文檔在開放社區(qū)中被稱為D3。D3是一個采用JavaScript編寫的開源庫。其目標是允許使用標準網(wǎng)頁瀏覽技術(shù)(如HTML或CSS)輕松地處理基于數(shù)據(jù)的文檔。它的附加值是為用戶提供全面的功能,而無需自己構(gòu)建或綁定到某個專用的框架中。
這些庫組件為用戶提供了優(yōu)秀的大數(shù)據(jù)可視化工具和DOM操作的數(shù)據(jù)驅(qū)動方法。 D3的功能風格允許用戶重新使用已經(jīng)構(gòu)建的庫代碼模塊(或者其他已經(jīng)構(gòu)建的代碼模塊))來添加用戶需要或想要(或不想要)的任何特定功能。這就創(chuàng)建了一種可以變得像用戶想要的那樣強大(或者有時間去做)的手段,為其數(shù)據(jù)可視化提供一個獨特的風格,操縱并使之互動,這正是用戶想要或需要的。
儀表板
正如前面所討論的,事實上人們每天都在收集和積累大量數(shù)據(jù),而組織出于各種原因依賴這些信息。
這些數(shù)據(jù)使用各種報告格式,包括數(shù)據(jù)儀表板。就像所有的事情一樣,人們對于數(shù)據(jù)儀表板的定義有各種各樣的擔心。
例如,A.Chiang寫道: 儀表板是實現(xiàn)一個或多個目標所需的最重要信息的直觀展示。在一個屏幕上合并和排列,以便一目了然地監(jiān)視信息。
無論其定義如何,如果設(shè)計和建造得當?shù)脑挘魏蝺x表板都有能力為受眾提供及時而重要的信息,供決策者使用。
儀表盤以相關(guān)的、簡明的、深思熟慮的方式(不僅僅是工作簿或電子表格中的可視表示的集合)呈現(xiàn)數(shù)據(jù)是至關(guān)重要的。而儀表盤上的數(shù)據(jù)顯示過時和錯誤,那么由此做出決定可能會導致災難。
通過儀表板可以演示解決方案的工作示例,而這樣的示例基于使用Tableau的實時儀表盤格式,基于大數(shù)據(jù)分析有效呈現(xiàn)出結(jié)果。
Tableau是一種商業(yè)智能軟件,旨在幫助人們查看和理解數(shù)據(jù)。Tableau不僅僅是一個代碼庫,也被認為是一組或一系列交互式數(shù)據(jù)可視化產(chǎn)品。
Tableau的結(jié)構(gòu)可以使人們能夠?qū)碜远鄠€來源的多個數(shù)據(jù)視圖組合到一個高效的儀表板中,從而為數(shù)據(jù)消費者提供更豐富的見解。Tableau還可以處理各種格式(包括結(jié)構(gòu)化和非結(jié)構(gòu)化)的數(shù)據(jù),并且可以處理大數(shù)據(jù)量(可能是TB字節(jié)或PB字節(jié),或數(shù)百萬或數(shù)十億行代碼),從而將大數(shù)據(jù)轉(zhuǎn)化為針對目標受眾的有價值的可視化結(jié)果。
為了解決當今大數(shù)據(jù)世界的速度問題,人們可以使用Tableau直接連接到本地數(shù)據(jù)中心和云端的數(shù)據(jù)源,或者將數(shù)據(jù)導入快速內(nèi)存性能。
Tableau的另一個目標是自助服務分析,用戶可以通過對話選擇數(shù)據(jù)來提問(實時模式而不是批處理模式)使用簡單的點擊分析直觀地挖掘大數(shù)據(jù),并有效地發(fā)現(xiàn)數(shù)據(jù)集或數(shù)據(jù)集中可能存在的理解和機會。
Tableau提供的一些令人興奮的功能包括:
實時拖放聚類分析
交叉數(shù)據(jù)源加入
強大的數(shù)據(jù)連接器
移動啟用
實時的地區(qū)或區(qū)域數(shù)據(jù)探索
異常值
異常點是一個與數(shù)據(jù)中其他觀測數(shù)據(jù)點相距甚遠或極大不同的觀測點。盡管異常值通常只表示大約1%到5%的數(shù)據(jù),但當企業(yè)處理大數(shù)據(jù)時,調(diào)查甚至只是查看數(shù)據(jù)的1%到5%是相當困難的。
調(diào)查和決定
人們可以看到,異常值可以被確定為非影響力的或者對數(shù)據(jù)可視化所要處理的點非常有影響力。
做出這一決定的行為或過程對于企業(yè)的分析非常重要,但處理大數(shù)據(jù)的大容量、多樣性和速度也是非常困難的。例如,幫助做出這個決定的一個基本步驟是測定樣品的大小,這是一個計算異常值與數(shù)據(jù)樣本大小的主要數(shù)學過程,當數(shù)據(jù)量十分龐大時,這不是一個簡單的任務。
人們可以使用Python高效地識別和處理大數(shù)據(jù)異常值(以及其他一些數(shù)據(jù)集異常)。Python是一種腳本語言,它非常容易學習,因為它的編碼語法非常類似于英語。
Python是2016年9種最受歡迎的編程語言之一,由Bouwkamp公司提供,Python被列在頂級的按需編程語言中。
Python誕生于1989年,由Guido van Rossum創(chuàng)建,實際上Python的使用非常簡單,但業(yè)界也認為其功能非常強大,速度快,可以在任何環(huán)境中運行。
根據(jù)定義描述, 開放源代碼Python是世界各地許多公司和機構(gòu)的生產(chǎn)力,軟件質(zhì)量和可維護性成功公式的一部分。
業(yè)界對利用Python語言進行數(shù)據(jù)分析和大數(shù)據(jù)分析的興趣日益濃厚,而且它是數(shù)據(jù)科學家日常工作的選擇,因為它提供了一個庫,實際上是一個標準庫(甚至有些專注于大數(shù)據(jù),如Pydoop和SciPy)來完成幾乎所有人需要或想要處理的數(shù)據(jù),包括:
自動化
建立網(wǎng)站和網(wǎng)頁
訪問和操作數(shù)據(jù)
計算統(tǒng)計
創(chuàng)建可視化
報告
建立預測和解釋模型
評估額外數(shù)據(jù)的模型
將模型整合到生產(chǎn)系統(tǒng)中
最后要說明的是,Python的標準庫非常廣泛,提供了一系列內(nèi)置模塊來提供對系統(tǒng)功能的訪問,以及標準化的解決方案來解決日常編程中出現(xiàn)的許多問題,這是探索處理大數(shù)據(jù)離群值和相關(guān)處理的一個明顯選擇。
操作智能
操作智能(OI)是一種分析方法,試圖通過(通常是機器生成的)操作或事件數(shù)據(jù)來提供可視性和洞察力,實時運行針對數(shù)據(jù)流饋送的查詢,產(chǎn)生作為操作指令的分析結(jié)果,可以通過人工或自動操作(將數(shù)據(jù)集轉(zhuǎn)化為價值的明確例子)讓組織立即執(zhí)行。
復雜的操作智能(OI)系統(tǒng)還提供了將元數(shù)據(jù)與數(shù)據(jù)中發(fā)現(xiàn)的某些度量、流程步驟、渠道等相關(guān)聯(lián)的能力。有了這個能力,就很容易獲得額外的相關(guān)信息,例如,機器生成的操作數(shù)據(jù)通常都具有唯一的標識符和結(jié)果或狀態(tài)代碼。這些代碼或標識符對于處理和存儲可能是有效的,但是并不總是易于理解。為了使這些數(shù)據(jù)更具可讀性(因此更有價值),可以將更多用戶友好的附加信息與數(shù)據(jù)結(jié)果相關(guān)聯(lián) - 可能是以狀態(tài)或事件描述的形式,或者可能是產(chǎn)品名稱或機器名稱。
一旦了解將基本分析和可視化技術(shù)應用于操作大數(shù)據(jù)的挑戰(zhàn),數(shù)據(jù)的價值可以更好或更快地實現(xiàn)。人們將運用Splunk智能化操作來展示操作或大數(shù)據(jù)評估解決方案的工作示例。
那么,什么是Splunk?Splunk開始是一種 Google for Log 文件。它還有更多的功能...它存儲所有的日志,并提供非常快速的搜索功能,大致就像Google為互聯(lián)網(wǎng)做的一樣...
Splunk軟件是幫助實現(xiàn)隱藏的價值在機器生成的一個很好的工具,使用Splunk,企業(yè)可以在一個地方收集、索引、搜索、分析,以及可視化所有數(shù)據(jù),從幾乎任何地方提供一種整合方法,可以從大量機器數(shù)據(jù)中組織和提取實時信息。
Splunk將數(shù)據(jù)存儲在文件中,為文件分配索引。 Splunk不需要在后臺運行任何數(shù)據(jù)庫軟件來實現(xiàn)此目的。Splunk調(diào)用這些文件索引器。Splunk可以對任何類型的時間序列數(shù)據(jù)(具有時間戳的數(shù)據(jù))進行索引,使其成為大數(shù)據(jù)操作智能(OI)解決方案的最佳選擇。在數(shù)據(jù)索引期間,Splunk會根據(jù)其標識的時間戳將數(shù)據(jù)分解為事件。
盡管使用簡單的搜索術(shù)語(例如機器ID),Splunk也提供了自己的搜索處理語言(SPL)。 Splunk SPL(將其視為SQL類型)是一種非常強大的工具,用于搜索大數(shù)據(jù)并對特定場景中的相關(guān)內(nèi)容執(zhí)行統(tǒng)計操作。
責任編輯:娟子編輯
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類線,屏蔽模塊,配線架及相關(guān)模塊配件的研發(fā)和生產(chǎn)。
?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號