A. 數據採集的方法有哪兩類
1、離線搜集:
工具:ETL;
在數據倉庫的語境下,ETL基本上便是數據搜集的代表,包括數據的提取(Extract)、轉換(Transform)和載入(Load)。在轉換的過程中,需求針對具體的事務場景對數據進行治理,例如進行不合法數據監測與過濾、格式轉換與數據規范化、數據替換、確保數據完整性等。
2、實時搜集:
工具:Flume/Kafka;
實時搜集首要用在考慮流處理的事務場景,比方,用於記錄數據源的履行的各種操作活動,比方網路監控的流量辦理、金融運用的股票記賬和 web 伺服器記錄的用戶訪問行為。在流處理場景,數據搜集會成為Kafka的顧客,就像一個水壩一般將上游源源不斷的數據攔截住,然後依據事務場景做對應的處理(例如去重、去噪、中心核算等),之後再寫入到對應的數據存儲中。
3、互聯網搜集:
工具:Crawler, DPI等;
Scribe是Facebook開發的數據(日誌)搜集體系。又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規矩,自動地抓取萬維網信息的程序或者腳本,它支持圖片、音頻、視頻等文件或附件的搜集。
除了網路中包含的內容之外,關於網路流量的搜集能夠運用DPI或DFI等帶寬辦理技術進行處理。
4、其他數據搜集方法
關於企業生產經營數據上的客戶數據,財務數據等保密性要求較高的數據,能夠通過與數據技術服務商合作,運用特定體系介面等相關方式搜集數據。比方八度雲核算的數企BDSaaS,無論是數據搜集技術、BI數據剖析,還是數據的安全性和保密性,都做得很好。
B. 如何在網上做數據收集和數據分析,並做出圖文並茂的數據分析圖
近年來,隨著技術的進步、互聯網速度提升、移動互聯網更新換代、硬體技術不斷發展、數據採集技術、存儲技術、處理技術得到長足的發展,使我們不斷加深了對數據分析的需求。但數據分析本身並不是目標,目標是使業務能夠做出更好的決策。如何做好數據分析,簡單來說,只需5步。
第一步:明確分析的目標和框架
對一個分析項目,數據分析師應該明確業務目標是什麼,初步選定哪些變數作為研究對象,從而為收集數據、分析數據提供清晰的目標,避免無意義的數據分析。同時對項目進行簡單的評估,即時調整項目,構建出分析的思路與整體的框架。
第二步:數據收集
有目的的收集數據,是確保數據分析過程有效的基礎。作為數據分析師,需要對收集數據的內容、渠道、方法進行規劃。
1) 將識別的需求轉化為具體的需求,明確研究的變數需要哪些數據。
2) 明確數據的來源渠道,數據的渠道主要有三種,一種是從公司系統資料庫直接導出,另一種是通過網路爬蟲軟體(如火車頭、集搜客GooSeeker)從網上抓取數據,也可以直接通過問卷的形式來收集數據。
第三步:數據處理
數據分析的中最重要的一步是提高數據質量,最好的數據值分析如果有垃圾數據將會產生錯誤結果和誤導。因此,對收集到的數據進行加工、整理,以便開展數據分析,是數據分析前必不可少的階段。這個過程是數據分析整個過程中最占據時間的,數據處理包括數據清洗、數據轉化等處理方法。
第四步:數據分析
數據分析是指通過分析手段、方法和技巧對准備好的數據進行探索、分析,從中發現因果關系、內部聯系和業務規律,通過數據建立模型,進而為商業提供決策參考。
到了這一階段,為了駕馭數據、展開數據分析,需要涉及到工具與分析軟體的使用。
要熟悉數據分析的方法,首先需要良好的統計基礎,了解像方差、抽樣、回歸、聚類分析、判別分析、因子分析等數據分析方法的原理以及使用,才能靈活的根據業務目標以及已有數據來選擇分析的方法。
其次掌握幾種常用的數據分析軟體,如較基礎的Excel、SPSS,或SAS、R等較高級的分析軟體,保證分析工作的高效進行。
第五步:撰寫分析報告
一份好的數據分析報告很重要,因為分析報告的輸出是是你整個分析過程的成果,是評定一個產品、一個運營事件的定性結論,很可能是產品決策的參考依據,好的分析報告應該有以下一些要點:
1) 要有一個好的框架,層次明了,讓讀者一目瞭然。
2) 每個分析都有結論,而且結論一定要明確。
3) 分析結論一定要基於緊密嚴禁的數據分析推導過程,不要有猜測性的結論。
4) 數據分析報告盡量圖表化。
5) 好的分析報告一定要有解決方案和建議方案。
C. 大數據時代,那麼一般通過什麼方法(軟體)收集、分析和可視化數據
數據是平台運營商的重要資產,可能提供API介面允許第三方有限度地使用,但是顯然是為了增強自身的業務,與此目的抵觸的行為都會受到約束。
收集數據主要是通過計算機和網路。凡是經過計算機處理的數據都很容易收集,比如瀏覽器里的搜索、點擊、網上購物、……其他數據(比如氣溫、海水鹽度、地震波)可以通過感測器轉化成數字信號輸入計算機。
收集到的數據一般要先經過整理,常用的軟體:Tableau和Impure是功能比較全面的,Refine和Wrangler是比較純粹的數據整理工具,Weka用於數據挖掘。
Hadoop是一個能夠對大量數據進行分布式處理的軟體框架。用於統計分析的R語言有個擴展R + Hadoop,可以在Hadoop集群上運行R代碼。更具體的自己搜索吧。
可視化輸出的工具很多。建議參考wikipedia的「數據可視化」條目。
Tableau、Impure都有可視化功能。R語言也可以繪圖。
還有很多可以用來在網頁上實現可視化輸出的框架或者控制項。
大致基於四種技術:Flash(Flex)或者JS(HTML5)或者Java或者ASP.NET(Silverlight)
Flash的有Degrafa、BirdEye、Axiis、Open Flash Chart
JS的有Ajax.org、Sencha Ext JS、Filament、jQchart、Flot、Sparklines、gRaphael、TufteGraph、Exhibit、PlotKit、ExplorerCanvas、MilkChart、Google Chart API、Protovis
Java的有Choosel、google-visualization-java、GWT Chronoscope、JFreeChart
ASP.NET的有Telerik Charts、Visifire、Dundas Chart
目前我比較喜歡d3(Data-Driven Documents),圖形種類豐富,有交互能力,你可以去d3js.org看看,有很多種圖形的demo。