A. 車聯網數據分析(一):用戶出行行為分析
「數據 - 數字時代的石油」
「數據是新的石油」
在網路上、媒體上我們經常看到有人這樣宣揚。
問題是: 我們能夠像提煉石油一樣從數據中提煉出價值來嗎?
筆者多年從事汽車及出行領域的信息技術(IT)及產品研發,在這里就車聯網數據分析的一些實踐做個分享,看看能夠從這些數據「石油」中提煉點什麼,拋磚引玉。
下面的分析是針對單個車輛的車聯網數據進行分析,而不是群體車輛的行為分析。
筆者計劃從下面幾個方面進行探討(具體的會根據實際情況和各方面的反饋來調整):
- 用戶出行行為分析
- 用戶駕駛行為分析
- 燃油車車輛動態行為分析
- 電動車電池及充放電行為分析
- 能耗分析
本篇分享一下用戶出行行為的分析過程。
先看看車聯網數據到底有多大,各家OEM和後裝解決方案的數據採集信號、採集頻率都配棚族不同,也沒有行業統一標准。這里舉一個例子,讓大家粗略感受一下。
- 假設數據採集頻率為1 Hz(所有信號每秒采樣1次),家用汽車平均每天使用2個小時(燃油車引擎啟動就開始採集數據),一年就採集了365 * 2 * 3600 = 2.628 * 106次。
- 如果每次採集的數據量為10 KB,那麼,一輛車一年就產生大約26.3 GB 的數據。
- 一年一百萬輛裝備有車聯網的車將會產生26.3 GB * 106= 26.3 PB。(2018年中國有6家OEM年銷量過百萬)。
- 豐田、大眾、雷諾日產2018年全球銷量均超過1000萬。假設這幾家OEM在未來數年內銷量均保持這一水平,並且從今年開始實現100%新車車聯網,每輛車平均壽命6年,那麼6年後這些OEM存量車聯網的車就是6000萬,每家OEM每年將新增數據:26.3 GB * 60,000,000 = 1578 PB = 1.578 EB/年.
這么大的數據量,採集、傳輸、存儲,如果以現在的技術和市場價格,成本是十分驚人的。所以,筆者大膽猜測,大多數OEM和物流公司在實際運營中都會降低采樣頻率,或者減少採樣信號,或者以事件驅動,而不是以固定頻率采樣數據,以節省成本,盡管,技術上沒有問題。
對上述目標的分析,筆者使用的車聯網數據集來自於一輛車聯網實驗性乘用轎車。數據源本身就是脫敏的,去除了位置信息、用戶信息、車輛等靜態信息,只有車輛的動態數據。時間跨度為:2017年6月至8月。
采樣頻率高於1Hz,也就是平均每秒鍾采樣不止一次。原則上,采樣頻率越高越好,這樣保留了高頻信息,可以更加深刻地分析車輛的動態行為。
這幾年熱得一塌糊塗的無人駕駛,主要感測器的采樣頻率都不低於10 Hz。為什麼采樣頻率要求這么高呢?比如,在高速公路上以120公里/小時的時速行駛,那麼每秒鍾行駛的距離是:120000/3600 = 33.3 米/秒。也就是說,在0.1秒的時間里(對應10 Hz),車輛已經行駛了3.33 米,這個距離足以將車輛駛離車道並釀成事故。
有了原始車聯網數據(通常以CSV文件格式保存),筆者要對它進行預處理,為後續的數據探索、可視化,以及模型分析准備原料。
筆者使用的工具全程都是 R語言。
如何處理?要不忘初心、牢記使命:本部分數據分析的目的是 – 用戶出行行為分析 。
基於該目的,我們所需要的數和核據項其實很少,只需要下面三項數據就可以了(是不是太簡單了點?是的,就是這么簡單。就像,都是小麥,光面條就可以做出很多種,更不要說各種面培弊包,還有數不清的 mpling了):
- 時間戳– 每條記錄發生的日期和時間
- 里程錶
- 引擎轉速– 判斷車輛狀態
如果有明確的、可靠的信號用於判斷車輛狀態,那麼不建議使用「引擎轉速」了。筆者認為這完全取決於實際的數據質量和內容。如果各位大神有更好的解決方案,歡迎分享和交流哦。
把其他的數據項暫時擯棄,只保留這三項,現在可以進行下一步了。
如果上述數據中,不同信號的採集頻率不一樣,那麼,合並(或者叫融合,信號之間的融合)數據是非常重要的一步。合並可以發生在清洗、整理、聚合中間,或之前、之後的某個時間,具體要根據實際數據的情況來決定,很難一概而論。
首先了解選擇的數據集的summary信息,可以快速知道哪些欄位有數據缺失,有多少缺失。如果有缺失值,需要分析這些數據對我們的分析目的會有什麼影響。如果沒有什麼影響,就刪掉它們。
其次,時間戳是以字元串的形式存儲的,包括日期和時間,筆者用的數據集精確到毫秒。這樣不利於後續的計算和分析。需要把它轉化成便於計算和分析的數據。毫秒的精度對我們分析用戶出行行為來說沒有意義,所以,由時間戳生成年、月、日、時、分、秒,這樣,後續可以按照這些時間尺度進行聚合。
最後,按秒對數據進行聚合。選擇的數據集高於1Hz的采樣頻率,但是實際原始數據往往不會100%嚴格按照相同的采樣頻率生成數據,有時1秒內有多條記錄,有時會有缺失,看起來不是完全連續的。如果是車速等數據,聚合時採用平均值。里程數據是個累計值,所以取每秒內的最後一個數值,為了計算簡單,都用平均值也可以,因為1秒內里程數據很難有大的變化。
經過這些步驟後,數據就規整了很多,可以進行下一步了。
將數據分割成一個個單獨的駕駛行程,這樣可以方便後面的出行行為分析了。
如何判斷一個駕駛行程的開始和結束呢?
對於燃油車,一般來說,發動機啟動後,才開始採集車聯網數據,所以,沒有數據就可以假定為車子是熄火的。這里用的數據就是燃油車的數據。
對於純電動車(BEV),充電的全過程都會採集數據。
對於插電混動(PHEV)車,判斷的依據要更加復雜一些,這個問題以後再討論。
需要注意的是,真實數據通常不可能是理想的,每一步都要仔細檢查,如果有疑問,或者不合理,找出那些引起可疑的數據,仔細分析原因,再根據發現的原因進行調整。這是一個不斷試驗、不斷迭代的過程。
完成技術上的分割後,需要合並、過濾,得到相對合理的「有意義的」駕駛行程,在這個示例中,筆者得到了142次駕駛行程。也就是說,從2017年6月至8月的時間里,開了142次車。
處理完這些之後,我們就可以下鍋做菜了,看看能不能做出點有意思的東東來吧。
分析的過程通常是由淺入深、由全局到局部。
如果數據足夠多,建議先從大的時間尺度開始,比如從年開始,到月、日、小時,再到單個駕駛行程。最後,看看這些駕駛行程之間的關系,行程和各個時間維度之間的關系。一步步深挖。
首先,對整個數據集要有一個總體的認識,這個可以通過統計下面表格中的指標來完成。列出來的指標只是用於示例,具體需要統計哪些值應該根據分析的目的、業務場景、實際的原始數據集等。還是那句話:具體情況,具體分析。
其次,我們看一看該用戶每月駕駛(出行)的頻次,和旅行的總里程(公里數)。如圖1所示,7月份開車的次數和行駛總里程最多,差不多是6月和8月的兩倍。
從每月開車的次數來看,7月份開了70次左右,6月份半個月就有接近40次,而8月份僅有34次開車記錄。那我們很想知道 8 月份的開車次數為什麼減少了那麼多呢?
統計一下每天駕駛的次數,如圖2所示。結果有些讓人意外,6月份從14日至24日(11天),7月份從10至29日(共18天,中間缺了2天),8月份從5至12日,27至31日(總共13天),其他的日期沒有車聯網數據。接近一半的日期里沒有車聯網數據。
是什麼原因導致的呢?是那些天用戶完全沒有開車嗎?還是由於某種原因,數據沒有傳輸上來呢?
回答這個問題並不難。
我們還是從查看原始數據著手,里程錶是不斷遞增的。比對最後一條記錄的里程錶和第一條記錄的里程錶數據得知,兩者的差值是5646公里。回想前面表格里統計的「總駕駛里程」為2666公里,這說明在那些缺失數據的日期里,車輛仍然駕駛了接近3000 公里。
這也提醒分析人員,如果再對這批數據按月份進行分析,已經失去了意義。
因為這批原始數據來自於一輛車聯網實驗性的乘用轎車,我們不能要求太高。但是對我們實踐我們的研究方法依然有效。
再前進一步,從日期的角度看看用戶駕駛/出行的特徵。如圖3所示,共統計了三個指標的分布:
1. 左上– 每天駕駛次數的分布,中值是3次,最多有7次。說明該用戶開車比較頻繁。
2. 右上– 每天行駛距離的分布,中值是63公里左右,最多一天行駛261公里。
3. 左下和右下兩張圖– 每天駕駛時長的分布,中值在90分鍾處,說明該用戶每天大約開車一個半小時。用頻率圖從另一個角度可以看到駕駛時長的分布特徵。
在實際工作的時候,分析人員根據實際情況選擇該用什麼樣的圖表來更好地展現。
現在分析 單次駕駛的行為特徵 。先從最簡單的統計特徵,單次駕駛距離和駕駛時長,入手。如圖4所示,
- 該用戶開車的距離多數在10公里以內,或者在30-50公里范圍內。
- 每次開車多數分布在5-15分鍾內,或者在30-60分鍾內。
無論是距離還是時間長度都有兩個峰值,是不是有某種背後的原因? 又一次把筆者的胃口吊起來了。
下面我們看一看單次駕駛距離的散點圖,如圖5所示,每一次駕駛的距離在圖中表示為一個小圓點,從6月14日開始的第一次駕駛到8月31日記錄的第142次駕駛,總共142個點。
根據前面的距離分布圖(圖4)得到的啟示,我們從下圖中可以觀察到幾個特徵:
1. 有一個超過200公里的行程,鶴立雞群。其餘的都沒有超過100公里的。
2. 在15公里以下有很多點行駛距離十分接近。
3. 在30-50公里也有很多點的行駛距離十分接近。
我們似乎找到了前述疑問的答案,但是咱們既然是做數據分析,就要顯得更加「科學」和「客觀」,讓數據來說話,而不是憑肉眼觀察和猜測,否則,怎麼顯示出分析師的「逼格」來呢?
如何讓數據說話呢? 聚類分析 是個好的工具,尤其是這里只有一個變數,K均值的方法就可以了,簡單易行。
一開始,我們並不能確切地知道(假裝不知道,這樣才能「客觀」)該分成幾個聚類簇,一個做法是:從K = 1 到n(n 的取值要足夠大,以保證最佳簇個數不大於n)都做一次聚類分析,然後比較各個K值下的 Betweens/TSS (簇之間的總平方和 / 總離差平方和),該比值越大,聚類效果越好。一般來說,K值越大,該比值也會越大。極端的情況是,比如,有100個點,分成100個聚類簇,這樣當然沒有意義。所以這里需要一個主觀判斷,通常在比值差不多的情況下,應該選擇最小的K值作為最佳聚類簇。
在這個例子中,我取n = 10,因為直覺告訴我,最多3或4個聚類簇就夠了,在此基礎上放寬一到兩倍作為n的取值應該足夠了。
直覺會告訴我們可能有幾個聚類,但是不要完全相信直覺(否則,就不「客觀」了),還是應該讓數據說話。
這里多啰嗦幾句:在做數據分析的時候,直覺很重要,但是筆者建議更多地應該把直覺當成線索、孕育新的想法,就像是偵探破案一樣。如果有一些小夥伴一起探索、探討就更好了,可以時不時地問問:「元芳,你怎麼看?」。
好了,把K從1到10循環做聚類分析,將這10個K值對應的Betweens/TSS顯示在圖上,如圖6所示。可以清楚地看到,K = 3 和 K = 4 時,結果非常接近,但是比 K = 2 時顯著改善,所以,筆者選定 K = 3 作為最佳聚類簇。
按照K = 3做聚類分析,重新繪制圖5:單次駕駛的距離– 散點圖,同時用不同的顏色區別聚類簇,如圖7所示。
從圖中,可以清晰地看出簇1(紅色)只有一個點,就是那個單次駕駛距離最大的那個點,超過200公里,再一次鮮艷地鶴立雞群。
既然簇1(紅色)只有一個點,明顯是一個特例,就不再深挖了(真相是挖不下去了)。
下面對簇2和簇3分別作進一步的分析。
對簇2(綠色)的駕駛次數,分別按照一天24小時、星期、單次駕駛距離,和單次駕駛時長,作頻率分布圖,如圖8所示。從圖中可以觀察到下面幾個特點:
1. 大部分駕駛行為發生在下午至晚上,以下午3點至5點最多。
2. 周日至周六都有,但是以周二最少。 又是一個線索,不是嗎? 值得進一步深挖。限於篇幅,就不再贅述了(累了,歇歇吧)。
3. 駕駛距離大部分不超過10公里。
4. 開車時間大部分不超過20分鍾。
好像是一個生活比較有規律的人啊。
同樣,對簇3(藍色)也做同樣的分析,如圖9所示,仔細觀察這些分布圖,可以發現下面幾個特點:
1. 駕駛的時間十分有規律,大部分發生在早上10 - 11點,和晚上7 - 9點。
2. 周一至周5特別顯著,周日完全沒有。
3. 駕駛距離大部分出現在30 - 36公里之間。
4. 開車時間大約在30 - 60分鍾之間。
從這些特徵不難推測,簇3反映的是工作日上下班的駕駛行為。而家裡到公司的距離大約30多公里,單程需要開車30分鍾至1小時。交通狀況還是不錯的哦。
平均來看,上班時間大約早上10點,下班時間晚上8點。是不是和某一類熟悉的人群的特徵比較吻合啊?有一種似曾相識的感覺。
結合簇2的特徵,工作之餘,主要在方圓10公里的范圍內活動。簇1告訴我們,3個月內僅有一次遠門。哈哈,形象更加豐滿啦!
一不小心又自嗨了,初當程序員時的毛病,這么多年還是沒有完全改掉。別忘了,這3個月里還有一半的日子沒有數據呢。
至此,要演示的用戶出行行為的分析告一段落了。筆者用到的數據僅有三項:
- 時間戳
- 里程錶
- 引擎轉速(僅用於推算車輛狀態)。
如果輔之以更多的、「相關的」數據欄位,我們可以做更加深入的、多個角度的分析。
在這個過程中,如何提出問題、從數據中發現線索、不放棄任何一個疑點,然後像個偵探一樣,一步一步地挖掘。坦率地說,這個感覺真的不錯。
後續,筆者還會就車聯網數據在其他方面的分析,進一步分享,敬請期待!
B. arcgis怎麼分析公交站點間距
操作方法念畢並:
1、通過高德地圖爬取數緩得到職住POI數據、公交線網數據、數據坐標系為WGS_84坐標。
2、通過利用ArcGIS中的核密度分析、緩沖區分析等工具發現公交線網分布中的不足和地鐵與公交線網的接駁中的不足。
3、打仔跡開ArcToolbox-分析工具-疊加分析-空間聯合。
4、選擇目標要素為公交線路,連接要素,輸出要素,點擊確定。
5、獲得到處理的線路之後,數據屬性表打開,可以看到Join_Count屬性中部分屬性值為1,部分為0,其中值為1的是經過的公交線路,值為0的為不經過公交線路。
6、通過屬性值降序排序,得到全為1的公交線路。
7、導出選中數據,即可得到篩選後得到僅包含經過的公交線網數據就可以了。
C. 網路分析中對道路網路數據有何要求,如何得到符合網路分析要求的街道網路數據
GIS在利用虛擬道路和橋梁網路對特大型車輛制定運行路線中的應用 1什麼是GIS GIS是橘扮一個計算機化的映射系統,它能夠利用信息分層對狀況進行詳細的描述,並能夠分析變數之間的關系。嚴格來講,任何一個可以對地理信息進行表達和分析的系統都是地理信息系統。由首字母縮寫的GIS可以理解成就是指一個基於計算機的軟體,通常以一些流行的特有的軟體包裝的形式出現。雖然軟體是GIS的一個重要的組成部分,但它是不能代表GIS的。 盡管GIS作為一個完全的當代的技術有它迷人的地方,但是它的概念是在過去提出的。在紙上(或其他介質上)畫出數據在空間上的不同分布,然後將它們彼此覆蓋以找到相關的點,GIS就是在此基礎上建立起來的。Foresman有證據表明:在十一世紀時,這種模型在修建Angkor神殿建築群(在今天的柬埔寨)時使用過。現代GIS是在20世紀60年代發展起來的,這其中包括1962年英國的Coppock利用GIS進行的土地利用分析,1967年Tomlinson發展的加拿大的GIS,以及1969年出版的McHarg的《自然的設計》一書等。 GIS是一個可以將享有共同地形數據的資料庫聯結到一起的理想的工具。隨著數據的集成逐漸被人們所認識,這種功能也變得更加有用。不僅需要數據的集成,而且,也需要對各種不同目的所用的數據加以識別,例如關於土地利用,街道規劃,公車路線,學校和地鐵站等信息。 2背景:特大型車輛運行路線制定 這項研究計劃的目的是利用ArcView GIS軟體計算出特大型車輛的最優行車路線。所用的公路圓納灶網路要比實際的網路小而且簡單,所定出的路線是根據最短距離計算而不是最短旅行時間。這項研究的基本原理同樣適用於將來要應用的更大規模公路網。 特大型車輛在道路網上的行駛給交通工程師和城市規劃師帶來很多的問題。車輛的尺寸必須允許它在道路、橋下、隧道中和立交橋處行駛。而且,車輛的重力不能超過橋梁的荷載等級要求或道路的承載能力。除此之外,特大型車輛還有一個受限制的轉彎半徑,這會阻止它們在某些道路上通行。因此為了避免特大型車輛對公共設施的損壞,避免出現交通事故,制定出可以容納特大型車輛的尺寸、重力和其他特徵的行車路線供特大型車輛行駛是非常重要的。 每天,各州所收到的特大型車輛需要量在75到1750之間。其中大部分州是在地形圖上確定運行路線,有一些州是通過數字地圖和計算表確定。 3軟體方法 用來確定特大型車輛行駛路線所使用的軟體是ESRI公司開發的ArcView GIS軟體,並裝有網路分析擴展工能。編程語言採用ArcView中的面對對象的程序設計語言Avenue, 第一步是利用Arc View的繪畫工具繪制一個小的虛擬的道路網。 一旦空間數據(路段和橋梁的位置)輸入完成,屬性數據將會創建一個表。每一條道路都會被命名(1到63),並且給出所需要的最大高度和重力。那些有橋梁的路段要比其他路段有更低的重力和高度容許的要求。 接下來是寫一份手稿,提醒用戶注意車輛的高度和重力。這些數據將會被儲存,並與上面列出的道路數據表中的屬性數據進行核查。 還要寫一份用來產生一個新的網路的報告,報告中只包括那些從最初的網路中選出的比用戶所輸人的重力和高度要求更大的路段。 4網路分析 ArcView軟體附加的網路分析功能夠找出網路上的最短路徑。然而,這個項目的目標是在找到網路最短路徑的同時還要查到那些重力和高度都不超過要求的路段。因此,為了能夠利用網路分析,特大型車輛的路線確定只針對於那些滿足要求的路網。網路分析隨後將在新生成的路網上確定出滿足給定高度和重力要求的理想路線。 5結果:虛擬網路 這個已經完成的假想的網路由63個路段和13座橋梁組成。 道路路段被定義成線,橋梁則用X表示。 用茄譽戶輸人車輛的高度和重力,然後請求由網路制定出從任意起點和終點之間的最佳路徑。於是,這條理想的路線將在地圖上顯現出來,或用戶可以要求文本的指導。 已經完成的特大型車輛定線程序能夠在給定的車的重力和高度限制下產生理想的行使路線。在虛擬的網路上,路段的高度和重力容量是任意分配的。這些值可以按要求修改,就像網路本身一樣(隨著這些值的改變而改變。) 盡管這個GIS項目只是在小范圍內進行,但是GIS有能力在更大范圍內使特大型車輛的最優路線設定的請求過程自動化。這樣的項目的一旦成功實現,必然會帶來時間的節省,同時也會增加安全性,因為它消除了人為的錯誤。 6進一步研究的建議 本項目的目的是通過在一個比較小范圍的虛擬網路上建立一個特大型車輛運行路線制的應用,來表明如何實現在現實的路網上特大型車輛運行路線的確定。下一步將會增加應用的范圍。在這個項目中只考慮了車輛的重力和高度。在現實的應用中,還要考慮很多其他的因素,例如車的軸數,轉彎半徑以及車速的限制。此外,現實的道路網也要比這個項目中虛擬的網路模型復雜,還要考慮單行街道,速度限制,施工和坡度等因素。 一旦實現了這一方法的精確而成功的應用的,下一步就可以在各州推行利用這一GIS技術來建立他們的特大型車輛的通行許可。
D. 大數據理論如何指導交通數據分析
隨著城市交通的普及和進步,地面公交路線的設計對於城市公共交通發展有著重要意義,線路的合理性顯得更加重要。那麼核慎,如何能夠利用城市交通產生的大數據,來評價交通體系的健康程度,從而優化服務,給用戶帶來更佳便捷的出行體驗,是我們大數據從業者需要努力的方向。
地面公交路線的設計對於城市公共交通發展有著重要意義,線路的合理性顯得更加重要。本文針對公交線路的合理性分析及相關問題進行研究,關於公交線路的合理性評價關鍵在於評價指標的選擇和具體相關數據的調查和收集,公交非高峰期、上下班高峰期、周末高峰期乘車人數數據綜合分。從而對公交服務進行合理評價。
首先,我們需要利用租氏耐數據,建立交通的綜合評價體系,讓我們能夠有效的評價,並且發掘問題所在,這樣才能夠有目標的進行改善。那麼,城市公交評價體系有哪些維度的數據指標,我們一起來看一下:
公交資源利用率
乘客口碑分析
公交運營成本
人均乘車時間
乘客平均出行時耗
非高峰期車輛滿載率
站點覆蓋率
有了這些評分指標,我們就可以對一個城市的公交體系進行健康分析,一旦總體得分下降,勢必與其中部分指標息息相關,我們的決策者,可以根據情況調整管理方向,及時的改善公交服務。
便捷性評估維度
站點覆蓋率:指公交線路全部停靠站點總數N個的覆蓋面積與服務區域面積F值比,用於表示公交站點在公交服務區域內平均分布狀況和反映居民接近公交站點的程度。顯然,區域內站點覆蓋率越高,便捷性就越好;
乘客平均出行時耗:指居民在交通行為中人均需要耗費的時間,反映了公交系統對居民生活的實際影響情況。當然乘客平均出行時耗越小,就說明公交線網對於居民而言便捷性越高。
高效性評估維度
車輛滿載率:指運營車輛全天載運乘客的平均滿載程度,反映了公交資源弊春的利用程度。很顯然,車輛的滿載率越高,公交系統的高效性體現越充分;
道路飽和度:飽和度越好,公交線路對道路資源的利用率越高。
公交效益評估維度
運營成本主要考慮公交車輛行駛的耗油量以及路線車型的大小,耗油量反映出公交車行駛路線的長短,從而反映公交線路的日常運營成本;
線路的非直線系數是指公交線路的實際長度與空間直線距離之比,非直線系數越小,
如何計算這些指標,我們需要統一一下:
非一線城市,交通建設良好情況下
非高峰期乘客平均出行時耗為t1=20.3分鍾;
上下班高峰期乘客平均出行時耗為t2=21.0分鍾;
周末高峰期乘客平均出行時耗為t3=30.5分鍾。
直線系數為=公交線路的路線長為/起始站的空間幾何距離
國家建議的公交標准如下:
乘客平均出行時耗應在20至60分鍾之間;
非直線系數應在1.0至1.4之間
站點覆蓋率應在0.25至0.5之間
車輛滿載率應在0.25至0.5之間
車輛乘車人數規定在60人以內
根據數據結合計算公式,我們對照國家標准,就可以評估一個城市的公交服務到底是優,良,中,差四種評價中的哪一個了。
一旦出現了差評,那麼我們管理者也可以根據指標判斷是那方面出現了問題,及時的參與管控,提高服務質量。
E. 如何在網上做數據收集和數據分析,並做出圖文並茂的數據分析圖
近年來,隨著技術的進步、互聯網速度提升、移動互聯網更新換代、硬體技術不斷發展、數據採集技術、存儲技術、處理技術得到長足的發展,使我們不斷加深了對數據分析的需求。但數據分析本身並不是目標,目標是使業務能夠做出更好的決策。如何做好數據分析,簡單來說,只需5步。
第一步:明確分析的目標和框架
對一個分析項目,數據分析師應該明確業務目標是什麼,初步選定哪些變數作為研究對象,從而為收集數據、分析數據提供清晰的目標,避免無意義的數據分析。同時對項目進行簡單的評估,即時調整項目,構建出分析的思路與整體的框架。
第二步:數據收集
有目的的收集數據,是確保數據分析過程有效的基礎。作為數據分析師,需要對收集數據的內容、渠道、方法進行規劃。
1) 將識別的需求轉化為具體的需求,明確研究的變數需要哪些數據。
2) 明確數據的來源渠道,數據的渠道主要有三種,一種是從公司系統資料庫直接導出,另一種是通過網路爬蟲軟體(如火車頭、集搜客GooSeeker)從網上抓取數據,也可以直接通過問卷的形式來收集數據。
第三步:數據處理
數據分析的中最重要的一步是提高數據質量,最好的數據值分析如果有垃圾數據將會產生錯誤結果和誤導。因此,對收集到的數據進行加工、整理,以便開展數據分析,是數據分析前必不可少的階段。這個過程是數據分析整個過程中最占據時間的,數據處理包括數據清洗、數據轉化等處理方法。
第四步:數據分析
數據分析是指通過分析手段、方法和技巧對准備好的數據進行探索、分析,從中發現因果關系、內部聯系和業務規律,通過數據建立模型,進而為商業提供決策參考。
到了這一階段,為了駕馭數據、展開數據分析,需要涉及到工具與分析軟體的使用。
要熟悉數據分析的方法,首先需要良好的統計基礎,了解像方差、抽樣、回歸、聚類分析、判別分析、因子分析等數據分析方法的原理以及使用,才能靈活的根據業務目標以及已有數據來選擇分析的方法。
其次掌握幾種常用的數據分析軟體,如較基礎的Excel、SPSS,或SAS、R等較高級的分析軟體,保證分析工作的高效進行。
第五步:撰寫分析報告
一份好的數據分析報告很重要,因為分析報告的輸出是是你整個分析過程的成果,是評定一個產品、一個運營事件的定性結論,很可能是產品決策的參考依據,好的分析報告應該有以下一些要點:
1) 要有一個好的框架,層次明了,讓讀者一目瞭然。
2) 每個分析都有結論,而且結論一定要明確。
3) 分析結論一定要基於緊密嚴禁的數據分析推導過程,不要有猜測性的結論。
4) 數據分析報告盡量圖表化。
5) 好的分析報告一定要有解決方案和建議方案。