A. 车联网数据分析(一):用户出行行为分析
“数据 - 数字时代的石油”
“数据是新的石油”
在网络上、媒体上我们经常看到有人这样宣扬。
问题是: 我们能够像提炼石油一样从数据中提炼出价值来吗?
笔者多年从事汽车及出行领域的信息技术(IT)及产品研发,在这里就车联网数据分析的一些实践做个分享,看看能够从这些数据“石油”中提炼点什么,抛砖引玉。
下面的分析是针对单个车辆的车联网数据进行分析,而不是群体车辆的行为分析。
笔者计划从下面几个方面进行探讨(具体的会根据实际情况和各方面的反馈来调整):
- 用户出行行为分析
- 用户驾驶行为分析
- 燃油车车辆动态行为分析
- 电动车电池及充放电行为分析
- 能耗分析
本篇分享一下用户出行行为的分析过程。
先看看车联网数据到底有多大,各家OEM和后装解决方案的数据采集信号、采集频率都配棚族不同,也没有行业统一标准。这里举一个例子,让大家粗略感受一下。
- 假设数据采集频率为1 Hz(所有信号每秒采样1次),家用汽车平均每天使用2个小时(燃油车引擎启动就开始采集数据),一年就采集了365 * 2 * 3600 = 2.628 * 106次。
- 如果每次采集的数据量为10 KB,那么,一辆车一年就产生大约26.3 GB 的数据。
- 一年一百万辆装备有车联网的车将会产生26.3 GB * 106= 26.3 PB。(2018年中国有6家OEM年销量过百万)。
- 丰田、大众、雷诺日产2018年全球销量均超过1000万。假设这几家OEM在未来数年内销量均保持这一水平,并且从今年开始实现100%新车车联网,每辆车平均寿命6年,那么6年后这些OEM存量车联网的车就是6000万,每家OEM每年将新增数据:26.3 GB * 60,000,000 = 1578 PB = 1.578 EB/年.
这么大的数据量,采集、传输、存储,如果以现在的技术和市场价格,成本是十分惊人的。所以,笔者大胆猜测,大多数OEM和物流公司在实际运营中都会降低采样频率,或者减少采样信号,或者以事件驱动,而不是以固定频率采样数据,以节省成本,尽管,技术上没有问题。
对上述目标的分析,笔者使用的车联网数据集来自于一辆车联网实验性乘用轿车。数据源本身就是脱敏的,去除了位置信息、用户信息、车辆等静态信息,只有车辆的动态数据。时间跨度为:2017年6月至8月。
采样频率高于1Hz,也就是平均每秒钟采样不止一次。原则上,采样频率越高越好,这样保留了高频信息,可以更加深刻地分析车辆的动态行为。
这几年热得一塌糊涂的无人驾驶,主要传感器的采样频率都不低于10 Hz。为什么采样频率要求这么高呢?比如,在高速公路上以120公里/小时的时速行驶,那么每秒钟行驶的距离是:120000/3600 = 33.3 米/秒。也就是说,在0.1秒的时间里(对应10 Hz),车辆已经行驶了3.33 米,这个距离足以将车辆驶离车道并酿成事故。
有了原始车联网数据(通常以CSV文件格式保存),笔者要对它进行预处理,为后续的数据探索、可视化,以及模型分析准备原料。
笔者使用的工具全程都是 R语言。
如何处理?要不忘初心、牢记使命:本部分数据分析的目的是 – 用户出行行为分析 。
基于该目的,我们所需要的数和核据项其实很少,只需要下面三项数据就可以了(是不是太简单了点?是的,就是这么简单。就像,都是小麦,光面条就可以做出很多种,更不要说各种面培弊包,还有数不清的 mpling了):
- 时间戳– 每条记录发生的日期和时间
- 里程表
- 引擎转速– 判断车辆状态
如果有明确的、可靠的信号用于判断车辆状态,那么不建议使用“引擎转速”了。笔者认为这完全取决于实际的数据质量和内容。如果各位大神有更好的解决方案,欢迎分享和交流哦。
把其他的数据项暂时摈弃,只保留这三项,现在可以进行下一步了。
如果上述数据中,不同信号的采集频率不一样,那么,合并(或者叫融合,信号之间的融合)数据是非常重要的一步。合并可以发生在清洗、整理、聚合中间,或之前、之后的某个时间,具体要根据实际数据的情况来决定,很难一概而论。
首先了解选择的数据集的summary信息,可以快速知道哪些字段有数据缺失,有多少缺失。如果有缺失值,需要分析这些数据对我们的分析目的会有什么影响。如果没有什么影响,就删掉它们。
其次,时间戳是以字符串的形式存储的,包括日期和时间,笔者用的数据集精确到毫秒。这样不利于后续的计算和分析。需要把它转化成便于计算和分析的数据。毫秒的精度对我们分析用户出行行为来说没有意义,所以,由时间戳生成年、月、日、时、分、秒,这样,后续可以按照这些时间尺度进行聚合。
最后,按秒对数据进行聚合。选择的数据集高于1Hz的采样频率,但是实际原始数据往往不会100%严格按照相同的采样频率生成数据,有时1秒内有多条记录,有时会有缺失,看起来不是完全连续的。如果是车速等数据,聚合时采用平均值。里程数据是个累计值,所以取每秒内的最后一个数值,为了计算简单,都用平均值也可以,因为1秒内里程数据很难有大的变化。
经过这些步骤后,数据就规整了很多,可以进行下一步了。
将数据分割成一个个单独的驾驶行程,这样可以方便后面的出行行为分析了。
如何判断一个驾驶行程的开始和结束呢?
对于燃油车,一般来说,发动机启动后,才开始采集车联网数据,所以,没有数据就可以假定为车子是熄火的。这里用的数据就是燃油车的数据。
对于纯电动车(BEV),充电的全过程都会采集数据。
对于插电混动(PHEV)车,判断的依据要更加复杂一些,这个问题以后再讨论。
需要注意的是,真实数据通常不可能是理想的,每一步都要仔细检查,如果有疑问,或者不合理,找出那些引起可疑的数据,仔细分析原因,再根据发现的原因进行调整。这是一个不断试验、不断迭代的过程。
完成技术上的分割后,需要合并、过滤,得到相对合理的“有意义的”驾驶行程,在这个示例中,笔者得到了142次驾驶行程。也就是说,从2017年6月至8月的时间里,开了142次车。
处理完这些之后,我们就可以下锅做菜了,看看能不能做出点有意思的东东来吧。
分析的过程通常是由浅入深、由全局到局部。
如果数据足够多,建议先从大的时间尺度开始,比如从年开始,到月、日、小时,再到单个驾驶行程。最后,看看这些驾驶行程之间的关系,行程和各个时间维度之间的关系。一步步深挖。
首先,对整个数据集要有一个总体的认识,这个可以通过统计下面表格中的指标来完成。列出来的指标只是用于示例,具体需要统计哪些值应该根据分析的目的、业务场景、实际的原始数据集等。还是那句话:具体情况,具体分析。
其次,我们看一看该用户每月驾驶(出行)的频次,和旅行的总里程(公里数)。如图1所示,7月份开车的次数和行驶总里程最多,差不多是6月和8月的两倍。
从每月开车的次数来看,7月份开了70次左右,6月份半个月就有接近40次,而8月份仅有34次开车记录。那我们很想知道 8 月份的开车次数为什么减少了那么多呢?
统计一下每天驾驶的次数,如图2所示。结果有些让人意外,6月份从14日至24日(11天),7月份从10至29日(共18天,中间缺了2天),8月份从5至12日,27至31日(总共13天),其他的日期没有车联网数据。接近一半的日期里没有车联网数据。
是什么原因导致的呢?是那些天用户完全没有开车吗?还是由于某种原因,数据没有传输上来呢?
回答这个问题并不难。
我们还是从查看原始数据着手,里程表是不断递增的。比对最后一条记录的里程表和第一条记录的里程表数据得知,两者的差值是5646公里。回想前面表格里统计的“总驾驶里程”为2666公里,这说明在那些缺失数据的日期里,车辆仍然驾驶了接近3000 公里。
这也提醒分析人员,如果再对这批数据按月份进行分析,已经失去了意义。
因为这批原始数据来自于一辆车联网实验性的乘用轿车,我们不能要求太高。但是对我们实践我们的研究方法依然有效。
再前进一步,从日期的角度看看用户驾驶/出行的特征。如图3所示,共统计了三个指标的分布:
1. 左上– 每天驾驶次数的分布,中值是3次,最多有7次。说明该用户开车比较频繁。
2. 右上– 每天行驶距离的分布,中值是63公里左右,最多一天行驶261公里。
3. 左下和右下两张图– 每天驾驶时长的分布,中值在90分钟处,说明该用户每天大约开车一个半小时。用频率图从另一个角度可以看到驾驶时长的分布特征。
在实际工作的时候,分析人员根据实际情况选择该用什么样的图表来更好地展现。
现在分析 单次驾驶的行为特征 。先从最简单的统计特征,单次驾驶距离和驾驶时长,入手。如图4所示,
- 该用户开车的距离多数在10公里以内,或者在30-50公里范围内。
- 每次开车多数分布在5-15分钟内,或者在30-60分钟内。
无论是距离还是时间长度都有两个峰值,是不是有某种背后的原因? 又一次把笔者的胃口吊起来了。
下面我们看一看单次驾驶距离的散点图,如图5所示,每一次驾驶的距离在图中表示为一个小圆点,从6月14日开始的第一次驾驶到8月31日记录的第142次驾驶,总共142个点。
根据前面的距离分布图(图4)得到的启示,我们从下图中可以观察到几个特征:
1. 有一个超过200公里的行程,鹤立鸡群。其余的都没有超过100公里的。
2. 在15公里以下有很多点行驶距离十分接近。
3. 在30-50公里也有很多点的行驶距离十分接近。
我们似乎找到了前述疑问的答案,但是咱们既然是做数据分析,就要显得更加“科学”和“客观”,让数据来说话,而不是凭肉眼观察和猜测,否则,怎么显示出分析师的“逼格”来呢?
如何让数据说话呢? 聚类分析 是个好的工具,尤其是这里只有一个变量,K均值的方法就可以了,简单易行。
一开始,我们并不能确切地知道(假装不知道,这样才能“客观”)该分成几个聚类簇,一个做法是:从K = 1 到n(n 的取值要足够大,以保证最佳簇个数不大于n)都做一次聚类分析,然后比较各个K值下的 Betweens/TSS (簇之间的总平方和 / 总离差平方和),该比值越大,聚类效果越好。一般来说,K值越大,该比值也会越大。极端的情况是,比如,有100个点,分成100个聚类簇,这样当然没有意义。所以这里需要一个主观判断,通常在比值差不多的情况下,应该选择最小的K值作为最佳聚类簇。
在这个例子中,我取n = 10,因为直觉告诉我,最多3或4个聚类簇就够了,在此基础上放宽一到两倍作为n的取值应该足够了。
直觉会告诉我们可能有几个聚类,但是不要完全相信直觉(否则,就不“客观”了),还是应该让数据说话。
这里多啰嗦几句:在做数据分析的时候,直觉很重要,但是笔者建议更多地应该把直觉当成线索、孕育新的想法,就像是侦探破案一样。如果有一些小伙伴一起探索、探讨就更好了,可以时不时地问问:“元芳,你怎么看?”。
好了,把K从1到10循环做聚类分析,将这10个K值对应的Betweens/TSS显示在图上,如图6所示。可以清楚地看到,K = 3 和 K = 4 时,结果非常接近,但是比 K = 2 时显着改善,所以,笔者选定 K = 3 作为最佳聚类簇。
按照K = 3做聚类分析,重新绘制图5:单次驾驶的距离– 散点图,同时用不同的颜色区别聚类簇,如图7所示。
从图中,可以清晰地看出簇1(红色)只有一个点,就是那个单次驾驶距离最大的那个点,超过200公里,再一次鲜艳地鹤立鸡群。
既然簇1(红色)只有一个点,明显是一个特例,就不再深挖了(真相是挖不下去了)。
下面对簇2和簇3分别作进一步的分析。
对簇2(绿色)的驾驶次数,分别按照一天24小时、星期、单次驾驶距离,和单次驾驶时长,作频率分布图,如图8所示。从图中可以观察到下面几个特点:
1. 大部分驾驶行为发生在下午至晚上,以下午3点至5点最多。
2. 周日至周六都有,但是以周二最少。 又是一个线索,不是吗? 值得进一步深挖。限于篇幅,就不再赘述了(累了,歇歇吧)。
3. 驾驶距离大部分不超过10公里。
4. 开车时间大部分不超过20分钟。
好像是一个生活比较有规律的人啊。
同样,对簇3(蓝色)也做同样的分析,如图9所示,仔细观察这些分布图,可以发现下面几个特点:
1. 驾驶的时间十分有规律,大部分发生在早上10 - 11点,和晚上7 - 9点。
2. 周一至周5特别显着,周日完全没有。
3. 驾驶距离大部分出现在30 - 36公里之间。
4. 开车时间大约在30 - 60分钟之间。
从这些特征不难推测,簇3反映的是工作日上下班的驾驶行为。而家里到公司的距离大约30多公里,单程需要开车30分钟至1小时。交通状况还是不错的哦。
平均来看,上班时间大约早上10点,下班时间晚上8点。是不是和某一类熟悉的人群的特征比较吻合啊?有一种似曾相识的感觉。
结合簇2的特征,工作之余,主要在方圆10公里的范围内活动。簇1告诉我们,3个月内仅有一次远门。哈哈,形象更加丰满啦!
一不小心又自嗨了,初当程序员时的毛病,这么多年还是没有完全改掉。别忘了,这3个月里还有一半的日子没有数据呢。
至此,要演示的用户出行行为的分析告一段落了。笔者用到的数据仅有三项:
- 时间戳
- 里程表
- 引擎转速(仅用于推算车辆状态)。
如果辅之以更多的、“相关的”数据字段,我们可以做更加深入的、多个角度的分析。
在这个过程中,如何提出问题、从数据中发现线索、不放弃任何一个疑点,然后像个侦探一样,一步一步地挖掘。坦率地说,这个感觉真的不错。
后续,笔者还会就车联网数据在其他方面的分析,进一步分享,敬请期待!
B. arcgis怎么分析公交站点间距
操作方法念毕并:
1、通过高德地图爬取数缓得到职住POI数据、公交线网数据、数据坐标系为WGS_84坐标。
2、通过利用ArcGIS中的核密度分析、缓冲区分析等工具发现公交线网分布中的不足和地铁与公交线网的接驳中的不足。
3、打仔迹开ArcToolbox-分析工具-叠加分析-空间联合。
4、选择目标要素为公交线路,连接要素,输出要素,点击确定。
5、获得到处理的线路之后,数据属性表打开,可以看到Join_Count属性中部分属性值为1,部分为0,其中值为1的是经过的公交线路,值为0的为不经过公交线路。
6、通过属性值降序排序,得到全为1的公交线路。
7、导出选中数据,即可得到筛选后得到仅包含经过的公交线网数据就可以了。
C. 网络分析中对道路网络数据有何要求,如何得到符合网络分析要求的街道网络数据
GIS在利用虚拟道路和桥梁网络对特大型车辆制定运行路线中的应用 1什么是GIS GIS是橘扮一个计算机化的映射系统,它能够利用信息分层对状况进行详细的描述,并能够分析变量之间的关系。严格来讲,任何一个可以对地理信息进行表达和分析的系统都是地理信息系统。由首字母缩写的GIS可以理解成就是指一个基于计算机的软件,通常以一些流行的特有的软件包装的形式出现。虽然软件是GIS的一个重要的组成部分,但它是不能代表GIS的。 尽管GIS作为一个完全的当代的技术有它迷人的地方,但是它的概念是在过去提出的。在纸上(或其他介质上)画出数据在空间上的不同分布,然后将它们彼此覆盖以找到相关的点,GIS就是在此基础上建立起来的。Foresman有证据表明:在十一世纪时,这种模型在修建Angkor神殿建筑群(在今天的柬埔寨)时使用过。现代GIS是在20世纪60年代发展起来的,这其中包括1962年英国的Coppock利用GIS进行的土地利用分析,1967年Tomlinson发展的加拿大的GIS,以及1969年出版的McHarg的《自然的设计》一书等。 GIS是一个可以将享有共同地形数据的数据库联结到一起的理想的工具。随着数据的集成逐渐被人们所认识,这种功能也变得更加有用。不仅需要数据的集成,而且,也需要对各种不同目的所用的数据加以识别,例如关于土地利用,街道规划,公车路线,学校和地铁站等信息。 2背景:特大型车辆运行路线制定 这项研究计划的目的是利用ArcView GIS软件计算出特大型车辆的最优行车路线。所用的公路圆纳灶网络要比实际的网络小而且简单,所定出的路线是根据最短距离计算而不是最短旅行时间。这项研究的基本原理同样适用于将来要应用的更大规模公路网。 特大型车辆在道路网上的行驶给交通工程师和城市规划师带来很多的问题。车辆的尺寸必须允许它在道路、桥下、隧道中和立交桥处行驶。而且,车辆的重力不能超过桥梁的荷载等级要求或道路的承载能力。除此之外,特大型车辆还有一个受限制的转弯半径,这会阻止它们在某些道路上通行。因此为了避免特大型车辆对公共设施的损坏,避免出现交通事故,制定出可以容纳特大型车辆的尺寸、重力和其他特征的行车路线供特大型车辆行驶是非常重要的。 每天,各州所收到的特大型车辆需要量在75到1750之间。其中大部分州是在地形图上确定运行路线,有一些州是通过数字地图和计算表确定。 3软件方法 用来确定特大型车辆行驶路线所使用的软件是ESRI公司开发的ArcView GIS软件,并装有网络分析扩展工能。编程语言采用ArcView中的面对对象的程序设计语言Avenue, 第一步是利用Arc View的绘画工具绘制一个小的虚拟的道路网。 一旦空间数据(路段和桥梁的位置)输入完成,属性数据将会创建一个表。每一条道路都会被命名(1到63),并且给出所需要的最大高度和重力。那些有桥梁的路段要比其他路段有更低的重力和高度容许的要求。 接下来是写一份手稿,提醒用户注意车辆的高度和重力。这些数据将会被储存,并与上面列出的道路数据表中的属性数据进行核查。 还要写一份用来产生一个新的网络的报告,报告中只包括那些从最初的网络中选出的比用户所输人的重力和高度要求更大的路段。 4网络分析 ArcView软件附加的网络分析功能够找出网络上的最短路径。然而,这个项目的目标是在找到网络最短路径的同时还要查到那些重力和高度都不超过要求的路段。因此,为了能够利用网络分析,特大型车辆的路线确定只针对于那些满足要求的路网。网络分析随后将在新生成的路网上确定出满足给定高度和重力要求的理想路线。 5结果:虚拟网络 这个已经完成的假想的网络由63个路段和13座桥梁组成。 道路路段被定义成线,桥梁则用X表示。 用茄誉户输人车辆的高度和重力,然后请求由网络制定出从任意起点和终点之间的最佳路径。于是,这条理想的路线将在地图上显现出来,或用户可以要求文本的指导。 已经完成的特大型车辆定线程序能够在给定的车的重力和高度限制下产生理想的行使路线。在虚拟的网络上,路段的高度和重力容量是任意分配的。这些值可以按要求修改,就像网络本身一样(随着这些值的改变而改变。) 尽管这个GIS项目只是在小范围内进行,但是GIS有能力在更大范围内使特大型车辆的最优路线设定的请求过程自动化。这样的项目的一旦成功实现,必然会带来时间的节省,同时也会增加安全性,因为它消除了人为的错误。 6进一步研究的建议 本项目的目的是通过在一个比较小范围的虚拟网络上建立一个特大型车辆运行路线制的应用,来表明如何实现在现实的路网上特大型车辆运行路线的确定。下一步将会增加应用的范围。在这个项目中只考虑了车辆的重力和高度。在现实的应用中,还要考虑很多其他的因素,例如车的轴数,转弯半径以及车速的限制。此外,现实的道路网也要比这个项目中虚拟的网络模型复杂,还要考虑单行街道,速度限制,施工和坡度等因素。 一旦实现了这一方法的精确而成功的应用的,下一步就可以在各州推行利用这一GIS技术来建立他们的特大型车辆的通行许可。
D. 大数据理论如何指导交通数据分析
随着城市交通的普及和进步,地面公交路线的设计对于城市公共交通发展有着重要意义,线路的合理性显得更加重要。那么核慎,如何能够利用城市交通产生的大数据,来评价交通体系的健康程度,从而优化服务,给用户带来更佳便捷的出行体验,是我们大数据从业者需要努力的方向。
地面公交路线的设计对于城市公共交通发展有着重要意义,线路的合理性显得更加重要。本文针对公交线路的合理性分析及相关问题进行研究,关于公交线路的合理性评价关键在于评价指标的选择和具体相关数据的调查和收集,公交非高峰期、上下班高峰期、周末高峰期乘车人数数据综合分。从而对公交服务进行合理评价。
首先,我们需要利用租氏耐数据,建立交通的综合评价体系,让我们能够有效的评价,并且发掘问题所在,这样才能够有目标的进行改善。那么,城市公交评价体系有哪些维度的数据指标,我们一起来看一下:
公交资源利用率
乘客口碑分析
公交运营成本
人均乘车时间
乘客平均出行时耗
非高峰期车辆满载率
站点覆盖率
有了这些评分指标,我们就可以对一个城市的公交体系进行健康分析,一旦总体得分下降,势必与其中部分指标息息相关,我们的决策者,可以根据情况调整管理方向,及时的改善公交服务。
便捷性评估维度
站点覆盖率:指公交线路全部停靠站点总数N个的覆盖面积与服务区域面积F值比,用于表示公交站点在公交服务区域内平均分布状况和反映居民接近公交站点的程度。显然,区域内站点覆盖率越高,便捷性就越好;
乘客平均出行时耗:指居民在交通行为中人均需要耗费的时间,反映了公交系统对居民生活的实际影响情况。当然乘客平均出行时耗越小,就说明公交线网对于居民而言便捷性越高。
高效性评估维度
车辆满载率:指运营车辆全天载运乘客的平均满载程度,反映了公交资源弊春的利用程度。很显然,车辆的满载率越高,公交系统的高效性体现越充分;
道路饱和度:饱和度越好,公交线路对道路资源的利用率越高。
公交效益评估维度
运营成本主要考虑公交车辆行驶的耗油量以及路线车型的大小,耗油量反映出公交车行驶路线的长短,从而反映公交线路的日常运营成本;
线路的非直线系数是指公交线路的实际长度与空间直线距离之比,非直线系数越小,
如何计算这些指标,我们需要统一一下:
非一线城市,交通建设良好情况下
非高峰期乘客平均出行时耗为t1=20.3分钟;
上下班高峰期乘客平均出行时耗为t2=21.0分钟;
周末高峰期乘客平均出行时耗为t3=30.5分钟。
直线系数为=公交线路的路线长为/起始站的空间几何距离
国家建议的公交标准如下:
乘客平均出行时耗应在20至60分钟之间;
非直线系数应在1.0至1.4之间
站点覆盖率应在0.25至0.5之间
车辆满载率应在0.25至0.5之间
车辆乘车人数规定在60人以内
根据数据结合计算公式,我们对照国家标准,就可以评估一个城市的公交服务到底是优,良,中,差四种评价中的哪一个了。
一旦出现了差评,那么我们管理者也可以根据指标判断是那方面出现了问题,及时的参与管控,提高服务质量。
E. 如何在网上做数据收集和数据分析,并做出图文并茂的数据分析图
近年来,随着技术的进步、互联网速度提升、移动互联网更新换代、硬件技术不断发展、数据采集技术、存储技术、处理技术得到长足的发展,使我们不断加深了对数据分析的需求。但数据分析本身并不是目标,目标是使业务能够做出更好的决策。如何做好数据分析,简单来说,只需5步。
第一步:明确分析的目标和框架
对一个分析项目,数据分析师应该明确业务目标是什么,初步选定哪些变量作为研究对象,从而为收集数据、分析数据提供清晰的目标,避免无意义的数据分析。同时对项目进行简单的评估,即时调整项目,构建出分析的思路与整体的框架。
第二步:数据收集
有目的的收集数据,是确保数据分析过程有效的基础。作为数据分析师,需要对收集数据的内容、渠道、方法进行规划。
1) 将识别的需求转化为具体的需求,明确研究的变量需要哪些数据。
2) 明确数据的来源渠道,数据的渠道主要有三种,一种是从公司系统数据库直接导出,另一种是通过网络爬虫软件(如火车头、集搜客GooSeeker)从网上抓取数据,也可以直接通过问卷的形式来收集数据。
第三步:数据处理
数据分析的中最重要的一步是提高数据质量,最好的数据值分析如果有垃圾数据将会产生错误结果和误导。因此,对收集到的数据进行加工、整理,以便开展数据分析,是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,数据处理包括数据清洗、数据转化等处理方法。
第四步:数据分析
数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,通过数据建立模型,进而为商业提供决策参考。
到了这一阶段,为了驾驭数据、展开数据分析,需要涉及到工具与分析软件的使用。
要熟悉数据分析的方法,首先需要良好的统计基础,了解像方差、抽样、回归、聚类分析、判别分析、因子分析等数据分析方法的原理以及使用,才能灵活的根据业务目标以及已有数据来选择分析的方法。
其次掌握几种常用的数据分析软件,如较基础的Excel、SPSS,或SAS、R等较高级的分析软件,保证分析工作的高效进行。
第五步:撰写分析报告
一份好的数据分析报告很重要,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,好的分析报告应该有以下一些要点:
1) 要有一个好的框架,层次明了,让读者一目了然。
2) 每个分析都有结论,而且结论一定要明确。
3) 分析结论一定要基于紧密严禁的数据分析推导过程,不要有猜测性的结论。
4) 数据分析报告尽量图表化。
5) 好的分析报告一定要有解决方案和建议方案。