A. 数据采集的方法有哪两类
1、离线搜集:
工具:ETL;
在数据仓库的语境下,ETL基本上便是数据搜集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需求针对具体的事务场景对数据进行治理,例如进行不合法数据监测与过滤、格式转换与数据规范化、数据替换、确保数据完整性等。
2、实时搜集:
工具:Flume/Kafka;
实时搜集首要用在考虑流处理的事务场景,比方,用于记录数据源的履行的各种操作活动,比方网络监控的流量办理、金融运用的股票记账和 web 服务器记录的用户访问行为。在流处理场景,数据搜集会成为Kafka的顾客,就像一个水坝一般将上游源源不断的数据拦截住,然后依据事务场景做对应的处理(例如去重、去噪、中心核算等),之后再写入到对应的数据存储中。
3、互联网搜集:
工具:Crawler, DPI等;
Scribe是Facebook开发的数据(日志)搜集体系。又被称为网页蜘蛛,网络机器人,是一种按照一定的规矩,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的搜集。
除了网络中包含的内容之外,关于网络流量的搜集能够运用DPI或DFI等带宽办理技术进行处理。
4、其他数据搜集方法
关于企业生产经营数据上的客户数据,财务数据等保密性要求较高的数据,能够通过与数据技术服务商合作,运用特定体系接口等相关方式搜集数据。比方八度云核算的数企BDSaaS,无论是数据搜集技术、BI数据剖析,还是数据的安全性和保密性,都做得很好。
B. 如何在网上做数据收集和数据分析,并做出图文并茂的数据分析图
近年来,随着技术的进步、互联网速度提升、移动互联网更新换代、硬件技术不断发展、数据采集技术、存储技术、处理技术得到长足的发展,使我们不断加深了对数据分析的需求。但数据分析本身并不是目标,目标是使业务能够做出更好的决策。如何做好数据分析,简单来说,只需5步。
第一步:明确分析的目标和框架
对一个分析项目,数据分析师应该明确业务目标是什么,初步选定哪些变量作为研究对象,从而为收集数据、分析数据提供清晰的目标,避免无意义的数据分析。同时对项目进行简单的评估,即时调整项目,构建出分析的思路与整体的框架。
第二步:数据收集
有目的的收集数据,是确保数据分析过程有效的基础。作为数据分析师,需要对收集数据的内容、渠道、方法进行规划。
1) 将识别的需求转化为具体的需求,明确研究的变量需要哪些数据。
2) 明确数据的来源渠道,数据的渠道主要有三种,一种是从公司系统数据库直接导出,另一种是通过网络爬虫软件(如火车头、集搜客GooSeeker)从网上抓取数据,也可以直接通过问卷的形式来收集数据。
第三步:数据处理
数据分析的中最重要的一步是提高数据质量,最好的数据值分析如果有垃圾数据将会产生错误结果和误导。因此,对收集到的数据进行加工、整理,以便开展数据分析,是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,数据处理包括数据清洗、数据转化等处理方法。
第四步:数据分析
数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,通过数据建立模型,进而为商业提供决策参考。
到了这一阶段,为了驾驭数据、展开数据分析,需要涉及到工具与分析软件的使用。
要熟悉数据分析的方法,首先需要良好的统计基础,了解像方差、抽样、回归、聚类分析、判别分析、因子分析等数据分析方法的原理以及使用,才能灵活的根据业务目标以及已有数据来选择分析的方法。
其次掌握几种常用的数据分析软件,如较基础的Excel、SPSS,或SAS、R等较高级的分析软件,保证分析工作的高效进行。
第五步:撰写分析报告
一份好的数据分析报告很重要,因为分析报告的输出是是你整个分析过程的成果,是评定一个产品、一个运营事件的定性结论,很可能是产品决策的参考依据,好的分析报告应该有以下一些要点:
1) 要有一个好的框架,层次明了,让读者一目了然。
2) 每个分析都有结论,而且结论一定要明确。
3) 分析结论一定要基于紧密严禁的数据分析推导过程,不要有猜测性的结论。
4) 数据分析报告尽量图表化。
5) 好的分析报告一定要有解决方案和建议方案。
C. 大数据时代,那么一般通过什么方法(软件)收集、分析和可视化数据
数据是平台运营商的重要资产,可能提供API接口允许第三方有限度地使用,但是显然是为了增强自身的业务,与此目的抵触的行为都会受到约束。
收集数据主要是通过计算机和网络。凡是经过计算机处理的数据都很容易收集,比如浏览器里的搜索、点击、网上购物、……其他数据(比如气温、海水盐度、地震波)可以通过传感器转化成数字信号输入计算机。
收集到的数据一般要先经过整理,常用的软件:Tableau和Impure是功能比较全面的,Refine和Wrangler是比较纯粹的数据整理工具,Weka用于数据挖掘。
Hadoop是一个能够对大量数据进行分布式处理的软件框架。用于统计分析的R语言有个扩展R + Hadoop,可以在Hadoop集群上运行R代码。更具体的自己搜索吧。
可视化输出的工具很多。建议参考wikipedia的“数据可视化”条目。
Tableau、Impure都有可视化功能。R语言也可以绘图。
还有很多可以用来在网页上实现可视化输出的框架或者控件。
大致基于四种技术:Flash(Flex)或者JS(HTML5)或者Java或者ASP.NET(Silverlight)
Flash的有Degrafa、BirdEye、Axiis、Open Flash Chart
JS的有Ajax.org、Sencha Ext JS、Filament、jQchart、Flot、Sparklines、gRaphael、TufteGraph、Exhibit、PlotKit、ExplorerCanvas、MilkChart、Google Chart API、Protovis
Java的有Choosel、google-visualization-java、GWT Chronoscope、JFreeChart
ASP.NET的有Telerik Charts、Visifire、Dundas Chart
目前我比较喜欢d3(Data-Driven Documents),图形种类丰富,有交互能力,你可以去d3js.org看看,有很多种图形的demo。