大数据的含义和作用是什么?
大数据简直就是现实世界的数据化!
大数据对于个人的意义是:个人与信息的强强联合,个人自带可信信息。
就拿健康码来说,为什么绿色码可以发布?为什么所有检查点看到绿码就放行?因为绿色代码携带个人安全健康信息,说明这个人风险低。
也就是说,健康码是个人信息的一部分,是可信的。
健康代码的存在是基于大数据的。我们会休息,但手机不会休息,所以我们的位置信息随时随地被记录,形成了个人的行动路径。我们是否经过了高危区域,甚至划分为社区和小区?通过收集大量类似的个人数据,最终形成绿色健康码。证明我们是安全的,我们没有携带病毒。
早期的互联网,人和信息是分离的。电脑固定在一个地方,我们只能收集ip和个人账户信息。地理位置只能靠ip推测。那时候精准推送广告是非常困难的。只能按地区推。
现在,随着智能手机的大规模普及,我们不可避免地开始通过各种渠道泄露我们的个人数据用户协议和,比如去了哪里,买了什么,和谁是朋友以及一些基本信息,性别,年龄等等。
所以大数据算法可以计算出我们的行动路径,我们的兴趣爱好,活跃时间,我们喜欢什么app,喜欢什么文章。最终,渐渐地,我们个人的数据形象越来越接近真实的我们。
健康码的出现几乎是我们个人数据图像几乎等同于真实的我们的一个正面证明。
这是大数据时代,我们逐渐变得越来越透明,越来越数字化。
数据就是我们,我们就是数据!
大数据处理的流程是什么?
什么是大数据?大数据指的是能够传统软件工具在一定时间内无法捕捉、管理和处理。它是一种海量、高增长、多元化的信息资产,需要一种新的处理模式来拥有更强的决策力、洞察和发现能力以及流程优化能力。
大数据的5V特征:体量(海量)、速度(高速)、多样性(多样性)、价值(低价值密度)、真实性(真实性),百度随便就能找到。?
大数据处理流程:
?收集数据,建立数据仓库。数据采集是指数据通过前端埋点传递,接口日志调用流数据,数据库抓取,客户自己上传数据,这些信息的基础数据保存在各个维度,有些数据是没有用的(刚开始只是想着功能,有些数据没有采集,?后来被老板骂了)。
??2.数据清洗/预处理:对接收到的数据进行简单的处理,比如将ip转换成地址,过滤掉脏数据。
??3.有了数据之后,就可以处理数据了。有许多处理数据的方法。一般来说,离线处理分为离线处理和实时处理。离线处理意味着每日计划处理。阿里常用的有smaxComputer,hive,MapReduceMapReduce,离线处理主要用Storm,Spark,Hadoop。通过一些数据处理框架,可以把数据计算成各种KPI。我们需要注意这里,唐t只考虑功能,主要是构建各种数据维度,完成基础数据,可复用。以后就可以随意展示各种KPI了。
????4.数据显示,数据没用。要可视化,要达到MVP,就是快速做出一个效果,不适合及时调整。这有点类似于Scrum敏捷开发。数据显示可以用datav、厕神等完成。,前端可以忽略。自己画页面。
数据采集:
????1.批量数据采集就是每天定时去数据库抓取数据快照。我们使用maxComputer,它可以根据需要每天对数据库设置一个快照。如何备份,如何设置数据源,如何设置错误都在maxComputer中有记载。要使用maxComputer,需要注册阿里云服务。
????2.实时接口调用数据采集,可以使用logHub、dataHub和流数据处理技术。数据中心具有高可用性、低延迟、高可扩展性和高吞吐量的特点。
高吞吐量:可以支持单个主题每天最多写T级数据,每个分片每天最多写8000万条记录。
实时:通过DataHub,可以收集各种生成的数据,并实时处理。
设计思路:首先写一个sdk,记录公司所有后台服务调用接口调用,开辟一个线程池,将记录的数据连续存储在dataHub和loghub中,前提是设置好接收数据的datahub表结构。
3.将根据业务需求设置的前台数据嵌入点也通过流数据传输到数据仓库,如上面的第二步。
数据处理:
数据采集后可以进行数据处理,分为离线批量处理和实时处理。
????1.离线批处理maxComputer,是阿里提供的大数据处理服务,是一个快速、全托管的TB/PB数据仓库解决方案。通过编写数据处理脚本,设置任务执行时间和任务执行条件,就可以根据自己的要求生成每天需要的数据。
????2.实时处理:对于storm/spark,目前互联网上只有少数几个storm、strom的基本概念。这里这是一般的处理过程。首先,设置要读取的数据源,打开即可。移动风暴会连续读取数据源。Spout,用于读取数据。元组:消息传递的基本单元,这意味着一组消息是一个元组。Stream,用于传输流和元组的集合。Bolt:接受数据,然后执行处理的组件,用户可以在其中执行所需的操作。你可以在里面写业务逻辑。风暴不会。;t保存结果,但是您需要编写自己的代码来保存它们。总的来说,这是一个拓扑。一般来说,把拓扑提交给服务器后,他会一直读取数据源,然后通过stream让数据流动,通过他写的Bolt代码处理数据,然后保存到任何地方。有关于如何安装和部署storm以及如何设置数据源的教程。我赢了。;这里就不多说了。
数据呈现:做了这么多,终于可以直观的呈现了。因为前端技术不行,所以我们借用了第三方呈现平台DataV,支持两种数据读取模式。第一,我们可以直接读取数据库,通过sql找出你的计算数据,你需要配置数据源。读取数据后,我们可以根据给定的格式对其进行格式化来显示。
@jiaoready@jiaoready第二种是使用接口。可以直接使用api,在数据区配置成api,填写接口地址和需要的参数,这样我就赢了这里就不多说了。
这次记录这么多,以后再补充。内容原创。如有不妥,请评论指正。