大数据的框架主要学习和使用什么呢?
什么是大数据?大数据,IT行业术语,指的是可以传统的软件工具在一定的时间范围内是无法捕捉、管理和处理的。它是一种海量、高增长、多元化的信息资产,需要一种新的处理模式来拥有更强的决策力、洞察和发现能力以及流程优化能力。
VictorMayer-schoenberg和KennethCook《大数据时代》大数据是指所有数据都用于分析和处理,而没有随机分析(抽样调查)的捷径。大数据的5V特征(IBM提出):体量(海量)、速度(高速)、多样性(多样性)、价值(低价值密度)、真实性。
大数据开发的学习路线:
第一阶段:Hadoop生态架构技术
1.语言基础
Java:在Java虚拟机中理解和练习内存管理、多线程、线程池、设计模式、并行化就够了,不需要很深的掌握。
Linux:系统安装,基本命令,网络配置,Vim编辑器,进程管理,Shell脚本,虚拟机的菜单熟悉度等等。
Python:基本语法、数据结构、函数、条件判断、循环等基础知识。
2.环境准备
本文介绍了如何建立一个完全分布式的windows计算机,有1个主机和2个从机。
VMware虚拟机,Linux系统(Centos6.5),Hadoop安装包,Hadoop全分布式集群环境都在这里准备好了。
3、MapReduce
MapReduce分布式离线计算框架是Hadoop的核心编程模型。
4、HDFS1.0/2.0
HDFS可以提供高吞吐量的数据访问,适合大规模数据集上的应用。
5、纱线(Hadoop2.0)
Yarn是一个资源调度平台,主要负责给任务分配资源。
6、蜂巢
Hive是一个数据仓库,所有数据都存储在HDFS上。Hive主要用来写Hql。
7、火花
Spark是专门为大规模数据处理设计的快速通用计算引擎。
8、火花放电
SparkStreaming是一个实时处理框架,数据是批量处理的。
9、火花屋
Spark作为Hive的计算引擎,将Hive的查询作为Spark的任务提交给Spark集群进行计算,可以提高Hive查询的性能。
10、风暴
Storm是一个实时计算框架。Storm实时处理每一条添加的数据,一条一条,可以保证数据处理的及时性。
动物园管理员
佐基Per是许多大数据框架的基础,也是集群的管理者。
12、Hbase
Hbase是一个Nosql数据库,它是高度可靠的、面向列的、可伸缩的和分布式的。
13、卡夫卡
Kafka是一个消息中间件,作为中间缓冲层。
14、水槽
Flume常见的是从应用程序生成的日志文件中收集数据,一般有两个过程。
一种是Flume采集的数据存储在Kafka中,便于Storm或SparkStreaming实时处理。
另一个过程是将Flume收集的数据存储在HDFS上进行离线处理,以便以后使用hadoop或spark。
第二阶段:数据挖掘算法
1.中文分词
开源叙词表的离线和在线应用
2.自然语言处理
文本相关算法
3.推荐算法
基于CB,CF,归一化方法,Mahout应用。
4.分类算法
NB、SVM
5.回归算法
LR、决策树
6.聚类算法
分层聚类,k均值
7.神经网络和深度学习
神经网络、张量流
以上是学习Hadoop开发的详细路线。如果需要了解具体框架的开发技术,可以咨询Gamigu的大数据老师了解更多。
学习大数据开发需要掌握哪些技术?
(1)Java语言基础
Java开发入门,熟悉Eclipse开发工具,Java语言基础,Java进程控制,Java字符串,Java数组和类和对象,数字处理类和核心技术,I/O和反射,多线程,Swing程序和集合类。
(2)HTML、CSS和Java
PC端网站布局,html5cs3基础,WebApp页面布局,原生Java交互功能开发,Ajax异步交互,jQuery应用。
(3)JavaWeb和数据库
数据库,JavaWeb开发核心,JavaWeb开发内幕
LinuxampHadoop生态系统
Linux系统,Hadoop离线计算大纲,分布式数据库Hbase,数据仓库Hive,数据迁移工具Sqoop,Flume分布式日志框架。
分布式计算框架和SparkampStrom生态系统
(1)分布式计算框架
Python编程语言、Scala编程语言、Spark大数据处理、Spark—流式大数据处理、Spark—Mlib机器学习、Spark—GraphX图计算、实战1:基于Spark的推荐系统(某一线公司的真实项目)、实战2:新浪。com()。
(2)2)暴风科技架构体系的原理和基础,消息队列kaf。Ka、R
简述hadoop2.0的四个核心组件及其功能?
Hadoop基本概念
Hadoop生态系统是一个庞大的、功能齐全的生态系统,但它仍然被一个叫做Hadoop的分布式系统基础设施所包围。它的核心组件由四部分组成,即:通用、HDFS、MapReduce和YARN。
Common是Hadoop架构的常用组件;
HDFS是Hadoop的分布式文件存储系统。
MapReduce是Hadoop提供的编程模型,可用于大规模数据集的并行操作。
YARN是Hadoop架构升级后广泛使用的资源管理器。