Newa项目不选择任何Maven模板,以GroupId开头,以项目名开头。注意:Idea_Project是存储这个项目的工作区,
大数据技术庞大而复杂,基础技术包括数据采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等技术类别和不同技术层次。
Java,大数据需要的语言
可以说是大数据最基础的编程语言。一是因为大数据的本质无非是海量数据的计算、查询和存储,后台开发容易接入大数据访问的应用场景;第二,大数据的很多组件都是用java开发的。
斯卡拉
Scala和java非常相似,在开发过程中可以无缝的互相调用。Scala在大数据领域的影响力来自于社区中的明星Spark和kafka,他们的强劲发展直接带动了Scalait'在这个领域很受欢迎。
大数据需要分布式计算。目前比较流行的工具有:离线工具Spark、MapReduce等实时工具SparkStreaming、Storm、Flink等。
大数据需要分布式存储。主流的分布式数据库有hbase、mongoDB、GreenPlum、redis等很多。
大数据需要分布式调度和管理yarn分布式集群管理需要一个组件将调度资源分配给各个节点zookeeper,解决分布式环境下的锁定问题。阿兹卡班记录任务的依赖性,定时调度任务。
嘉米谷大数据开发培训9月0基础班,预报名。...
相关:
大数据软件有哪些?大数据软件技术简介