机器学习需要哪些数学基础?
对于从事机器学习的学生来说,高等数学、线性代数、概率论和数理统计是三门课程中最重要的数学基础。我来分别解释一下这三个方面在机器学习中的作用。
1.微积分、牛顿迭代、拉格朗日乘子法、高等数学中的泰勒展开等知识点都在机器学习中有应用。比如在logistic回归模型中求梯度时需要偏导数,优化目标使用牛顿迭代法,约束优化问题的SVM使用拉格朗日乘子法等等。,以及高等数学的其他知识点都或多或少的体现在机器学习中。
分解,张量分解,线性代数推荐系统中使用的非负矩阵分解NMF,PCA主成分分析中的特征值和矩阵运算。我来贴一下之前用矩阵求导解决最小二乘问题的公式推导过程,体会一下线性代数的重要性。
最小二乘的求解可以用梯度下降迭代或牛顿迭代求解,但也可以基于矩阵求导计算。其计算方法更加简洁高效,不需要大量迭代,只需要解一个正规方程组。
总之,对于机器学习来说,线性代数比高数更重要。
3.概率论与数理统计概率论与数理统计就更重要了,比如朴素贝叶斯分类和概率图模型中用到的贝叶斯公式,高斯过程,最大熵模型,抽样方法,NLP领域的大部分算法都与概率论有关,比如基于LDA的主题模型,基于CRF的序列标注模型,分词系统等等。
所以,要从事机器学习,高等数学、线性代数、概率论、数理统计都是必不可少的数学基础。
大数据主要涉及的内容有哪些?可以从事哪些岗位?
我记得我大学毕业后的第一份工作。我们公司的业务是进行BI产品的研究和开发。什么时候互联网没有今天这么火,没有大数据和移动互联网的概念?记得有一次和同事去华师大后门买书。同事买了一个javascript,我买了一个ajax。当时我们产品的客户端是用D:文本、视频和数据库。了解大数据的概念,让让我们看看大数据包含什么。
大数据的内涵
从技术角度来说,大数据包括两个分支:数据分析和数据挖掘。数据分析是对历史数据的分析,为管理层提供辅助决策信息。数据挖掘是一个研究趋势和未来的问题,主要用于预测。从业务的时效性要求来说,可以分为实时在线分析系统和离线分析系统。比如:网站的实时用户区域分布就是一款实时分析应用;2019年全国各省GDP排名分析是一款离线分析应用。
从大数据项目的流程来看,大数据包括:数据采集、数据收集、数据转换与存储、数据建模与分析、上层应用展示等等。大数据的难点在于海量数据的分析,而海量数据的分析又涉及到海量数据存储和分析架构。
根据hadoop的技术体系,flume用于收集和转换存储在各种服务器中的日志和数据,并存储在hdfs文件系统或hive或hbase等数据仓库中,然后使用Hadoop架构的规范编写mapreduce作业,再将分析结果展示给用户。当然,数据分析有各种算法。
与大数据相关的工作
以下是与大数据相关的核心职位:
业务专家或顾问:为大数据提供研发方向和确定研究课题,为技术人员提供业务支持。
数据分析师:从事数据收集、整理和分析,并根据数据做出评价和预测的专业人员。成员。
数据挖掘工程师:从海量数据中发现规则,需要良好的算法和数学基础。
可视化工程师:为显示分析结果提供美观易懂的界面。
维护工程师:负责服务器环境的配置、搭建和运维。
每个公司用的大数据技术线不一样,岗位也会有差距。有兴趣的朋友可以自己了解一下现有的几个大数据解决方案。
随着5G网络的建设,接入网络的物联网设备会越来越多,互联网积累的数据会呈级数增长。未来几年,大数据行业仍然是朝阳产业,需要越来越多的大数据人才。希望本文对愿意投身大数据行业的朋友有所启发和帮助,也希望大家对大数据的概念有更清晰的认识。谢谢你