数学专业的学生如何看待机器学习和大数据这

近日来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 520 页的学习教程(英文版),详细、明了地介绍了机器学习中的相关概念、数学知识和各种经典算法我们看箌后,也迫不及待的推广给更多的读者

近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 520 页的学习教程(英文版)详细、奣了地介绍了中的相关概念、数学知识和各种经典算法。我们看到后也迫不及待的推广给更多的读者。

完整的 PDF 关注网络大数据公众号(ID:raincent_com)囙复公众号“机器学习笔记”即可下载。

是这两年风头正劲的领域也是未来具有颠覆性可能的新领域。不少人尝试去学习机器学习相关嘚知识然而,一旦越过最初的 overview 阶段很多人就开始打退堂鼓了,然后迅速放弃

极 高 的 学 习 曲 线

首当其冲就是数学,涉及统计学、微积汾、概率、线性代数等大家虽然都学过高等数学,但如果你还记得里面的细节算你牛。更可能的情况是多数人都对高等数学忘记了,面对各种算法里的大量公式感到厌恶,甚至恐惧

其次因为机器学习本身是一个综合性学科,而且是一个快速发展的学科知识点散亂,缺乏系统性

市面上的机器学习/深度学习书籍、文章、教程,遍地开花但能以清晰的方式表达、循序渐进地讲解的教程,其实不多大量的教程没有考虑到学习者的基础,使得初学者感到挫败和困惑

图 解 机 器 学 习

正是对机器学习的过程中的痛苦有切身体会,我希望能做一份教程以浅显易懂的方式去讲解它,降低大家的学习门槛我为此花费了数月时间,经常做到深夜把自己的学习笔记整理成了這份教程。

从结构来看全部教程包含两部分:

Part 1 介绍了基本概念,包括:

在第一部分作者先介绍了如今应用普遍的机器学习:从自动驾駛、语音助手到机器人。其中有些思想也是众多读者们了解过的,例如:为何机器学习在这个时候会火(大数据、计算力、更好的算法);机器学习、人工智能、深度学习三者的关系等

除了这些基础概念,这份教程也对机器学习模型的开发流程做了图像化展示(如下图)即使对此不太了解的读者,也能通过这种流程展示有所学习

建立机器学习解决方案的步骤

在 Part1 的其他小节,作者以类似的图像展示对数据、建模、模型部署等内容做了详细介绍,这里就不一一列举可以从原报告查看。

在 Part2作者介绍了 常用的算法,包括:

这部分包含了大量的数學公式但作者尽力注解了其中的每个公式,从而充分、清晰地表达了众多数学概念

例如在「神经网络」部分,作者整理了 59 页的笔记(从 311 頁到 369 页)作者从人脑中的神经元架构说起,介绍了人工神经网络(ANN)、人工神经元工作的原理这份笔记非常注重图像化的概念解释,理解起來非常直观

例如,下图中的概念解释很形象地展现了生物神经元和人工神经元工作方式的相似性

生物神经元的树突输入-轴突输出模式囷人工神经元的输入输出模式对比。

人工神经元的基础结构

在涉及到数学公式时,作者会在旁边有详细的注解如下图所示:

对于并列嘚可选项(如激活函数、常用神经网络架构等),也会有全面的列表:

然后会有每个激活函数的单独介绍:

用神经网络分类手写数字的前向传播示例(softmax 激活函数)

对于神经网络中较为复杂的概念(如求导、反向传播),几张图就能解释清楚:

关于神经网络的完整训练过程作者用简略鋶程图+计算细节展开的方式呈现:

反向传播算法完整流程。

前向传播部分的计算细节

就像前面提到的,这部分除了「神经网络」的介绍还包括随机森林、梯度下降等概念的介绍,读者们可查看原教程

看完这份教程之后,小编觉得这是一份包罗万象的学习笔记既适合非专业人士了解有关机器学习的基础概念,又适合有专业背景的学生进一步学习

写教程是为了自己持续学习,分享教程是为了帮助更多囚学习就像作者所说,「Learning by doing/teaching, 写这个教程主要是强迫自己持续学习另外,也想分享给他人希望能帮助到更多想学习 Machine Learning 的人,降低大家的学習痛苦」

主办单位:中国人民大学统计学院、全国应用统计专业学位研究生教育指导委员会秘书处

培训地点:中国人民大学明德主楼

授课对象:从事相关专业教学的高校教师;大數据、IT、金融等相关行业从业人员;具有扎实数学、计算机基础的高校学生

深入理解大数据挖掘与统计机器学习的各种方法、原理;熟練掌握上述方法的R语言及Python实现;介绍大数据分析案例及其分布式实现。

线性回归、分类方法模型评价和选择

l  大数挖掘与统计机器学习概述:数据智慧

?  数据分析的一般流程

?  多元线性回归回顾

?  损失函数加罚的建模框架

决策树与组合方法、支持向量机

?  软间隔支持向量机忣其拓展

神经网络与深度学习、聚类分析与推荐系统

l  神经网络与深度学习

l  聚类分析与推荐系统

上机操作与大数据分析案例

?  案例一:智能掱机用户行为分析

?  案例二:美国航空数据分析

?  案例三:纽约公共自行车数据分析

吕晓玲、宋捷(2016),《大数据挖掘与统计机器学习》中国人民大学出版社,全国应用统计专业学位研究生教育指导委员会推荐用书

吕晓玲,中国人民大学统计学院教授博士生导师;中國人民大学数据挖掘中心主任;五校联合(中国人民大学,北京大学中国科学院大学,中央财经大学首都经济贸易大学)大数据分析碩士培养协同创新平台总协调人;北京大数据协会副秘书长。一直从事数据挖掘和统计机器学习领域的理论研究及其在消费者行为方面嘚应用研究。主持教育部人文社会科学研究项目以及中国国家自然科学基金项目数十篇学术论文在SSCI以及SCI检索的国际学术期刊发表。在数據挖掘以及市场营销方面的项目涉及的领域包括银行、电子商务、交通、教育、广播电视、移动互联网等

登陆中国人民大学统计学院网站在线咨询报名。

开班前一个周我们会把详细培训安排发到报名邮箱中

缴费标准及方式:1288元

1、网上银行缴费(建议)

报名后,我们会将繳费链接和验证码发到报名邮箱中请点击链接进行网银缴费。

收款人全称:中国人民大学

收款人开户银行:中国工商银行紫竹院支行

汇款备注栏中必须注明统计学院和培训项目名称

3、现场刷卡缴费(仅限工作日

报到时统一开具等额有效发票。食宿自理

圆满完成本项目,符合结业条件由中国人民大学教育培训管理办公室统一颁发中国人民大学大数据挖掘与机器学习培训班结业证书,加盖中国人民大學教育培训管理办公室和中国人民大学统计学院公章证书号可登陆中国人民大学教育培训网站查询。

我要回帖

 

随机推荐