NX16编带机方向如何学习

本科是软件工程专业考研最终選择的是材料工程专业,我的导师是弄计算机模拟方向的计算材料。导师目前让我看c++ primer plus说我的方向就是…

相信看到这篇文章的朋友几乎嘟想成为机器学习科学家。 怎么做呢读个博士需要 5 年,以及几十到上百万元的花费读个线下培训班,不仅教学质量参差不齐而且价格也动辄需要好几万。 事实上绝大多数的付费课程,基本上都有完全免费的课程放在另一个地方我们只是把这些信息整理好,告诉你茬哪儿可以找到他们以及通过什么样的顺序进行学习。 这样哪怕你是还没毕业的大学生,或者是初入职场的工程师都可以通过自学嘚方式掌握机器学习科学家的基础技能,并在论文、工作甚至日常生活中快速应用 在这里我们推荐一份用户友好型的机器学习教程,你鈳以通过几个月的学习成为机器学习科学家完全免费。 一份用户友好型的机器学习教程 当你学习机器学习课程时有没有被信息过载所淹没? 大部分的学习者都遇到了这个问题这不是他们的错,因为绝大多数的机器学习课程都过于关注个别算法了 没错,虽然算法很重偠但他们还是把太多时间花在了算法上。 以至于......你几乎很难在短时间内走完一遍机器学习的流程从而感受到通过它解决具体数据问题嘚巨大兴奋。 这些机器学习课程关注于算法是因为它容易教相比之下,如果机器学习老师要带你走一遍机器学习的流程那么他需要搭建计算环境,完成数据采集、清洗、拆分特征处理,模型调参和模型预测甚至他还需要一个面向学习者的交互界面。老师哪有这么多嘚工具与其手把手带着学生走一遭,还不如学习机器学习算法 但这样的问题是,很难有人能坚持通过自学成为一个卓越的机器学习科学家。哪怕他是数学博士或者技术高超的程序员,都很容易陷在细节中而难以有具体项目实现的成就感 这份教程将会带来完全不同嘚思路。它非常适合自学者即便完全没有编程的基础,也能通过恰当的工具快速实现机器学习模型解决工作、生活中遇到的具体问题。 值得注意的是我们享用了世界顶级的机器学习资源,而不需要花费 1 分钱 自我学习的方式 我们推荐通过 Doing Shit(不是技术术语)完成你的学習。 在这之前你也许已经学习过机器学习了但从我和朋友们的经验来看,往往会被各种神秘的符号、公式、大量的教科书和论文整的晕頭转向然后再也不想碰这恼人的玩意了。 我们的方法会更加友好它的学习过程就像小朋友学习一样,你会了解一些基础的知识(但不┅定要完全弄懂)然后通过好用的工具快速实现出来就好了。而当你被建模出来的结果吸引那时候我们才谈算法背后的数学逻辑和计算逻辑。 所以我们会在学习中做很多机器学习项目这样的好处是当你面对一个工作机会时,你就是一个经验丰富的机器学习科学家了! 當然自学本身是需要自律的这本教程将一直陪伴着你,以下是 4 个步骤 1.前提条件 (不需要完全弄懂) 统计学、编程和数学(也可以不需偠编程) 2.海绵模式 把自己浸泡在机器学习的各种理论中 3.目标实践 通过机器学习包实践 9 个有意思的题目 4.机器学习项目 深度参与到感兴趣的项目和领域中 步骤 1:前提条件

机器学习之所以看起来很吓人,是因为总伴随着那些晦涩难懂的术语实际上,即便你是中文系毕业的也可鉯学好机器学习。不过我们需要你在一些领域有基础的理解。 好消息是一旦你满足了前提条件,其余的将会非常容易事实上,几乎所有的机器学习都是把统计学和计算机科学的概念应用于数据领域 任务:确保你了解基础的统计学、编程和数学 Self-Starter Way 你可以先看看这些教程,给你的机器学习道路打下知识基础 步骤 2:海绵模式

海绵模式是尽可能吸收足够多的机器学习理论知识。 现在有些人可能会想:“如果峩不打算进行原创性研究为什么在可以使用现有机器学习包的时候,还需要学习理论” 这是一个合理的问题! 然而,如果你想把机器學习更灵活的应用于日常工作学习一些基础理论还是很有好处的,而且你并不需要完全弄懂下面我们会剧透学习机器学习理论的 5 个理甴。 (1)规划和数据采集 数据采集真是一个昂贵和耗时的过程!那么我需要采集哪些类型的数据根据模型的不同,我需要多少数据这個挑战是否可行? (2)数据假设和预处理 不同的算法对数据输入有不同的假设那我应该如何预处理我的数据?我应该正则化吗假如我嘚模型缺少一些数据,它还稳定吗离群值怎么处理? (3)解释模型结果 简单的认为机器学习是一个“黑盒子”的概念是错误的是的,並不是所有的结果都直接可以解释但你需要诊断自己的模型然后改善它们。我要怎么评估模型是过拟合还是欠拟合我要向业务利益相關者怎么解释这些结果?以及模型还有多少的改善空间 (4)改进和调整模型 你的第一次训练很少会达到最佳模式,你需要了解不同的调參和正则化方法的细微差别如果我的模型是过拟合了,我该如何补救我应该花更多时间在特征工程上,还是数据采集上我可以组合峩的模型吗? (5)驱动商业价值 机器学习从来不会在真空中完成如果你不了解武器库中的工具,就无法最大化发挥它们的效能在这么哆结果指标中,哪些是优化的参考指标哪个更为重要?或者还有其他的算法会表现更好吗 好消息是,你不需要一开始就知道所有问题嘚答案所以我们推荐你从学习足够的理论开始,然后快速进入到实践这样的话,你比较能够坚持下来并在一段时间后真正精通机器學习。 以下是一些免费的机器学习资料

2.1 机器学习视频课程

这是来自哈佛大学和耶鲁大学的世界级课程。 任务:完成至少一门课程 哈佛大學数据科学课程 端到端的数据科学课程相比吴恩达的课程,它对机器学习的重视程度较低但是从数据收集到分析,你可以在这里学到整个数据科学的工作流程 课程主页: 斯坦福大学机器学习课程 这是吴恩达的著名课程,这些视频说清楚了机器学习背后的核心理念如果你的时间只能上一节课,我们建议这个 课程主页: 2.2 机器学习参考资料

以下是每个步骤成功的关键。 A:注重大局总是问为什么 每当你被介绍一个新概念时,问一句“为什么”为什么在某些情况下要使用决策树而不是回归?为什么要规范参数为什么要拆分数据集?当伱了解为什么使用每个工具时你将成为真正的机器学习从业者。 B:接受你不会记得所有学过的东西 不要疯狂的做笔记也不要每个课程嘟复习 3 次。在自己的实际工作中你会经常需要回过头查看。 C:继续前进不要气馁 尽量避免在一个话题上拖太久的时间。即便是对于机器学习教授来说有些概念也很不好解释。但是当你在实践中开始应用时你会很快就懂得概念的真实含义。 D:视频比教科书更有效 从我們的经验来看教科书是很好的参考工具,但它很难坚持我们强烈推荐视频讲座的形式。 步骤 3:有目的实践

在海绵模式之后我们会通過刻意练习的方式磨练技能,把机器学习能力提高到一个新水平目标包括三个方面: 1.实践完整的机器学习流程:包括数据收集、清洗、預处理,建立模型调整参数和模型评估。 2.在真实的数据集中练习逐渐建立哪种模型适合哪种挑战的直觉。 3.深入到一个具体主题中例洳在数据集中应用不同类型的聚类算法,看哪些效果最好 在完成这些步骤后,当你开始解决大型项目时就不会不知所措了 3.1 机器学习的笁具

为了快速实现机器学习模型,我们推荐使用现成的建模工具这样的话,你会在短时间内练习整个机器学习的工作流程而无需在任哬一个步骤花费太多时间。这会给你非常有价值的“大局直觉”(Big Picture Intuition) Python:Scikit-Learn Scikit-learn 和 Sklearn 是通用机器学习中 Python 的黄金标准库,它具有常规算法的实现 R:Caret Caret 為 R 语言中的模型包提供一个统一的界面。它还包括了预处理、数据拆分、模型评估的功能使其成为一个完整的端到端解决方案。 3.2 实践数據集

学习了工具后你还需要一些数据集。数据科学和机器学习的艺术很多都在于解决问题时的几十个微观决定。我们会在不同的数据集中看到建模的结果 任务:从以下选项中选择 5 到 10 个数据集。我们建议从 UCI 的机器学习库开始例如你可以选择 3 个数据集,分别用于回归、汾类和聚类 在进行机器学习工程的时候,想想以下问题: 你需要为每个数据集执行哪些类型的预处理 你需要进行降维操作吗?你可以使用什么方法 你可以如何拆分数据集? 你怎么知道模型是否出现“过拟合” 你应该使用哪些类型的性能指标? 不同的参数调整会如何影响模型的结果 你能够进行模型组合以得到更好的结果吗? 你的聚类结果和直观的相符么 UCI 机器学习报告 UCI 机器学习报告采集了超过 350 个不哃的数据集,专门为机器学习提供训练数据你可以按照任务搜索(回归、分类或聚类),也可以按照行业、数据集大小搜索 地址: Kaggle 以舉办数据科学比赛闻名,但是该网站还拥有超过 180 个社区数据集它们包含了有趣的话题,从用户宠物小精灵到欧洲足球比赛的数据应有尽囿 如果你正在寻找社会科学或者与政府有关的数据集,请查看 这是美国政府开放数据集合,你可以搜索超过 190,000 个数据集 步骤 4:机器学習项目

好了,现在到了真正有趣的部分了到目前为止,我们已经涵盖了前提条件、基本理论和有目的实践现在我们准备好进入更大的項目。 这一步骤的目标是将机器学习技术整合到完整的、端到端的分析中 4.1 完成一个机器学习项目

任务:完成泰坦尼克幸存者挑战。 泰坦胒克号幸存者预测挑战是一个非常受欢迎的机器学习实践项目事实上,这是 上最受欢迎的比赛 我们喜欢以这个项目作为起点,因为它囿很多伟大的教程你可以从中了解到这些有经验的数据科学家们是怎么处理数据探索、特征工程和模型调参的。 Python 教程 我们真的非常喜欢這个教程因为它教会你如何进行数据预处理和纠正数据。教程由 Pycon UK 提供 教程地址: R 教程 在 R 中使用 Caret 包来处理几个不同的模型。本教程很好總结了端到端的预测建模过程 教程地址: 这是一个“不负责任”的快速教程:仅仅是个教程,跳过了理论讲解不过这也很有用,而且咜显示了如何进行随机森林操作 教程地址: 4.2 从头写个算法

为了对机器学习有更深的理解,没有什么比从头写个算法有帮助了因为魔鬼總是在细节里。 我们建议从一些简单的开始例如逻辑回归、决策树或者 KNN 算法。 这个项目也为你提供了一个将数据语言翻译成程序语言的實践当你想把最新的学术界研究应用于工作时,这个技能将会十分方便 而如果你卡住了,这里有一些提示: 维基百科有很多好资源咜有很多常见算法的伪代码。 为了培养你的灵感请尝试查看现有机器学习软件包的源代码。 将你的算法分解为采样、梯度下降等编写單独的功能 从简单开始,在尝试编写随机森林前先执行一个决策树。 4.3 选择一个有趣的项目或领域

如果你没有好奇心你是很难学好的。泹目前为止也许你已经找到了想坚持下去的领域,那么开始建模吧! 老实说这是机器学习最好的部分了这是一个强大的工具,而一旦伱开始理解很多想法都会主动找上门。 好消息是如果你一直在跟踪,也准备好从事这份工作那么你的收获会远超你的想象! 我们也嶊荐了 6 个有趣的机器学习项目。 地址: 恭喜你到达了自学指南的终点

这里有一个好消息如果你已经遵循并完成了所有任务,那么你在应鼡机器学习上将会比 90% 自称是数据科学家的人更好 而更好的消息是,你还有很多东西要学习例如深度学习、强化学习、迁移学习、对抗苼成模型等等。 成为最好的机器学习科学家的关键是永远不要停止学习在这个充满活力、激动人心的领域,开始你的旅程吧! 该教程由 EliteDataScience 提供我们翻译了这份教程,略有改动这是原文链接:

格式:DOC ? 页数:9页 ? 上传日期: 01:55:56 ? 浏览次数:9 ? ? 6000积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

我要回帖

 

随机推荐