数据科学和大数据与统计学的区别有什么区别

本文由 伯乐在线 - 蓝枫紫叶 翻译,toolate 校稿。未经许可,禁止转载!
英文出处:shakthydoss。欢迎加入翻译组。
【伯乐在线导读】:前段时间,作者在 stats.stack...
机器学习是一门涉及自学习算法发展的科学。这类算法本质上是通用的,可以应用到众多相关问题的领域。
数据挖掘是一类实用的应用算法(大多是机器学习算法),利用各个领域产出的数据...
一文读懂机器学习、数据科学、深度学习和统计学之间的区别
来源:数盟
[字体:大 中 小]
  明晰了数据科学家所具有的...
【伯乐在线导读】:前段时间,作者在 stats.stackexchange.com(译注:国外的一个系列问答网站,其中Stack
Overflow是其中一个子站)看到一个很有意思的问题,引起了他的...
本文翻译自http://shakthydoss.com/what-is-the-difference-between-artificial-intelligence-machine-learning-...
自认为从事机器学习已经有些时日了,常常听到统计学、人工智能、机器学习、数据挖掘、机器视觉吧啦吧啦....自己也曾迷茫,自己究竟算哪个方向的呢?因此起意整理一套系列文章将这些概念描述清楚,旨在理清这些错...
在学习机器学习,推荐系统等上的众多算法思想时,以及在数学公式推到上面,避免不了许多统计学方面的知识,其中以贝叶斯,最大似然估计,最大后验估计为最常遇见,必须深刻掌握了解。首先讲讲贝叶斯估计(对比传统频...
负偏斜分布
人类存活年龄分布
没有众数,天气预报
有多个众数,该例子为前半部分为女士鞋号,后半部分为男士鞋号
众数指的是x轴,y轴代表具体的频率众数不受总体数据影响,而平均值又会因...
机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的扩展包大概包括以下几个方面:
神经网络(Neural Networks) :
单隐含层神经网络在nnet 包(与R基础包一同发布)中实现。...
卡内基梅隆大学Larry Wasserman教授 统计学理论及机器学习与数据挖掘三部曲教材 数据可以在作者主页下载 http://www.stat.cmu.edu/~larry/
统计学完全教程...
他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)查看: 2363|回复: 10
数据科学or统计?求比较
精华主题学分
活跃农民-感谢提供高质量信息和讨论, 积分 364, 距离下一级还需 636 积分
在线时间 小时
[MS.AD无奖][DataScience/Analytics@WPI]
[MS.AD无奖][Stat/Biostat@UDEL]
个人其他信息:
你对学校的要求: 找工作
你对求比较学校了解的情况(请贴出具体信息): 基本上都是在地里了解的
注册一亩三分地论坛,查看更多干货!
才可以下载或查看,没有帐号?
LZ本科应数,想去美国转一个好作一点的专业,又对数据比较感兴趣,所以升的大部分都是统计或是DS。目前来的里,最纠结的就是这两个。
udel的统计好像比较好找工作;在免税区,公司多,在本地算是知名度很高。WPI这个DS项目这两年才开始,不过听说那里学术氛围很好。而且WPI的DS偏CS,可以选很多CS的课。有一个学长在那里,据他说工作也是比较好找的。
精华主题学分
在线时间 小时
if your coding is strong, MS in DS can also look for job as SDE
精华主题学分
在线时间 小时
我是wpi和udel的stat 在其他结果出来前同样观望
资历最老的留学申请文书修改服务:EssayEdge
精华主题学分
在线时间 小时
统计!毫无疑问 统计出路广一点啊啊啊啊啊啊啊&&亲身体会
精华主题学分
在线时间 小时
统计!毫无疑问 统计出路广一点啊啊啊啊啊啊啊&&亲身体会
DS不应该出路也很广么 ==
精华主题学分
在线时间 小时
-google 1point3acres
DS不应该出路也很广么 ==
你看看job description 就知道 一般data scientist/ analyst 之类的工作 的要求首要还是 MS in Statistics/ CS 的
精华主题学分
在线时间 小时
DS不应该出路也很广么 ==
而且 统计出来还可以找 Statistician 的工作. visit 1point3acres.com for more.
DS这方面统计知识教育就少太多. visit 1point3acres.com for more.
精华主题学分
在线时间 小时
你看看job description 就知道 一般data scientist/ analyst 之类的工作 的要求首要还是 MS in Statistic .... from: 1point3acres.com/bbs
that is temporary - DS is a new major.
精华主题学分
在线时间 小时
同样关注。。。
俺一直以为 data science 就是 statistics 加上点 CS/ML...这两major是有多大区别?
精华主题学分
在线时间 小时
同样关注。。。-google 1point3acres
俺一直以为 data science 就是 statistics 加上点 CS/ML...这两major是有多大区别?
我感觉更像是CS加上点stat...这样看俩者区别还是不小...
精华主题学分
在线时间 小时
个人认为简单的判断法则,项目越偏CS,越好就业= =
<form method="post" autocomplete="off" id="fastpostform" action="forum.php?mod=post&action=reply&fid=144&tid=123265&extra=&replysubmit=yes&infloat=yes&handlekey=fastpost"
onSubmit="
// TODO Howard 11/3/2015
var sbtn = $('fastpostsubmit');
sbtn.disabled =
sbtn.innerHTML = ' 回复发表中... ';
sbtn.setAttribute('background', sbtn.style.background);
sbtn.setAttribute('bordercolor', sbtn.style.borderColor);
sbtn.style.background = '#C7C7C7';
sbtn.style.borderColor = '#8B8B8B';
var form =
// --product--
var isValid = fastpostvalidate(form, null, 0);
if(!isValid) reoverBtn();
return isV
// --product--
// --testing--
//setTimeout(function() {
// var isValid = fastpostvalidate(form, null, 0);
// if(!isValid) reoverBtn();
//}, 2000);
// --testing--
您需要登录后才可以回帖
回帖并转播
回帖后跳转到最后一页
一亩三分地推荐 /5
地主Warald亲手做你的申请,针对你的背景和目标,考虑申请、学习、就业、移民等系列问题,制定申请策略。
“offer”指全额奖学金,免学费全免+每月工资,Berkeley, CMU, JHU, UIUC, Gatech, UMich, UCLA, Columbia,欢迎观赏。
电子工程、计算机、统计、金数金工、化工等, Stanford, Berkeley, CMU, Cornell, Yale, Columbia, Chicago, Duke, UPenn, UIUC, Brown, UMich, JHU等
有留学、申请、找工、职业规划上的难题?先上论坛提问!
论坛考古也帮不上忙,发帖得到的回答仍然不够?电话找Warald来解答!
WARALD新书上市啦:《你不知道的美国留学》清华大学出版社,各大电商发售
Powered by922人已关注如题,非常想知道最近很火的数据科学与统计有什么区别?两门学科的目的不都是从数据中挖掘有效信息吗?数据科学和大数据的区别又是什么呢?能否从就业和知识学习两方面谈一谈呢?
马里兰大学
首先来说说数据科学吧,作为一门学科, 数据科学所依赖的两个因素是数据的广泛性和多样性,而广泛性和多样性之间又有共性。 数据科学主要包括两个方面: 用数据的方法来研究科学和用科学的方法来研究数据。 前者的包含面很广,囊括了生物信息学、 天体信息学、等领域。而后者包括统计学、CS、数据挖掘、数据库等领域。所以,要直白的说的话,就是数据科学包括了统计学,数据挖掘。而数据挖掘既相对独立,有可以作为一个统计学发展的小方向(与cs有关)而不是分支。而大数据则是个专有名词,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。想了解更多关于统计学的课程学习方面的信息点击:两者的比较如果再从就业上讲,统计无疑是一个比较热门的专业,之中好多方向都比较好就业,每个方向都有其对应的工作,比如事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作。 而数据科学作为拥有完整知识体系的新兴的学科,其就业前景无疑也是可观的。首先来说说数据科学吧,作为一门学科, 数据科学所依赖的两个因素是数据的广泛性和多样性,而广泛性和多样性之间又有共性。 数据科学主要包括两个方面: 用数据的方法来研究科学和用科学的方法来研究数据。 前者的包含面很广,囊括了生物信息学、 天体信息学、等领域。而后者包括统计学、CS、数据挖掘、数据库等领域。所以,要直白的说的话,就是数据科学包括了统计学,数据挖掘。而数据挖掘既相对独立,有可以作为一个统计学发展的小方向(与cs有关)而不是分支。而大数据则是个专有名词,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。想了解更多关于统计学的课程学习方面的信息点击:两者的比较如果再从就业上讲,统计无疑是一个比较热门的专业,之中好多方向都比较好就业,每个方向都有其对应的工作,比如事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作。 而数据科学作为拥有完整知识体系的新兴的学科,其就业前景无疑也是可观的。个人认为这三者既存在着密切的联系,也不完全相同。用数学的话来说,就是三者之间相互存在着交集,但也并不是完全包含。其中涉及的最广泛的应该就是数据科学了。研究大数据的方法可以称作数据科学、而统计的研究方法就更可以算作是数据科学了。本身,数据科学就是在大数据的背景下提出的。它不仅包括大数据的研究方法和研究背景,更包括对于数据软件的使用、对于数据库的理解、甚至包括对于算法的理解等等。大数据,是在近几年才刚刚提出并迅速走红的概念。它是未来数据分析和存储的新趋势。面对这个信息爆炸的时代,数据的高数量、高维度、高更新速度以及背后的高商业价值都对于传统的硬件存储、数据库管理和统计分析方法提出了更高的要求。原先的统计大多都是适用于小样本的情况,而面对这样的大数据往往显得无能为力。因此,相比较与其他的两个概念来看,它既是数据科学的基础,也是建立在统计基础上的一个科学。最后,三者最共同的地方应该就是统计了,无论是数据科学应用在各个实际领域、还是大数据的各种突破过去经典数据规模的领域,它们的核心思想或者说最先处理的基础都是统计。如果任何数据都可以使用经典的统计方法去解决的话,不会再采用其他的模糊近似的方法进行操作。综上,数据科学包含的内容更加全面、更加综合,它更像是一个对于实际的数据问题需要具备的一些基本甚至专业知识。而大数据,则只是一个概念,指的是对于现在这个数据泛滥时代的统称。而它的研究方法包括在数据科学之中。对于统计而言,它在应用领域与前两者也有着很类似的内容,然而其理论基础部分则与前两者不同,是前两者进行研究和发展的基础。个人认为这三者既存在着密切的联系,也不完全相同。用数学的话来说,就是三者之间相互存在着交集,但也并不是完全包含。其中涉及的最广泛的应该就是数据科学了。研究大数据的方法可以称作数据科学、而统计的研究方法就更可以算作是数据科学了。本身,数据科学就是在大数据的背景下提出的。它不仅包括大数据的研究方法和研究背景,更包括对于数据软件的使用、对于数据库的理解、甚至包括对于算法的理解等等。大数据,是在近几年才刚刚提出并迅速走红的概念。它是未来数据分析和存储的新趋势。面对这个信息爆炸的时代,数据的高数量、高维度、高更新速度以及背后的高商业价值都对于传统的硬件存储、数据库管理和统计分析方法提出了更高的要求。原先的统计大多都是适用于小样本的情况,而面对这样的大数据往往显得无能为力。因此,相比较与其他的两个概念来看,它既是数据科学的基础,也是建立在统计基础上的一个科学。最后,三者最共同的地方应该就是统计了,无论是数据科学应用在各个实际领域、还是大数据的各种突破过去经典数据规模的领域,它们的核心思想或者说最先处理的基础都是统计。如果任何数据都可以使用经典的统计方法去解决的话,不会再采用其他的模糊近似的方法进行操作。综上,数据科学包含的内容更加全面、更加综合,它更像是一个对于实际的数据问题需要具备的一些基本甚至专业知识。而大数据,则只是一个概念,指的是对于现在这个数据泛滥时代的统称。而它的研究方法包括在数据科学之中。对于统计而言,它在应用领域与前两者也有着很类似的内容,然而其理论基础部分则与前两者不同,是前两者进行研究和发展的基础。
我认为,大数据是一个概念,wiki上的定义是:“指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。”统计学和数据科学是学科。数据科学是门交叉学科,它会用到统计学的相关知识。我认为,大数据是一个概念,wiki上的定义是:“指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下,与个别分析独立的小型数据集(Data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等;这样的用途正是大型数据集盛行的原因。”统计学和数据科学是学科。数据科学是门交叉学科,它会用到统计学的相关知识。大数据,多大才是大?这些术语及概念如此含混不清,我觉得区分这些概念毫无意义。大数据,多大才是大?这些术语及概念如此含混不清,我觉得区分这些概念毫无意义。
在网上看到的有关Data Science VS Big Data 的图片,根据相关文章和图片的意思,我觉得这两者指的是:Data Science: 属于一个领域。倾向于去处理各种数据,包括数据清洗、准备、分析。涉及各个学科:统计学、数学、编程等等。简而言之,数据科学就是用来从数据里获取有用的信息和insights。 Big Data:指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。被参考用来做决策,推动商业运作。下图还提到了data scientists和big data specialist职业上区别,在我看来,数据科学家的工作更加专业化,会要求对数据科学模型的理解及运用、数据处理的能力更强;而big data specialist侧重与商业的结合。在网上看到的有关Data Science VS Big Data 的图片,根据相关文章和图片的意思,我觉得这两者指的是:Data Science: 属于一个领域。倾向于去处理各种数据,包括数据清洗、准备、分析。涉及各个学科:统计学、数学、编程等等。简而言之,数据科学就是用来从数据里获取有用的信息和insights。 Big Data:指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。被参考用来做决策,推动商业运作。下图还提到了data scientists和big data specialist职业上区别,在我看来,数据科学家的工作更加专业化,会要求对数据科学模型的理解及运用、数据处理的能力更强;而big data specialist侧重与商业的结合。
后可以回答该问题
如题,非常想知道最近很火的数据科学与统计有什么区别?两门学科的目的不都是从数据中挖掘有效信息吗?数据科学和大数据的区别又是什么呢?能否从就业和知识学习两方面谈一谈呢?
相关标签:
相关标签:
关注我们咨询服务合作法律法规京ICP备号
下载申请方APP
即刻拥有你的学业规划助手机器学习、数据科学、人工智能、深度学习和统计学之间的区别是什么?-niujp的回答-悟空问答
悟空问答App全新上线 看热点讨论 问明星专家
它们之间有什么区别呢,求科普。
机器学习、数据科学、人工智能、深度学习和统计学之间的区别是什么?
人工智能=知识库系统+逻辑推理机制+自然接口。知识库系统就是让计算机拥有人类的知识和获取知识的机制,机器学习就是其中的一个领域。推理机制说白了就是让计算机具有思维能力,可以像人一样进行思考、推理等,进一步的还有心理活动机制,关键的是思维的进化能力,或者是创造创新能力,从软件设计的角度看,计算机必须能自己设计新的算法和软件代码,如果这点能做到的话,将来计算机奴役和统治人类就不是天方夜谭了。自然接口就是计算机与自然界的信息交换就像人类一样,通过视觉,声音,触觉等途径来完成,目前的研究进展离要求仍然很远,哈哈。拙见!请指正!
数据科学是个广义的学科, Analytics data scientist(Type A)和Builder data scientist(Type B)有所不同,Type A Data Scientists在工作中遇到数据相关时可以写出不错的代码,但是并不必须是专家,这类data scientist可能专业是实验设计、预测、建模、统计推断或者其他统计学研究的典型部分。但是一般而言,数据科学家的工作产出可不是学术统计学有时候建议的那样“p-values and confidence intervals”(正如有时候传统的药物领域统计学家会用到那样)。在Google,Type A Data Scientists通常指统计学家、定量分析师、决策支持技术分析师或者数据科学家,可能还有其他的一些。Type B Data Scientists是building data的。B类和A类有些相同的统计学背景,但他们还是更好的coders,可能有专业的软件工程的训练。他们主要对在产品中使用数据感兴趣,他们建立与用户交互的模型,通常是提供推荐的(产品、可能认识的人、广告电影、搜索结果之类)。1.机器学习 vs 深度学习在深度探讨machine learning和data science的联系之前,这里简要地讨论一下machine learning 和deep learning。machine learning是一套算法,来训练数据集做预测或者采取行动以使得系统最优化。举例来说,supervised classification algorithms被用来根据历史数据将想要贷款的客户分成预期好的和预期差的(good or bad prospects)。对于给定的任务(比如监督聚类),需要的技术多种多样:naive Bayes、SVM、neural nets、ensembles、association rules、decision trees、logistic regression,或者是很多技术的组合。所有这些都是数据科学的子集。当这些算法自动化后,比如无人驾驶飞机或者无人驾驶汽车,这就叫AI了,或者说的具体一点,deep learning。如果采集的数据来自传感器并且通过互联网传播,那么这就是机器学习或数据科学或深度学习应用于物联网了。有些人对深度学习有不同的定义,他们认为深度学习是更深层次的神经网络(一种机器学习的技术)。AI(Artificial Intelligence)是创建于20世纪60年代的计算机科学的一个子领域,是关于解决那些对人类来讲非常容易但是对计算机而言很难的任务。值得一提的是,所谓的strong AI可能可以做所有人类可以做的事情(可能除了纯粹的物理问题)。这是相当广泛的,包括各种各样的事情,比如做计划,在世界上到处溜达,识别物体和声音,说话,翻译,社交或者商业交易,还有创造性工作(比如写诗画画)等等。NLP(Natural language processing)只是AI要处理的语言部分,尤其是写。Machine learning是这样的一种情况:给出一些可以被以离散形式描述的AI问题(比如从一系列动作中选出对的那个),然后给定一堆外部世界的信息,在不需要程序员手动写程序的情况下选出那个“正确的”行为。通常情况需要借助外界的一些过程来判断这个动作对不对。在数学上,这就是函数:你给一些输入,然后你想要他处理一下得到正确的输出,所以整个问题就简化为用一些自动的方式建立这种数学函数模型。和AI区分一下:如果我写了一段特别机智的程序有着人类的行为,那这就可以是AI,但是除非它的参量都是自动从数据中学会的,否则就不是机器学习。Deep learning是当下非常流行的机器学习的一种。它包含一种特殊的数学模型,可以想成是一种特定类型的简单块的组合(或者说是块的功能的组合),这些块可以进行调整来更好的预测最终结果。2. Data Science VS Machine Learning机器学习和统计学都是数据科学的一部分。Learning这个词在machine learning里意味着依赖于某些数据的算法,被用作一种训练模式集来调整一些模型或者算法参数。这包含很多技术,比如回归、朴素贝叶斯或者监督聚类。但不是所有的技术都适合这个分类。比如,非监督聚类——一种统计学和数据科学的方法——旨在不依靠任何先验知识和训练集监测聚类或聚类结构来帮助分类算法。需要有人来标注被发现的聚类。有些技术是混合的,比如半监督分类。有些模式侦查或者密度评估技术适合这个分类。然而数据科学比机器学习范围大得多。数据科学里“data”,可能是也可能不是来自机器或者机械过程的(调查结果可能是人工采集的,临床试验需要一种特殊类型的small data等),而且可能和上面提到的”learning”一点关系也没有。但是主要的不同还是因为数据科学实际上涵盖了整个数据处理的范围,而不只是算法或者统计学方面。
明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学等领域的区别。这些概念的区别也一直是人工智能领域热烈讨论的一个话题,Quora、多个技术博客都曾有过解答。也有不少文章对此问题进行了探讨,但似乎业内还未能给出一个权威的、令所有人信服的回答。数据科学家与分析师 Vincent Granville 明晰了数据科学家所具有的不同角色,以及数据科学与机器学习、深度学习、人工智能、统计学、物联网、运筹学和应用数学等相关领域的比较和重叠。Granville 介绍说,由于数据科学是一个范围很广的学科,所以他首先介绍了在业务环境中可能会遇到的数据科学家的类型:你甚至可能会发现你自己原来也是某种数据科学家。和其它任何科学学科一样,数据科学也可能会从其它相关学科借用技术;当然,我们也已经开发出了自己的技术库,尤其是让我们可以以自动化的方式(甚至完全无需人类干预)处理非常大规模的非结构化数据集的技术和算法,进而实时执行交易或进行预测。1. 数据科学家具有哪些不同类型?要更详细地了解数据科学家的类型,可参阅文章:http://suo.im/28rlX1 和 http://suo.im/3NNUpd。更多有用的信息可参阅:数据科学家与数据架构师:http://suo.im/4bRkRG数据科学家与数据工程师:http://suo.im/3mpo6E数据科学家与统计学家:http://suo.im/2GGtfG数据科学家与业务分析师:http://suo.im/3h0hkX而在最近,数据科学家 Ajit Jaokar 则又讨论了 A 型数据科学家(分析师)和 B 型数据科学家(建造者)之间的区别:A 型数据科学家能够很好地编写操作数据的代码,但并不一定是一个专家。A 型数据科学家可能是一个实验设计、预测、建模、统计推理或统计学方面的事情的专家。然而总体而言,一个数据科学家的工作产品并不是「P 值和置信区间」——就像学术界的统计学有时候建议的那样(而且这常常是为传统的制药等等行业工作的)。在谷歌,A 型数据科学家被称为统计学家、定量分析师、决策支持工程开发分析师,也有一些被称为数据科学家。B 型数据科学家:这里的 B 是指 Building。B 型数据科学家和 A 型数据科学家具有相同的背景,但他们还是很强的程序员、甚至经验丰富的软件工程师。B 型数据科学家主要关注在生产环境中使用数据。他们构建能与用户进行交互的模型,通常是提供推荐(产品、可能认识的人、广告、电影、搜索结果等)。而对于业务处理优化,我也有自己的看法,我将其分成了 ABCD 四个方向,其中 A 表示分析科学(analytics science),B 表示业务科学(business science),C 表示计算机科学(computer science),D 则表示数据科学(data science)。数据科学可能会涉及到编程或数学实践,但也可能不会涉及到。你可以参考 http://suo.im/11bR7o 这篇文章了解高端和低端的数据科学的差异。在一家创业公司,数据科学家通常要做很多类型的工作,其扮演的工作角色可能包括:执行、数据挖掘师、数据工程师或架构师、研究员、统计学家、建模师(做预测建模等等)和开发人员。虽然数据科学家常常被看作是经验丰富的 R、Python、SQL、Hadoop 程序员,而且精通统计学,但这不只不过是冰山一角而已——人们对于数据科学家的这些看法不过是来自于重在教授数据科学的部分元素的数据培训项目而已。但正如一位实验室技术人员也可以称自己为物理学家一样,真正的物理学家远不止于此,而且他们的专业领域也是非常多样化的:天文学、数学物理、核物理、力学、电气工程、信号处理(这也是数据科学的一个领域)等等许多。数据科学也是一样,包含的领域有:生物信息学、信息技术、模拟和量化控制、计算金融、流行病学、工业工程、甚至数论。对我而言,在过去的十年里,我专注于机器到机器和设备到设备的通信、开发能自动处理大型数据集的系统、执行自动化交易(比如购买网络流量或自动生成内容)。这意味着需要开发能够处理非结构化数据的算法,这也是人工智能、物联网和数据科学的交叉领域,也可被称为深度数据科学(deep data science)。其对数学的需求相对较少,也只涉及到较少的编程(大部分是调用 API),但其却是相当数据密集型的(包括构建数据系统),并且基于专门为此背景而设计的全新统计技术。在此之前,我的工作是实时的信用卡欺诈检测。在我事业的早期阶段(大约 1990 年),我开发过图像远程感知技术,其中包括识别卫星图像的模式(形状和特征,比如湖泊)和执行图像分割:那段时间我的研究工作被称为是计算统计学,但在我的母校,隔壁的计算机科学系也在做着几乎完全一样的事情,但他们把自己的工作叫做是人工智能。今天,这项工作被称作数据科学或人工智能,其子领域包括信号处理、用于物联网的计算机视觉等。另外,数据科学家也可以在各种各样的数据科学项目中出现,比如数据收集阶段或数据探索阶段一直到统计建模和已有系统维护。2. 机器学习对比深度学习在深入探讨数据学习与机器学习之间的区别前,我们先简单讨论下机器学习与深度学习的区别。机器学习一系列在数据集上进行训练的算法,来做出预测或采取形同从而对系统进行优化。例如,基于历史数据,监督分类算法就被用来分类潜在的客户或贷款意向。根据给定任务的不同(例如,监督式聚类),用到的技术也不同:朴素贝叶斯、支持向量机、神经网络、ensembles、关联规则、决策树、逻辑回归或多种方法之间的结合。这些都是数据科学的分支。当这些算法被用于自动化的时候,就像在自动飞行或无人驾驶汽车中,它被称为人工智能,更具体的细说,就是深度学习。如果数据收集自传感器,通过互联网进行传输,那就是机器学习或数据科学或深度学习应用到了 IoT 上。有些人对深度学习有不同的定义。他们认为深度学习是带有更多层的神经网络(神经网络是一种机器学习技术)。深度学习与机器学习的区别这一问题在 Quora 上也被问到过,下面对此有详细的解释:人工智能是计算机科学的一个子领域,创造于 20 世纪 60 年代,它涉及到解决对人类而言简单却对计算机很难的任务。详细来说,所谓的强人工智能系统应该是能做人类所能做的任何事。这是相当通用的,包含所有的任务,比如规划、到处移动、识别物体与声音、说话、翻译、完成社会或商业事务、创造性的工作(绘画、作诗)等。自然语言处理只是人工智能与语言有关的一部分。机器学习被认为是人工智能的一方面:给定一些可用离散术语(例如,在一些行为中,那个行为是正确的)描述的人工智能问题,并给出关于这个世界的大量信息,在没有程序员进行编程的情况下弄清楚「正确」的行为。典型的是,需要一些外部流程判断行为是否正确。在数学术语中,也就是函数:馈入输入,产生正确的输出。所以整个问题就是以自动化的方式建立该数学函数的模型。在二者进行区分时:如果我写出的程序聪明到表现出人类行为,它就是人工智能。但如果它的参数不是自动从数据进行学习,它就不是机器学习。深度学习是如今非常流行的一种机器学习。它涉及到一种特殊类型的数学模型,可认为它是特定类型的简单模块的结合(函数结合),这些模块可被调整从而更好的预测最终输出。3.机器学习与统计学之间的区别《Machine Learning Vs. Statistics》这篇文章试图解答这个问题。这篇文章的作者认为统计学是带有置信区间(confidence intervals)的机器学习,是为了预测或估计数量。但我不同意,我曾建立过不需要任何数学或统计知识的工程友好的置信区间。4. 数据科学对比机器学习机器学习和统计学都是数据科学的一部分。机器学习中的学习一词表示算法依赖于一些数据(被用作训练集),来调整模型或算法的参数。这包含了许多的技术,比如回归、朴素贝叶斯或监督聚类。但不是所有的技术都适合机器学习。例如有一种统计和数据科学技术就不适合——无监督聚类,该技术是在没有任何先验知识或训练集的情况下检测 cluster 和 cluster 结构,从而帮助分类算法。这种情况需要人来标记 cluster。一些技术是混合的,比如半监督分类。一些模式检测或密度评估技术适合机器学习。数据科学要比机器学习广泛。数据科学中的数据可能并非来自机器或机器处理(调查数据可能就是手动收集,临床试验涉及到专业类型的小数据),就像我刚才所说的,它可能与「学习」没有任何关系。但主要的区别在于数据科学覆盖整个数据处理,并非只是算法的或统计类分支。细说之,数据科学也包括:数据集成(data integration)分布式架构(distributed architecture)自动机器学习(automating machine learning)数据可视化(data visualization)dashboards 和 BI数据工程(data engineering)产品模式中的部署(deployment in production mode)自动的、数据驱动的决策(automated, data-driven decisions)当然,在许多公司内数据科学家只专注这些流程中的一个。对于这篇文章,技术顾问 Suresh Babu 给出了一个评论:这篇文章说明了解使用机器/计算机来处理类似人类决策的任务的统计学习的基本术语是件很麻烦的事。但文章中「当这些算法被用于自动化的时候,就像在自动飞行或无人驾驶汽车中,它被称为人工智能,更具体的细说,就是深度学习。」这样的说话看起来却有些随意任性。当过去计算机/机器还不够友好,没有得到广泛使用的时候,统计学家和数据科学家的工作和现在这个领域的工作有很大的不同。比如说,当制造业开始使用计算机辅助后,生产速度和量都发生了巨大的变化——但它仍然是制造业。用制造机器来做原本人类做的程序化工作的想法最早来自 19 世纪初 Jacquard 和 Bouchon 等人。而 Jacquard 织布机的工作方式和现在计算机控制的织布机的工作方式基本相同。现在的数据科学是一个知识体系,囊括了统计学和计算方法等等(而且在不同的具体领域不同学科的比例也不一样)。机器学习(或使用了其它的术语,比如深度学习、认知计算)是让机器像人类一样思考和推理,基本上而言是指通过人工的方法(所以也叫人工智能)来代替人类天生的自然智能——涉及到的任务从简单到复杂都有。比如,无人驾驶汽车(目前)正在模仿人类的驾驶,驾驶条件也是人类在自然情况下会遇到的——我说「目前」是因为也许未来人类将很少能够直接驾驶机器,「驾驶(drive)」这个词本身都可能会改变含义。这个领域里面也有些滑稽可笑的事情,比如一些基本的东西(比如一个下国际象棋或围棋的算法)被认为可以解释人脑的工作方式。就我们目前的知识水平而言,光是解释鸟或鱼的大脑的工作方式就已经非常困难了——这说明我们还没有真正理解学习的机制。为什么果蝇只需几百个神经元就能做到这么多事情?这还是神经科学的一个未解之谜。而认知是什么以及其在自然环境下是如何工作的也是一个数据科学傲慢地认为自己能解决的重大难题。(不管怎样,降维是一种无监督学习的方法。)在很多方面,工具以及我们使用工具所做的事情自人类诞生以来就在引导着人类的学习。但这就扯远了。更多内容请参阅:http://www.jiqizhixin.com/article/2359
7个回答被折叠
正在为您加载更多

我要回帖

更多关于 数据科学与统计学 的文章

 

随机推荐