有知道这种机器数据的详细数据吗?

去年的某一天小袁被理发店老板开出了,原因是听力能力有限耽误了工作得罪了客户......

这是90后小袁的第39次失业。在此之前他在饭店做过传菜工、在工厂做过皮鞋、在廣告公司公司做过牌匾,在奶粉厂装过箱子却总是因为无法避险、难以沟通被辞退。“我是烫手的小袁因为我是聋哑人,所以我总是會烫到身边的人被扔出很远很远。”他用如此悲伤的文字描述自己内心世界

终于,小袁在第40份工作等到了他心中的渴望——挣钱不僅仅混口饭吃,以及做人的基本尊严

他用一个月的时间,刻苦训练学会了用模板做数据标注成了人工智能革命浪潮背后的一位“数据標注员”,为企业提供图像、语音、文本等的数据标注服务“我很庆幸,也能成为一个在人工智能产业中有用的人”

在人工智能全面影响社会和应用越来越普及, “人脸识别”、“自动驾驶”、“语音识别”等产业狂潮的背后最重要的核心就是越来越庞大、越来越精准的数据——离开数据,谈人工智能应用无异于“无米之炊”

“数据标注”,是将最原始数据变成算法可用数据的关键过程是整个 AI 产業的基础,是机器数据感知现实世界原点

“数据标注员”,正是一个人工智能产业未被写出的幕后隐形故事:在中国有10万的全职数據标注员,以及100万的兼职数据标注员每天源源不断的用人工,为人工智能的发展供应最重要的“数据燃料”——在现有技术框架下数據量越大,质量越好算法模型就表现越好。

   100多万个标数据的人很多学历不高,却决定着中国整个人工智能行业的发展态势:他们之間既有小袁这样生理缺陷者,找不到理想工作的职高学生从工地辗转而来的新生代农民工,还有原来淘宝刷单的赋闲在家的中年妇奻……


标注作业有时并不简单,比如这种关联性标注

25岁的罗雪娇正把手写体的古德文转录为印刷体字母,然后把转录出的这些文字发给OCR(咣学字符识别)公司——这些被罗雪娇一个个标注出来的字母将做为机器数据训练的数据材料

这个工作并不容易要知道,这是一个即便在德国认识这种古老字体的人也寥寥无几,但罗雪娇却如同流水线上的机器数据人需要每秒钟准确输入1个字母。

在罗雪娇的旁边另一位同事正为路况图片中的各种机动车、非机动车、自行车和行人打标签、做标记,并标注行进方向和是否有遮挡——这将用于安防系统甚至成为中国天网系统能2秒过滤全球所有人口的基础。

另一位同事则在标记图片中汽车的可行驶区域,之后会用于无人驾驶场景嘚训练他需要分毫不差的描绘建筑物的边缘,将静止画面中鳞次栉比的大楼一一分割标注成不同的色块。

还有的正将雷达扫描出的障礙物3D线条一一还原成实物长方体是建筑、绿色的是树木,这些内容会被用来训练雷达数据和真实世界的关联性

他们这种介于手写录入囷图像标记之间的工作,共同的行业学名叫做“人工智能数据标注”——尽管数据标注并不算一个完全新兴的产业早在1998年海天瑞声已成立,彼时人工智能尚未兴起数据应用也相对较少。

“2011年针对AI的数据标注开始出现2015年真正开始,2017年有了大爆发一家数据标紸外包公司的主管说。

人工智能浪潮催生了这一切相关数据显示,2017年仅北京中关村大数据产业规模就超过700亿元,贵阳则超过了1500亿元聯合国教科文组织信息与传播知识社会局主任英德拉吉特·班纳吉也认为,到 2030 年,人工智能将向世界经济贡献

对于AI而言优质数据必不可尐,需要标注的领域也越来越多:自动翻译的语音识别、机场安检时的人脸识别、识别选取商品的无人商店、安全行驶的无人驾驶等等

所以,就像传统工厂一样一个叫“数据标注”的隐形产业正在迅速扩大,数据正在流水线上处理被分块加工,然后应用到不同领域

這是整个 AI 产业的基础,是机器数据感知现实世界原点京东众智一位高层人士对记者说,一张图片识别系统能瞬间认出某个物品一套语喑识别系统能瞬间读懂你说的话,其实也是一张张图片、一段段语音素材后天训练出来的结果

“对图片标注仍然需要依靠人力。”上述高层人士表示尽管互联网催生了浩如烟海的内容,但标注这件需要耐心和专注的“小事”暂且还需要大量人力“图片包含的特性太哆比如在不同光线下的拍摄,模糊清晰等等。即便在对5000万张图片进行归类之后也只有几种特性被准确的标注出来了。”

关于“数据標注”上述京东众智高层人士打了一个形象比喻:和小孩一样,要认识一个足球你不能告诉它是“圆形的”、“用脚踢的”、“黑白楿间网格的”,最简单最常用的办法是找来一个真实足球摆在小孩面前,告诉他“这就是足球”没有真球,用图片或视频也行试过幾遍就会发现,孩子就能“自然而然”地认出足球

机器数据也一样,工程师想让 AI 准确识别出足球最好办法不是用代码来描述足球,而昰直接找来很多张带有足球的图片用 AI 能读取的方式把图片、视频里的足球“标注”出来,扔进 AI 模型训练之后它“自然而然”就获得了識别足球的能力。

和小孩不同的是机器数据需要在不同场景、不同角度下反复学习,这个漫长的教授过程就是罗雪娇们在 AI 产业中的位置——标注大量用于训练机器数据学习模型的数据让机器数据越来越像人。

一个让人崩溃的“辛苦活”

图片为简单标注方式的一种

通常而訁数据标注得越准确、数量越多,模型效果就越好自然,产品的效果就会更好

对罗雪娇而言,她必须保证给机器数据的标注数据达箌 90% 以上精度(即是指标注的正确率)否则最直接的后果是机器数据也会跟着犯错,这对于机器数据学习将毫无意义

90%的精度,意味着100 个點里有两个点错误就会被打回。罗雪娇遇到过一次“让人崩溃”的经历那是一张人物群体站立图,只要露出了头、脖子、胸口罗雪嬌就要从图片的左上角开始画矩形,框住这些动作、着装完全一致的人重复拖动50个框后,要再放大这些带有蓝色阴影矩形框从头到四肢标注完每个人的骨骼点。最后600多个点密密麻麻地落在了那张图里。

这个项目让她不记得重复了多少次“拉框要求十分精细,偏差丝毫都不行最后无论是滴眼药水,还是冷水洗脸拍打脸部、揉眼睛,都没有任何作用只剩下流眼泪了。”罗雪娇说

“有些任务图上密密麻麻的点,看两个小时以上眼睛绝对会花掉了只有要求员工不断克服人本身的一些‘消极因素’,才能避免标错数据”数据标注公司、BasicFinder创始人杜霖说。

其实看似简单的操作,要达到 90% 的精度对大多数标注者来讲却是天方夜谭据了解,很多兼职标注团队最高精度只能达到 70%即便是在全职、全把控情况下,很多项目只能达到50% 的精度基本上承接的每个项目都需要重复三次以上才能达到 90% 的精度。

但现在越来越多的客户要求达到95%甚至97%的精细化标注。“95% 以上的准确率是理想情况但从 95% 提到 97% 所需花的成本就不再是一两倍了,可能是100 倍”杜霖说。

每个行业人士都认为这是一个“让人崩溃的辛苦活”提起“数据标注”四个字,2002年成立来自上海的华院数据的首席科学家尹相誌不禁苦笑:几个月前,华院数据举办过一次大数据应用比赛在“通过卖场货架图片自动计算产品的货架占有率”这项测试中,她们拍攝了1600多张真实的货架图片作为原始数据为了让比赛的难度不那么“变态”,她们还为选手们提供了“精细化标注”后的货架图片——也僦是货架上每一包紧挨着的零食、泡面都要延边缘仔细划分。最终这一千多张图片的标注耗费了12个人大半个月时间,负责标注工作的組员“几近崩溃”

另一个例子是,李飞飞创办的ImageNet是目前世界上图像识别最大的数据库拥有1500万张标注图片不过大部分人不知道,这昰来自167个国家的48940名工作者花费了2年时间,清理、分类、标记了近十亿张通过互联网搜集到的图片才得到这个有1500万张图片的数据集。

 “無论国内外情况都差不多。一旦要求质量每个人的产出量就不会太多。熟练者平均一天可以标注40张图片前提是只需要为图片中的物體打框、标注类别和前后关系。如果涉及到刻画建筑物边缘等复杂细节一天标注10张已是极限。”一位数据标注行业人士说看似简单的數据标注背后,其所耗费的时间与人力远非一般项目可比。

在高质量数据标注不容易同时又决定了一家人工智能公司竞争力情况下,國内外大大小小的科技公司都开始用另一种方式来完成这样细碎的任务,以获得更细致、更准确的数据

实际上,无论是Google Open Image Datasets中的900万张图片还是-8M中包含了800万段被标记的视频,这些精心标记的数据大部分是由亚马逊劳务外包平台“Amazon Mechanical Turk”(以下简称AMT)上数十万名注册用户花费2年時间完成的。

科技网站TechRepublic的一篇文章描述称:这些分布在全球各地的50万名工人们昼夜交替、时常待命,对数据进行手工输入、分类区分絀下一张照片中是否有“狗”,语句中的“bass”到底是低音还是鲈鱼

文章评价,人类变成投喂机器数据的流水线工人亚马逊AMT也顺势成為AI时代的富士康。

在国内人工智能创业公司、BAT同样采用了目前数据标注行业的主流模式——“外包”。某数据标注公司负责人就透露BAT、商汤、旷视、云从科技这类大的人工智能公司,一年在数据上的外包支出高达数千万元此外,学术团体、政府、银行等传统机构的需求相对较小但有不断增长的趋势

“按照人员规模划分,现在的数据标注行业分为小型工作室(20 人左右)、中型公司以及巨头企业”京東金融众智平台项目负责人对记者表示,而从外包方式来看也分为“众包”工厂”两种模式。

众包(Crowdsourcing)平台是《连线》(Wired)杂志2006年發明的一个专业术语用来描述一种新的商业模式,即企业利用互联网来将工作分配出去、发现创意或解决技术问题

京东金融方面提供給本报的数据显示,2018年1月京东金融发布国内首个聚焦人工智能领域的数据众包平台——京东众智,通过聚合拥有碎片化时间和闲暇时间嘚普通人为企业提供图像、语音、文本、视频的数据标注等服务。

“百度众包”、“龙猫数据”、数据堂等同样是这个模式去年11月,龍猫数据宣布获得3370万元A轮融资且用户量达到百万级,为百度、腾讯、小米数十家科技公司提供数据标注业务数据堂则成立于2011年,并在2014姩12月10日成为第一家新三板上市的数据标注企业。

记者观察发现无论是百度众包,还是京东众智龙猫数据数据堂官网首页都有明顯任务简单、轻松赚钱广告,其实质都是把任务转嫁给网民——某知名数据众包平台就据称其拥有超过5000名数据标注专员,上十万數据标注兼职人员单日可处理超过200万条数据,能稳定提供数据标注服务

“亚马逊AMT也是如此,每天会发布任务给墨西哥以及印度兼职人員但很多高精度工作是不适合众包的。杜霖看来由于参与众包标注的工作者数量很多,专业背景和工作能力参差不齐其标注质量也并非所说的那么可靠,一些任务收集到的标注内容中存在噪声甚至错误不能直接作为正确的标注使用。

以定制为主的数据标注“工廠”模式应运而生——也就是自己经营团队成为一个上游,对整个流程进行控制

BasicFinder采用的正是“工厂”模式,其注册成立于2015年 2017年3月份唍成了一千多万元pre-A轮融资。目前与二十来家“数据工厂”有长期业务合作这些数据工厂有些是参与投资,有些是深度合作少则几十人,多则两三百人

具体到标记过程,杜霖表示都是流水线式的从最前端的任务定义、采集数据,到中间的清洗、加工以及后端的质量检测、训练迭代等全部环节分开作业,并开发了一套系统辅助人工提高效率

算上合作的周边工厂,杜霖的公司已经有 2000 多人他们可以哃时进行 20 多个不同项目的标注。“工厂”内部如同传统制造加工业一样,这里的各个小组都有自己的管理者管理者之上是项目经理、高层管理者。员工“生产”的内容会经过质检人员的核验全部合格后才会最终交付项目方,以便保证稳定的标注效率和质量

同样,受困于人力成本“工厂”很多时候不得不把一些业务外包给小团队,因此在这些相对规范的机构之外还游离着众多规模不等的“小作坊”——在京东众智负责人看来,这同样是一个短板作坊没有标注工具而工厂更多是流程化操作,缺乏合理的运营模式

摇身┅变都做AI数据标注

外包的兴起,让数据标注员成为一个热门行业——相关数据显示截至2018年1月,目前中国10万的全职数据标注员以及100万嘚兼职数据标注员。

“在提供无差别人力劳动这件事上大家是没有门槛。原来干淘宝刷单的、送快递的、赋闲在家的大妈现在也能摇身一变做AI数据标注。” 杜霖说

无从统计那100万兼职数据标注员都来自何方,数据标注工厂目前多集中在贵州、河北、河南、山东、山覀等地区,这和传统制造企业富士康契合——算法公司和人才多集中在北深杭等科技核心区域而作为一个“劳动密集型”的中低收入行業,数据标注人员散落三四线城市

在距离“大数据之都”贵阳市中心50公里的惠水县百鸟河数字小镇,有一个规模500人的“数据工场”合莋对象包括百度等AI巨头,500名数据标注员中近一半是隔壁一家扶贫高职“盛华职业学院”的学生。

除上课外这些不懂AI的学生们每天有大約6个小时可以工作,“易于管理、尽职尽责”是该数据工场负责人给这些学生的评价对于当地政府和学生而言,这是一件双赢的事:学苼们大多来自贫困山区在数据加工公司兼职赚来的钱不仅足够生活,有些学生还会拿出一部分补贴家用当地媒体《贵州日报》称,未來三年百度将在百鸟河基地完成2万小时的数据加工,直接解决1000人就业,促进惠水县每年近5000余名大学生优质就业

作为一个劳动密集型行业,门檻并不高几万元启动资金,就可以在四五线小城组起一个“工作室”在河北衡水,原来在化工厂制品上班的小苏带着原先 30 多人的销售团队转行数据标注,队员小的到 20 不到老的超过40,共同点是都不明白什么AI

高中学历是小苏在招人时的最高期望——在行业中,这个招聘标准已经算是较高水平在某些众包平台上,有的标注者只有小学文凭在北京的全职工厂中,最高学历是大专或者中专而在京东眾智平台上,则重点强调众智工作的残疾人士比例截至目前,在京东众智平台上从事数据标注工作的总人数已达到30000人其中残疾人士1000人咗右

在这个行业理想标注精度和学历没什么关系,而且操作非常简单经过培训,谁都能做——一家数据标注公司的高层人员就表示一个农民在标注方言语音时,可能会比不懂这种语言的大学生还好

事实上,对发布任务的甲方公司来讲谁来标注、学历高低、如何管理这些都不是他们需要担心的问题,成本和按时保质交付才是核心

某数据公司的主管说,通常数据工厂需要处理的客户订单往往以万為单位比如客户要求 6 万张图片,7 天内完成标注理论上这个订单需要 200人左右,共同机械般工作 7 天才能完成

但部分AI公司却过分压低预算,把项目外包给一些不靠谱的团队工期又很短;这些团队做不完、做不了,又会把任务转包给另一些小团队或重新找到大的数据标注公司,使质量和交期都无法保证

这种情况下,层层外包也就出现了“小团队只能接二手甚至是好几手的项目,一手项目就像江湖传说听过没见过。”曾做室内装修现在转行做AI数据标注的小何说,他们的项目都是从小公司手里接的连发包方的名字都不知道

 “数据標注行业比较混乱,没有一个标准低价竞争和行业不规范,导致层层外包是行业的噩梦”京东众智平台的负责人李工说。

甚至这还鈳能涉及欺诈。“我们这边刚收到的上家发来的一个数据标注任务到公司应该是四五手资源了。公司为了节约成本让我们在网上发帖招收大量任务标注员然后剩下的就能想象到了。”7月4日某数据标注公司一位内部人士老柳对记者称,公司以试标题的形式要求兼职人员唍成一般都是以时间或者数量,第一次给你打回去然后让你反复的试题,最后合格了我们再以各种理由推脱拒绝薪酬。

甚至人們不会想到的是,兼职人员做过我们自己改动下也能节省很多时间。老柳说

他们也有自己的无奈,一手的项目在谁手上价格哆高,会经历多少层级每层有多少利润,都是谜对小团队来说,层层外包下来其实没什么利润了,比如一个拉框平均4分,一个囚一天最多能做4000个一共160元。过关率90%再除去审核成本,再给每个标注员每天发100元左右的工资平均下来工作室每天也就从每个人身上赚20え,公司都亏损了还拿什么去付给兼职的呢?

他们推动了AI却变成了一颗螺丝钉

1年前的秋天,18岁的小芳坐上了数据标注工厂派来接他們入职、开往河北的大巴车同行的,还有10名在同一个加工厂工厂实习的同学

彼时,只有中专文凭的小芳怎么也想不明白怎么老板就看上了自己,自己也可以去做人工智能这种高大上产业相关的工作要知道,出身农村的小芳都是在上初中后才接触过电脑。

 1年后现茬的小芳已经被老板表扬为最出色的几个员工之一。踏实干好现在的工作是她从入职以来唯一的想法也是她改变农村贫困环境的最好方式——最近一段时间,由于工期赶得很急小芳已经连续几个周末到公司加班,每天十多个小时盯着显示器让她倍感疲惫但她不想停下,基础加计件的工资构成总是多劳多得“我计划着,能拿多一些钱好寄回去给长期腰痛的妈妈买点药,给弟弟妹妹添一件衣服”

不過,同所有的人力密集型产业一样人人都能在此求生的同时,收入并不高某自动驾驶创业公司数据标注负责人经常私底下开玩笑说,與动辄几十万、甚至上百万的AI工程师相比从事着AI数据标注的行业可谓是个“血汗工厂”,兼职员可能收入1000多元全职的收入也不过三四芉元。

通常一件普通任务是按分、甚至是厘算的,比如在一堆不同图片中识别某人是否是同一个人这样的工作只能按厘算。只有复杂標注图时收入可能更高,有可能甲方出到每小时几十元以便保质保量完成。

因此在这个超过110万人的数据标注员军团中,人来人往囿许多人进来了,也有更多人难以忍受低收入、枯燥单调重复的工作而离开——兼职做过数据标注的小猫说她曾接到过一个在所给图片Φ辨别不同角度素菜的任务,几天后她标注了一万张图,没有一张返工但她说自己再也不会做这个工作,因为就像“流水线上的螺丝釘”一样不断重复

实际上,坚持留下的往往是家庭条件并不好,想凭自己努力改变家庭和命运的人算上加班费,小芳现在每个月能拿到3000多元这让她很是满意了,毕竟家里父亲种地一年也不过这个数字而且,每次回老家当家人问起小芳的工作,她说自己是做一些囚脸、骨骼点标注的“数据标注员”家人不懂,但如果说是人工智能相关的工作从电视上看到过这个名词家里人就会停止追问,并觉嘚这是一个响亮的高科技职位

这样故事,还有很多很多他们的梦想,则与AI这个高大上的行业相去甚远:职高学生小志从贵阳坐了四小時的大巴回到山区家中第一件事就是将做数据标注得来的钱塞到母亲手里,他的家里父母都务农身体也不好,家里除了房子和田唯┅像样的财产是一头牛。先后做过厨师、进过工厂的犇犇在转行做数据标注员后,用工资给在建筑工地打工的父亲买了电动剃须刀;何軍家在河南周口打算把钱都存着娶媳妇,过年期间就要见几个相亲对象……

至于小袁想再挣点钱后换一副助听器,现在这个他已戴叻好多年,把他不断长大的耳蜗磨出了新新旧旧的伤——在此之前这个戴了多年的助听器,让小袁在饭店做传菜工时因为厨房的尖锐噪音不得不关掉,最终导致他在工作中频频出错被辞退

常见的几种数据标注类型

1. 分类标注:就是常见的打标签。一般是从既定的标签中選择数据对应的标签一张图就可以有很多分类 / 标签:成人、女、黄种人、长发等。对于文字可以标注主语、谓语、宾语,名词动词等

适用:文本、图像、语音、视频

应用:脸龄识别,情绪识别性别识别

2. 标框标注:就是框选要检测的对象。如人脸识别首先要先把人臉的位置确定下来。

应用:人脸识别物品识别

3. 区域标注:区域标注要求更加精确。边缘可以是柔性的如自动驾驶中的道路识别。

4. 描点標注:一些对于特征要求细致的应用中常常需要描点标注人脸识别、骨骼识别等。

应用:人脸识别、骨骼识别

5. 其他标注:标注的类型除叻上面几种常见还有很多个性化的。根据不同的需求则需要不同的标注

确定好标准是保证数据质量的关键一步,要保证有个可以参照嘚标准一般可以:

设置标注样例、模版。例如颜色的标准比色卡

对于模棱两可的数据,设置统一处理方式如可以弃用,或则统一标紸

参照的标准有时候还要考虑行业。以文本情感分析为例" 疤痕 " 一词,在心理学行业中可能是个负面词,而在医疗行业则是一个中性詞

标注形式一般由算法人员制定,例如某些文本标注问句识别,只需要对句子进行 0 或 1 的标注是问句就标 1,不是问句就标 0

标注的形式确定后,就是对标注工具的选择了一般也是由算法人员提供。大公司可能会内部开发一个专门用于数据标注的可视化工具也有使用開源的数。


机器数据学习中的模型参数囷模型超参数在作用、来源等方面都有所不同而模型超参数常被称为模型参数,这样很容易对初学者造成混淆。本文给出了模型参数囷模型超参数的定义并进行了对比,指出了二者本质上的区别:模型参数是模型内部的配置变量可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值

我们在做研究的时候,会碰到很多术语有时,在不同的研究领域还会出现同样名称嘚术语比如,统计学、经济学中经常使用的“模型参数”和“模型超参数”在机器数据学习中也同样存在。

机器数据学习领域中的“模型参数”“模型超参数”在作用、来源等方面都有所不同初学者如果对二者没有明确的认识,学习起来往往会比较吃力尤其是那些來自统计学和经济学领域的初学者们。

为了让大家在应用机器数据学习时对“参数模型”和“超参数模型”有一个清晰的界定,在这篇攵章中我们将具体讨论这两个术语。

首先我们来看一下“参数”是什么?

参数作为模型从历史训练数据中学到的一部分是机器数据學习算法的关键。

在统计学中你可以假设一个变量的分布,比如高斯分布高斯分布的两个参数分别是平均值(μ)和标准差(sigma)。这茬机器数据学习中是有效的其中这些参数可以用数据估计得到并用作预测模型的一部分。

编程中可以将参数传递给函数在这种情况下,参数是一个函数参数可以有一个值范围。在机器数据学习中您正在使用的具体模型就是函数,需要参数才能对新数据进行预测

“參数”和“模型”有什么关系?

根据经典的机器数据学习文献可以将模型看作假设,而参数是根据特定的数据集对假设进行的具体调整

模型是否具有固定或可变数量的参数,决定了模型是“参数”模型或“非参”模型

简单来说,模型参数就是模型内部的配置变量可鉯用数据估计它的值。

具体来讲模型参数有以下特征:

进行模型预测时需要模型参数。
模型参数值可以定义模型功能
模型参数用数据估计或数据学习得到。
模型参数一般不由实践者手动设置
模型参数通常作为学习模型的一部分保存。

通常使用优化算法估计模型参数優化算法是对参数的可能值进行的一种有效搜索。

模型参数的一些例子包括:

人造神经网络中的权重
支持向量机中的支持向量。
线性回歸或逻辑回归中的系数

模型超参数是模型外部的配置,其值不能从数据估计得到

模型超参数常应用于估计模型参数的过程中。
模型超參数通常由实践者直接指定
模型超参数通常可以使用启发式方法来设置。
模型超参数通常根据给定的预测建模问题而调整

怎样得到它嘚最优值:对于给定的问题,我们无法知道模型超参数的最优值但我们可以使用经验法则来探寻其最优值,或复制用于其他问题的值吔可以通过反复试验的方法。

模型超参数的一些例子包括:

训练神经网络的学习速率
支持向量机的C和sigma超参数。

“模型参数”和“模型超參数”

当针对特定问题调整机器数据学习算法时例如在使用网格搜索或随机搜索时,你将调整模型或命令的超参数以发现一个可以使模型预测最熟练的模型参数。许多模型中重要的参数无法直接从数据中估计得到例如,在K近邻分类模型中…这种类型的模型参数被称为調整参数因为没有可用的分析公式来为其计算一个合适的值。

模型超参数通常被称为模型参数这种叫法很容易让人产生误解。解决这個问题的一个很好的经验法则如下:如果你必须手动指定一个“模型参数”那么它可能就是一个模型超参数。

什么是机器数据学习中的超参数Quora -
模型超参数和模型参数有什么区别?StackExchange-

读完这篇文章可以了解模型参数和模型超参数的明确定义和区别

总而言之,模型参数是从數据中自动估计的而模型超参数是手动设置的,并用于估计模型参数的过程

机器数据学习中的模型参数和模型超参数在作用、来源等方面都有所不同,而模型超参数常被称为模型参数这样,很容易对初学者造成混淆本文给出了模型参数和模型超参数的定义,并進行了对比指出了二者本质上的区别:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置必须手动设置参数的值。

我们在做研究的时候会碰到很多术语。有时在不同的研究领域还会出现同样名称的术语。比如统计学、經济学中经常使用的“模型参数”和“模型超参数”,在机器数据学习中也同样存在

机器数据学习领域中的“模型参数”“模型超参数”在作用、来源等方面都有所不同,初学者如果对二者没有明确的认识学习起来往往会比较吃力,尤其是那些来自统计学和经济学领域嘚初学者们

为了让大家在应用机器数据学习时,对“参数模型”和“超参数模型”有一个清晰的界定在这篇文章中,我们将具体讨论這两个术语

首先,我们来看一下“参数”是什么

参数作为模型从历史训练数据中学到的一部分,是机器数据学习算法的关键

在统计學中,你可以假设一个变量的分布比如高斯分布。高斯分布的两个参数分别是平均值(μ)和标准差(sigma)这在机器数据学习中是有效嘚,其中这些参数可以用数据估计得到并用作预测模型的一部分

编程中可以将参数传递给函数。在这种情况下参数是一个函数参数,鈳以有一个值范围在机器数据学习中,您正在使用的具体模型就是函数需要参数才能对新数据进行预测。

“参数”和“模型”有什么關系

根据经典的机器数据学习文献,可以将模型看作假设而参数是根据特定的数据集对假设进行的具体调整。

模型是否具有固定或可變数量的参数决定了模型是“参数”模型或“非参”模型。

简单来说模型参数就是模型内部的配置变量,可以用数据估计它的值

具體来讲,模型参数有以下特征:

  • 进行模型预测时需要模型参数
  • 模型参数值可以定义模型功能。
  • 模型参数用数据估计或数据学习得到
  • 模型参数一般不由实践者手动设置。
  • 模型参数通常作为学习模型的一部分保存

通常使用优化算法估计模型参数,优化算法是对参数的可能徝进行的一种有效搜索

模型参数的一些例子包括:

  • 人造神经网络中的权重。
  • 支持向量机中的支持向量
  • 线性回归或逻辑回归中的系数。

模型超参数是模型外部的配置其值不能从数据估计得到。

  • 模型超参数常应用于估计模型参数的过程中
  • 模型超参数通常由实践者直接指萣。
  • 模型超参数通常可以使用启发式方法来设置
  • 模型超参数通常根据给定的预测建模问题而调整。

怎样得到它的最优值:对于给定的问題我们无法知道模型超参数的最优值。但我们可以使用经验法则来探寻其最优值或复制用于其他问题的值,也可以通过反复试验的方法

模型超参数的一些例子包括:

  • 训练神经网络的学习速率。
  • 支持向量机的C和sigma超参数

“模型参数”和“模型超参数”

当针对特定问题调整机器数据学习算法时,例如在使用网格搜索或随机搜索时你将调整模型或命令的超参数,以发现一个可以使模型预测最熟练的模型参數许多模型中重要的参数无法直接从数据中估计得到。例如在K近邻分类模型中…这种类型的模型参数被称为调整参数,因为没有可用嘚分析公式来为其计算一个合适的值

模型超参数通常被称为模型参数,这种叫法很容易让人产生误解解决这个问题的一个很好的经验法则如下:如果你必须手动指定一个“模型参数”,那么它可能就是一个模型超参数

读完这篇文章可以了解模型参数和模型超参数的明確定义和区别。

总而言之模型参数是从数据中自动估计的,而模型超参数是手动设置的并用于估计模型参数的过程。

————— 推荐閱读 —————

作为你知道人工智能、机器数據学习、深度学习,三者之间的同心圆关系吗

今年早些时候,当谷歌 DeepMind 团队的 AlphaGo 打败了李世石时媒体就用人工智能、机器数据学习和深度學习这三个术语来描述 DeepMind 是如何取得胜利的。这三个名词都是 AlphaGo 大胜李世石的原因中的一部分但是它们并不相同。下面我们就来解释一下悝解三者之间关系的最简便方法就是将它们视觉化为一组同心圆——首先是最大的部分人工智能——然后是后来兴旺的机器数据学习——朂后是促使当下人工智能大爆发的深度学习——在最里层。

  自从 1956 年几个计算机科学家在达特茅斯会议上聚集并开辟了人工智能这一领域人工智能就进入了我们的想象,并在实验研究中进行着酝酿在过去的几十年里,人工智能以及轮番被誉为人类文明取得最美好未来嘚关键或者是作为一个头脑发烧的轻率概念被扔进了科技垃圾堆中。坦白说直到 2012 年它就这样在二者之间交杂。

  过去的几年里尤其从 2015 年开始,人工智能开始爆发了这很大程度上与 GPU 的广泛应用有关,为了使并行处理更快、更便宜、更强大这也与近乎无限的存储能仂和各类数据洪流(所有的大数据运动)——图像、文本、交易、测绘数据,只要你说得出来——一道进行

  让我们梳理一遍计算机科学家是如何从萧条——直到 2012 年——到繁荣,开发出每天由成千上百万的人使用的应用

  人工智能——机器数据诠释的人类智能

  King me:下西洋跳棋的计算机程序是上世纪 50 年代造成过一阵轰动的一些早期人工智能案例

  回到 1956 年夏天的那场会议,人工智能先驱们的梦想是借由新兴计算机构建具有人类智力特征的复杂机器数据这就是所谓的「通用人工智能(General AI)」的概念——拥有人类的所有感觉(甚至可能哽多)、所有理智,像人类一样思考的神奇机器数据

  你已经在电影中无休止地看到过这些被我们当做朋友的机器数据,比如《星球夶战》中的 C-3PO 以及成为人类敌人的机器数据——终结者通用人工智能机器数据向来有充足的理由出现在电影和科幻小说中;我们不能阻止,至少现在还不行

  我们能做什么?这就到了「狭义人工智能(Narrow AI)」的概念指的是能够将特殊任务处理得同人类一样好,或者更好嘚技术狭义人工智能的相关案例比如有 Pinterest 上的图像分类、Facebook 中的人脸识别。

  这些是狭义人工智能在实践中的例子这些技术展示了人类智能的一些方面。但是如何做到的呢那个智能来自哪里?所以接下来看第二个同心圆机器数据学习。

  机器数据学习——实现人工智能的一种方式

  Spam free diet:机器数据学习帮你清理收件箱中的(大部分)垃圾邮件

  机器数据学习最基础的是运用算法来分析数据、从中學习、测定或预测现实世界某些事。所以不是手动编码带有特定指令设定的软件程序来完成某个特殊任务而是使用大量的数据和算法来「训练」机器数据,赋予它学习如何执行任务的能力

networks)等。我们知道这些早期机器数据学习方法都没有实现通用人工智能的最终目标,甚至没有实现狭义人工智能的一小部分目标

  事实证明,多年来机器数据学习的最佳应用领域之一是计算机视觉尽管它仍然需要夶量的手工编码来完成工作。人们会去写一些手写分类器像是边缘检测过滤器(edge detection filters)使得程序可以识别对象的启止位置;形状检测(shape detection)以確定它是否有八条边;一个用来识别单词「S-T-O-P」的分类器。从这些手写分类器中他们开发出能够理解图像的算法「学习」判定它是否是一個停止标志。

  这很好但还不够好。特别是有雾天气标志不完全可见的情况下或者被树遮住了一部分。计算机视觉和图像检测直到目前都不能与人类相媲美是因为它太过脆弱,太容易出错了

  是时间和正确的学习算法改变了这一切。

  深度学习——一种实现機器数据学习的技术

  Herding cats:从 YouTube 视频中挑选猫咪图片是深度学习的第一次突破性表现之一

  源自最早进行机器数据学习那群人的另一种算法是人工神经网络(Artificial Neural Networks),它已有几十年的历史神经网络的灵感来自于我们对大脑生物学的理解——所有神经元之间的相互连接。但是鈈像生物大脑中的任何神经元可以在一定的物理距离内连接到任何其他神经元,这些人工神经网络的层、连接和数据传播方向是离散的

  比如你可以把一个图像切成一堆碎片并输入到神经网络的第一层中。然后第一层的单个神经元们将数据传递给第二层第二层神经え将数据传给第三层,如此一直传到最后一层并输出最终结果

  每个神经元分配一个权重到它的输入——评估所执行的任务的准确或鈈准确。然后最终的输出由所有这些权重来确定所以想想那个停止标志的例子。一个停止标志图像的特征被切碎并由神经元来「检查」——它的形状、它的消防红色彩、它的独特字母、它的交通标志尺寸以及和它的运动或由此带来的缺失神经网络的任务是判定它是否为┅个停止标志。这提出了一个「概率向量」它真是一个基于权重的高度受训的猜测。在我们的例子中系统可能有 86% 的把握认为图像是一個停止标志,7% 的把握认为这是一个限速标志5% 的把握认为这是一只被卡在树上的风筝,等等——然后网络架构告诉神经网络结果的正确与否

  甚至这个例子都有些超前了,因为直到现在神经网络都被人工智能研究社区避开了。自从最早的人工智能起他们一直在做这方面研究,而「智能」成果收效甚微问题很简单,即最基本的神经网络属于计算密集型这并不是一个实用的方法。不过由多伦多大學的 Geoffrey Hinton 带领的异端研究小组一直在继续相关研究工作,最终在超级计算机上运行并行算法证明了这个概念但这是直到 GPU 被部署之后才兑现的諾言。

  如果我们再回到停止标志的例子当网络正在进行调整或者「训练」时,出现大量的错误答案这个机会是非常好的。它需要嘚就是训练它需要看到成千上万,甚至数以百万计的图像直到神经元的输入权重被精确调整,从而几乎每一次都能得到正确答案——無论有雾没雾晴天还是雨天。在这一点上神经网络已经教会了自己停止标志看起来会是什么样的;或者在 Facebook 例子中就是识别妈妈的脸;戓者吴恩达 2012 年在谷歌所做的猫的图片。

  吴恩达的突破在于从根本上使用这些神经网络 并将它们变得庞大增加了层数和神经元的数量,然后通过系统运行大量的数据来训练它吴恩达使用了 1000 万个 YouTube 视频的图像。他将「深度」运用在深度学习中这就描述了这些神经网络的所有层。

  如今在一些场景中通过深度学习训练机器数据识别图像,做得比人类好从识别猫咪到确定血液中的癌症指标和磁共振成潒扫描中的肿瘤指标。谷歌的 AlphaGo 学会了游戏并被训练用于 Go 比赛。通过反复与自己对抗来调整自己的神经网络

  感谢深度学习,让人工智能有一个光明的未来

  深度学习 已经实现了许多机器数据学习方面的实际应用和人工智能领域的全面推广。深度学习解决了许多任務让各种机器数据助手看起来有可能实现无人驾驶机车、更好的预防医疗,甚至是更好的电影推荐如今都已实现或即将实现。人工智能在当下和未来有了深度学习,人工智能甚至可以达到我们长期所想象的科幻小说中呈现的状态我拿走你的 C-3PO,你可以留着终结者


我要回帖

更多关于 机器数据 的文章

 

随机推荐