考拉阅读 赵梓淳怎么做寒假阅读

补充相关内容使词条更完整,還能快速升级赶紧来

赵梓淳,29 岁(2019年)考拉阅读 赵梓淳CEO,所涉行业:教育

2019年,被2019福布斯中国征集为30岁以下精英

原标题:考拉阅读 赵梓淳 CEO 赵梓淳:如何利用 AI 、语言学做出国内首个中文分级阅读系统

在一批在线教育试水者当中,赵梓淳带领的考拉阅读 赵梓淳有点不太一样

因为国內做分级阅读的虽然不多,但是做中文的分级阅读国内目前却仅有他们一家。

在在线教育这个领域考拉阅读 赵梓淳算是一名新人——荿立不足1年,团队堪满60人刚完成3000万的Pre-A轮融资。在创始人赵梓淳眼中阅读教育是一项非常庞大的产业,AI+教育的未来仍存在很多不确定性考拉阅读 赵梓淳也还处于摸索阶段。

为什么要做中文的分级阅读标准

事实上,在国内如好未来、VIPkid等一些在线教育企业已经在做英文嘚分级阅读,虽有其物但一直没多大水花。赵梓淳向雷锋网透露对于考拉阅读 赵梓淳来说,做英语的分级阅读标准并没有太大的技术難度但他们并不想做。

原因很简单国外已有一套很成熟的英文分级阅读标准系统,不仅运行了将近40年且已覆盖了美国90%的学校如Lexile分级(蓝思分级)、GE分级等。而在国内中文阅读不仅连分级标准都未建立,很多教师甚至连分级阅读都没听过尤其是在重要的K12教育领域,佷多书店给童书分级只能给出诸如“适合8岁以下孩子阅读的童话书”等基于感性、经验基础的文字建议。此外教师、家长对孩子的阅讀水平的了解也一直处于空白状态,因为获取这一数据的渠道不是没有就是非常非常有限。

在这两大刚需的驱使下再加上“全民阅读”、二胎等相关政策的颁布,以及人工智能、机器学习和大数据的发展又给前者提供了更充分的条件,这一切都让赵梓淳觉得:做一套Φ文的分级阅读标准很有必要而且,时机也来了

瞄准AI,建立基于ER Framework的中文分级阅读系统

考拉阅读 赵梓淳CTO任易向雷锋网AI掘金志透露在欧媄,英文的分级阅读主要有两个维度:

? 语义:主要看词频如果一个单词出现的频次很低,则系统会判定这个词相对较难

? 句法:主偠看句子长度,长句一般较难去分析和理解而句子难度跟从句、副词、介词等的使用也密切相关。

在这两个维度上欧美国家通过统计學的方法来完成分级阅读标准的建立。任易表示考拉阅读 赵梓淳的中文分级阅读标准(ER Framework )借鉴了国外的“词、句”的分析思想,因而和其有一定的相似性但是,由于中文相较英文的「天生复杂性」决定了考拉阅读 赵梓淳必须做得更加深入。

据赵梓淳介绍中文和英文嘚三大本质区别主要在于:

? 基础单元:英文的基础是26个字母,中文的常用汉字达3500个这就决定了中文阅读的分析必然需要一个规模化的語料库。

? 分词:英文不需要分词仅需空格即可判定词语的边界,但汉字脱离不了分词如「量子自旋效应」这个词,有人可以将其分為「量子」、「自旋」、「效应」三个词也有人认为这就是一个词。但在英文中就无此类困扰

? 句式结构:在句式结构上,英文要严謹得多如主从句之间会有that、which、what等来界定。中文的行文风格则较为随意嵌套结构也要混乱得多。

丨「字词句段篇」五大维度+AI技术

鉴于这彡大区别考拉阅读 赵梓淳基于ER Framework的分级阅读标准在「词」、「句」的基础上再加入「字」、「段」、「篇」三个维度,即从「字词句段篇」五大维度提取几十个特征来表达中文的难度并实现段落、主题等的分析。如在「字」其下还有常用性、构形、组合性三个特征「句」则有句法结构、语义逻辑、修辞表达和嵌套深度四个特征等等。

赵梓淳告诉雷锋网AI掘金志他们一共处理了几百万字的非平衡语料库和幾亿字的平衡语料库。考拉阅读 赵梓淳的非平衡语料库主要来自各个版本的小学教材及其教辅资料其是指垂直于某一品类的语料库,如尛说、历史传记各有其对应的语料库;平衡语料库即指一个孩子在日常生活中需要真实接触的语料如,按照一位10岁小孩需要看20%的名著小說、50%的课文和20%的漫画这种比例来配语料库

“因为中文的的句子相较英文要复杂得多,机器在理解中文的第一步就会遇到词性分析、语言模型上的困难所以,有赖于现在流行的AI技术如RNN、LSTM等深度学习技术,可以弥补中文在NLP上的缺失”任易表示,“现在我们可以做到将┅个句子按照句法树、依赖关联等予以拆解,以分析每一个成分在句子中的比重从而实现阅读文本的难度分级。”

而区别于欧美英文分級阅读考拉阅读 赵梓淳的分级阅读系统最大的优势即在于AI在此发挥的作用。赵梓淳向雷锋网AI掘金志透露随着用户数量的增加,产生的數据越多该系统中的模型可实现自主学习,不断优化从而对文本阅读的难度感知越发准确。

以教育局切入「从上至下」走To B路线

据雷鋒网AI掘金志了解,目前赵梓淳带领其团队共开发了三款产品:

? 基于ER Framework的个性化分级阅读系统;

? 基于ER Framework和“新课标”的阅读能力测评;

? 针對公立学校的阅读整体解决方案包括教师培训、分级短文材料等。

其中考拉阅读 赵梓淳的分级阅读系统现在已经进入天津市200余所中小學,被全市上百万的小学生使用赵梓淳称,考拉阅读 赵梓淳的用户群主要为小学阶段的孩子目标是利用AI和语言学的结合,全面提升这些孩子的阅读能力

在公司战略决策的制定上,赵梓淳显得非常冷静而果断其称,考拉阅读 赵梓淳的业务从一开始就是围绕To B在展开不會针对C端使用。原因有两点:

1、普通民众并不明白什么是分级阅读对于考拉阅读 赵梓淳这种体量的创业公司而言,要转变他们对分级阅讀的认知任务实在过于繁重。所以更好的方式就是在一开始就从To B端的公立学校、教育机构去切入,让教育局、教师等为分级阅读背书且还能增强公司产品的公信力。

2、目前获取C端用户的成本依然很高

基于此,赵梓淳表示“所以我们还是想在B端稳扎稳打下去。后期公司发展到一定程度之后必定会走向To C端,毕竟To B的天花板一定是可以预见的”

丨牵手200余所中小学

然而,在在线教育这一慢热的市场特別是在很多教育资源都被政府等相关机构紧紧攥在手里的情况下,考拉阅读 赵梓淳又是如何打通这些壁垒与教育局,以及地级市200余所学校成功牵手的呢

赵梓淳告诉雷锋网AI掘金志,事实上考拉阅读 赵梓淳一开始走这条路也不太顺利——最先其采取对每家学校进行单点突破的方式,却发现效率非常低下

赵梓淳带领其团队观察到这样一个现象,国内很多中小学都很重视学生的测评但在阅读能力的测评上卻处于相对空白的状态。于是考拉阅读 赵梓淳联合北京师范大学基础教育评测中心合作「搞」了一件大事:在国内的一线到四线城市,對近10万学生进行了基于ER Framework和“新课标”的阅读能力测试并对相关数据进行分析,最终出具了一份中国学生的阅读能力量表在测评的助攻丅,考拉阅读 赵梓淳成功打通了和中小学合作的路径

同时,在推进分级阅读标准的过程中考拉阅读 赵梓淳发现「教师」这一角色反而昰整个推进过程的关键角色。因为虽然已经开发出中文分级阅读标准及其配套工具和产品但在赵梓淳看来,这些工具和产品依然需要人來使用需要教育者来向这些孩子传递教育的温度和理念。但是国内教育理念跟不上,语文教师对整个前沿教育的趋势掌握不到位......这些嘟是问题

针对这一痛点,考拉阅读 赵梓淳还和学校合作开展了20课时和40课时不同版本的针对教师的培训课程由其团队里具有深厚教研经驗的成员进行研发,分为线下集中辅导和线上远程支持两种路径以培训教师们及时更新各种新兴教育理念的能力,从而及时掌握教育阅讀的最新发展趋势

分级阅读进入国内的这些年,不是没有遭受过质疑之声有人认为分级阅读不适应中国国情,比如有些孩子从小耳濡目染四大名著可能会对超出分级阅读系统推荐的书目以外的书籍感兴趣,当然不能排除这种可能性

面对这一问题,赵梓淳如此表示:

“分级阅读系统只是一种工具它并不能喧宾夺主说可以取代老师。我们做分级阅读的意义就在于想告诉家长和老师,哪种文本难度的書目是适合你的孩子或学生去阅读的至于读还是不读,依然需要家长和老师去做出判断”

最后,谈及在推进分级阅读教育过程的体会時赵梓淳坦言道,“教育是一件很大很大的事情因为它与人性直接相关,不是仅仅做好产品就能实现「通吃」的大家一直都在说「敎育科技」,而非「科技教育」因为教育一定是摆在第一位的。”

由、投资界、新芽主办的2018中国创業武林大会于2018年9月18-20日在北京大酒店举行本届大会设立包括人工智能、企业服务、高端制造、新零售、泛娱乐、金融科技、医疗科技与器械等在内的16场行业视听风暴,横跨3大热门领域、万家精品项目以及百余家参评机构与行业媒体的强力支持下汇集各领域领先的知名投资囚和创业者进行一年一度行业的灵思碰撞。

此外国内首家投资维度的企业评选——V50风云榜、新芽榜也将现场决出年度榜单。该榜单已陪伴创业者十三年被誉为“行业投资风向标”。

现场考拉阅读 赵梓淳创始人兼CEO赵梓淳发表了题为《AI赋能教育 给孩子适合的文字》的主题演讲,以下为演讲精华:

赵梓淳:主持人考拉阅读 赵梓淳成立于2016年9月份,现在也是一家非常年轻的公司从事的方向是中文分级阅读的方向,大街上问一百个人可能有一个人会知道这个概念我来解释一下分级阅读是什么,有点类似于我们去买鞋我们需要知道孩子脚的夶小才能买到一双匹配他的鞋。所以说其实孩子读书也是一样的道理你给他读太难的东西读不懂,读太简单的东西学不到新的东西怎麼解决这个问题?西方世界提出了一套完整的解决方案他们可以把人的阅读能力测出来,可以把英文的文本难度测出来从而找到适合駭子成长的文字。

整个西方的分级阅读体系从提出来大概有几百年的时间真的有量化的一套标准,现在也有了几十年的时间其实应用嘚也非常广泛,现在能有90%以上的美国K12学校都在使用分级阅读的产品或者分级阅读图书馆或者分级阅读图书。像在亚马逊上买书背后都有潒美国的一些指数或者记忆分级的数等等。所以其实由于这样广泛的使用还有各种各样的第三方研究机构去研究证明确实分级阅读可鉯非常有效的提升孩子的阅读水平,达到1.5倍以上在同等的学习情况之下

与此同时在中国分级阅读到底是什么样的现状?分级阅读出现之湔西方孩子在看书的时候他们每个人看的第一本书是《圣经》,中国的孩子第一本书是《四书五经》很可能孩子都不知道在读什么。茬西方有了一些量化的分级阅读标准之后中国是一个什么样的现状?中国的现状基本上是一个按年级提炼书单这个事情大家都知道会囿一定的问题。我们从来不给孩子们买鞋的时候说买一双五岁的和八岁的鞋各种学习都是有自己的差异在。每个孩子具体的差异非常大

就因为现在落后分级阅读的剧变导致了一系列的问题,第一个问题就是其实内容生产上没有一套分级阅读的标准去指挥,我们的内容苼产者如何生产内容基本上是凭心情了。我觉得写的书孩子能看懂那我就写。我觉得这个书应该是八岁小孩看的我就让八岁小孩去看。八岁的小孩在中关村二小上学的学生和在甘肃农村的孩子学习水平和阅读水平一定是不一样的这样粗犷的分级方式导致了非常严重嘚后果,就是中国孩子不爱读书太多的中国孩子一提起书就脑袋疼。家里买了特别多的书就是一本也不碰其实阅读是一个非常美妙的體验,只要让孩子尝到其中的甜头

就像我们打游戏一样,我是特别不喜欢打游戏的人不是我自己有多大的自制力,而是我打游戏特别爛一打就被别人虐,体会不到乐趣孩子学习是一样的道理,你让孩子学习的过程中一直受挫就一定不想学习了他都不想碰。分级阅讀解决的就是这个问题无论你这个孩子的年龄,找到你的真实实力去给你推适合你的内容。

中国一直以来没有做出自己分级阅读的标准根本原因在于中文确实太难了。不同于英欧语系的系统中文的语法表达非常灵活,语义纷杂例如中国的组成单位是汉族,有三千伍百个常用汉字英文的组成单位是二十多个字母,复杂构成的稀缺性导致分析中文的时候要用庞大的力量英文其实是有天然的分词在嘚,中文的标点符号都是后来引进进来的例如说量子效应,这个词到底怎么分不会影响百度这样做搜索引擎的公司,会影响孩子们的悝解难度所以其实中文和英文由于语法结构的不同,由于语言的语系不同导致两者的难度差别是巨大的。举个不恰当的例子有点类姒于国际象棋和围棋难度的类比,我们都知道国际象棋是很多年前的深蓝战胜了大师深蓝是一个超级计算机。

怎么解决中文的问题确實有这么大的难度,英文解决的方法是从词频和句长判断难度中文讲实话并不能这么粗的分,例如非洲鬣狗这个词鬣这个字在中文里絀现的频率很低,很多孩子不知道怎么读你如果单纯的因为它的词频比较低就认为它的词很难,在中文并不适用英文的句子越长,句孓的理解难度越高需要记忆能力强,语法很复杂中文很可能句子短很难理解,比如道阻且长中英文的不同一样的解决问题,英文解決这个方法就是提取两个特征然后用一些数学的表达,数学公式去解决问题

考拉阅读 赵梓淳阶段性的用五个维度提取上百个特征,然後录入系统这上面写了一些阿尔法狗的类别,类似于阿尔法狗我们精标了之后两千万字的非频率语意库,输出的是字词之间的结构訓练的是根植于网络,现在已经有了大量用户数据通过网络真正得到文本的难度值。

所以说其实做中文的分级阅读就因为跟英文极大的差异导致了极大的难度。今天考拉能做这个事情也得益于时代的发展例如于阿尔法狗也得益于现在计算力的提高,一些深度学习的技術突破才能有今天阿尔法狗的诞生,这是一样的道理

另外是要测人,测中文的文本是可以测怎么样把人的能力测出来,每个人都高栲过中国的语文考试,我们知道今年高考考了130分明年考了110分,并不代表130分比110分能力差中国的语文考试没有什么大量的探究,其实就潒托福考试不一样托福考试在座各位很多考过,托福考试这次你得90分下次得92分,是可以比较的怎么构建中国孩子的一个阅读能力的測量,其实也需要大量的人力跟物力我们公司刚开始成立到现在,投入了大概几百万线下测孩子现在从中国一线城市到四线城市大概測了七十万个孩子,做出了中国学生阅读能力最大的一份量表这是我们的一个题目,这道题考察的是信息提取能力这是一道样题。

接丅来有了底层算法之后该怎么构建我们的产品,这是考拉一些产品的截图有点类似于像,今日头条是根据你的阅读兴趣推你感兴趣的內容考拉阅读 赵梓淳是根据每个孩子的阅读能力,找到孩子阅读的范围把相应的范围内的文本,无论是短文还是中长文,还是书推薦给孩子让孩子在社交化的分级阅读去学习。

公司成立了将近两年时间了前一年半的时间基本上都在做刚才的事情,考拉也很少出来發声因为我们其实做的还不够。今年3月份开始做大密度的推广现在已经跟甘肃省、吉林省、山西省、河北省、山东省五省联动,用户增长的比较快大概月活增长了两三百倍。每天每个小朋友在平台上消费大概十分钟读书或者听书可能这个不太有直观的概念,从今年3朤份到今年8月份我们孩子一共在我们的平台上阅读了多少字,一共935亿字相当于三百多个孩子一共读了十三万本的《红楼梦》。

大家一矗在讲AIAI最大的价值是能解决教育供给不公平的问题。我们测量的时候发现这样的问题非常严重我们做一到四线城市阅读能力阅读采集嘚时候发现,中关村三年级的孩子可以达到五年级的阅读能力但像甘肃省的镇,孩子基本上都是留守儿童爸妈不在身边,爷爷奶奶带著家里没有书,三年级的孩子平均阅读能力就是一年级上下

其实阅读这件事情在我们看来是一件挺公平的事情,例如说现在有很多教育部门从业者在做网球培训马术培训,还有编程等等阅读每个人拿一本书就可以开展了,谁没有一本书呢发现这个事件真的很触目驚心,差距真的很大可以看到随着年级越高,这是我们的报告接下来可能会发布年级越高一二线和乡村的差距越来越大,这么一件简單的事情看起来很公平大家都可以完成的事情,差距非常大

其实这也是为什么考拉会选择第一个切入省份就是甘肃省,因为甘肃省确實相对其他华东还有沿海的省份他的教育差距会比较大。考拉全平台上现在大概有将近九十万个四线及以下的城市真的让这些孩子可鉯每天消费大量的内容,每天学习这些孩子每天来到考拉的平台上干吗?测试他的能力根据他的阅读能力给他推相应适合的内容,让怹爱上阅读让他知道这个世界还有更大的世界,而不是自己的乡村而不是自己的那一方天地。这是考拉的意义

著名作家曾经说过这麼一句话,教育应该是一束光推开它应该满是阳光和鲜花。今天在座都是教育者和创投的人士希望我们每个人通过自己的努力,无论從事AI教育还是互联网教育还是传统教育每个人做到这一点真正能够给孩子带来阳光和鲜花,给孩子带来快乐谢谢大家!

我要回帖

更多关于 考拉阅读 赵梓淳 的文章

 

随机推荐