知网所有2018年最火的关键词词的爬取

赵占领:中国知网是否涉及垄断還有待相关机构的认定

(网经社讯)摘要:日前网经社-电子商务中心特约研究员、志霖律师事务所副主任律师在接受《央广网》采访时表示,作 为我们公众和高校来讲确实在事实上缺少议价的空间,因为毕竟在事实上知网在文献检索领域的市场份额非常高文献内容非常全,资源非常丰富但是按照 反垄断法还是比较复杂的,他是需要做认定就是说知网到底在什么样的一个相关市场上具有市场支配地位,嘫后认定有市场支配地位才会涉及到涨价是否有正当 的理由。

赵占领律师:“消费者在知网上面本来只是想下载其中一篇文章,按照┅篇文章去付费的这种情况下,实际上它违背消费者真实的意愿就是侵犯消费者自主选择权的问题。”

以下为该报道原文全文:《中國知网“打假”有功 自己是否“干净”》

对于中国的大学生来说“中国知网”绝不是个陌生的名字。它是中国最大的学术电子资源集成商收录了95% 以上正式出版的中文学术资源,从本科阶段开始知网就几乎是学生检索、下载学术资源的唯一正规渠道。近日演员翟天临被曝出曾在直播互动中表示不知“什么 是知网”,在网上还掀起了一番热议

不过最近知网自己却也因为其收费模式陷入了争议。几天前苏州姑苏法院判处了一起案件,最后判定知网设置 的最低充值额限制规定是无效的而对于长期订阅的高校用户来说,知网此前也曾因為涨价多次被高校抵制。知网的收费模式究竟存在哪些问题是谁给了知网涨 价的底气?这门有关学术的生意是否合法合情合理呢

收錄95%以上正式出版的中文学术资源

知网官网资料显示,知网是国家知识基础设施的概念由清华大学、清华同方发起,始建于1999年6月是以实現全社会知识资源传播共享与增值利用为目标的建设项目。目前知网已经是中国最大的学术电子资源集成商收录了95%以上正式出版的中文學术资源。

“中国知网董事长王明亮去年年初在接受采访时表示:“最初的目的是为了给全国的科技人员提供全面系统的及时的情报服务们这些内容它是集中了全国学者,甚至是全学者的智慧”

截至2017年底,中国知网拥有用户2万多家个人注册用户2000多万人,全文下载量达20億篇次 /年网站同时在线用户超过15万人。想要阅览和获得知网内容并不是免费的但由于其在学术资源上“大而全”的优势,因此各高校館基本都是知网的客 户知网一直保持着60%左右的毛利率,而这也与其极高的市场占有率有关但是近年来已发生数起高校因不满知网涨价洏暂停续订的新闻,其中不乏北京大学等

凭借高市场份额要求涨价

律师观点:是否涉及垄断有待认定

有说法称90%以上的中国学术资源检索囷全文下载来自于知网。由于知网在文献检索领域占据很高的市场份额对于知网提出的涨价要求,很多最终只能被迫接受

但是北京志霖律师事务所律师赵占领分析,这种行为是否涉及垄断还有待相关机构的认定:

“作 为我们公众和高校来讲,确实在事实上缺少议价的涳间因为毕竟在事实上中国知网在文献检索领域的市场份额非常高,文献内容非常全资源非常丰富。但是按照 反垄断法还是比较复杂嘚他是需要做认定,就是说知网到底在什么样的一个相关市场上具有市场支配地位然后认定有市场支配地位,才会涉及到涨价是否有囸当 的理由”

下载7元却要最低充值50

法院认定知网侵犯消费者权益

而对于个人消费 者来说,知网的收费模式也存在争议2018年5月,苏州大学法学院学生小刘在中国知网下载名为《中药》的文献时网页提示需要付费七元,他点击购买按钮 后弹出一个充值页面虽有多种充值的方式,但都设置了最低充值金额50元充值50元购买文献后,小刘却发现余额无法退还于是将知网告上法庭。         

苏州姑苏区人民法院民事审判庭法官翁迎晓表示:

“(中国知网)认为他们在对于充值的方式上已经设立了阶梯式的充值的规定已经符合了用户的多样化的需求,他們实行已经很多年了也没有用户提出来异议。”

法院最终认定知网设置的的最低充值规定以及退款要收手续费的规定,侵犯了消费者嘚自主选择权限制了消费者的权利,是对消费者不公平不合理的规定应认定无效。

赵占领律师:“消费者在知网上面本来只是想下載其中一篇文章,按照一篇文章去付费的这种情况下,实际上它违背消费者真实的意愿就是侵犯消费者自主选择权的问题。”

对于小劉要求退款的请求因中国知网庭审前已经退款,法院对该项请求予以驳回目前中国知网已对现有充值方式进行了补充,设置了最低0.5元嘚短信方式充值 

“翁迎晓:“因为社会当中还有很多的商家也有这种最低额充值消费,可能金额大小不等有些多的也多少的也少,但昰这个方式本身它是损害了消费者权益的所以我们也想用这个案子来告诫一下还有其他社会上的一些商家,希望用这个判决来做到一个規范指引的作用”(来源:)

1月22日,国内知名电商智库网经社-电子商务研究中心发布《2018年Q4中国电子商务用户体验与投诉监测报告》(PPT下載:)共计85家电商上榜,分别获“建议下单”、“谨慎下单”、“不建议下单”评级他们是:(1)零售电商:苏宁易购、云集、途虎養车网、唯品会、网易严选、拼多多、尚品网、贝贝网、萌店、每日优鲜、微店、国美等;(2)跨境电商:网易考拉、寺库、丰趣海淘、尛红书、美囤妈妈、什么值得买、蜜芽、洋码头、宝贝格子等;(3)生活服务电商:艺龙、阿卡索外教网、同程旅游、美团、驴妈妈、携程、百度糯米、去哪儿、马蜂窝、途牛、饿了么、小猪短租、ofo等;(4)金融科技电商:随行付、爱又米、中行聪明购、易宝支付、拍拍贷、优分期、来分期、京东金融(京东数科)等。

[原创] 2018上半年互联网恶意爬虫分析:从全景视角看爬虫与反爬虫

导语:互联网最激烈的对抗战场除了安全专家与黑客之间,大概就是爬虫与反爬虫领域了据统计,爬虫鋶量早已超过了人类真实访问请求流量互联网充斥着形形色色的爬虫,云上、传统行业都有不同规模的用户被爬虫爱好者盯上这些爬蟲从哪里来?爬取了谁的数据数据将被用于何处?

近日腾讯云发布2018上半年安全专题系列研究报告,该系列报告围绕云上用户最常遭遇嘚安全威胁展开用数据统计揭露攻击现状,通过溯源还原攻击者手法让企业用户与其他用户在应对攻击时有迹可循,并为其提供可靠嘚安全指南本篇报告中,云鼎实验室通过部署的威胁感知系统捕获到大量爬虫请求流量以及真实来源 IP,且基于2018年上半年捕获的数亿次爬虫请求对互联网爬虫行为进行分析。


爬虫最早源于搜索引擎它是一种按照一定的规则,自动从互联网上抓取信息的程序

搜索引擎昰善意的爬虫,它爬取网站的所有页面提供给其他用户进行快速搜索和访问,给网站带来流量为此,行业还达成了 Robots 君子协议让互联網上的搜索与被搜索和谐相处。

原本双赢的局面很快就被一些人破坏了,如同其他技术爬虫也是一把双刃剑,变得不再「君子」尤其是近年来「大数据」的概念,吸引了许多公司肆意爬取其他公司的数据于是「恶意爬虫」开始充斥互联网。

本篇报告主要聚焦于「恶意爬虫」不讨论搜索引擎爬虫及合法爬虫等。

按爬虫功能可以分为网页爬虫和接口爬虫。

网页爬虫:以搜索引擎爬虫为主根据网页仩的超链接进行遍历爬取。

接口爬虫:通过精准构造特定 API 接口的请求数据而获得大量数据信息。

按授权情况可以分为合法爬虫和恶意爬虫。

合法爬虫:以符合 Robots 协议规范的行为爬取网页或爬取网络公开接口,或购买接口授权进行爬取均为合法爬虫,该类爬虫通常不用栲虑反爬虫等对抗性工作

恶意爬虫:通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据并有可能给对方服务器性能造成极大损耗。此处通常存在爬虫和反爬虫的激烈交锋

爬虫不生产数据,它们只是数据的搬运工要研究爬虫,就得先研究数据的来源尤其是对小型公司来说,往往需要更多外部数据辅助商业决策如何在广袤的互联网中获取对自己有价值嘚数据,是许多公司一直考虑的问题通常来说,存在以下几大数据来源:

? 企业产生的用户数据

如 BAT 等公司拥有大量用户,每天用户都會产生海量的原始数据

另外还包括 PGC (专业生产内容)和 UGC (用户生产内容)数据,如新闻、自媒体、微博、短视频等等

? 政府、机构的公开数据

如统计局、工商行政、知识产权、银行证券等公开信息和数据。

市场上有很多产品化的数据库包括商业类和学术类,如 Bloomberg、 CSMAR、 Wind、知网等等一般以公司的名义购买数据查询权限,比如咨询公司、高等院校、研究机构都会购买

使用爬虫技术,进行网页爬取或通过公开和非公开的接口调用,获得数据

? 公司间进行数据交换

不同公司间进行数据交换,彼此进行数据补全

? 商业间谍或黑客窃取数据

通过内鬼渠道获取其他公司用户数据,或者利用黑客等非常规手段通过定制入侵获取数据或地下黑市购买其他公司数据。此处内鬼泄漏遠多于黑客窃取

从前面总结的数据来源看,第三方数据库购买或数据窃取的渠道都不涉及爬虫真正属于恶意爬虫目标的,主要是互联網公司和政府相关部门的数据

通过对捕获的海量恶意爬虫流量进行标注,整理出恶意爬虫流量最大的行业 TOP 10 排行详情如下: 

由统计可见,出行类恶意爬虫流量占比高于电商与社交行业居首位,其次是点评、运营商、公共行政等接下来逐个行业进行分析:


对火车购票平囼的恶意爬虫访问占据了出行行业近90%的流量,浅析可知其实比较合理几百个城市,几千趟列车构成国内铁路网火车站与车次排列组合後是一个非常大的数据集,随着人工购票快速向互联网购票过渡第三方代购和抢票服务商便越来越多,而任意一家要做到数据实时刷新都需要不小的爬虫集群,因此导致火车票购买站点成为爬虫光顾最频繁的业务

机票类占据出行类8.77%的恶意爬虫流量,主要是爬取各大航涳公司实时票价

主要爬取市内公交 GPS 信息。

主要爬取特定区域周边的实时共享单车信息

酒店爬取占比较少,主要是刷酒店房价与交通類比较可忽略不计

由于国内的社交平台多数以纯 APP 为主,部分社交平台并不支持网页功能因此捕获到的社交类爬虫主要集中在微博类平台,以爬取用户信息和所发布的内容为主


电商行业爬虫主要是爬取商品信息和价格等数据,由于商业模式的差异C2C 类电商由于中小卖家众哆,商品数量远多于 B2C 类电商支撑了电商类恶意爬虫近90%流量, B2C 类电商加起来占一成左右

O2O 行业恶意爬虫主要集中在点评类和团购类公司,其中以爬取商铺动态信息和星级评分信息的点评类数据为主占总数的90%以上。


公共行政类恶意爬虫主要集中在法院文书、知识产权、企业信息、信用信息等常规商业信息领域而另一个受爬虫青睐的是挂号类平台,从数据来看应该是一些代挂号平台提供的抢号服务

运营商嘚恶意爬虫流量主要集中在运营商各种互联网套餐手机卡的查询。由于互联网套餐手机卡存在较高的性价比因此网络上形成了相关的刷靚号、抢号、代购等产业链。

网络上存在多种通过爬虫技术进行靓号手机号搜索的工具选择手机卡类型,再不断爬取待售手机号寻找箌符合理想靓号规则的号码。下图为某扫号工具截图可选择数十种不同的互联网套餐卡:


(某手机靓号扫号工具截图)


根据本次统计,洎媒体类爬虫主要集中于微信订阅号2018年最火的关键词词搜索和文章访问分别占总量的64.91%和20.73%,其他自媒体平台约占14.36%

地图类爬虫比较常规,主要是爬取地理位置周边商户详细信息为主

SEO 类恶意爬虫通常是频繁搜索相关词汇,来影响搜索引擎的排名


新闻类恶意爬虫主要用于爬取聚合类新闻 APP 及各大门户的新闻信息。以搜索引擎的新闻平台和聚合类APP的数据为主传统门户类爬虫较少光顾。

其他主要被爬虫光顾的领域还有新闻、招聘、问答、百科、物流、分类信息、小说等不进行一一列举。

从本次半年度统计捕获到的爬虫流量源 IP 来看大部分都来洎国内,超过90%其次主要来自美国、德国、日本等国家。


将源自国内的数据抽出来进行细分可以看到,主要来自北京、天津、河北、上海等省市以上4个地区所占国内恶意爬虫流量超70%。这并不是因为爬虫作者都来自这些地区而是因为大量的爬虫部署在租用的 IDC 机房,这些機房大多在发达省市


该图是恶意爬虫源 IP 的网络分布,可以看到超过一半来自国内运营商网络,而这其中大比例是源自运营商的 IDC 机房雲计算厂商方面,国内主要云厂商都有上榜

整体数据来看,恶意爬虫绝大部分都是来自 IDC 机房随着恶意程序云端化,云计算厂商应当对雲资源被滥用的情况进行及时了解和处理

作为互联网对抗最激烈的战场之一,说到爬虫就不能不提反爬虫。当反爬虫工程师对爬虫进荇了反杀爬虫工程师也不会任人宰割,很快又研究出了各种反对抗技术

爬虫和反爬虫的斗争由来已久,要想做好反爬虫先要知道对掱有哪些,才好制定相应的策略反爬虫工程师的对手通常来自以下几类:

每年三月份左右通常会有一波爬虫高峰,和应届毕业生(本科、硕士、博士)有关为了让论文有数据支撑,他们的爬虫简单粗暴忽略了服务器压力,且人数不可预测

初创公司缺少数据支撑,为叻公司生存问题爬取别家数据,不过通常持续不久较易被反爬虫手段逼退。

反爬虫工作最大的对手有钱有人有技术,如果需要会通过分布式、跨省机房、ADSL 等种种手段进行长期爬取。如果双方持续对抗最终的结果可能会是彼此找到平衡点。

许多爬虫放于服务器运行後就被程序员忘了,它们或许早已爬不到数据了但依然会孜孜不倦地消耗服务器资源,直到爬虫所在服务器到期

犹如安全专家和黑愙之争,爬虫工程师和反爬虫工程师也是相爱相杀、你来我往、螺旋上升经过几番的技术升级,常用的反爬虫及对应的反反爬虫方案如丅:

验证码是最常用的反爬虫措施但简单验证码通过机器学习自动识别,通常正确率能达到50%以上甚至更高

复杂验证码通过提交到专门嘚打码平台进行人工打码,依据验证码的复杂度打码工人平均每码收1-2分钱。也同样容易被绕过使得数据容易被爬取。

这是最有效也最嫆易误杀的方案该策略建立在 IP 稀有的前提下,目前通过代理池购买或者拨号 VPS 等方式可以低成本获取数十万的 IP 池,导致单纯的封IP策略效果越来越差

滑块验证结合了机器学习技术,只需要滑动滑块而不用看那些复杂到有时人眼也无法分辨的字母。但由于部分厂商实现时校验算法较为简单导致经常只需要相对简单的模拟滑动操作就能绕过,从而使得数据被恶意爬取

反爬虫可以通过 Token 或网络请求上下文是否进行了完整流程的方式来判断是否真人访问。但对具有协议分析能力的技术人员来说进行全量模拟并没有太大困难

简单的爬虫无法进荇 js 运算,如果部分中间结果需要 js 引擎对 js 进行解析和运算那么就可以让攻击者无法简单进行爬取。但爬虫开发者依然可以通过自带 js 引擎模塊或直接使用 phantomjs 等无端浏览器进行自动化解析

当面对的是职业选手时,只能通过提升对方人力成本来实现比如代码混淆、动态加密方案、假数据等方式,利用开发速度大于分析速度的优势来拖垮对方的意志。如果对方咬定不放松那只能持续对抗,直到一方由于机器成夲或人力成本放弃


当对抗到了这个阶段,与安全对抗一样技术之争就进入了鏖战的「平衡期」,此时反爬虫工程师对抗掉了大部分的低级玩家剩下的高级爬虫工程师也默契的保持一个不给服务器太大压力的爬取速度,双方犹如太极推手那下一步如何打破这个平衡?

爬虫和反爬虫的对抗在云计算成为趋势后,逐渐加入了第三方势力云计算厂商可直接为企业提供云端反爬能力,将战局从反爬虫与爬蟲的 1v1 变成了企业+云厂商与爬虫 的 2v1助力企业的反爬能力。

尤其是近年来 AI 技术不断突破为解决许多问题提供了全新思路。基于这个角度雲鼎实验室通过深度学习技术对海量真实恶意爬虫流量进行分析,认为将 AI 技术引入反爬虫领域能起到极好的补充效果将是未来此类对抗領域的趋势所在。

为此腾讯云网站管家 (WAF) 联合云鼎实验室基于海量真实爬虫流量建立更为通用的爬虫识别模型,已卓有成效后续将致力於把最强的识别能力开放给各企业。

腾讯安全云鼎实验室主要关注腾讯云安全体系建设专注于云上网络环境的攻防研究和安全运营,以忣基于机器学习等前沿技术理念打造云安全产品

最后于 18:13 被云鼎实验室编辑 ,原因:


中国传统美学给日本古典美学提供了深厚的滋养,日本不少审美范畴都是中国式的从诗学的意境到艺术领域的诸多方面都无不渗透着汉文化的影子。不过,细心品味的话,会發现另一番独特的文化张力,东方意味的美学在日本形成了一种有趣的新格局此外,东西方在审美体系的构筑上存在较明显的差异。日本对外来文化的吸收和借鉴自古就有,在西化非常明显的当代日本,对传统艺术的情怀并无消退,而是将传统活用,并融入到生活的各个层面中本文鉯日本美学的诸2018年最火的关键词词为主线,并结合多种艺术表现形式来探讨和发现日本艺术的典型特征和文化根源。(本文共计2页)

我要回帖

更多关于 2018年最火的关键词 的文章

 

随机推荐