最近几天抖音有点火火到新榜夶号上周(、share、video 和5402116四个部分组成,其中前三部分是固定的唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑我们只需要使用脚本不斷递增该ID,即可实现遍历所有的视频
实操发现,简单递增视频ID构造的URL视频并不存在看来抖音对视频的ID是做了加密处理的。尝试分享了幾个视频发现ID有一定的规律,但数据量较小无法做到解密。时间有限我们下次再研究视频ID的递增逻辑。
除了通过网页的源代码采集網络数据外对于APP信息的采集多通过抓包实现。所谓“抓包”就是截获手机与服务器之间通信的数据,进行解析获取通信间传递的数据
我们使用常用的抓包工具Fiddler,获取手机上抖音APP获取视频过程的数据进行分析
抓包软件截获了手机与通信的过程,百度该链接确认其为今ㄖ头条产品:
开始的几个视频请求地址是相同的多划几次后发现增加了一个/aweme/v1/feed/?XXXXX的请求地址。这就好玩了我们都知道feed是流的意思,百度的信息流新闻地址也是可以初步判定,从这个地址请求的数据应该是“流”式的也就是说至少包含多个视频信息!
解包后发现果然不出所料!
json中包含了作者、视频和背景音乐等多种信息。
高级的是一次请求,服务器返回了6个视频信息!
和请求规律相同每下划5次会向feed地址发起一次请求。
剩下的就可以交给脚本,“躺在床上”无限下划了
大量数据背后,理论上我们可以分析抖音的推荐逻辑毕竟每6个視频一组打包下载,肯定存在某种规律;
采集的信息中包含了作者的性别、年龄、地理位置、学校等信息用户画像也是可以分析出来的;
追踪作者信息,可以深层次挖掘作者的作品数、获赞数、粉丝数等数据榜单也可以来一发了;
最开始网页源代码采集的时候我们知道,视频的实际阅读量也是可以采集的那么视频曝光量也就知道了,曝光量=广告价值;
抖音应该快采取措施封停这种粗暴的采集了要上車的赶紧……