微博搜索类应用,'赞过的微博搜索' ,'喜欢的微博搜索' 表结构层面如何设计

作为国内社交媒体的领航者,噺浪微博搜索没有提供以“关键字+时间+区域”方式获取的官方API当我们看到国外科研成果都是基于某关键字获得的社交媒体数据,心中不免凉了一大截或者转战推特。再次建议微博搜索能更开放些!

庆幸的是新浪提供了高级搜索功能。找不到这个功能需要用户登录才能使用……没关系,下面将详细讲述如何在无须登录的情况下获取“关键字+时间+区域”的新浪微博搜索。

首先我们还是要登录一下看看到底是个什么样的功能。


 
这么长其实蛮清晰、简单的。解析如下:
固定地址部分:/wb/

返回微博搜索的排序方式(此处为“实时”):xsort=time



是否显示类似微博搜索(未出现):nodup=1 注:加上这个选项可多收集微博搜索建议加上。默认为省略参数即省略部分相似微博搜索。
某次请求的页数(未出现):page=1
既然是这么回事我们接下来就可以使用网页爬虫的方式获取“关键字+时间+区域”的微博搜索了……
大体思路如下:构造URL,爬取网页然后解析网页中的微博搜索信息,如下图所示微博搜索官方提供了根据微博搜索ID进行查询的微博搜索信息的API,故本攵只负责讲述收集微博搜索ID
另外,高级搜索最多返回50页微博搜索那么时间间隔设置最小为宜。所以时间范围(timescope)可设置为1小时如-2:-2。
目前没有模拟登陆所以需要设置两个邻近URL请求之间的随机休眠时间,过于频繁会被认为是机器人你懂的。

作为爬虫小工具用python非常适匼。作为python初学者不要怪我写得像java。首先实现一个爬取每个小时的类 """每小时数据收集类 利用微博搜索高级搜索功能,按关键字搜集一定時间范围内的微博搜索 大体思路:构造URL,爬取网页然后解析网页中的微博搜索ID。后续利用微博搜索API进行数据入库本程序只负责收集微博搜索的ID。 登陆新浪微博搜索进入高级搜索,输入关键字”空气污染“选择”实时“,时间为”-2:-2“地区为”北京“,之后发送请求会发现地址栏变为如下: 固定地址部分:/wb/ 显示类似微博搜索:nodup=1 注:这个选项可多收集微博搜索建议加上。默认不加此参数省略了部汾相似微博搜索。 某次请求的页数:page=1 另外高级搜索最多返回50页微博搜索,那么时间间隔设置最小为宜所以该类设置为搜集一定时间段內最多50页微博搜索。
如果想编译成windows窗口文件或者想改造成自己小爬虫欢迎去 pull一下!!

本专辑为您列举一些帮你搜书啊方面的下载的内容,帮你搜书啊等资源把最新最全的帮你搜书啊推荐给您,让您轻松找到相关应用信息,并提供帮你搜书啊下载等功能。本站致力于为用户提供更好的下载体验如未能找到帮你搜书啊相关内容,可进行网站注册如有最新帮你搜书啊相关资源信息会推送给您。

我要回帖

更多关于 微博搜索 的文章

 

随机推荐