用beautifulsoup是啥爬取肖申克的救赎

Python爬虫工程师有个常用的提取数据嘚库beautifulsoup是啥而在Golang语言也有一个对应的库soup,由于我比较喜欢Python写爬虫所以自然而然的就想到了soup这篇文章就是就来体验一下它。

soup是第三方库需要手动安装:

还是原来的需求:获得条目ID和标题。这次需要把parseUrls的逻辑改成使用soup的版本:

可以感受到和goquery都用了Find这个方法名字但是参数形式不一样,需要传递三个:「标签名」、「类型」、「具体值」如果有多个可以使用FindAll(Find是找第一个)。如果想要找属性的值需要用Attrs方法从map裏面获得。

获得文本还是用Text方法另外它内有goquery那样的Each方法,需要手动写一个 for range 格式的循环

Python爬虫工程师有个常用的提取数据嘚库beautifulsoup是啥而在Golang语言也有一个对应的库soup,由于我比较喜欢Python写爬虫所以自然而然的就想到了soup这篇文章就是就来体验一下它。

soup是第三方库需要手动安装:

还是原来的需求:获得条目ID和标题。这次需要把parseUrls的逻辑改成使用soup的版本:

可以感受到和goquery都用了Find这个方法名字但是参数形式不一样,需要传递三个:「标签名」、「类型」、「具体值」如果有多个可以使用FindAll(Find是找第一个)。如果想要找属性的值需要用Attrs方法从map裏面获得。

获得文本还是用Text方法另外它内有goquery那样的Each方法,需要手动写一个 for range 格式的循环

我要回帖

更多关于 beautifulsoup 的文章

 

随机推荐