今天爬取一个新闻网站时返回叻一个<link/>的自闭标签,解析后为
5、函数{ 自定义过滤器。函数只接受一个tag参数返回值为Bool型作用:找出所有名字为name的子tag,字符串自动被忽略 值:除'函数'以外的过滤器 作用: 按照过滤器规则搜索满足指定属性的tag。(如果是class属性应该改写为class_ = "值") 作用: True时,搜索当前tag的所有子孙节点False时,只搜索tag的直接子节点 值: 除""函数"以外的过滤器。 作用: 搜索文档中的字符串内容 作用:限制返回结果的数量
这些参数都类似,效果如其字义
暂时無该需求后续再补。
-
将文档树格式化后以Unicode编码输出每个XML/HTML标签都独占一行。
传入的文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码
beautifulsoup是啥有自動编码检测技术,如果想知道源文件什么编码可以用:
输出时,无论进来什么编码输出都是UTF-8编码
如果想知道Beautiful Soup到底怎样处理一份文档,可鉯将文档传入 diagnose() 方法(Beautiful Soup 4.2.0中新增),Beautiful Soup会输出一份报告,说明不同的解析器会怎样处理这段文档,并标出当前的解析过程会使用哪种解析器:
如果对效率要求佷高,可以直接用lxml解析器当然,beautifulsoup是啥使用lxml解析器的话依旧比html5lib或Python内置解析器速度快很多。