爬虫HTML和XML文档树解析库BeautifulSoup4 - 跟Tom学编程的个人学习主页

首页 > 课程中心 > python > Python > 爬虫HTML和XML文档树解析库BeautifulSoup4

爬虫HTML和XML文档树解析库BeautifulSoup4

课程介绍

课程章节

课程公告

Beautiful Soup 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

1. 大致了解HTML解析库的作用试学

2. 以文档树的方式解析文档，安装解析库试学

3. 通过内存变量或者文件两种方式创建解析库对象，指定解析器，消除提示选修

4. -获取文档节点和节点属性，修改和删除节点属性选修

5. 获取标签的文本值、注释内的文本值也可以获取选修

6. 遍历文档树，获取子节点和儿孙节点对象，遍历各节点选修

7. 搜索文档树，通过find_all函数的name参数传递字符串、正则、列表搜索选修

8. 搜索文档树，通过keywords关键字匹配节点和text搜索文本值选修

9. 搜索文档树，通过CSS的标签名、类名、id查找节点选修

10. 搜索文档树，通过CSS的组合查找，匹配节点选修

11. 搜索文档树，通过CSS的属性查找，匹配节点选修

12. 通过get_text函数获取节点的内容，列表需要遍历各元素再取值选修

13. 教案、代码下载选修

相关资讯

更多>>

[11-24]

[11-24]

[11-24]

[11-17]

[11-15]

[11-15]

[11-11]

[09-11]

[08-30]

Pandas超市营业额分析

[08-30]