爬虫HTML和XML文档树解析库BeautifulSoup4
课程介绍
课程章节 
课程公告

Beautiful Soup 是一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。


1. 大致了解HTML解析库的作用 试学
2. 以文档树的方式解析文档,安装解析库 试学
3. 通过内存变量或者文件两种方式创建解析库对象,指定解析器,消除提示 选修
4. -获取文档节点和节点属性,修改和删除节点属性 选修
5. 获取标签的文本值、注释内的文本值也可以获取 选修
6. 遍历文档树,获取子节点和儿孙节点对象,遍历各节点 选修
7. 搜索文档树,通过find_all函数的name参数传递字符串、正则、列表搜索 选修
8. 搜索文档树,通过keywords关键字匹配节点和text搜索文本值 选修
9. 搜索文档树,通过CSS的标签名、类名、id查找节点 选修
10. 搜索文档树,通过CSS的组合查找,匹配节点 选修
11. 搜索文档树,通过CSS的属性查找,匹配节点 选修
12. 通过get_text函数获取节点的内容,列表需要遍历各元素再取值 选修
13. 教案、代码下载 选修