一,Python静态网页解析的学习
该部分课程讲解如何解析静态网页(beautifulsoup), 对最常用的部分进行重点讲解, 以保证学员在没有HTML语言的基础下依旧能够较好的完成网页的解析工作.
该部分课程在讲解时会结合实际的网页进行操作, 需要学员随堂一起操作.
本部分需要学员安装Chrome浏览器, 以便在爬取网页时方便进行调试.
本部分涉及少量的HTML知识, 学员可提前做一个了解(但不是必须的).
本部分涉及少量数据库知识, 学员可提前了解, 为提高教学质量, 保证学员能够在自己的电脑上完成爬取和存储, 本部分采用Python内置数据库sqlite3. 从而避免学员自己电脑上未安装数据库导致无法跟上的问题.
该部分课程需要学员随堂一起练习.
本部分课程需要掌握的要点如下:
静态网页的请求以及基础的网页的结构(requests库, urllib库)
静态网页如何进行解析(beautifulsoup库)
如何将数据保存到数据库
二,Python动态网页的抓取
该部分课程主要讲解动态加载的网页如何进行处理.(selenium库)
常用的动态网页的处理方法.
提高爬取速度, 无头浏览器的使用.(PhantomJS的安装使用)
该部分需要学员额外安装selenium库, 以及PhantomJS软件.