python网络爬虫实战
第一部分: Python静态网页解析的学习
本部分课程需要掌握的要点如下:
静态网页的请求以及基础的网页的结构(requests库, urllib库)
静态网页如何进行解析(beautifulsoup库)
如何将数据保存到数据库
第四部分: Python动态网页的抓取
该部分课程主要讲解动态加载的网页如何进行处理.(selenium库)
常用的动态网页的处理方法.
提高爬取速度, 无头浏览器的使用.(PhantomJS的安装使用)
该部分需要学员额外安装selenium库, 以及PhantomJS软件.
案例:抓取智联招聘网站的招聘信息,并保存到数据库中
录制视频部分(往期)
1-1立即播放
1-2
1-3
1-4
1-5
2-1
2-2
2-3
2-4
2-5
录制视频部分(本期缺少一节)
1-1
1-2
1-3
1-4
1-5
2-1
2-2
2-3
2-4
学员要求:
1.教学使用的环境为基于Python3版本的Anaconda集成环境(提供安装支持)
2.需要安装Chrome浏览器
3.需要掌握python基本技能,要点如下:
1.基础数据类型
2.基础数据结构
3.控制流
4.异常处理
4.需要掌握关系型数据库(SQL)基本操作(创建数据库(表)、插入数据等)
第一部分:Python静态网页解析的学习
1.该部分课程讲解如何解析静态网页(beautifulsoup), 对最常用的部分进行重点讲解, 以保证学员在没有HTML语言的基础下依旧能够较好的完成网页的解析工作.
2.该部分课程在讲解时会结合实际的网页进行操作, 需要学员随堂一起操作.
3.本部分需要学员安装Chrome浏览器, 以便在爬取网页时方便进行调试.
4.本部分涉及少量的HTML知识, 学员可提前做一个了解(但不是必须的).
5.本部分涉及少量数据库知识, 学员可提前了解, 为提高教学质量, 保证学员能够在自己的电脑上完成爬取和存储, 本部分采用Python内置数据库sqlite3. 从而避免学员自己电脑上未安装数据库导致无法跟上的问题
6.该部分课程需要学员随堂一起练习
本部分课程需要掌握的要点如下:
1.静态网页的请求以及基础的网页的结构(requests库, urllib库)
2.静态网页如何进行解析(beautifulsoup库)
3.如何将数据保存到数据库
第二部分:Python动态网页的抓取
1.该部分课程主要讲解动态加载的网页如何进行处理.(selenium库)
2.常用的动态网页的处理方法.
3.提高爬取速度, 无头浏览器的使用.(PhantomJS的安装使用)
4.该部分需要学员额外安装selenium库, 以及PhantomJS软件
5.案例:爬取智联招聘网站的招聘数据,并保存到数据库中