Peixun.net > 现场班 > 计量实证分析 > Python爬虫学术应用

Python爬虫学术应用

课时:0 分钟| 20人学习 分享 收藏
通过通俗易懂的讲解,令是没有编程基础的研究人员通过学习,能够学会爬取主流网站的内容并整理成为可为后续分析提供依据的数据资料。

上课信息

上课时间: 2019年6月7-10日 (四天)
上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00

上课地点: 北京市海淀区丹龙大厦附近

Python爬虫学术应用

第1章 认识Python

1. Python的数据结构与函数

2. Python的循环与控制流

3. Python的基本扩展库

第2章 重新认识网络(2学时)

1. 什么是Web前端

2. HTML的结构

第3章 创建爬虫(4学时)

1. 什么是爬虫

2. Python爬虫的环境搭建

3. 爬虫三部曲——获取、解析、保持

小例子:创建第一个爬虫

第4章 复杂HTML解析(4学时)

1. 正则表达式

2. 一个名叫“心灵鸡汤”的扩展库

3. 导航树

4. 突破反爬虫的限制

案例1:静态页面爬虫

第5章 动态渲染页面的爬取(4学时)

1. Ajax和动态HTML

2. 无界面浏览器PhantomJS

3. 自动化测试库Selenium

案例2:动态爬虫

第6章 Scrapy爬虫架构(4学时)

1. Scrapy爬虫结构

2. 创建爬虫模块

3. 选择器

4. 构建Item Pipeline

5. 请求与相应

案例3:Scrapy爬虫

第7章 数据清洗(3学时)

1. 清洗结构化数据

2. 清洗非结构化数据

3. 数据标准化

案例4:计算词频

第8章 自然语言处理入门(3学时)

1. 获取文本语料

2. 加工原始文本

3. 从文本中提取信息

案例5:情感分析


报名时间 2019-03-29 00:00 至 2019-06-06 00:00
培训时间 2019年6月7-10日 (四天)
培训地点 北京市海淀区丹龙大厦附近
培训费用 3600元 / 3000元(学生价仅限全日制本科生及硕士在读)
授课安排 上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00


Python爬虫学术应用


大数据概念的不断升温,使得爬虫这项看似非常复杂、门槛极高的技术越来越多地出现在我们的视野里。越来越多的人开始接触、关注和学习爬虫。因为爬虫能够帮助我们获取大量有价值的数据,比如商品的销量、评价和消费人群,比如股票的名称、成交量和交易信息。


在了解爬虫的过程中,由于对这项技术缺乏系统了解,小白们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。有的人打算先搞懂基本原理和工作流程,有的人计划从软件的基本语法入门,也有人打算弄懂了网页文档再来……在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握正确的方法的确非常重要。


这一门课的目的,就是希望能够通过通俗易懂的讲解,令是没有编程基础的研究人员通过学习,能够学会爬取主流网站的内容并整理成为可为后续分析提供依据的数据资料。在这门课结束之后,我们能够爬取豆瓣的评论内容、淘宝的销售数据、房价的变化趋势,还能对股票市场进行分析和预测。


为了能够完整地呈现Python数据采集的方法和过程,这门课分为四大部分——


一、Python快速入门(可选,8学时)

在写爬虫之前,我们需要了解一些有关工具的基础知识。所以,第一天的授课内容是关于Python基础的,是后续课程中读懂并编写爬虫程序的铺垫。其中包括了Python的数据结构、变量类型、循环和控制语句、NumpyPandas包的基本功能。有基础的老师可以跳过这一部分直接进入第二部分。


1 认识Python

1. Python的数据结构与函数

2. Python的循环与控制流

3. Python的基本扩展库


二、初识爬虫(必选,6学时)

在这一部分中,我们将正式接触爬虫,我们也将感受到每天都在使用的浏览器究竟藏着哪些细节。为了能够得到清洁的数据,我们不得不忽略网页精致的外观和编排,刻意绕开浏览器的帮助来分离和理解数据。页源里除了我们认识的文字,那些标签都有着怎样的含义?如何把网页内容到我们的分析工具中来?爬取数据有怎样的规律可循?这些都是第二部分将要呈现的内容。


2 重新认识网络(2学时)

1. 什么是Web前端

2. HTML的结构


3 创建爬虫(4学时)

1. 什么是爬虫

2. Python爬虫的环境搭建

3. 爬虫三部曲——获取、解析、保持

小例子:创建第一个爬虫


三、页面解析(12学时)

在之前的课程中,我们已经知道了要怎样繁复的工程才堆砌出绚丽的网页,但这其中大部分的内容是我们并不需要的如何穿越层层与我们无关的标签和HTML属性抽取到清洁的数据内容?如何使用更简洁高效的方式达到目的?大名鼎鼎的正则究竟是什么?这些是4-6章要重点讲授的内容


4 复杂HTML解析(4学时)

1. 正则表达式

2. 一个名叫心灵鸡汤的扩展库

3. 导航树

4. 突破反爬虫的限制

案例1静态页面爬虫


5 动态渲染页面的爬取(4学时)

1. Ajax和动态HTML

2. 无界面浏览器PhantomJS

3. 自动化测试库Selenium

案例2动态爬虫


6 Scrapy爬虫架构(4学时)

1. Scrapy爬虫结构

2. 创建爬虫模块

3. 选择器

4. 构建Item Pipeline

5. 请求与相应

案例3Scrapy爬虫


四、爬取结果的处理(6学时)

到目前为止,我们处理的还都是规范数据,但现实是,我们面对更多的是样式不规范的数据,放弃不符合预期的数据并不是一个长久之计。在我们无法挑选数据时,这一章的内容就显得格外有用了。一个长句中究竟包含了哪些有效信息?一条评价反映出客户怎样的态度?接下来的内容将介绍一些工具和方法,帮助我们控制或筛选进入视线的数据,为后续的数据分析做准备。


7 数据清洗(3学时)

1. 清洗结构化数据

2. 清洗非结构化数据

3. 数据标准化

案例4计算词频


8 自然语言处理入门(3学时)

1. 获取文本语料

2. 加工原始文本

3. 从文本中提取信息

案例5情感分析



优惠:

现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;

以上优惠不叠加。



联系方式:

魏老师

QQ:28819897142881989714

Tel:010-68478566

Mail:vip@pinggu.org

课程订阅

讲师介绍


Peixun.net

Python爬虫学术应用

请认真填写以下信息,方便为您服务
  • 姓名:
  • 电话:
  • 邮箱:
  • 备注:
  • 邀请码:
  • 您还可以选择 登录 或者 注册 更方便您管理课程。

Peixun.net

您关于:

Python爬虫学术应用

的报名信息已经提交成功。

去购物车结算
您可以选择 登录 或者 注册 更方便您管理课程。
回头再说

邮件已发送!

已成功发送邮件到您注册的邮箱 请前往查询并点击链接重置密码

有待解答的问题

3 名学员对您的课程提问,需要您作出回答。 现在就去