Python师资培训-爬虫与文本分析遇见AI 2024 new 我要报名 ¥5000
Peixun.net > 现场班 > 计量实证分析 > Python师资培训-爬虫与文本分析遇见AI 2024 new

Python师资培训-爬虫与文本分析遇见AI 2024 new

满意程度:     课程系列:A4
课时:0 分钟| 75人学习 分享 收藏
2024年新课
Python师资培训-爬虫与文本分析
基于AI辅助的爬虫与文本分析
北邮博导陈远祥亲授和答疑

上课信息

上课时间: 2024年4月13-14, 20-21日 (四天)
9:00-12:00;14:00-17:00;答疑

上课地点: 远程直播,提供录播回放

Python师资培训-爬虫与文本分析遇见AI 2024 new

1. 爬虫与文本分析概述

目标:了解爬虫和文本分析常见应用场景,如何高效挖掘文本价值

1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述

2) 高效的编程语言实现结构化数据处理与文本分析的价值

2. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识,学会简单网页制作

1) 什么是网络爬虫

2) 爬虫的基本原理

3) web网页基础

4) 爬虫基本流程

3. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

4. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模

拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) get请求与post请求

3) 单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

5. Beautiful Soup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

6. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

7. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 深度学习识别滑动验证码

8. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法,理解分布式爬虫原理

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

5) 分布式爬虫原理

6) 分布式爬虫部署

9. 基于AI辅助的网络爬虫

目标:利用AI辅助爬虫,提高爬虫效率

1) 自动提取信息

2) 适应动态网页

3) 突破反爬机制

10. 文本分析概述

目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战

11. 文本单元的提取与标注

目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法

1) 文本清洗

2) 分词

3) 词性标注

12. 文本特征的选取与表示

目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点

1) 文本向量化

2) 词袋模型

3) TF-IDF

4) Word2Vec

5) GloVe

6) Doc2vec

13. 关键词提取

目标:掌握三种关键词提取方法

1) TF-IDF

2) TextRank

3) LDA

14. 文本分析的应用

目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

15. 基于深度学习的文本分析技术

目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的

引入

1) RNN

2) Bi-LSTM

3) textCNN

4) GRU

5) 注意力机制

6) BERT和Transformer

16. 基于AI辅助的文本分析

目标:AI辅助文本分析,高效提取文本价值

1) 文本摘要

2) 文本翻译

3) 文本分类

4) 文本聚类

5) 情感分析


报名时间 2024-03-18 00:00 至 2024-04-13 00:00
培训时间 2024年4月13-14, 20-21日 (四天)
培训地点 远程直播,提供录播回放
培训费用 5000元,提供电子版发票+通知+结业证书
授课安排 9:00-12:00;14:00-17:00;答疑


【授课老师】

陈远祥,北京邮电大学副教授,博士生导师,北京大学博士,北京大学优秀博士后,数据分析与机器学习资深讲师。主要科研方向:数据分析、大数据处理、智能信号处理和图像。

发表SCI/EI学术论文100余篇,其中第一或通讯作者论文60余篇,授权国家发明专利20余项。主持国家自然科学基金面上项目,国家重点研发计划课题,国家自然科学基金青年项目及博士后基金等多个国家级和省部级项目。IEEE、OSA会员,多个SCI期刊审稿人。



【课程大纲】

1. 爬虫与文本分析概述

目标:了解爬虫和文本分析常见应用场景,如何高效挖掘文本价值

1) 爬虫常见应用场景,结构化数据/文本数据的获取方法概述

2) 高效的编程语言实现结构化数据处理与文本分析的价值

2. 爬虫基础

目标:掌握爬虫基本概念,爬虫基本流程,掌握网页基础知识,学会简单网页制作

1) 什么是网络爬虫

2) 爬虫的基本原理

3) web网页基础

4) 爬虫基本流程

3. 页面解析和数据存储

目标:掌握正则表达式的用法,学会利用正则表达式进行文本信息提取,掌握常见文本信息存储方法

1) 基于正则表达式的文本信息提取

2) 文本文件存储

3) JSON文件存储

4. urllib和requests

目标:掌握两种基本的请求发送方法,通过案例展示,实现单页和多页数据爬取,掌握动态页面爬取方法,掌握模

拟登录,IP代理常用方法,实现高效率、大规模的网络爬取

1) 请求头的构造

2) get请求与post请求

3) 单页和多页数据的爬取

4) 动态页面的数据爬取

5) 模拟登录

6) 代理的基本使用

7) 高效代理池的维护

5. Beautiful Soup和Xpath

目标:通过案例,掌握两种高效的网页信息解析和提取方法,实现网络数据的高效提取

1) Beautiful Soup简介

2) Beautiful Soup的页面解析

3) Beautiful Soup节点选择方法

4) 什么是Xpath

5) Xpath常用匹配规则

6) Xpath的节点选择

6. Selenium和Playwright

目标:通过案例,掌握动态渲染页面的两种自动化的爬虫方法

1) Selenium的安装与配置

2) Selenium的基本使用

3) 页面的访问与节点定位

4) 节点信息的获取

5) Playwright的安装

6) Playwright的编写模式

7) Playwright代码生成

8) Playwright的常用操作方法

7. 验证码的处理

目标:针对验证码反爬虫机制,掌握几种常用验证码识别方法

1) OCR识别验证码

2) 图像匹配识别滑动验证码

3) 深度学习识别滑动验证码

8. Scrapy和分布式爬虫

目标:掌握scrapy爬虫框架和常用方法,理解分布式爬虫原理

1) scrapy框架介绍

2) scrapy入门

3) scrapy的节点选择

4) Spider的用法

5) 分布式爬虫原理

6) 分布式爬虫部署

9. 基于AI辅助的网络爬虫

目标:利用AI辅助爬虫,提高爬虫效率

1) 自动提取信息

2) 适应动态网页

3) 突破反爬机制

10. 文本分析概述

目标:掌握文本分析的基本概念,文本分析的发展历程,文本分析流程和挑战

1) 文本数据与文本分析

2) 自然语言处理的流派

3) 文本分析的常见应用

4) 文本分析的层次

5) 文本分析的流程

6) 文本分析的挑战

11. 文本单元的提取与标注

目标:掌握文本常用清洗方法,分词原理和方法,词性标注方法

1) 文本清洗

2) 分词

3) 词性标注

12. 文本特征的选取与表示

目标:掌握文本的常用结构化表示方法,利用多种方法实现文本特征提取,理解每种特征提取的优缺点

1) 文本向量化

2) 词袋模型

3) TF-IDF

4) Word2Vec

5) GloVe

6) Doc2vec

13. 关键词提取

目标:掌握三种关键词提取方法

1) TF-IDF

2) TextRank

3) LDA

14. 文本分析的应用

目标:掌握文本分析的常见应用,和传统的机器学习方法结合,实现文本的分类,聚类,摘要提取,情感分析等功

1) 文字云

2) 文本分类

3) 文本聚类

4) 文本摘要

5) 情感分析

15. 基于深度学习的文本分析技术

目标:掌握最新的深度学习在文本分析中的应用,包括RNN,LSTM,CNN,注意力,Transformer等模型和机制的引入

1) RNN

2) Bi-LSTM

3) textCNN

4) GRU

5) 注意力机制

6) BERT和Transformer

16. 基于AI辅助的文本分析

目标:AI辅助文本分析,高效提取文本价值

1) 文本摘要

2) 文本翻译

3) 文本分类

4) 文本聚类

5) 情感分析


【联系方式】

尹老师

电话:13321178792

QQ:42884447

WeChat:JGxueshu

JGxueshu.jpg

课程订阅

讲师介绍


Peixun.net

Python师资培训-爬虫与文本分析遇见AI 2024 new

请认真填写以下信息,方便为您服务
  • 姓名:
  • 电话:
  • 邮箱:
  • 备注:
  • 邀请码:
  • 您还可以选择 登录 或者 注册 更方便您管理课程。

Peixun.net

您关于:

Python师资培训-爬虫与文本分析遇见AI 2024 new

的报名信息已经提交成功。

去购物车结算
您可以选择 登录 或者 注册 更方便您管理课程。
回头再说
联系顾问 顾问微信

邮件已发送!

已成功发送邮件到您注册的邮箱 请前往查询并点击链接重置密码

有待解答的问题

3 名学员对您的课程提问,需要您作出回答。 现在就去