报名时间 |
2020-01-21 00:00 至 2022-12-26 00:00 |
培训时间 |
30小时 |
培训地点 |
在线学习,提供全部资料和主讲老师答疑 |
培训费用 |
5400元 |
授课安排 |
线上课程,随报随学 |
课程简介:
本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的用户,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。
该课程包括5天的线下现场教学+20小时以上的线上辅助教学视频内容,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。
优惠:
现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;
以上优惠不叠加。
联系方式:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu

课程大纲:
| 章节 | 内容 | 课程内容及目标 | 视频教学 | 直播教学 |
|
概述 | 爬虫与文本分析概述 | 结构化数据/文本数据的获取方法概述 | 如何使用编程工具辅助学术项目开展 | - | 0.5天 |
|
高效的编程语言实现结构化数据处理与文本分析的价值,文本分析简介 |
|
|
编程基础 | python编程基础 | 标准数据类型 | 学习爬虫获取数据/文本的编程基础,掌握python编程语言,并认识python常用库,掌握数据分析、文本操作、文本处理、可视化展示的技能 | 12小时 | 1.5天 |
|
控制流 |
|
自定义函数 |
|
类 |
|
os文件处理模块 |
|
python重要数据科学计算库 | Numpy |
|
Pandas |
|
Matplotlib |
|
Pyecherts |
|
wordcloud |
|
数据获取 | 爬虫基础 | 网络爬虫简介 | 了解爬虫技巧,包括爬取文档数据及网页数据 | 8小时 | 1天 |
|
爬虫的基本原理 |
|
HTML 简介 |
|
数据存储 |
|
网页抓取 | 使用Urllib网页抓取 |
|
requests实战 |
|
BeautifulSoup4 | BeautifulSoup 简介 |
|
BeautifulSoup 的安装 |
|
BS 对象的种类 |
|
遍历文档树 |
|
搜索文档树 |
|
Xpath | 什么是Xpath |
|
Xpath开发工具 |
|
Xpath常用规则 |
|
动态渲染页面抓取 | Selenium 的安装 |
|
基本使用 |
|
声明浏览器对象 |
|
访问页面 |
|
定位元素 |
|
节点交互 |
|
动作链 |
|
执行 JavaScript |
|
获取节点信息 |
|
延时等待 |
|
前进后退 |
|
Cookies |
|
选项卡管理 |
|
异常处理 |
|
爬虫实战 | 网站的爬取 | 网络数据的爬取 | - | 0.5天 |
|
电商评价文本爬取 |
|
数据存储与读取 | 可供读取数据类型介绍 | excel、pdf、txt、html、mysql数据库文件介绍 | 掌握python将数据写入、存储到excel、word、txt文件方法及从使用python读取本地文件的方法 | - | 0.5天 |
|
数据的存储 | 将数据存储到excel表 |
|
将数据存储到txt文本 |
|
将数据存储到csv |
|
数据的读取 | python批量读取多个多子表excel |
|
python读取txt文件 |
|
python读取csv |
|
数据处理 | 正则表达式 | 什么是正则表达式 | 掌握正则表达的常用方法,学会进行段落或文档中指定信息的提取,对提取到的文本和结构化数据进行简单清洗和处理。 | 6小时 | - |
|
正则表达式匹配规则 |
|
re模块的使用 |
|
文本处理常用字符串方法精讲 | 字符串的不变性 |
|
排序行 |
|
段落格式化 |
|
二进制转化为ASCII |
|
重复字词过滤 |
|
提取邮件地址 |
|
提取URL地址 |
|
大写转换 |
|
符号化 |
|
删除停用词 |
|
同义词与反义词处理 |
|
文本翻译 |
|
单词替换 |
|
拼写检查 |
|
WordNet接口 |
|
语料访问 |
|
标记单词 |
|
块和裂口 |
|
块分类 |
|
文本分类 |
|
双字母组 |
|
文字改写 |
|
文字换行 |
|
频率分布 |
|
文字摘要 |
|
词干算法 |
|
约束搜索 |
|
| numpy数值计算要点串讲 |
|
Pandas数据处理串讲 |
|
python统计图表展示 |
|
文本分析实战 | 重要的库 | jieba库简介 | 能够用jieba实现关键词的提取,并对提取到的文本内容进行自动分类 | - | 1天 |
|
关键词提取 | 关键词任务概述 |
|
TF-IDF算法原理 |
|
相似文章推荐原理介绍 |
|
实例:红楼梦文本分析的实现 |
|
文件与词库的读取 |
|
完成分词与词云图的绘制 |
|
文本分类 | 新闻素材介绍 |
|
新闻内容的关键词提取 |
|
词向量转化与ngram模型 |
|
朴素贝叶斯算法完成新闻分类 |
|
| 文本聚类 | 语料的加载,文本特征的提取,利用聚类算法对文本进行聚类 | | | 0.5天 |
|
|
| 主题模型,情感分析 | (时间允许)增加主题模型,情感分析部分 | | | 0.5天 |
|
|