报名时间 |
2020-01-21 00:00 至 2024-12-26 00:00 |
培训时间 |
30小时 |
培训地点 |
在线学习,提供全部资料和主讲老师答疑 |
培训费用 |
5400元 |
授课安排 |
线上课程,随报随学 |
课程简介:
本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的用户,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。
该课程包括5天的线下现场教学+20小时以上的线上辅助教学视频内容,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。
课程大纲:
爬虫与文本分析概述
结构化数据/文本数据的获取方法概述
高效的编程语言实现结构化数据处理与文本分析的价值,文本分析简介
python编程基础
标准数据类型
控制流
自定义函数
类
os文件处理模块
python重要数据科学计算库
Numpy
Pandas
Matplotlib
Pyecherts
wordcloud
爬虫基础
网络爬虫简介
爬虫的基本原理
HTML 简介
数据存储
网页抓取
使用Urllib网页抓取
requests实战
BeautifulSoup4
BeautifulSoup 简介
BeautifulSoup 的安装
BS 对象的种类
遍历文档树
搜索文档树
Xpath
什么是Xpath
Xpath开发工具
Xpath常用规则
动态渲染页面抓取
Selenium 的安装
基本使用
声明浏览器对象
访问页面
定位元素
节点交互
动作链
执行 JavaScript
获取节点信息
延时等待
前进后退
Cookies
选项卡管理
异常处理
可供读取数据类型介绍
excel、pdf、txt、html、mysql数据库文件介绍
数据的存储
将数据存储到excel表
将数据存储到txt文本
将数据存储到csv
数据的读取
python批量读取多个多子表excel
python读取txt文件
python读取csv
正则表达式
什么是正则表达式
正则表达式匹配规则
re模块的使用
文本处理常用字符串方法精讲
字符串的不变性
排序行
段落格式化
二进制转化为ASCII
重复字词过滤
提取邮件地址
提取URL地址
大写转换
符号化
删除停用词
同义词与反义词处理
文本翻译
单词替换
拼写检查
WordNet接口
语料访问
标记单词
块和裂口
块分类
文本分类
双字母组
文字改写
文字换行
频率分布
文字摘要
词干算法
约束搜索
numpy数值计算要点串讲
Pandas数据处理串讲
python统计图表展示
关键词提取
关键词任务概述
TF-IDF算法原理
相似文章推荐原理介绍
实例:红楼梦文本分析的实现
文件与词库的读取
完成分词与词云图的绘制
文本分类
新闻素材介绍
新闻内容的关键词提取
词向量转化与ngram模型
朴素贝叶斯算法完成新闻分类
文本聚类
语料的加载,文本特征的提取,利用聚类算法对文本进行聚类
主题模型,情感分析
(时间允许)增加主题模型,情感分析部分
联系方式:
尹老师
电话:13321178792
QQ:42884447
WeChat:JGxueshu