Peixun.net > 现场班 > 计量实证分析 > Python爬虫及文本分析学术应用

Python爬虫及文本分析学术应用

难度系数:     课程系列:A4
课时:0 分钟| 3人学习 分享 收藏
包括5天的线下现场教学+20小时以上的线上辅助教学视频,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。

上课信息

上课时间: 2020年3月27-31日 (五天远程)+20小时线上学习
上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00

上课地点: 远程学习

Python爬虫及文本分析学术应用

爬虫与文本分析概述

结构化数据/文本数据的获取方法概述

高效的编程语言实现结构化数据处理与文本分析的价值,文本分析简介

python编程基础

标准数据类型

控制流

自定义函数

os文件处理模块

python重要数据科学计算库

Numpy

Pandas

Matplotlib

Pyecherts

wordcloud

爬虫基础

网络爬虫简介

爬虫的基本原理

HTML 简介

数据存储

网页抓取

使用Urllib网页抓取

requests实战

BeautifulSoup4

BeautifulSoup 简介

BeautifulSoup 的安装

BS 对象的种类

遍历文档树

搜索文档树

Xpath

什么是Xpath

Xpath开发工具

Xpath常用规则

动态渲染页面抓取

Selenium 的安装

基本使用

声明浏览器对象

访问页面

定位元素

节点交互

动作链

执行 JavaScript

获取节点信息

延时等待

前进后退

Cookies

选项卡管理

异常处理

爬虫实战

网站的爬取

电商评价文本爬取

可供读取数据类型介绍

excel、pdf、txt、html、mysql数据库文件介绍

数据的存储

将数据存储到excel表

将数据存储到txt文本

将数据存储到csv

数据的读取

python批量读取多个多子表excel

python读取txt文件

python读取csv

正则表达式

什么是正则表达式

正则表达式匹配规则

re模块的使用

文本处理常用字符串方法精讲

字符串的不变性

排序行

段落格式化

二进制转化为ASCII

重复字词过滤

提取邮件地址

提取URL地址

大写转换

符号化

删除停用词

同义词与反义词处理

文本翻译

单词替换

拼写检查

WordNet接口

语料访问

标记单词

块和裂口

块分类

文本分类

双字母组

文字改写

文字换行

频率分布

文字摘要

词干算法

约束搜索

numpy数值计算要点串讲

Pandas数据处理串讲

python统计图表展示

重要的库

jieba库简介

关键词提取

关键词任务概述

TF-IDF算法原理

相似文章推荐原理介绍

实例:红楼梦文本分析的实现

文件与词库的读取

完成分词与词云图的绘制

文本分类

新闻素材介绍

新闻内容的关键词提取

词向量转化与ngram模型

朴素贝叶斯算法完成新闻分类

文本聚类

语料的加载,文本特征的提取,利用聚类算法对文本进行聚类

主题模型,情感分析

(时间允许)增加主题模型,情感分析部分


报名时间 2020-01-21 00:00 至 2020-02-26 00:00
培训时间 2020年3月27-31日 (五天远程)+20小时线上学习
培训地点 远程学习
培训费用 5500元
授课安排 上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00


课程简介:

本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的用户,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。

该课程包括5天的线下现场教学+20小时以上的线上辅助教学视频内容,通过该课程的学习,我们的学员将不再单一依靠开源公开数据网站的数据,适当摆脱对国家统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用python更高效的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。


优惠:

现场班老学员9折优惠;

同一单位三人以上同时报名9折优惠;

同一单位六人以上同时报名8折优惠;

以上优惠不叠加。


联系方式:

魏老师

QQ:28819897142881989714

Tel:010-68478566

Mail:vip@pinggu.org


课程大纲:


章节

内容

课程内容及目标

视频教学

直播教学


概述

爬虫与文本分析概述

结构化数据/文本数据的获取方法概述

如何使用编程工具辅助学术项目开展

-

0.5


高效的编程语言实现结构化数据处理与文本分析的价值,文本分析简介



编程基础

python编程基础

标准数据类型

学习爬虫获取数据/文本的编程基础,掌握python编程语言,并认识python常用库,掌握数据分析、文本操作、文本处理、可视化展示的技能

12小时

1.5


控制流


自定义函数



os文件处理模块


python重要数据科学计算库

Numpy


Pandas


Matplotlib


Pyecherts


wordcloud


数据获取

爬虫基础

网络爬虫简介

了解爬虫技巧,包括爬取文档数据及网页数据

8小时

1


爬虫的基本原理


HTML 简介


数据存储


网页抓取

使用Urllib网页抓取


requests实战


BeautifulSoup4

BeautifulSoup 简介


BeautifulSoup 的安装


BS 对象的种类


遍历文档树


搜索文档树


Xpath

什么是Xpath


Xpath开发工具


Xpath常用规则


动态渲染页面抓取

Selenium 的安装


基本使用


声明浏览器对象


访问页面


定位元素


节点交互


动作链


执行 JavaScript


获取节点信息


延时等待


前进后退


Cookies


选项卡管理


异常处理


爬虫实战

网站的爬取

网络数据的爬取

-

0.5


电商评价文本爬取


数据存储与读取

可供读取数据类型介绍

excel、pdf、txt、html、mysql数据库文件介绍

掌握python将数据写入、存储到excel、word、txt文件方法及从使用python读取本地文件的方法

-

0.5


数据的存储

将数据存储到excel表


将数据存储到txt文本


将数据存储到csv


数据的读取

python批量读取多个多子表excel


python读取txt文件


python读取csv


数据处理

正则表达式

什么是正则表达式

掌握正则表达的常用方法,学会进行段落或文档中指定信息的提取,对提取到的文本和结构化数据进行简单清洗和处理。

6小时

-


正则表达式匹配规则


re模块的使用


文本处理常用字符串方法精讲

字符串的不变性


排序行


段落格式化


二进制转化为ASCII


重复字词过滤


提取邮件地址


提取URL地址


大写转换


符号化


删除停用词


同义词与反义词处理


文本翻译


单词替换


拼写检查


WordNet接口


语料访问


标记单词


块和裂口


块分类


文本分类


双字母组


文字改写


文字换行


频率分布


文字摘要


词干算法


约束搜索


 

numpy数值计算要点串讲


Pandas数据处理串讲


python统计图表展示


文本分析实战

重要的库

jieba库简介

能够用jieba实现关键词的提取,并对提取到的文本内容进行自动分类

-

1


关键词提取

关键词任务概述


TF-IDF算法原理


相似文章推荐原理介绍


实例:红楼梦文本分析的实现


文件与词库的读取


完成分词与词云图的绘制


文本分类

新闻素材介绍


新闻内容的关键词提取


词向量转化与ngram模型


朴素贝叶斯算法完成新闻分类


 

文本聚类

语料的加载,文本特征的提取,利用聚类算法对文本进行聚类

 

 

0.5



 

主题模型,情感分析

(时间允许)增加主题模型,情感分析部分

 

 

0.5









课程订阅

讲师介绍


Peixun.net

Python爬虫及文本分析学术应用

请认真填写以下信息,方便为您服务
  • 姓名:
  • 电话:
  • 邮箱:
  • 备注:
  • 邀请码:
  • 您还可以选择 登录 或者 注册 更方便您管理课程。

Peixun.net

您关于:

Python爬虫及文本分析学术应用

的报名信息已经提交成功。

去购物车结算
您可以选择 登录 或者 注册 更方便您管理课程。
回头再说

邮件已发送!

已成功发送邮件到您注册的邮箱 请前往查询并点击链接重置密码

有待解答的问题

3 名学员对您的课程提问,需要您作出回答。 现在就去