Python数据分析集训班_CDA数据分析师_现场班北京国富如荷网络科技有限公司-Peixun.net

上课信息

上课时间： 2019年11月30-2020年3月15日
9:00—12:00，13:30—16:30

上课地点： 北京海淀区厂洼街三号 CDA数据分析研究院

课程章节详情

Python数据分析集训班

Python基础

成为Python高手之前必备基础知识

Python标准数据类型（String、Number、Tuple、List、Dict、Set）及常用操作

控制流语句（条件分支、for循环、while语句、try-except-else-finally语句）

变量的作用域（内建变量、全局变量、局部变量、闭包外局部变量）

函数的参数（关键字参数、位置参数、形参和实参、默认参数、可变参数）

自定义函数--函数式编程

异常和错误

文件操作

时间模块

Python数据清洗

Numpy中的数据类型--ndarray数组的创建

Numpy数组基础（索引、切片、变形、分裂）

Numpy数组运算：通用函数

Numpy数组变形、拼接

Numpy数组计算：广播、聚合、比较和掩码、数组排序

Pandas对象简介（Series、Dataframe、Index）

Pandas数据加载与存储

Pandas数值运算方法：通用函数、聚合函数、遍历

Panda层次化索引

Pandas数据处理：数据类型转换、缺失值处理、字符串转换

Pandas数据表的合并与连接

Pandas数据的累计与分组

高性能Pandas：query（）、eval（）实现高性能运算

Pandas数据规整化：清理、转换、合并、重塑

Python爬虫

网络爬虫基础知识

网络请求及响应-requests库

HTML文档解析-BeautifulSoup库

常见反爬虫机制及应对

网络爬虫 VS 网络数据抓取

实战1：批量下载头像

实战2：抓取豆瓣书籍简介

实战3：模拟浏览器selenium抓取电商商品信息及评论

绘图思想的基本原理

Python数据可视化包-Matplotlib介绍

使用Matplotlib进行基本的图形绘制

使用Python数据处理包Pandas做可视化

Python数据可视化包-Seaborn介绍与图形绘制

Python数据可视化包-Pyecharts介绍与图形绘制

使用Python进行地图绘制-Pyecharts

Python数据清洗高级操作及案例实战

如何成为一名优秀的数据分析师

供Python读取的数据（CSV文件、JSON数据、XML数据）

数据的获取与存储（数据的不平等性、真实性、可读性、清洁度等）

对获取到的数据进行探索：埃博拉病毒危机、列车安全数据、童工数据）

数据清洗探索：找出要清洗的数据、数据格式化、找出离群值和不良数据、找出重复数据、模糊匹配、正则匹配等）

数据清洗探索：标准化和脚本化（数据归一化和标准化、找到适合项目的数据清洗方法、数据清洗脚本化、用新数据测试）

数据探索和分析：数据探索（表函数探索、连接多个数据集、找出离群值、创建分组）

数据探索与分析：分离和聚焦数据、描述结论、书写报告文档

Pandas时间序列&金融数据处理

数据清洗实战案例：泰坦尼克幸存者数据清洗

数据清洗实战案例：USDA食品数据清洗

数据探索实例：为什么非洲童工雇佣的概率更高？腐败感和童工雇佣有什么关系？

数据探索实例：国外电商用户购买信息的数据处理与探索：通过购物篮商品信息探索出客户来源、流失、留存率、消费水平及消费倾向

机器学习算法

机器学习入门介绍：机器学习基本思想、常用算法分类、算法库等

Scikit-Learn入门介绍：特征矩阵、标签数组、评估器及常用函数

Scikit-Learn特征工程：分类特征、文本特征、图像特征、特征衍生、缺失值填充、特征管道

原理补充：常用相似度衡量方法、归一化方法、混淆矩阵及常用模型评估指标

KNN-最近邻分类器、KD-Tree和KNN回归

KNN算法示例：改进约会网站配对效果

梯度下降算法：梯度下降、随机梯度下降和微批梯度下降

原理补充：条件概率计算、全概率公式、K-S曲线、受试者特征曲线（ROC）等

贝叶斯分类器：朴素贝叶斯、贝叶斯网络

朴素贝叶斯算法示例：垃圾邮件过滤

原理补充：梯度下降算法，包括梯度下降、随机梯度下降和微批梯度下降

回归分析：线性回归、岭回归、LASSO和弹性网

回归分析算法示例：预测海洋生物鲍鱼的年龄

广义线性回归：Logistic回归和泊松回归

Logistic回归算法示例：构建信用卡反欺诈模型

树模型：C4.5、C5.0和CART树

树模型算法示例：红酒分类

SVM支持向量机分类和支持向量机回归

SVM算法示例：手写数字识别

集成算法之Bagging类算法：Bagging、随机森林等

集成算法之Boosting类算法：Boosting、GBDT梯度提升树、XgBoost等

集成算法示例：泰坦尼克号幸存者预测

神经网络算法：反向传播神经网路、卷积神经网络、LSTM等

聚类分析：K-means快速聚类、DBSCAN密度聚类、层次聚类等

关联规则：Apriori、FP-Growth、PrefixSpan等

无监督学习：LDA、LSI

数据降维方法：PCA主成分分析和SVD奇异值分解

Scikit-Learn常用功能介绍与使用：网格搜索、Pipline

大型综合案例：利用Pipline选择模型构建机器学习流，并利用网格搜索完成模型调优

电商案例

分析目标：

精准营销实现流量的增加；

实现产品生命周期管理；

帮助构建商业活动KPI检测体系；

实现品类管理与多位能力模型构建

基于国外大型电商用户购买信息数据的客户购买预测模型构建流程：

step1:数据的读取及定位需要清洗的数据

step2:模型有监督/无监督判断

step3:非结构数据处理（数据编码处理--非数字特征）

step4:数据量纲处理（归一化/标准化）

step5:数据挖掘--无监督学习（给数据打上标签）

step6:构建预测模型--有监督学习

step7:模型的评估与选择

step8:模型的优化与封装

金融案例

分析目标：

构建用户画像助力用户风险控制；

实现金融产品的生命周期管理，助力产品迭代；

构建中小微企业的贷款风险和偿债能力分析/信用卡评分/反欺诈预测系统，实现企业风险控制能力的稳步提升

基于大型金融公司的客户贷款信息，构建用户信用评分卡模型的建模步骤：

step1:数据的读取及定位需要清洗的数据

step2:模型有监督/无监督判断

step3:非结构数据处理

step4:空值、重复数据、离群点处理

step4:数据量纲处理（归一化/标准化）

step6:构建评分卡模型/反欺诈预测模型

step7:模型的评估与选择

step8:模型的优化与封装

报名时间	2019-11-19 14:38 至 2019-11-30 14:38
培训时间	2019年11月30-2020年3月15日
培训地点	北京海淀区厂洼街三号 CDA数据分析研究院
培训费用	13800
授课安排	9:00—12:00，13:30—16:30

TIM截图20191119154533.png
& 学院简介

CDA精英学院，是经管之家CDA数据分析师品牌旗下面向职场人士的全新一站式学习院校。学院凝练了当下数据人士职业发展岗位模型，秉承了CDA数据分析师等级标准，推崇“技术+行业”的培养理念，致力于打造具有先进数据思维、成熟实战技能、创新解决方案的职场优秀人才。

CDA精英学院主要面向职场有数据分析技能提升需求的人士。包括为数据岗（分析师、工程师、技术顾问、数据官等）和非数据岗（产品、市场、运营、财务等）人员提供不同技术级别、不同行业领域的体系化培养课程，以及丰富的线下行业交流沙龙、优秀持证人分享会等个人IP打造活动。多方面、高层次为学员提供就业推荐咨询服务和定制化职业晋升解决方案服务。

& 岗位模型

基于多年的数据分析教学经验以及对当下企业数据相关岗位、薪资待遇的调查研究，CDA总结出来了一套权威职场“岗位模型”，获得市场认可和多家合作企业背书：

图片4.png

CDA精英学院岗位模型最左侧是经典的CDA LEVEL 1 2 3等级培训能力要求，“薪资范围”部分是每个等级对应企业相关数据岗位及薪资范围。“技能&能力”部分是对应岗位的技能要求列表，即胜任某一岗位需要拥有什么样的能力。“推荐课程”部分是该技能对应的CDA精英学院课程。目前课程分为LEVEL 1业务数据分析师，LEVEL 2 Python数据分析集训，LEVE 2大数据分析师，AI工程师、LEVEL 3数据科学家、CDA数据分析周末集训营和CDA全栈数据科学集训营。学习周期时长3-7.5个月不等，学员可以根据自身需求进行选择。精英学院将为学员提供一站式特色教学和课程服务：学习过程中有助教全程辅导，讲师全程答疑、班主任督促学习、就业老师提供就业咨询服务等。

& LEVEL 2-Python数据分析师集训课程介绍

在数据和信息爆炸的今天，各个行业尤其是金融、电商、房地产、医疗、健康、政府部门这类经济效应强势部门都在积极采用数据分析和数据科学协助决策的方式，来提高决策的正确性和高效性。并将其广泛应用在营销优化、风险控制、用户研究、疾病诊断、商业部署等领域。 Python数据分析集训课程涉及到统计、SQL、Python基础、数据清洗、Python爬虫、数据可视化（Matplotlib、Seaborn、Pyecharts）和python机器学习算法等内容，并结合互联网金融、电信、银行、医疗、交通等行业实际案例来帮助学员建立整套的数据分析思路，使学员更符合企业要求。

培训方式：

2 学习模式：面授 or 远程，2+1学习模式【2周线下（直播），1周线上】，线下（直播）周末培训8周，共16天，线上自由学习4周。

2 学习权限：一年内可免费重学任意2期（不赠送视频），当期全套录播视频有效期2年。

学习目标：

2 熟练掌握数据科学领域最受欢迎的编程语言-Python

2 掌握使用Python和pandas库进行数据清洗和预处理

2 使用Python爬虫获取网络数据

2 学会使用matplotlib、seaborn进行初级可视化

2 学会使用Pyecharts进行高级数据可视化

2 学会构建机器学习算法进行分类、预测和聚类模型

2 使用Python进行数据分析整体思路、针对业务做出模型最优化选择

2 善用机器学习解决用户画像、精准营销、风险管理等商业问题

2 使用机器学习实操电商、金融、电信、医药行业真实项目案例

学习对象和基础：

2 在校学生、转行欲从业人士

2 在职数据分析师

2 有一定的统计基础最佳

2 对Python数据分析和挖掘感兴趣的业界人士

2 学习完《业务数据分析师》课程学员为佳

课程大纲：

课程模块	课程详情	课时
Python基础	part0：准备工作-Python开发环境配置 1、Anaconda安装与配置 2、Python编程基础：变量、语句、表达式等对象介绍、Python编程规范等 3、Python语言概述：发展历史、语言特点	2天



	part1：Python标准数据类型 1、标准数据类型创建：Number、String、Tuple、List、Dict、Set 2、常用内建函数及方法：数值计算、科学计算库的方法调用、序列对象的通用方法、字符串方法、列表方法、元组方法、集合方法、字典方法、常用内建函数等 3、数据类型判断、数据类型转换



	part2：控制流语句 1、条件判断语句：if、if-elif-else、if-else 2、for循环 3、While循环 4、continue语句 5、break语句





	part3：自定义函数与函数式编程 1、函数的定义及调用：函数定义关键词、无参数函数、形参、实参 2、函数的参数：位置参数、关键字参数、默认参数、可变参数 3、变量的定义域：内建变量、全局变量、局部变量、闭包外局部变量 4、自定义函数与内建函数的区别 5、函数式编程





	part4：异常和错误（穿插在其他内容中讲） 1、常见异常及错误 2、异常的捕捉及追溯


	part5：文件操作 1、文件的创建、打开与关闭 2、文件的读写


	part6：时间模块 1、datetime模块 2、time模块


Python进行数据整理和数据清洗	part0：Python标准库简介 1、常用标准库：Numpy、Pandas、Scipy、Matplotlib、seaborn等 2、Numpy简介 3、Pandas简介	2天



	part1：Numpy数组基础 1、ndarray数组的创建 2、Numpy数组基础操作：索引、切片、分裂、合并 3、Numpy数组的运算：通用函数 4、Numpy数组的变形、拼接 5、Numpy数组的计算：广播、聚合、比较和掩码、数组排序





	part2：Pandas对象基础 1、Pandas对象：Series、DataFrame、Index 2、pandas对象的创建 3、Pandas数据加载与存储 4、Pandas数值运算方法：通用函数、聚合函数、遍历 5、Pandas数据处理：数据类型转换、缺失值处理、字符串转换 6、Pandas数据表的合并与连接 7、Pandas数据的累计与分组







python数据可视化	part0：绘图思想的基本原理	线上
	Part1：Python数据可视化包-Matplotlib介绍 1、使用Matplotlib进行基本的图形绘制
	Part1：Python数据可视化包-Matplotlib介绍 1、使用Matplotlib进行基本的图形绘制
	part2：使用Python数据处理包Pandas做可视化
	part3：Python数据可视化包-Seaborn介绍与图形绘制
	part4：Python数据可视化包-Pyecharts介绍与图形绘制 1、使用Python进行地图绘制-Pyecharts

Python爬虫	part0：网络爬虫基础知识	线上
	part1：网络请求及响应-requests库
	part2：HTML文档解析-BeautifulSoup库
	part3：常见反爬虫机制及应对
	part4：网络爬虫 VS 网络数据抓取
	实战一：批量下载头像
	实战二：抓取豆瓣书籍简介
	实战三：模拟浏览器selenium抓取电商商品信息及评论
Python数据清洗高级操作及案例实战	part0：如何成为一名优秀的数据分析师	2天
	part1：数据的获取与存储 1、供Python读取的数据：CSV文件、JSON数据等 2、数据的存储


	part2：数据探索 1、数据探索的维度：数据的不平等性、真实性、可读性、清洁度等
	part2：数据探索 1、数据探索的维度：数据的不平等性、真实性、可读性、清洁度等
	part3：数据清洗思维 1、数据格式化离群值和不良数据处理、空值处理、重复数据处理等 2、数据标准化方法 3、数据探索：连接多个数据集、获取离群值、创建分组等 4、数据分析：分离和聚焦数据、描述结论、书写报告文档




	数据清洗实战案例一：泰坦尼克幸存者数据清洗（根据实际上课情况调整数据集）
	数据清洗实战案例二：USDA食品数据清洗（根据实际上课情况调整数据集）
Python编程考试	part1：Python基础部分 part2：Python数据清洗的实现	线上
Python编程考试	part1：Python基础部分 part2：Python数据清洗的实现	线上
机器学习算法	part0：:准备工作：开发环境配置（以文档的形式给出）	6天
	part1：机器学习入门介绍： 1、什么是机器学习 2、机器学习中的名词说明：类型、字段、特征、标签等 3、机器学习中的基本概念：分类、预测、回归；有监督、无监督；模型效果、计算速度；可解释性、泛化能力等 4、推荐书目及学习安排





	part2：scikit-learn入门：Scikit-Learn库简介
	part3：KNN-最近邻分类算法：原理、实现、并以电影分类为例 1、模型建立基本思路 2、KNN原理基础及其实现： KNN原理基础距离的确认：欧几里得距离、马曼哈顿距离、闵可夫斯基距离 KNN的Python代码实现：函数的编写与封装过程 KNN的scikit-learn实现：模型的构建与评估 3、模型优化：学习曲线、交叉验证 4、补充理论：距离类模型的相关讨论：距离类模型的归一化要求、以距离作为惩罚因子的优化 5、模型评价与总结








	part4：决策树算法：原理、实现、相关技术应用及实例 1、决策树基本原理：决策树工作原理构建决策树（ID3算法构建决策树、电脑购买预测示例、ID3的局限性） C4.5与CART算法（修改局部最优化条件、连续变量处理手段） 2、决策树的scikit-learn实现：八个参数（Criterion、两个随机性相关的参数、五个剪枝参数）、一个属性、四个接口）解析 3、分类模型的评估指标（混淆矩阵原理、scikit-learn中的混淆矩阵） 4、实例：泰坦尼克号幸存者的预测（数据导入、数据处理、模型构建与评估、利用混淆矩阵调参）（注意：案例实时调整更新可能会用不同数据） 5、过拟合与欠拟合 6、决策树算法评价（优点与缺点）









	part5：随机森林算法：原理、实现及相关技术应用：以乳腺癌预测为例 1、随机森林概述：集成算法概述Bagging vs Boosting、集成算法的认识 2、随机森林分类器的实现：重要参数、重要属性和接口 3、随机森林回归器的实现：重要参数、属性与接口 4、机器学习中调参的基本思想（泛化误差） 5、调参应用：随机森林在乳腺癌数据上的调参（注意：数据集实时更新调整，会有不同）






	part6：K-Means聚类算法：原理、实现及簇选择与矢量化应用 1、聚类算法概述：聚类VS分类 2、KMeans原理分析： KMeans概述 KMeans的理论基础：簇内误差平方和、距离、质心与Inertia 3、KMeans的scikit-learn实现（模型构建与评估（轮廓系数）、重要参数解析、实例：根据轮廓系数选择簇） 4、KMeans矢量化应用：降维






	part7：关联规则算法：原理、实现 1、关联规则概述：频繁项集的产生与关联发现 2、Apriori算法原理：先验原理 3、使用Apriori算法来发现频繁项集（生成候选项集（函数的构建与封装）、项集迭代函数）




	part8：线性回归 1、线性回归概述：矩阵角度看线性回归 2、多元线性回归模型构建：多元线性回归的基本原理：模型、损失函数最小二乘法求解多元线性回归的参数线性回归的重要参数解析：fit_intercept、normalize、copy_y、n_jobs 线性回归模型的构建：以加列夫尼亚房屋价格预测为例 3、回归类模型评估指标：精准性、拟合性 4、多重共线性与岭回归、Lasso：认识多重共线性岭回归：岭回归解决多重共线性问题的机制、模型构建与评估、选择最佳正则化参数 Lasso回归：Lasso与多重共线性、Lasso的核心作用（特征选择） 5、非线性问题及其处理：线性的基本概念：共线性问题（变量自相关性）、线性与非线性问题数据非线性问题的处理：分箱 6、多项式回归：多项式回归处理非线性问题多项式回归的对模型表现的贡献多项式回归模型的非线性性质


















part9:逻辑回归 1、逻辑回归概述：模型参数、sigmoid函数、逻辑回归的返回值解析 2、逻辑回归的特点：模型拟合效果、计算速度、返回值的可解释型 3、逻辑回归模型的构建与优化：认识逻辑回归的损失函数重要参数解析梯度下降求解最小损失函数参数值






part10:SVM支持向量机 1、SVM概述：SVM工作原理 2、SVM模型构建线性SVM：线性SVM的损失函数、函数间隔有几何间隔、SVM决策边界非线性SVM：SVC模型概述、重要参数、核函数、SVC重要参数（C、class_weight)




part11：分类模型的评估指标（续） 1、ROC曲线及其相关问题 2、概率与阈值 3、SVM概率预测评估：predict_proba、decision_function 4、绘制SVM的ROC曲线 5、ROC曲线与AUC面积 6、利用ROC曲线找出最佳阈值






part12：朴素贝叶斯算法 1、朴素贝叶斯概述：概率分类器朴素贝叶斯工作原理：全概率公式、后验概率、连续性变量的概率估计 2、朴素贝叶斯模型分类（根据数据分布不同而区别）：高斯朴素贝叶斯：模型构建与评估（拟合效果、计算速度）多项式朴素贝叶斯：模型的构建、不平衡样本对模型的影响 3、应用：运用贝叶斯做文本分类（应用会根据课程情况调整，数据集会有所不同）







电商案例	part1：分析目标：如：1、精准营销实现流量的增加； 2、实现产品生命周期管理； 3、帮助构建商业活动KPI检测体系； 4、实现品类管理与多位能力模型构建等。	2天




	part2：基于国外大型电商用户购买信息数据的客户购买预测模型构建流程： step1:数据的读取及定位需要清洗的数据 step2：模型有监督/无监督判断 step3：非结构数据处理（数据编码处理--非数字特征） step4：数据量纲处理（归一化/标准化） step5：数据挖掘--无监督学习（给数据打上标签） step6：构建预测模型--有监督学习 step7：模型的评估与选择 step8：模型的优化与封装








金融案例	part1：分析目标: 如：1、构建用户画像助力用户风险控制； 2、实现金融产品的生命周期管理，助力产品迭代； 3、构建中小微企业的贷款风险和偿债能力分析/信用卡评分/反欺诈预测系统，实现企业风险控制能力的稳步提升等	2天



	part2：基于大型金融公司的客户贷款信息，构建用户信用评分卡模型的建模步骤： step1:数据的读取及定位需要清洗的数据 step2:模型有监督/无监督判断 step3:非结构数据处理 step4:空值、重复数据、离群点处理 step4:数据量纲处理（归一化/标准化） step6:构建评分卡模型/反欺诈预测模型 step7:模型的评估与选择 step8:模型的优化与封装

& 课程特色

图片3.png

& 师资团队

陈远祥 北京邮电大学讲师/CDA数据分析研究院金牌讲师

2014年毕业于北京大学，获通信与信息系统专业博士学位，2015年-2017年在北京大学做博士后研究，获得北京大学博雅博士后和北京大学优秀博士后。主要研究方向包括光无线融合技术，智能信号处理，以及机器学习、人工智能在通信信号处理中的应用。共发表SCI/EI学术论文40余篇，其中第一与通讯作者论文20余篇。主持国家自然科学基金青年项目、博士后科学基金面上项目和博士后科学基金特别资助项目，参与多个科技部973项目、国家重大专项、重点研发计划以及自然科学基金面上项目研究工作。目前担任本科生课程《Python程序设计》和《电磁场与电磁波测量实验》。

赵仁乾CDA数据分析研究院讲师/京邮电大学管理科学与工程硕士

现就职于北京电信规划设计院，从事移动、联通集团及各省分公司市场、业务、财务规划、经济评价及运营咨询。重点研究方向包括离网用户挖掘、市场细分与精准营销、移动网络价值区域分析、潜在价值客户挖掘等。

李御玺台湾铭传大学教授/中华数据挖掘协会理事

台湾大学博士，在其相关研究领域已发表超过260篇以上的研究论文，同时也是国科会与教育部多个相关研究计划的主持人。其还兼任厦门大学数据挖掘中心顾问，中国人民大学数据挖掘中心顾问，IBM SPSS-China顾问。服务过的客户包括：中国工商局、中信银行、台新银行等。

& 认证考试

CDA数据分析师等级认证证书