『远程』大数据分析周末班 - CDA数据分析师 - 直播 - Peixun.net

返回详情页

CDA2级大数据分析师，免费试听: 1.CDA大数据分析师职业发展路径

第一章大数据环境搭建: 1.Linux入门基础; 2.Hadoop入门介绍; 3.Hadoop单机环境搭建; 4.Hadoop伪分布式集群搭建; 5.Hadoop完全分布式集群搭建

第二章 Hadoop核心组件使用方法: 1.分布式文件系统HDFS架构原理及常用指令; 2.HDFS编程入门; 3.分布式数据库Hbase架构原理及常用指令; 4.Hbase编程入门; 5.分布式数据仓库Hive架构原理及HQL语法介绍; 6.分布式计算引擎MapReduce架构原理及基本使用方法; 7.资源调度器YARN基本原理; 8.ETL工具Sqoop使用方法

第三章分布式计算引擎Spark入门: 1.Scala语法介绍; 2.Spark架构特点及基本原理; 3.Spark入门及安装部署方法; 4.Spark Core介绍; 5.Spark SQL介绍与数据读取、保存方法; 6.Spark GraphX入门及基本使用方法; 7.Spark GraphX图计算算法案例

第四章 Spark核心组件使用方法: 1.日志采集系统Flume和分布式消息队列Kafka入门; 2.流式计算框架Spark Streaming基本原理及使用方法; 3.流式计算框架Structured Streaming基本原理及使用方法; 4.分布式算法库Spark MlLib入门介绍; 5.Spark ML与Spark MLLib; 6.机器学习工作流

第五章 Python编程基础与数据清洗（线上）: 1.Python编程基础：基本数据结构; 2.Python编程基础：常用控制语句; 3.NumPy基本数据结构和常用操作; 4.Pandas基本数据结构和常用操作; 5.Python数据清洗案例

第六章统计学基础（线上）: 1.描述性统计; 2.常用统计量的解释与使用; 3.抽样方法; 4.假设检验; 5.参数估计; 6.方差分析

第七章 PySpark基础: 1.Spark数据结构及编程语言接口; 2.PySpark开发环境搭建; 3.PySpark编程入门：Spark基本数据结构; 4.PySpark编程入门：PySpark常用语句; 5.Spark与分布式数据库和分布式数据仓库的集成方法; 6.采用PySpark读取分布式数据库中数据; 7.PySpark数据清洗案例

第八章 PySpark机器学习（线上）: 1.机器学习入门; 2.PySpark基于Spark ML的特征抽取、转化和选择方法; 3.最近邻分类器KNN基本原理及ML实现; 4.聚类分析基本原理; 5.K-Means快速聚类基本原理; 6.K-Means快速聚类的Spark ML实现方法; 7.高斯混合模型（GMM）聚类算法的Spark实现

第九章 PySpark机器学习（二）: 1.Spark MLLib统计分析; 2.线性回归基本原理; 3.线性回归的Spark ML实现方法; 4.对数几率分布于Sigmoild函数; 5.逻辑回归基本原理; 6.逻辑回归的Spark ML实现方法

第十章 PySpark机器学习（三）: 1.决策树模型的基本原理; 2.决策树的Spark ML实现方法; 3.随机森林基本原理; 4.随机森林的Spark ML实现方法; 5.关联规则算法入门：Apriori算法基本原理; 6.利用FP-Growth挖掘关联规则; 7.FP-Growth算法的Spark ML实现方法; 8.带时序关系的关联规则挖掘算法Pre-FixSpan基本原理; 9.Pre-FixSpan的Spark ML实现方法

第十一章 PySpark机器学习（四）: 1.协同过滤在Spark ML中的实现方法; 2.Spark机器学习流构建方法; 3.Spark机器学习模型超参数调优方法; 4.Spark机器学习模型自动选择方法; 5.PySpark案例

第十二章期末答辩

『远程』大数据分析周末班