返回详情页
章节
问答
CDA2级大数据分析师,免费试听
1.CDA大数据分析师职业发展路径
第一章 大数据环境搭建
1.Linux入门基础
2.Hadoop入门介绍
3.Hadoop单机环境搭建
4.Hadoop伪分布式集群搭建
5.Hadoop完全分布式集群搭建
第二章 Hadoop核心组件使用方法
1.分布式文件系统HDFS架构原理及常用指令
2.HDFS编程入门
3.分布式数据库Hbase架构原理及常用指令
4.Hbase编程入门
5.分布式数据仓库Hive架构原理及HQL语法介绍
6.分布式计算引擎MapReduce架构原理及基本使用方法
7.资源调度器YARN基本原理
8.ETL工具Sqoop使用方法
第三章 分布式计算引擎Spark入门
1.Scala语法介绍
2.Spark架构特点及基本原理
3.Spark入门及安装部署方法
4.Spark Core介绍
5.Spark SQL介绍与数据读取、保存方法
6.Spark GraphX入门及基本使用方法
7.Spark GraphX图计算算法案例
第四章 Spark核心组件使用方法
1.日志采集系统Flume和分布式消息队列Kafka入门
2.流式计算框架Spark Streaming基本原理及使用方法
3.流式计算框架Structured Streaming基本原理及使用方法
4.分布式算法库Spark MlLib入门介绍
5.Spark ML与Spark MLLib
6.机器学习工作流
第五章 Python编程基础与数据清洗(线上)
1.Python编程基础:基本数据结构
2.Python编程基础:常用控制语句
3.NumPy基本数据结构和常用操作
4.Pandas基本数据结构和常用操作
5.Python数据清洗案例
第六章 统计学基础(线上)
1.描述性统计
2.常用统计量的解释与使用
3.抽样方法
4.假设检验
5.参数估计
6.方差分析
第七章 PySpark基础
1.Spark数据结构及编程语言接口
2.PySpark开发环境搭建
3.PySpark编程入门:Spark基本数据结构
4.PySpark编程入门:PySpark常用语句
5.Spark与分布式数据库和分布式数据仓库的集成方法
6.采用PySpark读取分布式数据库中数据
7.PySpark数据清洗案例
第八章 PySpark机器学习(线上)
1.机器学习入门
2.PySpark基于Spark ML的特征抽取、转化和选择方法
3.最近邻分类器KNN基本原理及ML实现
4.聚类分析基本原理
5.K-Means快速聚类基本原理
6.K-Means快速聚类的Spark ML实现方法
7.高斯混合模型(GMM)聚类算法的Spark实现
第九章 PySpark机器学习(二)
1.Spark MLLib统计分析
2.线性回归基本原理
3.线性回归的Spark ML实现方法
4.对数几率分布于Sigmoild函数
5.逻辑回归基本原理
6.逻辑回归的Spark ML实现方法
第十章 PySpark机器学习(三)
1.决策树模型的基本原理
2.决策树的Spark ML实现方法
3.随机森林基本原理
4.随机森林的Spark ML实现方法
5.关联规则算法入门:Apriori算法基本原理
6.利用FP-Growth挖掘关联规则
7.FP-Growth算法的Spark ML实现方法
8.带时序关系的关联规则挖掘算法Pre-FixSpan基本原理
9.Pre-FixSpan的Spark ML实现方法
第十一章 PySpark机器学习(四)
1.协同过滤在Spark ML中的实现方法
2.Spark机器学习流构建方法
3.Spark机器学习模型超参数调优方法
4.Spark机器学习模型自动选择方法
5.PySpark案例
第十二章 期末答辩
发表
『远程』大数据分析周末班