Peixun.net > DVD > CDA数据分析师 > R语言数据分析师养成计划——从零开始的14个任务

R语言数据分析师养成计划——从零开始的14个任务

课时:660 | 30人学习 分享 收藏
本课程主要是面向小白人士,课程将回答为什么要学习数据分析?如何学习数据分析?并且从R语言安装、数据结构探索、R基本语句以及数据可视化、决策树等内容重点剖析14个任务的操作,并在课后有相应作业的布置、修改,使零基础的学员完全掌握R语言,完成数据分析师计划的学习。

R语言数据分析师养成计划——从零开始的14个任务

引言——关于数据分析学习的3个问题

1.1为什么要学习数据分析【试听】立即播放

1.2如何学习数据分析【试听】立即播放

1.3如何理解学习课程【试听】立即播放

任务1 走进R语言与Rstudio

1.1-R的安装(Rplus增强版)

1.2-R包的管理

任务2 R的数据结构探析

2.4-因子

2.3-列表和数据框

2.2-向量和矩阵

2.1-数据的读写

任务3 熟悉R的基本语句

3.1-自定义函数

3.2-循环与条件

任务4 数据可视化——R的基本作图

4.3-饼图

4.2-直方图

4.1-散点图

任务5 数据可视化——R的可视化进阶

5.1-baidumap

5-2-REMAP

任务6 多元线性回归——上市企业盈率的影响因素分析

6.1-多元线性回归(理论)

6.2-多元线性回归(操作)

任务7 主成分分析——上市公司财务数据的主成分分析

7.2-主成分分析(操作)

7.1-主成分分析(理论)

任务8 聚类分析——基于能力指标的基金经理人分类

8.1-聚类(理论)

8.2-均值聚类

8.3-密度聚类

任务9 逻辑回归——网贷平台信用风险影响因素与识别

9.1-逻辑回归(理论)

9.2-逻辑回归(操作)

任务10 决策树 —— 银行贷款风险识别

10.2-决策树(操作)

10.1-决策树(理论)

任务11 支持向量机(SVM)——智能投顾方案设计

11.1-支持向量机(理论)

11.2-支持向量机(操作)

任务12 关联分析——互联网投资标的的智能推荐

12.1关联分析(理论)

12.2-关联分析(操作)

任务13 神经网络—— P2P网贷的逾期风险识别

任务14 朴素贝叶斯与文本分析—— 散户投资者情绪识别

任务15 总结


开课时间:已经开课,14个课程任务陆续上传,预计10月30日完成前五个任务上传,其余任务每周上传一个。

课程咨询:请扫码添加好友,备注【R语言】咨询




R语言数据分析师养成计划——从零开始的14个任务


引言——关于数据分析学习的3个问题
(1)为什么要学习数据分析
(2)如何学习数据分析
(3)如何理解我们的课程大纲


任务1    走进R语言与Rstudio

本节是整个课程的开篇,主要介绍R的下载与安装、R包的管理,帮助学员快速掌握编程界面。


任务2    R的数据结构探析
本节主要学习向量、矩阵、列表、数据框、因子等数据类型,学习数据类型的相互转换。


任务3    熟悉R的基本语句
本节学习循环、条件、自定义函数是我们的主要内容,这里我们会用到while, for, if,function等命令,这些命令将让我们处理数据变得游刃有余。


任务4    数据可视化——R的基本作图

可视化是数据分析的核心之一,毕竟大多数人没有数据分析基础,也很难从海量数据中直接提炼信息,本节课将运用散点图、直方图、饼图等可视化工具来帮助我们发现数据规律,展示模型结果。


任务5    数据可视化——R的可视化进阶
本节课程将讲解地理信息可视化,就是在地图上做数据展示,我们将用Remap等功能包,让可视化效果变得十分酷炫。


任务6    多元线性回归——上市企业盈率的影响因素分析
多元线性回归是所有数据分析模型的入门级模型,它能有效的帮助我们进行影响因素分析,客户价值评估等工作。这一任务中,我们将用尽可能通俗的语言来阐述原理,并以案例的方式进行模型实践。
案例摘要:市盈率往往是评价上市企业的重要指标,但市盈率=每股市价/每股收益,股价在很大程度上由投资者和市场决定,有投机的因素存在,时常偏离这支股票的内在价值,对企业来说,通过改善每股收益来改善市盈率更为实际。因此,我们的案例将选择把每股收益作为被解释变量进行分析。


任务7    主成分分析——上市公司财务数据的主成分分析
主成分分析的作用有很多,其中最常用的就是降维、处理多重共线性、构造指标排名。在这一任务中,我们将结合主成分的基本原理来阐述和实践。

案例摘要:为了分析财务状况是如何影响企业市盈率的变化,我们整理了128 家该板块的公司财务报表,但由于财务数据众多,而且存在多重共线性问题,所以我们运用主成分方法,将各种财务比率变量降维,再建立回归模型进行研究。


任务8    聚类分析——基于能力指标的基金经理人分类
物以类聚,人以群分。在互联网2.0时代深耕细分市场是大多企业的共识。那么如何进行有效的分类才能在这一讲中我们将讲述聚类的基本方法,其中包括均值聚类和密度聚类。
案例摘要:我们对基金经理人能力指标数据进行了整理,我们在案例中将对经理人按照其能力指标进行分类,给投资者提供参考。


任务9    逻辑回归——网贷平台信用风险影响因素与识别
逻辑回归是最常用的分类模型之一,它最大的优势在于不但能够分类,而且等给出属于哪个分类的概率,其影响因素可以分别进行单调性分析。
案例摘要:本案例以国内85家P2P平台为研究样本(已屏蔽平台名称),从运营时间(月),平均年化收益率,注册资金(万元),平台高管人数,高管信息详细比例等来评价影响P2P平台出现问题的原因,并对平台进行风险识别。


任务10    决策树——银行贷款风险识别
决策树是最为直观的决策模型,在这一节中,我们将介绍信息熵,信息增益等概念来帮助大家快速理解决策树。在案例方面,我们将介绍主流的CART和C5.0模型的应用。

案例摘要:贷款违约风险是银行面对的主要风险之一,一笔正常的贷款,银行的利润是10%左右的利息,但是一笔违约的贷款,银行则需要付出100%的本金。在我们的案例中,我们将给出如何应用决策树来进行风险识别的解决方案。


任务11    支持向量机(SVM)——智能投顾方案设计
支持向量机(SVM,Support vector machines)技术是以数学和统计这两门学科为基础支持的学习算法。在业务场景下,SVM通常被用来进行目标识别,样本分类和回归分析。在机器学习领域,“机”(machine)表示算法的意思。虽然同属监督学习算法,但与神经网络、决策树不同,支持向量机有着明显的数学运算和优化技术的基因。
案例摘要:对于股票投资者,选股是基于自身对于市场情况判断等人为因素来筛选市场中的优质股票,即在当下买入这些优质股持有一定的时间段中,也就是说在选择时找出自己未来看涨的股票。用SVM来选股的核心在于设计样本股票的指标,为了能够综合不同证券分析方法,本案例SVM模型的特征选择会从各个角度选取股票样本的输入变量。


任务12    关联分析——互联网投资标的的智能推荐

关联分析的一个典型例子是购物篮分析。该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。进入互联网时代,关联分析的应用已经被各类平台发挥得淋漓尽致,其主要应用场景包括:

  • 网购商品的智能推荐。(互联网零售)

  • 电信产品的捆绑销售。(电信运营商)

  • 互联网投资标的的智能推荐。(互联网投资平台)

  • 音、视频节目的智能推荐。(音、视频平台)

案例摘要:随着互联网金融的飞速发展,在互联网金融平台上寻找投资标的,进行资产投资,已经成为了越来越多投资者的选择。然而,在互联网金融平台上进行投资通常需要面对以下三方面特征(以P2P网贷为例):(1)一个标的(一笔借款)需要多个投资人(出借人)投标才能满足;(2)投资人通常不具备专业知识;(3)互联网金融市场的单个标的金额较小,通常一个标的(一笔借款)金额都被限定在1万元-10万元之间,而每个投资人都投资每个标的的一部分,那么投资人就需要完成多个的投标行为才能达成自己的投资需求。因此在互联网金融平台上,投资人的决策成本较高。
那么从平台的角度,除了强化风险管理和提高信息透明度以外,还有那些工作可以吸引投资者,降低投资者决策成本,提高平台效率呢?投资标的的智能推荐就是一个不错的选择,再介绍一个基于关联算法投资标的智能推荐案例。


任务13    神经网络——P2P网贷的逾期风险识别
神经网络是目前最为热门的模型,它是通往深度学习的基石,这里将详细介绍神经网络的基础知识,为大家的进一步学习后期的深度学习打下坚实的基础。

案例摘要:在互联网金融蓬勃发展的环境下,P2P 网贷在我国迅速发展起来。P2P网贷是指通过借助专业网络平台帮助借贷双方确立借贷关系并完成相关交易手续的网络借贷,是一种将小额度的资金聚集起来借贷给有资金需求人群的商业模型。对P2P信用风险进行识别是一个十分有意义的研究主题,它能够帮助P2P网贷投资者降低投资风险,也在一定程度上促进P2P行业的发展。本案例就将基于神经网络对P2P网贷中的信用风险进行识别。


任务14    朴素贝叶斯与文本分析——散户投资者情绪识别
朴素贝叶斯分类方法是一种十分简单的分类算法。之所以这个方法叫做朴素贝叶斯分类方法,是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础可以简单的表述为:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
案例摘要:投资者情绪识别是业界和学界共同关心的话题。我们认为,当投资者表现出乐观(正面)情绪,这种情绪将转化为做多行为,这有助于股票价格上涨;反之,当投资者表现出悲观(负面)情绪,这种情绪将转化为做空行为,这有助于股票价格下跌(相关的文献对于这方面观点仍有各自的表述)。在这个案例中,我们并不研究情绪与股价的关系,而是希望通过模型来识别论坛中的评论情绪类型。这项工作是后期各种基于情绪指标的交易策略的前提和基础。


任务15    总结
(1)对所有学习的模型进行综述
(2)对后期学习给出建议


yangjia1980lz 2017-11-09 11:00

任务9的实际案例中,我做GLM时,被提示:Warning messages:
1: glm.fit:算法没有聚合
2: glm.fit:拟合機率算出来是数值零或一
然后最后出来的结果却是有问题,所有的P值都是一样的,不知道会是什么原因? 。
回复(0)
回复 yangjia1980lz 数学公式

提交

提交

yangjia1980lz 2017-11-03 11:31

任务8里的密度聚类,能不能讲一个实际的案例?谢谢 。 回复(0)
回复 yangjia1980lz 数学公式

提交

提交

yangjia1980lz 2017-11-02 10:38

任务7,感觉没有讲充分,完成主成分分析,实现数据降维之后呢,该如何操作?谢谢 。 回复(0)
回复 yangjia1980lz 数学公式

提交

提交

yangjia1980lz 2017-11-02 10:28

任务7.1的案例,用SPSS出来的相关系数,与在R里出来的不一致,会是什么原因呢?谢谢 。 回复(0)
回复 yangjia1980lz 数学公式

提交

提交

yangjia1980lz 2017-11-01 21:14

请问,用scatter画出来的图里,X4和X5的线性关系不是看起来非常明显?VIF值,X4和X5也达到了18,为什么最后模型还是保留了这两个变量?另外,多元线性回归模型的选择,是不是一定要看有没有*号? 。 回复(0)
回复 yangjia1980lz 数学公式

提交

提交

xing@yumu 2017-09-22 22:14

这个老师我上过他的课,讲的很清晰,通俗易懂,理论结合实际,我个人觉得不错的选择

课程订阅

讲师介绍


Peixun.net

R语言数据分析师养成计划——从零开始的14个任务

请认真填写以下信息,方便为您服务
  • 姓名:
  • 电话:
  • 邮箱:
  • 备注:
  • 邀请码:
  • 您还可以选择 登录 或者 注册 更方便您管理课程。

Peixun.net

您关于:

R语言数据分析师养成计划——从零开始的14个任务

的报名信息已经提交成功。

去购物车结算
您可以选择 登录 或者 注册 更方便您管理课程。
回头再说

邮件已发送!

已成功发送邮件到您注册的邮箱 请前往查询并点击链接重置密码

有待解答的问题

3 名学员对您的课程提问,需要您作出回答。 现在就去