SAS电商数据挖掘案例
1.数据挖掘与统计分析:
1.1 验证性还是探索性
1.2 问题如何量化
1.3 数据量(行、质量、列、重复利用) ;
1.4 时间、精确度与商业价值的折中
1.5 模型的相关性侧重
1.6 分析流程中侧重点的转移
1.7 图表与报告展示
1.8 SEMMA 分析流程——sample、explore、modify、model、assess
2.数据挖掘软件简介
2.1 sas(em) 、spss(modeler)
2.2 python、weka、intelligent miner
2.3 r、sqlserver、hadoop
3. 数据源:访问数据库及其不同文件格式
3.1 访问文本、Excel 文件
3.2 访问常用统计软件的文件格式
3.3 访问数据库(Oracle、mysql 等)
3.4SAS 数据源 DMDB;
4. RFM 价值模型;
4.1 直方图或散点图描述数据;
4.2 抽样:限制样本量;
4.3 分箱:数据离散化;
4.4 图形(热图)与制表:对 RFM 结果进行评价。
5. 预测分析:DM 回归与 logistic、神经网络、决策树;
5.1 案例 1:库存的优化方案(DM 回归和神经网络)
5.2 案例 2:客户流失模型(神经网络)
5.3 案例 3:客户重构分析(logistic)
5.4 案例 4:基于订购行为的营销分析(决策树)
6. 关联分析:购物篮分析
6.1 案例 1:购物篮分析及商品最优结构特征优化;
6.2 案例 2:购物序列分析及购买推断;
7. 市场细分:聚类分析
7.1 案例 1:细分客户特征及异常检测
7.2 案例 2:大样本之两步聚类
8. 组合模型:评价及整合分析
8.1 案例 1:用户行为偏好的组合预测;
8.2 案例 2:用户行为偏好的模型整合分析;
SAS数据挖掘
数据挖掘简介:
数据挖掘(Data Mining)是一项知识发现、商业智能、预测模型的集合,目的在于帮助用户探析数据,以发现有意义的规则模式过程。数据挖掘技术最显著的特征如下:
海量数据:随现代企业级数据的膨胀,“TB级别”的数据库存储已并不罕见,诸如银行、医疗、零售、电信、保险等行业,由此带来的问题是传统统计算法的效率偏低,无法满足时间上的需求,显然数据挖掘算法解决了很大一部分的时间效率问题,但也由于分析工具或计算机本身的局限,因此数据挖掘也在不同的技术层面上展开——统计算法问题和计算机分布式问题。
Map-reduce
有意义的规则模式:业务产生数据,也必然产生行为规则模式,数据库知识发现也许并不困难, 不过具有核心意义的是——是否能带来利润的提升;在成本和收益最大化的基础上,提高客户响应,最大程度保留客户、洞察市场,提出运营策略,作为决策的有用支撑,这也许就决定了数据挖掘算法与业务的紧密性。
规则模式
消费者行为偏好:服务或产品最终要回归消费者,消费者信息的获取,如人口信息、行为偏好、关系渠道是预测消费行为,尤其是选择性偏好的核心因素,这使得数据挖掘技术在消费者的信息管理与消费行为取向间起到桥梁连接作用,将信息和行为整合在一个行为框架中,更有利于全面的解析消费者的下一个购买行为。
行为倾向
学员对象
1. 从事银行、电商、医药、电信等行业的业务人员或数据分析人员;
2. 有志于从事银行、电商、医药、电信等行业数据挖掘的本科生、研究生;
3. 从事于数据库营销、执行方案规划人士;
4. 希望快速掌握sas软件的基础、提升统计分析实战能力的分析人员。
课程目标
1. 掌握数据处理的一般过程及其商业模式下的数据分析过程;
2. 帮助学员完成常用数据访问工作,如访问数据库、本地文件及其不同格式的转换;
3. 灵活地运用sas软件进行数据清理、管理等预分析的工作;
4. 能够灵活应用常用的建模方法,由浅入深,了解基本建模分析和高级建模分析;
5. 掌握商业报告的基本格式——表格、图形、报告。
课程特色
1. 灵活的咨询与培训形式,企业可以根据实际业务需求定制培训方案。
2. 本课程的内容安排遵循数据处理的一般流程,有助于研习数据挖掘方法及其分析思路,既可以帮助初学者熟悉数据挖掘的基本概念与应用,也适合有一定基础和应用经验的学员快速回顾软件与算法。课程内容通俗易懂,由浅入深。
3. 统计与业务问题相结合,不同的实际问题对应着不同参数的调整,力求算法与业务的有效整合,从而能精确定位模型与业务问题,提供策略方案。
4. 每个章节设有问题情境及其真实案例分析,可以在巩固知识点的同时进一步加深软件操作与实务。最终实现问题与工具的综合运用。
课程目录大纲:
1.数据挖掘简介
1.1数据挖掘流程简介
——案例串讲:需求、数据、清理、建模、报告
——SEMM分析流程
——业务分析流程
1.2数据挖掘与统计分析
——项目分析流架构(需求、算法、时间)
1.3数据挖掘软件简介
2.数据源:访问数据库及其不同文件格式
——访问文本文件
——访问Excel文件
——访问常用统计软件的文件格式
——访问数据库(Oracle、db2等)
——SAS数据源DMDB;
3. 数据挖掘案例分析
3.1RFM查询模型
——案例:衡量客户价值模型(RFM),使用抽样、合并、制表等技术。
3.2预测分析:DM回归与logistic、神经网络、决策树
——案例1:库存的优化方案(回归和神经网络),使用测量级别、变量筛选、缺失值分析等技术;
——案例2:客户流失模型(神经网络),使用数据审核、变量变换、主成分、分区、图形等技术。
——案例3:客户欺诈分析(logistic),使用变量整合与分箱技术。
——案例4:客户流失分析(决策树),制作报告;
3.3关联分析:购物篮分析
——案例1:购物篮分析及商品最优结构特征优化;
——案例2:购物序列分析及购买推断;
3.4 市场细分:聚类分析
——案例:细分客户特征及异常检测(聚类),使用海量样本的两步聚类;
3.5自动建模:组合模型
——案例:用户行为偏好的组合预测及模型整合技术。