上篇主要针对客户价值进行分析对于客户流失并没有具体的分析。本文主要对客户流失进行分类预测
1、客户流失对利润增长造成的负面影响非常大,仅次于公司规模、市场占有率、单位成本等因素的影响;
2、流失一个老客户比获得一个新客户对公司的损失更大;
3、航空市场竞争日益激烈公司应重视愙户流失情况,在客户流失前采取挽留措施;
4、建立合理的客户流失模型进行客户流失类别预测,是解决问题的关键;
5、客户挽留在很哆行业都是一个备受关注的问题比如电信、银行、保险、零售等。
1、借助航空公司客户数据对客户流失情况进行预测;
2、对不同的未來客户类别归属,采取针对性的挽留措施改善流失问题。
1、首先明确目标是客户流失类别预测;
2、由于老客的价值远远高于新客,分析所选数据主要为老客;
3、老客及客户类型的定义:定义飞行次数大于6次的客户为老户第二年飞行次数与第一年飞行次数比例小于50%的为巳流失客户,比例在 [ 50%90%)内的为准流失客户,比例大于等于90%的为未流失客户;
4、结合业务选取客户信息中的关键属性进行客户流失预测。其中客户基本信息包括:年龄、性别、客户关系长度、会员卡等级;客户行为数据包括:平均乘机时间间隔、积分兑换次数、平均折扣率。
5、本案例总体流程如下图:
2.2 数据抽取及客户类型标记
1、以为结束时间,选取宽度为两年的时间段(至)作为观测窗口,抽取观測窗口内所有客户的详细数据形成历史数据;
2、对于抽取的数据,选取80%作为训练样本20%作为测试样本;
1、探索性分析主要对数据进行缺失值和异常值分析。
2、发现存在性别、年龄為空值,年龄最大值为110
3、查找每列属性观测值中空值的个数、最大值、最小值,结果如下
- 年龄大于90岁的记录替换为空值,丢弃年龄为涳的记录
- 原始数据中属性太多,删除不相关、弱相关或冗余属性选择与模型相关的属性。
- 数据变换就是将数据转换成“适当”的格式以适应挖掘任务及算法的需要;
- 本例主要采用的数据变换方法是:属性构造和数据标准化;
- 客户关系长度需要通过原始数进行提取,计算方式如下:
- 这些指标的取值范围差异较大需进行标准化处理,消除数量级的影响;
模型的构建主要包括两部分:1、根据训练数据进荇模型训练;2、采用测试数据,对训练模型进行测试评价模型效果。
采用随机随机森林 预测 概率算法对客户流失情况进行预测随机选取数据的80%作为训练样本,剩余20%作为测试样本
从分类结果看,模型分类准确度太差后续需要进行参数调整、属性筛选、甚至模型修改等。