数据分析与应用航空公司客户价值分析实用教案.pptx
上传人:王子****青蛙 上传时间:2024-09-13 格式:PPTX 页数:31 大小:1.4MB 金币:10 举报 版权申诉
预览加载中,请您耐心等待几秒...

数据分析与应用航空公司客户价值分析实用教案.pptx

数据分析与应用航空公司客户价值分析实用教案.pptx

预览

免费试读已结束,剩余 21 页请下载文档后查看

10 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

分析(fēnxī)航空公司现状分析(fēnxī)航空公司现状目前航空公司已积累了大量的会员档案信息和其乘坐航班记录。以2014-03-31为结束时间,选取宽度为两年的时间段作为(zuòwéi)分析观测窗口,抽取观测窗口内有乘机记录的所有客户的详细数据形成历史数据,44个特征,总共62988条记录。数据特征及其说明如右表所示。航空公司客户(kèhù)数据说明原始数据中包含40多个(duōɡè)特征,利用这些特征做些什么呢?我们又该从哪些角度出发呢?借助航空公司客户数据,对客户进行分类。对不同的客户类别进行特征分析,比较不同类别客户的客户价值。对不同价值的客户类别提供个性化服务,制定(zhìdìng)相应的营销策略。公司收入的80%来自顶端的20%的客户。20%的客户其利润率100%。90%以上的收入来自现有客户。大部分的营销预算经常被用在非现有客户上。5%至30%的客户在客户金字塔中具有升级潜力。客户金字塔中客户升级2%,意味着销售收入增加10%,利润增加50%。这些经验也许并不完全准确,但是(dànshì)它揭示了新时代客户分化的趋势,也说明了对客户价值分析的迫切性和必要性。熟悉航空(hángkōng)客户价值分析的步骤与流程通过对数据观察发现原始数据中存在票价为空值,票价最小值为0,折扣率最小值为0,总飞行公里数大于0的记录。票价为空值的数据可能是客户不存在乘机记录造成。处理方法:丢弃票价为空的记录。其他的数据可能是客户乘坐0折机票或者积分(jīfēn)兑换造成。由于原始数据量大,这类数据所占比例较小,对于问题影响不大,因此对其进行丢弃处理。处理方法:丢弃票价为0,平均折扣率不为0,总飞行公里数大于0的记录。本项目的目标是客户价值分析,即通过航空公司客户数据识别不同价值的客户,识别客户价值应用最广泛的模型是RFM模型。R(Recency)指的是最近一次消费时间与截止(jiézhǐ)时间的间隔。通常情况下,最近一次消费时间与截止(jiézhǐ)时间的间隔越短,对即时提供的商品或是服务也最有可能感兴趣。F(Frequency)指顾客在某段时间内所消费的次数。可以说消费频率越高的顾客,也是满意度越高的顾客,其忠诚度也就越高,顾客价值也就越大。M(Monetary)指顾客在某段时间内所消费的金额。消费金额越大的顾客,他们的消费能力自然也就越大,这就是所谓“20%的顾客贡献了80%的销售额”的二八法则。RFM模型包括三个特征,使用(shǐyòng)三维坐标系进行展示,如图所示。X轴表示Recency,Y轴表示Frequency,Z轴表示Monetary,每个轴一般会分成5级表示程度,1为最小,5为最大。在RFM模型(móxíng)中,消费金额表示在一段时间内,客户购买该企业产品金额的总和,由于航空票价受到运输距离,舱位等级等多种因素影响,同样消费金额的不同旅客对航空公司的价值是不同的,因此这个特征并不适合用于航空公司的客户价值分析。本项目选择客户在一定时间内累积的飞行里程M和客户在一定时间内乘坐舱位所对应的折扣(zhékòu)系数的平均值C两个特征代替消费金额。此外,航空公司会员入会时间的长短在一定程度上能够影响客户价值,所以在模型中增加客户关系长度L,作为区分客户的另一特征。本项目将客户关系长度L,消费时间间隔R,消费频率F,飞行里程M和折扣(zhékòu)系数的平均值C作为航空公司识别客户价值的关键特征(如表32所示),记为LRFMC模型。完成五个特征的构建以后,对每个特征数据分布情况进行分析,其数据的取值范围如表所示。从表中数据可以发现,五个特征的取值范围数据差异较大(jiàodà),为了消除数量级数据带来的影响,需要对数据做标准化处理。LOAD_TIMEK-Means聚类算法是一种基于质心的划分方法,输入聚类个数k,以及包含n个数据对象的数据库,输出满足误差平方和最小标准的k个聚类。算法步骤如下。从n个样本数据中随机选取k个对象作为(zuòwéi)初始的聚类中心。分别计算每个样本到各个聚类质心的距离,将样本分配到距离最近的那个聚类中心类别中。所有样本分配完成后,重新计算k个聚类的中心。与前一次计算得到的k个聚类中心比较,如果聚类中心发生变化,转(2),否则转(5)。当质心不发生变化时停止并输出聚类结果。K-Means聚类算法是在数值类型数据的基础上进行研究,然而数据分析(fēnxī)的样本复杂多样,因此要求不仅能够对特征为数值类型的数据进行分析(fēnxī),还要适应数据类型的变化,对不同特征做不同变换,以满足算法的要求。K-Means算法在R语言中实现的核心(héxīn)函数为kmeans,来源于stats软件包,其基本语法如下。kmeans(x,centers,iter.max=