Scientific Journal of E-Business July 2013, Volume 2, Issue 3, PP.49-53
Study on the Significance of Recency in Computing Customer Value Lei Guo1,2#, Jie Liu1, Fuming Wu1 1. School of Management, Fudan University, Shanghai 200433, China 2. Shanghai Finance University, Shanghai 201209, China #Email: guolei21@gmail.com
Abstract Recency, as the important element of customer value, has been empirically verified or directly used in many papers, especially in papers of studying customers’ current and future purchase patterns. On the basis of the hypothesis about customer lifecycle and purchase behavior proposed by Schmittlein et.al and with the theory of stochastic process, this paper deduced theoretically that customer purchase behavior with lifecycle still has Markov property, which is so-called “memorylessness”. Overall, this paper proves the significance of Recency in theory and verifies the conclusion by data. Keywords: Customer Value; Recency; Poission Distribution; Markov; Memorylessness
客户价值计算中最近购买时间的意义研究* 郭磊 1, 2,刘杰 1,吴福明 1 1. 复旦大学管理学院,上海 200433 2. 上海金融学院,上海 201209 摘 要:最近购买时间(Recency)作为客户价值的重要构成要素,在众多计算客户价值的文献中被实证验证过或被直接拿 来应用,特别是在研究客户当前和未来购买行为的文献中。本文主要是基于 Schmittlein 等学者在其研究过程中对客户生 存周期和购买行为的假设,结合随机过程知识,从理论上推导出含有生存周期的购买行为依然具有马尔可夫性,即通常 所说的无后效。从而在理论上证明了最近购买时间的重要性,并运用数据验证了该结论。 关键词:客户价值;最近购买时间;泊松分布;马尔可夫性;无后效性
引言 在《礼记•中庸》中有句至理名言“凡事豫则立,不豫则废”,在如今激烈竞争的商业环境下同样适 应。随着社会的发展,由于最近几十年信息技术和信息系统的发展,大量的企业家已经不仅仅是注重事前 准备,而是更多强调对未来的预测。例如企业家会预测企业未来五年的客户数量、客户购买量或销售额等 指标,可以说在新的环境下对这句名言中“豫”字赋予新的含意。 客户作为企业实现最终利润的唯一源泉,其价值的衡量已经引起很多学者的研究兴趣 [1-4]。早期有学者 提出了 RFM 模型研究客户价值,即考虑客户的最近购买时间(Recency)、购买频率(Frequency)和金额 (Monetary)三个指标来研究客户价值,在零售、银行和电信等行业得到了应用和验证[5, 6],其中 Recency 表示 客户最后一次购买时间,衡量客户价值的过程中占有很重要地位 [7]。Guo et.al[8]对国内一家钢铁企业进行数 据分析,同时也发现 Recency 占有非常重要的地位。Schmittlein et.al[1, 2]把最近购买时间作为一个重要的变量 来预测客户购买次数和购买量。Fader.et.al[9, 10]对 Schmittlein et.al[1, 2]提出的 Pareto/NBD 模型进行了改进,大 大降低了计算难度和复杂性,但是最近购买时间依然是其计算模型最重要的指标之一。Borle 和 Singh[3]通过 *
基金资助:上海市重点学科建设资助项目(B210)。 - 49 www.sjae.org
使用购买时机、购买量和流失风险三个指标来建立模型衡量客户价值。客户的购买行为一般都是具有重复 性,即会有一系列的购买时间点,RFM 模型没有解释为什么只考虑最近购买时间,而不考虑前面的购买时 间,仅通过客户的购买数据对 Rececny 的重要性进行了实证分析,即从数据分析的结果可以看出最近购买时 间都会占有比较大的权重。为此我们基于学者们先前对客户价值的研究的假设,试图从理论上证明 Recency 的重要性,并运用时间序列验证其理论推导。
1
理论基础 随着技术发展的日新月异,企业间竞争程度的加剧,产品质量差异性减小,客户的选择将会面临更多
的选择,其选择的过程更具有随机性。 定义 1:给定的随机过程 {X (t ), t T } ,如果对任意正整数 n 2 ,任意的 t1 t2 ... tn , ti T ,任意
x1, , xn1 E 其中, E 是 X (t ) 的状态空间,总有 P[ X (tn ) xn | X (t1) x1, , X (tn1) xn1] P[ X (tn ) xn | X (tn1) xn1],
xn R
(1)
那么, { X (t ), t T } 称为马尔可夫过程。 从定义中我们可以看出,如果把时刻 tn 1 看作是“现在”,那么相对于时刻 tn 1 而言,时刻 tn 是指:“将 来”,时刻 t1, , tn2 是表示“过去”,整个过程的将来状态 X (tn ) 与过程当前状态 X (tn1) 有关,而与过程的 过去状态 X (t1) x1, , X (tn2 ) xn2 无关,即表现为马尔可夫过程具有无后效性,也称之为马尔可夫性。 泊松分布具有马尔可夫性[11],其证明过程参见随机过程的文献。
2
模型假设 如果企业掌握了客户的将来购买行为,例如购买时间点或购买量,则企业与处理与客户关系的过程中
将 会 获 得 更 多 的 主 动 权 。 Schmittlein et.al 早 在 1987 年 就 在 《 Management Scicence 》 上 发 表 一 篇 名 为 < Counting Your Customers: Who Are They and What Will They Do Next?>的文章,通过最近购买时间和购买频 次两个指标构建Pareto/NBD模型来预测客户生命周期和未来的购买量[1]。并假设客户存在时间规律服从指数 分布,即对于每一个活跃的客户来说,其生存周期服从以 为参数的负指数分布,其中 为客户流失的时 刻,其密度函数表达式为: f ( | ) e
; 0
(2)
其期望和方差分别表示为: E ( | ) 1 / , Var ( | ) 1 / 2
(3)
很早以前就有学者提出客户购买行为规律服从泊松分布,并通过数据验证了其分布规律 [12]。企业在当 今的商业环境中将面临更多的不确定性,客户选择的随机性也增大,泊松分布的应用将会更加广泛。假设 其购买行为服从强度为 的泊松分布,则其表达式为: P[ X n | , t ] et
( t ) n ; n 0,1, 2,..., n!
(4)
Var ( X n | , t ) t
(5)
其期望和方差分别表示为: E ( X n | , t ) t ,
对于时间连续,状态离散的泊松过程 N (t ), t 0 ,对于任意一个正整数 n ,把第 n 次购买的时刻记为 Wn ,则 W ,W , ,Wn 为强度 的泊松流。在客户关系管理中,通常会计算一定时间区间 (a, a t ] 内出现购买 1 2 次数 n 的概率。而泊松流{ Wn , n 1 }则可表示客户从开始到第 n 次购买总共所花的时间[11]。对任意的 n 1 , Wn 服从参数为 , n 爱尔朗(Erlang)分布[13]。 - 50 www.sjae.org
对于服从强度 的泊松流{ Wn , n 1 },记: T1 W1,
Tn =Wn Wn1
(6)
Tn 表示客户第 n-1 次购买产品与第 n 购买产品之间的时间间隔,第一次购买时间为 W T 首次购买所需要的 1 1 时间。通过研究每个 Tn 的大小,可以使企业合理安排生产计划和库存管理以满足客户的下次购买需求,变
量 Tn 是一个随机变量,而且任意 Tn , n 1 服以参数为 的指数分布 E ( ) [13] Tn (t | )
E( );
n 1
(7)
定理1:对客户购买行为的泊松分布,等价为一系列购买时间间隔 Tn (t | ) 分布,其中 Tn (t | ) 服从参数 为 的指数分布,即第一次或以后任意每两次购买的时间间隔的密度函数为: tn (t | ) et ;
n 1
(8)
在任意 t 时刻之后再次购买概率分布为: Tn (T t | ) et ,
3
n 1
(9)
考虑客户生命周期的行为特征分析 大多数的客户如果转向购买其它企业的产品或服务,并不一定会告诉先前的企业,即使告诉了企业的
工作人员,此工作人员也不一定会向上层管理者汇报。显然企业管理者很难直接掌握客户是否存在的情 况,由于客户的生命周期服从指数分布,则其累积分布函数为: t t P(t | ) 0 e d 1 e
(10)
则计算在 t 时刻客户依然存在的概率,即求客户生存周期 T t 的概率可表示为: P(T t | ) 1 P(t | ) 1 (1 e
t
)e
t
(11)
同时可以看出: P(T s t | s )
u ( s t ) P(T s t , T s ) e eut P(T t ) P(T s) eus
(12)
即客户生命周期无记忆性,对于已经存在 s 单位时间的客户至少生存到 s t 单位时间的概率与从初始到至少 生存至 t 单位时间的概率相同,即如果客户在 s 时刻依然存在,那么这个客户依然存在的时间分布等于初始 生存的时间分布,即客户先前存在的 s 单位时间对客户未来没有影响。 由于服从负指数分布的生存周期具有无后效性,假设在时刻 s 依然存在,则未来的生存分布情况与初始 时刻相同,则含有生存周期假设的客户购买的时间间隔的分布函数为: Ti' (T t | , ) eut et e
即 Ti'
( u)t
,
i 1,..., n
(13)
E ( ) ,对于含有生命周期的每一次购买时间间隔都服从 E ( ) 的分布,由于定理1的逆定理同
样的成立[13],所以含有生存周期的购买行为服从新的参数 的泊松分布。 由于含有生命周期的泊松购买行为依然是时间连续,状态离散的泊松分布,并且具有无后效性,其详 细的证明可参见随机过程的文献。
4
数据验证 A 公司作为国内一家知名的钢材贸易公司,全部通过自建的电子商务平台销售他们的钢铁产品,其客户
的生命周期长短各异。我们选择该公司的一个老客户为对象进行研究,这个客户在过去的两年内从 A 公司 - 51 www.sjae.org
总共购买了 65 次的热轧产品,从而形成了该客户的购买时间序列,并且该时间序列具有平稳性。对于具有 平稳购买时间序列的客户,可以选择适当模型对未来的购买量进行精准预测,运用程序 SAS 9.2 可以得到客 户的各种模型最小信息数值表,如表 1 所示: 表 1 MINIMUM INFORMATION CRITERION Lag MA 0
MA 1
MA 2
MA 3
MA 4
MA 5
MA6
AR 0 13.22891 13.24035 13.29202 13.30681 13.3632 13.4090 13.46732 AR 1 13.22565 13.28603 13.3163 13.34042 13.39181 13.43479 13.4975 AR 2 13.26767 13.29592 13.34808 13.40255 13.44079 13.47397 13.53508 AR 3 13.29252 13.34419 13.40774 13.46289 13.50219 13.53784 13.59475 AR 4 13.35514 13.38043 13.44431 13.5067 13.56633 13.5962 13.65681 AR 5 13.39906 13.41616 13.46952 13.52581 13.58652 13.64217 13.68187 AR 6 13.44364 13.47799 13.51594 13.57962 13.64382 13.70419 13.7164 Error series model: AR(6) Minimum Table Value: BIC(1,0) = 13.22565
应用 MINIC 准则(Minimum Information Criterion,最小信息准则),可以判别该客户的 BIC 指数中最小的 模型为 BIC(1,0),即 BIC 指数最小的模型为 ARMA(1,0)模型(ARMA, Auto-Regressive Moving Average,自 回归移动平均模型),亦即属于 AR(1)模型(The First –Order Auto-Regressive Model,一阶自回归模型)。 故该客户购买行为模型可以确定为 AR(1),然而对于 AR(1)模型而言,客户的每一次购买行为 X t 仅与最近 一 次 购 买 行 为 X t 1 有 线 性 关 系 ; 在 最 近 一 次 购 买 行 为 X t1 确 定 的 情 况 下 , 与 更 早 期 的 购 买 行 为 X t 2 , X t 3 , 则无关。
除了对模型的进行参数估计和拟合之外,还应当使得估计值后的模型残差项不存在自相关,即模型的 残差项为白噪声。该客户购买时间序列模型的残差项白噪声检验结果如表 2 所示: 表 2 AUTOCORRELATION CHECK FOR WHITE NOISE To Lag
ChiSquare
Pr > DF ChiSq
6 12
6.56 12.72
6 12
-----------------------Autocorrelations-----------------
0.3638 0.221 -0.056 -0.166 -0.043 0.3900 -0.172 0.055 0.083 0.098
-0.068 -0.091 0.044 -0.166
从表 2 中可以很容易看出“Pr>ChiSq”均远大于 (0.05,假定的显著性水平)。即该模型中的各滞后期的 残差项不存在自相关,故为该客户建立的 AR(1)模型的残差项是为白噪声。因此,认为 AR(1)模型对于该客 户的购买时间序列预测来说是合适的。从数据上验证了客户的购买行为仅与最近一次的购买行为有关,而 与更早期的购买行为无关。
5
结论 对于购买行为服从泊松分布的客户来说,通过上述的理论分析,可以得出含有生命周期为指数分布的
客户购买行为依然为泊松分布,具有无后效性。即客户未来购买情况只与最近一次购买行为有关,而与早 期历史购买行为无关,从理论上解释了在客户价值计算过程为什么只考虑最后一次购买行为。同时以客户 网上交易记录数据为基础,运用时间序列分析验证了这个结论。本文的研究有助于深入认识客户价值计算 构成要素Recency,理解客户价值计算的指标选择,完善客户价值计算理论的发展。
REFERENCES [1]
Schmittlein D C, Morrison D G, Colombo R. Counting Your Customers: Who Are They and What Will They Do Next?[J]. Management Science. 1987, 33(1): 1-24.
[2]
Schmittlein D C, Peterson R A. Customer Base Analysis: An Industrial Purchase Process Application [J]. Marketing Science. 1994, 13(1): 41-67. - 52 www.sjae.org
[3]
Borle S, Singh S S, Jain D C. Customer Lifetime Value Measurement [J]. Management Science. 2008, 54(1): 100-112.
[4]
Kumar V, Rajan B. Profitable Customer Management: Measuring and Maximizing Customer Lifetime Value [J]. Management Accounting Quarterly. 2009, 10(3): 1-18.
[5]
Sheng L, Xu X. A Method of Telecom Consumer Market Segmentation Based on the RFM Model [J]. Journal of Harbin Institute of Technology. 2006, 38(5):758-760.
[6]
Xiao-Yu Z, Xiao-Yuan H, Fu-Quan S. An Optimization Model for Promotion Mix Strategy Based on RFM Analysis [J]. Chinese Journal of Management Science. 2005, 13(1): 60-64.
[7]
Liu D, Shih Y. Integrating AHP and Data Mining for Product Recommendation Based on Customer Lifetime Value [J]. Information & Management. 2005, 42(3): 387-400.
[8]
Guo L, Liu J, Lu X. Exploratory Analysis on Components of Customer Value[C]. The 3rd International Conference on E-Business and E-Government, Shanghai, 2012: 6128-6132.
[9]
Fader P S, Hardie B G S, Lee K L. "Counting Your Customers" the Easy Way: An Alternative to the Pareto/NBD Model [J]. Marketing Science. 2005, 24(2): 275-284.
[10] Fader P, Hardie B, Berger P. Customer-Base Analysis with Discrete-Time Transaction Data [DB/OL]. Available at SSRN 596801, 2004. [11] Ross S M. Introduction to Probability Models [M]. Tenth Edition Waltham: Academic Press, 2009. [12] Malcolm Wright, Zane Kearns. Progress in Marketing Knowledge [J]. Journal of Empirical Generalizations in Marketing Science, 1998, 3(1): 1-21 [13] Feller W. An Introduction to Probability Theory and Its Applications [M]. Hoboken: John Wiley & Sons, 2008.
【作者简介】 1
郭磊(1981- ),男,汉,研究生,
2
刘杰(1963- ),男,汉,博士,教授,管理信息系统、电
博士生,信息管理与信息系统、客户
子商务与电子政务 ,同济大学博士, 复旦大学博士后。
价值,复旦大学管理学院 2009 级博士
Email: Liujie@fudan.edu.cn
研究生。
3
Email: guolei21@gmail.com
信息系统,复旦大学管理学院 2008 级博士研究生。
吴福明(1984- ),男,汉,研究生,博士生,信息管理与
Email: w_f_ming@163.com
- 53 www.sjae.org