基于Pareto_NBD模型的電子商務(wù)網(wǎng)站客戶流失預(yù)測研究_代逸生
第10卷 第27期 2010年9月1671—1815(2010) 27-6792-04 科 學(xué) 技 術(shù) 與 工 程ScienceTechnologyandEngineeringol. 10?。危? 2
第10卷 第27期 2010年9月1671—1815(2010) 27-6792-04
科 學(xué) 技 術(shù) 與 工 程
ScienceTechnologyandEngineering
ol. 10?。危? 27?。樱澹? 2010?。?/p>
2010?。樱悖? Tech. Engng.
基于Pareto/NBD模型的電子商務(wù)
網(wǎng)站客戶流失預(yù)測研究
代逸生 沈培蘭 孫紅霞
(江蘇科技大學(xué)經(jīng)濟管理學(xué)院, 鎮(zhèn)江212003)
*
摘 要 非契約情景下的客戶流失問題越來越引起各方重視。作為此情景下的典型———電子商務(wù)網(wǎng)站而言, 因其特殊性使得網(wǎng)站客戶流失問題更難判斷。Pareto/NBD模型是描述非契約客戶關(guān)系情景下首個考慮到客戶流失現(xiàn)象的客戶重復(fù)購買預(yù)測模型, 它通過預(yù)測客戶的活躍程度P(active) , 較好的解決了客戶流失預(yù)測問題。以Pareto/NBD模型為基礎(chǔ)模型對某電子商務(wù)網(wǎng)站進(jìn)行實證研究以此來驗證模型解決非契約情景下流失預(yù)測問題的有效性。關(guān)鍵詞 電子商務(wù) 客戶流失 ?。校幔颍澹簦?NBD模型 預(yù)測中圖法分類號?。裕?93. 07; 文獻(xiàn)標(biāo)志碼

A
在激烈的電子商務(wù)市場競爭中, 有一個問題越來越引起電子商務(wù)運營商的重視, 即如何能夠保持住客戶, 防止客戶流失。而這一問題的解決并非易事。電子商務(wù)網(wǎng)站中的客戶關(guān)系不同于一般企業(yè), 有著其特殊性。一般企業(yè)的客戶與企業(yè)以契約來維持客戶關(guān)系, 即契約關(guān)系(Contractualsetting) , 而電子商務(wù)網(wǎng)站中的客戶關(guān)系則屬于典型的非契約關(guān)系(Noncontractualsetting) (ReinartzandKumar2000) 。兩者主要區(qū)別就在于契約關(guān)系中的客戶關(guān)系的終結(jié)可觀測, 而非契約關(guān)系中的客戶關(guān)系沒有約束, 關(guān)系的終止難以定義也難以觀測。
為了解決網(wǎng)站中客戶流失難以預(yù)測的問題, 就必須找到一個有效的預(yù)測方法模型來解決這一難題, 從而為網(wǎng)站的運營者能在預(yù)知客戶是否流失的情況下進(jìn)一步進(jìn)行客戶流失分析, 找出流失原因,
[1]
采取措施降低客戶流失率提供幫助。Pareto/NBD模型是描述非契約客戶關(guān)系情景下首個考慮到客戶流失現(xiàn)象的客戶重復(fù)購買預(yù)測模型, 它通過預(yù)測客戶的活躍程度P(active) , 較好地解決了客戶流失預(yù)測問題。最近已經(jīng)在一些研究中得以應(yīng)用(Faderetal. 2005; ReinartzandKumar2000)
[1, 2]
。本文以
Pareto/NBD模型為基礎(chǔ)模型對某電子商務(wù)網(wǎng)站進(jìn)行實證研究以此來驗證模型解決非契約情景下流失預(yù)測問題的有效性, 為網(wǎng)站運營商提供參考。
1 Pareto/NBD模型
Pareto/NBD模型是由Schmittleinetal. (1987)
[3]
提出, 是用于描述非契約客戶關(guān)系情景下客戶重復(fù)購買行為的模型。它是首個考慮到客戶流失現(xiàn)象的客戶重復(fù)購買預(yù)測模型, 模型提供的客戶活躍度P(ac-tive) , 很好地解決了用戶流失預(yù)測問題。
在對客戶活躍度進(jìn)行估計之前, Pareto/NBD模型提出5個基本假設(shè), Morrison&Schmittlein(1988) 、Uncles&Ehrenberg(1990) 與Schmittlein&Peterson(1994) 曾對以下的五個假設(shè)進(jìn)行驗證, 結(jié)果顯示假設(shè)都是成立的:
1[6]
[5]
[4]
2010年6月25日收到
第一作者簡介:代逸生(1965—) , 男, 江蘇科技大學(xué)經(jīng)濟管理學(xué)院教授, 研究方向:信息管理, 計量經(jīng)濟研究。
*
通信作者簡介:沈培蘭(1987—) , 女, 江蘇科技大學(xué)經(jīng)濟管理學(xué)院
碩士研究生, 研究方向:電子商務(wù), 信息管理研究。E-mail:shenpei-lan@163. com。
,27期代逸生, 等:基于Pareto/NBD模型的電子商務(wù)網(wǎng)站客戶流失預(yù)測研究6793
購買服從購買率(purchaserate) 為λ的泊松分布。
當(dāng)個體客戶具有活躍性時, 交易率是λ, 交易次數(shù)為x, 觀察時期長度為(0, T) , 其中0為初次交易的時間, 則其未來購買概率呈泊松分布(Poissondis-tribution) , 設(shè)客戶生存時間長度為τ:
X=x/λ, τ =e期望值以及方差為:
X/λ, τ =λT; V/λ, τ =λT。
(2) 個體客戶之間的購買率有較大差異, 呈伽瑪分布(gammadistribution) 。其概率密度函數(shù)如下:
γ-1-αλ
g(λ/γ, α) λe; λ, γ, α 0
Γ(γ) λ/γ, ; Vaλ/γ, 。
α參數(shù)γ是客戶間交易率差異性大小的指針。γ值愈大, 交易率不同程度愈大, 反之亦然。上式表示, 在客戶全體平均交易率之期望值為下, 個體客戶交易率為λ之概率。
(3) 個體客戶生存時間呈指數(shù)分布(exponen-tialdistribution) , 并且設(shè)μ為個體客戶流失率(deathrate) , 則個體客戶生存時間(τ) 的概率密度函數(shù)如下:
f(τ/μ) =μe, τ 0τ; Vaτ2。
μμ
(4) 不同客戶間的流失率μ服從gamma(s, β)分布, 其中s, β為分布參數(shù)。
βs-1-βμ
g(μ/s, β)μe; μ, s, β 0
Γ(s) μ/S, =s/β;Vμ/S, =(s/β)。參數(shù)s是客戶間流失率差異性大小的指針。s值愈大, 流失率不同程度愈大, 反之亦然。上式表s
示, 在客戶全體平均流失率之期望值為的情況
β下, 個體客戶流失率為μ之概率。
(5) 客戶購買率λ和客戶流失率μ獨立。

P2
s
-μτ
2
γ
2
-λT
假設(shè)t為最近一次的交易時間:如果客戶在(0, T) 內(nèi)發(fā)生x次重復(fù)購買, 最后一次交易發(fā)生在tx T, 則其在T時刻“活”著(未流失) 的概率為:
P(active/γ, α, s, β,X=x, t) =x, T
γ xxs
(α T) (β T) Α10
γ s -1
, x=0, 1, 2(1) x!
x
(5)
當(dāng)α≥β時:
α-F s x, s 1; γ s x 11γ
α Α-0(α t) x
22
α-F s x, s 1; γ s x 11γ
, (α T)
(2)
當(dāng)α≤β時:
F s x, s 1; γ s x 11γβ A-0(β tx)
22
γ
的情況α
F s x, s 1; γ s x 11γβ 。(β T)
其中2F. ) 為高斯超幾何函數(shù)。1(
計算出個體客戶的活躍性概率以后, 只要將這些概率相加, 便可以得出具有活躍性客戶人數(shù)的估計值, 從而以此來判斷企業(yè)客戶流失及保持的具體情況。
(3)
2 實證研究
2. 1 數(shù)據(jù)處理
Pareto/NBD模型的參數(shù)估計需要三類客戶歷史數(shù)據(jù)信息, 即X=(x, t) , 其中x表示客戶在x, T[0, T]內(nèi)購買次數(shù), t表示客戶的最后一次購買的時x間, T表示客戶交易歷史的長度。
本論文選用某網(wǎng)站作為研究對象。根據(jù)網(wǎng)站客戶數(shù)據(jù)庫我們提取出其中2004年1月到2009年1月共60個月的客戶交易數(shù)據(jù)。以2004年6月~2006年5月發(fā)生初次購買的客戶為樣本, 將客戶初次購買的月份定為0, 觀察期截止為2008年1月, 2008年1月~2009年1月這12個月做為預(yù)測驗(4)
,6794科 學(xué) 技 術(shù) 與 工 程
表1 觀察期內(nèi)客戶P(active) 值分布匯總
P(active) 0. 8~10. 6~0. 80. 4~0. 60. 2~0. 40~0. 2
觀察期內(nèi)客戶數(shù)
56571097
10卷
舉例說, 對于2004年5月初次購買的客戶, T=44, 如果在觀察期內(nèi)最后一次購買在2007年12月, 則t43。首先我們對數(shù)據(jù)先進(jìn)行過濾處理, 去除x=一些非目標(biāo)客戶, 對于中間有25個月以上購買間歇的客戶進(jìn)行了拆分處理, 即25個月間歇后再次購買的客戶被認(rèn)為是新的客戶。2. 2 參數(shù)估計
參數(shù)估計我們采用最大似然方法進(jìn)行估計, 并以MATLAB7. 0作為參數(shù)估計、預(yù)測的工具。
Pareto/NBD模型的最大似然函數(shù)為:
N
要知道模型所預(yù)測出的結(jié)果是否準(zhǔn)確就必須對其進(jìn)行驗證, 本文通過觀察期計算出P(active) 值與驗證期的P(Y(t) >0) (客戶在未來t時間內(nèi)發(fā)生至少一次購買的概率) 值之間的相關(guān)性來檢驗?zāi)P蛯蛻袅魇ьA(yù)測的效果。
如果客戶在(0, T) 內(nèi)發(fā)生了x次購買, 且最后一次交易發(fā)生在tT, 則其在(T, T t) 內(nèi)購買至x<少一次的概率為:
P(Y(t) ) =P(Y(t) 0/active. at. T) ×P(active. at. T)
(8)
由此公式(8) 可知, P(active) 的值必然是大于P(Y(t) >0) , 兩者還存在較強的正相關(guān)關(guān)系。
令q表示為T時刻具有相同P(active) 值的客戶數(shù)在(T, T t) 內(nèi)至少發(fā)生一次購買的客戶數(shù)與在T時刻具有相同P(active) 值的客戶數(shù)兩者的比值, 在(T, T t) 內(nèi)發(fā)生購物的客戶數(shù)是我們可以直接從驗證期樣本中直接觀測, q值即為P(Y(t) >0) 實際值。
本文用后12個月作為預(yù)測驗證期, 即t=12來檢驗P(active) 值與q值的關(guān)系以此驗證模型。具體結(jié)果見表2。
表2 驗證期內(nèi)至少購買一次的客戶數(shù)與q值
P(active) 觀察期內(nèi)客戶數(shù)0. 8~10. 6~0. 80. 4~0. 60. 2~0. 40~0. 2
56571097
驗證期至少購買一次的客戶數(shù)
462101
比值q0. 820. 400. 140. 000. 01
LL(γ, α, s, β)=∏L(γ, α, s, β/X=xi, txi, Ti)
i=1
(6)
其中
L(γ, α, s, β/X=x, t) =x, T
sΓ(γ x) αβi
s (α Tβ T) γΓ(r) i) (i
rs
(7)
最終得出參數(shù)估計的結(jié)果為:γ=2. 60, α=14. 96, s=0. 34, β=3. 25, LL=-1718. 6。從參數(shù)估計結(jié)果來看, 當(dāng)客戶處于活躍期時, 平均購買率為
γ
=0. 17/月, 也就是每年約2. 1次。γ=2. 60說α
明購買率在不同客戶之間差異比較大??蛻羝骄?/p>
流失率為=0. 105也就是說客戶與網(wǎng)站平均保持
β的時間為9. 52個月, s=0. 34說明流失率在不同客戶間差異比較小。
2. 3 客戶活躍度計算及結(jié)果驗證
客戶活躍度是Pareto/NBD模型的最重要的結(jié)果, 其結(jié)果能夠反映客戶在某一時刻“存活”的概率。
根據(jù)數(shù)據(jù)處理部分篩選出175位為有效客戶, 并對其在觀察期內(nèi)的活躍度P(active) 進(jìn)行計算, 具體按公式(5) 計算。將活躍度值劃分區(qū)間, 對各區(qū)間內(nèi)的客戶數(shù)進(jìn)行匯總具體見表1。
將數(shù)據(jù)轉(zhuǎn)化成圖表形式。
,
27期代逸生, 等:基于Pareto/NBD模型的電子商務(wù)網(wǎng)站客戶流失預(yù)測研究6795
去分析, 劃分客戶, 對不同的客戶制定不同的策略, 保持并留住客戶的同時為企業(yè)獲得更多的收益。
參 考 文 獻(xiàn)
1 WernerR, KumarV. Ontheprofitabilityoflong-lifecustomersinanoncontractualsetting:anempiricalinvestigationandimplicationsformarketing. JournalofMarketing, 2000; 64(4) :17—35
2?。疲幔洌澹颍校? BruceGSH, LeeKL. Countingyourcustomerstheeasy
圖1 圖表形式
way:analternativetothePareto/NBDmodel. MarketingScience, 2005; 24(2) :275—284
3?。樱悖瑁恚椋簦簦欤澹椋睿模? MorrisonDG. ColomboR. Countingyourcustom-ers:whoaretheyandwhatwilltheydonext? ManagementScience, 1987; 33(1) :1—24
4 MorrisonD, SchmittleinD. GeneralizingtheNBDmodelforcustomerpurchases:whataretheimplicationsandisitworththeeffort? . JournalofBusinessandEconomicStatistics, 1988; 6(2) :145—1595?。眨睿悖欤澹螅停? EhrenbergASC. Industrialbuyingbehavior:aviation
從圖1中可以直觀發(fā)現(xiàn)觀察期內(nèi)活躍度高的客戶在驗證期內(nèi)活躍度相對不會低, 通過相關(guān)性分析得出q值與P(active) 值有較強的相關(guān)性, 相關(guān)系數(shù)為0. 92, 同時q值是小于P(active) , 與理論也是相符。這也就很好地說明了模型計算出的P(active) 值是能夠較好地預(yù)測到客戶流失的, 有可用的價值。
3 結(jié)論
通過實證研究證明, 在非契約關(guān)系下, Pareto/NBD模型在實際應(yīng)用中能夠很好的為客戶流失的預(yù)測提供有效的信息。同時, 根據(jù)這一預(yù)測結(jié)果我們可以進(jìn)行更進(jìn)一步的研究, 采用數(shù)據(jù)挖掘的方法
fuelcontracts. InternationalJournalofResearchinMarketing, 1990; (7) :57—68
6?。樱悖瑁恚椋簦簦欤澹椋睿模? PetersonRA. Customerbaseanalysis:anindustrialpurchaseprocessapplication. MarketingScience, 1994; 13:41—677 夏國恩, 金煒東. 基于支持向量機的客戶流失預(yù)測模型. 系統(tǒng)工程理論與實踐, 2008; (1) :71—77
ResearchforE-commerceCustomerChurnsBasedonPareto/NBDModel
DAIYi-sheng, SHENPei-lan, SUNHong-xia
(JiangsuUniversityofScienceandTechnology, Zhenjiang212003, P. R. China)
*
[Abstract] Theproblemofcustomerchurninnon-contractualsettingisrisingmoreandmoreattention. Astypi-calofthissetting-E-commercesites, becauseofitsspecificitymakesmoredifficulttojudgecustomerschurninthissite. Pareto/NBDmodelistoforecastcustomersrepeatpurchasebehaviours, whichisthefirstmodelthattakesintoaccountofcustomerchurninNon-contractualsetting. BypredictingP(active) , itisbettertosolvecustomerchurnprediction. Inthispaper, usingPareto/NBDmodelasbasedmodeltoempiricalstudyine-commercesiteandalsotestandverifythevalidationofthePareto/NBDtosolvecustomerchurnproblemsinnon-contractualsetting. [Keywords]?。?commerce ?。悖酰螅簦铮恚澹颍悖瑁酰颍睢 。穑幔颍澹簦?NBDmodel ?。穑颍澹洌椋悖簦椋铮?/p>