摘 要: 以網(wǎng)上書(shū)店為例,利用貝葉斯分類(lèi)預(yù)測(cè)技術(shù),進(jìn)行了發(fā)現(xiàn)潛在客戶群體的研究,用隨機(jī)選取的10組樣本進(jìn)行試驗(yàn)預(yù)測(cè),預(yù)測(cè)準(zhǔn)確率達(dá)96.5%,表明了該算法是有效的。
關(guān)鍵詞: 數(shù)據(jù)挖掘;貝葉斯分類(lèi);潛在用戶;網(wǎng)上書(shū)店
當(dāng)前信息時(shí)代發(fā)展迅猛,電子商務(wù)的興起使得用戶和商家都借助于Internet這個(gè)平臺(tái)進(jìn)行交流,方便用戶購(gòu)書(shū)的網(wǎng)上書(shū)店也隨之發(fā)展起來(lái)。在服務(wù)成本加大、而收效甚微的前提下,商家面臨著拓寬客戶的問(wèn)題。挖掘潛在顧客群體,為網(wǎng)站經(jīng)營(yíng)者在激烈的市場(chǎng)競(jìng)爭(zhēng)中洞察先機(jī)、調(diào)整有效的顧客服務(wù)策略,提供準(zhǔn)確的參考信息及科學(xué)的決策依據(jù),最終達(dá)到識(shí)別潛在顧客、吸引新顧客、真正做到以顧客價(jià)值為中心,全方位為其提供整體服務(wù),從而提升品牌、促進(jìn)消費(fèi),在總體上減少商業(yè)成本并增加利潤(rùn)。
國(guó)內(nèi)外關(guān)于面向Web日志挖掘用戶行為及潛在顧客信息的研究發(fā)現(xiàn),其包括三個(gè)過(guò)程:數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析[1]。在國(guó)外,Ngu D S W和Wu X等人也研究了SiteHelper系統(tǒng),其主要方法是使用信息提取的方法提取頁(yè)面信息,并且結(jié)合用戶訪問(wèn)歷史、用戶個(gè)人資料提供的線索,向用戶動(dòng)態(tài)推薦訪問(wèn)的頁(yè)面,缺點(diǎn)是涉及了比較敏感的用戶個(gè)人隱私問(wèn)題[2]。參考文獻(xiàn)[3]根據(jù)用戶的查詢與目標(biāo)頁(yè)面的并發(fā)關(guān)系,分析聚類(lèi)用戶的存取事務(wù),發(fā)現(xiàn)用戶的個(gè)性化搜索模式,對(duì)其所需服務(wù)進(jìn)行主動(dòng)定制。在國(guó)內(nèi),參考文獻(xiàn)[4]提出利用數(shù)據(jù)挖掘中的分類(lèi)方法,根據(jù)已有用戶的訪問(wèn)信息,訓(xùn)練分類(lèi)器,其貢獻(xiàn)在于能夠量化地推斷匿名用戶的訪問(wèn)特性;其不足在于訪問(wèn)特性本身需要人工定義,存在著缺漏。郭新濤等人提出了一種新的支持站點(diǎn)設(shè)計(jì)優(yōu)化的Web使用挖掘方案,該方案基于Web日志中的搜尋路徑統(tǒng)計(jì)用戶尋找目標(biāo)花費(fèi)的平均時(shí)間,以量化Web頁(yè)面的搜尋費(fèi)用,在此基礎(chǔ)上提出了一種數(shù)據(jù)挖掘方法,尋找一組能夠有效壓縮搜尋路徑(降低時(shí)間費(fèi)用)的超鏈接,以便挖掘用戶[5]。
基于上述不足,本文利用數(shù)據(jù)挖掘中貝葉斯分類(lèi)技術(shù)來(lái)研究網(wǎng)上書(shū)店中的有關(guān)挖掘潛在用戶的問(wèn)題。貝葉斯算法作為處理不確定性信息的重要工具,已成功運(yùn)用在統(tǒng)計(jì)決策、醫(yī)療診斷、零售業(yè)[6]、考試成績(jī)檢測(cè)機(jī)制等領(lǐng)域[7]。最為成熟的是,采用貝葉斯算法對(duì)郵件進(jìn)行判斷,建立了最優(yōu)化的垃圾郵件過(guò)濾技術(shù)[8]。而本文所說(shuō)的潛在用戶也是具有不確定性,基于這個(gè)相似點(diǎn),而選擇使用貝葉斯算法[9]。
1 貝葉斯分類(lèi)預(yù)測(cè)方法
分類(lèi)分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類(lèi)別做出準(zhǔn)確的描述、建立分析模型或挖掘出分類(lèi)規(guī)則,然后用這個(gè)分類(lèi)規(guī)則對(duì)新的數(shù)據(jù)記錄進(jìn)行分類(lèi),其中貝葉斯分類(lèi)方法是一種易于使用并且具有最小錯(cuò)誤率的概率分類(lèi)法,它以完善的貝葉斯理論為基礎(chǔ),有較強(qiáng)的模型示、學(xué)習(xí)和推理能力,是一種很受歡迎的數(shù)據(jù)挖掘分類(lèi)方法。貝葉斯分類(lèi)是統(tǒng)計(jì)學(xué)分類(lèi)方法,可以預(yù)測(cè)類(lèi)成員關(guān)系的可能性,如給定數(shù)據(jù)項(xiàng)屬于一個(gè)特定類(lèi)的概率。

2 貝葉斯分類(lèi)技術(shù)在網(wǎng)上書(shū)店挖掘潛在用戶中的應(yīng)用
本文以網(wǎng)上書(shū)店欲銷(xiāo)售小說(shuō)為案例,以網(wǎng)上書(shū)店的顧客cookies數(shù)據(jù)庫(kù)為對(duì)象,用貝葉斯分類(lèi)的挖掘技術(shù)對(duì)收集到的已經(jīng)購(gòu)買(mǎi)過(guò)本產(chǎn)品顧客的瀏覽持續(xù)時(shí)間、瀏覽次數(shù)、書(shū)的銷(xiāo)售類(lèi)型以及小說(shuō)類(lèi)型等數(shù)據(jù)進(jìn)行分析,生成對(duì)當(dāng)前數(shù)據(jù)庫(kù)有效的用戶分類(lèi)模型,從中識(shí)別顧客購(gòu)買(mǎi)行為,發(fā)現(xiàn)顧客購(gòu)物模式和傾向,挖掘潛在用戶,對(duì)不同顧客實(shí)施不同的推銷(xiāo)策略,為該商店調(diào)整有效的銷(xiāo)售策略提供一些有用的參考依據(jù)。
2.1 數(shù)據(jù)描述
首先把分類(lèi)結(jié)果即目標(biāo)屬性定為兩類(lèi):購(gòu)買(mǎi)和不購(gòu)買(mǎi)。其中數(shù)據(jù)樣本可用一個(gè)五維特征向量X={x1,x2,x3,x4,x5}分別描述以下屬性(瀏覽持續(xù)時(shí)間、一天之內(nèi)的瀏覽次數(shù)、書(shū)的銷(xiāo)售類(lèi)型、小說(shuō)類(lèi)型、是否購(gòu)買(mǎi)),其中各屬性的數(shù)據(jù)泛化過(guò)程如下:
瀏覽持續(xù)時(shí)間:0表示0~5 min,1表示5~10 min,2表示10~30 min。
一天之內(nèi)的瀏覽次數(shù):3代表瀏覽1次,4代表瀏覽2次,5代表瀏覽5次。
書(shū)的銷(xiāo)售類(lèi)型:6代表特價(jià)書(shū),7代表熱賣(mài)書(shū)。
小說(shuō)類(lèi)型:8代表言情小說(shuō),9代表武俠小說(shuō)。
是否購(gòu)買(mǎi):-2代表購(gòu)買(mǎi),-1代表不購(gòu)買(mǎi)。
2.2 預(yù)處理數(shù)據(jù)
把cookies數(shù)據(jù)庫(kù)中的部分信息(顧客購(gòu)買(mǎi)的子集, 14人)作為訓(xùn)練樣本(可隨機(jī)抽取),推斷一下網(wǎng)站對(duì)未知類(lèi)別樣本的購(gòu)買(mǎi)情況,以簡(jiǎn)單說(shuō)明貝葉斯分類(lèi)的一般工作流程。
表1給出了一個(gè)類(lèi)別標(biāo)記的數(shù)據(jù)項(xiàng)的樣本,它是商店的cookies數(shù)據(jù)庫(kù)中抽取的顧客訓(xùn)練集樣本。

其相應(yīng)的數(shù)據(jù)泛化后的顧客樣本為:
顧客1{0,3,6,8,-1} 顧客2{0,3,6,9,-1}
顧客3{1,3,6,8,-2} 顧客4{2,4,6,8,-2}
顧客5{2,5,7,8,-2} 顧客6{2,5,7,9,-1}
顧客7{1,5,7,9,-2} 顧客8{0,4,6,8,-1}
顧客9{0,5,7,8,-2} 顧客10{2,4,7,8,-2}
顧客11{1,4,7,9,-2} 顧客12{1,4,6,9,-2}
顧客13{1,3,7,8,-2} 顧客14{2,4,6,9,-1}
2.3 挖掘潛在用戶的算法流程
基于貝葉斯的挖掘潛在用戶的分類(lèi)算法流程如圖1所示。

2.4實(shí)例分析
推斷新樣本X(2,3,6,9)的用戶類(lèi)別,用貝葉斯分類(lèi)解法挖掘潛在用戶的每個(gè)步驟的結(jié)果為:
(1)P(是否購(gòu)買(mǎi)=“購(gòu)買(mǎi)”)=9/14=0.643,P(是否購(gòu)買(mǎi)=“不購(gòu)買(mǎi)”)=5/14=0.357。
(2)使用貝葉斯算法計(jì)算各屬性的所有取值相對(duì)于每個(gè)類(lèi)別的概率結(jié)果如表2所示。

(3)判斷用戶類(lèi)別
P(‘10~30 min,瀏覽1次,特價(jià)書(shū),武俠小說(shuō)’|‘購(gòu)買(mǎi)’)×P(‘購(gòu)買(mǎi)’)=0.333×0.222×0.333×0.333×0.643=0.005 3
P(‘10~30 min,瀏覽1次,特價(jià)書(shū),武俠小說(shuō)’|‘不購(gòu)買(mǎi)’)×P(‘不購(gòu)買(mǎi)’)=0.4×0.4×0.8×0.6×0.357=0.027 4
根據(jù)上述結(jié)果可知,P(‘不購(gòu)買(mǎi)’)>P(‘購(gòu)買(mǎi)’),所以由貝葉斯挖掘技術(shù)預(yù)測(cè)的新樣本的用戶類(lèi)為:“是否購(gòu)買(mǎi)=不購(gòu)買(mǎi)”,也就是具有這種基本信息的顧客有很大的可能性不購(gòu)買(mǎi)該商店的產(chǎn)品(武俠小說(shuō))。
3 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證貝葉斯分類(lèi)方法的正確性和有效性,從cookies數(shù)據(jù)庫(kù)隨機(jī)抽取10組樣本,分類(lèi)結(jié)果如表3所示??梢钥闯?,每組樣本的樣本個(gè)數(shù)不確定,其中有9組樣本的正確率達(dá)到了95%以上,在這9組樣本中有5組樣本的正確率達(dá)到了100%,有一組樣本的正確率在95%以下。同時(shí)也可以看出,貝葉斯算法的不足之處在于,對(duì)發(fā)生頻率較低事件的預(yù)測(cè)效果和對(duì)于樣本個(gè)數(shù)較少的樣本預(yù)測(cè)效果不好。從10組樣本的預(yù)測(cè)結(jié)果中得出平均正確率為96.5%,說(shuō)明貝葉斯算法分類(lèi)的正確率相當(dāng)高,貝葉斯分類(lèi)算法具有很強(qiáng)的學(xué)習(xí)、推理能力,能很好地利用先驗(yàn)知識(shí)。

本文研究了貝葉斯分類(lèi)挖掘技術(shù)在購(gòu)書(shū)網(wǎng)站挖掘潛在用戶中的運(yùn)用,基于貝葉斯方法的分類(lèi)預(yù)測(cè)具有形式簡(jiǎn)單、易于解釋、預(yù)測(cè)結(jié)果正確率高,且可以很容易從不同的領(lǐng)域進(jìn)行推廣等優(yōu)點(diǎn),但是對(duì)發(fā)生頻率較低事件的預(yù)測(cè)效果不好,在這方面需要進(jìn)一步改進(jìn)。
參考文獻(xiàn)
[1] 王嵐,翟正軍.Web日志挖掘的預(yù)處理及路徑補(bǔ)全算法的研究[J].微電子學(xué)與計(jì)算機(jī),2006,23(8):113-114.
[2] NGU D S T, WU X. Sitehelper: A locall’zed agent that helps incremental exploration of the World Wide Web[C]. 6th International World Wide Web Conference. Santa,Clara, CA, 1997: 1249-1255.
[3] DOUG B, ADAM B. Agglomerative clustering of a search engine query log[C]. Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston, Massachusetts, United States, 2000. New York: ACM Press, 2000: 407-415.
[4] 張娥,鄭斐峰,馮耕中.Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)應(yīng)用研究,2004,3(2):58-60.
[5] 郭新濤,梁敏,阮備軍,等.挖掘Web日志降低信息搜尋的時(shí)間費(fèi)用[J].計(jì)算機(jī)研究與發(fā)展,2004,41(10):1737-1747.
[6] 魏小琴,劉慧玲,李明東.樸素貝葉斯分類(lèi)挖掘技術(shù)在零售業(yè)的應(yīng)用[J].中國(guó)西部科技,2008,27(7):28-29.
[7] 任喜峰.基于樸素貝葉斯分類(lèi)的考試成績(jī)監(jiān)測(cè)機(jī)制研究[J].統(tǒng)計(jì)與決策,2007,59(22):163-164.
[8] 張付志,伍朝輝,姚芳.基于貝葉斯算法的垃圾郵件過(guò)濾技術(shù)的研究與改進(jìn)[J].燕山大學(xué)學(xué)報(bào),2009,33(1):47-52.
[9] 李艷,劉信杰,胡學(xué)鋼.數(shù)據(jù)挖掘中樸素貝葉斯分類(lèi)器的應(yīng)用[J].濰坊學(xué)院學(xué)報(bào),2007,7(4):48-50.
