123,123,123

基于贝叶斯分类的网上书店潜在用户挖掘

来源:微型机与应用2011年第1期

董倩，王克俭，韩宪忠，苑迎春

(河北农业大学信息科学与技术学院，河北保定 071001)

摘要： 以网上书店为例，利用贝叶斯分类预测技术，进行了发现潜在客户群体的研究，用随机选取的10组样本进行试验预测，预测准确率达96.5%，表明了该算法是有效的。

關(guān)鍵詞： 数据挖掘贝叶斯分类潜在用户网上书店

Abstract：

Key words :

摘要： 以網(wǎng)上書(shū)店為例，利用貝葉斯分類(lèi)預(yù)測(cè)技術(shù)，進(jìn)行了發(fā)現(xiàn)潛在客戶群體的研究，用隨機(jī)選取的10組樣本進(jìn)行試驗(yàn)預(yù)測(cè)，預(yù)測(cè)準(zhǔn)確率達(dá)96.5%，表明了該算法是有效的。
關(guān)鍵詞： 數(shù)據(jù)挖掘；貝葉斯分類(lèi)；潛在用戶；網(wǎng)上書(shū)店

　當(dāng)前信息時(shí)代發(fā)展迅猛，電子商務(wù)的興起使得用戶和商家都借助于Internet這個(gè)平臺(tái)進(jìn)行交流，方便用戶購(gòu)書(shū)的網(wǎng)上書(shū)店也隨之發(fā)展起來(lái)。在服務(wù)成本加大、而收效甚微的前提下，商家面臨著拓寬客戶的問(wèn)題。挖掘潛在顧客群體，為網(wǎng)站經(jīng)營(yíng)者在激烈的市場(chǎng)競(jìng)爭(zhēng)中洞察先機(jī)、調(diào)整有效的顧客服務(wù)策略，提供準(zhǔn)確的參考信息及科學(xué)的決策依據(jù)，最終達(dá)到識(shí)別潛在顧客、吸引新顧客、真正做到以顧客價(jià)值為中心，全方位為其提供整體服務(wù)，從而提升品牌、促進(jìn)消費(fèi)，在總體上減少商業(yè)成本并增加利潤(rùn)。
　國(guó)內(nèi)外關(guān)于面向Web日志挖掘用戶行為及潛在顧客信息的研究發(fā)現(xiàn)，其包括三個(gè)過(guò)程：數(shù)據(jù)預(yù)處理、模式識(shí)別及模式分析[1]。在國(guó)外，Ngu D S W和Wu X等人也研究了SiteHelper系統(tǒng)，其主要方法是使用信息提取的方法提取頁(yè)面信息，并且結(jié)合用戶訪問(wèn)歷史、用戶個(gè)人資料提供的線索，向用戶動(dòng)態(tài)推薦訪問(wèn)的頁(yè)面，缺點(diǎn)是涉及了比較敏感的用戶個(gè)人隱私問(wèn)題[2]。參考文獻(xiàn)[3]根據(jù)用戶的查詢與目標(biāo)頁(yè)面的并發(fā)關(guān)系，分析聚類(lèi)用戶的存取事務(wù)，發(fā)現(xiàn)用戶的個(gè)性化搜索模式，對(duì)其所需服務(wù)進(jìn)行主動(dòng)定制。在國(guó)內(nèi)，參考文獻(xiàn)[4]提出利用數(shù)據(jù)挖掘中的分類(lèi)方法，根據(jù)已有用戶的訪問(wèn)信息，訓(xùn)練分類(lèi)器，其貢獻(xiàn)在于能夠量化地推斷匿名用戶的訪問(wèn)特性；其不足在于訪問(wèn)特性本身需要人工定義，存在著缺漏。郭新濤等人提出了一種新的支持站點(diǎn)設(shè)計(jì)優(yōu)化的Web使用挖掘方案，該方案基于Web日志中的搜尋路徑統(tǒng)計(jì)用戶尋找目標(biāo)花費(fèi)的平均時(shí)間，以量化Web頁(yè)面的搜尋費(fèi)用，在此基礎(chǔ)上提出了一種數(shù)據(jù)挖掘方法，尋找一組能夠有效壓縮搜尋路徑(降低時(shí)間費(fèi)用)的超鏈接，以便挖掘用戶[5]。
　基于上述不足，本文利用數(shù)據(jù)挖掘中貝葉斯分類(lèi)技術(shù)來(lái)研究網(wǎng)上書(shū)店中的有關(guān)挖掘潛在用戶的問(wèn)題。貝葉斯算法作為處理不確定性信息的重要工具，已成功運(yùn)用在統(tǒng)計(jì)決策、醫(yī)療診斷、零售業(yè)[6]、考試成績(jī)檢測(cè)機(jī)制等領(lǐng)域[7]。最為成熟的是，采用貝葉斯算法對(duì)郵件進(jìn)行判斷，建立了最優(yōu)化的垃圾郵件過(guò)濾技術(shù)[8]。而本文所說(shuō)的潛在用戶也是具有不確定性，基于這個(gè)相似點(diǎn)，而選擇使用貝葉斯算法[9]。
1 貝葉斯分類(lèi)預(yù)測(cè)方法
　分類(lèi)分析就是通過(guò)分析示例數(shù)據(jù)庫(kù)中的數(shù)據(jù)，為每個(gè)類(lèi)別做出準(zhǔn)確的描述、建立分析模型或挖掘出分類(lèi)規(guī)則，然后用這個(gè)分類(lèi)規(guī)則對(duì)新的數(shù)據(jù)記錄進(jìn)行分類(lèi)，其中貝葉斯分類(lèi)方法是一種易于使用并且具有最小錯(cuò)誤率的概率分類(lèi)法，它以完善的貝葉斯理論為基礎(chǔ)，有較強(qiáng)的模型示、學(xué)習(xí)和推理能力，是一種很受歡迎的數(shù)據(jù)挖掘分類(lèi)方法。貝葉斯分類(lèi)是統(tǒng)計(jì)學(xué)分類(lèi)方法，可以預(yù)測(cè)類(lèi)成員關(guān)系的可能性，如給定數(shù)據(jù)項(xiàng)屬于一個(gè)特定類(lèi)的概率。

2 貝葉斯分類(lèi)技術(shù)在網(wǎng)上書(shū)店挖掘潛在用戶中的應(yīng)用
　本文以網(wǎng)上書(shū)店欲銷(xiāo)售小說(shuō)為案例，以網(wǎng)上書(shū)店的顧客cookies數(shù)據(jù)庫(kù)為對(duì)象，用貝葉斯分類(lèi)的挖掘技術(shù)對(duì)收集到的已經(jīng)購(gòu)買(mǎi)過(guò)本產(chǎn)品顧客的瀏覽持續(xù)時(shí)間、瀏覽次數(shù)、書(shū)的銷(xiāo)售類(lèi)型以及小說(shuō)類(lèi)型等數(shù)據(jù)進(jìn)行分析，生成對(duì)當(dāng)前數(shù)據(jù)庫(kù)有效的用戶分類(lèi)模型，從中識(shí)別顧客購(gòu)買(mǎi)行為，發(fā)現(xiàn)顧客購(gòu)物模式和傾向，挖掘潛在用戶，對(duì)不同顧客實(shí)施不同的推銷(xiāo)策略，為該商店調(diào)整有效的銷(xiāo)售策略提供一些有用的參考依據(jù)。
2.1 數(shù)據(jù)描述
　首先把分類(lèi)結(jié)果即目標(biāo)屬性定為兩類(lèi)：購(gòu)買(mǎi)和不購(gòu)買(mǎi)。其中數(shù)據(jù)樣本可用一個(gè)五維特征向量X={x1，x2，x3，x4，x5}分別描述以下屬性(瀏覽持續(xù)時(shí)間、一天之內(nèi)的瀏覽次數(shù)、書(shū)的銷(xiāo)售類(lèi)型、小說(shuō)類(lèi)型、是否購(gòu)買(mǎi))，其中各屬性的數(shù)據(jù)泛化過(guò)程如下：
　瀏覽持續(xù)時(shí)間：0表示0~5 min，1表示5~10 min，2表示10~30 min。
　一天之內(nèi)的瀏覽次數(shù)：3代表瀏覽1次，4代表瀏覽2次，5代表瀏覽5次。
　書(shū)的銷(xiāo)售類(lèi)型：6代表特價(jià)書(shū)，7代表熱賣(mài)書(shū)。
　小說(shuō)類(lèi)型：8代表言情小說(shuō)，9代表武俠小說(shuō)。
　是否購(gòu)買(mǎi)：-2代表購(gòu)買(mǎi)，-1代表不購(gòu)買(mǎi)。
2.2　預(yù)處理數(shù)據(jù)
　把cookies數(shù)據(jù)庫(kù)中的部分信息(顧客購(gòu)買(mǎi)的子集， 14人)作為訓(xùn)練樣本(可隨機(jī)抽取)，推斷一下網(wǎng)站對(duì)未知類(lèi)別樣本的購(gòu)買(mǎi)情況，以簡(jiǎn)單說(shuō)明貝葉斯分類(lèi)的一般工作流程。
　表1給出了一個(gè)類(lèi)別標(biāo)記的數(shù)據(jù)項(xiàng)的樣本，它是商店的cookies數(shù)據(jù)庫(kù)中抽取的顧客訓(xùn)練集樣本。

　其相應(yīng)的數(shù)據(jù)泛化后的顧客樣本為：
　顧客1{0，3，6，8，-1}   顧客2{0，3，6，9，-1}
　顧客3{1，3，6，8，-2}   顧客4{2，4，6，8，-2}
　顧客5{2，5，7，8，-2}   顧客6{2，5，7，9，-1}
　顧客7{1，5，7，9，-2}   顧客8{0，4，6，8，-1}
　顧客9{0，5，7，8，-2}   顧客10{2，4，7，8，-2}
　顧客11{1，4，7，9，-2} 顧客12{1，4，6，9，-2}
　顧客13{1，3，7，8，-2} 顧客14{2，4，6，9，-1}
2.3 挖掘潛在用戶的算法流程
　基于貝葉斯的挖掘潛在用戶的分類(lèi)算法流程如圖1所示。

2.4實(shí)例分析
　推斷新樣本X(2，3，6，9)的用戶類(lèi)別，用貝葉斯分類(lèi)解法挖掘潛在用戶的每個(gè)步驟的結(jié)果為：
　(1)P(是否購(gòu)買(mǎi)=“購(gòu)買(mǎi)”)=9/14=0.643，P(是否購(gòu)買(mǎi)=“不購(gòu)買(mǎi)”)=5/14=0.357。
　(2)使用貝葉斯算法計(jì)算各屬性的所有取值相對(duì)于每個(gè)類(lèi)別的概率結(jié)果如表2所示。

　(3)判斷用戶類(lèi)別
　P(‘10~30 min，瀏覽1次，特價(jià)書(shū)，武俠小說(shuō)’|‘購(gòu)買(mǎi)’)×P(‘購(gòu)買(mǎi)’)=0.333×0.222×0.333×0.333×0.643=0.005 3
P(‘10~30 min，瀏覽1次，特價(jià)書(shū)，武俠小說(shuō)’|‘不購(gòu)買(mǎi)’)×P(‘不購(gòu)買(mǎi)’)=0.4×0.4×0.8×0.6×0.357=0.027 4
根據(jù)上述結(jié)果可知，P(‘不購(gòu)買(mǎi)’)>P(‘購(gòu)買(mǎi)’)，所以由貝葉斯挖掘技術(shù)預(yù)測(cè)的新樣本的用戶類(lèi)為：“是否購(gòu)買(mǎi)=不購(gòu)買(mǎi)”，也就是具有這種基本信息的顧客有很大的可能性不購(gòu)買(mǎi)該商店的產(chǎn)品(武俠小說(shuō))。
3 實(shí)驗(yàn)結(jié)果與分析
　為了驗(yàn)證貝葉斯分類(lèi)方法的正確性和有效性，從cookies數(shù)據(jù)庫(kù)隨機(jī)抽取10組樣本，分類(lèi)結(jié)果如表3所示?？梢钥闯?，每組樣本的樣本個(gè)數(shù)不確定，其中有9組樣本的正確率達(dá)到了95%以上，在這9組樣本中有5組樣本的正確率達(dá)到了100%，有一組樣本的正確率在95%以下。同時(shí)也可以看出，貝葉斯算法的不足之處在于，對(duì)發(fā)生頻率較低事件的預(yù)測(cè)效果和對(duì)于樣本個(gè)數(shù)較少的樣本預(yù)測(cè)效果不好。從10組樣本的預(yù)測(cè)結(jié)果中得出平均正確率為96.5%，說(shuō)明貝葉斯算法分類(lèi)的正確率相當(dāng)高，貝葉斯分類(lèi)算法具有很強(qiáng)的學(xué)習(xí)、推理能力，能很好地利用先驗(yàn)知識(shí)。

　本文研究了貝葉斯分類(lèi)挖掘技術(shù)在購(gòu)書(shū)網(wǎng)站挖掘潛在用戶中的運(yùn)用，基于貝葉斯方法的分類(lèi)預(yù)測(cè)具有形式簡(jiǎn)單、易于解釋、預(yù)測(cè)結(jié)果正確率高，且可以很容易從不同的領(lǐng)域進(jìn)行推廣等優(yōu)點(diǎn)，但是對(duì)發(fā)生頻率較低事件的預(yù)測(cè)效果不好，在這方面需要進(jìn)一步改進(jìn)。
參考文獻(xiàn)
[1] 王嵐，翟正軍.Web日志挖掘的預(yù)處理及路徑補(bǔ)全算法的研究[J].微電子學(xué)與計(jì)算機(jī)，2006，23(8)：113-114.
[2] NGU D S T， WU X. Sitehelper： A locall’zed agent that helps incremental exploration of the World Wide Web[C]. 6th International World Wide Web Conference. Santa，Clara， CA， 1997： 1249-1255.
[3] DOUG B， ADAM B. Agglomerative clustering of a search engine query log[C]. Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Boston， Massachusetts， United States， 2000. New York： ACM Press， 2000： 407-415.
[4] 張娥，鄭斐峰，馮耕中.Web日志數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理方法研究[J].計(jì)算機(jī)應(yīng)用研究，2004，3(2)：58-60.
[5] 郭新濤，梁敏，阮備軍，等.挖掘Web日志降低信息搜尋的時(shí)間費(fèi)用[J].計(jì)算機(jī)研究與發(fā)展，2004，41(10)：1737-1747.
[6] 魏小琴，劉慧玲，李明東.樸素貝葉斯分類(lèi)挖掘技術(shù)在零售業(yè)的應(yīng)用[J].中國(guó)西部科技，2008，27(7)：28-29.
[7] 任喜峰.基于樸素貝葉斯分類(lèi)的考試成績(jī)監(jiān)測(cè)機(jī)制研究[J].統(tǒng)計(jì)與決策，2007，59(22)：163-164.
[8] 張付志，伍朝輝，姚芳.基于貝葉斯算法的垃圾郵件過(guò)濾技術(shù)的研究與改進(jìn)[J].燕山大學(xué)學(xué)報(bào)，2009，33(1)：47-52.
[9] 李艷，劉信杰，胡學(xué)鋼.數(shù)據(jù)挖掘中樸素貝葉斯分類(lèi)器的應(yīng)用[J].濰坊學(xué)院學(xué)報(bào)，2007，7(4)：48-50.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容