摘 要: 將面向屬性的歸納方法應用到網(wǎng)上書店中,通過概念層次技術從用戶的注冊信息中歸納出用戶的訪問需求,從而實時主動地為用戶提供個性化服務。實驗證明該方法對研究用戶的興趣愛好有意義。
關鍵詞: 用戶特征;屬性歸納;概念層次樹;網(wǎng)上書店
電子商務的迅猛發(fā)展使得越來越多的用戶把注意力轉移到網(wǎng)絡上,但是由于Web信息量及復雜度的迅速上升,直接導致用戶面對龐大的網(wǎng)絡時無從著手。因此,研究如何使用戶更加方便快捷地訪問網(wǎng)站,如何在短時間內更有效地獲取用戶需求的信息,成為當前各個網(wǎng)站構建與優(yōu)化需要重點考慮的問題。
網(wǎng)站為用戶提供個性化服務是有效解決以上問題的方法之一。個性化服務就是網(wǎng)站通過收集和分析用戶的注冊信息及訪問行為等知識,預測用戶未來的網(wǎng)頁請求、了解用戶的興趣愛好、分析用戶的訪問模式,根據(jù)用戶的個性化需求,為用戶實時、主動提供所需求的信息頁面。通過網(wǎng)絡提供的個性化服務可以有效地解決用戶“信息過載”和“信息迷失”的困擾。一方面可以方便用戶使用,提高用戶的訪問效率,滿足用戶的個性化需求;另一方面對企業(yè)在改善顧客關系、培養(yǎng)顧客忠誠以及增加網(wǎng)上銷售方面也具有明顯的效果。
目前在個性化服務中的研究主要集中在從用戶的訪問行為中挖掘特征規(guī)則。Mobasher[1]提出了一種基于Web使用挖掘的個性化服務體系結構,通過使用聚類和關聯(lián)規(guī)則發(fā)現(xiàn)方法為用戶提供個性化服務;張成[2]等提出了一種基于OWL-S的服務挖掘算法,通過計算服務關鍵字權重得出服務的相識度,來分析服務之間的匹配,從而定位所需服務,在一定程度上提高了服務的性能,但挖掘用戶注冊信息中特征規(guī)則的研究居少;盧明等[3]提出一種使用屬性表的快速概念聚類算法,通過構造一張屬性表對前綴樹進行剪枝,概念聚類的過程僅在一些有效的子空間中執(zhí)行。
本文主要研究如何從用戶注冊信息中挖掘出用戶的特征規(guī)則。結合網(wǎng)上書店,應用面向屬性的歸納AOI(Attribute Oriented Induction)方法,從關系數(shù)據(jù)庫的用戶注冊信息中挖掘與用戶購書行為有關的特征規(guī)則,從而推斷同類用戶將來的購書需求,并為調整網(wǎng)站結構及個性化服務提供依據(jù)。
1 網(wǎng)絡用戶特征的挖掘方法
對于網(wǎng)站來說,將網(wǎng)絡用戶分為注冊用戶和非注冊用戶。挖掘網(wǎng)絡用戶特征主要從兩方面研究,分別為用戶注冊信息特征(從用戶的注冊信息中歸納出的特征)和用戶行為特征(從用戶在網(wǎng)站的瀏覽行為中歸納的特征)。對于非注冊的用戶,其基本信息獲取比較困難,故欲不考慮這部分用戶。
面向屬性的歸納方法主要是根據(jù)用戶的屬性數(shù)據(jù)概化出用戶的特征,從而得知用戶的需求,被廣泛地應用于特征規(guī)則、多層規(guī)則和分類規(guī)則的挖掘。特征規(guī)則(Characterization Rule)描述的是目標數(shù)據(jù)集中大部分數(shù)據(jù)所共有的特征。挖掘方法有概念描述(Concept Description)方法和數(shù)據(jù)泛化(Data Generalization)方法。概念描述是對某類對象的內涵進行描述,并概括這類對象的有關特征;數(shù)據(jù)泛化是一個將數(shù)據(jù)集中的屬性從較低的概念層抽象到較高的概念層的過程。實現(xiàn)數(shù)據(jù)泛化的方法有數(shù)據(jù)立方體(OLAP)方法和面向屬性方法兩種:(1)OLAP方法是通過一系列分析處理過程將數(shù)據(jù)集中的數(shù)據(jù)以不同的數(shù)據(jù)組織方式和可視化的形式呈現(xiàn)給用戶;(2)面向屬性歸納方法則采用概念分層的思想,通過以高層概念替換低層數(shù)據(jù)來實現(xiàn)泛化[4]。
概念層次結構是表示抽象知識的重要手段,把原始數(shù)據(jù)泛化到較高層次,實現(xiàn)在不同概念層次上對數(shù)據(jù)的抽象。面向屬性歸納方法中用來進行概念泛化的技術稱為概念層次技術,用概念層次樹來表示用于泛化的背景知識,實現(xiàn)具體與抽象概念之間的轉化。概念層次樹是將數(shù)據(jù)庫中記錄的屬性字段根據(jù)一定的抽象程度進行歸類合并而形成的層次結構。面向屬性歸納方法利用概念層次技術進行概念提升,得到高度概括的表,再進而將它轉換成用戶的特征需求,為用戶個性化服務提供依據(jù)。
目前挖掘網(wǎng)絡用戶行為特征主要應用Web數(shù)據(jù)挖掘技術,通過挖掘用戶訪問Web時在服務器上留下的日志記錄,來發(fā)現(xiàn)用戶訪問Web頁面的模式。主要有用戶聚類和網(wǎng)頁聚類兩種聚類技術用來挖掘用戶行為特征。用戶聚類主要是把所有用戶劃分成許多組,具有相似瀏覽模式的用戶分在一組。網(wǎng)頁聚類則可以找出具有相關內容的網(wǎng)頁組,根據(jù)用戶的詢問或過去所需信息的歷史來生成靜態(tài)或動態(tài)網(wǎng)頁,從而向用戶推薦相關的超鏈接。
綜上所述,從用戶注冊信息和行為兩方面挖掘出的特征規(guī)則都能反映出用戶的興趣愛好、個人需求信息等,可以同時為網(wǎng)站的構建及優(yōu)化提供依據(jù),從而達到為用戶提供個性化服務的目的。
2 挖掘網(wǎng)上書店的用戶注冊信息中的特征規(guī)則
實驗中服務器系統(tǒng)為Windows Server 2003,版本為Enterprise Edition。構建了一個網(wǎng)上購書網(wǎng)站,用戶的注冊信息以記錄的形式存儲在關系數(shù)據(jù)庫中。選取數(shù)據(jù)庫中的記錄,通過概念層次技術,挖掘出與用戶有關的特征規(guī)則。
用戶的注冊信息包括用戶名、性別、年齡、職業(yè)、教育程度、收入、喜歡的書等基本信息。其中職業(yè)的分類是按照國家標準分為八大類,分別為國家機關及企事業(yè)單位負責人、專業(yè)技術人員、辦事人員及有關人員、商業(yè)和服務業(yè)人員、農林等業(yè)的生產(chǎn)人員、生產(chǎn)及運輸設備操作人員、軍人、其他八大類。教育程度分為小學、初中、職中、高中、中專、大專、本科、研究生及以上八類。收入由四個分界點分為五個不同的層次。喜歡的書分為小說類、歷史、人文社科、計算機類、管理學、其他六類。實驗中要求用戶在注冊網(wǎng)站時需要選擇基本信息的相關選項,以下是挖掘用戶注冊信息中的特征規(guī)則的步驟。
2.1 建立概念層次樹
根據(jù)關系數(shù)據(jù)庫中的數(shù)據(jù),為用戶的每個屬性構建概念層次樹,使具體的屬性值概化為抽象的知識并歸類合并,實現(xiàn)在不同概念層次上對數(shù)據(jù)的抽象。概念層次樹是通過樹結構的形式,將具體的屬性值分組,然后按照背景知識逐級提升概念。每個獨立節(jié)點表示一個基本概念,它可能是一個屬性的簡單組,也可能是若干屬性形成的復合組。概念層次樹的節(jié)點可以是同一屬性的不同抽象度的匯聚點,也可以是由一個概念包含的多個子概念,網(wǎng)站中用戶的性別、年齡、職業(yè)、教育程度、收入、喜歡的書等基本信息都不同程度上對用戶的興趣愛好產(chǎn)生一定的影響。所以需要把這些基本信息的概念層次樹構建出來,其中“喜歡的書”這一基本信息是兩層的概念層次樹,與“職業(yè)”的相同。
圖1~圖4所示分別是性別、年齡、職業(yè)、教育程度、收入的概念層次樹。

2.2 描述概念層次的數(shù)據(jù)庫表
為了將概念層次樹存入數(shù)據(jù)庫,在表1中列出了描述概念層次的數(shù)據(jù)表。將概念層次樹中的屬性信息映射到數(shù)據(jù)庫表中,表中給出了層次編碼、概念節(jié)點的名稱、層號、屬性標志和與概念相對應的屬性取值的區(qū)間。概念層次樹中葉節(jié)點為第0層,葉節(jié)點的父概念所在節(jié)點為第1層,以此向上類推。如果概念層次樹是兩層,在數(shù)據(jù)表中層次編碼用兩位數(shù)字;如果是三層的,編碼用三位數(shù)字。性別的屬性標志是1,年齡的屬性標志是2,教育程度的屬性標志是3,收入的屬性標志是4,以此類推。

2.3 特征規(guī)則挖掘的處理過程
(1)由概念層次描述的數(shù)據(jù)建立數(shù)據(jù)庫表進行組合條件計算,具體包括基于單一屬性的概念提升和生成基于多屬性的關聯(lián)條件;
(2)進行類組(基本概念或復合概念相對應的數(shù)據(jù)子集)數(shù)據(jù)計算,內容包括生成數(shù)據(jù)庫子集、對類組記錄進行排序及數(shù)據(jù)統(tǒng)計等。排序時可以計算高收入階層占總購書的比例或者高文化水平占總購書的比例,并以此作為排序的依據(jù)。
用戶注冊成功后,根據(jù)用戶的信息映射到數(shù)據(jù)庫表中,按照得出的規(guī)則特征為用戶提供感興趣的圖書及網(wǎng)頁等。
3 實驗結果與分析
通過購書網(wǎng)站的關系數(shù)據(jù)庫中選取2010.04~2010.05期間的3 625條記錄,選取“教育程度”、“收入”、“喜歡的書”三個屬性進行分析。首先按照2.1節(jié)建立這三個屬性的概念層次樹,使具體數(shù)據(jù)值抽象化。然后按2.2節(jié)將屬性信息映射到數(shù)據(jù)庫表中,經(jīng)過概念提升和類組計算后,得出以下一些特征規(guī)則:
教育程度=初級文化水平&收入=低收入階層&喜歡的書=小說類+其他&購書→1.15%
教育程度=初級文化水平&收入=中收入階層&喜歡的書=人文社科+管理學&購書→5.23%
教育程度=中級文化水平&收入=中收入階層&喜歡的書=人文社科+管理學&購書→2.36%
教育程度=中級文化水平&收入=高收入階層&喜歡的書=計算機類+管理學&購書→7.56%
教育程度=高級文化水平&收入=中收入階層&喜歡的書=人文社科&購書→2.17%
教育程度=高級文化水平&收入=中收入階層&喜歡的書=計算機類+管理學&購書→6.28%
教育程度=高級文化水平&收入=高收入階層&喜歡的書=人文社科&購書→3.34%
教育程度=高級文化水平&收入=高收入階層&喜歡的書=計算機類+管理學&購書→8.13%
在只考慮這三個屬性的情況下,得出以上特征規(guī)則。但是這些購書比例會受到其他因素的影響而有所不同,例如用戶并不是按實際情況選取屬性信息、或者用戶臨時需求要選取一類書等。由于用戶的注冊信息在一定程度上對購書結果產(chǎn)生了影響,所以研究用戶注冊信息的特征對了解用戶興趣愛好并提供個性化服務是有意義的。
面向屬性歸納的方法能夠根據(jù)用戶的注冊信息,通過概化技術,初步歸納出用戶的興趣愛好。該方法應用到網(wǎng)上書店中,為用戶的個性化服務提供了依據(jù)。同時為以后更準確地提供給用戶需求的信息也提供了研究依據(jù)。
參考文獻
[1] MOBASHER B.A Web personalization engine basedon user transaction clustering[C]∥In Proceedings of the 9th Workshop on Information Technologies and Systems(WITS’99), December 1999.
[2] 張成,張璟.一種服務挖掘算法的研究與實現(xiàn)[J].計算機工程與應用,2010,46(4):117-119.
[3] 盧明,胡成全,齊紅,等.一種使用屬性表的快速概念聚類算法[J].復旦學報,2004,43(5):823-826.
[4] 孫華梅,郭茂祖,焦杰,等.一種新的面向屬性歸納中概念層次技術研究[J].管理科學學報,2004,7(1):65-72.
