摘 要: 數(shù)據(jù)挖掘是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示隱含的、先前未知的、潛在有用信息的非平凡的過程。使用可視化數(shù)據(jù)挖掘的技術(shù)從足球比賽的數(shù)據(jù)集中找到模式。這些模式可以在足球比賽中直接或間接地提供有益的見解,并在比賽中運(yùn)用決策支持系統(tǒng)。
關(guān)鍵詞: 數(shù)據(jù)挖掘;可視化;模式
數(shù)據(jù)挖掘DM(Data Mining)技術(shù)在足球運(yùn)動中的運(yùn)用潛力是非常巨大的。足球運(yùn)動起源于英國,它的巨大影響力與日俱增,在世界上已經(jīng)有超過240萬人從事這項體育運(yùn)動[1],有著非常豐富的數(shù)據(jù)資源。
跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)CRISP-DM(Cross-Industry Standard Process for Data Mining)是由歐洲幾家在數(shù)據(jù)挖掘應(yīng)用上有經(jīng)驗的公司共同籌劃組織的一個特別小組所提出的,它分為6個階段,在本文中主要包括3個部分[2]:第1部分,定義商業(yè)問題(business understanding),本階段的主要工作是針對該課題的目標(biāo)和需求進(jìn)行了解確認(rèn),針對不同的需求做深入了解,將其轉(zhuǎn)換成數(shù)據(jù)挖掘的問題,并擬定初步構(gòu)想去實現(xiàn)該目標(biāo)。第2部分,數(shù)據(jù)理解(data understanding)和數(shù)據(jù)預(yù)處理(data preparation),數(shù)據(jù)理解階段以收集數(shù)據(jù)開始,了解數(shù)據(jù)的含義與特性,并過濾出所有可能有用的數(shù)據(jù),然后進(jìn)行數(shù)據(jù)整理并評估數(shù)據(jù)的質(zhì)量,把各種不同來源的數(shù)據(jù)加以整理和歸并,以適合數(shù)據(jù)挖掘技術(shù)的使用。第3部分,包括CRISP-DM的建立模型(modeling)階段,使用可視化的技術(shù)來挖掘數(shù)據(jù)。
1 定義商業(yè)問題
通過網(wǎng)站zerozerofootball獲得了許多歐洲冠軍聯(lián)賽和許多國家的足球聯(lián)賽數(shù)據(jù),其中主要的2個數(shù)據(jù)集:(1)在2008、2009年的葡超冠軍聯(lián)賽中,因為它是具有最高的詳細(xì)程度和水平最低的遺漏值和錯誤數(shù)據(jù)。(2)在過去的50年,6個歐洲國家的所有比賽,也包括葡萄牙聯(lián)賽。
通過所選擇的數(shù)據(jù)集,用數(shù)據(jù)挖掘技術(shù)做探索性工作從而找出它的模式,即可以在足球比賽中直接或間接地提供有益的見解。達(dá)到在比賽中運(yùn)用決策支持系統(tǒng)、對比賽的結(jié)果進(jìn)行預(yù)測的目的[3]。
2 數(shù)據(jù)理解和數(shù)據(jù)預(yù)處理
建立數(shù)據(jù)庫和分析數(shù)據(jù),包括一些歐洲國家足球聯(lián)賽的冠軍和比賽的信息,如葡萄牙自從1934年以來的15 382場比賽,英格蘭從1888年起的43 730場比賽,西班牙從1930年起的19 846場比賽,意大利從1946年起的17 680場比賽,法國從1933年起的22 702場比賽,以及德國從1933年起的13 406場比賽。在這些數(shù)據(jù)中找出影響最大的數(shù)據(jù),像隊伍的名字、每場比賽的進(jìn)球數(shù)、失球數(shù)和勝利者、所處于的國家和年份、每個聯(lián)賽中每個隊伍的總進(jìn)球和失球數(shù)以及每個隊伍所獲得的分?jǐn)?shù)與勝、負(fù)、平的場次數(shù)[4]。
還選擇了具有最高的詳細(xì)程度和水平最低的遺漏值和錯誤數(shù)的聯(lián)賽,2004、2005年的葡超冠軍聯(lián)賽,這一年的聯(lián)賽共包括18支隊伍、總計306場比賽,一共有711個入球、裁判出示了1 771張牌,這一年的比賽信息還包括每場比賽中的隊員、替補(bǔ)、以及比賽的時間和地點,例如知道了聯(lián)賽中每個球隊,就知道了它的總進(jìn)球和失球數(shù)以及每個隊伍所獲得的分?jǐn)?shù),同時如果知道了1個足球運(yùn)動員的名字,也就知道了該隊員的進(jìn)球數(shù)、獲得的牌數(shù)、助攻數(shù)等。圖1中所示FC Porto、Benfica、Sporting在近幾十年的聯(lián)賽里最后所處的聯(lián)賽排名。

3 建立模型
數(shù)據(jù)挖掘的可視化技術(shù)是指運(yùn)用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)。主要是在相同或相似的數(shù)據(jù)中給人們一些觀察和見解。根據(jù)圖1所示葡萄牙聯(lián)賽爭奪冠軍的主要3支隊伍,通過圖2可以得到葡萄牙聯(lián)賽這3支隊伍獲得冠軍的分?jǐn)?shù),并了解這些隊伍的變化,也能看出自從20世紀(jì)90年代初改變了規(guī)則,即贏1場球從3分變?yōu)?分后,F(xiàn)C Porto、Benfica獲勝的次數(shù)明顯增多了,并且與Sporting之間的差距越拉越大。

通過對每一個國家的每場比賽結(jié)果加以分析,比賽結(jié)果用2D的圖來表示,不同的黑色陰影表示過去的每年聯(lián)賽平均每場的得、失球,圖3、圖4所示為西班牙、英格蘭的聯(lián)賽比較。

從對比中可以看出,盡管近幾年2個國家的比賽結(jié)果很相似,但是從總體上和歷史上看,英格蘭的足球比賽結(jié)果有著比較少的變化,而西班牙過去的比賽結(jié)果和近幾年的結(jié)果有著很大的不同。同樣,還可以通過數(shù)據(jù)去衡量1支隊伍的主客場成績變化和2支隊伍更可能出現(xiàn)的結(jié)果。例如圖5所示Benfica隊的歷史主客場成績(圓表示主場成績,方塊表示客場成績),可以看出,近些年該隊伍的主場成績有很大改觀。

圖6所示FC Porto對Benfica的主場交戰(zhàn)記錄,每個坐標(biāo)是比分,從比分的模式可以看出,F(xiàn)C Porto對Benfica的成績占據(jù)優(yōu)勢,平局其次,輸球的結(jié)果比較少。

數(shù)據(jù)挖掘技術(shù)是伴隨著行業(yè)數(shù)據(jù)量的迅速膨脹和對知識發(fā)現(xiàn)的迫切需要所出現(xiàn)的產(chǎn)物,可以實現(xiàn)對足球比賽數(shù)據(jù)的挖掘,可以更容易得到有根據(jù)的模型。但是此項技術(shù)作為有效的信息處理和強(qiáng)大的數(shù)據(jù)分析工具還需要體育專業(yè)人員和有經(jīng)驗的分析人員共同完成[5],該領(lǐng)域有著非常廣闊的發(fā)展前景。
參考文獻(xiàn)
[1] BHANDARI I, Advanced scout: Data mining and knowledge discovery in NBA data[J], 1997.
[2] 郝麗,劉樂平,王星.數(shù)據(jù)挖掘在體育統(tǒng)計中的應(yīng)用[J].東華理工學(xué)院學(xué)報,2004,23(2):92-95.
[3] 韓鳳芝,杜修平.數(shù)據(jù)挖掘在職教體育教學(xué)中的應(yīng)用[J].中國職業(yè)技術(shù)教育,2004(31):38-39.
[4] 隆益民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[J].現(xiàn)代電子技術(shù),2000(10):70-73.
[5] 楊雙燕,趙水寧.體育數(shù)據(jù)分析中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].浙江體育科學(xué),2003,25(4):49-51.
