文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.19358/j.issn.2096-5133.2020.02.005
引用格式:關(guān)沫,魏碧晴.基于Flink框架的TopN堆排序優(yōu)化算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2020,39(2):23-26.
0 引言
隨著計(jì)算機(jī)技術(shù)和信息科技的快速發(fā)展,全球的數(shù)據(jù)量急劇增長(zhǎng),2015年全球的數(shù)據(jù)總量達(dá)到8.61 ZB,預(yù)估2020年全球的數(shù)據(jù)總量會(huì)超過(guò)40 ZB。通過(guò)移動(dòng)互聯(lián)網(wǎng)、社交媒體等服務(wù)模式,大數(shù)據(jù)產(chǎn)業(yè)已滲透到人們生活的各個(gè)方面,并且數(shù)據(jù)價(jià)值的時(shí)效性越來(lái)越重要,集群必須以毫秒級(jí)的延遲從大規(guī)模的數(shù)據(jù)中提煉有價(jià)值的信息。
TopN問(wèn)題就是從許多的數(shù)值選出前N個(gè)最大或者最小的數(shù)值有序排好,最常見(jiàn)的應(yīng)用于微博熱搜榜、歌曲人氣榜、投票選舉等。由此可見(jiàn)利用大數(shù)據(jù)技術(shù)和計(jì)算機(jī)技術(shù)能輕松解決傳統(tǒng)排序問(wèn)題。如微博熱搜榜,需要實(shí)時(shí)更新點(diǎn)擊量并按其從大到小的順序排列。而使用流計(jì)算框架Flink來(lái)解決TopN問(wèn)題可以滿(mǎn)足其實(shí)時(shí)性和低延遲的要求。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.ihrv.cn/resource/share/2000003154
作者信息:
關(guān)沫,魏碧晴
(沈陽(yáng)工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110870)