智慧城市是近年來非常熱門的話題,基于 AI 技術(shù)的城市計算的研究也是熱點之一。對于構(gòu)建一個智慧城市來說,擁有海量高質(zhì)量「活」數(shù)據(jù)非常關(guān)鍵。近年來興起的共享單車滿足了大量用戶的短途出行需求,這些每天運行在大街小巷中,帶有智能鎖終端的設(shè)備,在過去幾年中已經(jīng)收集了大量有價值的「活」數(shù)據(jù)。現(xiàn)在市場中的先行者們也開始在挖掘這些數(shù)據(jù)中的價值。在剛剛過去的數(shù)據(jù)挖掘頂級會議 SIGKDD 2018 中,摩拜與京東金融合作發(fā)表了一篇名為「Detecting Illegal Vehicle Parking Events using Sharing Bikes' Trajectories」的論文,該論文通過挖掘摩拜自行車的軌跡數(shù)據(jù)來檢測城市中的機動車違停問題??梢宰龅皆跓o需任何人力的介入下,達成了全城范圍的違停檢測,為城市的數(shù)據(jù)利用發(fā)起了一個新的方向。
背景
違章停車問題是現(xiàn)在大城市普遍需要面對的難題。隨著汽車保有量增加,停車位供不應(yīng)求,違章停車變得十分嚴重。目前檢測違停常用的方法是交警巡邏。這樣的方法耗費大量人力,且效率不高。此外,隨著城市中攝像頭的采用,基于視頻的違停檢測技術(shù)也開始推行。然而,攝像頭及檢測系統(tǒng)的部署和維護非常昂貴,最終也導致用于檢測違停的攝像頭覆蓋率不足。
摩拜的興起、摩拜的數(shù)據(jù)
幸運的是,近年共享單車興起并廣受歡迎。以摩拜為例,摩拜單車在北京擁有超過百萬的訂單。而摩拜單車的用戶在使用過程中,記錄了大規(guī)模、細粒度的非常有價值的軌跡信息。違章停車會對自行車的騎行線路產(chǎn)生影響,使其不同于正常騎行軌跡。如果在某一路段獲得了大量模式類似的軌跡,就可以對當前路段是否有違章停車進行推測。
論文:Detecting Illegal Vehicle Parking Events using Sharing Bikes' Trajectories
論文鏈接:http://urban-computing.com/pdf/kdd2018illegalparking.pdf
摘要:違章停車是大城市中普遍存在的問題。違章停車引起交通擁堵,也會引發(fā)交通事故。傳統(tǒng)的交警巡邏、攝像監(jiān)控方案,會耗費的大量人力物力,很難覆蓋整個城市。共享單車的興起產(chǎn)生了大量且質(zhì)量高的軌跡數(shù)據(jù),為我們檢測違章停車提供了新的機遇。因為我們觀察到,大多數(shù)違章停車發(fā)生在路邊,會對自行車騎行軌跡造成影響。為此,我們提出了基于共享單車軌跡數(shù)據(jù)的違章停車檢測技術(shù),該技術(shù)主要包含了兩個模塊:一是預處理模塊,包含了有針對性的相應(yīng)軌跡清洗、路網(wǎng)匹配、軌跡索引方案;二是檢測模塊,該模塊對正常軌跡建模,從待測軌跡中提取特征,再通過假設(shè)檢驗方法檢測違章停車。該系統(tǒng)部署于摩拜公司內(nèi)部云平臺。最后,我們會展示詳細的實驗與許多有意思的實地考察。
方法
系統(tǒng)主要分為兩個模塊,預處理和檢測。
預處理模塊主要分三個步驟:1. 通過停留點檢測和速度限制清洗數(shù)據(jù);2. 對單車軌跡進行地圖匹配。與以往機動車軌跡地圖匹配不同的是,該工作去掉路網(wǎng)中的高架路、道路方向限制和限速,以適應(yīng)自行車軌跡。并且,論文介紹了基于平均距離和軌跡方向的錯誤匹配過濾方法,有效解決了自行車軌跡脫離路網(wǎng)(例如騎到居民區(qū)或者公園里的軌跡)的現(xiàn)象;3. 對已清洗、已匹配的軌跡數(shù)據(jù),進行路段 ID 進行倒排索引建立,再以時間戳進行二級索引建立。以得到快的數(shù)據(jù)獲取速度。
在檢測模塊,作者闡明了三個難點及應(yīng)對方法:1. 為了應(yīng)對違停檢測正樣本難獲取性,和軌跡模式在違停時的多樣性,該工作采用了單類學習(One-class Learning)的思想。即只學出正常情形,再進行異常檢測。該工作采取深夜的軌跡作為正常軌跡;2. 其次,意識到 GPS 誤差、騎行習慣多樣性引入的單條軌跡難以分類的問題,作者采用了軌跡融合與分布一致性的假設(shè)檢驗,KS 檢驗。文章解釋到,即使 GPS 誤差和不同用戶騎行習慣會影響單條軌跡,然而一條特定路段上,軌跡點概率分布是不變的。只有在有違章停車發(fā)生時,這個概率分布才會受到影響。因此,分類軌跡點分布,比分類單條軌跡要可靠;3. 最后,作者提到 GPS 誤差隨著地理環(huán)境產(chǎn)生的影響,例如高樓密集處 GPS 誤差大,空曠處 GPS 誤差小。因此該工作中,每條路單獨進行建模。
最后檢測的流程如圖。在離線建模狀態(tài)下,對每條路段,算法取出歷史數(shù)據(jù)中,深夜經(jīng)過該路段的軌跡數(shù)據(jù),作為 baseline;在在線檢測狀態(tài)下,將給定時間段的待測軌跡數(shù)據(jù),與 baseline 軌跡數(shù)據(jù)進行 shift 值分布一致性進行 KS 檢驗。當 KS 檢驗無法通過定值的致信度,判斷其為有違章停車。
實驗與 Case study
文章中的實驗基于北京路網(wǎng)數(shù)據(jù)及北京 6 個月的軌跡數(shù)據(jù)。為了驗證算法結(jié)果有效性,作者親自采集了 454 個違停數(shù)據(jù),包含 159 個正例。通過調(diào)節(jié)置信度的大小,作者得到了對應(yīng)的檢測 F1 值。最好結(jié)果為 0.73 的 F1 值,在為 0.71 時取得。
此外,作者還研究了在不同的數(shù)據(jù)量下,算法效果的變化。文章中,通過限制待測軌跡數(shù)從 10 到 50,畫出了對應(yīng)的 ROC 曲線,曲線下方面積越大效果越好。從結(jié)果中可以發(fā)現(xiàn),算法效果隨著數(shù)據(jù)量的上升而變好。另外,基于 30 條軌跡的檢測效果和 50 條的效果非常接近。作者認為,只要軌跡數(shù)量至少達到一定量(如 30 條),就可以得到相對準確的檢測結(jié)果。
為了更好地評估違停檢測算法的優(yōu)劣,論文作者根據(jù)得到的實驗結(jié)果(路段顏色越深表示違停情況越嚴重),在亮馬橋地鐵站附近做了實地考查。作者發(fā)現(xiàn),被檢測違停嚴重的紅色框內(nèi)是大使館區(qū),上班族較多,且有不少飯店,但區(qū)域內(nèi)缺乏停車場建設(shè),因此,車輛違?,F(xiàn)象嚴重,甚至出現(xiàn)在自行車道、人行斑馬線上;相比之下,東邊的三環(huán)輔路,一路周圍空曠,只有兩個擁有大量停車位的酒店,極少出現(xiàn)違停。這些考察進一步驗證了實驗結(jié)果的有效性。
另外,作者根據(jù)對比不同時間段違停嚴重程度,發(fā)現(xiàn)某些路段具有時間敏感性。例如文章提到,在亮馬橋站出口,工作時間車輛較少,而高峰期違停相對嚴重,并解釋這與司機接送乘客有關(guān);另一個例子是在北四環(huán)的望河公園,在周末、節(jié)假日,路邊違停有明顯增多,這與該公園有較多親子主題活動,且缺少內(nèi)部停車場有關(guān)。
貢獻
該論文是第一篇基于共享單車的違停檢測研究。在無需任何人力的介入下,達成了全城范圍的違停檢測。設(shè)計了針對共享單車軌跡特定的清洗與路網(wǎng)匹配方法,并以此采用了一種軌跡融合與假設(shè)檢驗的違停檢測算法。該工作使得可以單獨依賴共享單車數(shù)據(jù)完成大范圍的違章停車檢測,為解決機動車占道停放等問題提供新思路,并助力城市道路規(guī)劃的優(yōu)化和完善,是共享單車數(shù)據(jù)深度挖掘的一個經(jīng)典例子。