《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 设计应用 > 基于K-Means算法的SSD-Mobilenet模型优化研究
基于K-Means算法的SSD-Mobilenet模型优化研究
信息技术与网络安全
刘津龙,贾郭军
(山西师范大学 数学与计算机科学学院, 山西 临汾041000)
摘要: SSD-Mobilenet目标检测模型是将SSD和Mobilenet进行结合衍生出的一种轻量化模型,同时具备了两模型各自的优势,即多尺度检测和模型轻量化。在原模型中特征提取层使用了人为设置的先验框,这样的设置存在一定的主观性,并不适用于对特定场景下单一类别目标的识别与定位。为解决这一问题,本文提出了使用K-Means算法对目标真实框的宽高比进行聚类分析,提升模型在特定场景下对单一类别目标的检测能力,规避了人为设置的主观先验性。使用Pascal VOC 2007数据集对该模型进行训练和评估,实验结果显示,模型的mAP值比Fast RCNN提高了4.5%,比Faster RCNN提高了1.5%,比SSD-300提高了3.4%,比YOLOv2提高了2.4%。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.01.007
引用格式: 劉津龍,賈郭軍。 基于K-Means算法的SSD-Mobilenet模型優(yōu)化研究[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(1):37-44.
Research on SSD-Mobilenet model optimization based on K-Means algorithm
Liu Jinlong,Jia Guojun
(School of Mathematics and Computer Science,Shanxi Normal University,Linfen 041000,China)
Abstract: The SSD-Mobilenet target detection model is a lightweight model derived from the combination of SSD and Mobilenet. It also has the advantages of the two models, namely multi-scale detection and lightweight model. In the original model, the feature extraction layer uses artificially set a priori boxes. Such settings are subjective and unsuitable for the recognition and positioning of single-category targets in specific scenarios. In order to solve this problem, this paper proposes to use the K-Means algorithm to perform cluster analysis on the aspect ratio of the real frame of the target, which improves the model′s ability to detect a single category of targets in a specific scenario, and avoids the subjective apriority of artificial settings. This paper uses the Pascal VOC 2007 data set to train and evaluate the model. The experimental results show that the mAP value of the model is 4.5% higher than Fast-RCNN, 1.5% higher than Faster-RCNN, 3.4% higher than SSD-300, YOLOv2 increased by 2.4%.
Key words : object detection;K-Means;SSD-Mobilenet;anchor box;cluster

0    引言

  目標(biāo)檢測(cè)是將目標(biāo)從圖像中提取出來的計(jì)算機(jī)視覺技術(shù),是計(jì)算機(jī)視覺領(lǐng)域的重要組成部分,是一切計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),具有較高的研究價(jià)值。運(yùn)動(dòng)目標(biāo)檢測(cè)是從不斷變化的序列圖像中進(jìn)行目標(biāo)的識(shí)別和定位,分為靜態(tài)背景下的目標(biāo)檢測(cè)和動(dòng)態(tài)背景下的目標(biāo)檢測(cè)。目前,解決目標(biāo)檢測(cè)問題的思路主要有如下兩種:一是依賴于目標(biāo)的先驗(yàn)知識(shí),提前為運(yùn)動(dòng)目標(biāo)建模,然后在圖像序列中實(shí)時(shí)找到匹配的目標(biāo);二是不依賴于先驗(yàn)知識(shí),直接從圖像序列中檢測(cè)到運(yùn)動(dòng)目標(biāo),并進(jìn)行類別判定。

  傳統(tǒng)的目標(biāo)檢測(cè)一般使用滑動(dòng)窗口的檢測(cè)機(jī)制,主要包括以下三個(gè)步驟:第一步利用不同尺寸的滑動(dòng)窗口[1]在滑動(dòng)途中覆蓋的某一部分作為候選區(qū)域;第二步提取候選區(qū)域相關(guān)的視覺特征形成特征向量,例如人臉檢測(cè)常用的Harr特征[2],行人檢測(cè)和普通目標(biāo)檢測(cè)常用HOG特征[3];第三步利用提取到的特征對(duì)目標(biāo)進(jìn)行識(shí)別和定位。該類目標(biāo)檢測(cè)算法的窗口區(qū)域選擇策略沒有針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余相對(duì)較多。手工設(shè)計(jì)的特征對(duì)目標(biāo)可能出現(xiàn)的多樣性變化沒有較強(qiáng)的魯棒性,比如形態(tài)變化和光照影響等。

 



本文詳細(xì)內(nèi)容請(qǐng)下載:http://www.ihrv.cn/resource/share/2000003315




作者信息:

劉津龍,賈郭軍

(山西師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 山西 臨汾041000)    


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容