自從誕生以來,計(jì)算機(jī)就一直生活在一個(gè)充滿1和0的世界,不厭其煩地處理著if-then和and-or語句。
一種為自動(dòng)駕駛汽車研發(fā)的技術(shù)可能會(huì)改變這一切。它將賦予機(jī)器人通過視覺理解這個(gè)世界的能力,更有可能是機(jī)器人自我意識(shí)的第一步。
我們稱這項(xiàng)技術(shù)為“深度學(xué)習(xí)”,一種基于神經(jīng)網(wǎng)絡(luò)算法模仿大腦運(yùn)行的科技。盡管目前研究者們?cè)谠S多領(lǐng)域應(yīng)用了深度學(xué)習(xí),如語音識(shí)別等等,視覺識(shí)別才是和深度學(xué)習(xí)最相關(guān)的一個(gè)。自動(dòng)駕駛汽車更是其中最熱門的研究領(lǐng)域。
簡單標(biāo)簽
為了讓自動(dòng)駕駛汽車能夠在我們的城鎮(zhèn)和鄉(xiāng)村中穿梭自如,我們需要它們能夠辨識(shí)周圍的物體。除了已經(jīng)配備的短波雷達(dá)和激光雷達(dá)之外,研究者們還在自動(dòng)駕駛汽車上安裝了攝像頭,讓它們能夠?qū)崟r(shí)辨識(shí)周圍的物體。
不幸的是計(jì)算機(jī)不具有人類這樣的視覺進(jìn)化過程,它們天生是無法看到和分辨周圍環(huán)境中的物體的。如果沒有視覺識(shí)別技術(shù),工程師無法教給汽車遇到什么樣的情況應(yīng)該怎么辦。
目前只有沃爾沃XC90等少數(shù)幾款車安裝了基于攝像頭的識(shí)別系統(tǒng),這種系統(tǒng)能夠辨別其它汽車、行人和騎自行車的人。但這種系統(tǒng)還沒有在深度學(xué)習(xí)系統(tǒng)中實(shí) 現(xiàn)。它們的實(shí)現(xiàn)機(jī)理是將攝像頭拍攝到的圖像和圖像數(shù)據(jù)庫進(jìn)行比對(duì)來辨別汽車、行人、自行車、交通標(biāo)示等常見物體。這種方法會(huì)帶來一個(gè)很明顯的問題,那就是 并不是所有出現(xiàn)在攝像頭中的物體都曾被保存在數(shù)據(jù)庫中。即便數(shù)據(jù)庫中有,我們的世界如此復(fù)雜多樣,計(jì)算機(jī)不可能把每個(gè)方面都儲(chǔ)存進(jìn)去。
比如說,如果電腦只知道“蛋糕”是一種雙層帶有面包和奶昔的圓形糕點(diǎn),那么它看到單層長方形抹著巧克力的蛋糕時(shí)就無法識(shí)別出來。通過多年的學(xué)習(xí)和經(jīng)驗(yàn)積累,我們?nèi)祟惖乃季S能力具有靈活性,進(jìn)而將兩種蛋糕都識(shí)別出來。
相同點(diǎn)和不同點(diǎn)
深度學(xué)習(xí)是與圖像匹配不同的技術(shù),它最終將賦予汽車更 好的視覺識(shí)別能力。接著前面的例子講,研究者給計(jì)算機(jī)看數(shù)千張照片,并告訴它這些都是蛋糕。深度學(xué)習(xí)系統(tǒng)就會(huì)把圖片拆分到圖層和紋理級(jí)別,提煉出它們的共 同之處,并接受不同點(diǎn)。在使用足夠多的圖片進(jìn)行訓(xùn)練之后,電腦的神經(jīng)網(wǎng)絡(luò)就可以辨別出它從未見過的蛋糕圖片了,即便是超大號(hào)的婚禮蛋糕也不在話下。
科學(xué)家希望通過同樣的道理教會(huì)自動(dòng)駕駛汽車的神經(jīng)網(wǎng)絡(luò)辨識(shí)行人、汽車、自行車、道路標(biāo)志。但不只是識(shí)別特定的行人外貌,而是不同的圖片來訓(xùn)練計(jì)算機(jī)行人在環(huán)境中可能的模樣。
這樣一來,計(jì)算機(jī)就能夠區(qū)別坐在路邊的人(安全)和正在翻越護(hù)欄的人(危險(xiǎn))。更棒的是,視覺處理芯片能夠從身體的一部分識(shí)別出整個(gè)人來,比如只有腦袋或者胳膊出現(xiàn)在圖片中,坐在副駕駛的乘客常常會(huì)這樣做。
當(dāng)一輛自動(dòng)駕駛汽車能夠準(zhǔn)確識(shí)別周圍環(huán)境中的物體時(shí),它們就可以根據(jù)具體情況作出相應(yīng)反應(yīng)。當(dāng)發(fā)現(xiàn)行人正在翻越護(hù)欄甚至是站在路邊的時(shí)候,它可以減慢速度,停車甚至是急轉(zhuǎn)彎。視覺識(shí)別可能是實(shí)現(xiàn)自動(dòng)駕駛汽車的唯一方法。
充滿物體的世界
為了訓(xùn)練自動(dòng)駕駛汽車,神經(jīng)網(wǎng)絡(luò)只需集中精力識(shí)別那些會(huì)影響駕駛環(huán)境的因素即可。而斯坦福大學(xué)和普林斯頓大學(xué)開發(fā)的ImageNet數(shù)據(jù)庫中包含數(shù)百萬 貼好標(biāo)簽的圖片,供神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)面對(duì)更大的世界,比如扳手和企鵝之間的差別。除了圖片之外,研究者們還可以使用其它媒介訓(xùn)練神經(jīng)網(wǎng)絡(luò),比如聲音輸入或3D 圖像。谷歌從事神經(jīng)網(wǎng)絡(luò)研究已經(jīng)有一段時(shí)間了,她們推出了一種基于網(wǎng)絡(luò)的工具,計(jì)算機(jī)可以告訴人們它在圖片中看到了什么物體。
除了自動(dòng)駕駛汽車,神經(jīng)網(wǎng)絡(luò)和視覺識(shí)別還可以做許多事。想象一下,如果有一種警用頭戴顯示器可以實(shí)時(shí)分析罪犯并判斷他身上是否藏有武器,會(huì)不會(huì)很有用?它可以幫助警察分辨罪犯手中是致命武器還是球棒等物體,可以避免警察做出錯(cuò)誤的判斷。
家用機(jī)器人也會(huì)從這種技術(shù)中受益。Roomba掃地機(jī)器人只能在二維的房屋地面上來回移動(dòng),在它的機(jī)械傳感器碰到障礙后后退。一個(gè)裝備了攝像頭的掃地機(jī) 器人則能夠分辨出屋里哪些物體時(shí)它可以移開進(jìn)行打掃再放回原處的(當(dāng)然不能是活物)。比如一個(gè)扔在地板上的籃子,它可以挪開籃子打掃下面的地面,再把它放 回去。
自我意識(shí)
隨著深度學(xué)習(xí)和神經(jīng)系統(tǒng)的不斷發(fā)展,我們終有一天會(huì)遇到機(jī)器人擁有自我意識(shí)的問題。這個(gè)技術(shù)奇點(diǎn)標(biāo)志著強(qiáng)人工智能的出現(xiàn),程序極度復(fù)雜以至于很難和意識(shí)相區(qū)分。當(dāng)機(jī)器人能夠像人類那樣感知周圍世界,它們是否會(huì)有相同的世界觀、價(jià)值觀、道德觀?
目前人們對(duì)機(jī)器人意識(shí)會(huì)發(fā)展到什么程度還沒有達(dá)成共識(shí),但一些非常聰明的人已經(jīng)警告過人們可能發(fā)生的最壞情況。特別是霍金和谷歌DeepMindCEO都在呼吁對(duì)自動(dòng)武器系統(tǒng)建立國際限制規(guī)定。
一架自動(dòng)識(shí)別攜帶武器的人并向其開火的無人機(jī)離現(xiàn)在還很遠(yuǎn),但在研究神經(jīng)網(wǎng)絡(luò)和視覺識(shí)別系統(tǒng)的時(shí)候這是必須考慮的一個(gè)問題。只要人類安全被納入考慮范圍,自動(dòng)駕駛汽車就會(huì)被嚴(yán)格要求和密切監(jiān)視。
神經(jīng)網(wǎng)絡(luò)繼續(xù)發(fā)展,它們會(huì)向機(jī)器打開一扇新世界的大門,透過這扇門,機(jī)器得以站在從未有過的視角觀察我們生活的世界。聯(lián)網(wǎng)計(jì)算機(jī)已讓我們的世界以完全不同于幾十年前的模樣運(yùn)行,10年后,當(dāng)計(jì)算機(jī)能夠準(zhǔn)確分辨攝像頭中看到的所有物體時(shí),這個(gè)世界又會(huì)變成什么樣子?