語音平臺有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài)。
越來越多的人開始確信,語音的徹底主流化已經(jīng)不是一個(gè)需要討論的問題,只是一個(gè)時(shí)間和習(xí)慣轉(zhuǎn)移的問題。
語音交互的價(jià)值,在過去幾年的發(fā)展中,逐步走出單純“控制方式”的狹隘理解,并成為業(yè)內(nèi)人眼中的“新入口”,有機(jī)會(huì) 連接全新的產(chǎn)業(yè)生態(tài)。
作為被連接的核心硬件之一,汽車領(lǐng)域語音交互平臺的爭奪戰(zhàn)也已進(jìn)入白熱化狀態(tài)。車載環(huán)境,極有可能優(yōu)先成為用戶固化語音交互操作習(xí)慣最典型場景。
競爭仍在繼續(xù)。然而,隨著核心技術(shù)的產(chǎn)業(yè)環(huán)境的推進(jìn),關(guān)于車載語音交互平臺的競爭,已經(jīng)從自然語言處理(NLP)+自然語言理解(NLU)引擎能力的競爭,衍生向數(shù)據(jù)和計(jì)算能力+資源整合能力的下一步競爭。
在這個(gè)過程中,誰將勝出?
語音平臺有望成為“新操作系統(tǒng)”
2014年11月6日,亞馬遜第一款智能音箱Echo在官網(wǎng)悄然上線。借助產(chǎn)品本身的軟硬件實(shí)力,智能家居配套設(shè)備的逐漸成熟,以及開發(fā)者針對Alexa平臺開發(fā)的數(shù)千種服務(wù),Echo短期內(nèi)名聲大噪,在不到兩年的時(shí)間內(nèi)實(shí)現(xiàn)了超過千萬臺的銷量。
今年6月,蘋果開發(fā)者大會(huì)期間,蘋果公司CEO蒂姆·庫克正式揭開了HomePod的面紗,這款?yuàn)檴檨磉t的語音智能音箱,承載了蘋果對抗亞馬遜Echo的期望。
蒂姆·庫克很清楚,表面看起來一場智能音箱“卡位戰(zhàn)”的背后有著更深層的競爭:在人工智能(AI)迅速發(fā)展的大背景下,語音平臺有機(jī)會(huì)成為物聯(lián)網(wǎng)時(shí)代下新的“操作系統(tǒng)”,連接全新的產(chǎn)業(yè)生態(tài),包括各類服務(wù)應(yīng)用、各類硬件。
各類硬件中,除了智能家居設(shè)備外,汽車產(chǎn)品對語音平臺的需求最顯而易見。并且,由于目前用戶所習(xí)慣的點(diǎn)擊、滑動(dòng)等觸摸型交互方式在車載環(huán)境下存在潛在安全隱患且并不完全好用,因此語音這一天然適應(yīng)車載環(huán)境的交互方式,成為車內(nèi)固定操作習(xí)慣的可能性非常之大。
目前,包括美國語音技術(shù)巨頭Nuance、國內(nèi)相關(guān)公司科大訊飛、云之聲、思必馳、出門問問等等,均在車載語音交互領(lǐng)域進(jìn)行探索和布局。例如,在去年阿里上汽的首款產(chǎn)品榮威RX5上,Nuance的車載語音交互系統(tǒng)得到搭載、科大訊飛與奇瑞自2015年起始終在密切合作、出門問問與大眾汽車集團(tuán)(中國)成立合資公司。一時(shí)間,車載語音交互站上了時(shí)代的風(fēng)口。
亞馬遜第一款智能音箱Echo
車聯(lián)網(wǎng)支撐車載語音交互發(fā)展
事實(shí)上,車載語音交互的發(fā)展,與車聯(lián)網(wǎng)近些年的快速發(fā)展密不可分。
在業(yè)內(nèi)常用的定義中,中國車聯(lián)網(wǎng)如今走過了三個(gè)典型發(fā)展歷程:
第一階段:以最初的Onstar、Gbook為代表,核心是圍繞呼叫心中的導(dǎo)航等功能。
第二階段:前裝+后裝的“亂戰(zhàn)階段”,前裝淺嘗輒止,后裝見縫插針,一時(shí)間車聯(lián)網(wǎng)概念開始廣泛傳播,但真正好用的產(chǎn)品不多。
第三階段:以阿里上汽合資為代表,車廠合資模式下的資源產(chǎn)品深度開發(fā)和資源強(qiáng)強(qiáng)整合,開始在實(shí)際使用層面落地一些好用的前裝車聯(lián)網(wǎng)產(chǎn)品和服務(wù)。
對應(yīng)來看,車載語音交互也經(jīng)歷過三個(gè)發(fā)展階段,如果用體驗(yàn)層面的關(guān)鍵詞來描述:
第一階段好像“吐字”:例如當(dāng)時(shí)出租車報(bào)價(jià)器中一個(gè)字一個(gè)字的播報(bào),是固定程序的單向輸出,并不是真正意義上的車在語音交互。
第二階段在于“識別”:用戶在這一階段可以進(jìn)行語音輸入,但總被一件事情困擾,系統(tǒng)常常“聽不太清、聽不太懂”。
第三階段則是“可用”:語音系統(tǒng)開始聽得清也聽得懂,并且用戶能夠通過該系統(tǒng)體驗(yàn)一些服務(wù)。
不難看出,車載語音交互目前的發(fā)展階段與車聯(lián)網(wǎng)整體的發(fā)展階段處于平行位置,位于起步初期,從“可用”到“好用”的過程中。值得注意的是,和以往任何時(shí)間節(jié)點(diǎn)都不同,隨著人工智能相關(guān)技術(shù)的迅速發(fā)展、產(chǎn)業(yè)鏈資源的整合意愿增強(qiáng)、用戶行為習(xí)慣的逐步養(yǎng)成,車載語音交互體驗(yàn)正在進(jìn)入提升快車道。
量產(chǎn)車搭載語音交互產(chǎn)品的比例逐年提升
優(yōu)質(zhì)車載語音交互體驗(yàn)是怎樣的?
云之聲CEO黃偉曾和車云談起蘋果Siri,過去大家都把Siri想象語音助理,助理應(yīng)該什么都會(huì)做,什么都能做,但實(shí)際上它做的并不好,“希望用一個(gè)相對來說有限的人工智能解決非常開放的需求,這本身很難做到”。
但是,隨著時(shí)間的推移和技術(shù)的發(fā)展,用戶在車內(nèi)這一“相對比較封閉的開放環(huán)境中的開放需求”,將很快被滿足。在研發(fā)層面,各方考慮的早已不是如何讓系統(tǒng)更清晰的識別用戶的語音指令,而是如何更好的接受指令、更細(xì)的理解指令、更快的做出反饋。
更重要的是,越來越多的相關(guān)開發(fā)者意識到,語音只是工具,需要連接相應(yīng)的服務(wù)和應(yīng)用。這些服務(wù)和應(yīng)用為語音而生,目的不是推給用戶一堆信息,讓用戶自己尋找答案,而是直接幫助用戶把事情辦成。
車內(nèi)語音系統(tǒng),正在成為一位真正的“助理”。一些實(shí)際的成果也正在落地。
去年底,科大訊飛發(fā)布智能車機(jī)系統(tǒng)——飛魚助理。該系統(tǒng)搭載的語音交互支持多輪對話和中途打斷,不用多次喚醒就能調(diào)用導(dǎo)航、音樂、撥打電話等功能??拼笥嶏w智能汽車事業(yè)部負(fù)責(zé)人劉俊峰向車云展示了兩個(gè)場景。
場景一、聯(lián)系上下文對話。
用戶:“我想聽甜蜜蜜”
系統(tǒng):請欣賞鄧麗君演唱的《甜蜜蜜》
用戶:“試一試鹿晗唱的”
系統(tǒng):請欣賞鹿晗演唱的《甜蜜蜜》
用戶:“我想聽他和陶喆合唱的”
系統(tǒng):“請欣賞鹿晗陶喆的合唱歌曲《請到長城來滑雪》”
場景二、語音糾錯(cuò)和隨時(shí)打斷。
用戶:打電話給黃老師
系統(tǒng):好的,即將為您接通……(數(shù)秒等待后接通“訊飛黃老師”)
用戶:(打斷)不對,是黃昕黃老師
系統(tǒng):好的,即將為您接通黃昕(數(shù)秒等待后接通“黃昕”)
用戶:確定
在車云看來,上述場景相比現(xiàn)有車載語音產(chǎn)品而言,主要優(yōu)化點(diǎn)在于“接收信息+反饋信息”層面,這屬于產(chǎn)品優(yōu)化的第一層。
在進(jìn)一步的發(fā)展中,隨著基礎(chǔ)能力的提升,服務(wù)的整合能力將成為關(guān)鍵能力,車載語音系統(tǒng)不僅可以聽懂、反饋,更可以“預(yù)判+執(zhí)行”。 語音交互只是手段,不是目的,交互的目的是為了讓機(jī)器更好地完成任務(wù)。
目前,在博泰集團(tuán)最新一代的車機(jī)產(chǎn)品中,基于周邊服務(wù)的整合,語音系統(tǒng)已經(jīng)可以開始預(yù)判用戶的需求,并幫助用戶實(shí)現(xiàn)需求。具體而言,例如用戶語音搜索目的地電影院,那么系統(tǒng)除了快速彈出電影院推薦、結(jié)合導(dǎo)航時(shí)間進(jìn)行場次推薦外,還能直接幫助訂票、選位。
再以一個(gè)場景舉例:
用戶:“幫我找個(gè)新街口附近看電影的地方”
系統(tǒng):“為你找到如下影院……請問要選哪一個(gè)?”
用戶:“萬達(dá)那個(gè)”
系統(tǒng):“即將導(dǎo)航至南京萬達(dá)國際電影院……為你推薦近期的高分影片,《戰(zhàn)狼2》9.5分,萬達(dá)國際電影院最近的場次17:10開始,票價(jià)35元,根據(jù)當(dāng)前路況正好可以趕到,是否需要提前訂票選座?”
用戶:“好的,我要最后一排中間的2個(gè)位置”
系統(tǒng):“該場次最后一排中間區(qū)域已滿,更換為倒數(shù)第二排中間2個(gè)位置可以嗎?”
用戶:“也行”
系統(tǒng):“支付成功,萬達(dá)國際電影院4號廳9排6號與7號,訂票信息與取票二維碼已發(fā)送至手機(jī),到達(dá)影院后可以用二維碼在自動(dòng)取票機(jī)上快速取票,祝你觀影愉快”
這當(dāng)然還不是全部。當(dāng)語音系統(tǒng)與汽車本身結(jié)合更緊密時(shí),還會(huì)帶來其他層面的想象力。例如用戶直接通過語音控制車輛,設(shè)定車內(nèi)空調(diào)的溫度、開關(guān)天窗、啟動(dòng)汽車、開關(guān)車門等等。當(dāng)然,這需要車企層面更高的開放度。目前,大眾、福特、現(xiàn)代、寶馬等公司均已不同深度的嘗試引用亞馬遜Alexa語音服務(wù)運(yùn)用。
核心競爭點(diǎn)在于數(shù)據(jù)和計(jì)算能力
上文提到了車載語音系統(tǒng)在未來不久能聽懂,反饋,亦可以“預(yù)判+執(zhí)行”。那么一個(gè)問題隨之而來,想要做好這些,車載語音系統(tǒng)需要提升哪些核心能力?
車云將該問題拋給了多位語音行業(yè)的專家,各方給出的結(jié)論比較一致——前期在于自然語言處理(NLP)+自然語言理解(NLU)引擎的能力,后期在于數(shù)據(jù)和計(jì)算能力+資源整合能力的提升。
更具體的說,NLP+ NLU引擎的搭建,能夠幫助系統(tǒng)聽清并聽懂大部分的語音,但語音太過復(fù)雜,同樣的句子甚至在不同的情景下都可以表達(dá)不同的意思,這就需要系統(tǒng)不斷的錄入數(shù)據(jù),自學(xué)習(xí),并擁有極強(qiáng)的計(jì)算能力以處理大數(shù)據(jù)。此外,就好像上文提及,語音交互只是手段,不是目的,交互的目的是為了機(jī)器更好地完成任務(wù),因此與亞馬遜Alexa平臺一樣,車載語音交互平臺同樣需要整合各種為語音而生的原生服務(wù)及應(yīng)用。
這讓車云想起阿里上汽打造榮威RX5的例子。阿里巴巴技術(shù)委員會(huì)主席王堅(jiān)曾告訴車云,實(shí)際上YunOS操作系統(tǒng)做的最成功的事情,是作為重要的載體和介質(zhì),把阿里云的計(jì)算能力帶上了車,包括CPU的運(yùn)算能力,還包括存儲(chǔ)能力、傳感能力等等。這是最底層的能力,也是最重要的能力。
上汽與阿里的合作從效果上看非常成功。圖為:阿里巴巴董事局主席馬云(右)、上汽集團(tuán)董事長陳虹(左)
事實(shí)上,王堅(jiān)在車載系統(tǒng)上的思考,和業(yè)內(nèi)現(xiàn)階段業(yè)內(nèi)在車載語音交互上的思考,異曲同工。
以博泰的思考為例。7月6日,博泰與百度達(dá)成合作,將在DuerOS開放平臺、百度云,以及阿波羅計(jì)劃方面建立深度合作關(guān)系。博泰集團(tuán)創(chuàng)始人及董事長應(yīng)宜倫明確表示,此次合作的一個(gè)關(guān)鍵點(diǎn),就在車載語音交互層面。
一方面,基于百度云的強(qiáng)計(jì)算能力,車載語音交互產(chǎn)品可以實(shí)現(xiàn)實(shí)時(shí)更改與聆聽,速度提升多倍。打個(gè)比方,如果此前是一臺計(jì)算機(jī)包辦“輸入、理解、輸出”工作,那么計(jì)算能力提升后,則是三臺計(jì)算機(jī),一臺“輸入”,一臺“理解”,一臺“輸出”,三臺平行處理。
另一方面,百度最寶貴的資源就是數(shù)據(jù),其中一些對于出行而言有很大價(jià)值,包括個(gè)人習(xí)慣和生活經(jīng)驗(yàn)等,如果將這些數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,緩存到可以被快速調(diào)用的云端區(qū)域。假設(shè)用戶在車內(nèi)通過語音提出相關(guān)問題,則這些數(shù)據(jù)便可實(shí)時(shí)發(fā)揮價(jià)值。這可以被定義為車載語音平臺聽清、聽懂后,直接解決問題的能力。
過去常有人說,車載語音交互技術(shù)發(fā)展將會(huì)是一個(gè)緩慢發(fā)展過程。現(xiàn)在看來,至少這一進(jìn)程比預(yù)期來得要快。并且,隨著核心競爭點(diǎn)的逐步轉(zhuǎn)移,聚焦在車載語音交互的領(lǐng)域,大玩家之間聯(lián)盟只會(huì)越來越緊密。