《電子技術應用》
您所在的位置:首頁 > 嵌入式技术 > 业界动态 > 前沿 | BAIR开发现实环境的RL机器人,通过与人类的物理交互学习真实目标

前沿 | BAIR开发现实环境的RL机器人,通过与人类的物理交互学习真实目标

2018-02-14
關鍵詞: 机器人 pHRI

可交互機器人通常將人類干預當成干擾,在干預撤除后隨即恢復原來的軌跡,像彈簧一樣執(zhí)拗,無法根據(jù)人類偏好優(yōu)化動作。伯克利近日開發(fā)出可交互學習的機器人系統(tǒng),以類似強化學習的范式(目標函數(shù)不確定),能根據(jù)人類干預對自身軌跡進行修正,以最大化獎勵,從而可以實時學習人類偏好。


人類每天都在進行彼此間的物理交互—從某人快要撒掉飲料時扶住他/她的手到將你的朋友推到正確的方向,身體上的物理互動是一種用來傳達個人喜好和如何正確執(zhí)行一個任務的直觀方式。


那么,我們?yōu)槭裁床缓彤斚碌臋C器人像人一樣進行物理交互呢?人類和機器人之間進行無縫的物理交互需要很多條件:輕量級的機器人設計、可靠的力學傳感器、安全和反應式的控制方案、預測人類協(xié)作者意圖的能力,等!幸運的是,機器人學在專門為人類開發(fā)的個人機器人設計方面已經(jīng)取得了很多進步。


然而,再推敲一下我們剛開始就列舉的第一個例子,即你在朋友快要撒掉飲料的時候扶住了他/她的手。現(xiàn)在假定你那位即將撒掉飲料的朋友(而不是你)是一個機器人。因為在目前最先進的機器人的規(guī)劃和控制算法中,通常會將人類的物理干預視為外部擾動,一旦你放開機器人,它將恢復它那錯誤的軌跡,繼續(xù)灑出飲料。這種差距的關鍵在于機器人是如何思考與人類之間的物理交互的:絕大多數(shù)機器人會在交互結束之后恢復其初始行為,而不是思考人類為什么根據(jù)需求對它進行物理干預并重新規(guī)劃。


我們認為機器人應該將人類的物理干預視為和它應該如何執(zhí)行任務相關的有用的信息。我們將機器人對物理干預的反應形式化為一種目標(獎勵)學習問題,并且提出了一個解決方案,使得機器人在執(zhí)行一個任務的時候能夠根據(jù)在這些交互中得到的信息來改變它們的行為。


對物理交互的推理:未知的干擾與有意義的信息


物理人機交互(pHRI)領域研究的是共享工作空間里親密的物理交互中出現(xiàn)的設計、控制和規(guī)劃問題。之前的 pHRI 研究已經(jīng)開發(fā)出了應對機器人在執(zhí)行任務時面對物理交互的應對方法。由 Hogan(http://summerschool.stiff-project.org/fileadmin/pdf/Hog1985.pdf)等人提出的阻抗控制是常用的方法之一,阻抗控制可以讓機器人在有人存在的空間里朝著期望的軌跡移動。使用這個控制方法時,機器人就像一個彈簧一樣:它允許人推它,但是在人停止施力之后,它會移回到原來的期望位置。盡管這種策略非??焖?,并且能夠讓機器人安全地適應人類的力量,但是機器人并不會利用這種干預去更新它對任務的理解,機器人將繼續(xù)以與人類交互之前規(guī)劃好的方式執(zhí)行任務。



微信圖片_20180214225555.jpg

為什么會是這種情況呢?這可以歸結為機器人對任務知識以及它所感知到的力的理解。通常,任務的概念是以一種目標函數(shù)的形式被賦予機器人的。這個目標函數(shù)為任務的不同方面編碼獎勵,例如「到達位置 X」,或者「在遠離人類的同時朝著桌子移動」。機器人使用它的目標函數(shù)來生成可以滿足任務所有方面的動作:例如,機器人會朝著目標 X 移動,同時選擇靠近桌子和遠離人類的路徑。如果機器人最初的目標函數(shù)是正確的,那么任何外部干擾對它而言都是對它正確路徑的干擾。因此,為了安全起見,機器人應該允許物理交互來干預它,但是它最終會返回到計劃的最初路徑,因為它固執(zhí)地認為最初的規(guī)劃是正確的。


相比之下,我們認為人類的干預往往是有目的的,并且是在機器人出錯的時候才去干預它。雖然機器人的原始行為相對其預定義好的目標函數(shù)可能是最優(yōu)的,但是需要人類干預的事實則意味著最初的目標函數(shù)并不是特別正確。所以,物理的人類干預不再是擾動了,而是對機器人應該呈現(xiàn)的真實目標函數(shù)的有用觀察?;谶@種考慮,我們從逆強化學習(IRL)(http://ai.stanford.edu/~ang/papers/icml00-irl.pdf)中獲得一些靈感,即機器人觀察到了一些行為(例如被推離了桌子),并且嘗試著去推理新的目標函數(shù)(例如,「遠離桌子」)。請注意,雖然很多 IRL 方法集中在讓機器人在下一次做得更好,而我們則關注于讓機器人正確地完成當前的任務。


形式化對 pHRI 的反應


基于對物理人機交互的認識,我們可以用一個動態(tài)系統(tǒng)來描述 pHRI,其中機器人不能確定正確的目標函數(shù),人類的交互將給它提供信息。這種形式定義了一類廣泛的 pHRI 算法,包括現(xiàn)有的阻抗控制方法,使得我們能夠得到一種新穎的在線學習方法。


我們將會集中討論這種方法的兩個部分:(1)目標函數(shù)的結構;(2)機器人通過給定的人類物理交互推理目標函數(shù)的觀察模型。讓 x 代表機器人的狀態(tài)(例如位置和速度),uR 代表機器人的動作(例如施加到關節(jié)的扭矩)。人類可以通過外部的力矩來與機器人產(chǎn)生物理交互,稱作 uH,機器人通過它的動力運動到下一個狀態(tài)。



微信圖片_20180214225649.png

機器人的目標:在最少的人類交互下正確地完成任務


在 pHRI 中,我們希望機器人能夠學習人類,但同時我們也不想讓人類在持續(xù)的物理交互中負擔過重。所以,我們可以為機器人定下這么一個目標,既能完成任務,也能最小化所需的交互數(shù)量,最終在這則兩者之間進行權衡。



微信圖片_20180214225723.png

這里,?(x,uR,uH) 對任務相關的特征進行編碼(例如,「到桌子的距離」、「到人類的距離」、「到目標的距離」),θ決定每種特征的相對權重。這個函數(shù)中,θ封裝了真正的目標——如果機器人準確地知道如何給任務的各個方面進行加權,那么它就可以計算出如何以最佳的方式執(zhí)行任務。然而,機器人并不知道這個參數(shù)!機器人并不總會知道執(zhí)行任務的正確方式,更不用說人類喜歡的方式了。


觀測模型:從人類的交互中推理正確的目標函數(shù)


正如我們討論的,機器人應該觀察人類的動作來推理位置的任務目標。為了把機器人測量的直接人力與目標函數(shù)聯(lián)系起來,機器人采用了觀測模型。在最大熵逆強化學習(IRL)(https://www.aaai.org/Papers/AAAI/2008/AAAI08-227.pdf)中的現(xiàn)有工作和人類行為認知科學模型(http://web.mit.edu/clbaker/www/papers/cogsci2007.pdf)中的玻爾茲曼分布的基礎上,我們將人類的干預建模為:機器人在處于狀態(tài) x 并采取 uR+uH 的行動時,能夠將機器人期望的獎勵近似最大化的矯正。這個期望的獎勵包含即時獎勵和未來獎勵,并且由 Q 值描述。




微信圖片_20180214225759.png

直覺地看,這個模型的解釋是,人類更可能選擇這樣一種物理交互,它能夠與機器人的動作結合起來,以形成一個期望的行為(具有高獎勵值的行為)。


從人類的物理交互中進行實時學習


就像教一個人類一樣,我們希望機器人能夠在我們與它交互的時候持續(xù)地學習。然而,我們提出的學習框架需要機器人求解一個部分可觀測馬爾科夫決策過程(POMDP,partial observable markov decision process);不幸的是,我們知道,精確地求解 POMDP 需要昂貴的計算代價,而且在最壞的情況下是無法解決的。然而,我們可以從這種形式中推導它的近似值,這些近似值可以使機器人在與人類交互的同時進行學習和行動。


為了實現(xiàn)這種任務內學習,我們做了三個近似,歸納如下:


1)把求解最優(yōu)控制策略和估計真實目標函數(shù)區(qū)分開來。這意味著機器人要在每一個時間步更新它對θ的可能值的置信度,然后重新規(guī)劃一個滿足新分布的最優(yōu)控制策略。


2)將控制和規(guī)劃區(qū)分開來。計算一個最優(yōu)控制策略意味著要在連續(xù)狀態(tài)、動作和置信空間中的每個狀態(tài)計算出一個要采取的最佳行動。盡管在每一次交互之后實時重新計算出一個完全的最優(yōu)策略是很難的,但是我們可以在當前的狀態(tài)實時重新計算出一個最優(yōu)軌跡。這就是說,機器人首先會規(guī)劃出一個最符合當前估計的軌跡,然后用一個阻抗控制器追蹤這個軌跡。我們前面描述過的阻抗控制提供了需要的良好屬性,在交互期間,人們可以物理地修改機器人的狀態(tài),同時還能保證安全。


回顧一下我們的估計步驟,我們將對軌跡空間進行類似的變換,并且修改我們的觀測模型來反映這一點:



微信圖片_20180214225827.png

現(xiàn)在我們的觀測模型僅僅依賴于在一個軌跡上的累積獎勵 R,R 可以通過對所有步驟中的獎勵進行求和計算得到。在這個近似中,在推理真實目標函數(shù)的時候,在給定當前執(zhí)行軌跡 ξR 以后,機器人僅須考慮與人類偏好軌跡 ξH 的似然度。


但是,人類的偏好軌跡 ξH 又是什么呢?機器人僅僅會直接測量人類施加的力 uH。一種用來推理人類偏好軌跡的方式是在機器人的當前軌跡上傳播人類的力。圖 1 建立了基于 Losey 和 O'Malley 之前的工作的軌跡形變,開始于機器人的原始軌跡,然后施加外力,然后施加形變以產(chǎn)生 ξH。

微信圖片_20180214225900.jpg


圖 1. 為了推理給定目前規(guī)劃好的軌跡中的人類偏好軌跡,機器人首先測量了人類的交互力 uH,然后平滑地使軌跡上與交互點接近的點發(fā)生形變,從而得到人類偏好的軌跡。


3)使用θ的最大后驗(MAP)估計進行規(guī)劃。最后,因為θ是一個連續(xù)變量,并且可能會具有較高的維度,加之觀測模型是非高斯的,所以我們會僅使用 MAP 估計進行規(guī)劃,而不是對θ的完全置信。我們發(fā)現(xiàn),在高斯先驗條件下,機器人當前軌跡的二階泰勒級數(shù)展開下的 MAP 估計相當于執(zhí)行在線梯度下降:



微信圖片_20180214225942.png

在每一個時間點,機器人會根據(jù)其當前最優(yōu)軌跡和人類的偏好軌跡之間的累積特征差微信圖片_20180214230017.png  來更新它對θ的估計。在示例學習的文獻中,這個更新規(guī)則類似于在線最大間距規(guī)劃(https://www.ri.cmu.edu/pub_files/pub4/ratliff_nathan_2006_1/ratliff_nathan_2006_1.pdf);它也類似于合作學習(https://arxiv.org/pdf/1601.00741.pdf),在合作學習中,人類會修正當前任務的軌跡點來為未來的任務學習一個獎勵函數(shù)。


最終,將這三步結合起來就得到了原始 POMDP 的一個優(yōu)雅的近似解決方案。在每一個時間步驟中,機器人規(guī)劃一個軌跡 ξR,然后開始移動。人類可以進行物理交互,使得機器人能夠感知到人類施加的力量 uH。然后,機器人利用人的力量使其原始軌跡發(fā)生形變,并生成人類期望的軌跡 ξH。然后機器人會推理其原始軌跡和人類期望的軌跡在任務的哪些方面存在不同,并在這種差別的方向上更新 θ 的值。然后,機器人使用新的特征權重重新規(guī)劃一個更加符合人類偏好的軌跡。



微信圖片_20180214230111.gif

您可以閱讀我們在 2017 年機器人學習會議上的論文(http://proceedings.mlr.press/v78/bajcsy17a/bajcsy17a.pdf)來了解我們的形式化和近似的全面描述。


在現(xiàn)實世界中向人類學習


為了評價任務內學習在現(xiàn)實個人機器人上的好處,我們招募了 10 名參與者進行用戶研究。每位參與者都與運行我們提出的在線學習方法的機器人進行交互,同時將沒有從物理交互中學習,只是簡單運行阻抗控制方法的機器人作為對比基準。


圖 2 展示了三個實驗性的居家操作任務,在每一個任務中,機器人開始時都被初始化為一個不正確的目標函數(shù),參與者必須對其進行校正。例如,機器人會把杯子從架子上移動到桌子上,但它不會考慮杯子傾斜(它不會注意到杯子里是否有液體)。

微信圖片_20180214230148.jpg


圖 2. 初始目標函數(shù)被標記為黑色的線,真實目標函數(shù)的期望軌跡標記為藍色線條。參與者需要校正機器人,教它將杯子保持直立(左邊),使其朝著桌子移動(中間),并避免經(jīng)過筆記本電腦(右邊)。


我們測量了機器人相對真實目標的性能、參與者付出的努力、交互時間以及 7 點 Likert 量表調查的響應。

微信圖片_20180214230250.jpg



在任務 1 中,看到杯子傾斜時,要教機器人使杯子保持直立,參與者必須進行物理干預(圖左的阻抗控制不會將杯子保持修正后的狀態(tài),圖右的在線學習則能實時修正杯子變得直立)。




微信圖片_20180214230341.jpg

任務 2 讓參與者教機器人靠近桌子(阻抗控制的機器手確實像彈簧,非常執(zhí)拗)


微信圖片_20180214230542.jpg


對于任務 3,機器人的原始軌跡會經(jīng)過筆記本電腦上方。為了教機器人避免從筆記本電腦上方經(jīng)過,參與者必須進行物理干預。


我們的用戶研究結果表明,從物理交互中學習能夠以較少的人力獲得更好的機器人任務性能。當機器人正在執(zhí)行任務期間積極地從交互中學習的時候,參與者能夠使機器人以更少的努力和交互時間更快地執(zhí)行正確的行為。此外,參與者相信機器人能夠更好地理解人類的偏好,能夠減少他們互動的努力,參與者相信,機器人是一個更具協(xié)作性的合作伙伴。


微信圖片_20180214230734.jpg

圖 3 . 對于每一個目標測量(包括任務代價、人類努力以及交互時間),從交互中學習顯著地優(yōu)于不進行學習的情況。


最終,我們認為機器人不應該將人類的交互作為一種干擾,而應該將其作為提供信息的動作。我們證明,具有這種推理能力的機器人能夠更新他們對正在執(zhí)行的任務的理解并正確地完成任務,而不是依賴于人們引導他們直至任務的完成。


這項工作只是探索從 pHRI 中學習機器人目標的一個簡單嘗試。很多未解決的問題仍然存在,包括開發(fā)能處理動態(tài)方面的解決方案(例如關于移動時間的偏好),以及如何/何時將所學的目標函數(shù)推廣到新任務中。此外,機器人的獎勵函數(shù)經(jīng)常會有一些任務相關的特征,人類的交互也許僅僅給出了關于相關權重的一個特定子集的信息。我們在 HRI 2018 中的最新工作研究了機器人如何通過一次只學習一個特征權重來消除對人們試圖糾正的錯誤的歧義。總之,我們不僅需要能夠從與人類的物理交互中進行學習的算法,而且這些方法還必須考慮到在嘗試動覺地(肌肉運動感覺)教一個復雜的(可能不熟悉的)機器人系統(tǒng)時人類需要面對的固有難度。


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。

相關內容