【導(dǎo)語】
在工業(yè)人機協(xié)同裝配場景中,遮擋嚴(yán)重影響人體姿態(tài)估計的準(zhǔn)確性。浙江大學(xué)機械工程學(xué)院研究團隊在中國科學(xué)院一區(qū)期刊 Robotics and Computer-Integrated Manufacturing 發(fā)表研究,提出一種面向遮擋人機協(xié)作場景的視覺-慣性融合人體姿態(tài)估計方法。研究中,NOKOV 度量光學(xué)動作捕捉系統(tǒng)提供高精度人體姿態(tài)真值數(shù)據(jù),用于驗證方法在真實裝配環(huán)境下的有效性與魯棒性。
一、人機協(xié)同裝配中的核心挑戰(zhàn):遮擋下的人體姿態(tài)估計
在人機協(xié)作(HRC)裝配過程中,機器人與操作人員近距離協(xié)同作業(yè),人體常被設(shè)備、工裝或機械臂部分遮擋,導(dǎo)致傳統(tǒng)基于視覺的人體姿態(tài)估計(HPE)方法精度下降。
針對遮擋人機協(xié)同裝配場景中的人體姿態(tài)估計問題,浙江大學(xué)研究團隊以工業(yè)制造真實需求為背景,探索更具魯棒性與可部署性的解決方案。
二、視覺-慣性融合的人體姿態(tài)估計方法設(shè)計
1.視覺-IMU 融合的人體姿態(tài)估計框架
論文提出一種基于視覺-慣性融合的人體姿態(tài)估計方法,以單個 RGB 相機和稀疏 IMUs 作為輸入,在保證估計精度的同時兼顧操作人員的舒適性。

人機協(xié)作框架結(jié)構(gòu)
該方法通過多模態(tài)數(shù)據(jù)互補,有效緩解視覺遮擋對人體關(guān)鍵點識別帶來的影響。
2.跨模態(tài)變換器融合塊設(shè)計
研究進(jìn)一步設(shè)計了一種基于特定部位的跨模態(tài)變換器融合模塊,用于整合不同模態(tài)下的人體空間特征,增強視覺與慣性信息之間的協(xié)同表達(dá)能力。
三、實驗驗證:公共數(shù)據(jù)集與真實裝配場景表現(xiàn)
遮擋裝配場景下的實驗驗證結(jié)果

人機協(xié)同:工業(yè) HRC 裝配箱任務(wù)流程圖
研究在兩個公共數(shù)據(jù)集、一個合成遮擋數(shù)據(jù)集,以及自建的人機協(xié)同裝配 HPE 數(shù)據(jù)集上進(jìn)行了系統(tǒng)實驗。

展示了數(shù)據(jù)集中的六種收集動作(a-f)及遮擋情況(a、c、f)

與不同 HPE 方法在自定義數(shù)據(jù)集上的定性比較。(黑色虛線:真實姿態(tài);紅色實線:估算姿態(tài))。
在自定義數(shù)據(jù)集中,NOKOV 度量動作捕捉系統(tǒng)用于采集包含視頻、IMU 數(shù)據(jù)與 3D 人體姿態(tài)真值的完整實驗數(shù)據(jù),結(jié)果表明該方法在遮擋環(huán)境下展現(xiàn)出更高的估計精度與魯棒性。
四、NOKOV度量動作捕捉在姿態(tài)估計實驗中的關(guān)鍵作用
基于光學(xué)動作捕捉的高精度姿態(tài)真值獲取

人機協(xié)作實驗數(shù)據(jù)采集系統(tǒng)設(shè)置,NOKOV度量光學(xué)動作捕捉系統(tǒng)
在實驗驗證階段,研究團隊使用 NOKOV 度量光學(xué)動作捕捉系統(tǒng) 獲取高精度人體三維姿態(tài)真值數(shù)據(jù),用于評估所提方法在不同遮擋條件下的人體姿態(tài)估計精度。
NOKOV度量動作捕捉系統(tǒng)在以下方面發(fā)揮關(guān)鍵作用:
提供亞毫米級精度的人體姿態(tài)真值
支撐多模態(tài)人體姿態(tài)估計方法的定量評估
驗證視覺-慣性融合方法在真實裝配場景中的可靠性
五、人機協(xié)同場景中,遮擋環(huán)境下人體姿態(tài)估計方法FAQ
Q1:遮擋環(huán)境下如何實現(xiàn)高精度人體姿態(tài)估計?
A1:在遮擋嚴(yán)重的人機協(xié)同裝配場景中,通過融合視覺信息與慣性傳感器數(shù)據(jù)進(jìn)行人體姿態(tài)估計,并結(jié)合光學(xué)動作捕捉系統(tǒng)提供的高精度姿態(tài)真值進(jìn)行驗證,可顯著提升估計結(jié)果的魯棒性與準(zhǔn)確性。
Q2:光學(xué)動作捕捉在人體姿態(tài)估計研究中起什么作用?
A2:光學(xué)動作捕捉系統(tǒng)如 NOKOV度量動作捕捉系統(tǒng)可提供高精度三維姿態(tài)真值,作為驗證新型人體姿態(tài)估計方法的基準(zhǔn)手段。
Q3:視覺-慣性融合在人類姿態(tài)估計中的優(yōu)勢是什么?
A3:視覺-慣性融合的人體姿態(tài)估計方法能夠在單目視覺受限或被遮擋時,利用 IMU 數(shù)據(jù)補充人體運動信息,從而在保證系統(tǒng)可部署性的同時提高姿態(tài)估計穩(wěn)定性。
Q4:人體姿態(tài)估計方法通常如何進(jìn)行精度驗證?
A4:人體姿態(tài)估計方法的精度通常通過光學(xué)動作捕捉系統(tǒng)獲取的三維人體姿態(tài)真值進(jìn)行評估,該方式已成為驗證工業(yè)人機協(xié)作與復(fù)雜裝配場景下算法性能的可靠手段。
六、論文及作者簡介
本研究成果“A deep learning-enabled visual-inertial fusion method for human pose estimation in occluded human-robot collaborative assembly scenarios” 發(fā)表于中科院一區(qū)期刊 Robotics and Computer-Integrated Manufacturing,作者團隊來自浙江大學(xué)、普渡大學(xué)、瑞典皇家理工學(xué)院等國際頂級機構(gòu)。
作者簡介
王柏村(通訊作者),浙江大學(xué)機械工程學(xué)院副院長、百人計劃研究員、博士生導(dǎo)師;
宋詞,浙江大學(xué)機械工程學(xué)院博士研究生;
李興宇,普渡大學(xué)工程技術(shù)學(xué)院助理教授;
周慧穎,浙江大學(xué)機械工程學(xué)院博士研究生;
楊華勇,中國工程院院士、浙江大學(xué)工學(xué)部主任、機械工程學(xué)院教授、博士生導(dǎo)師;
王力翚,加拿大工程院院士、瑞典皇家理工學(xué)院可持續(xù)制造學(xué)教授及系主任。
該研究為人機協(xié)同裝配中的人體姿態(tài)估計問題提供了可落地的技術(shù)路徑,也展示了NOKOV 度量動作捕捉系統(tǒng)在高端機器人與智能制造研究中的真值支撐能力。

