超碰caopor国产公开,亚州精品热门毛片,欧美一级日韩一级亚洲一级

清華和星動紀(jì)元開源首個AIGC機器人大模型

日期： 2025-05-08

來源：IT之家

關(guān)鍵詞： 清華大學(xué) 星動紀(jì)元 AIGC 機器人大模型

5 月 7 日消息，星動紀(jì)元今日在官方公眾號上宣布，開源首個 AIGC 機器人大模型 VPP（Video Prediction Policy）。

據(jù)了解，生成式機器人大模型 VPP 由清華大學(xué)叉院的 ISRLab 和星動紀(jì)元合作開發(fā)，將視頻擴散模型的泛化能力轉(zhuǎn)移到了通用機器人操作策略中，解決了 diffusion 推理速度的問題，讓機器人實時進行未來預(yù)測和動作執(zhí)行，大大提升機器人策略泛化性，并且現(xiàn)已全部開源，相關(guān)成果入選 ICML 2025 Spotlight。

星動紀(jì)元介紹稱，VPP 利用了大量互聯(lián)網(wǎng)視頻數(shù)據(jù)進行訓(xùn)練，直接學(xué)習(xí)人類動作，減輕了對于高質(zhì)量機器人真機數(shù)據(jù)的依賴，且可在不同人形機器人本體之間自如切換，這有望大大加速人形機器人的商業(yè)化落地。

目前 AI 大模型領(lǐng)域有兩種主流方法，基于自回歸的理解模型和基于擴散的生成模型，各自代表作分別為自回歸的 GPT 和生成式的 Sora：

GPT 的思路演化到具身智能領(lǐng)域，就是以 PI（ Physical Intelligence ）為代表的 VLA 技術(shù)，是從視覺語言理解模型（VLM）微調(diào)而來，擅長抽象推理和語義理解。

生成式的技術(shù)與機器人的碰撞，就誕生了 VPP 這樣的生成式機器人大模型。

然而，人工智能領(lǐng)域存在著著名的莫拉維克悖論（Moravec's paradox）：高級推理功能反而容易（例如圍棋、數(shù)學(xué)題），下層的感知和執(zhí)行反而困難（例如各種家務(wù)）。VLM 更擅長高層級的推理，而 AIGC 生成式模型更擅長細節(jié)處理。VPP 基于 AIGC 視頻擴散模型而來，在底層的感知和控制有獨特的優(yōu)勢。

如圖所示，VPP 分成兩階段的學(xué)習(xí)框架，最終實現(xiàn)基于文本指令的視頻動作生成。第一階段利用視頻擴散模型學(xué)習(xí)預(yù)測性視覺表征；第二階段通過 Video Former 和 DiT 擴散策略進行動作學(xué)習(xí)。

1、提前預(yù)知未來：VPP 讓機器人行動前做到“心里有數(shù)”

以往機器人策略（例如：VLA 模型）往往只能根據(jù)當(dāng)前觀測進行動作學(xué)習(xí)，機器人策略需要先理解指令和場景，再執(zhí)行。VPP 能夠提前預(yù)知未來的場景，讓機器人“看著答案”行動，大大增強泛化能力。

VPP 視頻預(yù)測結(jié)果與機器人實際物理執(zhí)行結(jié)果幾乎一致。能被視頻生成的，就能被機器人執(zhí)行。

2、高頻預(yù)測和執(zhí)行：VPP 讓機器人執(zhí)行速度“更快一步”

AIGC 視頻擴散模型雖能生成逼真的視頻，但往往花費大量推理時間。星動紀(jì)元研究團隊發(fā)現(xiàn)，不需要精確地預(yù)測未來的每個像素，通過有效提取視頻模型中間層的表征，單步去噪的預(yù)測就可以蘊含大量未來信息。這讓模型預(yù)測時間小于 150ms，模型的預(yù)測頻率約 6-10hz，通過 action chunk size = 10，模型的控制頻率能超過 50Hz。

如圖所示，單步視頻擴散模型預(yù)測已經(jīng)蘊含大量未來信息，足夠?qū)崿F(xiàn)高頻預(yù)測（規(guī)劃）和執(zhí)行。

3、跨本體學(xué)習(xí)：VPP 讓機器人先驗知識流通“暢通無阻”

如何利用不同本體的機器人數(shù)據(jù)是一個巨大的難題。VLA 模型只能學(xué)習(xí)不同維度的低維度 action 信息，而 VPP 可以直接學(xué)習(xí)各種形態(tài)機器人的視頻數(shù)據(jù)，不存在維度不同的問題。如果將人類本體也當(dāng)作一種機器本體，VPP 也可以直接學(xué)習(xí)人類操作數(shù)據(jù)，降低數(shù)據(jù)獲取成本。同時視頻數(shù)據(jù)也包含比低維度動作更加豐富的信息，提高模型泛化能力。

VPP 能學(xué)習(xí)跨本體的豐富視頻數(shù)據(jù)，相比之下，VLA 只能學(xué)習(xí)維度不一致的低維動作信號。

4、基準(zhǔn)測試領(lǐng)先：VPP 讓機器人性能“一騎絕塵”

在 Calvin ABC-D 基準(zhǔn)測試中，實現(xiàn)了 4.33 的任務(wù)完成平均長度，已經(jīng)接近任務(wù)的滿分 5.0。相較于先前技術(shù)，VPP 實現(xiàn)了 41.5% 的提升。

左圖為 Calvin ABC-D 任務(wù)的平均長度對比，右圖為 Real-World Dexterous Hand 任務(wù)的成功率對比?？梢钥闯?，VPP 方法在這兩項指標(biāo)中均取得了最佳表現(xiàn)，在仿真環(huán)境任務(wù)完成平均長度達到 4.33，真機測試成功率為 67%，顯著優(yōu)于其他方法。

5、真實世界靈巧操作：VPP 讓機器人靈巧操作“舉一反三”

在真實世界的測試中，VPP 模型展現(xiàn)出了良好的多任務(wù)學(xué)習(xí)能力和泛化能力。在星動紀(jì)元單臂 + 仿人五指靈巧手靈巧手 XHAND 平臺，VPP 能使用一個網(wǎng)絡(luò)完成 100+ 種復(fù)雜靈巧操作任務(wù)，例如抓取、放置、堆疊、倒水、工具使用等，在雙臂人形機器人平臺能完成 50+ 種復(fù)雜靈巧操作任務(wù)。

6、可解釋性與調(diào)試優(yōu)化：VPP 讓機器人“透明可控”

VPP 的預(yù)測視覺表示在一定程度上是可解釋的，開發(fā)者在不通過 real-world 測試情況下，通過預(yù)測的視頻來提前發(fā)現(xiàn)失敗的場景和任務(wù)，進行針對性的調(diào)試和優(yōu)化。

而 VLA 模型是完全端到端的模型，開發(fā)者在調(diào)試優(yōu)化中需要大量真實世界的測試來找到模型漏洞，需要花費大量的時間。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

清華和星動紀(jì)元開源首個AIGC機器人大模型

日期： 2025-05-08

來源：IT之家

相關(guān)內(nèi)容