《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 阿里千問登頂空間推理全球冠軍

阿里千問登頂空間推理全球冠軍

超越Gemini3、GPT5.1!
2025-11-27
來源:快科技
關(guān)鍵詞: Qwen 大模型 Gemini3 GPT-5 Claude

11月26日消息,今日,空間推理基準(zhǔn)測試SpatialBench更新了最新一期榜單,阿里千問的視覺理解模型Qwen3-VL、Qwen2.5-VL位列頭兩名,超越Gemini 3GPT-5.1、Claude Sonnet4.5等國際頂尖模型。

SpatialBench榜單顯示,Qwen3-VL-235B和Qwen2.5-VL-72B分別斬獲13.5和12.9分,領(lǐng)先于Gemini 3.0 Pro Preview(9.6) 、GPT-5.1(7.5)、Claude Sonnet 4.5等海外頂尖模型。

s_a6de7b2b3a49421597242fba20a8cf04.png

然而,AI大模型的整體表現(xiàn)距離人類仍有差距,人類基準(zhǔn)線約為80分左右,可專業(yè)處理電路分析、CAD 工程和分子生物學(xué)等復(fù)雜空間推理任務(wù),目前大模型還無法完全自動化完成此類工作。

據(jù)悉,Qwen2.5-VL于2024年開源,Qwen3-VL是阿里在2025年開源的新一代視覺理解模型。

Qwen3-VL在視覺感知和多模態(tài)推理方面實現(xiàn)重大突破,在32項核心能力測評中超過Gemini2.5-Pro和GPT-5,不但可調(diào)用摳圖、搜索等工具完成“帶圖推理”,也可以憑借一張設(shè)計草圖或一段小游戲視頻直接“視覺編程”。

s_23f56825a06742f7a910327632233da1.png

同時,Qwen3-VL專門增強(qiáng)了3D檢測能力,可以更好地感知空間,基于Qwen3-VL,機(jī)器人更好地判斷物體方位、視角變化和遮擋關(guān)系,實現(xiàn)遠(yuǎn)處蘋果的精準(zhǔn)抓取。

目前,Qwen3-VL已開源不同版本,包括2B、4B、8B、32B等密集模型以及30B-A3B、235B-A22B等MoE模型,每個模型都有指令版和推理版兩款,是當(dāng)下最受企業(yè)和開發(fā)者歡迎的開源視覺理解模型。同時,Qwen3-VL模型也已上線千問APP,用戶可免費體驗。

據(jù)了解,SpatialBench是一項近年來興起的第三方空間推理基準(zhǔn)測試榜單,主要聚焦多模態(tài)模型在空間、結(jié)構(gòu)、路徑等方面的綜合推理能力,被AI社區(qū)視為是衡量“具身智能”進(jìn)展的新興測試標(biāo)準(zhǔn)之一。

SpatialBench不僅測試模型已知的知識,還測試模型在二維和三維空間中“感知”和操控抽象概念的能力,這對具身智能的落地尤為關(guān)鍵。


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。