Hugging Face 公布 4.5 億參數(shù)開源機(jī)器人模型

2025-06-09 13:00:00

來源：IT 之家

點(diǎn)擊：2135

A⁺ A^-

關(guān)鍵詞：Hugging Face 開源機(jī)器人模型

6月9日消息，Hugging Face現(xiàn)已公布 4.5 億參數(shù)開源機(jī)器人模型 SmolVLA，該模型主打高普適性，可在 MacBook Pro等的消費(fèi)級硬件設(shè)備上運(yùn)行，旨在幫助開發(fā)者降低入門成本。

當(dāng)下，業(yè)界機(jī)器人模型通常采用“視覺 - 語言 - 行動 ”（Vision-Language-Action，VLA）設(shè)計(jì)，此類模型嘗試在單一架構(gòu)中整合感知能力、語言理解與行動決策，從而讓機(jī)器人實(shí)現(xiàn)自主執(zhí)行復(fù)雜任務(wù)。不過相應(yīng)模型訓(xùn)練成本極高，目前大多數(shù)模型仍為閉源項(xiàng)目，訓(xùn)練過程中依賴昂貴硬件、大量工程資源和大規(guī)模私有數(shù)據(jù)集。

為此，Hugging Face 推出 SmolVLA 這一輕量級開源模型，使用公開數(shù)據(jù)集進(jìn)行訓(xùn)練，并可在消費(fèi)級硬件設(shè)備上運(yùn)行，旨在降低愛好者入門成本，推動通用機(jī)器人智能體的研究進(jìn)展。

據(jù)介紹，SmolVLA在模型架構(gòu)上結(jié)合Transformer結(jié)構(gòu)與flow-matching解碼器，并采用了四項(xiàng)關(guān)鍵優(yōu)化技術(shù)：一是跳過視覺模型中一半層數(shù)，以提升推理速度并減小模型體積；二是交替融合自注意力與交叉注意力模塊，提高多模態(tài)信息整合效率；三是減少視覺Token數(shù)量以提升處理效率；四是采用更輕量的SmolVLM2作為視覺編碼器，從而進(jìn)一步降低硬件要求。

圖源：Hugging Face（下同）

而在訓(xùn)練策略方面，SmolVLA首先通過通用操作數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，再針對特定任務(wù)進(jìn)行微調(diào)，以提升適應(yīng)能力。因此雖然SmolVLA的訓(xùn)練數(shù)據(jù)遠(yuǎn)少于現(xiàn)有其他VLA模型（僅包括不到3萬個任務(wù)記錄），但Hugging Face表示，該模型在模擬環(huán)境和真實(shí)場景中的表現(xiàn)與大型模型相當(dāng)，甚至在部分任務(wù)上實(shí)現(xiàn)“超越”。

此外，Hugging Face透露SmolVLA還引入“異步推理架構(gòu)（Asynchronous Inference Stack），將感知處理（如視覺和語音理解）與動作執(zhí)行進(jìn)行解耦，使機(jī)器人在面對快速變化的環(huán)境時能做出更及時的響應(yīng)，大幅提升其實(shí)用性。

Hugging Face強(qiáng)調(diào)，用戶使用MacBook Pro筆記本電腦等消費(fèi)級硬件即可運(yùn)行SmolVLA-450M 模型，無需花費(fèi)大成本采購專用AI訓(xùn)練服務(wù)器。同時用戶也可以考慮采購 Hugging Face推出的低成本機(jī)器人平臺（SO-100、SO-101 和 LeKiwi）等降低成本。

Hugging Face援引自家進(jìn)行的多項(xiàng)基準(zhǔn)測試驗(yàn)證SmolVLA的性能，在LIBERO與Meta-World 等模擬測試平臺上，SmolVLA的表現(xiàn)據(jù)稱優(yōu)于Octo、OpenVLA等業(yè)界競品，而在使用真實(shí)機(jī)器人 SO-100 和 SO-101 進(jìn)行抓取、放置、堆疊與分類任務(wù)中，SmolVLA 也展現(xiàn)出更好的性能。

目前，SmolVLA的基礎(chǔ)模型已在Hugging Face平臺上線，完整訓(xùn)練方法也同步在GitHub上公開。

(審核編輯: 光光)

聲明：除特別說明之外，新聞內(nèi)容及圖片均來自網(wǎng)絡(luò)及各大主流媒體。版權(quán)歸原作者所有。如認(rèn)為內(nèi)容侵權(quán)，請聯(lián)系我們刪除。

分享

色综合天天天天做夜夜夜夜做,天天综合天天色,欧美三级毛片,国产69精品久久久久99,成在人线av,精品女同一区二区三区在线播放,欧美成人激情视频

Hugging Face 公布 4.5 億參數(shù)開源機(jī)器人模型

點(diǎn)擊排行

專題