OpenAI 版終結(jié)者降臨!地表最強(qiáng)機(jī)器人 Figure 02 問世,進(jìn)寶馬狂飆 20 小時(shí)

2024-08-08 09:51:33   來(lái)源:IT之家   評(píng)論:0   [收藏]   [評(píng)論]
導(dǎo)讀:  歷時(shí) 18 個(gè)月,地表最強(qiáng)人形機(jī)器人誕生了!黑色外觀顏值爆表,五指靈活,號(hào)稱是地球上最先進(jìn)的 AI 硬件,還有 OpenAI 的模型加持推理,F(xiàn)在,它已經(jīng)進(jìn)寶馬工廠打工了,干 20 小時(shí)都不帶停的那種!  ...
  歷時(shí) 18 個(gè)月,地表最強(qiáng)人形機(jī)器人誕生了!黑色外觀顏值爆表,五指靈活,號(hào)稱是地球上最先進(jìn)的 AI 硬件,還有 OpenAI 的模型加持推理,F(xiàn)在,它已經(jīng)進(jìn)寶馬工廠打工了,干 20 小時(shí)都不帶停的那種!

  號(hào)稱 OpenAI 二代機(jī)器人「Figure 02」,真的來(lái)了!Figure AI 終于官宣了第二代人形機(jī)器人,完全換了一身新形象 —— 黑色的外觀,更加靈活的五指。

  創(chuàng)始人 Brett Adcock 表示,「這是『地表最強(qiáng)』的人形機(jī)器人」!

  值得一提的是,F(xiàn)igure 02 的設(shè)計(jì)評(píng)審耗時(shí) 18 個(gè)月完成。

  據(jù)介紹,迭代后的 Figure 手部具有 16 個(gè)自由度,能夠承受與人類相當(dāng)?shù)牧α俊?/p>

  現(xiàn)在的它,已經(jīng)進(jìn)入寶馬車廠開始打工了,可以無(wú)休止地狂干 20 個(gè)小時(shí)。

  Figure 02 還可以與人類直接開啟「語(yǔ)音對(duì)話」,這背后依舊用上了 OpenAI 最先進(jìn)的定制 AI 模型,通過語(yǔ)音-語(yǔ)音進(jìn)行推理。

  與初代類似,它擁有一個(gè)機(jī)載的視覺模型(VLM),可通過攝像頭,完成視覺推理。

  去年,初代機(jī)器人 Figure 01,同樣在 OpenAI 大模型的加持下,能夠看、聽、遵循人類指令。

  不僅如此,這家明星初創(chuàng)背后,還得到了英偉達(dá)、阿爾特曼、貝索斯等大佬的聯(lián)合投資。

  如今,工程和設(shè)計(jì)團(tuán)隊(duì)在 Figure 02 上完成了一次從零開始的硬件和軟件重新設(shè)計(jì)。

  其中,在包括人工智能、計(jì)算機(jī)視覺、電池、電子設(shè)備、傳感器和執(zhí)行器等關(guān)鍵技術(shù)上,取得了巨大的進(jìn)步:

  語(yǔ)音到語(yǔ)音:通過內(nèi)置麥克風(fēng)和揚(yáng)聲器連接自定義 AI 模型,能夠與人類進(jìn)行對(duì)話

  攝像頭:由 6 個(gè)內(nèi)置 RGB 攝像頭驅(qū)動(dòng)的 AI 視覺系統(tǒng)

  手部:第四代手部具有 16 個(gè)自由度和等同于人類的力量

  內(nèi)置 VLM:使機(jī)器人攝像頭能夠進(jìn)行快速的常識(shí)性視覺推理

  電池:機(jī)器人軀干內(nèi)的 2.25 千瓦時(shí)定制電池組提供 50% 以上的能量

  CPU / GPU:相比上一代,機(jī)載計(jì)算和 AI 推理能力提高了 3 倍

  更流線型的外觀

  Figure 02 機(jī)器人與其前身 Figure 01 身高相似,但在很多方面都進(jìn)行了改進(jìn)。最明顯的變化是機(jī)器人的「皮膚」采用了啞光黑色外觀,而不是 Figure 01 的鉻金屬飾面。

  之前的機(jī)器人看起來(lái)像穿著盔甲,而 Figure 02 看起來(lái)像一輛現(xiàn)代跑車,擁有流線型的曲線和精致的外觀。

  另一個(gè)變化部分就是電纜。在 Figure 01 中,電纜被故意布置在機(jī)身外部,以支持測(cè)試夾具、更換傳感器和電機(jī),并加快維修速度。而在 Figure 02 中,所有電纜都集成到了四肢中,保護(hù)它們免受環(huán)境的影響,并為長(zhǎng)時(shí)間在生產(chǎn)線上工作做好準(zhǔn)備。

  Figure AI 表示,新機(jī)器人的電池容量比 Figure 01 大 50%,能夠在實(shí)際部署中工作更長(zhǎng)時(shí)間。電池已集成到人形機(jī)器人的軀干中,使其重心更接近中心線位置,使得機(jī)器人更加靈活。

  Figure AI 還為其定制了電機(jī),與關(guān)節(jié)傳動(dòng)系統(tǒng)集成在一起,以優(yōu)化每個(gè)關(guān)節(jié)的功率和性能。

  機(jī)器人設(shè)計(jì)的一大難題,就是可靠地通過旋轉(zhuǎn)關(guān)節(jié)布線。我們可以看到,F(xiàn)igure 02 的肩部、肘部、髖部和膝部四個(gè)主要關(guān)節(jié)組設(shè)計(jì)非常簡(jiǎn)潔,完美解決了這個(gè)難題。

  準(zhǔn)備好接收語(yǔ)音指令

  AI 模型的訓(xùn)練決定了機(jī)器人智能和能力的核心,因此 Figure AI 與 OpenAI 的合作可謂「如虎添翼」,能夠快速測(cè)試、驗(yàn)證和迭代機(jī)器人的語(yǔ)音互動(dòng)功能。

  早在 GPT-4o 發(fā)布前,F(xiàn)igure AI 的視頻就展示了機(jī)器人如何通過語(yǔ)音指令與人類互動(dòng),最新發(fā)布的 Figure 02 在 OpenAI 定制模型到加持下,也可以通過麥克風(fēng)和揚(yáng)聲器人類進(jìn)行對(duì)話。

  Figure AI 表示,F(xiàn)igure 02 的計(jì)算和 AI 推理能力提升了 3 倍,可以在現(xiàn)實(shí)世界中完全自主地執(zhí)行任務(wù)。

  新型號(hào)配備了六個(gè) RGB 攝像頭,用于感知物理世界,此外還配備了一個(gè)車載視覺語(yǔ)言模型,能夠快速進(jìn)行常識(shí)性的視覺推理。

  視覺模型能夠處理所有車載圖像以進(jìn)行感知、避障,最重要的是進(jìn)行手眼協(xié)調(diào),以便機(jī)器人能夠識(shí)別并拾取面前的物體。

  另外,比起 Figure 01,F(xiàn)igure 02 擁有 3 倍機(jī)載計(jì)算能力和 AI 推理能力。這使得機(jī)器人能夠完全自主地執(zhí)行實(shí)際的 AI 任務(wù)。

  這里 AI 數(shù)據(jù)引擎會(huì)提供最新的 AI 模型,并直接直接在設(shè)備的 GPU 上運(yùn)行。

  操控人手能抓的物體

  自成立以來(lái),F(xiàn)igure AI 已經(jīng)在機(jī)器人手部的設(shè)計(jì)和功能上投入了大量資金。由此得到的最新設(shè)計(jì),不僅具有十六個(gè)自由度(DoF),而且能夠承載最多 25 公斤(55.1 磅)的物體。

  與此同時(shí),這雙「手」的外觀也與人類都非常相似 —— 有四根手指和一個(gè)拇指。具體來(lái)說(shuō),每根手指由一個(gè)集成單元驅(qū)動(dòng),該單元包括傳感器和電機(jī)。

  手腕是另一個(gè)新穎的設(shè)計(jì),提供了與人類手腕相似的運(yùn)動(dòng)范圍,同時(shí)將所有電力和傳感信號(hào)線路封裝并引導(dǎo)到手和手指。

  Figure AI 表示,他們的目標(biāo)就是讓機(jī)器人能夠操控任何人類手能抓住的物體。

  資金雄厚,但人形機(jī)器人賽道競(jìng)爭(zhēng)激烈

  Figure AI 最初擺脫「隱身」模式還是在 2023 年 3 月,推出了通用人形機(jī)器人 Figure 01,希望能應(yīng)用于工業(yè)制造、物流、倉(cāng)儲(chǔ)、零售等多個(gè)行業(yè)以解決全球范圍內(nèi)的勞動(dòng)短缺問題。

  根據(jù)創(chuàng)始人 Adcock 的設(shè)想,機(jī)器人們可以替人類承擔(dān)不安全和不受歡迎的工作,構(gòu)建一個(gè)更加自動(dòng)化且高效的未來(lái)。并且他堅(jiān)稱,F(xiàn)igure AI 的這項(xiàng)技術(shù)絕不會(huì)被武器化。

  很難想象,F(xiàn)igure AI 第一代全規(guī)模機(jī)器人的構(gòu)建僅花了短短 6 個(gè)月的時(shí)間,不得不說(shuō),這得益于包括 CTO Jerry Pratt 在內(nèi)的 40 名行業(yè)專家組成的強(qiáng)大團(tuán)隊(duì)。

  作為 2024 年初的投資寵兒,F(xiàn)igure AI 目前已籌集了 6.75 億美元資金。

  憑借雄厚的資金,聯(lián)合創(chuàng)始人兼 CEO Brett Adcock 正在全速推進(jìn),目標(biāo)是在未來(lái) 2~5 年內(nèi)將自主雙足機(jī)器人推向市場(chǎng)。

  其實(shí),今年早些時(shí)候,F(xiàn)igure AI 就已經(jīng)在南卡羅來(lái)納州一家寶馬工廠測(cè)試了。在這里,AI 模型訓(xùn)練的數(shù)據(jù)會(huì)被收集起來(lái)。

  在演示中我們可以看到,機(jī)器人完全展現(xiàn)出了在工業(yè)環(huán)境中運(yùn)行的能力,還能學(xué)習(xí)執(zhí)行基本任務(wù)。

  當(dāng)然,這個(gè)越來(lái)越卷的賽道中,其他競(jìng)爭(zhēng)對(duì)手也沒閑著。

  Agility Robotics 的 Digit 和 Apptronik 的 Apollo,早就把自家機(jī)器人部署到了 GXO 物流公司中,執(zhí)行簡(jiǎn)單任務(wù)。

  馬斯克家的 Optimus,也很早就被「下放」到了特斯拉工廠;波士頓動(dòng)力,也有意在現(xiàn)代設(shè)施中,給最新版 Atlas 進(jìn)行測(cè)試。

  在科幻故事中,我們?cè)缇鸵娮R(shí)過各類人形機(jī)器人,但在商業(yè)產(chǎn)品的推出上,它們其實(shí)一直進(jìn)展緩慢。

  一方面是受限于研究環(huán)境,另一方面,設(shè)計(jì)也非常昂貴。

  然而,LLM 和多模態(tài) AI 模型的發(fā)展,改變了這一切!如果模型能快速分析實(shí)時(shí)視頻和音頻輸入,還能以類人音頻和動(dòng)作進(jìn)行相應(yīng),那科幻中的場(chǎng)景,顯然不會(huì)很遙遠(yuǎn)了。

  擁有 Optimus 的馬斯克最近大膽預(yù)言,地球上有超過 100 億臺(tái)人形機(jī)器人的市場(chǎng),這意味著未來(lái)每個(gè)人會(huì)擁有不止一臺(tái)機(jī)器人。

  此外,英偉達(dá)的 GR00T 項(xiàng)目也在進(jìn)行時(shí),展示了 AI 在指導(dǎo)人形機(jī)器人方面的進(jìn)展。

  Jim Fan 發(fā)布的這個(gè)視頻中,人類遠(yuǎn)程操作員可以通過佩戴 Apple Vision Pro 來(lái)引導(dǎo)機(jī)器人完成正確動(dòng)作。

  快速 QA

  由于官方并沒有透露太多信息,因此外媒 IEEE Spectrum 找到了 Figure 的控制總監(jiān) Michael Rose 和硬件總監(jiān) Vadim Chernyak,并做了一波快速的 QA。

  問:Figure 02 有多少個(gè)部件?這些是全部嗎?

  答:有幾百個(gè)獨(dú)特的部件,總共有幾千個(gè)部件。不,這不是全部。

  問:Figure 02 每走一步都會(huì)留下 Figure 標(biāo)志嗎?

  答:如果表面足夠柔軟的話,是的。

  問:「可更換的腿」是很難做到的嗎,還是因?yàn)橹恍枰鲆粭l腿而更容易呢?

  答:我們選擇制作可更換的腿是為了便于制造。

  問:電池包也是可更換的嗎?

  答:我們的電池是可更換的,但這不是一個(gè)快速更換的過程。

  問:Figure 02 膝蓋后面和肘關(guān)節(jié)處那個(gè)看起來(lái)軟軟的東西是什么呢?

  答:這些是軟限位器,它們以受控的方式限制運(yùn)動(dòng)范圍,并防止機(jī)器人夾傷。

  問:你們把拇指的馬達(dá)藏哪了?

  答:拇指現(xiàn)在完全包含在手中。

  問:脖子上的「皮膚」是什么?

  答:這種皮膚是一種柔軟的織物,即使機(jī)器人移動(dòng)頭部,也能保持干凈無(wú)縫的外觀。

  問:當(dāng) Figure 02 的頭部轉(zhuǎn)動(dòng)時(shí),它的身體也會(huì)轉(zhuǎn)動(dòng),手臂也會(huì)移動(dòng)。這是必要的,還是只是出于美學(xué)考慮?

  答:只是出于美學(xué)考慮。

  問:上半身和肩膀看起來(lái)比其他人形機(jī)器人窄得多。為什么設(shè)計(jì)成這樣?

  答:我們認(rèn)為將機(jī)器人設(shè)計(jì)成與人類相似的比例非常重要。這使我們能夠完成目標(biāo)使用場(chǎng)景,并更容易適應(yīng)環(huán)境。

  問:Figure 02 的步態(tài)是如何設(shè)計(jì)的?

  答:機(jī)器人使用模型預(yù)測(cè)控制器來(lái)確定腳步位置和維持平衡所需的力量,從而跟隨預(yù)定的軌跡。

  問:2.25 千瓦時(shí)的電量在視頻中的那些任務(wù)中能運(yùn)行多長(zhǎng)時(shí)間?

  答:我們的目標(biāo)是讓產(chǎn)品運(yùn)行 5 小時(shí)。

  參考資料:

  https://x.com/Figure_robot/status/1820791819023909031

  https://www.therobotreport.com/figure-02-humanoid-robot-is-ready-to-get-to-work/

  https://spectrum.ieee.org/figure-new-humanoid-robot

  https://venturebeat.com/ai/openai-backed-startup-figure-teases-new-humanoid-robot-figure-02/

分享到:
責(zé)任編輯:zsz

網(wǎng)友評(píng)論