陜西企業(yè)網(wǎng)站建設(shè)500元全包(機(jī)器人的控制信號(hào))機(jī)器人控制原理,
衡宇 蕭簫 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI讓GPT-4操縱人形機(jī)器人,事先不做任何編程or訓(xùn)練,能搞成啥樣兒?答案是:太 獵 奇 了!這不,要求機(jī)器人表演“在昏暗電影院里狂炫爆米花,卻突然發(fā)現(xiàn)吃的是隔壁陌生人的”。
在GPT-4的操縱下,機(jī)器人笑容凝固,“尷尬”得搖頭扶額后仰:
但在尷尬之余,竟然還不忘再抓一把塞嘴里???又像是要求機(jī)器人“彈吉他”GPT-4略思考一番,開(kāi)始操控機(jī)器人活動(dòng)一番手指、隨后瘋狂甩頭,好像是有點(diǎn)搖滾內(nèi)味兒但仔細(xì)一看,甩頭的時(shí)候,手指就完全不動(dòng)了……
你要說(shuō)這是神叨叨的地?cái)傁壬谄敢凰悖孟褚矝](méi)什么不對(duì)(手動(dòng)狗頭)總結(jié)一系列動(dòng)作來(lái)看——相比波士頓動(dòng)力人形機(jī)器人,一舉一動(dòng)均由人為程序精細(xì)操縱,這個(gè)GPT-4直接操控的機(jī)器人,表情猙獰,動(dòng)作詭異,但一切行為又符合prompt的要求。
這一連串GPT-4操控機(jī)器人的視頻po到網(wǎng)上后,不少網(wǎng)友直呼“恐怖谷效應(yīng)犯了”:
甚至嚇到了20年工齡的機(jī)器人技術(shù)專家:這些動(dòng)作讓我毛骨悚然。你自己看看這有美感嗎?
還有網(wǎng)友調(diào)侃:“看起來(lái)就像舞臺(tái)上的我一樣?!?/p>
但也有網(wǎng)友認(rèn)為,人形機(jī)器人能通過(guò)GPT-4來(lái)操縱,已經(jīng)是很不可思議的事情了。
原來(lái),這是首個(gè)由GPT-4驅(qū)動(dòng)人形機(jī)器人的研究,來(lái)自東京大學(xué)和日本Alternative Machine公司。
依靠這項(xiàng)研究,用戶無(wú)需事先給機(jī)器人編程,只需語(yǔ)言輸入、也就是動(dòng)動(dòng)嘴皮和GPT-4聊上一會(huì)兒,就能讓機(jī)器人根據(jù)指令完成行動(dòng)一起來(lái)看看這項(xiàng)研究的更多細(xì)節(jié)和背后原理大模型+機(jī)器人的新嘗試不編程,也不訓(xùn)練,拿GPT-4當(dāng)腦子,這個(gè)人形機(jī)器人Alter3,還能做出哪些令人皺眉卻又合理的動(dòng)作?。
不如給個(gè)指令,讓Alter3假裝自己是個(gè)吧!它倒是也懂一秒入戲,張大嘴巴、雙手前伸。但不知道為什么,微張的雙唇和空洞的眼神,讓人感覺(jué)它更像林正英都要直呼內(nèi)行的僵尸:
如果要求它自拍,Alter3倒也當(dāng)場(chǎng)能來(lái)個(gè)懟臉大頭照。就是不知道是被原相機(jī)里的自己丑到,他的表情并不享受,反而痛苦似的將自己眼睛閉了起來(lái):
再來(lái)聽(tīng)個(gè)搖滾,music走起。你說(shuō)它頻頻點(diǎn)頭是在追隨節(jié)拍,一定沒(méi)錯(cuò);但你要說(shuō)它是畢恭畢敬站在面前,說(shuō)“啊對(duì)對(duì)對(duì)對(duì)對(duì)”,似乎也貼切極了(手動(dòng)狗頭):
在所有放出的視頻demo中,“喝茶”這個(gè)行為最不奇葩怪異,甚至像是在演我:上班上到生無(wú)可戀的時(shí)候,喝茶就是這么要死不活的。要咱說(shuō),送到嘴邊了才張口,這茶不喝也罷。
作為人形機(jī)器人,Alter3做出人類行為有點(diǎn)子搞笑,那……不如試試別的?比如,演繹一條受到音樂(lè)感召后搖擺身姿的蛇:看到了嗎,沒(méi)那么柔韌,但確實(shí)在盡它所能扭動(dòng)軀干了,可以說(shuō)是一條蛇的發(fā)癲版本.webp
這么看下來(lái),直接把人形機(jī)器人和GPT-4集成這件事,可以干,但美觀性屬實(shí)不太夠啊……其實(shí)回顧一下,讓大模型和機(jī)器人結(jié)合這事兒,科學(xué)家研究者們今年已經(jīng)忙活了一整年不過(guò),通常做法是做更多的訓(xùn)練,然后嘗試將圖像語(yǔ)言大模型的能力和知識(shí)遷移到機(jī)器人領(lǐng)域。
包括微軟的ChatGPT for Robotics,谷歌的PaLm-E、RT-1、RT-2,還有VoxPoser、BoboCat等眾多工作,都走的是這個(gè)路線其中,轟動(dòng)一時(shí)的谷歌RT(Robot Transformer)。
系列效果賊棒,但谷歌訓(xùn)練它就花了17個(gè)月,并收集13臺(tái)機(jī)器人的13萬(wàn)條機(jī)器人專屬數(shù)據(jù)——一般團(tuán)隊(duì)很難有這個(gè)資金和精力年中,李飛飛團(tuán)隊(duì)的具身智能成果,則百尺竿頭更進(jìn)一步,通過(guò)將LLM(大語(yǔ)言模型)+VLM。
(視覺(jué)語(yǔ)言模型)結(jié)合在一起,機(jī)器人與環(huán)境進(jìn)行交互的能力進(jìn)一步提升。這種思路下,機(jī)器人完成任務(wù)無(wú)需額外數(shù)據(jù)和訓(xùn)練。
但是李飛飛團(tuán)隊(duì)給出demo里的硬件,本體還只是一個(gè)機(jī)械臂,今天我們介紹的研究中,實(shí)驗(yàn)對(duì)象則是大模型界最強(qiáng)的GPT-4,以及作為“身體”的Alter3無(wú)論是OpenAI開(kāi)發(fā)的GPT-4,還是東京大學(xué)和日本“機(jī)器人之父”黑石浩聯(lián)合開(kāi)發(fā)的人形機(jī)器人Alter3,都是已有的研究成果。
這項(xiàng)研究的真正目的,是探索如何在不編程的情況下,用像GPT-4這樣的大模型控制人形機(jī)器人完成各種動(dòng)作,以驗(yàn)證GPT-4生成動(dòng)作的能力、降低人機(jī)交互的復(fù)雜度依靠這一系列成果,Alter3才能完成上面看到的各種各樣復(fù)雜動(dòng)作。
(咱們先拋開(kāi)完成度和觀賞性不提)。
還有一件事,那就是研究人員在集成Alter3和GPT-4時(shí)發(fā)現(xiàn),即使給Alter3下同一個(gè)指令,Alter3反饋的動(dòng)作也不會(huì)每次都一樣經(jīng)過(guò)一番分析后,他們認(rèn)為,這與大語(yǔ)言模型本身的特點(diǎn)有關(guān),即相同輸入可能對(duì)應(yīng)不同的輸出,但并不代表GPT-4無(wú)法很好地控制人形機(jī)器人。
例如,要求機(jī)器人“吃飯”,它可能前后兩次就會(huì)分別做出拿筷子吃飯和拿刀叉吃飯的不同動(dòng)作那么,話又說(shuō)回來(lái),GPT-4究竟是如何一接收到語(yǔ)句輸入,就知道要如何控制Alter3的呢?關(guān)鍵靠2步提示詞其實(shí)在接入GPT-4之前,Alter3就是帶腦子。
(AI神經(jīng)網(wǎng)絡(luò))的,身上還帶著各種傳感器此前,Alter3的行為主要靠其內(nèi)置的一顆CPG(CentralPattern Generator,中樞模式發(fā)生器)來(lái)對(duì)傳感器傳來(lái)的數(shù)據(jù)做出分析,然后按一定順序驅(qū)動(dòng)體內(nèi)的43個(gè)氣動(dòng)裝置,完成相應(yīng)動(dòng)作。
整個(gè)過(guò)程中往往需要人為介入,打點(diǎn)補(bǔ)丁,從而進(jìn)行一些改進(jìn)But!現(xiàn)在一切都不一樣了,研究團(tuán)隊(duì)稱GPT-4的集成讓他們“解脫了”現(xiàn)在能實(shí)現(xiàn)用口頭指令來(lái)指揮Alter3,背后技術(shù)主要是這倆:CoT(思維鏈),以及
zero-shot(零樣本學(xué)習(xí))。
依托這兩項(xiàng)技術(shù),對(duì)Alter3的控制不再完全依賴硬件本身,而是能夠用GPT-4直接將自然語(yǔ)言轉(zhuǎn)換成機(jī)器人可理解并執(zhí)行的動(dòng)作。最最重要的是,整個(gè)流程無(wú)需對(duì)任何一個(gè)身體部位進(jìn)行明確編程。
好了,現(xiàn)在來(lái)具體講講把GPT-4和Alter3集成到一起,是如何實(shí)現(xiàn)的大體可以分為兩個(gè)步驟:首先,先用prompt描述一下,想要Alter3能夠完成什么行為或者動(dòng)作,比如“咱來(lái)張自拍吧”“自拍的時(shí)候胳膊再舉高一點(diǎn)”。
接收到輸入的GPT-4會(huì)生成一系列的思考步驟,這些步驟詳細(xì)地闡述了要完成這個(gè)動(dòng)作,需要先后完成些啥這個(gè)過(guò)程被研究團(tuán)隊(duì)稱為CoT的一部分,即將一個(gè)復(fù)雜任務(wù)分解為一串更簡(jiǎn)單的思考步驟然后,研究者們?cè)偌莱隽硪粋€(gè)prompt,把分解后的詳細(xì)步驟轉(zhuǎn)化為Alter3可以聽(tīng)懂的動(dòng)作指令。
簡(jiǎn)單理解就是把人們的指令描述轉(zhuǎn)化為Python代碼,這些代碼可以直接用來(lái)控制Alter3的各個(gè)身體部位的具體運(yùn)動(dòng)參數(shù)有了轉(zhuǎn)化后的代碼,Alter3想擠眉弄眼就擠眉弄眼,想撇嘴就能撇嘴研究團(tuán)隊(duì)把這第二步也看成CoT的一部分,因?yàn)樗瓿傻氖恰鞍岩粋€(gè)抽象描述轉(zhuǎn)化為具體操作”。
團(tuán)隊(duì)表示,CoT讓GPT-4能夠有效控制Alter3,命令它做各種復(fù)雜動(dòng)作,且不用額外的訓(xùn)練或者微調(diào)多說(shuō)兩句,除了上述的兩個(gè)Prompt搞定機(jī)器人控制外,研究團(tuán)隊(duì)還順手完成了一些其它研究比如掰開(kāi)了看Alter3在對(duì)話中的行為,主要針對(duì)其。
對(duì)話軌跡和語(yǔ)義時(shí)間演化針對(duì)對(duì)話軌跡,研究團(tuán)隊(duì)使用了一種叫UMAP(Uniform Manifold Approximation and Projection)的方法團(tuán)隊(duì)把對(duì)話內(nèi)容嵌入二維空間,從而方便觀察這個(gè)簡(jiǎn)化版的對(duì)話發(fā)展過(guò)程。
他們發(fā)現(xiàn),當(dāng)對(duì)話順序固定時(shí),對(duì)話軌跡會(huì)呈現(xiàn)循環(huán)模式,也就是老在重復(fù)同樣的話題而當(dāng)對(duì)話順序隨機(jī)時(shí),對(duì)話內(nèi)容更有發(fā)散性or創(chuàng)造性賊有趣的一點(diǎn),研究發(fā)現(xiàn)GPT-4聊久了過(guò)后,會(huì)傾向于反復(fù)說(shuō)“再見(jiàn)”如果你不來(lái)點(diǎn)兒人為干預(yù),它就會(huì)沉迷于想辦法跟你說(shuō)再見(jiàn)。
而做語(yǔ)義時(shí)間演化分析的過(guò)程中,團(tuán)隊(duì)觀察了隨著時(shí)間變化,聊天內(nèi)容的變化他們發(fā)現(xiàn),對(duì)話初期的一些關(guān)鍵詞,比如“藝術(shù)”或者“學(xué)習(xí)”啥的,會(huì)聊著聊著就被GPT-4忘了,取而代之的是諸如“文化”“人類”“抑制”之類的詞。
這表明對(duì)話內(nèi)容是在逐漸發(fā)展變化的當(dāng)然,如果你開(kāi)始跟GPT-4說(shuō)“再見(jiàn)”,它就幾乎一心一意只想跟你說(shuō)byebye~(doge)來(lái)自東京大學(xué)這項(xiàng)火爆全網(wǎng)的研究,來(lái)自東京大學(xué)和日本Alternative Machine公司。
一作Takahide Yoshida,來(lái)自東京大學(xué)通用系統(tǒng)科學(xué)系另外兩位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在東京大學(xué),又屬于Alternative Machine公司。
最后,不得不提到本次研究?jī)?nèi)容的主人公Alter3,它的幕后研究者也來(lái)自東京大學(xué),由東京大學(xué)AI研究學(xué)者池上高志和日本“機(jī)器人之父”黑石浩聯(lián)袂打造Alter3出生于2020年,是同系列機(jī)器人第三代產(chǎn)品據(jù)了解,Alter系列的兩次迭代都是在歌劇演唱中完成的。
第3代的初亮相就是在東京新國(guó)立劇場(chǎng)指揮管弦樂(lè)隊(duì)并參加其他現(xiàn)場(chǎng)表演
那個(gè)時(shí)候它的特色是增強(qiáng)了傳感器,并改善了唱歌的表達(dá)能力和發(fā)聲系統(tǒng)以及身體里那粒能夠最終驅(qū)動(dòng)43個(gè)氣動(dòng)裝置的CPGCPG對(duì)數(shù)據(jù)的分析靈敏到什么程度呢?就是如果Alter3呆的房間里如果溫度驟降,Alter3會(huì)因此打個(gè)冷顫,表示自己有被冷到。
這或許也為現(xiàn)在接入GPT-4當(dāng)腦子后的它,能夠活靈活現(xiàn)做表情、完成動(dòng)作提供了一些基礎(chǔ)吧One More Thing說(shuō)起人形機(jī)器人的最新消息,一定要提老馬家特斯拉擎天柱Optimus的最新動(dòng)態(tài):就在剛剛,。
馬斯克突然在推特發(fā)布了Optimus的視頻,表示Optimus第二代機(jī)器人(Gen 2)將在本月發(fā)布。一點(diǎn)點(diǎn)“微小”的進(jìn)步是二代Optimus步行速度提升了30%。
平衡感和身體控制能力也有所改善。
一把子期待住了!
參考鏈接:[1]https://tnoinkwms.github.io/ALTER-LLM/[2]https://arxiv.org/abs/2312.06571[3]https://twitter.com/elonmusk/status/1734763060244386074
— 完 —量子位 QbitAI · 頭條號(hào)簽約