《AI未來(lái)指北》欄目由騰訊新聞推出,邀約全球業(yè)內(nèi)專家、創(chuàng)業(yè)者、投資人,探討AI領(lǐng)域的技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場(chǎng)景、及治理挑戰(zhàn)。
文 | 騰訊科技 周小燕、趙楊博
語(yǔ)言是思維的邊界,大語(yǔ)言模型的出現(xiàn)讓機(jī)器人掌握語(yǔ)言充滿可能性,它近一步拉平機(jī)器人和人類在思維認(rèn)知層面的差異,一個(gè)聽(tīng)懂指令并根據(jù)命令去行動(dòng)的通用型機(jī)器人,仿佛距離我們變得越來(lái)越近。
(相關(guān)資料圖)
但云啟合伙人陳昱認(rèn)為,語(yǔ)言模型只是人類思維模型的一小部分,現(xiàn)階段AI可能還無(wú)法完成從桌子上拿瓶水這樣的簡(jiǎn)單動(dòng)作,因?yàn)閿?shù)字世界和物理世界之間存在脫節(jié),這是需要長(zhǎng)期關(guān)注和解決的問(wèn)題,最終希望通用機(jī)器人真正能完成各種通用任務(wù)。
AGI+機(jī)器人會(huì)誕生在哪些應(yīng)用場(chǎng)景中?實(shí)現(xiàn)真正的通用機(jī)器人還要面臨哪些困難?大模型想要滲透進(jìn)機(jī)器人的感知、規(guī)劃、決策、控制、驅(qū)動(dòng)層面,將會(huì)面臨哪些算力和數(shù)據(jù)的挑戰(zhàn)?機(jī)器人一旦有了“意識(shí)”對(duì)社會(huì)倫理會(huì)帶來(lái)哪些影響和變革?近期,云啟、青騰匯、騰訊科技共同舉辦的「云啟·浪潮AGI+系列沙龍」深圳場(chǎng),邀請(qǐng)來(lái)自投資、學(xué)術(shù)、企業(yè)層面的專家,共同探討《AGI+機(jī)器人的創(chuàng)新與挑戰(zhàn)》。
嘉賓:
桑 煜云啟 前沿科技組投資人
畢 盛華南理工大學(xué) 大數(shù)據(jù)與智能機(jī)器人重點(diǎn)實(shí)驗(yàn)室
岳玉濤集萃深度感知技術(shù)研究所 創(chuàng)始人、所長(zhǎng)(青騰未來(lái)科技學(xué)堂校友)
嚴(yán)啟凡大方智能 聯(lián)合創(chuàng)始人
核心觀點(diǎn):
1在算法中,我們可以將整個(gè)世界及其規(guī)律比作一片巍峨的山脈,而小模型訓(xùn)練的數(shù)據(jù)可能只是其中一個(gè)小山包,無(wú)法看到小山包之外的東西。大模型實(shí)際上提供了對(duì)整個(gè)山脈地形的抽象信息,而不是具體的地理數(shù)據(jù)。這些抽象信息基于自然語(yǔ)言和符號(hào)進(jìn)行訓(xùn)練。因此,大模型的輔助可能解決邊角場(chǎng)景(corner case)、OOD泛化性問(wèn)題。 2路徑規(guī)劃和導(dǎo)航等相對(duì)簡(jiǎn)單的任務(wù),只要環(huán)境是固定的,機(jī)器人表現(xiàn)得很好。但是當(dāng)環(huán)境復(fù)雜時(shí),問(wèn)題就比較棘手了。隨著大量數(shù)據(jù)的可用性,機(jī)器人能夠更好地在復(fù)雜環(huán)境中切換任務(wù),并靈活調(diào)度執(zhí)行任務(wù),也許在一些復(fù)雜場(chǎng)景下,可以取得更好的結(jié)果,但是這需要大模型和大數(shù)據(jù)的支持。 3無(wú)論我們?cè)谏疃葘W(xué)習(xí)方面做得多好,實(shí)際上在避障和導(dǎo)航這樣的精確運(yùn)動(dòng)方面,深度學(xué)習(xí)的結(jié)果并不理想。因?yàn)樯疃葘W(xué)習(xí)更適合做意識(shí)形態(tài)判斷,而在精確場(chǎng)景中,感知傳感器仍然是關(guān)鍵。 4在傳統(tǒng)的機(jī)器人系統(tǒng)中,也面臨實(shí)時(shí)性和計(jì)算能力的要求??梢詫?duì)算力進(jìn)行分層:機(jī)器人的控制和驅(qū)動(dòng)方面,對(duì)實(shí)時(shí)性的要求比較高,而對(duì)于規(guī)劃方面的要求則相對(duì)較低,只需一些嵌入式的系統(tǒng)就可以實(shí)現(xiàn)。因此,在操作時(shí),可以會(huì)對(duì)這兩個(gè)方面進(jìn)行分離。以下為本場(chǎng)論壇的整理:
桑煜:我叫桑煜,跟云啟合伙人陳昱一起覆蓋機(jī)器人、智能車方向的投資,我之前在AI大廠工作,經(jīng)歷了上一波AI賦能百業(yè)的發(fā)展熱潮,可惜落地程度有限,今天新一代AGI的發(fā)展讓我們看到了突破天花板的可能性。AGI賦能的行業(yè)里面有一個(gè)行業(yè)是比較特殊的,就是AGI+機(jī)器人,因?yàn)楝F(xiàn)在的AGI還停留在虛擬數(shù)字世界中,未來(lái)的大方向是怎樣讓AGI走進(jìn)現(xiàn)實(shí)世界、去跟物理實(shí)體做交互,這方面有非常巨大的想象空間。AGI+機(jī)器人的方向能夠有哪些新技術(shù)變革和新應(yīng)用機(jī)會(huì)就是我們本次圓桌討論的主題。我們很榮幸邀請(qǐng)到了分別來(lái)自高校、研究院和產(chǎn)業(yè)界的三位嘉賓。下面請(qǐng)幾位嘉賓簡(jiǎn)單地介紹一下自己。
嚴(yán)啟凡:我是來(lái)自于深圳大方智能的嚴(yán)啟凡,負(fù)責(zé)技術(shù)和產(chǎn)品,大方智能是一家做建筑機(jī)器人的公司。最近幾年我們比較受關(guān)注,因?yàn)榻ㄖ袠I(yè)在國(guó)民產(chǎn)值占比是最高的但工作環(huán)境惡劣、勞動(dòng)力老齡化嚴(yán)重,我們希望用機(jī)器人解決這些問(wèn)題。
畢盛:大家好,我是華南理工大學(xué)的畢盛,我做一些科學(xué)科研和教學(xué)的工作,我在機(jī)器人方向做了很多年的研究,也是最早做仿人機(jī)器人的。
岳玉濤:大家好,我叫岳玉濤,我的技術(shù)背景是計(jì)算物理,計(jì)算物理就是用信息世界里面的模型和計(jì)算來(lái)解決物理世界里的具體問(wèn)題。我是集萃深度感知技術(shù)研究所的創(chuàng)始人和所長(zhǎng),主要方向是多模態(tài)感知、雷達(dá)視覺(jué)融合以及AGI和機(jī)器意識(shí)。
桑煜:先從底層技術(shù)開(kāi)始聊起,大模型目前在語(yǔ)言、視覺(jué)模態(tài)上構(gòu)建了"Foundation model"(基礎(chǔ)模型),取得了超乎人們想象的效果,涌現(xiàn)出了思維鏈和超強(qiáng)的泛化能力,我們很興奮能夠把這些技術(shù)點(diǎn)應(yīng)用到機(jī)器人上。然而,機(jī)器人是個(gè)系統(tǒng)工程,單看機(jī)器人算法的技術(shù)棧大致分成感知、規(guī)劃、決策、控制、驅(qū)動(dòng)。大模型如何應(yīng)用在其中?如果放長(zhǎng)眼光,大模型會(huì)對(duì)機(jī)器人算法的技術(shù)棧有哪些顛覆?
岳玉濤:感知就像人類有眼睛和耳朵一樣。這個(gè)機(jī)器人具備攝像頭、雷達(dá)等感知技術(shù),通過(guò)這些技術(shù)來(lái)觀察和感知周圍的環(huán)境。然而,關(guān)于機(jī)器人感知技術(shù),尤其是與大型模型相關(guān)的問(wèn)題,在社會(huì)、學(xué)術(shù)界和行業(yè)中存在不同的觀點(diǎn)和認(rèn)知。我所提到的只是其中一種觀點(diǎn)。
在機(jī)器人的感知中,存在一個(gè)長(zhǎng)期問(wèn)題,即邊角場(chǎng)景(corner case)及分布外(OOD)泛化性問(wèn)題。對(duì)于常見(jiàn)場(chǎng)景,如果有大量的數(shù)據(jù)進(jìn)行充分訓(xùn)練,算法可以很好的識(shí)別。但對(duì)于罕見(jiàn)的場(chǎng)景、意外事件或常見(jiàn)情況的變體等,情況就變得更加困難。
舉個(gè)例子來(lái)說(shuō)明,之前在臺(tái)灣花蓮發(fā)生的一起事故中,一輛小型貨車翻車,車頂朝向特斯拉車輛。特斯拉的算法在訓(xùn)練過(guò)程中可能見(jiàn)過(guò)許多不同角度和形態(tài)的車輛,但可能從未見(jiàn)過(guò)或很少見(jiàn)過(guò)車輛翻倒后以車頂朝上的狀態(tài)。因此,算法無(wú)法識(shí)別它并避免碰撞。這就是邊角場(chǎng)景(corner case),也就是這種情況。
之前在感知領(lǐng)域很難處理這種情況,有一種觀點(diǎn)認(rèn)為,這涉及到常識(shí)、常識(shí)世界模型和常識(shí)推理的概念。在算法中,我們可以將整個(gè)世界及其規(guī)律比作一片巍峨的山脈,而算法訓(xùn)練的數(shù)據(jù)可能只是其中一個(gè)小山包,而無(wú)法看到小山包之外的東西。然而,在某些情況下,小山包之外的東西可能會(huì)影響任務(wù)的執(zhí)行。
從我的視角來(lái)看,大模型實(shí)際上提供了對(duì)整個(gè)山脈地形的高階抽象信息,而不是具體的地理數(shù)據(jù)。這些抽象信息基于自然語(yǔ)言和符號(hào)進(jìn)行訓(xùn)練。例如,當(dāng)我們看到一輛車時(shí),它有數(shù)百萬(wàn)、數(shù)千萬(wàn)甚至數(shù)億個(gè)像素點(diǎn),這是基本的數(shù)據(jù)。但是當(dāng)我用幾個(gè)字母"car"來(lái)描述時(shí),這就是自然語(yǔ)言的描述,是對(duì)信息進(jìn)行高度壓縮的表達(dá)方式。在這種信息層面上,模型對(duì)幾乎所有人類所見(jiàn)過(guò)的東西都有了了解,可以構(gòu)建出關(guān)于世界和知識(shí)結(jié)構(gòu)的模型。因此,大型模型的輔助可能顯著提高感知圖像的泛化性,解決邊角場(chǎng)景(corner case)、OOD泛化性問(wèn)題。這就有點(diǎn)像從感知到認(rèn)知的過(guò)程,將基本數(shù)據(jù)與高度抽象的信息和知識(shí)結(jié)合起來(lái)。
具體而言,當(dāng)這兩者相結(jié)合時(shí),對(duì)于解決邊角場(chǎng)景(corner case)、OOD泛化性問(wèn)題,會(huì)帶來(lái)一系列的好處。例如,感知的可靠性將得到顯著提升,無(wú)論是目標(biāo)檢測(cè)和跟蹤,還是更復(fù)雜的語(yǔ)義分割等任務(wù),其準(zhǔn)確率都可以大幅度提高,甚至可能顛覆傳統(tǒng)認(rèn)知。我注意到已經(jīng)有一些學(xué)者和企業(yè)正在嘗試類似的項(xiàng)目,我們也在進(jìn)行相關(guān)的研究。
第二個(gè)可能是拓展感知的范疇,例如不僅限于簡(jiǎn)單的單幀圖像感知任務(wù)(如目標(biāo)檢測(cè)和追蹤),而是針對(duì)視頻或更復(fù)雜的行為,這些行為涉及更強(qiáng)的相關(guān)性和復(fù)雜性,例如復(fù)雜行為識(shí)別。在這種情況下,大型模型的輔助可能顯著提升感知行為層面的準(zhǔn)確性。這只是引發(fā)討論的一些初步想法,歡迎批評(píng)指正,謝謝。
畢盛:我想簡(jiǎn)要談?wù)勎覍?duì)此的感受。最近,我們對(duì)多模態(tài)領(lǐng)域特別是視覺(jué)語(yǔ)言導(dǎo)航(VisionLanguageNavigation)這個(gè)研究方向產(chǎn)生了濃厚的興趣。這個(gè)方向目前非常熱門,我們也已經(jīng)投入了一段時(shí)間的研究工作。從理論角度來(lái)看,我們更傾向于進(jìn)行工程方面的研究,將研究成果應(yīng)用到實(shí)際場(chǎng)景中。因此,我們參考了一些國(guó)外頂尖團(tuán)隊(duì)的方法,并嘗試將其應(yīng)用到我們的研究中。
然而,我們遇到了一些問(wèn)題,這可能與模型的通用性有關(guān)。數(shù)據(jù)集在深度學(xué)習(xí)人工智能研究中是一個(gè)重要的挑戰(zhàn)。解決數(shù)據(jù)集問(wèn)題對(duì)于取得良好的研究結(jié)果非常關(guān)鍵。在選擇數(shù)據(jù)集時(shí),我們參考了李飛飛老師等團(tuán)隊(duì)在這個(gè)領(lǐng)域的工作,并借鑒了他們的論文。他們提供了一個(gè)仿真環(huán)境用于模型的訓(xùn)練,其中訓(xùn)練數(shù)據(jù)集主要涉及智能家居和家庭場(chǎng)景,例如沙發(fā)、桌子等。他們的目標(biāo)是通過(guò)語(yǔ)言指令實(shí)現(xiàn)機(jī)器人在家庭環(huán)境中的導(dǎo)航。我們進(jìn)行了一些實(shí)驗(yàn),使用他們提供的仿真模型進(jìn)行訓(xùn)練。
然而,如果我們希望真正實(shí)現(xiàn)應(yīng)用,就需要使用真實(shí)的訓(xùn)練數(shù)據(jù)。因此,我們購(gòu)買了三維掃描相機(jī)將房間的場(chǎng)景掃描成三維圖像。我們?cè)趯?shí)驗(yàn)室周圍的場(chǎng)景建立了3D模型,并將其導(dǎo)入到訓(xùn)練好的模型中進(jìn)行測(cè)試。然而,初始效果并不理想,路徑規(guī)劃并不準(zhǔn)確。
我們發(fā)現(xiàn)實(shí)驗(yàn)室的場(chǎng)景與家庭場(chǎng)景存在差異,因此我們不得不尋找一個(gè)類似家庭場(chǎng)景的地方。最終,我們找到了一個(gè)實(shí)驗(yàn)室的一樓大廳,其中有沙發(fā)和桌子。我們首先建立了該地點(diǎn)的地圖,使用三維掃描相機(jī)將整個(gè)房間的三維圖像掃描出來(lái)。在這個(gè)場(chǎng)景中,我們成功地進(jìn)行了導(dǎo)航。例如,當(dāng)給機(jī)器人下達(dá)指令時(shí),我們可以告訴它沿著沙發(fā)走到某個(gè)地方,或者沿著玻璃門走到門口。機(jī)器人會(huì)生成一條路徑。然而,在機(jī)器人按照路徑行走時(shí),它不能完全依賴視覺(jué),而是完全依賴深度學(xué)習(xí)。我認(rèn)為,視覺(jué)導(dǎo)航在模糊的環(huán)境中是可行的,但在精確的場(chǎng)景中仍然存在困難。因此,我們結(jié)合了視覺(jué)和激光的方法。我們將環(huán)境分成許多網(wǎng)格,在每個(gè)網(wǎng)格點(diǎn)上使用視覺(jué)信息,但在點(diǎn)與點(diǎn)之間的行走方向上使用激光。然而,這需要進(jìn)行一些標(biāo)定和實(shí)驗(yàn)。盡管成功率并不是特別高,大約在60%到70%左右,但我認(rèn)為這樣的效果對(duì)于研究來(lái)說(shuō)是可以接受的,但在應(yīng)用方面還需要進(jìn)一步努力。
我認(rèn)為,現(xiàn)在有了更大的模型,將來(lái)在這方面可能會(huì)有更好的表現(xiàn)。在視覺(jué)語(yǔ)言導(dǎo)航方面,我對(duì)理論的了解一般,我們主要是借鑒其他團(tuán)隊(duì)的方法,并嘗試將其實(shí)際應(yīng)用。他們主要在仿真環(huán)境中進(jìn)行數(shù)據(jù)集測(cè)試,使用的都是大型模型。實(shí)際上,我們主要使用他們訓(xùn)練好的模型進(jìn)行部署。這是我的感覺(jué),同時(shí)也覺(jué)得隨著ChatGPT的發(fā)展,隨著模型規(guī)模的增大,機(jī)器人將能夠像人一樣通過(guò)經(jīng)驗(yàn)來(lái)穿越復(fù)雜環(huán)境。
我覺(jué)得這是有可能實(shí)現(xiàn)的,雖然我不確定現(xiàn)在是否已經(jīng)實(shí)現(xiàn)了,可能有一些專家可以給我們提供一些建議,這是我的觀點(diǎn)。同時(shí),我也認(rèn)識(shí)到,無(wú)論我們?cè)谏疃葘W(xué)習(xí)方面做得多好,實(shí)際上在避障和導(dǎo)航這樣的精確運(yùn)動(dòng)方面,深度學(xué)習(xí)的結(jié)果并不理想。因?yàn)樯疃葘W(xué)習(xí)更適合做意識(shí)形態(tài)判斷,而在精確場(chǎng)景中,感知傳感器仍然是關(guān)鍵。人類在穿越狹窄空間時(shí)并不需要精確的距離感,但是機(jī)器人通過(guò)激光傳感器可以準(zhǔn)確地測(cè)量與障礙物的距離。然后通過(guò)感知來(lái)完成穿越。人類則憑借經(jīng)驗(yàn)來(lái)穿越,不需要知道靠近障礙物的具體距離。
我認(rèn)為這也是因?yàn)槟P陀?xùn)練數(shù)據(jù)量的限制。所以,我們目前通常是結(jié)合感知和認(rèn)知來(lái)處理這些精確運(yùn)動(dòng)。此外,我認(rèn)為在機(jī)器人研究方面,任務(wù)級(jí)規(guī)劃給我們提供了很好的思路。以前我們主要研究路徑規(guī)劃和導(dǎo)航等相對(duì)簡(jiǎn)單的任務(wù),機(jī)器人在這方面做得很好,只要環(huán)境是固定的,機(jī)器人表現(xiàn)得很好。但是,當(dāng)環(huán)境復(fù)雜時(shí),問(wèn)題就比較棘手了。但是,現(xiàn)在隨著大量數(shù)據(jù)的可用性,機(jī)器人能夠更好地在復(fù)雜環(huán)境中切換任務(wù),并靈活調(diào)度執(zhí)行任務(wù)的場(chǎng)景。也許在一些復(fù)雜場(chǎng)景下,可以取得更好的結(jié)果。但是這需要大模型和大數(shù)據(jù)的支持。這只是我的一種認(rèn)識(shí),我們還沒(méi)有在這方面取得進(jìn)展,只是期待OpenAI等機(jī)構(gòu)在大模型的發(fā)展方面能夠帶來(lái)新的突破。
桑煜:感謝畢老師還有岳老師的精彩回答。有一種觀點(diǎn)認(rèn)為大模型壓縮了互聯(lián)網(wǎng)上的信息,壓縮信息、尋求信息高效表征的最終結(jié)果是產(chǎn)生了像人一樣的抽象理解和思維鏈能力。這個(gè)能力如果用得好,我相信機(jī)器人不用那么依靠精確的傳感器,而是用邊走邊看的方式進(jìn)行感知和導(dǎo)航,在corner case的處理上會(huì)有很大的進(jìn)步,也給我們場(chǎng)景端帶來(lái)了很大的想象空間。所以這個(gè)場(chǎng)景端的問(wèn)題拋給嚴(yán)總,你們現(xiàn)在聚焦在建筑場(chǎng)景,如果機(jī)器人+AGI的技術(shù)再往前走一步,你們現(xiàn)在遇到的哪些客戶的痛點(diǎn)需求,有可能是能夠有一個(gè)質(zhì)的變化去實(shí)現(xiàn)的?
嚴(yán)啟凡:是的,剛才你也提到了類似思維鏈的概念。實(shí)際上,我一直很難理解思維鏈?zhǔn)鞘裁础?duì)于人來(lái)說(shuō),思維鏈可能就是逐步將事情完成的一種邏輯思維過(guò)程?,F(xiàn)在我們認(rèn)為人工智能也有這種趨勢(shì),它也可以逐步進(jìn)行推理,當(dāng)然可能需要人類提供一些提示或所謂的步驟。所以我在思考,我還沒(méi)有弄清楚它是否是一個(gè)真正的思維鏈,還是只是類似于我們平常編程的一步一步操作。比如,如果我要寫一個(gè)算法,我會(huì)先列出數(shù)學(xué)公式,然后逐步進(jìn)行轉(zhuǎn)換成算法的步驟。
現(xiàn)在機(jī)器人面臨的一個(gè)問(wèn)題是,它的任務(wù)需要提前規(guī)劃。可能我們需要預(yù)先導(dǎo)入地圖生成路徑,并將整個(gè)規(guī)則告訴機(jī)器人,讓它按照規(guī)定執(zhí)行任務(wù)。比如,作為一個(gè)兼容機(jī)器人,我可以告訴它沿著墻壁順時(shí)針?lè)较蛲瓿墒┕?,并詢?wèn)它是否需要處理門窗等問(wèn)題。
這種交互方式可能比之前預(yù)先生成整個(gè)路徑進(jìn)行施工更加人性化,也更加方便和便捷。我認(rèn)為這是一個(gè)很好的方向,基于目前的情況,而且像感知、決策規(guī)劃、控制和驅(qū)動(dòng)等方面,人工智能在感知和控制角色上有著巨大的前景,令人興奮。但是在控制和驅(qū)動(dòng)方面,機(jī)器人還存在很大的差距。特別是機(jī)器人,因此我們對(duì)多模態(tài)模型感到興奮,因?yàn)槿绻幸惶焖娴膶⑿嵊X(jué)、觸覺(jué)等所有模態(tài)整合起來(lái),那將非常有趣,我們真正能夠像人一樣感知所有信息。不過(guò),這方面可能需要更長(zhǎng)的時(shí)間,我們也希望未來(lái)的發(fā)展能夠?qū)崿F(xiàn)這一目標(biāo)。因?yàn)檫@方面的數(shù)據(jù)收集并不像文本或圖像數(shù)據(jù)那樣容易,我可以在互聯(lián)網(wǎng)上輕松找到大量這樣的數(shù)據(jù),然后回來(lái)工作學(xué)習(xí)。所以對(duì)于機(jī)器人行業(yè)來(lái)說(shuō),實(shí)際落地可能會(huì)遇到可預(yù)見(jiàn)的可操作方向和困難。
桑煜:幾位嘉賓的從業(yè)經(jīng)歷中接觸過(guò)服務(wù)機(jī)器人、工業(yè)機(jī)器人和自動(dòng)駕駛等等。你們覺(jué)得會(huì)因?yàn)锳GI帶來(lái)哪些變化?有沒(méi)有一些新的場(chǎng)景、新的功能會(huì)出現(xiàn)?
岳玉濤:對(duì)于新場(chǎng)景,我個(gè)人最感興趣的是數(shù)字伴侶和數(shù)字永生。
之前有很多公司都做這類項(xiàng)目,但它的體驗(yàn)可能并不理想,現(xiàn)在大模型技術(shù)使得各種可能性變得很大。我覺(jué)得數(shù)字伴侶是滿足人們的剛性需求的一個(gè)方向?,F(xiàn)在技術(shù)上已經(jīng)可以做出一定程度的虛擬人物,或者像剛才嘉賓提到的一些文學(xué)作品中的角色,比如楊過(guò)等。
另外一個(gè)場(chǎng)景是數(shù)字永生,它涉及到智能、思維、記憶和意識(shí)的數(shù)字構(gòu)建和存續(xù)。這本來(lái)是個(gè)非??苹玫脑掝},最近我們組織了一個(gè)小圓桌討論,有來(lái)自人工智能、神經(jīng)科學(xué)、信息科學(xué)、物理學(xué)、哲學(xué)等不同領(lǐng)域的人參與,得出的初步結(jié)論是數(shù)字永生已經(jīng)到了可以在技術(shù)層面上嚴(yán)肅探討的程度。其中涉及到幾個(gè)非常有意思的方面,例如為什么這種場(chǎng)景現(xiàn)在實(shí)現(xiàn)的可能性變得更高了,這是因?yàn)槲覀儗?duì)人的智能和意識(shí)有了更深入的理解。人的大腦有860億個(gè)神經(jīng)元,它們之間存在連接。當(dāng)外部感官刺激進(jìn)入大腦時(shí),不同的區(qū)域會(huì)被激活,如果這些區(qū)域形成廣泛的交互,就會(huì)產(chǎn)生意識(shí)的體驗(yàn)。我們知道可以使用"系統(tǒng)1"和"系統(tǒng)2"來(lái)描述人的思維模式,系統(tǒng)1是一種簡(jiǎn)單的響應(yīng)模式,而系統(tǒng)2是一種基于結(jié)構(gòu)化知識(shí)的分析和邏輯推理模式。在機(jī)器學(xué)習(xí)層面上,如何實(shí)現(xiàn)類似“系統(tǒng)2”的智能,我個(gè)人認(rèn)為這是最具顛覆性和突破性的問(wèn)題,也是最難解決的問(wèn)題之一。
大模型通過(guò)從海量數(shù)據(jù)中構(gòu)建知識(shí)和知識(shí)之間的結(jié)構(gòu)來(lái)解決了這個(gè)問(wèn)題。如果你反過(guò)來(lái)問(wèn),為什么人會(huì)說(shuō)AI可以做一些事情但不理解這個(gè)詞的意思是什么?為什么會(huì)有理解和不理解之分?在心理學(xué)等領(lǐng)域有很多研究。我們觀察到在語(yǔ)言模型中,這種知識(shí)和知識(shí)性的結(jié)構(gòu)形成了一種層次化的理解能力。雖然具體的形成機(jī)理至今還是個(gè)謎,但現(xiàn)在已有若干證據(jù)和研究表明,代碼訓(xùn)練可能是大模型產(chǎn)生這種能力的過(guò)程,大模型中某個(gè)(或某些)特定的神經(jīng)元擔(dān)任特定的知識(shí)節(jié)點(diǎn)或推理功能。然而,如果我們真的進(jìn)入數(shù)字永生的場(chǎng)景,我認(rèn)為可能會(huì)面臨的幾個(gè)主要技術(shù)挑戰(zhàn):
一個(gè)是記憶,即如何提取已存在于大腦中的記憶信息,并將其轉(zhuǎn)化為模型的訓(xùn)練數(shù)據(jù)和輸入,這可能是一個(gè)較大的挑戰(zhàn)。
另一個(gè)是結(jié)合多模態(tài)實(shí)時(shí)感知的模型,比如把接收到的感知信息進(jìn)行壓縮、處理和抽象等可能問(wèn)題并不大,但不管是記憶信息還是實(shí)時(shí)感知信息,讓這個(gè)模型的行為表現(xiàn)在性格、習(xí)慣、思維方式及相應(yīng)的學(xué)習(xí)更新能力上與其原型真人高度吻合,是一個(gè)很大的挑戰(zhàn)。
第三個(gè)至于擬人化的意識(shí)體驗(yàn),即如果你是一個(gè)數(shù)字永生體,你可能會(huì)感覺(jué)自己仍然是自己,仍有意識(shí)體驗(yàn),只是某些方面的感覺(jué)可能會(huì)有所不同。我相信這種意識(shí)體驗(yàn)在技術(shù)上完全可以實(shí)現(xiàn)。
總之,這兩個(gè)場(chǎng)景,數(shù)字永生以及虛擬伴侶,是目前大模型應(yīng)用層面上最令我興奮的兩個(gè)點(diǎn)。
畢盛:在機(jī)器人領(lǐng)域,多模態(tài)的大型模型是一個(gè)熱門的話題。然而,在我們實(shí)驗(yàn)室進(jìn)行導(dǎo)航時(shí),我們面臨著較高的失敗率。我認(rèn)為,如果我們能夠進(jìn)一步豐富VR細(xì)分模型[7],無(wú)論是在實(shí)驗(yàn)室還是家庭等各種場(chǎng)景,我們都能夠?qū)崿F(xiàn)更好的導(dǎo)航效果。這對(duì)我來(lái)說(shuō)是一個(gè)非常有趣的點(diǎn),因此我認(rèn)為大型模型能夠使機(jī)器人更具靈活性,能夠更好地適應(yīng)復(fù)雜的生活環(huán)境,這一點(diǎn)非常重要。
另外,在工業(yè)機(jī)器人領(lǐng)域,以前需要對(duì)機(jī)器人進(jìn)行精確的標(biāo)定。例如,當(dāng)機(jī)器人需要抓取瓶子時(shí),它必須能夠正確識(shí)別并抓取瓶子。然而,如果機(jī)器人具有一定的意識(shí),對(duì)于服務(wù)方面,它需要更好地理解復(fù)雜的環(huán)境。舉個(gè)例子,如果一個(gè)瓶子中的水已經(jīng)被喝了一半,而我不在場(chǎng),機(jī)器人可能需要將瓶子扔進(jìn)垃圾箱。下次再有人需要使用時(shí),因?yàn)樗疀](méi)有被動(dòng)過(guò)或喝完,機(jī)器人可能會(huì)根據(jù)以往的經(jīng)驗(yàn)進(jìn)行相應(yīng)的處理。此外,這種情況不僅僅局限于水,將來(lái)可能還會(huì)出現(xiàn)其他類似的情況,比如櫻花茶、礦泉水等各種物品,機(jī)器人都能夠識(shí)別并正確處理。并且,在抓取機(jī)器人的位置時(shí),它知道如何將水放置在相應(yīng)的位置。我認(rèn)為這種情況類似于人類的行為。舉個(gè)例子,如果我來(lái)清理桌子,我可能會(huì)考慮將水放在哪里,可能沒(méi)有人告訴我,但基于以往的經(jīng)驗(yàn),我可以處理這個(gè)任務(wù)。
我認(rèn)為,如果機(jī)器人能夠?qū)崿F(xiàn)這種意識(shí),它將能夠更好地為人類提供服務(wù),而大型模型為這種可能性提供了支持。在工業(yè)領(lǐng)域,尤其是柔性裝配等需要靈活性的領(lǐng)域,機(jī)器人是不可或缺的。正如您所提到的,柔性裝配的標(biāo)定是一個(gè)挑戰(zhàn)。在這種情況下,機(jī)器人需要具備自適應(yīng)和個(gè)性化的能力。而服務(wù)場(chǎng)景更是如此,因?yàn)榉?wù)場(chǎng)景涉及與人的互動(dòng),因此具備千人千面的特性將得到充分發(fā)揮。此外,岳老師還提出了一個(gè)更高層次的問(wèn)題,即未來(lái)人類與機(jī)器人之間的人際關(guān)系,以及未來(lái)社會(huì)的發(fā)展方向。這個(gè)問(wèn)題在倫理層面上也值得我們深入探討。
桑煜:剛才大家也多次提到了數(shù)據(jù)的問(wèn)題,機(jī)器人數(shù)據(jù)應(yīng)該如何收集,收集哪些?。如果我們希望實(shí)現(xiàn)相對(duì)泛化的應(yīng)用場(chǎng)景,可能還需要跨越多個(gè)領(lǐng)域進(jìn)行數(shù)據(jù)收集,這并不容易。我想向大家請(qǐng)教一下,是否在工程和科研方面已經(jīng)出現(xiàn)了一些解決方案來(lái)應(yīng)對(duì)這些問(wèn)題。
岳玉濤:我有兩個(gè)觀點(diǎn)。首先,我認(rèn)為大模型實(shí)際上在很多情景下緩解了對(duì)數(shù)據(jù)的需求量。大模型的基礎(chǔ)層被稱為基座模型或基礎(chǔ)模型,它是一種跨模態(tài)預(yù)訓(xùn)練模型。通過(guò)將大量信息和知識(shí)嵌入到這個(gè)模型中,我們可以在此基礎(chǔ)上執(zhí)行特定的下游任務(wù),并滿足訓(xùn)練所需的數(shù)據(jù)和質(zhì)量要求。相比之下,如果基于這個(gè)基座模型來(lái)訓(xùn)練下游任務(wù),所需數(shù)據(jù)的規(guī)模和質(zhì)量要求可能會(huì)小得多。這是第一個(gè)觀點(diǎn)。
第二個(gè)觀點(diǎn)涉及數(shù)據(jù)方面的我們自己的體驗(yàn)。我們發(fā)現(xiàn)跨模態(tài)的問(wèn)題變得越來(lái)越清晰和重要。例如,我們可以進(jìn)行跨模態(tài)的標(biāo)注,并應(yīng)用一些數(shù)據(jù)增強(qiáng)技巧,以更好地使用這些數(shù)據(jù)并實(shí)現(xiàn)目標(biāo)。
似乎直到出現(xiàn)了基座模型和ChatGPT等技術(shù),大家才意識(shí)到不同模態(tài)之間的信息共性是如此強(qiáng)大。以GPT-4的非多模態(tài)版本為例,它是在所有訓(xùn)練數(shù)據(jù)都是文本和符號(hào)的情況下訓(xùn)練出來(lái)的,但可以執(zhí)行一些代碼段,繪制出圖形如獨(dú)角獸、房子和狗等。也就是說(shuō),在文本模態(tài)中,已經(jīng)蘊(yùn)含了相當(dāng)?shù)目臻g概念和幾何概念,實(shí)際上可以對(duì)應(yīng)到視覺(jué)模態(tài)或其他激光雷達(dá)等模態(tài)的信息。
因此,在某些情況下,例如對(duì)于難以采集或標(biāo)注的雷達(dá)數(shù)據(jù),我們可以進(jìn)行跨模態(tài)的標(biāo)注,比如利用視覺(jué)結(jié)果來(lái)標(biāo)注雷達(dá)數(shù)據(jù)。我認(rèn)為這種方法可以對(duì)數(shù)據(jù)起到一定的幫助作用。
嚴(yán)啟凡:這個(gè)問(wèn)題涉及到我們?cè)诮ㄖI(lǐng)域中的管線。實(shí)際上,在施工環(huán)節(jié)中,這種場(chǎng)景的數(shù)據(jù)相對(duì)較少,因?yàn)榇蟛糠謹(jǐn)?shù)據(jù)可能是在家庭建設(shè)完成之后產(chǎn)生的。由于這個(gè)領(lǐng)域相對(duì)較小眾,我們可能需要自己進(jìn)行一些詳細(xì)的標(biāo)注和采集工作。然而,我剛剛聽(tīng)到岳老師提到的一點(diǎn),大模型的基座模型實(shí)際上減少了對(duì)數(shù)據(jù)標(biāo)注的需求量。因此,我們可以利用更多的小樣本來(lái)實(shí)現(xiàn)這一點(diǎn),因?yàn)橐恍┲R(shí)結(jié)構(gòu)已經(jīng)存儲(chǔ)在基座模型中,包括遷移的方式。我們可以結(jié)合大模型的基座模型來(lái)實(shí)現(xiàn)特定的小眾場(chǎng)景數(shù)據(jù),并減少對(duì)數(shù)據(jù)的需求量。
我認(rèn)為這對(duì)我們來(lái)說(shuō)是非常有意義的,因?yàn)槲覀兡壳按_實(shí)面臨這樣一個(gè)問(wèn)題,我們作為一家小公司,無(wú)法承擔(dān)如此高昂的成本來(lái)獲取豐富的場(chǎng)景數(shù)據(jù),而大模型的基座模型對(duì)我們來(lái)說(shuō)確實(shí)是一件非常有意義的事情。
第二個(gè)問(wèn)題是關(guān)于仿真。我個(gè)人認(rèn)為,仿真現(xiàn)在應(yīng)該能夠解決百分之八九十的問(wèn)題,但要做到精細(xì)保證的成本非常高。所以,并不是說(shuō)我們無(wú)法實(shí)現(xiàn)1比1的數(shù)字仿真,而是成本太高了。在實(shí)際場(chǎng)景中,我的車輪可能會(huì)打滑,受到光線干擾等等。但是,要精確建模這樣的場(chǎng)景并保證細(xì)節(jié),代價(jià)很高,或許可以考慮大模型是否能提供一些解決方案。因?yàn)槲疫€沒(méi)有仔細(xì)思考過(guò),所以還需要進(jìn)一步探討。
桑煜:嚴(yán)總的回答也體現(xiàn)出了機(jī)器人公司在應(yīng)用場(chǎng)景落地的一些商業(yè)思考,考慮成本,考慮怎樣是整體優(yōu)化的解決方案。我接著引出下一個(gè)相關(guān)的問(wèn)題,機(jī)器人很多時(shí)候?qū)﹃P(guān)鍵任務(wù)上的延時(shí)要求非常低,這其實(shí)跟大模型的本身會(huì)有一些沖突,大模型大在參數(shù)量,需要用更多的內(nèi)存、更強(qiáng)的算力,往往不符合機(jī)器人應(yīng)用的低功耗原則。這也是機(jī)器人+AGI落地的一個(gè)難點(diǎn)。請(qǐng)教一下大家看到了哪些技術(shù)上、工程實(shí)踐上的解決方法。
嚴(yán)啟凡:我先討論一下最傳統(tǒng)的做法。至于如何使用大模型來(lái)解決這個(gè)問(wèn)題,或許我等一下可以聽(tīng)聽(tīng)兩位老師的看法。在傳統(tǒng)的機(jī)器人系統(tǒng)中,我們也面臨實(shí)時(shí)性和計(jì)算能力的要求。實(shí)際上,這個(gè)系統(tǒng)是分層的。剛才也提到了在機(jī)器人系統(tǒng)中,基本上可以從感知、決策、規(guī)劃、控制和驅(qū)動(dòng)等幾個(gè)大方向進(jìn)行分析。
對(duì)于控制和驅(qū)動(dòng)方面,它對(duì)實(shí)時(shí)性的要求比較高,而對(duì)于規(guī)劃方面的要求則相對(duì)較低,只需一些嵌入式的系統(tǒng)就可以實(shí)現(xiàn)。因此,在操作時(shí),我們基本上會(huì)對(duì)這兩個(gè)方面進(jìn)行分離。
對(duì)于實(shí)時(shí)性要求較高的部分,我們會(huì)賦予其在實(shí)時(shí)核心上運(yùn)行的權(quán)限,無(wú)論是從硬件架構(gòu)還是軟件架構(gòu)上都會(huì)進(jìn)行分層。而對(duì)于感知方面,其規(guī)劃要求并不高,它可能會(huì)運(yùn)行在更高計(jì)算能力的架構(gòu)上,以彌補(bǔ)這種分層的趨勢(shì)。但未來(lái)如果真的想將大模型的能力賦予機(jī)器人系統(tǒng),可能還需要依靠從事基礎(chǔ)工作的研究人員,他們可以壓縮模型、進(jìn)行量化處理,或者減小模型的體積,使其能夠在本地端或云端運(yùn)行,同時(shí)確保帶寬足夠大。這可能需要研究云基礎(chǔ)設(shè)施或模型基礎(chǔ)設(shè)施兩個(gè)層面的人員來(lái)考慮。我們希望能夠坐享其成,只需使用一下即可。
畢盛:近年來(lái)邊緣計(jì)算在技術(shù)領(lǐng)域備受關(guān)注,人們希望將邊緣計(jì)算應(yīng)用于機(jī)器人。在過(guò)去的十年中,我們主要在手機(jī)處理器單元(MPU)層面上進(jìn)行邊緣計(jì)算的開(kāi)發(fā),涉及了許多模型部署,例如活動(dòng)檢測(cè)、Lite等。而近年來(lái),我們開(kāi)始在單片機(jī)上進(jìn)行深度學(xué)習(xí)研究,我也在一個(gè)小型的單片機(jī)上運(yùn)行了一個(gè)較小的深度學(xué)習(xí)模型。然而,我認(rèn)為這些深度學(xué)習(xí)模型應(yīng)該是相對(duì)較小的。過(guò)去,我們?cè)贛PU層面上的開(kāi)發(fā)主要是基于移動(dòng)網(wǎng)絡(luò),例如谷歌的MobileNet等框架。國(guó)內(nèi)的一些公司也在進(jìn)行類似的工作,這是七八年前的事情了?,F(xiàn)在,我們有了MCUNITE這樣的技術(shù),他們實(shí)現(xiàn)了很多數(shù)學(xué)化和理論化的抽象,以提取關(guān)鍵內(nèi)容并實(shí)現(xiàn)稀疏性搜索。他們?cè)趬嚎s裁剪和剪輯MCU相關(guān)網(wǎng)絡(luò)方面有很多數(shù)學(xué)知識(shí)。由于我們也使用了一些現(xiàn)成的網(wǎng)絡(luò)模型,所以在機(jī)器人端,我們首先從計(jì)算端開(kāi)始,從單片機(jī)到MPU,再到云端加速卡,都有計(jì)算的解決方案。
實(shí)際上,我們有計(jì)算方案,但關(guān)鍵是在機(jī)器人端,可能需要進(jìn)行一些切分。正如嚴(yán)總剛才提到的,我們?cè)谶\(yùn)動(dòng)過(guò)程中使用單片機(jī)進(jìn)行基層開(kāi)發(fā),甚至使用實(shí)時(shí)操作系統(tǒng),如主ITS等。在控制機(jī)器人運(yùn)動(dòng)時(shí),我們需要確保任務(wù)切換的延遲在七八毫秒內(nèi),這樣才不會(huì)出現(xiàn)問(wèn)題。因此,我們將一些角色層面的功能放在應(yīng)用層上,就像剛才嚴(yán)總所說(shuō)的那樣,感知和認(rèn)知都在利用CPU,但操作系統(tǒng)層面上的虛擬地址管理單元(MMU)和內(nèi)存管理單元(MIU)并不理想。以前有一些實(shí)時(shí)操作系統(tǒng),如Webworks,但使用起來(lái)成本較高,對(duì)我們來(lái)說(shuō)是個(gè)挑戰(zhàn)。以前的工業(yè)機(jī)器人通常使用這種系統(tǒng),可以實(shí)現(xiàn)工業(yè)實(shí)時(shí)控制,但現(xiàn)在單片機(jī)的頻率已經(jīng)提高到700兆赫茲、800兆赫茲甚至878百兆赫茲。所以沒(méi)有必要再使用那種操作系統(tǒng)了,我們可以直接采用較小規(guī)模的Preempt-RT系統(tǒng)。然后在決策層面上,即開(kāi)發(fā)層面,包括決策和感知認(rèn)知,雖然在應(yīng)用層面上有一些不足,但實(shí)際上也可以實(shí)現(xiàn)一定程度的邊緣計(jì)算需求。
當(dāng)然,我認(rèn)為需要進(jìn)行一定的切分。例如,對(duì)于大型模型,即使進(jìn)行了壓縮,要在真正的MPU層面上運(yùn)行仍然非常困難。因此,如果你是處理超大型模型,可能還需要考慮邊緣端和云端的劃分。在機(jī)器人任務(wù)中,例如在機(jī)器人導(dǎo)航過(guò)程中,我建議無(wú)論模型大小如何,都讓它在邊緣端進(jìn)行運(yùn)算。不要將邊緣計(jì)算與云端協(xié)同,因?yàn)槿绻W(wǎng)絡(luò)中斷,機(jī)器人將無(wú)法工作。
但是在一些角色指導(dǎo)方面,例如在機(jī)器人導(dǎo)航過(guò)程中,他可能需要意識(shí)到環(huán)境的某些變化,我認(rèn)為在這種情況下可以與云端進(jìn)行通信。例如,當(dāng)環(huán)境發(fā)生變化時(shí),可以使用大型模型進(jìn)行環(huán)境識(shí)別,然后根據(jù)不同的環(huán)境切換導(dǎo)航方法。因?yàn)槲艺J(rèn)為不同環(huán)境下的導(dǎo)航方法是不同的,特別是對(duì)于非常深的走廊場(chǎng)景。
在這種情況下,使用激光定位可能不太適合,而應(yīng)該使用回環(huán)檢測(cè),讓機(jī)器人能夠知道自己是否在原地。我認(rèn)為環(huán)境感知是一個(gè)很復(fù)雜的問(wèn)題,但根本上不需要進(jìn)行定位,只需向前運(yùn)動(dòng)即可,進(jìn)行相對(duì)定位,沿著墻壁前進(jìn)。但是當(dāng)機(jī)器人離開(kāi)該環(huán)境并進(jìn)入另一個(gè)環(huán)境時(shí),它可能需要切換任務(wù)。那么,如何認(rèn)知環(huán)境的變化呢?在這種情況下,可能需要與云端進(jìn)行通信,使用大型模型進(jìn)行環(huán)境感知。因此,我認(rèn)為在機(jī)器人導(dǎo)航過(guò)程中,不要切分導(dǎo)航過(guò)程本身,這時(shí)候應(yīng)該進(jìn)行邊緣計(jì)算。但是在切換環(huán)境時(shí),應(yīng)該轉(zhuǎn)向云端計(jì)算,所以需要有一種結(jié)合的方式。這是我個(gè)人的觀點(diǎn),我認(rèn)為這個(gè)領(lǐng)域還有很多挑戰(zhàn)等待解決。
岳玉濤:我可以分享一點(diǎn)關(guān)于神經(jīng)網(wǎng)絡(luò)剪裁和輕量化的觀點(diǎn)和實(shí)踐經(jīng)驗(yàn)。請(qǐng)?jiān)O(shè)想我手中拿著一個(gè)球,并將其扔出去,球落到某個(gè)地方。球的軌跡可能是非常復(fù)雜的,需要大量的數(shù)據(jù)和坐標(biāo)來(lái)描述,尤其是從古代人的角度來(lái)看,他們不知道這種軌跡,需要使用復(fù)雜的坐標(biāo)系統(tǒng)。然而,現(xiàn)在我們知道了牛頓的第二定律——F=ma(力等于質(zhì)量乘以加速度),這個(gè)簡(jiǎn)潔的公式足以非常精確地描述整個(gè)軌跡。這表明在很多情況下,簡(jiǎn)約性是存在的,即使用很少的元素就能夠描述復(fù)雜的現(xiàn)象。這個(gè)原理在神經(jīng)網(wǎng)絡(luò)中得到了證實(shí),傳統(tǒng)的許多網(wǎng)絡(luò)具有很高的稀疏性。
舉個(gè)例子,假設(shè)我們有一個(gè)準(zhǔn)確率為95%的模型,該模型有100萬(wàn)個(gè)參數(shù)。通過(guò)剪裁,我們可以剩下5萬(wàn)個(gè)參數(shù),甚至在某些情況下,只剩下1萬(wàn)個(gè)參數(shù),然后再執(zhí)行同樣的任務(wù),準(zhǔn)確率可能只降低1到2個(gè)百分點(diǎn)。也就是說(shuō),即使剪去了大部分參數(shù),模型仍然可以基本上執(zhí)行原始任務(wù)。在這個(gè)過(guò)程中,一個(gè)關(guān)鍵的問(wèn)題是如何進(jìn)行剪裁,即選擇哪些節(jié)點(diǎn)和層進(jìn)行剪裁。在這個(gè)過(guò)程中,我們需要找出哪些節(jié)點(diǎn)能夠保持原有的特性和能力。這方面的方法非常多樣,但有時(shí)候其實(shí)非常簡(jiǎn)單的隨機(jī)剪枝這種方法反而效果更好。
在我們的探索中,我們采用了一種稱為量化因果的方法。通過(guò)量化從一個(gè)節(jié)點(diǎn)傳遞到下一個(gè)節(jié)點(diǎn)的因果關(guān)系,在執(zhí)行矩陣乘法和其他運(yùn)算的過(guò)程中,如果因果關(guān)系比較強(qiáng),我們就保留該節(jié)點(diǎn);如果因果關(guān)系比較弱,我們就剪裁掉該節(jié)點(diǎn)。這種因果關(guān)系是可計(jì)算的,可以用信息領(lǐng)域的方式進(jìn)行度量。根據(jù)這個(gè)依據(jù)進(jìn)行剪裁時(shí),我們發(fā)現(xiàn)在許多場(chǎng)景下,這種方法優(yōu)于其他剪裁方法,尤其是,這種方法具有很大的魯棒性,可以適用于各種不同的網(wǎng)絡(luò)。之前的情況可能是某種剪裁方法適用于某個(gè)網(wǎng)絡(luò),另一種剪裁方法適用于另一個(gè)網(wǎng)絡(luò),但我們的實(shí)踐表明量化因果的方法可以適用于多種不同的網(wǎng)絡(luò)。以上是我們自己進(jìn)行的一些小實(shí)踐,希望能對(duì)您有所啟發(fā)。
桑煜: 剛剛我們討論了很多關(guān)于嚴(yán)肅場(chǎng)景和技術(shù)的問(wèn)題,接下來(lái)這個(gè)問(wèn)題更偏向于人類社會(huì)的終極暢想。通用智能的機(jī)器人是否會(huì)出現(xiàn),需要多長(zhǎng)時(shí)間?目前,人與機(jī)器的相處方式相對(duì)和諧,但有一天,是否會(huì)出現(xiàn)像《黑客帝國(guó)》中機(jī)器人與人類對(duì)立的情況?
嚴(yán)啟凡:我認(rèn)為這個(gè)過(guò)程實(shí)際上是相當(dāng)遙遠(yuǎn)的。正如我之前所提到的,目前在文本和圖像等領(lǐng)域,我們已經(jīng)取得了突破,但在例如嗅覺(jué)以及其他更多的多維、多模態(tài)方面,我們還沒(méi)有看到明確的發(fā)展路徑。
另一方面是關(guān)于能源消耗的問(wèn)題。機(jī)器人顯然可以比人類更強(qiáng)壯、更有益,具有更大的能量。如果我們能夠?qū)崿F(xiàn)可控核聚變,這種能量是可以實(shí)現(xiàn)的。然而,在計(jì)算能力方面,大家應(yīng)該也都聽(tīng)說(shuō)過(guò),人腦只有約10瓦的功率,可能每天吃一碗飯的能量就足夠滿足它的需求。但是如果要處理大型模型的大量海量信息,實(shí)際上就會(huì)面臨一種奇怪的狀態(tài)。
因此,我一直認(rèn)為神經(jīng)網(wǎng)絡(luò)只是一個(gè)網(wǎng)絡(luò),我不知道它與真實(shí)的神經(jīng)系統(tǒng)有什么關(guān)系。人腦的神經(jīng)似乎具有自己獨(dú)特的工作機(jī)制,不能僅僅依靠一些簡(jiǎn)單的梯度算法或類似方法來(lái)實(shí)現(xiàn)這樣的網(wǎng)絡(luò)。所以,對(duì)于這個(gè)問(wèn)題,我覺(jué)得它還是相當(dāng)遙遠(yuǎn)的。這就是我的看法。
畢盛:我個(gè)人認(rèn)為,在設(shè)計(jì)機(jī)器人時(shí),我們有機(jī)器人的三大定律,其中第一條定律規(guī)定機(jī)器人不能傷害人類,機(jī)器人必須聽(tīng)從人類的指令,而第二條定律則約束機(jī)器人必須保護(hù)自己,除非這種保護(hù)與第一條定律產(chǎn)生沖突。然而,我不確定這些定律是否真正能夠限制機(jī)器人的行為,也無(wú)法確定其能否完全約束機(jī)器人。
目前人工智能的發(fā)展確實(shí)很迅速,盡管我并不從事人工智能的前沿研究,很難對(duì)其進(jìn)行準(zhǔn)確評(píng)估。一些權(quán)威機(jī)構(gòu)和一些頂尖人士,如OpenAI的專家們,提出了一些關(guān)于人工智能的危險(xiǎn)性的觀點(diǎn)。但是我們也無(wú)法進(jìn)行準(zhǔn)確評(píng)估,就我個(gè)人而言,對(duì)于像嚴(yán)總所持的觀點(diǎn),認(rèn)為人工智能沒(méi)有機(jī)器人那樣的智能,我覺(jué)得有些草率。然而,在人工智能領(lǐng)域,我們也無(wú)法準(zhǔn)確評(píng)估其發(fā)展到何種水平。
我認(rèn)為,隨著大型模型的應(yīng)用,我們將能看到機(jī)器人在不同層面上發(fā)揮其功能。對(duì)于這種情況,我個(gè)人無(wú)法給出確切的確定性,只是覺(jué)得人工智能能夠幫助人類更好地生活,這已經(jīng)是很好的了不是嗎?
岳玉濤:談到機(jī)器人的三大定律以及能否控制機(jī)器人的問(wèn)題,我認(rèn)為無(wú)法控制機(jī)器人,這是因?yàn)榇嬖谝粋€(gè)基礎(chǔ)概念,即計(jì)算不可約性。當(dāng)一個(gè)系統(tǒng)的復(fù)雜性超過(guò)一定程度時(shí),總會(huì)存在一些狀態(tài),超出計(jì)算能力的范圍,即無(wú)法涵蓋的狀態(tài)。因此,對(duì)于這個(gè)問(wèn)題,我個(gè)人認(rèn)為無(wú)法控制機(jī)器人。
關(guān)于??偺岢龅膯?wèn)題,就像科幻作品中的機(jī)器人一樣,我個(gè)人預(yù)測(cè)實(shí)現(xiàn)機(jī)器人的時(shí)間期望值是20年,標(biāo)準(zhǔn)差是10年,大致范圍是10至30年。為什么會(huì)這樣呢?有些人認(rèn)為進(jìn)展很快,尤其是大型模型已經(jīng)非常強(qiáng)大,但也有些人持悲觀態(tài)度,認(rèn)為還有許多問(wèn)題沒(méi)有解決。我相對(duì)而言比較中立,認(rèn)為大型模型未來(lái)的發(fā)展面臨三個(gè)半關(guān)鍵問(wèn)題需要解決。
首先是多模態(tài)感知和物理世界的交互閉環(huán)能力。雖然GPT4已經(jīng)有了多模態(tài)版本,但具體的效果如何,我們目前還沒(méi)有明確的了解。況且,目前的大模型突破仍限于信息世界的模態(tài)。我認(rèn)為,一旦多模態(tài)感知與物理世界發(fā)生交互,實(shí)際上這個(gè)挑戰(zhàn)是相當(dāng)大的。解決這個(gè)問(wèn)題可能需要更長(zhǎng)的時(shí)間,而不是三五年的時(shí)間。這是第一個(gè)問(wèn)題。
第二個(gè)問(wèn)題是任意多步邏輯推理。之前的舊版本如GPT-3幾乎沒(méi)有邏輯推理能力。從去年11月30日發(fā)布的版本開(kāi)始,邏輯推理在兩三步以內(nèi)的準(zhǔn)確率很高,但超過(guò)兩三步、四五步后,錯(cuò)誤率就顯著增加。到了GPT-4版本后,它在五六步、七八步的獨(dú)立推理方面的準(zhǔn)確率還是相當(dāng)高的,但再?gòu)?fù)雜一些就無(wú)法處理了。這其中存在一些底層的限制和問(wèn)題導(dǎo)致了這種現(xiàn)象的出現(xiàn)。
例如,自回歸的方式和逐個(gè)生成令牌的方式限制了它的復(fù)雜邏輯推理能力,或者稱為任意多步邏輯推理能力。就像人類解數(shù)學(xué)題一樣,個(gè)人也會(huì)犯錯(cuò),但人類有一套邏輯推理體系,可以進(jìn)行反向檢驗(yàn)和相互校驗(yàn),建立了現(xiàn)在這樣高水平的科學(xué)技術(shù)體系,這些都建立在嚴(yán)密的邏輯推理之上。如此復(fù)雜的體系,人類可以建立起來(lái),但GPT尚未達(dá)到這個(gè)程度。
第三個(gè)問(wèn)題是自主訓(xùn)練和自主學(xué)習(xí)。目前的訓(xùn)練方式是針對(duì)一個(gè)版本進(jìn)行訓(xùn)練,然后將其固定下來(lái)。它只能在輸入的令牌集合內(nèi)具有類似于短時(shí)工作記憶的能力,有一些靈活性。但實(shí)際上它無(wú)法自我更新,除非人為地使用新的數(shù)據(jù)集進(jìn)行再次訓(xùn)練。而人類可以在觀察和學(xué)習(xí)的過(guò)程中不斷更新大腦中神經(jīng)元之間的連接權(quán)重,這是同時(shí)進(jìn)行的。與我們現(xiàn)在的GPT訓(xùn)練方式基于反向傳播的梯度計(jì)算來(lái)更新不同,人類大腦沒(méi)有反向傳播。所以,這是第三個(gè)限制,即自主更新學(xué)習(xí)。
最后,還有半個(gè)問(wèn)題是意識(shí)的問(wèn)題。有人認(rèn)為它是一個(gè)終極難題,但我個(gè)人覺(jué)得它只能算是半個(gè)問(wèn)題。更多的問(wèn)題反倒在對(duì)“意識(shí)”這個(gè)概念的定義和理解的模糊性上。如果我們將意識(shí)所表現(xiàn)出的各種行為以及意識(shí)機(jī)制中的幾個(gè)構(gòu)成要素拆解開(kāi)來(lái)看,我認(rèn)為現(xiàn)有的技術(shù)就幾乎已經(jīng)能夠完整構(gòu)建出來(lái)。
因此,如果我們解決這三個(gè)半問(wèn)題,我認(rèn)為可能需要幾十年的時(shí)間,而不是幾年。同時(shí),我對(duì)技術(shù)方面持樂(lè)觀態(tài)度,相信這些問(wèn)題都會(huì)被解決,雖然可能需要相當(dāng)長(zhǎng)的時(shí)間。當(dāng)那種特別牛的智能體出現(xiàn)時(shí),它是否會(huì)威脅到人類、是否能夠約束它,這是一個(gè)更為深入的話題,可能需要更長(zhǎng)的時(shí)間來(lái)探討。