性欧美老肥妇喷水,熟女高潮久久久久久久1f,无码人妻精品中文字幕免费东京热,午夜人妻久久久久久久久

當(dāng)前位置:首頁(yè) > 今日熱點(diǎn) > 熱點(diǎn)追蹤 > 正文

“百模大戰(zhàn)”愈演愈烈,我們真的需要這么多大模型嗎?_每日消息

2023-05-09 08:46:14    來(lái)源:騰訊科技    

“百模大戰(zhàn)”愈演愈烈,互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司、甚至科研機(jī)構(gòu),都在過(guò)去的2-3個(gè)月內(nèi)推出了大模型。為何似乎短短時(shí)間內(nèi),幾乎所有的科技公司都對(duì)“大模型”摩拳擦掌?所有的生意真的都值得用AI重做一遍嗎?在AI重塑商業(yè)的過(guò)程中,大模型的意義究竟是什么?我們真的需要這么多大模型嗎?究竟有沒(méi)有標(biāo)準(zhǔn)可以評(píng)判大模型的優(yōu)劣?未來(lái),我們究竟應(yīng)該如何駕馭大模型?

帶著這些有關(guān)大模型的關(guān)鍵問(wèn)題,騰訊科技邀請(qǐng)了兩位在NLP領(lǐng)域有幾十年研究經(jīng)驗(yàn)、并具有產(chǎn)業(yè)經(jīng)驗(yàn)的專(zhuān)家:MoPaaS 魔泊云創(chuàng)始人、CEO魯為民博士,多語(yǔ)言多領(lǐng)域自然語(yǔ)言處理(NLP)資深架構(gòu)師、Trend首席科學(xué)家李維博士,用了將近兩個(gè)小時(shí)的時(shí)間,試圖討論并解決以上問(wèn)題。雖然有些問(wèn)題目前可能沒(méi)有唯一答案,但是我們可以找到某些啟發(fā)或探究路徑。本文將內(nèi)容精華完整梳理。文章較長(zhǎng),但值得收藏閱讀。

編輯:郭曉靜、秦昊陽(yáng)


(資料圖)

一、“百模大戰(zhàn)”,是未來(lái)商業(yè)版圖必爭(zhēng)之地還是新的紅海競(jìng)爭(zhēng)?

1、“百模大戰(zhàn)”進(jìn)行中,那我們到底如何去評(píng)判一個(gè)大模型?目前有沒(méi)有公認(rèn)的標(biāo)準(zhǔn),能評(píng)價(jià)大模型的性能優(yōu)劣?

李維:這其實(shí)是一個(gè)很大的問(wèn)題。大模型與上一代AI的“單任務(wù)模型”不同,單任務(wù)模型通常有公認(rèn)的數(shù)據(jù)集作為黃金標(biāo)準(zhǔn),用于測(cè)試系統(tǒng)的優(yōu)劣并排名高低。對(duì)于大模型來(lái)說(shuō),評(píng)測(cè)提出了新的挑戰(zhàn)。因?yàn)榇竽P褪嵌嗳蝿?wù)的,任務(wù)其實(shí)是開(kāi)放式的,難以預(yù)先定義,具體任務(wù)常常由應(yīng)用場(chǎng)景而定。結(jié)果就是,數(shù)據(jù)質(zhì)量的測(cè)試既繁重,也難以全面。

在這種情況下,如何評(píng)價(jià)大模型的好壞?客觀地說(shuō),其實(shí)目前為止并沒(méi)有真正的公認(rèn)的客觀評(píng)判標(biāo)準(zhǔn)和方法。隨著時(shí)間推移,AI共同體也許會(huì)凝聚共識(shí),逐漸形成一些核心功能的評(píng)測(cè)方案。

但是,做大模型的團(tuán)隊(duì),在開(kāi)發(fā)過(guò)程中需要合適的質(zhì)量監(jiān)控(Quality Assurance,QA)指標(biāo)來(lái)幫助糾正航向。像大模型這樣需要高算力和巨大資源耗費(fèi)的工程,如果沒(méi)有一個(gè)好的QA團(tuán)隊(duì)來(lái)幫助,很可能會(huì)走偏。等你開(kāi)始意識(shí)到走偏的時(shí)候,已經(jīng)花費(fèi)數(shù)月的時(shí)間,而你的競(jìng)爭(zhēng)對(duì)手可能已經(jīng)領(lǐng)先。從這個(gè)角度來(lái)看,QA非常重要,但如何做好QA,目前來(lái)說(shuō)都還是各自在摸索。

回顧一下Open AI 的做法。GPT-3開(kāi)源的時(shí)候,Open AI發(fā)的報(bào)告用了很長(zhǎng)的篇幅展示測(cè)試結(jié)果,用的是NLP領(lǐng)域中以前定義過(guò)的各項(xiàng)任務(wù)(大約20-30種)測(cè)試這個(gè)大模型,比如Sentiment Analysis,Name Entity Tagging,Open Question Answer,等。測(cè)試之后發(fā)現(xiàn)ChatGPT的的NLP多任務(wù)的綜合表現(xiàn)都還不錯(cuò)。這是大模型測(cè)試發(fā)展的第一階段。

后來(lái)進(jìn)入第二階段,面對(duì)更廣闊的前景,如何測(cè)試大模型?Open AI從GPT3.5到GPT4,開(kāi)始把考核人的專(zhuān)業(yè)知識(shí)的測(cè)試拿出來(lái)測(cè)試大模型。中小學(xué)的各科考試,大學(xué)生的入學(xué)考試,研究生的考試,最后到職業(yè)考核,例如律師資格考試、醫(yī)生資格考試等,都用來(lái)測(cè)試,看看大模型表現(xiàn)怎么樣。這個(gè)從道理上來(lái)說(shuō)是更高級(jí)的,比上一階段的測(cè)試更加全面、更加實(shí)用,因?yàn)槲覀內(nèi)司褪沁@么考過(guò)來(lái)的。但這樣做工作量巨大。比如在GPT-4發(fā)布時(shí),微軟已經(jīng)投入大半年的時(shí)間和幾十人的團(tuán)隊(duì)來(lái)測(cè)試它,證明它比GPT-3提升了一大步,例如,律師資格從GPT3的不及格,到 GPT4 的優(yōu)異表現(xiàn)(位居人類(lèi)律師考試成績(jī)的前10%)。

未來(lái)我們應(yīng)該如何評(píng)估大模型?如何對(duì)人類(lèi)的這些考試進(jìn)行排序?哪些考試是最核心、最有用的?或者有哪些優(yōu)先級(jí)的配置等等?這可能是一個(gè)需要我們進(jìn)一步討論探索的課題。究竟應(yīng)該如何客觀地評(píng)價(jià)大模型,如何在有限的時(shí)間和資源條件下做出客觀的評(píng)價(jià)并給出有用的反饋,讓數(shù)據(jù)團(tuán)隊(duì)更有針對(duì)性地準(zhǔn)備數(shù)據(jù),讓開(kāi)發(fā)團(tuán)隊(duì)不偏離方向,保障模型的健康迭代,這是大模型開(kāi)發(fā)者的共同挑戰(zhàn),還需要時(shí)間積累經(jīng)驗(yàn),形成基本的QA操作規(guī)范。

從另一個(gè)角度來(lái)看,現(xiàn)在所有聲稱(chēng)成為本行業(yè)第一的人其實(shí)都是有疑問(wèn)的,因?yàn)楦揪筒淮嬖诠餐臉?biāo)準(zhǔn),只能說(shuō)是勇氣可嘉。當(dāng)然,OpenAI除外,人家是先行者,是公認(rèn)的領(lǐng)跑者,他們的最新模型 GPT4 就是當(dāng)前大模型技術(shù)的天花板。對(duì)于所有其他的追隨者, 包括谷歌,目前來(lái)看還沒(méi)有清晰明了的標(biāo)準(zhǔn)來(lái)測(cè)量他們。中國(guó)有一句古話叫“文無(wú)第一”,多任務(wù)的開(kāi)放式大模型,基本是這樣的形態(tài)?,F(xiàn)在不管誰(shuí)自稱(chēng)第一,只能看成是營(yíng)銷(xiāo)而已。真正重要的是,你的模型不能太差。如果你的模型太差,就會(huì)被用戶(hù)自然淘汰。開(kāi)放以后,長(zhǎng)期無(wú)人問(wèn)津是危機(jī)的信號(hào)。只要你沒(méi)有被遺忘,你可能是第一,也可能是第二,不得而知,但你總可以說(shuō)是“最好之一”。

騰訊科技:大模型創(chuàng)業(yè)有哪些商業(yè)模式?我們到底需要多少大模型?

魯為民:首先,我們需要多少大型模型?這是一個(gè)值得思考的問(wèn)題,因?yàn)樗鋵?shí)有很多限制因素。

首先大模型的訓(xùn)練和運(yùn)行對(duì)算力等資源消耗很大,Midjourney 的 CEO David Holz 在一次訪談中提到,“如果有10億人都來(lái)使用大模型,現(xiàn)在地球上的算力是不夠的?!?我想他的話至少可以解讀為當(dāng)今算力資源有限,可能有資源滿足不了需求的時(shí)候。所以大家如果一窩蜂去做大模型而去競(jìng)爭(zhēng)資源,也可能會(huì)形成某種內(nèi)卷,即使不缺錢(qián)。

其次,做大模型的商用運(yùn)營(yíng),由于投資成本很高,需要足夠的回報(bào)來(lái)支撐大模型的持續(xù)運(yùn)營(yíng),比如大模型服務(wù)需要通過(guò)獲得一定規(guī)模的用戶(hù)來(lái)產(chǎn)生足夠的收入。只有好的產(chǎn)品才能吸引更多的客戶(hù)使用。但是,要保證模型產(chǎn)品和服務(wù)好用,需要足夠的人力和財(cái)力對(duì)大模型產(chǎn)品工程細(xì)節(jié)的打磨和對(duì)系統(tǒng)運(yùn)行的維護(hù)。我們說(shuō)大模型門(mén)檻高,不僅僅是說(shuō)它所需要的算力成本,也包括除去算力的其它成本和資源要求等。

所以需要多少大模型可能由市場(chǎng)決定比較好。

大模型衍生的商業(yè)模式可以從基礎(chǔ)、模型到應(yīng)用等層面考慮。就模型來(lái)說(shuō)我把它們大致分為兩類(lèi):一類(lèi)是模型作為服務(wù) (MaaS),比如,像 OpenAI、Anthropic、Midjourney和Stability AI 等專(zhuān)業(yè)公司提供大模型服務(wù),包括像 Whisper,、DALL E-2、Midjourney、Claude、ChatGPT 和 GPT-4 這樣的針對(duì)大眾消費(fèi)者的模型服務(wù),同時(shí)他們也可能提供相應(yīng)模型服務(wù)的 API 給開(kāi)發(fā)者或其它企業(yè)用戶(hù),可以讓更多的應(yīng)用場(chǎng)景可以接入大模型。

對(duì)于更多從業(yè)者來(lái)說(shuō),大模型層面的機(jī)會(huì)更多的是垂直領(lǐng)域模型和應(yīng)用,所以這一類(lèi)商業(yè)模式圍繞垂域應(yīng)用。一方面,我們可以圍繞大型模型(MaaS 或預(yù)訓(xùn)練模型)開(kāi)發(fā)一些垂域模型應(yīng)用。雖然大型模型很強(qiáng)大,但它實(shí)際上不可能在所有領(lǐng)域都達(dá)到最先進(jìn)的水平。在很多自然語(yǔ)言處理的任務(wù)上,通用大型模型即使與業(yè)界最先進(jìn)的小模型相比在性能可能還存在差距。在這種情況下,我們一方面可以通過(guò)大模型服務(wù)(像ChatGPT)提供的模型微調(diào)服務(wù)(通過(guò) APIs)或僅僅是有針對(duì)性的提示設(shè)計(jì),有機(jī)會(huì)獲得有競(jìng)爭(zhēng)力的垂域解決方案,這也是創(chuàng)業(yè)比較可行的方向。

另一方面,就是垂直領(lǐng)域?qū)I(yè)大模型在垂直領(lǐng)域的應(yīng)用,這類(lèi)應(yīng)用往往可能不需要處理多個(gè)任務(wù),也就就不需要上千億的參數(shù)規(guī)模。另外這類(lèi)場(chǎng)景往往需要將大模型適配后部署到相應(yīng)的私有化應(yīng)用場(chǎng)景。一部分原因是因?yàn)楝F(xiàn)在許多企業(yè)的一些垂域應(yīng)用需求對(duì)數(shù)據(jù)也有一定的安全要求,因此不適合使用公共的大模型服務(wù)。好消息是現(xiàn)在企業(yè)不需要從零開(kāi)始訓(xùn)練大模型,因?yàn)楝F(xiàn)在有很多合適的開(kāi)源預(yù)訓(xùn)練模型可以選擇,只需投入有限的算力,企業(yè)可以針對(duì)這些開(kāi)源的大型模型進(jìn)行場(chǎng)景適配部署。對(duì)于這類(lèi)大模型的規(guī)模以及企業(yè)內(nèi)部應(yīng)用的使用負(fù)載要求,運(yùn)行所需資源和成本是完全可控的。

將大模型適配到垂直專(zhuān)業(yè)場(chǎng)景的模式涉及到遷移學(xué)習(xí)。遷移學(xué)習(xí)為什么重要?它在不同場(chǎng)景的應(yīng)用中提供必要的泛化能力。比如預(yù)訓(xùn)練大模型使用不同的數(shù)據(jù)集,訓(xùn)練好一個(gè)大的模型它能涵蓋多個(gè)垂直領(lǐng)域任務(wù)。但是,我們新的目標(biāo)任務(wù)有可能不在預(yù)訓(xùn)練的大模型覆蓋范圍之內(nèi),那我們需要對(duì)它進(jìn)行適配遷移,來(lái)讓其覆蓋目標(biāo)垂域。

騰訊科技:中國(guó)目前有很多企業(yè)推出了大模型,但都與OpenAI有很大差距,在這個(gè)賽道,中國(guó)企業(yè)還有機(jī)會(huì)嗎?

李維:我認(rèn)為有機(jī)會(huì),首先,如果中國(guó)的IT產(chǎn)業(yè)要向前發(fā)展,建立大模型時(shí)代的新生態(tài),就不能長(zhǎng)期依賴(lài)國(guó)外的大模型提供商,因?yàn)樘峁┥痰目煽啃院瓦B續(xù)性就目前的國(guó)際形勢(shì)看是無(wú)法保障的。

第二,毫無(wú)疑問(wèn),美國(guó)是AI老大。有人說(shuō)中國(guó)的人工智能落后美國(guó)兩年,周明老師前幾天說(shuō)大概差距是三年。兩年也好,三年也好,總之差距是很明顯的。

但是,如果從另一個(gè)角度來(lái)看,我們知道,全世界沒(méi)有任何一個(gè)國(guó)家比中國(guó)更接近美國(guó)的技術(shù)水平,無(wú)論是人才、論文與專(zhuān)利、投資環(huán)境,還是國(guó)家的政策激勵(lì)和支持,還包括整個(gè)民眾對(duì)AI的意識(shí)(awareness)。如果要趕上或者逼近美國(guó),除中國(guó)以外沒(méi)有其他成規(guī)模的對(duì)手,包括深度學(xué)習(xí)的故鄉(xiāng)加拿大,也包括日本、歐洲等先進(jìn)國(guó)家,他們都無(wú)法與中國(guó)相比。中國(guó)人對(duì)于AI新技術(shù)的熱情和投入,全民從普通百姓到各路精英對(duì)于大模型的津津樂(lè)道,在全世界都是一道風(fēng)景。我們有理由相信中國(guó)的AI新時(shí)代會(huì)走在世界前列。

魯為民:我同意李維老師的說(shuō)法。中國(guó)的情況非常特殊,它擁有龐大的市場(chǎng)和海量的中文數(shù)據(jù),這些都是大模型發(fā)展的必要條件。因此,我們不應(yīng)該過(guò)于自卑,我們有理由自信,但同時(shí)也需要意識(shí)到距離感的存在。

從ChatGPT 到GPT-4的出現(xiàn),讓很多人應(yīng)接不暇,甚至感到恐慌,因?yàn)槿祟?lèi)還沒(méi)有準(zhǔn)備好應(yīng)對(duì)這樣一個(gè)新的物種,即大型AI模型。包括 Bengio 和 Musk等之內(nèi)的美國(guó)AI界、政界和企業(yè)界的重要人物都呼吁“停止研究GPT-4這樣級(jí)別的巨型人工智能至少半年”。為什么是半年?一開(kāi)始我們也不知道。但起草人之一 Tegmark 教授在最近一次采訪中表示,停止半年時(shí)間從國(guó)家之間技術(shù)競(jìng)爭(zhēng)的角度來(lái)說(shuō)比較安全,因?yàn)橹袊?guó)半年內(nèi)趕上美國(guó)的大模型技術(shù)的機(jī)會(huì)比較小。這個(gè)代表一部分西方 AI 專(zhuān)家對(duì)于中美在大模型 AI 差距上的看法,我們至少可以參考將這個(gè)半年作為中國(guó)和美國(guó)之間距離的下限。

當(dāng)然,還有各種其它的猜測(cè),但我們不必過(guò)于糾結(jié)于這些,只需要專(zhuān)注于自己的工作即可,因?yàn)榘l(fā)展大模型 AI 技術(shù)從企業(yè) AI 應(yīng)用到國(guó)家技術(shù)發(fā)展戰(zhàn)略等各個(gè)層面來(lái)看都是必要的。

騰訊科技:我們常講的人工智能發(fā)展的三要素,數(shù)據(jù)、算力和模型在AI發(fā)展中分別扮演著什么樣的角色?

李維:講到大模型的三大要素,其中算法就是模型,算力則包括硬件等工程力量,最后是數(shù)據(jù)。除此之外,還有人工智能的倫理學(xué)方面的研究以及其他邊緣方面的規(guī)范。但總體上,大模型本身的建設(shè)主要由這三大要素組成。

在OpenAI已經(jīng)證實(shí)了大模型的威力之后,說(shuō)明,這條路已經(jīng)走出來(lái)了,后來(lái)者趕上只是一個(gè)時(shí)間的問(wèn)題。從這三大要素來(lái)看,算法在大的層面上是學(xué)術(shù)界共享的,雖然在具體的實(shí)現(xiàn)中會(huì)有一些細(xì)節(jié)不同,但總體上,從國(guó)內(nèi)已經(jīng)經(jīng)歷過(guò)大模型研發(fā)的團(tuán)隊(duì)的報(bào)告來(lái)看,只要按照他們的路線走,大都搞定了語(yǔ)言模型的理解和生成能力,甚至也達(dá)到了篇章對(duì)話、思維鏈、多任務(wù)等重要指標(biāo)。因此,從算法方面來(lái)說(shuō),總體上來(lái)說(shuō)是可以追趕或者復(fù)制的。

算力方面可能會(huì)有一些硬件方面的限制,但目前看,據(jù)專(zhuān)家們說(shuō),它還不是最大的瓶頸。很多團(tuán)隊(duì)第一想到的就是算力和錢(qián),沒(méi)有錢(qián)買(mǎi)不了機(jī)器,根本拿不到進(jìn)入賽道的入場(chǎng)券。有了錢(qián),第二就是人才,有了人才就能搞定算法和工程。人才最好是過(guò)去幾年實(shí)實(shí)在在做過(guò)大模型的,最好是在大廠的大模型團(tuán)隊(duì)做過(guò),可以少繞彎路。很多團(tuán)隊(duì)忽略了第三條數(shù)據(jù)這件事兒。忽略的這一塊實(shí)際上可能是對(duì)整個(gè)模型影響最大的一塊。在以數(shù)據(jù)為中心(data-centric)的AI新時(shí)代,模型能不能出彩實(shí)際上主要是靠數(shù)據(jù)。前大模型時(shí)代,AI的主流是以模型為中心(model-centric)的單任務(wù)系統(tǒng),數(shù)據(jù)基本保持不變。新時(shí)代的系統(tǒng)研發(fā)迭代的特點(diǎn)是,算法基本保持恒定,而數(shù)據(jù)在不斷增強(qiáng)增大。而數(shù)據(jù)這一塊也是很難纏的一塊,最dirty的一塊,也是有很多魔鬼細(xì)節(jié)的一塊。

就拿Google和OpenAI對(duì)比,不管是從算力、算法,包括人力資源來(lái)看,Google的團(tuán)隊(duì)一點(diǎn)都不比OpenAI差,而且大模型最關(guān)鍵的基礎(chǔ) Transformer和基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)算法實(shí)際上是Google發(fā)明的,它有殺手锏一般的武器,結(jié)果是為他人做了嫁衣裳,讓OpenAI遠(yuǎn)遠(yuǎn)走在了前面。

怎么回事兒?感覺(jué)是OpenAI做了兩件事把Google甩在了后面。首先是大模型預(yù)訓(xùn)練后的supervised fine-tuning(SFT,監(jiān)督微調(diào)),主要是大模型訓(xùn)練出來(lái)以后先要做一個(gè)針對(duì)任務(wù)的監(jiān)督學(xué)習(xí),就是InstructGPT論文報(bào)告的工作,否則的話,按照大模型本身的特性,它的生成能力太強(qiáng)了,可以生成很多從大數(shù)據(jù)預(yù)訓(xùn)練所得到的可能的序列出來(lái)。而這些序列中,90% 對(duì)于人類(lèi)來(lái)說(shuō)既不是直接針對(duì)給定任務(wù)的,也沒(méi)有什么實(shí)質(zhì)價(jià)值,甚至是有害的。監(jiān)督學(xué)習(xí)要把90%以上我們?nèi)祟?lèi)不想看見(jiàn)、甚至有毒的那些東西壓下去,把10%能聽(tīng)懂人的語(yǔ)言指令去做任務(wù)的東西浮現(xiàn)上來(lái)。

這個(gè)工作是OpenAI首創(chuàng)的,然后Google他們開(kāi)始學(xué)習(xí),據(jù)說(shuō)基本達(dá)到了OpenAI的多任務(wù)水平,國(guó)內(nèi)相關(guān)的公司的這類(lèi)學(xué)習(xí)效果也不錯(cuò)。緊接著下面一個(gè)任務(wù),基于人類(lèi)反饋的強(qiáng)化訓(xùn)練,這一工作OpenAI做得非常仔細(xì),很多細(xì)節(jié)沒(méi)有人知道,而這些“魔鬼細(xì)節(jié)”有些是決定成敗的。

他們有個(gè)非常強(qiáng)大的數(shù)據(jù)團(tuán)隊(duì)。這些數(shù)據(jù)團(tuán)隊(duì)不僅僅是外包,用了肯尼亞的廉價(jià)勞工進(jìn)行數(shù)據(jù)標(biāo)注,它其實(shí)是把它的數(shù)據(jù)團(tuán)隊(duì)建設(shè)成為不同水平的hierarchy(層級(jí)),有些數(shù)據(jù)可以把它下放給廉價(jià)勞工去做,主要是那些需要數(shù)量大,而標(biāo)注要求簡(jiǎn)單明確的。也有從設(shè)計(jì)角度考慮的高等級(jí)的數(shù)據(jù),需要高素質(zhì)的標(biāo)記人員,不少是訓(xùn)練有素的博士。這里面蘊(yùn)含了很多非常有效的探索,而目前沒(méi)有任何一個(gè)團(tuán)隊(duì)在數(shù)據(jù)工作方面能與它匹敵,not even close。

二、如何“駕馭”大模型的超能力

騰訊科技:“大力出奇跡”的大模型,會(huì)有哪些特殊“超能力”?現(xiàn)在如何駕馭這些超能力?

魯為民:大模型的“大”是指其規(guī)模,具體表現(xiàn)為其參數(shù)數(shù)量的多少。由于大模型需要存儲(chǔ)大量的知識(shí),因此需要更多的神經(jīng)元來(lái)存儲(chǔ)這些信息,因此參數(shù)的數(shù)量大是必要的條件。但是,僅僅參數(shù)數(shù)量大并不足以支撐強(qiáng)大的多任務(wù)能力,必須要有足夠大的數(shù)據(jù)集來(lái)支持規(guī)模化的模型的訓(xùn)練和學(xué)習(xí)。目前我們知道基于Transformer 的大模型技術(shù)已經(jīng)可以比較有效地應(yīng)用于各種自然語(yǔ)言和計(jì)算機(jī)視覺(jué)任務(wù),但是訓(xùn)練這樣的模型對(duì)于數(shù)據(jù)的質(zhì)量和數(shù)量都有較高的要求,這是一個(gè)比較有挑戰(zhàn)性的問(wèn)題。此外,由于計(jì)算量和算力的限制,需要通過(guò)不同的方法來(lái)實(shí)現(xiàn)大模型的訓(xùn)練和優(yōu)化。

OpenAI、Google、DeepMind 等公司的不同實(shí)驗(yàn)和研究中基本上得到類(lèi)似的結(jié)論,就是大模型的訓(xùn)練性能與它參數(shù)的多少以及數(shù)據(jù)量的大小是成冪等的伸縮規(guī)律,模型規(guī)模越大,它的訓(xùn)練損失函數(shù)值越小。在這種情況下它們滿足一定的伸縮率。我們要求模型性能更好,能力更強(qiáng)更多,則需要的模型規(guī)模就越大,同時(shí)訓(xùn)練的數(shù)據(jù)量要大。

當(dāng)然具體收縮率與選擇的模型本身有關(guān)。進(jìn)一步的研究發(fā)現(xiàn)指數(shù),像指數(shù) α和β與特征空間(或流形)的內(nèi)在維度有關(guān)系。這個(gè)是細(xì)節(jié)。

但現(xiàn)在主要的焦點(diǎn)在哪里?特別是對(duì)于大語(yǔ)言模型的性能,主要體現(xiàn)在數(shù)據(jù)集;數(shù)據(jù)集是影響模型性能的關(guān)鍵因素。因?yàn)槟壳皵?shù)據(jù)集是一種稀缺資源。我們可以根據(jù)冪等的伸縮率發(fā)現(xiàn),增加(高質(zhì)量的)數(shù)據(jù)量的大小會(huì)帶來(lái)最大的性能回報(bào)。但是現(xiàn)在有人開(kāi)始討論通用數(shù)據(jù)是否已經(jīng)用完?另外,專(zhuān)有數(shù)據(jù)量是否太少?特別是對(duì)于有價(jià)值的數(shù)據(jù)。例如,代碼數(shù)據(jù)實(shí)際上占的比例相當(dāng)小。甚至根據(jù)冪等率,人們發(fā)現(xiàn) OpenAI 的 GPT-3 模型都沒(méi)有得到充分訓(xùn)練 (見(jiàn)上圖);因?yàn)橥ㄟ^(guò)這個(gè)可以看出,如果繼續(xù)訓(xùn)練,光就性能來(lái)說(shuō),還可以進(jìn)一步提高。 OpenAI 在這方面可能有其它考量,但至少這些觀察可能對(duì)于我們訓(xùn)練大模型具有一定的參考價(jià)值。

另外,我們?cè)谟?xùn)練中也發(fā)現(xiàn)大模型的一種特殊現(xiàn)象,即“頓悟”(Grokking)。

頓悟的測(cè)試性能遠(yuǎn)遠(yuǎn)落后于訓(xùn)練性能。因?yàn)槲覀兛梢院芸斓匕l(fā)現(xiàn)模型訓(xùn)練可以達(dá)到最優(yōu)值,但在測(cè)試或驗(yàn)證時(shí),它需要更長(zhǎng)的時(shí)間才能表現(xiàn)出模型的精度。在這種情況下,模型有一個(gè)從記憶到泛化切換的過(guò)程。

在訓(xùn)練開(kāi)始時(shí),模型主要依賴(lài)于記憶提供的訓(xùn)練數(shù)據(jù),并通過(guò)過(guò)度擬合來(lái)實(shí)現(xiàn)高效的性能,然后逐漸學(xué)會(huì)泛化。因此,“頓悟”出現(xiàn)在訓(xùn)練從記憶到泛化的切換點(diǎn)。

我們知道AlphaZero是在ChatGPT之前非?;鸨囊粋€(gè)應(yīng)用,主要是在棋牌領(lǐng)域。實(shí)際上,研究人員發(fā)現(xiàn)在1萬(wàn)步到3萬(wàn)步的訓(xùn)練之間,模型學(xué)會(huì)人類(lèi)棋類(lèi)的概念,到2萬(wàn)6到6萬(wàn)步之間才開(kāi)始發(fā)明一些開(kāi)局的理論。對(duì)于這種“頓悟”,模型越大或數(shù)據(jù)越小,它就越明顯。為什么要討論“頓悟”?因?yàn)槲覀兏P(guān)注的是測(cè)試性能,而這個(gè)影響到大模型的有效應(yīng)用。

另外像 ChatGPT 的讓人驚艷的地方在于大模型的各種驚人能力,而很多這些能力是 OpenAI 的工程師在設(shè)計(jì)和開(kāi)發(fā)中沒(méi)有考慮到。人們將這種能力稱(chēng)為“涌現(xiàn)”(Emergence)。

什么是“涌現(xiàn)”?模型在達(dá)到一定程度后,性能首先得到急劇提升,同時(shí)它涌現(xiàn)許多新的能力。特別是,任務(wù)所訓(xùn)練的模型適用于更多以前未經(jīng)訓(xùn)練的任務(wù)。涌現(xiàn)對(duì)大型模型應(yīng)用的影響非常重要,只有通過(guò)這種能力,我們才能高效地實(shí)現(xiàn)模型的泛化,并實(shí)現(xiàn)模型的遷移。因此,我們不僅關(guān)注其本身的性能,還要關(guān)注這種“涌現(xiàn)”能力,因?yàn)樗沟媚P瓦m用于以前未經(jīng)訓(xùn)練的任務(wù),而這些任務(wù)可能是我們關(guān)注的應(yīng)用場(chǎng)景。

涌現(xiàn)能力的體現(xiàn)方式有很多,其中一種是上下文學(xué)習(xí)(In-Context Learning,ICL)能力。通過(guò)提示來(lái)引導(dǎo)模型學(xué)習(xí)新的事例,并可以進(jìn)一步詢(xún)問(wèn)模型新提示和問(wèn)題的答案,這種能力在模型規(guī)模達(dá)到一定程度后會(huì)呈現(xiàn)并快速提升。

思維鏈 (Chain of Thoughts, CoT)學(xué)習(xí)是一種特殊的上下文學(xué)習(xí)。它提供一種結(jié)構(gòu)化的上下文學(xué)習(xí)方法,對(duì)于復(fù)雜的推理問(wèn)題更加高效。在許多任務(wù)中,特別是數(shù)學(xué)任務(wù)中,傳統(tǒng)簡(jiǎn)單提示的結(jié)果并不好。但是,如果我們將問(wèn)題結(jié)構(gòu)化、按步驟分解,模型就能夠給出正確的答案。特別是對(duì)一些比較復(fù)雜的推理問(wèn)題,通過(guò) CoT 一步步鏈?zhǔn)降靥崾?,可以更好地讓大模型具備一定程度的推理能力并逐步給出答案。

另外,基于思維鏈的學(xué)習(xí)也具有一定的規(guī)模優(yōu)勢(shì)。雖然像ChatGPT這樣的標(biāo)準(zhǔn)大模型隨著規(guī)模的增加展現(xiàn)出一定的能力,但是基于思維鏈的推理能力更加明顯。

我們觀察到這種涌現(xiàn)能力,并且意識(shí)到如果能夠善加利用,它確實(shí)能夠?yàn)槲覀兊膽?yīng)用帶來(lái)很多好處和優(yōu)勢(shì)。但是,我們也希望了解涌現(xiàn)能力的出現(xiàn)原因以及影響它的因素。在研究這個(gè)問(wèn)題時(shí),我們需要從幾個(gè)方面來(lái)考慮。

首先是模型架構(gòu)。涌現(xiàn)能力是否與Transformer有關(guān)?或者是否也適用于其他類(lèi)型的神經(jīng)網(wǎng)絡(luò)模型,例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)?訓(xùn)練的目標(biāo)和學(xué)習(xí)方法是否會(huì)體現(xiàn)這種能力?例如,自回歸或?qū)Ρ葘W(xué)習(xí)等學(xué)習(xí)方法是否會(huì)影響涌現(xiàn)能力?

其次,涌現(xiàn)能力是否與數(shù)據(jù)的特點(diǎn)和數(shù)據(jù)集本身分布有關(guān)?比如,數(shù)據(jù)集的語(yǔ)言特點(diǎn)是否有助于展現(xiàn)這種涌現(xiàn)能力?特殊的數(shù)據(jù)集是否也會(huì)影響它的表現(xiàn)?因?yàn)橹暗难芯勘砻?,在?duì)代碼數(shù)據(jù)進(jìn)行訓(xùn)練后,模型的推理能力顯著提高。

我們首先注意到這種涌現(xiàn)出來(lái)的能力是大模型的強(qiáng)大泛化能力,即它通過(guò)上下文提示學(xué)習(xí) (In-Context Learning) 可以適用于多個(gè)任務(wù)中去。對(duì)于每個(gè)任務(wù),模型內(nèi)部體現(xiàn)一種閉環(huán)的學(xué)習(xí)過(guò)程。在訓(xùn)練模型時(shí),外環(huán)是非監(jiān)督學(xué)習(xí),通過(guò)反向傳播來(lái)訓(xùn)練學(xué)習(xí)模型。這樣在推理時(shí)通過(guò)提供的實(shí)例,讓系統(tǒng)動(dòng)態(tài)生成一個(gè)臨時(shí)的小型神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)這種學(xué)習(xí)能力(內(nèi)環(huán))。

從模型架構(gòu)的角度來(lái)看,可以驗(yàn)證這個(gè)猜想是否正確。例如,斯坦福大學(xué)的Percy Liang 教授的團(tuán)隊(duì)進(jìn)行一系列的實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)Transformer確實(shí)隱含一種學(xué)習(xí)算法。此外,Anthropic 的研究人員提出 Induction Heads 的概念,從另一個(gè)角度解釋In-Context Learning確實(shí)能夠?qū)W習(xí)一種可泛化的函數(shù),并且可以保留過(guò)去的一些token。此外還研究人員還發(fā)現(xiàn),在單層線性Transformer中,In-Context Learning等價(jià)于梯度下降學(xué)習(xí)機(jī)制。這些從不同的角度從理論上也進(jìn)一步解釋了之前的猜想。

此外,研究人員也從數(shù)據(jù)分布上也驗(yàn)證了涌現(xiàn)能力。因此,這些實(shí)驗(yàn)觀察和理論解釋給了我們使用大模型來(lái)進(jìn)行上下文提示學(xué)習(xí)更多的信心 ,

騰訊科技:大模型還有一些缺陷,比如幻覺(jué),這完全是壞事兒?jiǎn)幔坑袥](méi)有辦法控制?

李維:大約幾天前,我在我的NLP數(shù)字頻道剛發(fā)了一篇博客,講的就是這個(gè)問(wèn)題。博客的標(biāo)題是【大模型推理的細(xì)節(jié)編造是 feature,不是 bug】。所謂 “一本正經(jīng)的胡說(shuō)八道”,主要是指虛構(gòu)的細(xì)節(jié),用更中立的說(shuō)法,就是編造細(xì)節(jié)。

實(shí)際上,編造細(xì)節(jié)是生成式大語(yǔ)言模型的本質(zhì)特征。從本性來(lái)看,它實(shí)際上的確是一個(gè)特性(feature),而不是一個(gè)錯(cuò)誤(bug)。

在軟件工程中,這兩種概念是需要區(qū)分的。特性是一種可以善加利用、有用的功能。當(dāng)然,也可能會(huì)有副作用,但副作用是有限的。

那么為什么說(shuō)這不是一個(gè) bug?因?yàn)樯墒酱竽P捅举|(zhì)是一種語(yǔ)言模型,而不是一個(gè)全面系統(tǒng)的知識(shí)模型。語(yǔ)言大模型搞定了語(yǔ)言的方方面面,能聽(tīng)會(huì)說(shuō),比人類(lèi)的平均語(yǔ)言水平要強(qiáng)。但是,語(yǔ)言模型并不等價(jià)于知識(shí)模型。知識(shí)的海洋中有一部分是深藏在底部的,只有那些漂浮在上面的細(xì)節(jié),在訓(xùn)練時(shí)頻繁遇到,模型能夠記住,這樣的細(xì)節(jié)不會(huì)有問(wèn)題。那些被它編造的細(xì)節(jié),實(shí)際上都是那些模型記不住的東西。這與人類(lèi)的大腦類(lèi)似,人類(lèi)也不可能記住所有的細(xì)節(jié)。

人類(lèi)記不住細(xì)節(jié)的時(shí)候,除少數(shù)騙子外,一般都會(huì)改用不確定的口氣,或干脆略去細(xì)節(jié),而不是編造細(xì)節(jié)。生成大模型不然,生成絲滑的語(yǔ)言序列是它的本性,為此它不惜編造細(xì)節(jié)。這就是大模型所謂“幻覺(jué)”(hallucination)的表現(xiàn)?;糜X(jué)會(huì)導(dǎo)致模型輸出錯(cuò)誤的答案、知識(shí)或編造信息,OpenAI已經(jīng)花費(fèi)了很多心力在RLHF中減少胡編亂造,例如GPT4的編造比例從GPT3的20%左右,已經(jīng)降低到10%一下,但沒(méi)辦法讓它絕跡。從通用大模型的視角,編造細(xì)節(jié)其實(shí)反映了模型的創(chuàng)造能力,并不總是壞事兒。

通用模型的本義就是支持各種開(kāi)放式任務(wù)。這些任務(wù)可以分為兩類(lèi)。第一類(lèi)任務(wù)是需要模型編造細(xì)節(jié)的,例如輔助寫(xiě)作,包括寫(xiě)劇本、小說(shuō)、詩(shī)歌,創(chuàng)作有創(chuàng)意的廣告文案等。這時(shí),編造細(xì)節(jié)不僅不是一個(gè)問(wèn)題,而且是必要的,因?yàn)橹挥羞@樣才能讓作品更加生動(dòng)有趣。

第二類(lèi)任務(wù)是需要模型回答問(wèn)題,例如知識(shí)問(wèn)答,還有歷史和地理的教育輔導(dǎo)等。在這種情況下,編造細(xì)節(jié)就成為一個(gè)問(wèn)題,一個(gè)副作用,特別是當(dāng)編造的細(xì)節(jié)混在在事實(shí)中的時(shí)候,真假莫辨,可能會(huì)造成嚴(yán)重的誤導(dǎo)后果。

Open AI發(fā)布 GPT4 之前為抑制這個(gè)副作用做了半年多很細(xì)致的強(qiáng)化學(xué)習(xí)和微調(diào),卓有成效。最近,我一直在測(cè)試它,發(fā)現(xiàn)實(shí)際效果比宣傳的10%的細(xì)節(jié)編造率要低?,F(xiàn)在想看 GPT4的笑話,已經(jīng)很不容易了。這表明,通過(guò)更多的強(qiáng)化學(xué)習(xí)或微調(diào),我們可以有效抑制它的副作用,不至于給我們?cè)斐商蟮睦_。

騰訊科技:看來(lái)“我們?nèi)祟?lèi)有時(shí)候會(huì)不正經(jīng)”,這個(gè)“能力”可能是我們超越人工智能的一個(gè)很大的特性。

李維:實(shí)際上,編造細(xì)節(jié)是人類(lèi)智能中的高階能力。據(jù)《人類(lèi)簡(jiǎn)史》,人類(lèi)精神文明的一個(gè)里程碑就是人學(xué)會(huì)了“講故事” ,虛擬的故事。人類(lèi)從此有了宗教和哲學(xué),有了組織和動(dòng)員群體力量的精神武器,從而成為地球霸主。

Having said that,在很多場(chǎng)景中,編造細(xì)節(jié)和胡說(shuō)八道是傷人的、甚至致命的,尤其是當(dāng)它一本正經(jīng)真假混雜的時(shí)候,而這正是 GPT 最為人所詬病的一個(gè)命門(mén)。作為一個(gè)大模型,它是通過(guò)語(yǔ)言序列學(xué)習(xí)到的那些細(xì)節(jié)和事實(shí)。如果這些細(xì)節(jié)和事實(shí)在語(yǔ)言訓(xùn)練中出現(xiàn)的頻率不夠高,從本質(zhì)上它是不可能記住的。因此,在生成文本時(shí),它就編造。除像GPT-4這樣通過(guò)強(qiáng)化學(xué)習(xí)不斷地改善,使得生成的胡編亂造的內(nèi)容出現(xiàn)的頻率持續(xù)降低外,從應(yīng)用場(chǎng)景的角度來(lái)看,真正的解決方案被稱(chēng)為“外掛”。

什么是外掛?

解決方案實(shí)際上是到特定場(chǎng)景中去外掛所需的知識(shí)庫(kù)或知識(shí)圖譜。在任何一個(gè)領(lǐng)域中,知識(shí)圖譜或知識(shí)庫(kù)所表達(dá)的場(chǎng)景的知識(shí)深度和細(xì)節(jié)豐富度是任何一個(gè)語(yǔ)言模型,不管它有多么大,按照現(xiàn)在這種方式是不可能完全學(xué)習(xí)到的。怎么辦?方案就是把這個(gè)大模型和外掛的知識(shí)庫(kù)結(jié)合起來(lái),用它來(lái)彌補(bǔ)大模型的細(xì)節(jié)記憶不足,這才有可能較好地解決這個(gè)問(wèn)題。具體的外掛方式有多種可能,例如,把外掛的知識(shí)庫(kù)查詢(xún)做成一個(gè)插件(plug-in),合適的節(jié)點(diǎn)調(diào)用它。調(diào)回來(lái)的結(jié)果可以追加到問(wèn)題提示中,這樣知識(shí)庫(kù)的結(jié)果可以覆蓋原模型沒(méi)有記憶的部分,確保細(xì)節(jié)正確。另一種方式是以領(lǐng)域場(chǎng)景的業(yè)務(wù)邏輯及其領(lǐng)域知識(shí)庫(kù)為主體,在需要語(yǔ)言能力的時(shí)候調(diào)用 ChatGPT 的API。兩種外掛的方式都會(huì)繼續(xù)推進(jìn),值得關(guān)注其消長(zhǎng)。兩種方式其實(shí)反映了大模型供應(yīng)方與大模型應(yīng)用方的不同視角和利益傾斜,到底誰(shuí)是主體,誰(shuí)調(diào)用誰(shuí)。

騰訊科技:繼續(xù)擴(kuò)大參數(shù)的迭代路徑還能走多遠(yuǎn)?通用數(shù)據(jù)是不是有用完的時(shí)候?

李維:迄今我們沒(méi)有看到大模型大力出奇跡的數(shù)據(jù)質(zhì)量天花板在哪里,最新的GPT4的確在已經(jīng)令世人驚艷的GPT3.5的基礎(chǔ)上,顯示出更強(qiáng)的接近人類(lèi)專(zhuān)家的能力。因此,大模型擴(kuò)大參數(shù)迭代提升的嘗試還會(huì)持續(xù)下去,相應(yīng)的也就需要更多的訓(xùn)練數(shù)據(jù)來(lái)喂飽這越來(lái)越大的模型。如果以目前的速度繼續(xù)發(fā)展,業(yè)界大佬估算可能需要5年或10年的時(shí)間,可以用來(lái)訓(xùn)練大模型的比較干凈和高質(zhì)量的數(shù)據(jù)有可能用完了。在AI加速發(fā)展日新月異的時(shí)代,這不是一個(gè)很短的時(shí)間,我們可以先擱置這個(gè)問(wèn)題,因?yàn)榈侥莻€(gè)時(shí)候可能會(huì)有新的解決辦法。例如,可以開(kāi)動(dòng)大模型自己沒(méi)完沒(méi)了生成新數(shù)據(jù),然后通過(guò)某種自動(dòng)或半自動(dòng)的質(zhì)量過(guò)濾,反過(guò)來(lái)再用于訓(xùn)練模型。這樣,模型的能力仍然可望提升。這似乎就是自我學(xué)習(xí),或曰反哺。

模型大小與模型能力的關(guān)系一直是研究界關(guān)注的題目。魯總談到的模型頓悟現(xiàn)象,以及大模型表現(xiàn)出來(lái)的新能力的涌現(xiàn),都是模型做大路上給我們帶來(lái)的驚喜和實(shí)惠。總體而言,模型變大,首先是搞定了語(yǔ)言能力,然后是展示了越來(lái)越多的知識(shí)能力。

從ChatGPT發(fā)布的時(shí)候,我們很快發(fā)現(xiàn)它的理解和生成能力超過(guò)了人類(lèi)的整體水平。語(yǔ)言通天塔已經(jīng)在技術(shù)上建成了。我們?nèi)祟?lèi)具有與生俱來(lái)的語(yǔ)言潛力,在語(yǔ)言成長(zhǎng)環(huán)境中的曝光使得我們成為母語(yǔ)的流利說(shuō)話者,native speakers,但即便如此,我們每個(gè)人還是會(huì)犯錯(cuò)誤,在語(yǔ)法、用詞上出現(xiàn)口誤筆誤并不罕見(jiàn)??纯凑Z(yǔ)言大模型,除非是你明令它生成“洋涇浜”,它正常生成的句子非常順暢絲滑,挑不出語(yǔ)法或用詞的錯(cuò)誤,其生成能力顯然比人類(lèi)總體強(qiáng)。

另一方面,ChatGPT的語(yǔ)言理解能力也比我們強(qiáng),毫無(wú)懸念。它不僅能夠聽(tīng)懂各種不同的語(yǔ)言,即使不同語(yǔ)言混合在一起,它也能夠理解。甚至你使用各種不同的語(yǔ)言的變形,只要大致意思在,它都能夠抓住,知道如何回應(yīng),可見(jiàn)其超群的魯棒性??傊瑹o(wú)論語(yǔ)言理解還是語(yǔ)言生成,可以說(shuō)大模型完全搞定了人類(lèi)語(yǔ)言,表現(xiàn)得比 native 還 native。

這是因?yàn)镃hatGPT這樣的模型背后是千億級(jí)的tokens(字或詞),有千億級(jí)參數(shù)的向量空間,它有足夠的數(shù)據(jù)用于訓(xùn)練和調(diào)參足夠大的模型,它消化了世界上幾乎所有稍微像樣的文字材料,結(jié)果就超越了人類(lèi)的語(yǔ)言能力。

前面提過(guò),大模型追求兩種能力:一個(gè)是語(yǔ)言能力,另一個(gè)是在語(yǔ)言能力的基礎(chǔ)上的知識(shí)能力?,F(xiàn)在我們知道,第二個(gè)能力難度大得多。根據(jù)對(duì)中外發(fā)布的一系列大模型的調(diào)研,我們提出下列的基于觀測(cè)的初步猜想:十億級(jí)別搞定句法,文通字順;百億級(jí)別搞定篇章和多輪對(duì)話,不掉鏈子;千億級(jí)別搞定百科和基本推理,全科大學(xué)畢業(yè)了;而萬(wàn)億級(jí)別就逼近各行高知和專(zhuān)家的知識(shí)水平了(能通過(guò)律師、醫(yī)生這類(lèi)嚴(yán)格的專(zhuān)業(yè)資格考試)?,F(xiàn)在有不同規(guī)模的模型 available,有條件認(rèn)真驗(yàn)證上面的假說(shuō)。這個(gè)工作有很現(xiàn)實(shí)的意義,我們想知道什么應(yīng)用場(chǎng)景至少需要什么規(guī)模的模型,這樣投入應(yīng)用會(huì)比較放心。

許多國(guó)內(nèi)外團(tuán)隊(duì)的模型表現(xiàn),說(shuō)明百億級(jí)別可以達(dá)到語(yǔ)言能力的天花板,你基本上無(wú)法挑出其文字的毛病,它也理解上下文,對(duì)話流暢,什么語(yǔ)言問(wèn)題都可以解決。然而,知識(shí)是無(wú)限的,要學(xué)習(xí)越來(lái)越多的知識(shí)并將其用于不同的場(chǎng)景,模型需要繼續(xù)向上發(fā)展,達(dá)到千億級(jí)別,就是現(xiàn)在的GPT-3。當(dāng)GPT-4推出時(shí),到底是多少參數(shù)?我們不知道??赡苁侨f(wàn)億級(jí)別,也可能是五千億級(jí)別??傊?,它肯定比GPT-3、GPT-3.5大了不少,因?yàn)榭瓷先ニ膶?zhuān)業(yè)能力直逼專(zhuān)家精英的知識(shí)水平,而且比任何一個(gè)專(zhuān)家更博學(xué)得多,感覺(jué)就是個(gè)全才。這并不是說(shuō)它就不犯錯(cuò)誤了,也不能保證它不編造細(xì)節(jié)。其實(shí),進(jìn)一步的探究表明:GPT-4 的上下文邏輯與常識(shí)還是不夠穩(wěn)固,還有進(jìn)一步提升的不小的空間。

騰訊科技:ChatGPT被認(rèn)為不是一個(gè)新鮮的事物,但是它有很神奇的工程化的能力,究竟我們大語(yǔ)言模型和算力模型是如何應(yīng)用到真正的產(chǎn)業(yè)中的?

魯為民:大型語(yǔ)言模型 (LLM),實(shí)際上可以解釋為是一種概率模型,定義序列中單詞的概率分布,并通過(guò)計(jì)算概率分布來(lái)評(píng)估該序列的好壞。因此,語(yǔ)言模型需要具備語(yǔ)言能力和世界知識(shí)。我們現(xiàn)在主要使用的是自回歸語(yǔ)言模型,它根據(jù)之前生成的token來(lái)迭代產(chǎn)生新的token,這種生成能力也為我們帶來(lái)一些新的應(yīng)用。實(shí)際上,這種基于預(yù)測(cè)下一個(gè)Token的語(yǔ)言模型的概念最早由香農(nóng)于1948年提出。但是,直到 2003年,圖靈獎(jiǎng)得主 Bengio 將神經(jīng)網(wǎng)絡(luò)用于語(yǔ)言模型,并經(jīng)過(guò)一系列的努力,使得語(yǔ)言模型應(yīng)用通過(guò)神經(jīng)網(wǎng)絡(luò)變得越來(lái)越計(jì)算可行。

語(yǔ)言模型作為一種生成模型。它通過(guò)歸納和推理,將已有的知識(shí)表示為一個(gè)類(lèi)似知識(shí)圖譜的結(jié)構(gòu),存儲(chǔ)在深度神經(jīng)網(wǎng)絡(luò)中,供應(yīng)用時(shí)調(diào)用。然而,在使用語(yǔ)言模型時(shí),僅僅依靠該模型往往不足以生成準(zhǔn)確的答案。

由于語(yǔ)言模型本身的統(tǒng)計(jì)特性,所以生成的答案可能是不肯定的。因此,如果我們根據(jù)該模型選擇答案,就必須提供一些可能與數(shù)據(jù)無(wú)關(guān)的條件假設(shè),這就是所謂的歸納偏差 (Inductive Bias)。因此,我們做的一切事情,包括對(duì)大型模型的訓(xùn)練,都是將我們自己的歸納偏差強(qiáng)加給模型,以便更好地訓(xùn)練和推理。強(qiáng)的 Inductive Biases 一般以降低模型的通用性為代價(jià)。

另外,我們使用ChatGPT時(shí),了解到大模型有一種幻覺(jué) (Hallucination)現(xiàn)象?;糜X(jué)是如何產(chǎn)生的?首先,正如前面提到,這種語(yǔ)言模型實(shí)際上是一個(gè)概率模型。同時(shí),語(yǔ)言模型將某種知識(shí)圖譜存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)權(quán)重中。因此,當(dāng)它回答問(wèn)題在該“知識(shí)圖譜”中,找不到答案,但它得生成一個(gè)答案,則這種幻覺(jué)產(chǎn)生,往往是一本正經(jīng)的胡說(shuō)八道。第二個(gè)問(wèn)題是,許多答案看似可信,但包含錯(cuò)誤的信息。在這種情況下,就會(huì)產(chǎn)生幻覺(jué)。

OpenAI 在 ChatGPT 上試著解決這些問(wèn)題。首先,他們?cè)噲D通過(guò)監(jiān)督學(xué)習(xí)微調(diào)來(lái)嘗試解決包括幻覺(jué)和人類(lèi)價(jià)值對(duì)齊的問(wèn)題。好像收效甚微。后來(lái),借助于 RLHF (人工反饋強(qiáng)化學(xué)習(xí)) 來(lái)進(jìn)行微調(diào),收到比較好的效果。它主要是通過(guò)獎(jiǎng)賞模型來(lái)學(xué)習(xí)人類(lèi)對(duì)事實(shí)的一些判斷或價(jià)值的一些體現(xiàn),并通過(guò)強(qiáng)化學(xué)習(xí)來(lái)對(duì)模型進(jìn)行微調(diào)。然而,強(qiáng)化學(xué)習(xí)并不能根除幻覺(jué)現(xiàn)象,這個(gè)與語(yǔ)言模型特性本身有關(guān)。畢竟語(yǔ)言模型是一個(gè)概率模型。

將大模型適配到垂直專(zhuān)業(yè)場(chǎng)景的模式涉及到遷移學(xué)習(xí)。遷移學(xué)習(xí)為什么重要?它在不同場(chǎng)景的應(yīng)用中提供必要的泛化能力。比如預(yù)訓(xùn)練大模型使用不同的數(shù)據(jù)集,訓(xùn)練好一個(gè)大的模型它能涵蓋多個(gè)垂直領(lǐng)域任務(wù)。但是,我們新的目標(biāo)垂域有可能不在預(yù)訓(xùn)練的大模型覆蓋范圍之內(nèi),那我們可以對(duì)它進(jìn)行適配遷移,來(lái)讓其覆蓋目標(biāo)垂域。具體來(lái)說(shuō),遷移學(xué)習(xí)有下圖所示的幾種形式。

我們目前大模型的遷移適配主要用后兩種形式,即第一種通過(guò)重新調(diào)整模型參數(shù),使其成為適用于場(chǎng)景的垂直模型;這方面已經(jīng)有過(guò)很多好的實(shí)踐,比如我們可以通過(guò)改變少量參數(shù)進(jìn)行模型適配,減少訓(xùn)練的計(jì)算量,比如大家熟悉的 LORA等方法;另一種則是利用其具有的涌現(xiàn)能力,直接通過(guò)提示 (Prompt) 的設(shè)計(jì)或提示學(xué)習(xí) (Prompt Learning),來(lái)使得模型在推理時(shí)可以動(dòng)態(tài)學(xué)習(xí)來(lái)生成適合相關(guān)場(chǎng)景的內(nèi)容。前者的優(yōu)勢(shì)是能充分利用垂域數(shù)據(jù)集,多樣本學(xué)習(xí)性能好,同時(shí)對(duì)提示要求低,推理成本低,但可能的問(wèn)題是訓(xùn)練成本高,且應(yīng)對(duì)數(shù)據(jù)漂移等問(wèn)題不靈活。而后者基于Promp的遷移學(xué)習(xí)的優(yōu)勢(shì)是可以小樣本學(xué)習(xí),對(duì)數(shù)據(jù)要求不高,不需要模型進(jìn)行訓(xùn)練,而不用改變預(yù)訓(xùn)練模型的參數(shù)和結(jié)構(gòu);另外通過(guò)動(dòng)態(tài)地提供遷移學(xué)習(xí)能力,對(duì)數(shù)據(jù)漂移等問(wèn)題可以靈活處理;但可能需要提供比較長(zhǎng)的復(fù)雜的提示,因此推理成本可能高一些。

除了模型的遷移適配外,通過(guò)適當(dāng)?shù)亟尤胪獠康墓ぞ?,?lái)提供一系列工具鏈完成更為復(fù)雜的任務(wù),目前像 LangChain,HuggingGPT,BabyAGI 和 AutoGPT 等框架做了一些有益的嘗試。

關(guān)鍵詞:

上一篇:26歲女孩陷入“裸貸”風(fēng)波:借5000還550萬(wàn),貸款年化利率超2000% 當(dāng)前熱議
下一篇:最后一頁(yè)