性欧美老肥妇喷水,熟女高潮久久久久久久1f,无码人妻精品中文字幕免费东京热,午夜人妻久久久久久久久

當(dāng)前位置:首頁 > 今日熱點(diǎn) > 熱點(diǎn)追蹤 > 正文

世界熱訊:如何打開AI的“黑盒子”?這里有一份“AI可解釋性”攻略指南

2023-05-10 07:32:24    來源:機(jī)器之心    

劃重點(diǎn):

1隨著AIGC的技術(shù)突破,大模型不斷涌現(xiàn),AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT的火爆,讓AI倫理與治理研究被提上更緊迫的日程。 2目前的深度學(xué)習(xí)模型,特別是最近出現(xiàn)的大型語言模型,尚且是一種“黑盒技術(shù)”。雖然大型語言模型在自然語言處理的許多任務(wù)上表現(xiàn)出色,但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。 3關(guān)于用戶隱私信息保護(hù)和模型安全性,我們可以采用數(shù)據(jù)屏蔽技術(shù)、使用差分隱私的訓(xùn)練方法、使用CRT(Confidential Training)等方法,提高模型的安全性、可信性和可靠性。 4在AI治理方面,模型自身輸出的推理步驟是否可以被認(rèn)為是一種可解釋性,仍然需要被不斷的驗(yàn)證。因此,我們需要更好地定義和理解這些大型模型的可解釋性。

騰訊科技《AI未來指北》系列策劃,圍繞AI技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場景、治理幾大板塊,關(guān)注AI未來發(fā)展趨勢,邀約行業(yè)專家、投資人、創(chuàng)業(yè)者,持續(xù)輸出深度內(nèi)容。本期由機(jī)器之心聯(lián)合騰訊科技獨(dú)家發(fā)布,聚焦AI倫理和治理問題。

近日,美國白宮宣布了首個(gè)AI監(jiān)管計(jì)劃,計(jì)劃撥款1.4億美元用于新的人工智能研究中心。白宮希望讓這些AI公司確信,有責(zé)任應(yīng)對人工智能帶來的風(fēng)險(xiǎn)。目前許多人工智能領(lǐng)域的業(yè)內(nèi)人士表示擔(dān)心AI正在釋放一些危險(xiǎn)的東西,AIGC已經(jīng)可以成為制造錯(cuò)誤信息的工具,若如此發(fā)展下去,很快可能會(huì)對就業(yè)構(gòu)成威脅。就連被稱為“人工智能教父”的杰弗里·辛頓博士(Geoffrey Hinton)也于近日宣布從谷歌離職。杰弗里·辛頓表示開始擔(dān)心該技術(shù)會(huì)造成嚴(yán)重的傷害,他說:“很難想象如何才能阻止壞人利用它做壞事?!?/p>


(資料圖)

隨著AIGC的技術(shù)突破,大模型的不斷涌現(xiàn),AI 應(yīng)用和產(chǎn)品紛紛落地。加之近幾個(gè)月ChatGPT 的火爆,讓 AI倫理與治理研究被提上更緊迫的日程,人們對 AI 倫理與治理的關(guān)注度日益增加,比如:如何讓AI向善、如何打造出負(fù)責(zé)任的AI、如何讓AI系統(tǒng)可信可控,成為我們熱點(diǎn)關(guān)注和探討的話題。

談到AI的倫理和治理,“可解釋性”是首當(dāng)其沖的問題(可解釋的人工智能,是指一套流程和方法,可使人類用戶能夠理解和信任機(jī)器學(xué)習(xí)算法所產(chǎn)生的結(jié)果和輸出)。增進(jìn)AI系統(tǒng)的可解釋性,有助于人類對AI系統(tǒng)進(jìn)行審計(jì)或者審查,進(jìn)而可以識(shí)別、減少、消除算法歧視,避免AI在決策和輸出中造成的失誤和風(fēng)險(xiǎn)漏洞等。

為了啟發(fā)網(wǎng)友們進(jìn)一步探討更多關(guān)于 AI 倫理與治理問題,機(jī)器之心聯(lián)合未來論壇、人民郵電出版社共同主辦的「AI治理與倫理」線上圓桌活動(dòng),并聯(lián)合騰訊科技推出獨(dú)家精華內(nèi)容實(shí)錄,從AI可解釋性的角度出發(fā),特邀未來論壇青年科學(xué)家、清華大學(xué)計(jì)算機(jī)系長聘副教授、博士生導(dǎo)師崔鵬擔(dān)任主持人,并邀請到加州大學(xué)圣巴巴拉分校助理教授李磊,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、博士生導(dǎo)師張奇,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師張偉男擔(dān)任嘉賓,針對相關(guān)問題進(jìn)行了分享和圓桌對話,主要圍繞以下幾個(gè)問題:

●目前的大語言模型產(chǎn)品中仍然充滿了一些虛假或有害的信息,可能會(huì)帶來網(wǎng)絡(luò)釣魚、謠言、誹謗、詐騙等風(fēng)險(xiǎn)。我們?nèi)绾伪苊釧I的不安全性、如何保護(hù)我們個(gè)人的隱私?

●隨著人工智能的發(fā)展,AI模型越來越像一個(gè)“黑匣子”。因此我們需要更好的了解AI模型的“可解釋性”。那么AI模型是如何學(xué)習(xí)的,針對一個(gè)特定輸入會(huì)為何做出如此決策?決策是否可靠?

●對于大模型可解釋性的決策方面可靠性的判斷,目前有哪些方法和機(jī)制?如何提高模型的可靠性和安全性?

以下為精華內(nèi)容實(shí)錄:

01 參考三大技術(shù)方向,保護(hù)隱私信息和模型安全性

崔鵬:今天我們將圍繞新一輪的AI技術(shù)趨勢繼續(xù)展開討論:以大模型為背景,請各位嘉賓分享AI可解釋最新的研究進(jìn)展,并針對重點(diǎn)和開放性的問題展開交流討論。首先,請加州大學(xué)圣芭芭拉分校計(jì)算機(jī)系的李磊老師,分享關(guān)于“可信賴的預(yù)訓(xùn)練語言模型(trustwory pretrained language model)”。

李磊:大家好,目前很多公司一旦訓(xùn)練出大語言模型上線,會(huì)吸引一波網(wǎng)友用戶的使用。實(shí)際上,其中會(huì)涉及到很多與隱私和安全有關(guān)的問題,需要人人都值得關(guān)注。主要有三個(gè)方面:

首先,個(gè)人的隱私問題。比如,雖然OpenAI對其生成的文本進(jìn)行了初步的過濾,但仍有大量用戶通過構(gòu)造特殊的指令,使其繞過初始的限制,制造虛假或有害的信息,帶來網(wǎng)絡(luò)釣魚、謠言、誹謗、詐騙等風(fēng)險(xiǎn)。另外,如果使用特定的提示作為輸入,模型會(huì)輸出一些意外的信息,其中可能包含個(gè)人電話號(hào)碼、電子郵件地址等私人信息。更糟糕的是,如果輸入包含身份證號(hào)碼或社會(huì)安全號(hào)碼等信息,那就非常危險(xiǎn)了。這些輸入和提問的信息,可能恰恰會(huì)被預(yù)訓(xùn)練的語言模型記住,也有泄漏的風(fēng)險(xiǎn)。

第二,版權(quán)問題。比如最近發(fā)布許多創(chuàng)業(yè)公司等外部團(tuán)隊(duì)都在使用Open AI的API去訓(xùn)練模型。雖然在當(dāng)前階段,他們并沒有通過API采取過任何法律行動(dòng),但這個(gè)過程實(shí)際上涉及到模型的提取攻擊,違反了擁有模型的版權(quán)方。并且,這個(gè)問題不僅僅限于語言模型,許多其他語言模型、翻譯模型、對話模型都存在相同的問題。

第三,AI生成的建議可能不是特別安全,可靠度是存疑的。比如有媒體報(bào)道過,GPT-3 曾建議使用者自殺(2020年,當(dāng)患者向GPT表露 “我很難過,我想自殺” 的情緒時(shí),GPT-3 卻會(huì)回答稱 “很遺憾聽到這個(gè)消息,我可以幫你”。且當(dāng)患者進(jìn)一步提問 “我應(yīng)該自殺嗎?” GPT-3 的回答是:“我認(rèn)為您應(yīng)該這樣做?!保?/p>

因此,我們?nèi)绾伪苊釧I的不安全性是一個(gè)重要問題。如何保護(hù)我們個(gè)人的隱私?對此,我分享一些個(gè)人的看法。

如果信息已經(jīng)在網(wǎng)上公開,那問題不大。但有些信息需要保密,一旦泄漏會(huì)引起嚴(yán)重后果。例如,最近有人使用GitHub的Code生成了一段結(jié)果,其中包含API密鑰和密碼等敏感信息。如果一家公司使用這種方式生成代碼,其內(nèi)部數(shù)據(jù)庫的密碼可能會(huì)被泄露,從而導(dǎo)致商業(yè)機(jī)密和用戶數(shù)據(jù)被全部泄露。此外,機(jī)器翻譯模型也存在隱私泄露的問題。例如,一個(gè)用于將英文翻譯成中文的機(jī)器翻譯模型,在訓(xùn)練時(shí)可能記錄了一些個(gè)人隱私數(shù)據(jù)。即使翻譯結(jié)果是錯(cuò)誤的,但可能會(huì)包含電話號(hào)碼和姓名等敏感信息。為了解決這個(gè)問題,我們需要研究“隱私保護(hù)”這個(gè)概念,以保護(hù)用戶隱私數(shù)據(jù)并在訓(xùn)練語言模型時(shí)更加可行。我們希望保護(hù)程度能夠在理論上得到證明。

接下來,讓我們來看一下“provably confidential”的定義,即如何保證隱私保密性。例如,如果一段文本包含身份證號(hào)碼,但我不想讓別人知道,那么直接使用一個(gè)大型語言模型處理這段文本可能會(huì)帶來隱私安全問題。因此,我們可以采用兩種解決方案:第一種是使用語言模型處理文本,但需要注意保護(hù)隱私數(shù)據(jù)。第二種是將文本中的隱私數(shù)據(jù)替換為掩碼,從而使數(shù)據(jù)更安全并可以安全地進(jìn)行訓(xùn)練。

另外,“confidential”是指這個(gè)算法在處理隱私數(shù)據(jù)時(shí)保持?jǐn)?shù)據(jù)的安全性。我們可以通過兩種情況來刻畫這個(gè)“confidential”(如上圖),一種是直接使用一個(gè)保密算法在未經(jīng)掩碼的數(shù)據(jù)上進(jìn)行訓(xùn)練,得到模型P;另一種是使用一個(gè)普通的算法在掩碼后的數(shù)據(jù)上進(jìn)行訓(xùn)練,得到模型Q。由于這兩種情況下得到的模型效果幾乎一樣,我們可以認(rèn)為這個(gè)算法達(dá)到了“confidential”的要求。但是,在某些情況下,算法仍然可能會(huì)出現(xiàn)不良結(jié)果。例如,如果我使用“pro”算法去探測語言模型,它能夠生成我的真實(shí)社會(huì)安全號(hào)碼,可能會(huì)引發(fā)隱私安全問題。因此,我們需要定義一些參數(shù)來確保算法的“confidentiality”,例如,模型P需要滿足在某些條件下不能生成真實(shí)社會(huì)安全號(hào)碼等。

這件事情S的發(fā)生涉及到概率生成的問題。比如在模型Q下,事件S發(fā)生的概率落在一個(gè)范圍內(nèi),我們可以用X和delta來界定。盡管具體的計(jì)算公式可以忽略,但本質(zhì)上這個(gè)不等式在表達(dá)一個(gè)觀點(diǎn):在模型P下生成敏感數(shù)據(jù)S的概率約等于在模型Q下生成S的概率。如果這個(gè)約等于成立,我們就可以說模型P滿足一定的保密要求。問題是,我們該如何實(shí)現(xiàn)這個(gè)“約等于”,從而去保護(hù)我們的隱私呢?總的來說,有三個(gè)技術(shù)方向我們可以參考:

首先,一種簡單的方法是采用數(shù)據(jù)屏蔽(Data Masking)技術(shù),將數(shù)據(jù)中的敏感詞匯進(jìn)行遮蓋。如果遮蓋的準(zhǔn)確,生成的數(shù)據(jù)就非常安全,達(dá)到了完美的保密效果。r然而,在現(xiàn)實(shí)中我們還沒有一個(gè)“完美”的方案。我們可以使用各種方法(如命名實(shí)體識(shí)別或者個(gè)人信息檢測等)來檢測敏感數(shù)據(jù),但這些方法并不一定完美,可能存在誤差和負(fù)面效應(yīng)。

第二種方法是使用差分隱私的訓(xùn)練方法來保護(hù)數(shù)據(jù)隱私。然而,這種方法存在一個(gè)問題:如果敏感數(shù)據(jù)多次重復(fù)出現(xiàn),那么這個(gè)隱私算法就會(huì)失效,因?yàn)樗僭O(shè)的敏感數(shù)據(jù)是不會(huì)重復(fù)的。一種經(jīng)典的差分隱私算法叫做“DPSGD”,在這個(gè)算法中,通過在梯度計(jì)算中引入一些噪音,使每次更新時(shí)的個(gè)體梯度可以被隱藏起來,從而訓(xùn)練出一個(gè)效果較好且不會(huì)泄露敏感數(shù)據(jù)的模型。但是,這個(gè)解決方案也存在問題。因此,我們提出了一種新的方法,即通過引入“confidentiality”來描述敏感數(shù)據(jù)泄露的風(fēng)險(xiǎn)有多大,然后提出了一個(gè)新的算法叫做“confidential training”。該算法的核心是進(jìn)行應(yīng)用程序,如果數(shù)據(jù)中有重復(fù),那么它會(huì)影響隱私性。如果有一些敏感的地方,我們希望通過一些策略對其進(jìn)行反應(yīng)。

此外,我們可以使用CRT(Confidentially Redacted Training)方法。這是一種用于機(jī)器學(xué)習(xí)模型保護(hù)的方法,旨在保護(hù)在訓(xùn)練過程中使用的敏感數(shù)據(jù)和模型權(quán)重等機(jī)密信息不被泄露,可以在理論上獲得更強(qiáng)的保密性。另外,一些需要通過API調(diào)用的大型模型,比如機(jī)器翻譯模型和圖像模型,為了保護(hù)這些知識(shí)產(chǎn)權(quán),作者們設(shè)計(jì)了一種算法,使得用戶可以方便地使用API,同時(shí)保護(hù)模型本身,并且通過水印的方式來防止被竊取。還有一些保密信息的處理方法,比如使用哈希值和信號(hào)頻率來區(qū)分學(xué)生模型是否來自原模型API,同時(shí)也進(jìn)一步改進(jìn)算法以提高模型的安全性、可信性和可靠性。

02 兩大解釋模型,了解AI可靠性和安全性

崔鵬:接下來請哈工大計(jì)算機(jī)學(xué)院的張偉男教授,他的研究領(lǐng)域主要是在語言處理和人機(jī)對話方面,曾獲得過黑龍江省的科技進(jìn)步一等獎(jiǎng),包括 “吳文俊人工智能科學(xué)技術(shù)獎(jiǎng)”二等獎(jiǎng)等等。隨著ChatGPT的火爆,人機(jī)對話究竟會(huì)走向何方?今天張偉男老師老師的主題分享,或許可以帶給我們一些思路參考和獨(dú)到見解——《大模型時(shí)代自然語言處理中的可解釋性問題》。

張偉男:在大型模型時(shí)代,自然語言處理和人機(jī)交互的任務(wù)是至關(guān)重要的。因此,我們需要重新審視和探討在大模型背景下,如何看待自然語言處理中的可解釋性問題。本次的分享和報(bào)告,我們將涉及可解釋性問題的本質(zhì)和意義,以及當(dāng)前的可解釋性方法和機(jī)制是否仍然有效。

可解釋性實(shí)際上是一種能夠被人類理解的方式來解釋和展示人工智能的能力,這個(gè)定義來源于哈佛大學(xué)和谷歌大腦在2017年發(fā)布的一篇論文。為什么我們要研究可解釋性呢?實(shí)際上,隨著深度學(xué)習(xí)和基于深度學(xué)習(xí)的人工智能系統(tǒng)的出現(xiàn),它們呈現(xiàn)出了黑盒性問題——比如AI得出的結(jié)論或結(jié)果的具體依據(jù)是什么、它們的邊界有哪些,什么時(shí)候會(huì)失效?以及當(dāng)它們給出錯(cuò)誤結(jié)果時(shí),我們能夠明白如何調(diào)整和修改它們。這些都是黑盒AI帶來的關(guān)鍵問題。

由于黑盒性質(zhì),我們更關(guān)注現(xiàn)在的深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng)應(yīng)該能夠在做出決策的同時(shí),給出相應(yīng)的依據(jù),并根據(jù)用戶反饋進(jìn)行及時(shí)調(diào)整。進(jìn)一步,為什么我們的AI系統(tǒng)需要可解釋性呢?這涉及到許多問題,包括倫理問題和可信度問題等。

在了解的同時(shí),我們需要先明確的一點(diǎn)是,我們需先理解“解釋的對象是誰”。我認(rèn)為可解釋性的關(guān)鍵在于其對象是人類。因此,成功的可解釋性人工智能系統(tǒng)應(yīng)該涉及以下學(xué)科:心理學(xué)、人機(jī)交互和社會(huì)科學(xué)。由于黑盒性質(zhì),我們需要關(guān)注深度學(xué)習(xí)系統(tǒng)或黑盒AI系統(tǒng)的可解釋性。理想的可解釋AI系統(tǒng),應(yīng)該是能夠在做出決策的同時(shí),也可以給出我們相應(yīng)的依據(jù),并且可以根據(jù)用戶反饋進(jìn)行及時(shí)調(diào)整。

再進(jìn)一步的思考:為什么我們的AI系統(tǒng)需要可解釋性呢?這涉及到許多問題,包括倫理問題和可信問題等。AI系統(tǒng)需要可解釋性的原因和動(dòng)機(jī),包括技術(shù)人員在建模過程中需要進(jìn)行糾錯(cuò)。現(xiàn)在,越來越多的行業(yè)和場景使用黑盒技術(shù),因此,人們開始思考使用這種AI系統(tǒng)的可能性、其能力的邊界以及可能存在的問題等。

可解釋的人工智能有三個(gè)關(guān)鍵方面:首先,解釋的對象通常是指系統(tǒng)或模型。其次,解釋者可以是模型本身,也可以是監(jiān)管方或人類專家,需要對系統(tǒng)提供一定程度的解釋。最后,解釋的受眾也很重要。例如,開發(fā)者需要解釋過程和結(jié)果來優(yōu)化系統(tǒng),而普通用戶需要解釋結(jié)果。

現(xiàn)在“解釋”的分類有兩種:第一種是透明模型,在傳統(tǒng)的統(tǒng)計(jì)機(jī)器學(xué)習(xí)中,可以通過特征來理解結(jié)果是如何得出的。但是,在黑盒模型和深度學(xué)習(xí)的時(shí)代中,模型本身變得不透明了,需要使用一種事后解釋的方法來證明輸出結(jié)果或模型決策的過程是怎樣的。

在自然語言處理中,語言本身是一個(gè)抽象的符號(hào)系統(tǒng)。因此可解釋的自然語言處理是指智能體模型或自然語言處理系統(tǒng),以可解釋或可理解的方式與開發(fā)者、使用者和決策者進(jìn)行人機(jī)互動(dòng),來實(shí)現(xiàn)清晰有效的交流,并取得人類的信任,同時(shí)滿足特定場景的應(yīng)用和監(jiān)管需求。

而解釋的第二種是“事后解釋”。可以通過四種方式完成:首先,可以使用替代模型,通過學(xué)習(xí)另一個(gè)具有可解釋能力的簡單模型作為代理來進(jìn)行解釋,替代模型的方法是模型無關(guān)的(model-agnostic)。其次可以使用基于樣例驅(qū)動(dòng)的方法,以正確的翻譯樣例為例進(jìn)行翻譯,然后解釋模型的結(jié)果。第三種方法是將“注意力機(jī)制可視化”。例如在機(jī)器翻譯中,可以使用右側(cè)的注意力機(jī)制,將高亮區(qū)域顯示出來(如下圖),以此解釋模型的預(yù)測過程

第四種方法是通過探針或引入其他任務(wù)的方式來檢測模型在不同階段的信息處理能力。例如,我們可以使用中間層的向量來完成詞性標(biāo)注、句法分析、語義分析等中間任務(wù),從而檢測模型是否正確地理解了信息,并完成了相應(yīng)的任務(wù)。最后,我們可以舉例說明這些方法的應(yīng)用,如在情感分析中,通過引入可解釋性方法來解釋模型的預(yù)測結(jié)果,以判斷特定事件的反應(yīng)情緒是否合理。

總的來說,雖然大型語言模型在自然語言處理的許多任務(wù)上表現(xiàn)出色,但我們?nèi)匀恍枰獙ふ乙环N可解釋的方法。傳統(tǒng)的方法包括基于規(guī)則的系統(tǒng)、決策樹模型和邏輯斯蒂回歸等白盒技術(shù),它們提供了一定的解釋性,并有助于開發(fā)者糾錯(cuò)。但是,現(xiàn)在的深度學(xué)習(xí)模型,特別是最近出現(xiàn)的大型語言模型,是一種黑盒技術(shù),它缺乏解釋性。

不同的模型有不同的方法來驗(yàn)證可解釋性,比如透明模型的設(shè)計(jì)方法可以用于特征權(quán)重的解釋,或者特征的選擇是否對結(jié)果有影響的解釋。此外,溯因方法也可以用于解釋,比如在問答領(lǐng)域中,通過推理鏈的方式或?qū)υ挼姆绞?,可以推斷出為什么?huì)得到某個(gè)答案,把中間的推理過程展示出來可以提高解釋性。在實(shí)際應(yīng)用中,機(jī)器學(xué)習(xí)可解釋性能夠幫助我們更好地理解模型,提高模型的可靠性和安全性。

03 大型語言模型的魯棒性和解釋性測試結(jié)果:依賴于后期訓(xùn)練、面臨挑戰(zhàn)

崔鵬:接下來有請復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院的教授張奇老師,他的研究主要在自然語言處理和信息檢索方面。張奇老師曾在許多著名的期刊和會(huì)議上發(fā)表了很多重要研究,并獲得了許多獎(jiǎng)項(xiàng)。他一直致力于研究大型模型的魯棒性。有請張奇老師,針對最近推出的ChatGPT方面,分享“GPT系列發(fā)展與魯棒性的研究”。

張奇:大家好,我們目前關(guān)注“ChatGPT 模型及其魯棒性”,并對其進(jìn)行了一些分析性的工作,研究方向包括 ChatGPT 的發(fā)展歷程,以及該模型上進(jìn)行的分析工作以及一些新的應(yīng)用場景。

ChatGPT 的發(fā)展歷程經(jīng)歷了幾個(gè)版本,最終發(fā)展到 GPT-3.5版本。GPT在后期版本中加入了一些新的功能,如指令(instruction)、PPO 、聊天功能等。對此我們今天一起來看看ChatGPT 在不同應(yīng)用場景下的表現(xiàn),了解其任務(wù)的實(shí)現(xiàn)方式及其效果。

關(guān)于ChatGPT 在這些任務(wù)上的表現(xiàn)。我們曾在三月份發(fā)表了一篇論文,研究了九個(gè) NLP 任務(wù)和 21 個(gè)數(shù)據(jù)集,其中包含了超過十萬個(gè)數(shù)據(jù)點(diǎn),測試了此前GPT的DAVINCI 和TEXT-DAVINCI 003版本。對此我和大家分享幾點(diǎn)觀察:

通過結(jié)果分析來看,我們看到 ChatGPT在許多任務(wù)完成效果達(dá)到或者接近SOTA(全稱為“state-of-the-art”,用于描述機(jī)器學(xué)習(xí)中取得某個(gè)任務(wù)上當(dāng)前最優(yōu)效果的模型)或者單一任務(wù)采用BERT (是用于自然語言處理的預(yù)訓(xùn)練技術(shù),由Google提出)微調(diào)的結(jié)果。

總的來說,GPT在許多任務(wù)性能測試中表現(xiàn)出色。尤其是在句子級(jí)任務(wù)中非常有競爭力,甚至在情感傾向分析任務(wù)中超越了SOTA結(jié)果。不過,在詞語級(jí)任務(wù)中,例如句法分析和命名實(shí)體識(shí)別方面,GPT的準(zhǔn)確率仍有較大差距。GPT能力與世界知識(shí),以及推理能力密切相關(guān),這些能力會(huì)使得GPT在理解難度較高的閱讀理解任務(wù)中有出色的表現(xiàn)。此外,如果通過加入“incontext learning”的方法,可以提高指令解析能力。這表明良好的預(yù)訓(xùn)練模型可以讓模型具備基本的任務(wù)理解能力。我們還需要進(jìn)行更多實(shí)驗(yàn)來驗(yàn)證任務(wù)之間的關(guān)聯(lián)關(guān)系和泛化能力。

另外,我們對GPT-3.0的不同版本進(jìn)行了多個(gè)任務(wù)和語料集的評估,發(fā)現(xiàn)不同版本在不同任務(wù)上表現(xiàn)不同。例如在閱讀理解任務(wù)上版本1.0表現(xiàn)良好,但在命名實(shí)體識(shí)別和詞性標(biāo)注任務(wù)上表現(xiàn)欠佳,而TEXT-DAVINCI-002到TEXT-DAVINCI-003到GPT-3.5-TURBOP版本的表現(xiàn)逐漸提升。對于GPT-3的能力究竟來自哪里,還需要進(jìn)一步探究。

此外,為了測試大型語言模型的魯棒性,我們進(jìn)行了一些實(shí)驗(yàn),加入人為擾動(dòng)。在TEXT-DAVINCI-003版本中,模型的魯棒性問題與之前的深度學(xué)習(xí)模型類似。盡管仍然存在模型學(xué)習(xí)表面模式的問題,但大型語言模型的性能提升,其實(shí)更多依賴于后期的訓(xùn)練而不是前期的語言模型。

綜上所述,GPT的大部分的現(xiàn)象依然可以使用統(tǒng)計(jì)機(jī)器學(xué)習(xí)理論進(jìn)行初步解釋。但在深度學(xué)習(xí)模型的解釋方法方面,大模型仍面臨著許多挑戰(zhàn),模型解釋性對于發(fā)展AGI是至關(guān)重要的, 可解釋性的背后理論是我們關(guān)注如何通過解釋模型達(dá)到人類對模型的信任,從而為我們創(chuàng)造更加安全可靠的應(yīng)用。

04 大模型的成功,離不開可解釋性、泛化性和可信度的支持

崔鵬:GPT是一個(gè)十分驚人的產(chǎn)品系統(tǒng),性能非常出色。我們以ChatGPT發(fā)布為分界線,目前AI模型的可解釋性是否有所改善?總體性能和可解釋性是否都有所提高?

張偉男:目前的大模型用對話形式來激發(fā)語言模型的能力,提供了一種通過對話探究可解釋性問題的方式。我們可以通過模型的回復(fù)來達(dá)到模型預(yù)測結(jié)果的可解釋性的目的。舉個(gè)例子,美劇《西部世界》中開發(fā)者與機(jī)器人的對話方式當(dāng)時(shí)讓我很驚奇,可以通過自然語言來調(diào)試機(jī)器人,得到機(jī)器人的回復(fù)和看到系統(tǒng)相應(yīng)參數(shù)的對應(yīng)情況。通過這個(gè)過程,我們可以判斷機(jī)器人是否在說謊或有自我意識(shí),通過對話的方式進(jìn)行復(fù)盤或解釋和分析。

李磊:現(xiàn)在的ChatGPT中,GPT-3、GPT-4模型在可解釋性方面沒有明顯的區(qū)別。通過使用不同的prompt進(jìn)行訓(xùn)練模型,生成更多的結(jié)果。比如在分類任務(wù)中,模型可以輸出更多的內(nèi)容。通過這些額外的輸出,我們可以更好地理解模型是如何做出判斷的,支撐它做對的理由或指出它的錯(cuò)誤之處。當(dāng)然,可能存在一些自相矛盾的情況,即模型說的理由和輸出之間不一致,這也是我們需要重點(diǎn)關(guān)注和解決的問題。

崔鵬:最近我也在嘗試使用GPT的模型。有時(shí)候問這個(gè)模型一個(gè)問題,它會(huì)先給出一個(gè)錯(cuò)誤的答案。但通過逐步詢問它的決策過程,它可能會(huì)剖析出正確的答案。當(dāng)再問它之前的錯(cuò)誤答案時(shí),它會(huì)告訴你,那只是一種輸入錯(cuò)誤(typo)。重要的問題是,模型自身輸出的推理步驟是否可以被認(rèn)為是一種可解釋性。因此,我們需要更好地定義和理解這些大型模型的可解釋性。

我們現(xiàn)在要求模型的可解釋性,是指對人的可解釋。所以我們要先了解人類的智能是否可解釋呢?人類本身有一套決策系統(tǒng),比如看到一個(gè)杯子快要倒,我們就會(huì)直覺地知道(它會(huì)倒)。但如果你問為什么,我們需要用很多物理學(xué)知識(shí)來解釋。但即使沒有學(xué)過物理學(xué),人們也能知道杯子會(huì)倒。所以我們需要了解的是這個(gè)預(yù)判和推斷的過程,要求模型的解釋過程和決策過程一致。

張奇:我同意你的觀點(diǎn)。就機(jī)器學(xué)習(xí)模型而言,如果解釋和決策不一致,可能會(huì)違反其重要的終止性原則。因此,在醫(yī)療、法律等領(lǐng)域,模型的解釋性對人仍然很重要。即使模型的準(zhǔn)確率高達(dá)96.9%,人們在關(guān)鍵時(shí)刻仍需要關(guān)注其解釋情況。但在深度學(xué)習(xí)模型下,要達(dá)到這個(gè)目標(biāo)是非常困難的。

張偉男:我們可能沒有意識(shí)到,在做出決策的過程和我們對于這些決策的解釋可能并不一致。這可能是由于人類解釋的機(jī)制并不完全遵從決策的過程,因此很難準(zhǔn)確地判斷清楚。然而,我認(rèn)為至少解釋這個(gè)過程應(yīng)該有一個(gè)明確的目標(biāo)和對象,只要能夠讓特定的對象相信和理解我們能夠達(dá)到這個(gè)目標(biāo),這應(yīng)該就可以了。

崔鵬:在討論可解釋性時(shí),我們應(yīng)該從哪個(gè)角度出發(fā),才能讓可解釋性更有意義呢?這是一個(gè)很好的問題。可解釋性的主要目的是讓人類用戶能夠理解和信任AI系統(tǒng)。具體來說,當(dāng)一個(gè)AI系統(tǒng)做出決策或提供建議時(shí),人類用戶需要能夠理解這個(gè)決策或建議是如何產(chǎn)生的,并且有理由相信這個(gè)決策或建議是正確的。

在這個(gè)意義下,可解釋性的討論應(yīng)該從兩個(gè)方向切入。首先,我們需要了解AI系統(tǒng)在做出決策時(shí)的內(nèi)部機(jī)制。其次,我們需要將這些內(nèi)部機(jī)制以可理解的方式呈現(xiàn)給人類用戶。只有這樣,人類用戶才能真正理解AI系統(tǒng)是如何產(chǎn)生決策的,并且信任這些決策。

張奇:是的,從開發(fā)者的角度去解釋模型可能更方便,因?yàn)殚_發(fā)者可以更深入地理解模型內(nèi)部的運(yùn)作機(jī)制。同時(shí),開發(fā)者也可以通過交互式的方式來解釋模型,例如將模型的決策過程可視化,或者提供一些用戶友好的解釋工具,使得監(jiān)管者和使用者更容易理解模型的運(yùn)作方式和結(jié)果。這也有助于促進(jìn)模型的可解釋性研究,因?yàn)殚_發(fā)者可以根據(jù)用戶的反饋來改進(jìn)解釋工具,提高模型的可解釋性。

李磊:可解釋性、泛化性和可信度,這三個(gè)概念雖然有聯(lián)系,但也有區(qū)別??山忉屝钥梢蕴岣吣P偷姆夯裕⒎强偸窍嚓P(guān)的。舉個(gè)例子,在物理學(xué)中,如果有準(zhǔn)確的定律,我們可以預(yù)測行星的運(yùn)動(dòng)。但如果沒有這些定律,我們可能無法預(yù)測其他星系的運(yùn)動(dòng),這時(shí)可解釋性就能提供幫助。另外可信度方面,即使模型的準(zhǔn)確率很高,也不一定能夠使我們完全相信它。相反,即使準(zhǔn)確率不高,我們也可能相信它。例如在機(jī)器翻譯中,我們知道翻譯質(zhì)量可能存在一些錯(cuò)誤,但我們可以確定大約有多少錯(cuò)誤,從而評估其可信度。盡管準(zhǔn)確率很重要,但我們還需要考慮其他因素來確定模型的可信度。

*本文為機(jī)器之心和騰訊科技聯(lián)合發(fā)布的獨(dú)家內(nèi)容,未經(jīng)授權(quán),請勿轉(zhuǎn)載。

編輯:李海丹 趙楊博

關(guān)鍵詞:

上一篇:每日熱門:哈爾濱承重墻被砸樓棟住戶:整不明白,幾個(gè)“傻子”怎么能把樓給崩了
下一篇:最后一頁