8月31日,百度、百川智能、商湯科技等8家企業(yè)或機(jī)構(gòu)已首批通過《生成式人工智能服務(wù)管理暫行辦法》備案,可正式上線并面向公眾提供服務(wù)。記者通過實(shí)際測評,發(fā)現(xiàn)文心一言部分文字、圖片等問題回答比較精準(zhǔn),但一些容易引起歧義或有一定深度的問題,則容易回答不準(zhǔn)確,甚至?xí)霈F(xiàn)類似于ChatGPT“一本正經(jīng)胡說”的情況。
(資料圖片僅供參考)
對此,齊魯工業(yè)大學(xué)(山東省科學(xué)院)計(jì)算機(jī)系教授鹿文鵬解讀稱,大模型都是通過大量數(shù)據(jù)“喂”出來的,而且要靠高質(zhì)量的數(shù)據(jù)。目前在文字、圖像、設(shè)計(jì)等方面,AI聊天軟件已經(jīng)成為不錯的輔助工具。在部分領(lǐng)域,大模型仍處于“幼兒期”,無法準(zhǔn)確把握用戶的意圖,對此應(yīng)該包容,后期通過不斷學(xué)習(xí)、進(jìn)化,當(dāng)數(shù)據(jù)量大到一定程度,它所達(dá)到的能力將比我們想象地要強(qiáng)很多。
實(shí)測“文心一言”:會順著用戶的話說,畫老婆餅仍會有“老婆”
31日,記者打開文心一言官網(wǎng)測評體驗(yàn)。對于同一問題,用戶如果認(rèn)為文心一言回答不準(zhǔn)確,可以點(diǎn)擊左下方的“重新生成”,當(dāng)前最多支持5次重新回答。文心一言會提供“本次回答相較上次回答:更好、更差、差不多”的評價選項(xiàng),供用戶對于不同的回答進(jìn)行評價和反饋。
記者通過多個問題對文心一言進(jìn)行了測試。在“濟(jì)南一日游規(guī)劃”中,文心一言給出了千佛山、大明湖、珍珠泉、美食街、山東省博物館等景點(diǎn)推薦,并根據(jù)這幾個景點(diǎn)的實(shí)際位置分布,給出了比較合理的游覽路線規(guī)劃。
3歲孩子叛逆如何教育
對于“3歲孩子叛逆,怎么教育?”的問題,文心一言從“給予安全感、建立良好的溝通方式、設(shè)立明確的規(guī)則和限制、培養(yǎng)孩子的自我控制能力、給予正面激勵”等5個方面給出了較為合理的建議,并總結(jié)“根據(jù)孩子的具體情況,采取適當(dāng)?shù)慕逃椒ǎ瑤椭⒆涌朔涯媲榫w,健康成長”。
但在回答“泰山是濟(jì)南哪里的景點(diǎn)?”這一問題時,文心一言并未糾正提問中的錯誤,而是先在第一段順著用戶的說法回答“泰山位于山東省濟(jì)南市泰安市,是濟(jì)南的著名景點(diǎn)之一”。在第二段的介紹中,文心一言又給出了正確的回答“泰山位于泰安市泰山區(qū)”。除了第一段的錯誤回答,回答中的其他信息都非常準(zhǔn)確、精煉。
面對“寫一張請假條”的問題,文心一言并未詢問或讓用戶選擇是學(xué)校請假條還是公司請假條,而是直接給出了一張學(xué)生請假條。從內(nèi)容來看,這張請假條做到了用語禮貌、文字簡潔、格式準(zhǔn)確、要素齊全,并給出了“我已安排好相關(guān)的學(xué)習(xí)計(jì)劃,并會盡快補(bǔ)上課堂上的內(nèi)容”的內(nèi)容,堪稱學(xué)生請假條的范本。
記者提問“用柱狀圖展示山東省各市GDP情況”,文心一言用柱狀圖畫出了青島、濟(jì)南、煙臺、濰坊、東營、濱州6個市的2021年GDP統(tǒng)計(jì)數(shù)據(jù),并按數(shù)據(jù)大小分別排列,但未完整展示山東省16市的GDP情況。
左圖為今年3月文心一言測試階段畫圖,右圖為8月31日文心一言畫的圖
隨后,記者用文心一言畫了幾幅圖。在“畫一個夫妻肺片”的問題中,文心一言相對準(zhǔn)確的畫出了5張“一盤切成片的中式?jīng)霾恕?,并有辣椒、香菜末、醬汁等元素。就在今年3月份剛推出測試版時,面對這個問題,文心一言給出的答案還是在夫妻二人的卡通圖片畫上未知動物的肺。由此可見,文心一言已經(jīng)根據(jù)用戶反饋和數(shù)據(jù)訓(xùn)練,做出了更為精準(zhǔn)的回答。
然而面對“畫一個老婆餅”的問題,文心一言給出的5張圖片中,有3張是將“老婆”和餅這兩種元素融合在了一張圖片中,另外2張只畫了餅。
專業(yè)學(xué)者:寬容對待大模型高質(zhì)量的大數(shù)據(jù)訓(xùn)練將使它超乎人類想象
根據(jù)網(wǎng)友們反饋的問答結(jié)果,有業(yè)內(nèi)人士總結(jié)稱,目前文心一言的缺點(diǎn)之一是語義理解能力有限,在處理一些語義模糊或不確定的文本時,可能會出現(xiàn)理解偏差或誤判。這主要是由于語言本身的復(fù)雜性和多樣性,以及模型在學(xué)習(xí)過程中可能存在的數(shù)據(jù)偏差或模型參數(shù)優(yōu)化不足等問題。
“其實(shí)如果只是看‘老婆’、‘餅’,文心一言已經(jīng)做的不錯了,關(guān)鍵是大模型還沒有人那么強(qiáng)的語義理解能力?!饼R魯工業(yè)大學(xué)(山東省科學(xué)院)計(jì)算機(jī)科學(xué)與技術(shù)系鹿文鵬教授分析稱,AI大模型在畫圖時擅長分析用戶要求里的關(guān)鍵字并進(jìn)行體現(xiàn),而對一些比較高深、需要意會的內(nèi)容,目前它理解起來還是有一定困難的。
鹿文鵬教授分析稱,人工智能大模型都是通過大量數(shù)據(jù)“喂”出來的,目前訓(xùn)練大模型從技術(shù)上來講難度不大,但關(guān)鍵還是要靠高質(zhì)量的數(shù)據(jù)。“它不可能剛開始就很完美,但它的學(xué)習(xí)能力很強(qiáng),有人類的反饋進(jìn)步改善會非??臁.?dāng)模型的(數(shù)據(jù)量)大到一定程度時,就會發(fā)現(xiàn)它的能力比我們想象的要強(qiáng)很多?!?/p>
同時,對于“泰山是濟(jì)南哪里的景點(diǎn)?”這類故意誘導(dǎo)的問題,鹿文鵬教授分析認(rèn)為,面對這種可能引起歧義的問題,大模型的理解能力會相對弱一些,無法準(zhǔn)確把握用戶的意圖,有時也會在用戶的故意誘導(dǎo)下說一些不準(zhǔn)確的話。
因此,鹿文鵬建議用戶對大模型要有一定的包容性。他類比稱,如果把“泰山是濟(jì)南哪里的景點(diǎn)?”“畫一個老婆餅”這類問題拿給人類的小朋友,他們也不知道什么意思,也很可能也會畫錯、說錯。
“類似地也可以理解為大模型正處于幼兒階段,后期會有越來越多的人教它,它是會學(xué)習(xí)的,后面肯定會進(jìn)化。(老婆餅之類的問題)現(xiàn)在可能不行,到下個月估計(jì)就畫得很好了。”鹿文鵬稱。
“現(xiàn)在我就用一些AI大模型去幫助批改學(xué)生論文,它在檢查、文字校對方面做得非常好,可以幫助減輕一些負(fù)擔(dān),但最后肯定要由人去把關(guān)。”鹿文鵬觀察認(rèn)為,在實(shí)際應(yīng)用領(lǐng)域,文字、圖像、設(shè)計(jì)、編程等領(lǐng)域的工作者把文新一言、ChatGPT等當(dāng)成輔助工具是非常好的。
他舉例稱,目前讓這些大模型寫個摘要、會議日程、發(fā)言稿等,它們都能做得很好;設(shè)計(jì)工作者通過給出一個設(shè)計(jì)草圖,AI軟件就能生成一批類似的圖供挑選,不需要再自己絞盡腦汁地一張張?jiān)O(shè)計(jì),其中有些圖甚至能超過人的創(chuàng)意。
鹿文鵬分析,AI大模型的未來應(yīng)用前景很廣。目前大模型正往多模態(tài)、垂直領(lǐng)域等方向發(fā)展。一方面,它從簡單的文字交互發(fā)展到圖片、數(shù)據(jù)圖等更多模態(tài),另一方面,在政務(wù)自動問答服務(wù)、法律咨詢、醫(yī)療咨詢等特定領(lǐng)域,大模型也能做出一些相對精確的回答。
(來源:海報(bào)新聞)