性欧美老肥妇喷水,熟女高潮久久久久久久1f,无码人妻精品中文字幕免费东京热,午夜人妻久久久久久久久

當(dāng)前位置:首頁 > 今日熱點(diǎn) > 產(chǎn)經(jīng)綜合 > 正文

閩南話翻譯系統(tǒng)?廈門大學(xué)團(tuán)隊(duì)早有推出!

2022-10-24 09:46:42    來源:廈門日報(bào)    

10月19日,在美國Meta公司公布閩南話翻譯系統(tǒng),Meta首席執(zhí)行官馬克·扎克伯格親自演示系統(tǒng)把閩南話翻譯成英語時(shí),萬里之外的廈門大學(xué)信息學(xué)院副教授、智能語音實(shí)驗(yàn)室負(fù)責(zé)人洪青陽收到一大堆朋友的簡訊,他們迫不及待地想告訴他:小扎對閩南話下手了!但是,你們兩年前不是已經(jīng)推出閩南話翻譯系統(tǒng)了嗎?

是的!洪青陽科研團(tuán)隊(duì)和廈大人文學(xué)院許彬彬科研團(tuán)隊(duì),在2019年推出閩南方言人工智能語音系統(tǒng),這是一個(gè)聽得懂閩南話、會說閩南話、也可以寫的AI(人工智能)驅(qū)動(dòng)的閩南話語音翻譯系統(tǒng),幫助許多人體會用“中國最難學(xué)方言之一”交流的樂趣和便利。

它能做什么?


(資料圖片)

可實(shí)時(shí)翻譯還能識別文本

10月22日,洪青陽在實(shí)驗(yàn)室演示廈大版的閩南話翻譯系統(tǒng)。系統(tǒng)的小助手用閩南話說:聽說現(xiàn)在可以將閩南話翻譯成英語,真巧,我們也有閩南話AI……小助手一邊說,系統(tǒng)實(shí)時(shí)把它的閩南話翻譯成中文文字。

不僅聽得懂,系統(tǒng)還會說。洪青陽隨后示范實(shí)時(shí)翻譯,他用閩南話說:即陣仔有閑無?系統(tǒng)可以立刻翻譯為普通話“現(xiàn)在有空嗎?”當(dāng)然,用普通話說,系統(tǒng)也會翻譯成閩南話,而且是有腔調(diào)的閩南話。小助手說,翻譯不限短句,理論上說多長就可以翻譯多長。

此外,系統(tǒng)還可以識別不同地區(qū)不同口音閩南話,包括廈門、泉州、漳州、潮汕等地。

洪青陽團(tuán)隊(duì)認(rèn)為,從現(xiàn)有資料看,Meta是語音到語音的翻譯,沒有產(chǎn)生文字,技術(shù)方案是從端到端,研究具有開創(chuàng)性,但還不夠靈活,比如不能形成識別文本,要延伸到其他應(yīng)用較難。

在這方面,廈大版閩南話翻譯系統(tǒng),有其先進(jìn)性——廈大版還涉及文字,可以將漢字轉(zhuǎn)換合成閩南話發(fā)音,還有語音識別、合成工具,可以將閩南話翻譯成普通話,普通話翻譯成閩南話。

美國版閩南話翻譯系統(tǒng)是把閩南話翻譯為英語,洪青陽說,對于廈大版閩南話翻譯系統(tǒng)來說,這毫無問題,最難的部分是將閩南話翻譯并顯示為普通話,而這已經(jīng)解決了。

目前,廈大團(tuán)隊(duì)的閩南話翻譯系統(tǒng)已經(jīng)上線,在微信的小程序搜索“閩南話識別”和“AI語音合成”,就可以實(shí)現(xiàn)閩南話和普通話的無障礙溝通。

洪青陽說,2019年推出系統(tǒng)后,依舊在不斷完善升級——當(dāng)發(fā)音速度不一、吞音等情況出現(xiàn)時(shí),系統(tǒng)的背后還有一位“把關(guān)人”。當(dāng)遇上系統(tǒng)無法識別的語音時(shí),許彬彬團(tuán)隊(duì)就會進(jìn)行分析,把新的表達(dá)整理成文檔,擴(kuò)充詞典和句子語料。與此同時(shí),洪青陽團(tuán)隊(duì)在系統(tǒng)后臺不斷完善算法,以學(xué)習(xí)到更多口音和生僻詞匯。

廈大團(tuán)隊(duì)表示,他們在實(shí)驗(yàn)室完成0到1的研發(fā),希望有更多人和社會資源參與進(jìn)來,完成1到100的產(chǎn)業(yè)化,助力于閩南話學(xué)習(xí)和人際交往等等。

它牛在哪里?

聽得懂不同口音的“豬”

閩南話的AI翻譯,難度不小。閩南話存在非常多的多音字,復(fù)雜的文白現(xiàn)象,有音無字的問題等,洪青陽說,這對訓(xùn)練模型中語音數(shù)據(jù)與其對應(yīng)音素的正確映射,帶去較大的麻煩。

舉個(gè)例子大家或許就會明白,廈門人經(jīng)常說,“豬”牽出廈門島就不叫“豬”了,意思是說,單是“豬”,島內(nèi)和島外發(fā)音就不一樣,更不用說廈漳泉地區(qū)了。廈大版的閩南話翻譯系統(tǒng)解決了這類難題,從目前看,有三大亮點(diǎn)。

有地基

重新建立閩南話發(fā)音詞典

洪青陽介紹,翻譯的最大難題是要如何把閩南話發(fā)音拆分為聲母和韻母,它不同于普通話的聲母韻母,盡管之前也有一些閩南話的標(biāo)音方法,但是,廈大團(tuán)隊(duì)發(fā)現(xiàn),這種自創(chuàng)的閩南話發(fā)音難以和AI有機(jī)結(jié)合起來,因此廈大研究人員自己建立一套兼容各地不同口音閩南話發(fā)音的體系,等于是為各種口音的閩南話建立一個(gè)基本的“地基”,當(dāng)然,它不同于普通話發(fā)音,它是有九個(gè)聲調(diào)的。

有資料庫

囊括廈漳泉多地的語音資料

建立語音資料庫,用大白話說,這個(gè)語音資料庫要有足夠多人的語音,口音要不同,還要有男女老少語音,這樣,AI才會通過語音資料庫去識別不同地區(qū)不同口音的閩南話。

這是基于許彬彬近十年來的研究成果。許彬彬帶領(lǐng)團(tuán)隊(duì)借鑒整理了大量語音資料——囊括省內(nèi)廈漳泉多地的閩南方言、文本,甚至收集境外多處講閩南話的地點(diǎn)的語音材料。

此外,每到寒暑假,許彬彬團(tuán)隊(duì)還會去各地進(jìn)行田野調(diào)查。許彬彬早前接受本報(bào)采訪時(shí)曾介紹:“省內(nèi)的德化、漳浦、南靖、東山等,以及菲律賓北部城市、美國東部地區(qū),每一個(gè)地點(diǎn)至少要停留5天,盡可能全面地收集該地區(qū)語音資料?!?/p>

有模型

設(shè)計(jì)聲學(xué)模型和語言模型

洪青陽團(tuán)隊(duì)設(shè)計(jì)了閩南話的聲學(xué)模型和語言模型,其中聲學(xué)模型與發(fā)音詞典關(guān)聯(lián),盡可能學(xué)習(xí)到各地的口音,以不斷提升系統(tǒng)的魯棒性(控制系統(tǒng)的穩(wěn)定性),語言模型則采用具有豐富語料的普通話文本訓(xùn)練,對用戶上下文內(nèi)容進(jìn)行有效約束。

洪青陽說,這里的難點(diǎn)是閩南話拼音和普通話詞匯的對應(yīng),團(tuán)隊(duì)因此又設(shè)計(jì)了識別詞典,并整合到解碼系統(tǒng)里,最終能直接用普通話文字顯示識別內(nèi)容。對于語音合成,洪青陽團(tuán)隊(duì)采用端到端建??蚣埽⒆隽饲岸说拇罅績?yōu)化,使閩南話合成更加自然,更加逼真,也更快捷。

除了許彬彬所提供的語音資料外,他們還邀請了眾多志愿者參與識別測試,讓系統(tǒng)“學(xué)習(xí)”不同口音的閩南話。待系統(tǒng)基本“學(xué)會”不同口音的閩南話后,洪青陽又給系統(tǒng)加大了難度——文讀(讀書認(rèn)字時(shí)教的語音)和白讀(日常生活中廣泛使用的語音)都要會。

閩南話中存在大量多音字,有著復(fù)雜的文讀白讀現(xiàn)象,以“大學(xué)”這一詞為例,就有文讀和白讀兩種讀法。研究人員對閩南話語音識別采取了特定規(guī)則的發(fā)音詞典標(biāo)注,并用革新后的算法建立了閩南話語音識別模型。

為什么選它?

全球約七千萬人說閩南話

在美國Meta公司公布閩南話翻譯系統(tǒng)后,很多人很吃驚:為什么是閩南話?

原因也很簡單,目前,全世界大約有7000萬人在說閩南話,分布在福建的廈、漳、泉地區(qū),臺灣地區(qū),廣東潮汕,雷州半島,海南島部分地區(qū)以及浙江溫州部分鄉(xiāng)鎮(zhèn)等,此外還有廣闊的東南亞。與此同時(shí),閩南話被稱為“中國最難學(xué)方言之一”。

2013年,洪青陽和許彬彬團(tuán)隊(duì)開始閩南話翻譯系統(tǒng)研究,洪青陽說,這源于團(tuán)隊(duì)中不少人都是閩南人,有閩南情懷。而且,閩南話是我國重要方言之一。與此同時(shí),許彬彬深耕閩南方言等漢語方言研究多年。

當(dāng)然,Meta公司認(rèn)為,之所以選擇閩南話,還有一個(gè)原因:為了解決缺乏文字語種的語言翻譯難題。但是,洪青陽說,其實(shí)閩南話是有用于書面記載的文字和發(fā)音詞典。

關(guān)鍵詞: 廈門大學(xué)

上一篇:
下一篇: