波多野结衣在线无码播放,国产精品99爱免费视频,国产 av 一区二区三区,黄色av中文字幕每天更新

網(wǎng)絡(luò)消費(fèi)網(wǎng) >  科技 > > 正文
她們的冬奧會解說 暖了千萬人的心
時(shí)間:2022-02-12 07:50:09

“武大靖最后一次沖刺!最后一個彎道,武大靖率先沖出彎道,沖過了終點(diǎn)!”2月5日,冬奧會第1個比賽日,中國短道速滑混合團(tuán)體接力項(xiàng)目奪得首金!

細(xì)心的觀眾可能注意到,央視頻畫面中右下角有一個手語主播,更神奇的是,這個手語主播并不是真人,而是手語數(shù)字人——央視頻AI手語翻譯官聆語,為熟悉手語的聽障人士帶來了精彩“解說”。

我們可以看到,聆語的手勢里包含了我們常見的數(shù)字“9”和“3”的手部動作,但與我們理解的意思不同,“3”表示的是“W”,“9”表示“J”,就是“武大靖”首字母的拼音,令人稱奇。

冬奧會開幕以來,冬奧會四金得主王濛再度沖上熱搜,這次的出圈方式是其“嘮嗑”式的解說。隨著“我的眼睛就是尺”等金句頻出,各路網(wǎng)友紛紛表示已被圈粉。足以見得,賽事解說在體育項(xiàng)目中的重要性。然而,大多數(shù)解說員都是通過聲音播報(bào),導(dǎo)致一些聽力障礙人群無法感受解說的魅力,而手語主播的出現(xiàn)就有效彌補(bǔ)了這一難題。

騰訊AI手語翻譯官聆語上線央視頻、騰訊3D手語數(shù)字人小聰上線騰訊體育,為聽障人士帶來手語解說,感受冬奧賽場上的精彩瞬間。小聰、聆語,由騰訊PCG AI交互部聯(lián)合CSIG智能平臺產(chǎn)品部共同打造,與以往的3D AI合成主播不同,手語數(shù)字人通過手勢動作和表情,為聽障人士提供“無聲的溝通”。從技術(shù)上看,騰訊手語數(shù)字人基于騰訊多模態(tài)端到端生成模型,進(jìn)行聯(lián)合建模及預(yù)測生成高準(zhǔn)確率的動作、表情、唇動等序列,實(shí)現(xiàn)自然專業(yè)、易懂度高的手語效果。

近日,為了揭開手語數(shù)字人背后的黑科技,智東西采訪了騰訊PCG AI交互部手語數(shù)字人項(xiàng)目組負(fù)責(zé)人孟凡博,就手語翻譯的難點(diǎn)、騰訊手語數(shù)字人的技術(shù)邏輯,技術(shù)團(tuán)隊(duì)在開發(fā)中遇到的難題等做了詳細(xì)介紹。

手語主播的三大技術(shù)優(yōu)勢

形象逼真、動作自然準(zhǔn)確

讓我們仔細(xì)觀察一下下面動圖里的小聰,是不是感覺近似真人?并且在解說過程中,小聰?shù)念^和肩膀還會隨著手勢動作輕微擺動,手語動作流暢自然,再加上表情、口動等,細(xì)節(jié)也很到位。這些效果的實(shí)現(xiàn),都離不開AI、大數(shù)據(jù)等技術(shù)驅(qū)動,這也正是騰訊手語數(shù)字人的技術(shù)難點(diǎn)所在。

騰訊手語數(shù)字人小聰播報(bào)“中國奪得首金”

大家都能看到,手語數(shù)字人和其他數(shù)字人最大的區(qū)別在于不發(fā)聲,僅僅依靠動作、表情等要素。不論是聆語還是小聰,其形象和手語動作都十分傳神,那么在這背后有哪些黑科技?

1、超寫實(shí)的逼真數(shù)字人效果

對于健聽人而言,我們只需要聲音、音調(diào)就能表達(dá)豐富的意思,而手語以表形表意為主,需要較大幅度的肢體動作、更加逼真的人物形象等,能和觀眾產(chǎn)生交流,更具真實(shí)感與親切感,才能進(jìn)一步使得手語翻譯的完成度更高,在有效模擬真人手語播報(bào)的基礎(chǔ)上,進(jìn)一步提升用戶體驗(yàn)。

為此,騰訊手語數(shù)字人使用了行業(yè)領(lǐng)先的3D重光照掃描還原、面部肌肉驅(qū)動、表情肢體手勢捕捉技術(shù),打造了高度還原真人發(fā)膚、形象逼真、動作自然生動的數(shù)字人模型。

2、高可懂度的手語表達(dá)能力

大部分人可能不了解,學(xué)習(xí)手語其實(shí)和我們學(xué)習(xí)一門外語一樣困難。手語是屬于聽障人士的獨(dú)立語言,與漢語、英語等并列,有自己的語法結(jié)構(gòu)、語序編排等規(guī)則,擁有獨(dú)特的語言體系。和漢語類似,手語也分方言和普通話,為了讓手語普及度進(jìn)一步提高,我國于2019年還專門出版了《國家通用手語詞典》,進(jìn)一步對手語體系進(jìn)行了規(guī)范。

騰訊手語數(shù)字人的手語翻譯系統(tǒng),正是基于《國家通用手語詞典》,形成了成熟的漢語到手語的語序轉(zhuǎn)化和翻譯過程?;谳斎氲慕÷犎苏Z言能夠低延遲生成高準(zhǔn)確率的手語語言表征,通過多模態(tài)生成技術(shù),實(shí)時(shí)預(yù)測生成對應(yīng)的超寫實(shí)3D數(shù)字人驅(qū)動參數(shù),進(jìn)而快速生成數(shù)字人手語播報(bào)視頻。

國家通用手語詞典應(yīng)用程序手語講解示例(圖片截自國家通用手語詞典APP)

在聽障人士可懂度測評中,騰訊手語數(shù)字人的播報(bào)內(nèi)容整體可懂度已經(jīng)達(dá)到90%以上。

3、高接受度的手語展現(xiàn)效果

不了解手語的人,就像我一樣,可能以為手語僅僅需要手部動作,其實(shí)不然,表情、口動、體態(tài)等也都是手語表達(dá)的關(guān)鍵。下面這個例子就十分形象了,“明白嗎?”這個問句需要身體朝向、表情、眼神、口型的聯(lián)動,才能有效傳遞出疑問的語氣。

這一簡單的問句就需要這么多要素,如果換成其他信息更加豐富的句子,手語數(shù)字人將如何精準(zhǔn)傳遞信息呢?

國家通用手語詞典應(yīng)用程序手語講解疑問代詞示例(圖片截自國家通用手語詞典APP)

作為一種視覺語言,手語往往需要手控信息和非手控信息聯(lián)動表達(dá)。除了上面提到的疑問語氣,日常表達(dá)中還有感嘆、肯定等諸多情緒,為了使手語表達(dá)更加地道,精準(zhǔn)的手部動作以及準(zhǔn)確的非手控信息都需要具備。

為了實(shí)現(xiàn)更加準(zhǔn)確、自然的手語表達(dá)效果,騰訊PCG AI交互部建立了漢語-手語翻譯系統(tǒng),可以通過機(jī)器翻譯生成手語表征信息,基于多模態(tài)端到端生成模型進(jìn)行聯(lián)合建模及預(yù)測,生成高準(zhǔn)確率的動作、表情、唇動等序列。

打造手語語言體系

驅(qū)動手語數(shù)字人準(zhǔn)確表達(dá)

在大部分人看來,手語動作比較簡單,不同的詞匯有相對應(yīng)的手勢,其實(shí)真正可懂也很難。打個比方來說,我們學(xué)英語,需要打亂漢語語序,按照英語的方式來思考,才能熟練掌握這門語言。手語也類似,其語序結(jié)構(gòu)、句子表達(dá)、特殊表情等都和漢語不同,有時(shí)一個句子中的詞匯并不需要全都通過手語翻譯,例如量詞、副詞等,但有時(shí)合理地刪減也是一大難點(diǎn)。

在調(diào)研過程中,研究人員發(fā)現(xiàn),現(xiàn)在《新聞聯(lián)播》《北京新聞》等很多欄目中都增設(shè)了手語播報(bào),不過部分聽障人士稱,他們只能理解手語新聞中不到60%的內(nèi)容。

日常的新聞播報(bào)尚且如此,冬奧會這一特殊場景下,項(xiàng)目名稱、技術(shù)動作等手語詞匯翻譯難度可想而知。為了讓手語數(shù)字人適應(yīng)冬奧會這一特殊場景,研究人員也費(fèi)了很大功夫。

孟凡博稱,首先,他們需要訓(xùn)練手語系統(tǒng)應(yīng)對比賽、采訪現(xiàn)場嘈雜的環(huán)境音,前期,技術(shù)團(tuán)隊(duì)選取了大量賽事報(bào)道對手語數(shù)字人進(jìn)行訓(xùn)練;其次,手語作為一門獨(dú)立語言,其文本資源很少,研究團(tuán)隊(duì)通過多方搜集只能找到近160萬有效文本。相比于中英對照的2億文本,這個體量可以說很小了。

更為重要的一點(diǎn)是,體育賽事有很多專業(yè)術(shù)語,手語數(shù)字人在確保信息全面、完整的基礎(chǔ)上,也要保證數(shù)據(jù)的準(zhǔn)確性,因此,騰訊AI交互技術(shù)團(tuán)隊(duì)和專業(yè)手語老師達(dá)成合作,遷移到手語數(shù)字人中的手語都經(jīng)手語顧問反復(fù)確認(rèn)。

因此,面對專業(yè)的冬奧會,在文本不足的條件下,如何打造“真正可懂”的手語數(shù)字人正是騰訊AI交互技術(shù)團(tuán)隊(duì)需要跨越的技術(shù)壁壘。

1、手語表達(dá)語序獨(dú)立,建立映射詞典

看到復(fù)雜的手語動作,我們可能一頭霧水,但通過智東西和專業(yè)人士交流發(fā)現(xiàn),手語表達(dá)語序與漢語大不相同。例如,在手語表達(dá)中,會先打出表達(dá)行為目的的詞語,后打出表示行為的對象的詞語,漢語“我想回家”的手語表達(dá)為“家 回 我想”。

手語翻譯過程中,不僅需要將每個詞都進(jìn)行一一對應(yīng),還需要調(diào)整其順序便于聽力障礙人士理解。因此,騰訊AI交互技術(shù)團(tuán)隊(duì)在漢語和手語之間建立映射詞典和語言體系,將漢語翻譯為符合自然手語規(guī)范和聽力障礙人士表達(dá)習(xí)慣的手語。

2、搭建手語體系框架,按需刪減量詞

手語中表示人名時(shí),會使用拼音,不過,冬奧會作為國際體育賽事,有很多外國運(yùn)動員,相比中文人名的拼音更加復(fù)雜。如果用手語逐個表示的話,可能采訪已經(jīng)結(jié)束了。

在完整表達(dá)句意的前提下,騰訊AI交互技術(shù)團(tuán)隊(duì)使用智能摘要技術(shù),將按篇章摘要升級為按句子壓縮,對ASR識別文本進(jìn)行精簡,抓取關(guān)鍵信息,省略量詞、程度副詞等詞匯。例如常規(guī)解說詞為:“看慢動作可以看出,谷愛凌的這個高度是比其他選手都是要高,非常的飄逸,非常的好看。”可以壓縮為“谷愛凌的高度比其他選手都高,非常飄逸好看。”文本長度縮減為原來解說詞的 60%。這種恰當(dāng)刪減并保持完整句意的摘要能力是手語表達(dá)的關(guān)鍵前提。

騰訊AI交互技術(shù)團(tuán)隊(duì)在手語顧問團(tuán)隊(duì)、手語調(diào)研盤點(diǎn)下,搭建手語語言基礎(chǔ)體系框架,開發(fā)手語翻譯系統(tǒng),只需輸入健聽人語言,即可通過機(jī)器翻譯生成高準(zhǔn)確率的手語語言表征。

此外,為了保證原視頻和手語視頻時(shí)間長度的一致性,手語數(shù)字人的翻譯過程會將漢語句子進(jìn)行動態(tài)調(diào)控。根據(jù)時(shí)間、句子意思等,壓縮文本,最終生成相對應(yīng)的手語視頻。

孟凡博說:“在視頻和音頻處理方面我們做了容錯對齊處理,直播翻譯過程延遲控制在可接受范圍內(nèi)。為了保證后續(xù)鏈路上手語視頻處理的穩(wěn)定性和觀眾體驗(yàn)的一致性,我們還對音頻傳輸和識別輸入做了平滑處理。目前,漢語和手語的壓縮比大概在60%,會因?qū)嶋H情況不同進(jìn)行調(diào)整。”

3、集成手控和非手控信息,可懂度超90%

漢語的神奇之處在于,同一句話不同語調(diào)意思完全不同。那么在手語中,同樣的句子如何表現(xiàn)說話人的不同情緒,更加多變的表情、手勢、體態(tài)如何準(zhǔn)確傳遞句意,這也是打造手語數(shù)字人的技術(shù)難點(diǎn)所在。

手語需要多個要素綜合表達(dá),才能向聽障人士傳達(dá)完整的意思。研究人員基于騰訊多模態(tài)端到端生成模型,提取手語語言體系下的多模態(tài)信息,如手勢詞匯、表情口動、體態(tài)節(jié)奏、語序韻律等,將手語動作和面部表情同步,進(jìn)一步優(yōu)化手語表現(xiàn)力。

通過這項(xiàng)技術(shù),AI手語可懂度達(dá)90%以上。

打造可視化動作編輯平臺

低延遲生成手語視頻

上面提到的這些技術(shù)讓手語數(shù)字人能夠變得真正可懂,但是如何讓這個技術(shù)真正為聽障人群帶來福利,能夠有效應(yīng)用到新聞播報(bào)中,為此騰訊AI交互技術(shù)團(tuán)隊(duì)打造了一套可視化動作編輯平臺,助力其規(guī)?;瘧?yīng)用。

可視化動作編輯平臺基于完備的手語翻譯系統(tǒng)、成熟的PaaS系統(tǒng)等,在保證語義完整、準(zhǔn)確的基礎(chǔ)上,能夠?qū)崿F(xiàn)低延遲快速翻譯,實(shí)現(xiàn)“秒翻手語”。

談及讓手語數(shù)字人真正可用,孟凡博說:“面向冬奧會場景的手語數(shù)字人只是我們的第一步,未來我們將考慮聽障人士在實(shí)時(shí)場景和非實(shí)時(shí)場景的應(yīng)用,覆蓋聽障人士的不同需求。”

1、低延遲生成手語視頻

可視化動作編輯平臺的強(qiáng)大之處在于,可快速從漢語文本、視頻文件生成手語視頻,在這一環(huán)節(jié)中,轉(zhuǎn)換、翻譯所需的時(shí)間較短,有可能在你聽到新聞播報(bào)的瞬間,手語數(shù)字人也已經(jīng)完整傳遞了該內(nèi)容。

那么,這個系統(tǒng)生成手語視頻的具體實(shí)現(xiàn)過程是什么樣?在該系統(tǒng)中輸入一段文本或視頻進(jìn)行預(yù)處理,內(nèi)容處理過程包括多模態(tài)視頻內(nèi)容提取、視頻語音提取、智能打軸、內(nèi)嵌字幕OCR提取等,生成手語翻譯要素,包括手勢、肢體、表情、唇動等,進(jìn)一步保證語序轉(zhuǎn)化、表情體態(tài)等特征的準(zhǔn)確性,依托超寫實(shí)數(shù)字人驅(qū)動,快速生成與之對應(yīng)的手語視頻。

2、滿足有稿和無稿場景

目前,大部分電視節(jié)目都有字幕,不過一些直播節(jié)目、廣播節(jié)目中可能并沒有字幕,只有聲音。在這種情況下,騰訊手語數(shù)字人同樣能應(yīng)對,不光可以提取文本信息,也可以識別音頻、視頻。

在實(shí)時(shí)新聞信息等場景,為了進(jìn)一步促進(jìn)信息無障礙溝通,通過手語數(shù)字人向聽障人士傳遞更多信息,騰訊的可視化動作編輯平臺可同時(shí)滿足無稿和有稿場景,并且支持以視頻流的形式為直播節(jié)目加入手語解說能力。

輸入節(jié)目源后,可視化動作編輯平臺可提取音頻流、視頻流,提取文本信息進(jìn)行手語翻譯,快速生成手語視頻后,再對其進(jìn)行編碼,進(jìn)行視頻流傳輸,與節(jié)目視頻相融合,面向直播場景形成視頻推流。

3、快速學(xué)習(xí)更新熱詞

現(xiàn)在越來越多的熱詞、新詞出現(xiàn)在我們的日常交流中,同樣的詞語放到網(wǎng)絡(luò)上就有截然不同的意思,當(dāng)然,很多聽障人士也會緊跟潮流。并且現(xiàn)在很多視頻中都會頻繁使用這些詞匯,這也為手語播報(bào)提出了挑戰(zhàn)。

騰訊手語數(shù)字人能自行學(xué)習(xí),快速補(bǔ)充海量新詞、熱詞,并且研究人員專門針對冬奧會中體育競賽手語詞匯進(jìn)行了整理和優(yōu)化。目前騰訊手語數(shù)字人已經(jīng)具備完整的體育解說手語能力。

談到手語詞庫的更新迭代,孟凡博透露,他們?yōu)槭终Z數(shù)字人創(chuàng)建了可視化動作編輯平臺,該平臺可以實(shí)現(xiàn)手語動作批量編輯與生成,無須對每個詞進(jìn)行動捕,極大提升了手語詞匯生產(chǎn)效率。

騰訊AI交互技術(shù)團(tuán)隊(duì)多年來深耕數(shù)字人技術(shù),已有大數(shù)據(jù)平臺可以將高頻中文文本引入預(yù)訓(xùn)練模型中,同時(shí)動態(tài)加載檢索、標(biāo)注得到的新、熱詞手語打法,并與后端結(jié)合,根據(jù)詞匯類型預(yù)測部分oov詞匯打法,就能確保最終輸出的連貫性。

結(jié)語:騰訊手語數(shù)字人助力無障礙信息傳播

作為我國超寫實(shí)3D數(shù)字人領(lǐng)域的頭部企業(yè),騰訊AI交互技術(shù)團(tuán)隊(duì)將目光聚焦到聽障人群中,沖上更高的技術(shù)壁壘。騰訊不斷精進(jìn)數(shù)字人技術(shù),為內(nèi)容播報(bào)需求強(qiáng)勁的行業(yè)提供新的輸出方式,拉近人與機(jī)器的距離。

騰訊AI手語主播系統(tǒng)既要完成語序構(gòu)建、表情生成等手語翻譯,還要依托超寫實(shí)數(shù)字人低延遲輸出手語視頻。對于觀眾來說,我們只能看到最后生成的手語視頻,但在之后的技術(shù)體系搭建卻十分龐大,這也是手語數(shù)字人技術(shù)發(fā)展的壁壘所在。

科技飛速發(fā)展的當(dāng)下,騰訊一直在思考如何用科技拉近2700萬聽障人群與社會的距離。此次,騰訊手語數(shù)字人聆語、小聰在冬奧會這個重要節(jié)點(diǎn)上線,能受到更多有效用戶的關(guān)注。與此同時(shí),孟凡博稱,圍繞冬奧會場景騰訊也在不斷優(yōu)化相關(guān)功能以兼容更多場景。未來,騰訊手語數(shù)字人也將在更多場景提供服務(wù),在新聞報(bào)道之外,探索生活服務(wù),文化文旅等線下場景,秉持科技向善,助力打造無障礙信息傳播環(huán)境。

關(guān)鍵詞:

版權(quán)聲明:
    凡注明來網(wǎng)絡(luò)消費(fèi)網(wǎng)的作品,版權(quán)均屬網(wǎng)絡(luò)消費(fèi)網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,并注明"來源:網(wǎng)絡(luò)消費(fèi)網(wǎng)"。違反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
    除來源署名為網(wǎng)絡(luò)消費(fèi)網(wǎng)稿件外,其他所轉(zhuǎn)載內(nèi)容之原創(chuàng)性、真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考并自行核實(shí)。
熱文

網(wǎng)站首頁 |網(wǎng)站簡介 | 關(guān)于我們 | 廣告業(yè)務(wù) | 投稿信箱
 

Copyright © 2000-2020 www.sgycos.com All Rights Reserved.
 

中國網(wǎng)絡(luò)消費(fèi)網(wǎng) 版權(quán)所有 未經(jīng)書面授權(quán) 不得復(fù)制或建立鏡像
 

聯(lián)系郵箱:920 891 263@qq.com

備案號:京ICP備2022016840號-15

營業(yè)執(zhí)照公示信息