中國團隊在視覺常識推理領域獲新突破研究機構紛紛參與

時間：2020-12-02 09:33:46

視覺常識推理VCR (Visual Commonsense Reasoning )是人工智能領域的前沿熱點問題，從處理類型單一的數(shù)據(jù)到跨媒體認知、學習和推理的“跨媒體智能”被認為是五大智能方向。

近日，騰訊微視視頻理解團隊在多模態(tài)理解領域最權威排行榜之一VCR任務中榮登榜首。該團隊提出的BLENDer(BimodaL ENcoDer)模型超越多家研究機構的模型效果，一舉成為單、多模型的三項指標第一，值得注意的是，BLENDer僅憑單模型效果便超越了此前榜單上的多模型最好效果，賦予了機器更強大的理解和認知能力，并深度應用到短視頻領域。

VisualCommonsense Reasoning (VCR)任務于2018年由華盛頓大學的研究人員首次提出，任務旨在將圖像和自然語言理解二者結合，驗證多模態(tài)模型高階認知和常識推理的能力，讓機器擁有“看圖說話”的能力,例如VCR能夠通過圖片中人物的行為，進一步推理出其動機、情緒等信息。VCR榜單是多模態(tài)理解領域最權威的排行榜之一，也是當前圖像理解和多模態(tài)領域層次最深、門檻最高的任務之一，吸引了微軟、谷歌、Facebook、百度、UCLA等國內(nèi)外公司和研究機構紛紛參與。

據(jù)相關負責人介紹，BLENDer模型賦予了平臺更強大的認知能力，使得包含文本、音頻、視頻等多種媒體信息在內(nèi)的短視頻內(nèi)容，能夠更好的做到分類和識別，更加精準理解和挖掘這些海量的跨媒體信息。

在BLENDer模型中，第一階段以NLP中的Bert模型為起點，結合海量數(shù)據(jù)中抽取得到的數(shù)百萬張圖片和對應描述文本作為BLENDer的輸入進行多模態(tài)訓練;第二階段，在視覺常識推理數(shù)據(jù)集上學習電影中的場景和情節(jié)，使模型在新數(shù)據(jù)上獲得更好的遷移能力;第三階段，引入最終問答任務，讓BLENDer利用已有的知識和常識對現(xiàn)有問題進行人物-人物、人物-場景之間關系的挖掘和關聯(lián)進行推理，得到最終的答案。

未來，人工智能將具備更加多元、深度的交流學習能力，而技術的創(chuàng)新和精進將進一步推動AI技術在短視頻業(yè)務中智能交互場景的落地。(張銘陽)

關鍵詞：中國團隊視覺常識推理

延伸閱讀:

火速變現(xiàn) 微軟開始在ChatGPT聊天中插廣告 2023-03-30
全球播報:美參議員反對封禁TikTok：不喜歡別用憲法沒有賦予封禁權 2023-03-30
一枚超2億元的腕表背后：“表王”百達翡麗的危機 2023-03-29
環(huán)球看點！3億個工作將被ChatGPT取代更要擔心的卻不是失業(yè) 2023-03-29
當前聚焦：賽博難民打響反AI第一槍 2023-03-29
天天實時：誰在取代老干媽？ 2023-03-29
天天新資訊：你現(xiàn)在聽的歌很可能是AI唱的 2023-03-29
每日速看!快手CEO程一笑：生成式AI與業(yè)務場景融合價值潛力大 2023-03-29

版權聲明：
凡注明來網(wǎng)絡消費網(wǎng)的作品，版權均屬網(wǎng)絡消費網(wǎng)所有，未經(jīng)授權不得轉載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權使用作品的，應在授權范圍內(nèi)使用，并注明"來源：網(wǎng)絡消費網(wǎng)"。違反上述聲明者，本網(wǎng)將追究其相關法律責任。
除來源署名為網(wǎng)絡消費網(wǎng)稿件外，其他所轉載內(nèi)容之原創(chuàng)性、真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考并自行核實。

熱文