不是只有ai這麼簡單:gan研究成果如何重塑視訊會議

不是只有人工智能這麼簡單:氮化镓研究成果如何重塑視訊會議

氮化镓研究成果為基礎的英伟达玛克辛雲端人工智能視訊串流SDK
CVPR 2021大會中展示

英伟达(輝達研究人員開發的人工智慧(AI)協助下,從床上起床、打開筆電電源和網路攝影機,便能在每次進行視訊通話時,呈現完美的畫面。

Nvidia針對視訊會議推出的英伟达玛克辛sdk,背後運用眾多深度學習模型,其中包含Vid2Vid客串,該模型使用生成對抗網路(甘),只要使用單一人像平面照片,就能在視訊通話中合成出說話者栩栩如生的立體頭像。

參與者只需要在加入視訊通話前先上傳一張參考圖片,可以是自己的真實照片或卡通圖片,就能使用這項功能。開會時,ai模型會抓取每個人的即時動作,接著將這些動作套用在先前上傳的靜態圖片上。

這意味著只要與會者先上傳好穿著正式服裝的照片,就算剛起床且頂著一頭亂髮,身上還穿著睡衣,直接進行會議也沒問題,因為AI會將與會者的臉部動作套用在靜態的參考照片上,在會議平台中顯現出體面的打扮。要是與會者將身體轉向左邊,這項技術可以調整視角,讓這個人看起來像是正對著網路攝影機。

除了讓與會者看起來體面之外,這項AI技術還能將視訊會議所需的頻寬減少十倍,以避免出現畫面抖動和延遲的情況。該技術很快就會在NVIDIA视频编解码器SDK中,作為AI Face Codec供大家使用。

這項專案的共同作者,也是NVIDIA的研究人員劉洺堉(Ming-Yu Liu)表示:“許多人使用的網路頻寬有限,但還是想要與親友們流暢地在網路上聊的天,而這項技術除了能協助他們之外,此基本技術還能協助動畫師,照片編輯員和遊戲開發者完成手上的工作。」

Nvidia本週將於著名的计算机视觉与模式识别会议(CVPR)大會上發表Vid2Vid客串,這是nvidia在這場線上大會中發表的28篇論文之一。Vid2Vid客串也可以在AI操场上找到,任何人都可以在那裡親身體驗我們的研究演示。

人工智慧在大會上搶盡風頭

為了向經典的竊盜類電影還有Netflix的熱門節目致敬,NVIDIA的研究人員在某次的視訊會議中,讓他們的對話頭像GAN模型大顯身手。在演示的過程中強調Vid2Vid客串的重點功能,包括臉部重新定向、動畫化身和資料壓縮。你可以透過以下影片更加暸解Vid2Vid及Vid2Vid客串。

這些功能很快就會出現在NVIDIA玛克辛SDK內,為開發人員提供經最佳化調整的預先訓練模型,以用於視訊會議及直播串流中的視訊,音訊及擴增實境效果。

開發人員已經可以使用玛克辛AI的效果,包括智慧降噪,視訊畫質提升與人體姿勢預估。供免費下載的SDK還能搭配英伟达贾维斯平台使用,以用於包括轉錄和翻譯在內的對話式ai應用項目。

人工智能向你打招呼

Vid2Vid客串只需要兩個元素,便能建立出用於視訊會議的逼真AI對話頭像,包含一張使用者的臉部照片以及一個視訊串流內容,其將決定這個影像要如何進行動作。

該模型在Nvidia DGX系統上使用 18 萬個高品質對話頭像的資料集來進行訓練。該網路學習辨識二十個關鍵點,以便在沒有人類加以標柱的情況下,針對臉部動作建立模型。這些關鍵點針對包括眼睛、嘴巴和鼻子在內的特徵位置進行編碼。

接著,模型會從通話者的參考圖片中擷取這些關鍵點,通話者的圖片可以事先發送給其他參與視訊會議的人,或從過往的會議中重複使用。如此一來,視訊會議平台只需發送說話者臉部關鍵點的動作資料,而不用在每一個與會者之間發送龐大的即時視訊串流內容。

對接收者來說,gan模型在接收端使用這些資訊來合成一個模仿參考圖片外觀的視訊內容。

這項技術只需要壓縮和來回發送頭部位置及關鍵點,不用發送完整的視訊串流內容,便能將視訊會議的頻寬需求減少十倍,讓用戶擁有更流暢的通話體驗。因此,可以在不影響視覺品質的情況下,配合各種頻寬環境來調整模型,以傳輸不同數量的關鍵點。

使用者也能自由調整產生出的對話頭像視角,從側面或正面顯示、調低或調高攝影機的角度。照片編輯員同樣能將這項功能應用在平面照片上。

NVIDIA的研究人員發現,Vid2Vid客串可以產生更為真實清晰的結果,不管參考圖片和視訊內容是否出自同一個人,還是當AI把一個人的動作轉移到另一個人的參考圖片上,它的表現都比最先進的模型更出色。

後面這項功能可以把說話者的臉部動作,用在視訊會議裡的數位化身上,並讓它們動起來,甚至是讓遊戲或卡通人物呈現出更有真實感的表情和動作。

Vid2Vid客串模型論文的作者為NVIDIA研究人員Arun Mallya和兩位來自台灣的Ting-Chun王、和Ming-Yu刘NVIDIA的研究團隊由全球兩百多名科學家組成,專注於ai,電腦視覺,自動駕駛車,機器人和繪圖等領域。

在此特別感謝於Netflix播出的“紙房子”影集中,替教授進行英語配音的演員Edan摩西,感謝他為上述我們最新的ai研究成果影片所做出的貢獻。

數碼領域

嘉民構建香港頂尖數據中心及科技樞紐 嘉民荃灣西項目正式落成

數碼領域
2022-08-31 0
嘉民構建香港頂尖數據中心及科技樞紐 嘉民荃灣西項目正式落成 嘉民集團最新發展的嘉民荃灣西項目正式落成。該項目將舊紗廠原址重建並轉型為香港最大型的數據中心及科技樞紐之一,將成為驅動本港未來數碼經濟發展的重要基礎建設。嘉民於2014年購入中央紗廠的棄置原址,經過多年來積極與各香港政府部門...

第一个发表评论

發表迴響

這個網站採用Akismet服務減少垃圾留言。進一步了解Akismet如何處理網站訪客的留言資料