英伟达憑藉在生成式人工智慧與通用式人工智慧代理的研究
榮獲NeurIPS獎項
在這場備受矚目的大會上,英伟达研究將於機器學習,電腦視覺等領域,發表超過60件突破性的研究成果
英伟达研究的兩篇論文,一篇關於探索基於擴散的生成式人工智慧(AI)模型,另一篇則是關於訓練通用式人工智能代理,因其對AI和機器學習領域的貢獻而榮獲NeurIPS 2022獎項。
NeurIPS大會本週在美國新奧爾良(新奥尔良)舉行實體活動,而下週將於線上進行舉辦,而英伟达的作者群將參加其中超過 60 場的演講、研究海報發布及研討會活動。
產生圖像、文字或影片的合成資料,是貫穿nvidia多篇論文的一大關鍵主題。其他主題還包括強化學習、資料收集與擴充、天氣模型與聯合學習。
英伟达學習與感知研究部門副總裁Jan Kautz表示:“人工智能是一項極其重要的技術,NVIDIA從生成式人工智能到自主式人工智能代理等各個領域,都取得快速的進展。此外,我們在生成式AI方面,不單推進我們對基礎模型的理論有更進一步的理解,還產出了實際貢獻,這將讓人們能夠更為輕鬆地建立逼真的虛擬世界以及模擬內容。」
重新構思基於擴散的生成模型設計
基於擴散的模型已經成為生成式ai的一項突破性技術。Nvidia的研究人員因在分析擴散模型設計的工作中,針對顯著提高這些模型的效率及品質提出改進措施,而榮獲主轨道傑出論文獎。
該論文將擴散模型的組件拆解為模組化設計,幫助開發人員找出調整的方式,以提高整個模型效能的過程。研究人員表示,經過他們的調整之後,能夠在評估ai生成影像品質的指標方面獲得創紀錄的成果。
在基於“Minecraft”的模擬套件中,訓練通用式AI代理
雖然研究人員長期以來,一直使用“星際爭霸”,“队伍”和圍棋等電玩遊戲環境來訓練自主式人工智能代理,但這些代理通常只擅長執行少數的任務。因此,英伟达的研究人員改為使用全球最廣受歡迎的遊戲“Minecraft為通用式人工智能代理開發了一個具擴充性的訓練框架,使得這個代理能夠順利執行各種開放式任務。
這個名為MineDojo的框架,使得AI代理能夠利用一個由七千多個維基百科頁面,數百萬個Reddit討論串以及30萬個小時的遊戲紀錄所組成的龐大線上資料庫,學習" "我"的靈活玩法。這個研究項目榮獲NeurIPS委員會所頒發的傑出資料集和基準論文獎。
MineDojo框架背後的研究人員,MineCLIP創建了一個名為基礎模型,用於驗證概念。遊戲玩家通常會在逐字稿中敘述畫面中的動作,而這個模型學會了將YouTube上," "我"的遊戲畫面片段與影片逐字稿串連起來。該團隊利用MineCLIP模型,能夠訓練一個強化學習代理在無任何人為介入的情況下,於“我的世界”中執行多項任務。
創建複雜的3d形狀以妝點虛擬世界
同樣在NeurIPS大會中展出的,還有生成式AI模型GET3D,它可以根據用於訓練它的2d圖片類別,像是建築物,汽車或動物,立即合成出3d形狀。AI生成的物體具有極為寫實的紋理和複雜的幾何細節,且以時下受歡迎的繪圖軟體應用中使用的三角形網格來建立。這麼一來,用戶便能輕鬆地將這些形狀匯入3d渲染器以及遊戲引擎,以便進行後續的編輯工作。
GET3D之所以得名,是因為它能夠生成顯式紋理3d網格(GenerateExplicitTextured3 d网格),研究人員在NVIDIA A100 Tensor核心GPU上使用從不同相機角度拍攝,約100萬張3d形狀的2d圖片進行訓練。在單個nvidia gpu上運行推論時,該模型每秒可生成大約20個物體。
AI生成的物體可用於放置在以3 d方式呈現的建築物,戶外空間或整個城市內,這些是為遊戲,機器人,建築和社群媒體等產業設計的數位空間。
控制材料和照明,改進逆向渲染工作流程
NVIDIA的研究在六月於新奧爾良(新奥尔良)召開的最新一屆CVPR大會上,發表了逆向渲染方法3 d现代艺术博物馆。它讓開發人員能夠創建由三個不同部分所組成的3d物體:3d網格模型,覆蓋在模型上的材料及照明。
該團隊後續在拆解3d物體的材料和照明方面更取得了重大的進展,這反過來又讓創作者在物體於場景中移動時,以交換材料或調整照明的方式編輯AI生成形狀的能力。(參考影片)
這項工作仰賴於利用Nvidia RTX gpu的加速光線追蹤技術,為模型製作更加寫實的著色效果,在本屆NeurIPS大會的海報上,有對外展示的相關介紹。
提高語言模型生成文字的事實準確性
在NeurIPS發表的另一篇論文研究中,展示了預先訓練語言模型的一大挑戰:Ai生成文字的事實準確性。
為生成開放式文字而訓練的語言模型,通常會產生出內有不符合事實資訊的文字,原因在於AI只是在單字之間建立起關聯性,以預測字句裡接下來的內容。NVIDIA的研究人員在這篇論文中,提出了克服這項限制的技術,對於將這類模型部署到實際應用程式前來說是非常必要的。
研究人員建立了第一個自動基準,來衡量用於開放式文字生成語言模型的事實準確性,並發現有著數十億個參數的大型語言模型,比起小型語言模型所生成的文字,其事實準確性更高。該團隊提出了事實增強訓練這項新技術,再加上新式採樣演算法,共同幫助訓練語言模型生成準確的文字,並且證明事實錯誤率從 33% 降至 15% 左右。
英伟达在全球擁有300多名研究人員,這支團隊專注於AI,電腦繪圖,電腦視覺,自動駕駛車和機器人技術等主題。進一步瞭解NVIDIA的研究的更多訊息,並查看NeurIPS大會中的NVIDIA完整論文清單。
發表迴響