英伟达ai平台為大型語言模型帶來巨大效益

2022-07-30timsciencepc電腦，數碼領域，新聞0

NVIDIA的人工智能平台為大型語言模型帶來巨大效益

大型語言模型(大型语言模型;LLM)的規模和複雜性日益增加,英伟达今日宣布推出NeMo威震天框架的更新內容,更新後可加快訓練速度達30%。這些更新內容包括兩項開創性技術及一項超參數工具，用在任意 GPU 數量的 LLM 訓練最佳化及擴展，為使用 NVIDIA AI 平台訓練與部署模型提供新的功能。

全球最大的開放科學、開放取用的多語言模型布鲁姆，內有1760億個參數，日前在英伟达ai平台進行訓練，能夠產出 46 個語言及 13 種程式語言的文字。NVIDIA的人工智能平台亦支援其中一個擁有 5,300 億個參數的強大 Transformer 語言模型，即Megatron-Turing NLG模型(mt-nlg)。

在LLM領域的最新進展

LLM是當今最重要的先進技術之一，模型內有數兆個參數，可以從文字中進行學習。但開發LLM是個昂貴且耗時的過程，須運用深厚的技術能力，分散式基礎設施與完整堆疊才得以完成。

LLM在推動即時生成內容,文字摘要,客服聊天機器人與透過對話式人工智慧(AI)介面的問答等領域,卻能帶來莫大的好處。為了推動LLM的發展，ai領域的開發人員不斷運用包含Megatron-LM、顶点與其他gpu加速函式庫的英伟达ai平台來創新開發工具，像是微軟DeepSpeed、Colossal-AI、拥抱脸及Fairscale。

在英伟达ai平台推出新的最佳化內容後，能解決整個堆疊中現有的多項痛點。英伟达期待持續與ai社群合作，讓每個人都能運用LLM的強大實力。

縮短LLM開發時間

最新的NeMo威震天更新內容可加快30%的GPT-3模型訓練速度,模型從220億個參數,大至1兆個參數都可順利運行。1024個NVIDIA GPU A100現在使用,只要24天就能訓練出多達1750億個參數的模型,相較於過往版本,訓練時間縮短10天,相當於約25萬個GPU運算小時。

尼莫威震天是一個快速、高效且易用的端到端容器化框架,用於收集資料,訓練大型模型,按照業界標準基準評估模型,與以最先進的延遲與傳輸量表現進行推論。

使用尼莫威震天,便能在多種GPU叢集配置上輕鬆處理並複製LLM的訓練和推論作業。目前搶先體驗的客戶可以取得這些功能，在英伟达DGX SuperPODs、英伟达DGX代工厂及微软Azure雲端環境中運行，並且即將開放支援其他雲端平台。

目前已開放在英伟达发射台上體驗這些功能。英伟达发射台是一項免費的計畫,提供使用者短期內使用英伟达加速基礎設施中的多個實作實驗室。

NeMo威震天是NeMo的一部分。NeMo是用於為對話式AI，語音AI和生物學打造高效能與靈活應用程式的開源框架。

兩項新技術可加快LLM的訓練速度

更新項目包括兩項用於最佳化及擴展LLM訓練的新技術,即序列平行(序列并行性;SP)與選擇性激發再運算(选择性激活重新计算;特别行政区)。

藉由察覺先前未進行平行化的变压器層區域在序列維度上是各自獨立,序列平行擴大了张量級模型的平行性。

沿著序列維度拆分這些層就能進行分散運算,而最重要的是,這些區域的激發記憶體分布於张量平行裝置上。由於以分散方式加以激發，可將更多激發作用保留用於反向運算，而不用重新運算。

不同的激發作用需要不同的操作次數來重新運算，選擇性激發再運算改善因記憶體限制而部分被迫重新運算，而非全部激發的情況。除了增加檢查點和重新運算整個变压器層,亦可建立檢查點及重新運算每個变压器層中,佔用大量記憶體但重新運算的成本不高的部分。

如欲瞭解更多相關資訊，請見《减少大型变压器模型的激活重计算》。

Sp與SAR將激發記憶體保留用於反向運算。隨著模型大小的增加，
Sp與SAR皆具類似的記憶體保留能力，將所需的記憶體數量減少五倍

完全激發再運算與sp加上SAR的運算時間。長條圖細分出每層的前向、反向和重新運算時間。基線是無採用重新運算和序列平行時的情況。這些技術能在所有激發都被重新運算 (而非保留) 時有效減少額外的運算時間。最大模型的額外時間從 36% 降至僅 2%

要配合高度最佳化的推論策略，才能發揮LLM的強大實力。使用者可以輕鬆將訓練好的模型用於推論,並且利用p-tuning及提示调功能對不同的使用情況進行最佳化調整。

這些功能可以取代微調，讓LLM可以適應新的使用情況，無需繁瑣地對完整預先訓練好的模型進行微調。該技術不會更動原始模型裡的參數，便能避免發生因微調模型而出現的災難性「遺忘」問題。欲瞭解更多相關資訊，請見《应用p调优解决非英语下游任务》。

用於訓練和推論的全新超參數工具

在分散式基礎設施中找出適合LLM的模型配置非常耗時。尼莫威震天推出一項超參數工具，可以自動尋找最佳的訓練和推論配置，且無需修改程式碼。如此一來，LLM 只要一上線便能接受訓練以進行推論收斂，不用浪費時間去尋找高效的模型配置。

尼莫威震天使用啟發式方法和經驗網格,在不同參數之間尋找有著最佳傳輸量的配置:資料平行,张量平行,流程平行,序列平行,微批次大小與激發檢查點層的數量(包括選擇性激發重新運算)。

在NGC的容器上使用超參數工具與NVIDIA測試,在不到24小時內便替一個有著175 b GPT-3模型達到最佳訓練配置(請見圖五)。與使用完全激發重新運算的一般配置相比，傳輸量速度提高 20% 到 30%。使用最新技術，讓具有超過20b參數的模型速度可再加快10%到20%。

將超參數工具用於多個容器上的結果顯示，使用序列平行和選擇性激發重新運算，
有助於加快處理速度，其中每個節點皆搭載nvidia DGX a100

超參數工具亦能找出推論過程中，有著最高傳輸量或最低延遲的模型配置。模型可以獲得延遲和傳輸量限制資訊，而該工具將會推薦合適的配置。

超參數工具的推論結果顯示每個gpu的傳輸量及不同配置的延遲情況。
最佳配置包括高傳輸量及低延遲

欲瞭解更多關於適用於LLM的NVIDIA的人工智能平台最新更新內容，敬請申請搶先體驗尼莫威震天。企業亦能在英伟达发射台上免費體驗尼莫威震天。

數碼領域