激發轉型:gpu如何突破過去被視為無法達成的分析工作

激發轉型:GPU如何突破過去被視為無法達成的分析工作

最新版的Cloudera数据平台加上由英伟达加快

運行速度的火花3.0,協助一支團隊提升作業表現達八倍,

順利執行一項原本以為無法完成的工作

堅持不懈的黛博拉·泰勒運用正確的工具,達成原本以為做不到的事情。

身為資料科學家的她,負責整理美國國稅局(IRS)超過300 TB的龐大資料庫,從中找出可能有助於發現身份盜用和其它詐欺行為的模式。但就算她在一大排CPU伺服器上徹夜運行整理工作,依舊摸不著頭緒。

她隔天早上發現沒有成功,於是又試了一次,結果再次失敗。

Cloudera的Nasheb ismay差不多就在同一時間,敲了敲泰勒的主管拉胡尔Tikekar辦公室的門,Tikekar也是國稅局資料分析師技術支援團隊的主管。這名Cloudera的解決方案工程師詢問Tikekar的團隊有沒有用過Cloudera数据平台(CDP),以發揮以GPU加速的Apache Spark 3.0軟體的優勢。

Tikekar表示:"我欣然接受這個提議。我們的獨立伺服器上裝有NVIDIA顯示卡,在分散式叢集上使用火花來運行這些顯示卡也有一段時間了,這對我們來說時機剛剛好。」

解開腦袋裡的結

他們很快就進行軟體測試,在沒有更動程式碼的情況下,泰勒很多的工作執行速度提升高達五倍,不過還是出現了一些延遲。

ismay找來NVIDIA的資料科學家協助檢查程式碼,很快就確認CPU上還運行著一些資料結構特別差的任務。他們寫了程式碼來處理這些工作,並且把它插入Spark的急流(在gpu上進行資料分析的開源函式庫)軟體介面裡。泰勒又試了一次。

Tikekar說:“資料突然全都進入分散式火花叢集的GPU上,加速成果非常顯著,黛博拉現在在有四個節點的叢集上運行整個程式。」

美國國稅局研究與應用分析及統計部門的技術主管乔Ansaldi表示:“Cloudera與NVIDIA的整合讓我們能夠從資料中找出寶貴的洞察,以支援關鍵的任務。我們正運用這個組合,且已經看到資料工程和資料科學工作流程的執行速度提高了十倍以上,而且成本還少了一半。」

Spark 3.0 + GPU =全新境界

Irs團隊已經著手探索這項工作帶來的一些回報。他們使用搭載GPU的伺服器組成的火花叢集,可以加快處理手邊的各項工作,還能執行過去以為做不到的事情,而這些工作可以協助處理該團隊所擁有的大型資料集。

3.0 Tikekar表示:“在引发出現前,我們做不到這些,但現在有GPU可以讓我們放手一搏,解決曾經不可能解決的問題。」

規畫發展人工智慧(AI)的路線

這支團隊計畫應用他們在資料準備的成功經驗,即資料分析的擷取,轉換和載入(etl)作業。下一個重大計畫便是加快全面發展ai推論工作。

Tikekar表示:“跟Cloudera和NVIDIA合作,幫助我們發揮叢集中GPU的優勢。市場上出現這麼進步的技術,我們要花點時間才能認清它們的實力,還有開發出能夠運用它們的應用,黛博拉為我們規劃了一條新的路線,她是我們故事的英雄。」

說得更具體一點,這支團隊想要建立大型深度學習神經網路,以解決自然語言處理和分析的問題。

許多用於機器學習的應用

這是當下許多企業想要透過機器學習進行的轉型。

擁有電腦科學博士學位的Tikekar表示:“我個人覺得機器學習帶來了無窮的可能,讓我們能夠做到從前無法完成的事情。」Tikekar 在 13 年前加入國稅局之前,曾在南奧勒岡大學 (Southern Oregon University) 任教十年。

他進一步表示:“例如我們可以掃描表格,然後用光學字元辨識技術來讀取裡面的隻字片語,但有了人工智能,我們還可以更深入從表格中找出有助於發現身分盜用,或是減少浪費的模式,人工智能在很多方面都能嘉惠不少應用。」

如需更多關於運用NVIDIA GPU來加速Cloudera的CDP 7.1.6的資訊,請觀看一場在2020年10月舉行的GTC演講(註冊後可免費觀看),兩間公司在當時宣佈建立合作關係。

數碼領域

金士頓於2021全球ssd市佔拔得頭籌,獨霸記憶體,ssd雙料冠軍

PC電腦
2022-10-26 0
金士頓於2021全球SSD市佔拔得頭籌,獨霸記憶體,SSD雙料冠軍新品與供貨戰略發威,搶下26%通路出貨量,強勁勢頭挺進2022全球記憶體與儲存領導品牌金士頓今日宣布於研調機構TrendForce最新調查中,以高達26%的出貨佔比,蟬聯2021年通路SSD全球市佔第一的殊榮,...

做第一个评论的人

發表迴響

這個網站採用Akismet服務減少垃圾留言。進一步了解Akismet如何處理網站訪客的留言資料