導語:英偉達本月推出的RAPIDS開源GPU加速平臺為數(shù)據(jù)科學家提供標準化的流水線式工具,數(shù)據(jù)處理速度較僅用CPU提升50倍。
智東西10月23日消息,今天,英偉達在北京召開RAPIDS平臺的媒體溝通會,英偉達亞太區(qū)解決方案架構主管趙立威詳解了RAPIDS開源GPU加速平臺。
該平臺發(fā)布于2018年10月10日的GTC Europe大會上,是一款針對數(shù)據(jù)科學和機器學習的GPU加速平臺,為數(shù)據(jù)科學家提供標準化的流水線式工具,數(shù)據(jù)處理速度較僅用CPU提升50倍。
目前該平臺已經(jīng)與SAP、IBM、Oracle等公司建立合作關系。
一、針對數(shù)據(jù)科學和機器學習
這款RAPIDS開源GPU加速平臺有三個特征:
1.它是一個開源平臺;
2.它是一個軟件平臺;
3.這個產品,或者叫技術,面向數(shù)據(jù)科學以及機器學習的市場。
英偉達創(chuàng)始人黃仁勛在GTC Europe大會上著重強調了數(shù)據(jù)科學這一市場。據(jù)分析師估計,面向數(shù)據(jù)科學和機器學習的服務器市場每年價值約為200億美元,加上科學分析和深度學習市場,高性能計算市場總價值大約為360億美元,且該市場還在持續(xù)快速發(fā)展。
“數(shù)據(jù)分析和機器學習是高性能計算市場中最大的細分市場,不過目前尚未實現(xiàn)加速,”黃仁勛在GTC Europe上發(fā)布RAPIDS時說。
黃仁勛還在GTC Europe上提及“數(shù)據(jù)驅動”的概念?;ヂ?lián)網(wǎng)、零售等行業(yè)都是典型的數(shù)據(jù)驅動型行業(yè),比如沃爾瑪生鮮產品的物流和倉儲需要基于大量數(shù)據(jù)去測算。
RAPIDS開源GPU加速平臺能對這一過程進行加速,通過數(shù)據(jù)準備、數(shù)據(jù)合并、數(shù)據(jù)降維三個步驟加速處理數(shù)據(jù)。
二、RAPIDS比僅有CPU的系統(tǒng)快50倍
RAPIDS開源GPU加速平臺構建于Apache Arrow、pandas和scikit-learn等流行的開源項目之上,為最流行的Python數(shù)據(jù)科學工具鏈帶來了GPU提速。
傳統(tǒng)的數(shù)據(jù)科學運算都是基于大數(shù)據(jù)框架Hadoop SPARK來做的,跑在分布式的CPU上。隨著摩爾定律的終結,CPU的算力提升會越來越慢。市場上也有幾家GPU Data base加速非???,但他們沒有把數(shù)據(jù)的準備、操作、ETL的過程和Machine Learning等做成標準化的Pipeline(流水線)。英偉達的RAPIDS平臺實際上把數(shù)據(jù)操作、Machine Learning的一些庫整合成了一個Pipeline,所以整個流程會加快。
趙立威玩笑道,過去當數(shù)據(jù)科學家是一件非常悠閑幸福的事,有大量的時間喝咖啡,因為數(shù)據(jù)處理的過程中涉及到大量等待時間。用了RAPIDS之后,等待(圖中綠)時間變短,需要數(shù)據(jù)科學家創(chuàng)造性參與的部分(紅色)相應變多了。
訓練結果表明,與僅有CPU的系統(tǒng)相比,RAPIDS速度快50倍,這可將數(shù)據(jù)科學家的數(shù)據(jù)處理時間從數(shù)天減為數(shù)小時或從數(shù)小時減為數(shù)秒。
三、與開源社區(qū)、以及各行業(yè)開展緊密合作
為了將更多的機器學習庫和功能引入RAPIDS,英偉達廣泛地與開源生態(tài)系統(tǒng)貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs負責人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python數(shù)據(jù)科學庫pandas等。
為了推動RAPIDS的廣泛應用,英偉達正努力將RAPIDS與分析及數(shù)據(jù)科學方面領先的開源框架Apache Spark進行整合。
沃爾瑪、惠普等企業(yè)已經(jīng)率先應用了RAPIDS開源GPU加速平臺,IBM等企業(yè)也表示期望利用RAPIDS來為客戶提供全新的機器學習工具。
關鍵詞: