浪潮發(fā)布支持TensorFlow的FPGA計(jì)算加速引擎TF2
8月23日,在倫敦舉行的人工智能領(lǐng)域頂級(jí)會(huì)議KDD2018大會(huì)上,浪潮發(fā)布支持TensorFlow的FPGA計(jì)算加速引擎TF2,該產(chǎn)品可幫助AI客戶(hù)快速實(shí)現(xiàn)基于主流AI訓(xùn)練軟件和深度神經(jīng)網(wǎng)絡(luò)模型DNN的FPGA線(xiàn)上推理,并通過(guò)全球首創(chuàng)的FPGA上DNN的移位運(yùn)算技術(shù)獲得AI應(yīng)用的高性能和低延遲。
目前,采用FPGA技術(shù)實(shí)現(xiàn)AI應(yīng)用的線(xiàn)上推理從而獲得可定制性、低延遲和高性能功耗比成為諸多AI公司采納的技術(shù)路線(xiàn)。但FPGA技術(shù)進(jìn)入到大規(guī)模AI業(yè)務(wù)部署仍舊存在軟件編寫(xiě)門(mén)檻高、性能優(yōu)化受限、功耗難以控制等諸多挑戰(zhàn)。浪潮此次發(fā)布的TF2計(jì)算加速引擎的目標(biāo)就是期望為客戶(hù)解決在AI應(yīng)用FPGA技術(shù)的這些挑戰(zhàn)。
KDD18 浪潮展臺(tái)現(xiàn)場(chǎng)
TF2計(jì)算加速引擎由兩部分組成,第一部分是模型優(yōu)化轉(zhuǎn)換工具TF2 Transform Kit,它將經(jīng)過(guò)TensorFlow等框架訓(xùn)練得到的深度神經(jīng)網(wǎng)絡(luò)模型數(shù)據(jù)進(jìn)行優(yōu)化轉(zhuǎn)換處理,大幅降低模型數(shù)據(jù)文件大小,如它可將32位浮點(diǎn)模型數(shù)據(jù)壓縮為4位整型數(shù)據(jù)模型,使得實(shí)際模型數(shù)據(jù)文件大小精簡(jiǎn)到原來(lái)的1/8,并基本保持原始模型數(shù)據(jù)的規(guī)則存儲(chǔ);第二部分是FPGA智能運(yùn)行引擎TF2 Runtime Engine,它可實(shí)現(xiàn)將前述已優(yōu)化轉(zhuǎn)換的模型文件自動(dòng)轉(zhuǎn)化為FPGA目標(biāo)運(yùn)行文件,為了消除深度神經(jīng)網(wǎng)絡(luò)如CNN等對(duì)FPGA的DSP浮點(diǎn)計(jì)算能力的依賴(lài),浪潮創(chuàng)新設(shè)計(jì)了移位運(yùn)算技術(shù),它可將32位浮點(diǎn)特征圖數(shù)據(jù)量化為8位整型數(shù)據(jù),并結(jié)合前述4位整型模型數(shù)據(jù),轉(zhuǎn)換卷積操作浮點(diǎn)乘法計(jì)算為8位整數(shù)移位運(yùn)算,這將大幅提升FPGA做推理計(jì)算的性能并有效降低其實(shí)際運(yùn)行功耗。這也是目前全球首次在基本保持原始模型計(jì)算精度的前提下在FPGA上實(shí)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)DNN的移位運(yùn)算。
TF2計(jì)算加速流程
在浪潮F10A FPGA卡上采用SqueezeNet模型對(duì)TF2計(jì)算加速引擎進(jìn)行的測(cè)試表現(xiàn)出了非常好的計(jì)算性能。F10A是全球首款支持Arria 10芯片的半高半長(zhǎng)的 FPGA加速卡。SqueezeNet是一種典型的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),模型精簡(jiǎn)但其精度和AlexNet不相上下,特別適合于實(shí)時(shí)性要求較高的圖像類(lèi)AI應(yīng)用場(chǎng)景。在F10A上運(yùn)行經(jīng)過(guò)TF2引擎優(yōu)化加速的SqueezeNet模型,在基本保持原始精度的情況下,單張圖片的計(jì)算耗時(shí)為0.674ms,在計(jì)算精度和延遲方面均略?xún)?yōu)于目前廣泛使用的GPU加速卡P4。
TF2 w/ F10A與GPU性能對(duì)比
浪潮TF2計(jì)算加速引擎通過(guò)移位運(yùn)算、模型優(yōu)化等技術(shù)創(chuàng)新,提高了FPGA上AI計(jì)算性能,降低了FPGA的AI軟件實(shí)現(xiàn)門(mén)檻,將支持FPGA廣泛應(yīng)用于AI生態(tài)推動(dòng)更多AI應(yīng)用落地。浪潮計(jì)劃將TF2開(kāi)放給其人工智能客戶(hù),并將持續(xù)升級(jí)開(kāi)發(fā)支持多種模型優(yōu)化技術(shù)、最新深度神經(jīng)網(wǎng)絡(luò)模型以及采用最新芯片的FPGA加速卡,預(yù)計(jì)新一代高性能FPGA加速卡的性能將是F10A的三倍左右。
浪潮是全球領(lǐng)先的AI計(jì)算力廠商,從計(jì)算平臺(tái)、管理套件、框架優(yōu)化、應(yīng)用加速等四個(gè)層次致力于打造敏捷、高效、優(yōu)化的AI基礎(chǔ)設(shè)施。浪潮已成為百度、阿里和騰訊的最主要的AI服務(wù)器供應(yīng)商,并與科大訊飛、商湯、曠視、今日頭條、滴滴等人工智能領(lǐng)先科技公司保持在系統(tǒng)與應(yīng)用方面的深入緊密合作,幫助AI客戶(hù)在語(yǔ)音、圖像、視頻、搜索、網(wǎng)絡(luò)等方面取得數(shù)量級(jí)的應(yīng)用性能提升。據(jù)IDC《2017年中國(guó)AI基礎(chǔ)架構(gòu)市場(chǎng)調(diào)查報(bào)告》顯示,浪潮AI服務(wù)器市場(chǎng)份額達(dá)57%高居第一。
(文章來(lái)源:今日頭條)