近幾年AI芯片火熱,不讓Nvidia專美于前,英特爾在確定進入10納米時代后更是積極追趕,美國時間20日,英特爾公布首款神經(jīng)網(wǎng)絡(luò)處理器Nervana(代號Springhill)相關(guān)細節(jié),包含訓(xùn)練芯片NNP-T與推論芯片NNP-I,加上原有的Xeon在AI芯片陣容越發(fā)堅強,技術(shù)也開始兼容了起來。

美國時間20日,英特爾在今年Hot Chips大會上公布首款神經(jīng)網(wǎng)絡(luò)處理器Nervana細節(jié),如其名,這是2016年英特爾收購包含Nervana幾家新創(chuàng)公司的成果。Nervana處理器分為訓(xùn)練芯片NNP-T與推論芯片NNP-I。

訓(xùn)練用的Nervana NNP-T,主打可編程與靈活性,并強調(diào)可從頭建構(gòu)大規(guī)模深度學(xué)習(xí)模型,且盡可能訓(xùn)練電腦在給定的能耗預(yù)算內(nèi)快速完成任務(wù),也無需傳統(tǒng)技術(shù)的龐大開銷。

NNP-T支援了Google TPU Tensorflow架構(gòu)特有的運算格式“bfloat16”,bfloat16截斷既有的32位元float32的前16位,僅留下后16位所組成,在許多機器學(xué)習(xí)模型可以容忍較低精確度計算、不需降低收斂準(zhǔn)確率的情況下,許多模型使用bfloat16達到的收斂準(zhǔn)確率結(jié)果與一般使用的32位元浮點(FP32)計算數(shù)值的結(jié)果一樣,降低精度其實能讓存儲器效率取得較佳的平衡,從而訓(xùn)練與部署更多的網(wǎng)絡(luò)、降低訓(xùn)練所需的時間,有較好的效率與靈活性,而這是英特爾首次將bfloat16內(nèi)建于處理器。

▲bfloat16浮點格式(Source:Google)

另外有趣的是NNP-T其實采用的是臺積電16納米CLN FF+制程,這與一般我們對英特爾自行生產(chǎn)芯片的認知有所差異,而在Nervana被英特爾收購前,第一代Lake Crest就是由臺積電所代工。NNP-T采用臺積電最新的CoWoS(Chip on Wafer on Substrate)封裝技術(shù),將NNP-T的晶粒與四個8GB HBM2存儲器異質(zhì)整合堆疊2.5D,讓其封裝體積縮小成一個60X60 mm的芯片。

▲Nervana NNP-T采用臺積電16nm CLN FF+制程(Source:Intel)

英特爾同時發(fā)表了推論芯片Nervana NNP-I,主要針對大型資料中心市場高效能深度學(xué)習(xí)推論而生,NNP-I主要基于英特爾10nm Ice Lake處理器,官方強調(diào)透過此芯片,可提高每瓦效能,讓企業(yè)以更低的成本執(zhí)行推論運算工作,降低推論大量部署的成本。英特爾指出,NNP-I在功率10瓦下每秒能處理3600張影像,而處理器本身亦擁有高度可編程性,且同時不影響性能與功效。

▲Nervana NNP-I架構(gòu)(Source:Intel)

NNP-I已與Facebook合作并實際運用在其相關(guān)業(yè)務(wù)上,而NNP-T將于今年底以前針對尤其云端服務(wù)商相關(guān)的高端客戶送樣,并在2020年之前拓展市場。