阿里平頭哥又發(fā)布一款芯片,含光800問(wèn)世

阿里平頭哥又發(fā)布一款芯片,含光800問(wèn)世

在9月25日召開(kāi)的2019杭州云棲大會(huì)上,阿里巴巴發(fā)布自主研發(fā)的AI芯片——含光800,它在未來(lái)將主要用于云端視覺(jué)場(chǎng)景,未來(lái)還可應(yīng)用于醫(yī)療影像、自動(dòng)駕駛等領(lǐng)域。

阿里表示,含光800是目前全球最強(qiáng)AI芯片,性能和能效比均為第一,1顆含光800的算力相當(dāng)于10顆GPU。

含光800芯片在業(yè)界標(biāo)準(zhǔn)的ResNet-50測(cè)試中,推理性能達(dá)到78563 IPS,比目前業(yè)界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。

目前基于含光800的AI云服務(wù)已在阿里云上線,性價(jià)比提升100%。

云棲大會(huì)現(xiàn)場(chǎng),阿里巴巴集團(tuán)CTO兼阿里云智能總裁張建鋒表示,“在全球芯片領(lǐng)域,阿里巴巴是一個(gè)新人,玄鐵和含光800是平頭哥的萬(wàn)里長(zhǎng)征第一步,我們還有很長(zhǎng)的路要走?!?/p>

另?yè)?jù)媒體報(bào)道,過(guò)去半年,阿里平頭哥先后發(fā)布了玄鐵910、無(wú)劍SoC平臺(tái),此次含光800發(fā)布,意味著阿里平頭哥端云一體產(chǎn)品系列初步成型,實(shí)現(xiàn)了芯片設(shè)計(jì)鏈路的全覆蓋。

比特大陸發(fā)布第三代云端AI芯片BM1684  將攜手福州城市大腦實(shí)現(xiàn)應(yīng)用落地

比特大陸發(fā)布第三代云端AI芯片BM1684 將攜手福州城市大腦實(shí)現(xiàn)應(yīng)用落地

作為全球礦機(jī)芯片龍頭廠商及國(guó)內(nèi)AI芯片主要廠商之一,比特大陸在芯片領(lǐng)域又有新動(dòng)作。

9月17日,福州城市大腦暨閩東北信息化戰(zhàn)略合作發(fā)布會(huì)在數(shù)字中國(guó)會(huì)展中心隆重召開(kāi)。發(fā)布會(huì)上,福州市委副書記、市長(zhǎng)尤猛軍宣布福州城市大腦正式發(fā)布并啟動(dòng)建設(shè),與此同時(shí),比特大陸正式發(fā)布其第三代AI芯片BM1684,BM1684芯片將作為福州城市大腦的底層算力。

在這次大會(huì)期間,比特大陸董事長(zhǎng)詹克團(tuán)接受了《全球半導(dǎo)體觀察》等媒體采訪,談及了比特大陸AI芯片與福州城市大腦的相關(guān)細(xì)節(jié),以及比特大陸AI芯片的更新迭代、產(chǎn)品定位與發(fā)展布局等事宜。

第三代云端AI芯片BM1684發(fā)布 性能提升6倍

2016年,全球礦機(jī)霸主比特大陸宣布全力進(jìn)軍人工智能領(lǐng)域,隨后相繼發(fā)布算豐第一代云端AI芯片BM1680、第二代云端AI芯片BM1682。詹克團(tuán)表示,其第二代云端AI芯片在市場(chǎng)上的訂單反饋情況很好,在全國(guó)各地均有大量出貨和實(shí)踐項(xiàng)目落地。

這次發(fā)布會(huì)比特大陸正式推出其第三代云端AI芯片BM1684。BM1684聚焦于云端及邊緣應(yīng)用的人工智能推理,采用臺(tái)積電12nm工藝,在典型功耗僅16瓦的前提下,F(xiàn)P32精度算力達(dá)到2.2 TFlops,INT8算力可高達(dá)17.6Tops,在Winograd卷積加速下,INT8算力更提升至35.2Tops,是一顆低功耗、高性能的SoC芯片。

據(jù)介紹,BM1684內(nèi)置張量計(jì)算模塊TPU,包含64個(gè)NPU運(yùn)算單元、每個(gè)NPU包括16個(gè)EU單元,總共有1024個(gè)EU運(yùn)算單元。該款芯片為視頻處理做了特別優(yōu)化,單芯片最高支持32路H264/H265的解碼能力,每秒480幀JPEG/PNG圖片編解碼,960 fps@1080p視頻解碼能力,內(nèi)置視頻圖像前后處理硬件加速模塊。

BM1684還支持16個(gè)PCIE3.0 lane、2個(gè)千兆以太口,具備多芯片級(jí)聯(lián)等特點(diǎn)。值得一提的是,BM1684內(nèi)置Trustzone(可信區(qū)域)、secureboot(安全啟動(dòng))以及多種加解密算法,可保護(hù)客戶的數(shù)據(jù)、模型安全可靠,創(chuàng)建安全可信的計(jì)算環(huán)境。

此外,BM1684提供強(qiáng)大的深度學(xué)習(xí)模型編譯器和軟件SDK開(kāi)發(fā)包,支持主流的深度學(xué)習(xí)框架,包括Caffe、Tensorflow、Mxnet,、Pytorch等,開(kāi)發(fā)者可輕松把訓(xùn)練完備的神經(jīng)網(wǎng)絡(luò)模型移植到BM1684平臺(tái)上,支持視頻結(jié)構(gòu)化分析,可應(yīng)用于人臉檢測(cè)與識(shí)別、車牌識(shí)別等場(chǎng)景。

(注:藍(lán)色柱子為BM1684)

發(fā)布會(huì)現(xiàn)場(chǎng),詹克團(tuán)將BM1684與業(yè)界兩款優(yōu)秀新品進(jìn)行了比較,分別是在Restnet50、MobileNet、Vggnet16下處理能力和能效比的對(duì)比,從圖片中可看出BM1684在性能上比另外兩款產(chǎn)品均有所優(yōu)勢(shì)。詹克團(tuán)表示,相比上一代芯片,BM1684整體性能大約提升了6倍。

福州城市大腦專用芯片 將實(shí)現(xiàn)規(guī)模化落地

“AI芯片已過(guò)了講故事的時(shí)候,真刀真槍在市場(chǎng)上落地是現(xiàn)在的主旋律?!闭部藞F(tuán)在接受采訪時(shí)表示。對(duì)于AI芯片廠商來(lái)說(shuō),實(shí)現(xiàn)AI芯片的最終應(yīng)用落地?zé)o疑是最大挑戰(zhàn)之一,不過(guò)這次比特大陸已為其新推出的BM1684芯片找到了重要的合作應(yīng)用落地載體。
發(fā)布會(huì)上,詹克團(tuán)表示BM1684為福州城市大腦專用芯片,是全球唯一一款城市大腦專用芯片,作為整個(gè)系統(tǒng)的基礎(chǔ)設(shè)施,將位福州城市大腦提供算力。

何為“城市大腦”?據(jù)介紹,福州城市大腦可形象地概括為“一云一湖一生態(tài)”,即一個(gè)自主可控的AI算力云、一個(gè)融合共享的數(shù)據(jù)湖和一個(gè)開(kāi)放創(chuàng)新的生態(tài)體系。一個(gè)生態(tài)體系又包含了開(kāi)放算法生態(tài)、場(chǎng)景應(yīng)用生態(tài)和協(xié)同創(chuàng)新生態(tài)三個(gè)層面的含義。

福州城市大腦具備五大特點(diǎn):一.國(guó)產(chǎn)芯片,自主可控;二.開(kāi)放生態(tài),賦能創(chuàng)新;三.機(jī)制創(chuàng)新、應(yīng)用牽引;四.統(tǒng)籌協(xié)調(diào),復(fù)用共享;五.迭代演進(jìn),持續(xù)發(fā)展。其中,“國(guó)產(chǎn)芯片,自主可控”即指福州城市大腦依托AI專用TPU處理器構(gòu)筑基礎(chǔ)設(shè)施,為城市各類算法與應(yīng)用提供強(qiáng)大算力支持,自主可控的特性為福州城市大腦數(shù)據(jù)和應(yīng)用安全提供了可靠保障。

詹克團(tuán)在發(fā)布會(huì)上指出,對(duì)于一款A(yù)I芯片,為它尋找場(chǎng)景推廣落地是非常重要的工作,智慧城市、安防監(jiān)控等是非常重要的應(yīng)用場(chǎng)景。比特大陸欲為其AI芯片產(chǎn)品尋求落地、福州想要擁抱人工智能和數(shù)字經(jīng)濟(jì),雙方需求契合、達(dá)成市場(chǎng)開(kāi)放、產(chǎn)業(yè)落地的共識(shí)。

“中國(guó)有300多個(gè)人口過(guò)百萬(wàn)的城市,每一個(gè)百萬(wàn)人口量級(jí)的城市都可能是千億級(jí)的經(jīng)濟(jì)體,大體量的現(xiàn)代經(jīng)濟(jì)體產(chǎn)生了非常有價(jià)值的數(shù)據(jù),發(fā)掘這些數(shù)據(jù)的價(jià)值需要強(qiáng)大算力,城市大腦是城市信息化發(fā)展到高級(jí)階段的必然產(chǎn)物,算力中樞是城市大腦的核心部件?!闭部藞F(tuán)如是說(shuō)。

據(jù)了解,比特大陸自去年開(kāi)始在福州陸續(xù)進(jìn)行投資,今年1月福州市政府與比特大陸正式簽署福州城市大腦合作備忘錄。中關(guān)村智慧城市研究院、福州城市大腦研究院院長(zhǎng)柳進(jìn)軍在接受采訪時(shí)透露,在過(guò)去8個(gè)月時(shí)間里,福州市城市大腦研究院及比特大陸研判了很多能夠率先使用智能化的場(chǎng)景和項(xiàng)目,并在為這些項(xiàng)目做前期準(zhǔn)備。

柳進(jìn)軍表示,城市大腦將為比特大陸AI芯片帶來(lái)巨大的產(chǎn)業(yè)空間,也只有當(dāng)產(chǎn)業(yè)空間很大、應(yīng)用場(chǎng)景很多的時(shí)候,這款芯片以及整個(gè)AI芯片產(chǎn)業(yè)才能發(fā)展起來(lái)。作為福州城市大腦專用芯片,比特大陸B(tài)M1684有望隨著福州城市大腦啟動(dòng)建設(shè)實(shí)現(xiàn)規(guī)?;涞貞?yīng)用,詹克團(tuán)表示該款芯片會(huì)在明年上半年推向市場(chǎng)。

終端AI芯片業(yè)務(wù)分拆獨(dú)立? 謀求發(fā)展提速

隨著BM1684的推出及與福州城市大腦的合作,比特大陸在AI芯片領(lǐng)域的戰(zhàn)略布局亦越來(lái)越清晰,相較于業(yè)界強(qiáng)調(diào)的AI軟硬一體化發(fā)展,詹克團(tuán)表示比特大陸經(jīng)過(guò)長(zhǎng)時(shí)間思考,確定在產(chǎn)業(yè)鏈上的定位為提供算力芯片和算力硬件,與更多的算法廠商合作打造生態(tài)。

回顧這三年間,比特大陸在AI芯片領(lǐng)域上的產(chǎn)品布局已涵蓋了云端和終端,其中云端AI芯片已發(fā)布三代產(chǎn)品,終端AI芯片BM1880于2018年10月發(fā)布。相比云端AI芯片的更新迭代速度,終端AI芯片相對(duì)要慢。

詹克團(tuán)解釋道,終端AI芯片和云端AI芯片在商業(yè)模式上有所不同,云端芯片注重高性能,終端芯片則強(qiáng)調(diào)成本,兩者面向的下游市場(chǎng)亦有所不同。對(duì)于云端和終端芯片發(fā)展步伐不一,比特大陸已有所考量。

據(jù)詹克團(tuán)透露,比特大陸計(jì)劃將終端AI芯片業(yè)務(wù)分拆出來(lái)單獨(dú)成立公司,使終端AI芯片業(yè)務(wù)運(yùn)作得更快。消息顯示,脫胎于比特大陸的北京晶視智能科技有限公司(以下簡(jiǎn)稱“晶視科技”)已于5月正式注冊(cè)成立,專注于邊緣端AI SoC芯片的設(shè)計(jì)研發(fā),擁有自研邊緣端AI加速芯片知識(shí)產(chǎn)權(quán)算豐TPU。

據(jù)介紹,晶視科技從比特大陸分拆后,將建制完整吸納比特大陸旗下邊緣端芯片研發(fā)團(tuán)隊(duì),該團(tuán)隊(duì)基于算豐TPU所設(shè)計(jì)的新一代邊緣端AI SoC芯片將于2019年底正式發(fā)布。

這次在福建福州城市大腦暨閩東北信息化戰(zhàn)略合作發(fā)布會(huì)上,北京易華錄和力鼎資本發(fā)起的北京智慧云城投資基金與晶視科技簽訂了投資協(xié)議,智慧云城基金和比特大陸共同參與。

隨著終端AI芯片業(yè)務(wù)分獨(dú)立發(fā)展,比特大陸在AI芯片領(lǐng)域?qū)⒂型嬲龑?shí)現(xiàn)云端與終端“兩條腿”并行。對(duì)于自家AI芯片的未來(lái),詹克團(tuán)報(bào)以樂(lè)觀態(tài)度,他坦言目前比特大陸AI芯片的出貨量仍較小,但三五年后將會(huì)達(dá)到數(shù)十億美元的量級(jí)。

集成1024顆昇騰910 華為發(fā)布全球最快AI訓(xùn)練集群Atlas 900

集成1024顆昇騰910 華為發(fā)布全球最快AI訓(xùn)練集群Atlas 900

9月18日,華為全連接大會(huì)開(kāi)幕,AI產(chǎn)品Atlas900正式發(fā)布。華為輪值董事長(zhǎng)胡厚崑稱其為“全球最快的AI訓(xùn)練集群”。

集成數(shù)千顆算力最強(qiáng)AI芯片

Altas 900由數(shù)千顆昇騰910組成,算力能達(dá)256~1024 PFLOPS@FP16。訓(xùn)練ResNet-50只用了59.8秒的集群規(guī)模,用到了1024顆昇騰910。

胡厚崑表示,當(dāng)前條件下,天文學(xué)家要從20萬(wàn)顆星星中找出某種特征的星體,相當(dāng)困難,需要169天的工作量?,F(xiàn)在用上Atlas 900,只用10秒,就從20萬(wàn)顆星星中檢索出了相應(yīng)特征的星體。

昇騰910芯片亮相于去年的全聯(lián)接大會(huì),今年8月正式商用,是全球第三款、中國(guó)首款A(yù)I訓(xùn)練芯片。

昇騰910采用華為自研的達(dá)芬奇架構(gòu),號(hào)稱“算力最強(qiáng)的AI處理器”,7nm工藝制程,最大功耗為350W,實(shí)測(cè)310W。

據(jù)華為介紹,目前Atlas 900的已經(jīng)部署到了華為云上,并以極優(yōu)惠的價(jià)格向全球科研機(jī)構(gòu)和大學(xué)開(kāi)放。

華為計(jì)算機(jī)產(chǎn)業(yè)戰(zhàn)略

胡厚崑在上述大會(huì)演講時(shí)表示,未來(lái)10年將是計(jì)算產(chǎn)業(yè)的大藍(lán)海,每年將達(dá)到2萬(wàn)億美元的市場(chǎng)規(guī)模,計(jì)算和聯(lián)接是未來(lái)智能時(shí)代的核心。

華為在現(xiàn)場(chǎng)發(fā)布了新的計(jì)算產(chǎn)業(yè)戰(zhàn)略,主要涵蓋了四點(diǎn),包括對(duì)架構(gòu)創(chuàng)新的突破、對(duì)全場(chǎng)景處理器族的投資,堅(jiān)持有所為有所不為的商業(yè)策略,以及不遺余力地構(gòu)建開(kāi)放生態(tài)。

第一點(diǎn),達(dá)芬奇架構(gòu)。華為認(rèn)為,在計(jì)算無(wú)處不在的時(shí)候,算力將會(huì)成為關(guān)鍵瓶頸,而現(xiàn)在從行業(yè)來(lái)看,算力已經(jīng)成為了高度稀缺資源。摩爾定律走到極限的情況下,整個(gè)行業(yè)需要找到新的架構(gòu)釋放新的算力。這是產(chǎn)業(yè)的需求。

從華為的業(yè)務(wù)布局來(lái)看,也需要一種新的架構(gòu)覆蓋全場(chǎng)景的智能計(jì)算需要。這種情況下,達(dá)芬奇架構(gòu)誕生。

第二點(diǎn)是投資全場(chǎng)景處理器家族。胡厚崑說(shuō),處理器是整個(gè)計(jì)算產(chǎn)業(yè)最基礎(chǔ)的部分,目前華為已經(jīng)發(fā)布了多個(gè)系列的處理器。具體包括支持通用計(jì)算的鯤鵬系列,支持AI的昇騰系列,支持智能終端的麒麟系列,以及支持智慧屏的鴻鵠系列。

胡厚崑表示,未來(lái)華為將持續(xù)不斷地對(duì)處理器進(jìn)行投資,將來(lái)還將推出一系列處理器,面向更多的場(chǎng)景。

第三點(diǎn)是商業(yè)策略。胡厚崑表示,華為不直接對(duì)外銷售處理器,以云服務(wù)面向客戶,以部件為主面向合作伙伴,優(yōu)先支持合作伙伴發(fā)展整機(jī)。具體來(lái)說(shuō),有三個(gè)方面的考慮:

硬件開(kāi)放:我們把服務(wù)器主板、AI模組和板卡等硬件開(kāi)放給伙伴,幫助伙伴做好整機(jī)和解決方案。

軟件開(kāi)源:我們把服務(wù)器操作系統(tǒng)、數(shù)據(jù)庫(kù)、AI開(kāi)發(fā)框架等軟件開(kāi)源,幫助伙伴做好商用版本,讓軟件開(kāi)發(fā)更簡(jiǎn)單。

使能應(yīng)用開(kāi)發(fā)和遷移:我們不做應(yīng)用,但我們提供工具和團(tuán)隊(duì),幫助伙伴更高效地做好應(yīng)用開(kāi)發(fā)和遷移。

第四點(diǎn)是華為依賴于構(gòu)建開(kāi)放生態(tài)。胡厚崑表示,四年前,華為發(fā)布了第一個(gè)版本的沃土計(jì)算,在過(guò)去的四年以來(lái),華為已經(jīng)發(fā)展了130多萬(wàn)開(kāi)發(fā)者。華為將升級(jí)沃土計(jì)劃,繼續(xù)投入15億美元,使開(kāi)發(fā)者的規(guī)模擴(kuò)大到500萬(wàn)人。

此外,華為稱未來(lái)還在持續(xù)不斷地對(duì)板卡、服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)、編譯器等關(guān)鍵技術(shù)和產(chǎn)品進(jìn)行投資,希望通過(guò)強(qiáng)力投資,打通生態(tài)全鏈條,堅(jiān)定地參與打造鯤鵬產(chǎn)業(yè)。

商務(wù)合作請(qǐng)加微信:izziezeng

加入集邦半導(dǎo)體交流群,請(qǐng)加微信:DRAMeXchange2019

華為發(fā)布AI處理器昇騰910及AI計(jì)算框架MindSpore

華為發(fā)布AI處理器昇騰910及AI計(jì)算框架MindSpore

近日,華為在深圳正式發(fā)布算力最強(qiáng)的AI處理器Ascend910(昇騰910),同時(shí)推出全場(chǎng)景AI計(jì)算框架MindSpore。

華為公司輪值董事長(zhǎng)徐直軍在發(fā)布會(huì)上表示:華為自2018年10月發(fā)布AI戰(zhàn)略以來(lái),穩(wěn)步而有序地推進(jìn)戰(zhàn)略執(zhí)行、產(chǎn)品研發(fā)及商用進(jìn)程。昇騰910、MindSpore的推出,標(biāo)志著華為已完成全棧全場(chǎng)景AI解決方案(Portfolio)的構(gòu)建,也標(biāo)志著華為AI戰(zhàn)略的執(zhí)行進(jìn)入了新的階段。

昇騰910,算力最強(qiáng)AI處理器

徐直軍此次正式發(fā)布的AI芯片是昇騰910,屬于Ascend-max系列。在HC2018上已經(jīng)發(fā)布了其技術(shù)規(guī)格。實(shí)際測(cè)試結(jié)果表明,在算力方面,昇騰910完全達(dá)到了設(shè)計(jì)規(guī)格,即:半精度 (FP16)算力達(dá)到256 Tera-FLOPS,整數(shù)精度 (INT8) 算力達(dá)到512 Tera-OPS,重要的是,達(dá)到規(guī)格算力所需功耗僅310W,明顯低于設(shè)計(jì)規(guī)格的350W。

徐直軍表示:昇騰910總體技術(shù)表現(xiàn)超出預(yù)期,作為算力最強(qiáng)AI處理器,當(dāng)之無(wú)愧。我們已經(jīng)把昇騰910用于實(shí)際AI訓(xùn)練任務(wù)。比如,在典型的ResNet50 網(wǎng)絡(luò)的訓(xùn)練中,昇騰910與MindSpore配合,與現(xiàn)有主流訓(xùn)練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。面向未來(lái),針對(duì)不同的場(chǎng)景,包括邊緣計(jì)算、自動(dòng)駕駛車載計(jì)算、訓(xùn)練等場(chǎng)景,華為將持續(xù)投資,推出更多的AI處理器,面向全場(chǎng)景持續(xù)提供更充裕、更經(jīng)濟(jì)、更適配的AI算力。

MindSpore,全場(chǎng)景AI計(jì)算框架

徐直軍還發(fā)布了全場(chǎng)景AI計(jì)算框架 MindSpore。能否大大降低AI應(yīng)用開(kāi)發(fā)的門檻,能否實(shí)現(xiàn)AI無(wú)處不在,能否在任何場(chǎng)景下確保用戶隱私得到尊重和保護(hù),這些都與AI計(jì)算框架息息相關(guān)。為此,去年華為全聯(lián)接大會(huì)上,華為提出,AI框架應(yīng)該是開(kāi)發(fā)態(tài)友好(例如顯著減少訓(xùn)練時(shí)間和成本)和運(yùn)行態(tài)高效(例如最少資源和最高能效比),更重要的是,要能適應(yīng)每個(gè)場(chǎng)景包括端、邊緣和云。經(jīng)過(guò)近一年的努力,全場(chǎng)景AI計(jì)算框架MindSpore在這三個(gè)方面都取得了顯著進(jìn)展。

全場(chǎng)景支持,是在隱私保護(hù)日漸重要的背景下,實(shí)現(xiàn)AI無(wú)所不在越來(lái)越基礎(chǔ)的需求,也是MindSpore的重要特色。針對(duì)不同的運(yùn)行環(huán)境,MindSpore框架架構(gòu)上支持可大可小,適應(yīng)全場(chǎng)景獨(dú)立部署。MindSpore框架通過(guò)協(xié)同經(jīng)過(guò)處理后的、不帶有隱私信息的梯度、模型信息,而不是數(shù)據(jù)本身,以此實(shí)現(xiàn)在保證用戶隱私數(shù)據(jù)保護(hù)的前提下跨場(chǎng)景協(xié)同。除了隱私保護(hù),MindSpore還將模型保護(hù)Built-in到AI框架中,實(shí)現(xiàn)模型的安全可信。 在原生適應(yīng)每個(gè)場(chǎng)景包括端,邊緣和云,并能夠按需協(xié)同的基礎(chǔ)上,通過(guò)實(shí)現(xiàn)AI算法即代碼,使開(kāi)發(fā)態(tài)變得更加友好,顯著減少模型開(kāi)發(fā)時(shí)間。以一個(gè)NLP(自然語(yǔ)言處理)典型網(wǎng)絡(luò)為例,相比其他框架,用MindSpore可降低核心代碼量20%,開(kāi)發(fā)門檻大大降低,效率整體提升50%以上。通過(guò)MindSpore框架自身的技術(shù)創(chuàng)新及其與昇騰處理器協(xié)同優(yōu)化,有效克服AI計(jì)算的復(fù)雜性和算力的多樣性挑戰(zhàn),實(shí)現(xiàn)了運(yùn)行態(tài)的高效,大大提高了計(jì)算性能。除了昇騰處理器,MindSpore同時(shí)也支持GPU、CPU等其它處理器。

為了更好促進(jìn)AI的應(yīng)用,徐直軍宣布“MindSpore將在2020年Q1開(kāi)源”,助力每一位開(kāi)發(fā)者,促進(jìn)AI產(chǎn)業(yè)生態(tài)發(fā)展。

全棧全場(chǎng)景AI解決方案,讓AI無(wú)處不在

徐直軍在發(fā)布以上兩款產(chǎn)品之前,首先重申了華為公司的AI戰(zhàn)略:投資AI基礎(chǔ)研究,在計(jì)算視覺(jué)、自然語(yǔ)言處理、決策推理等領(lǐng)域構(gòu)筑數(shù)據(jù)高效(更少的數(shù)據(jù)需求) 、能耗高效(更低的算力和能耗) ,安全可信、自動(dòng)自治的機(jī)器學(xué)習(xí)基礎(chǔ)能力;打造全棧全場(chǎng)景解決方案,提供充裕的、經(jīng)濟(jì)的算力資源,簡(jiǎn)單易用、高效率、全流程的AI平臺(tái);投資開(kāi)放生態(tài)和人才培養(yǎng),面向全球,持續(xù)與學(xué)術(shù)界、產(chǎn)業(yè)界和行業(yè)伙伴廣泛合作;把AI思維和技術(shù)引入現(xiàn)有產(chǎn)品和服務(wù),實(shí)現(xiàn)更大價(jià)值、更強(qiáng)競(jìng)爭(zhēng)力;應(yīng)用AI優(yōu)化內(nèi)部管理,對(duì)準(zhǔn)海量作業(yè)場(chǎng)景,大幅度提升內(nèi)部運(yùn)營(yíng)效率和質(zhì)量。

華為AI解決方案(portfolio)的全場(chǎng)景,是指包括公有云、私有云、各種邊緣計(jì)算、物聯(lián)網(wǎng)行業(yè)終端以及消費(fèi)類終端等部署環(huán)境。而全棧是技術(shù)功能視角,是指包括Ascend昇騰系列IP和芯片、芯片使能CANN、訓(xùn)練和推理框架MindSpore和應(yīng)用使能ModelArts在內(nèi)的全堆棧方案。

徐直軍也回顧了制定以上AI戰(zhàn)略的初衷。華為定位AI是一種新的通用目的技術(shù)(GPT),如同19世紀(jì)的鐵路和電力,以及20世紀(jì)的汽車、電腦、互聯(lián)網(wǎng)一樣,將應(yīng)用到經(jīng)濟(jì)的幾乎所有地方。同時(shí)華為也認(rèn)為AI的應(yīng)用總體還處于發(fā)展初期,AI技術(shù)和能力相比于長(zhǎng)遠(yuǎn)期望還有很大差距。減小甚至消除這些差距,加速AI的應(yīng)用,正是華為AI戰(zhàn)略的初衷和目標(biāo)。具體包括致力于促成以下10個(gè)方面的改變。

通過(guò)提供更強(qiáng)的算力,使復(fù)雜模型訓(xùn)練能在幾分鐘、甚至幾秒鐘內(nèi)完成,而不是今天的數(shù)天甚至數(shù)周;提供更經(jīng)濟(jì)、更充裕的算力,讓算力不再稀缺、不再昂貴,從而不再是AI發(fā)展的制約因素;通過(guò)全場(chǎng)景方案,適應(yīng)企業(yè)不同需要,確保用戶隱私得到尊重和保護(hù),讓AI能夠部署在任何場(chǎng)景,而不僅僅是公有云。投資基礎(chǔ)AI算法研究,實(shí)現(xiàn)更少的數(shù)據(jù)需求,即數(shù)據(jù)高效。也要能夠基于更低的算力和能耗,即能耗高效。通過(guò)AI框架MindSpore和應(yīng)用使能ModelArts,大大提升AI自身的自動(dòng)化水平,減少對(duì)人工的依賴。持續(xù)提升模型算法,實(shí)現(xiàn)工業(yè)生產(chǎn)環(huán)境的“工作”優(yōu)秀,而不僅僅是各種比拼環(huán)境的“考試”優(yōu)秀。實(shí)現(xiàn)模型的閉環(huán)、實(shí)時(shí)更新,保證企業(yè)AI應(yīng)用始終處于最佳狀態(tài)。將AI技術(shù)與5G、云、物聯(lián)網(wǎng)、邊緣計(jì)算、區(qū)塊鏈、大數(shù)據(jù)、數(shù)據(jù)庫(kù)…等技術(shù)充分協(xié)同,發(fā)揮更大價(jià)值。通過(guò)全棧方案一站式平臺(tái),使AI成為所有應(yīng)用開(kāi)發(fā)者甚至所有ICT技術(shù)從業(yè)人員的一項(xiàng)基本技能,而不是一項(xiàng)只有具備高級(jí)技能的專家才能完成的工作。通過(guò)全棧全場(chǎng)景技術(shù)手段,結(jié)合投資開(kāi)放的生態(tài)和人才培養(yǎng),讓AI人才不再短缺。

昇騰310和ModelArts獲得廣泛應(yīng)用

在華為全聯(lián)接大會(huì)2018上,與華為AI戰(zhàn)略一起, 作為全棧全場(chǎng)景解決方案的首批組件,華為同時(shí)對(duì)外發(fā)布并正式推出了昇騰310 AI芯片 和全流程模型生產(chǎn)服務(wù)ModelArts。昇騰310屬于Ascend-mini系列第一顆華為商用AI SoC芯片,在最大功耗僅8W的情況下,其整數(shù)精度(INT8)算力達(dá)到16Tops,半精度(FP16)算力達(dá) 到8Tops,同時(shí),該芯片中還集成了16通道 全高清 視頻解碼器,是面向邊緣計(jì)算場(chǎng)景最強(qiáng)算力的AI SoC。

自發(fā)布以來(lái),基于昇騰310芯片的產(chǎn)品和云服務(wù)獲得廣泛應(yīng)用。其中,基于昇騰310的MDC和很多國(guó)內(nèi)外主流車企在園區(qū)巴士、新能源車、自動(dòng)駕駛等場(chǎng)景已經(jīng)深入合作?;跁N騰310的Atlas系列板卡、服務(wù)器,與數(shù)十家伙伴在智慧交通、智慧電力等數(shù)十個(gè)行業(yè)落地行業(yè)解決方案。基于昇騰310,華為云提供了圖像分析類服務(wù)、OCR服務(wù)、視頻智能分析服務(wù)等云服務(wù)。對(duì)外提供API達(dá)50多個(gè),日均調(diào)用量超過(guò)1億次,而且在快速增長(zhǎng),預(yù)計(jì)年底日均調(diào)用量 超過(guò)3億次。另有超過(guò)100多個(gè)客戶使用昇騰310開(kāi)發(fā)定制AI算法。

ModelArts全流程模型生產(chǎn)服務(wù)打通了從數(shù)據(jù)獲取-模型開(kāi)發(fā)-模型訓(xùn)練-模型部署的全鏈條,可將生產(chǎn)所需的所有服務(wù)一站式提供。截止目前,ModelArts已經(jīng)擁有開(kāi)發(fā)者超過(guò)3萬(wàn),日均訓(xùn)練作業(yè)任務(wù)超過(guò)4000個(gè),32000小時(shí),其中:視覺(jué)類作業(yè)占85%,語(yǔ)音類作業(yè)占 10%, 機(jī)器學(xué)習(xí)5%。

華為發(fā)布AI處理器昇騰910  號(hào)稱世界算力最強(qiáng)

華為發(fā)布AI處理器昇騰910 號(hào)稱世界算力最強(qiáng)

去年10月,華為對(duì)外公布AI處理器Ascend 910(昇騰910)的技術(shù)規(guī)格,如今這款芯片真正到來(lái)。8月23日,華為正式發(fā)布昇騰910,同時(shí)推出全場(chǎng)景AI計(jì)算框架MindSpore。

據(jù)了解,昇騰910采用7nm+EUV工藝、32核自研達(dá)芬奇架構(gòu)。徐直軍表示,測(cè)試結(jié)果顯示,昇騰910完全達(dá)到了設(shè)計(jì)規(guī)格,即半精度達(dá)到256 TFLOPS,整數(shù)精度達(dá)到512 TOPS。并且,達(dá)到規(guī)格算力所需功耗僅310W,明顯低于設(shè)計(jì)的350W。

徐直軍表示,昇騰910總體技術(shù)表現(xiàn)超出預(yù)期,作為世界算力最強(qiáng)AI處理器,當(dāng)之無(wú)愧。據(jù)其透露,華為已經(jīng)把昇騰910用于實(shí)際AI訓(xùn)練任務(wù),昇騰910與MindSpore配合與現(xiàn)有主流訓(xùn)練單卡配合TensorFlow相比,顯示出接近2倍的性能提升。

此外,華為還發(fā)布了新一代AI開(kāi)源計(jì)算框架MindSpore。徐直軍表示,MindSpore框架已與昇騰處理器協(xié)同優(yōu)化,克服了AI計(jì)算的復(fù)雜性和算力的多樣性挑戰(zhàn),實(shí)現(xiàn)了運(yùn)行態(tài)的高效,大大提高了計(jì)算性能。

據(jù)了解,MindSpore將在2020年一季度開(kāi)源,除了昇騰處理器,MindSpore同時(shí)也支持GPU、CPU等其它處理器。

去年10月華為發(fā)布其AI戰(zhàn)略,華為公司輪值董事長(zhǎng)徐直軍表示,昇騰910、MindSpore的推出,標(biāo)志著華為已完成全棧全場(chǎng)景AI解決方案的構(gòu)建,也標(biāo)志著華為AI戰(zhàn)略的執(zhí)行進(jìn)入了新階段。

深度解讀達(dá)芬奇架構(gòu):華為AI芯片的“秘密武器”

深度解讀達(dá)芬奇架構(gòu):華為AI芯片的“秘密武器”

2019年6月,華為發(fā)布全新8系列手機(jī)SoC芯片麒麟810,首次采用華為自研達(dá)芬奇架構(gòu)NPU,實(shí)現(xiàn)業(yè)界領(lǐng)先端側(cè)AI算力,在業(yè)界公認(rèn)的蘇黎世聯(lián)邦理工學(xué)院推出的AI Benchmark榜單中,搭載麒麟810的手機(jī)霸榜TOP3,堪稱華為AI芯片的“秘密武器”,這其中華為自研的達(dá)芬奇架構(gòu)舉足輕重。

那么,達(dá)芬奇架構(gòu)AI實(shí)力究竟怎么樣?一起來(lái)深入了解下。

源起:為什么要做達(dá)芬奇架構(gòu)?

華為預(yù)測(cè),到2025年全球的智能終端數(shù)量將會(huì)達(dá)到400億臺(tái),智能助理的普及率將達(dá)到90%,企業(yè)數(shù)據(jù)的使用率將達(dá)到86%??梢灶A(yù)見(jiàn),在不久的將來(lái),AI將作為一項(xiàng)通用技術(shù)極大地提高生產(chǎn)力,改變每個(gè)組織和每個(gè)行業(yè)。

基于這樣的愿景,華為在2018全聯(lián)接大會(huì)上提出全棧全場(chǎng)景AI戰(zhàn)略。作為重要的技術(shù)基礎(chǔ),AI芯片在其中發(fā)揮著重要作用,而華為也基于AI芯片提供了完整的解決方案,加速使能AI產(chǎn)業(yè)化。

為了實(shí)現(xiàn)AI在多平臺(tái)多場(chǎng)景之間的協(xié)同,華為創(chuàng)新設(shè)計(jì)達(dá)芬奇計(jì)算架構(gòu),在不同體積和功耗條件下提供強(qiáng)勁的AI算力。

初見(jiàn):達(dá)芬奇架構(gòu)的核心優(yōu)勢(shì)

達(dá)芬奇架構(gòu),是華為自研的面向AI計(jì)算特征的全新計(jì)算架構(gòu),具備高算力、高能效、靈活可裁剪的特性,是實(shí)現(xiàn)萬(wàn)物智能的重要基礎(chǔ)。

具體來(lái)說(shuō),達(dá)芬奇架構(gòu)采用3D Cube針對(duì)矩陣運(yùn)算做加速,大幅提升單位功耗下的AI算力,每個(gè)AI Core可以在一個(gè)時(shí)鐘周期內(nèi)實(shí)現(xiàn)4096個(gè)MAC操作,相比傳統(tǒng)的CPU和GPU實(shí)現(xiàn)數(shù)量級(jí)的提升。

同時(shí),為了提升AI計(jì)算的完備性和不同場(chǎng)景的計(jì)算效率,達(dá)芬奇架構(gòu)還集成了向量、標(biāo)量、硬件加速器等多種計(jì)算單元。同時(shí)支持多種精度計(jì)算,支撐訓(xùn)練和推理兩種場(chǎng)景的數(shù)據(jù)精度要求,實(shí)現(xiàn)AI的全場(chǎng)景需求覆蓋。

深耕:達(dá)芬奇架構(gòu)的AI硬實(shí)力

科普1:常見(jiàn)的AI運(yùn)算類型有哪些?

在了解達(dá)芬奇架構(gòu)的技術(shù)之前,我們先來(lái)弄清楚一下幾種AI運(yùn)算數(shù)據(jù)對(duì)象:

·?標(biāo)量(Scalar):由單獨(dú)一個(gè)數(shù)組成

·?向量(Vector):由一組一維有序數(shù)組成,每個(gè)數(shù)由一個(gè)索引(index)標(biāo)識(shí)

·?矩陣(Matrix):由一組二維有序數(shù)組成,每個(gè)數(shù)由兩個(gè)索引(index)標(biāo)識(shí)

·?張量(Tensor):由一組n維有序數(shù)組成,每個(gè)數(shù)由n個(gè)索引(index)標(biāo)識(shí)

其中,AI計(jì)算的核心是矩陣乘法運(yùn)算,計(jì)算時(shí)由左矩陣的一行和右矩陣的一列相乘,每個(gè)元素相乘之后的和輸出到結(jié)果矩陣。

在此計(jì)算過(guò)程中,標(biāo)量(Scalar)、向量(Vector)、矩陣(Matrix)算力密度依次增加,對(duì)硬件的AI運(yùn)算能力不斷提出更高要求。

典型的神經(jīng)網(wǎng)絡(luò)模型計(jì)算量都非常大,這其中99%的計(jì)算都需要用到矩陣乘,也就是說(shuō),如果提高矩陣乘的運(yùn)算效率,就能最大程度上提升AI算力——這也是達(dá)芬奇架構(gòu)設(shè)計(jì)的核心:以最小的計(jì)算代價(jià)增加矩陣乘的算力,實(shí)現(xiàn)更高的AI能效。

科普2:各單元角色分工揭秘,Da Vinci Core是如何實(shí)現(xiàn)高效AI計(jì)算的?

在2018年全聯(lián)接大會(huì)上,華為推出AI芯片Ascend 310(昇騰310),這是達(dá)芬奇架構(gòu)的首次亮相。

其中,Da Vinci Core只是NPU的一個(gè)部分,Da Vinci Core內(nèi)部還細(xì)分成很多單元,包括核心的3D Cube、Vector向量計(jì)算單元、Scalar標(biāo)量計(jì)算單元等,它們各自負(fù)責(zé)不同的運(yùn)算任務(wù)實(shí)現(xiàn)并行化計(jì)算模型,共同保障AI計(jì)算的高效處理。

·?3D Cube矩陣乘法單元:算力擔(dān)當(dāng)

剛才已經(jīng)提到,矩陣乘是AI計(jì)算的核心,這部分運(yùn)算由3D Cube完成,Buffer L0A、L0B、L0C則用于存儲(chǔ)輸入矩陣和輸出矩陣數(shù)據(jù),負(fù)責(zé)向Cube計(jì)算單元輸送數(shù)據(jù)和存放計(jì)算結(jié)果。

·?Vector向量計(jì)算單元:靈活的多面手

雖然Cube的算力很強(qiáng)大,但只能完成矩陣乘運(yùn)算,還有很多計(jì)算類型要依靠Vector向量計(jì)算單元來(lái)完成。Vector的指令相對(duì)來(lái)說(shuō)非常豐富,可以覆蓋各種基本的計(jì)算類型和許多定制的計(jì)算類型。

·?Scalar標(biāo)量計(jì)算單元:流程控制的管家

Scalar標(biāo)量運(yùn)算單元主要負(fù)責(zé)AI Core的標(biāo)量運(yùn)算,功能上可以看作一個(gè)小CPU,完成整個(gè)程序的循環(huán)控制,分支判斷,Cube、Vector等指令的地址和參數(shù)計(jì)算以及基本的算術(shù)運(yùn)算等。

科普3:3D Cube計(jì)算方式的獨(dú)特優(yōu)勢(shì)是什么?

不同于以往的標(biāo)量、矢量運(yùn)算模式,華為達(dá)芬奇架構(gòu)以高性能3D Cube計(jì)算引擎為基礎(chǔ),針對(duì)矩陣運(yùn)算進(jìn)行加速,大幅提高單位面積下的AI算力,充分激發(fā)端側(cè)AI的運(yùn)算潛能。

以兩個(gè)N*N的矩陣A*B乘法為例:如果是N個(gè)1D 的MAC,需要N^2(即N的2次方)的cycle數(shù);如果是1個(gè)N^2的2D MAC陣列,需要N個(gè)Cycle;如果是1個(gè)N維3D的Cube,只需要1個(gè)Cycle。

圖中計(jì)算單元的數(shù)量只是示意,實(shí)際可靈活設(shè)計(jì)

華為創(chuàng)新設(shè)計(jì)的達(dá)芬奇架構(gòu)將大幅提升算力,16*16*16的3D Cube能夠顯著提升數(shù)據(jù)利用率,縮短運(yùn)算周期,實(shí)現(xiàn)更快更強(qiáng)的AI運(yùn)算。

這是什么意思呢?舉例來(lái)說(shuō),同樣是完成4096次運(yùn)算,2D結(jié)構(gòu)需要64行*64列才能計(jì)算,3D Cube只需要16*16*16的結(jié)構(gòu)就能算出。其中,64*64結(jié)構(gòu)帶來(lái)的問(wèn)題是:運(yùn)算周期長(zhǎng)、時(shí)延高、利用率低。

達(dá)芬奇架構(gòu)的這一特性也完美體現(xiàn)在麒麟810上。作為首款采用達(dá)芬奇架構(gòu)NPU的手機(jī)SoC芯片,麒麟810實(shí)現(xiàn)強(qiáng)勁的AI算力,在單位面積上實(shí)現(xiàn)最佳能效,F(xiàn)P16精度和INT8量化精度業(yè)界領(lǐng)先,搭載這款SoC芯片的華為Nova 5、Nova 5i Pro及榮耀9X手機(jī)已上市,為廣大消費(fèi)者提供多種精彩的AI應(yīng)用體驗(yàn)。

同時(shí),麒麟810再度賦能HiAI生態(tài),支持自研中間算子格式IR開(kāi)放,算子數(shù)量多達(dá)240+,處于業(yè)內(nèi)領(lǐng)先水平。更多算子、開(kāi)源框架的支持以及提供更加完備的工具鏈將助力開(kāi)發(fā)者快速轉(zhuǎn)換集成基于不同AI框架開(kāi)發(fā)出的模型,極大地增強(qiáng)了華為HiAI移動(dòng)計(jì)算平臺(tái)的兼容性、易用性,提高開(kāi)發(fā)者的效率,節(jié)約時(shí)間成本,加速更多AI應(yīng)用的落地。

預(yù)見(jiàn):達(dá)芬奇架構(gòu)解鎖AI無(wú)限可能

基于靈活可擴(kuò)展的特性,達(dá)芬奇架構(gòu)能夠滿足端側(cè)、邊緣側(cè)及云端的應(yīng)用場(chǎng)景,可用于小到幾十毫瓦,大到幾百瓦的訓(xùn)練場(chǎng)景,橫跨全場(chǎng)景提供最優(yōu)算力。

以Ascend芯片為例,Ascend-Nano可以用于耳機(jī)電話等IoT設(shè)備的使用場(chǎng)景;Ascend-Tiny和Ascend-Lite用于智能手機(jī)的AI運(yùn)算處理;在筆記本電腦等算力需求更高的便攜設(shè)備上,由Ascend-Mini提供算力支持;而邊緣側(cè)服務(wù)器上則需要由Multi-Ascend 310完成AI計(jì)算;至于超復(fù)雜的云端數(shù)據(jù)運(yùn)算處理,則交由算力最高可達(dá)256 TFLOPS@FP16的Ascend-Max來(lái)完成。

正是由于達(dá)芬奇架構(gòu)靈活可裁剪、高能效的特性,才能實(shí)現(xiàn)對(duì)上述多種復(fù)雜場(chǎng)景的AI運(yùn)算處理。

同時(shí),選擇開(kāi)發(fā)統(tǒng)一架構(gòu)也是一個(gè)非常關(guān)鍵的決策。統(tǒng)一架構(gòu)優(yōu)勢(shì)很明顯,那就是對(duì)廣大開(kāi)發(fā)者非常利好。基于達(dá)芬奇架構(gòu)的統(tǒng)一性,開(kāi)發(fā)者在面對(duì)云端、邊緣側(cè)、端側(cè)等全場(chǎng)景應(yīng)用開(kāi)發(fā)時(shí),只需要進(jìn)行一次算子開(kāi)發(fā)和調(diào)試,就可以應(yīng)用于不同平臺(tái),大幅降低了遷移成本。

不僅開(kāi)發(fā)平臺(tái)語(yǔ)言統(tǒng)一,訓(xùn)練和推理框架也是統(tǒng)一的,開(kāi)發(fā)者可以將大量訓(xùn)練模型放在本地和云端服務(wù)器,再將輕量級(jí)的推理工作放在移動(dòng)端設(shè)備上,獲得一致的開(kāi)發(fā)體驗(yàn)。

在算力和技術(shù)得到突破性提升后,AI將廣泛應(yīng)用于智慧城市、自動(dòng)駕駛、智慧新零售、機(jī)器人、工業(yè)制造、云計(jì)算AI服務(wù)等場(chǎng)景。華為輪值董事長(zhǎng)徐直軍在2018華為全聯(lián)接大會(huì)上表示,“全場(chǎng)景意味著可以實(shí)現(xiàn)智能無(wú)所不及,全棧意味著華為有能力為AI應(yīng)用開(kāi)發(fā)者提供強(qiáng)大的算力和應(yīng)用開(kāi)發(fā)平臺(tái);有能力提供大家用得起、用得好、用得放心的AI,實(shí)現(xiàn)普惠AI”。

未來(lái),AI將應(yīng)用更加廣泛的領(lǐng)域,并逐漸覆蓋至生活的方方面面。達(dá)芬奇架構(gòu)作為AI運(yùn)算的重要技術(shù)基礎(chǔ),將持續(xù)賦能AI應(yīng)用探索,為各行各業(yè)的AI應(yīng)用場(chǎng)景提供澎湃算力。

8月23日,采用達(dá)芬奇架構(gòu)的又一款“巨無(wú)霸”——AI芯片Ascend 910,將正式商用發(fā)布,與之配套的新一代AI開(kāi)源計(jì)算框架MindSpore也將同時(shí)亮相。

英特爾發(fā)布最新AI芯片 把谷歌、臺(tái)積電技術(shù)都用上了!

英特爾發(fā)布最新AI芯片 把谷歌、臺(tái)積電技術(shù)都用上了!

近幾年AI芯片火熱,不讓Nvidia專美于前,英特爾在確定進(jìn)入10納米時(shí)代后更是積極追趕,美國(guó)時(shí)間20日,英特爾公布首款神經(jīng)網(wǎng)絡(luò)處理器Nervana(代號(hào)Springhill)相關(guān)細(xì)節(jié),包含訓(xùn)練芯片NNP-T與推論芯片NNP-I,加上原有的Xeon在AI芯片陣容越發(fā)堅(jiān)強(qiáng),技術(shù)也開(kāi)始兼容了起來(lái)。

美國(guó)時(shí)間20日,英特爾在今年Hot Chips大會(huì)上公布首款神經(jīng)網(wǎng)絡(luò)處理器Nervana細(xì)節(jié),如其名,這是2016年英特爾收購(gòu)包含Nervana幾家新創(chuàng)公司的成果。Nervana處理器分為訓(xùn)練芯片NNP-T與推論芯片NNP-I。

訓(xùn)練用的Nervana NNP-T,主打可編程與靈活性,并強(qiáng)調(diào)可從頭建構(gòu)大規(guī)模深度學(xué)習(xí)模型,且盡可能訓(xùn)練電腦在給定的能耗預(yù)算內(nèi)快速完成任務(wù),也無(wú)需傳統(tǒng)技術(shù)的龐大開(kāi)銷。

NNP-T支援了Google TPU Tensorflow架構(gòu)特有的運(yùn)算格式“bfloat16”,bfloat16截?cái)嗉扔械?2位元float32的前16位,僅留下后16位所組成,在許多機(jī)器學(xué)習(xí)模型可以容忍較低精確度計(jì)算、不需降低收斂準(zhǔn)確率的情況下,許多模型使用bfloat16達(dá)到的收斂準(zhǔn)確率結(jié)果與一般使用的32位元浮點(diǎn)(FP32)計(jì)算數(shù)值的結(jié)果一樣,降低精度其實(shí)能讓存儲(chǔ)器效率取得較佳的平衡,從而訓(xùn)練與部署更多的網(wǎng)絡(luò)、降低訓(xùn)練所需的時(shí)間,有較好的效率與靈活性,而這是英特爾首次將bfloat16內(nèi)建于處理器。

▲bfloat16浮點(diǎn)格式(Source:Google)

另外有趣的是NNP-T其實(shí)采用的是臺(tái)積電16納米CLN FF+制程,這與一般我們對(duì)英特爾自行生產(chǎn)芯片的認(rèn)知有所差異,而在Nervana被英特爾收購(gòu)前,第一代Lake Crest就是由臺(tái)積電所代工。NNP-T采用臺(tái)積電最新的CoWoS(Chip on Wafer on Substrate)封裝技術(shù),將NNP-T的晶粒與四個(gè)8GB HBM2存儲(chǔ)器異質(zhì)整合堆疊2.5D,讓其封裝體積縮小成一個(gè)60X60 mm的芯片。

▲Nervana NNP-T采用臺(tái)積電16nm CLN FF+制程(Source:Intel)

英特爾同時(shí)發(fā)表了推論芯片Nervana NNP-I,主要針對(duì)大型資料中心市場(chǎng)高效能深度學(xué)習(xí)推論而生,NNP-I主要基于英特爾10nm Ice Lake處理器,官方強(qiáng)調(diào)透過(guò)此芯片,可提高每瓦效能,讓企業(yè)以更低的成本執(zhí)行推論運(yùn)算工作,降低推論大量部署的成本。英特爾指出,NNP-I在功率10瓦下每秒能處理3600張影像,而處理器本身亦擁有高度可編程性,且同時(shí)不影響性能與功效。

▲Nervana NNP-I架構(gòu)(Source:Intel)

NNP-I已與Facebook合作并實(shí)際運(yùn)用在其相關(guān)業(yè)務(wù)上,而NNP-T將于今年底以前針對(duì)尤其云端服務(wù)商相關(guān)的高端客戶送樣,并在2020年之前拓展市場(chǎng)。

從芯片大廠到云端龍頭,邊緣運(yùn)算AI芯片成必爭(zhēng)之地

從芯片大廠到云端龍頭,邊緣運(yùn)算AI芯片成必爭(zhēng)之地

聯(lián)發(fā)科于2019年7月中推出可快速影像辨識(shí)的AIoT平臺(tái)i700,在邊緣裝置端提供高性能的同時(shí),仍能達(dá)到最低功耗,預(yù)計(jì)將廣泛應(yīng)用在智慧城市、智慧建筑及智慧制造等領(lǐng)域,協(xié)助聯(lián)發(fā)科AIoT物聯(lián)網(wǎng)產(chǎn)業(yè)鏈加速發(fā)展。

從芯片大廠到云端龍頭,跨足邊緣AI芯片成重要策略

隨物聯(lián)網(wǎng)應(yīng)用越趨廣泛,裝置連結(jié)數(shù)的增加與海量數(shù)據(jù)的產(chǎn)生使智慧裝置對(duì)高速AI邊緣算力和物聯(lián)網(wǎng)能力提出更高要求,邊緣運(yùn)算與AI的結(jié)合遂成顯學(xué)。

觀察近期廠商于此領(lǐng)域之布局,邊緣運(yùn)算AI芯片堪稱兵家必爭(zhēng)之地,在芯片大廠部分,包括NVIDIA推出供物聯(lián)網(wǎng)閘道器及邊緣運(yùn)算使用的Jetson Nano開(kāi)發(fā)板與EGX平臺(tái);Intel推出由64個(gè)Loihi神經(jīng)擬態(tài)芯片組成的Pohoiki Beach系統(tǒng),并規(guī)劃將其應(yīng)用在自動(dòng)駕駛等邊緣端涉及深度學(xué)習(xí)的場(chǎng)景;高通也推出專為Edge AI設(shè)計(jì)的Cloud AI 100,挾其于物聯(lián)網(wǎng)、自駕車、計(jì)算機(jī)視覺(jué)等人工邊緣運(yùn)算重點(diǎn)發(fā)展領(lǐng)域豐富經(jīng)驗(yàn)一較高下。

除傳統(tǒng)芯片廠外,云端平臺(tái)大廠也有別于過(guò)往專注于解決方案的推出,紛紛加入戰(zhàn)局,例如AWS發(fā)布第一款專門用于機(jī)器學(xué)習(xí)的AI芯片Inferentia;Google則推出用來(lái)執(zhí)行機(jī)器學(xué)習(xí)模型推論預(yù)測(cè)的邊緣運(yùn)算芯片Edge TPU,可在邊緣端設(shè)備上以超低功率、高度省電方式執(zhí)行已訓(xùn)練好的TensorFLow Lite機(jī)器學(xué)習(xí)模型。

有鑒于物聯(lián)網(wǎng)設(shè)備是AI芯片目前應(yīng)用最廣泛的場(chǎng)景之一,云端大廠握有AI芯片將能讓其從云端跨向邊緣,使傳感器及相關(guān)設(shè)備有更高效的管理數(shù)據(jù)、提供更好的用戶體驗(yàn),并加速云端廠商物聯(lián)網(wǎng)商品的商業(yè)化與生態(tài)圈建置。

芯片亦為臺(tái)廠面對(duì)邊緣運(yùn)算AI趨勢(shì)之主要切入點(diǎn)

2019年亦有不少臺(tái)系廠商進(jìn)行邊緣運(yùn)算結(jié)合人工智能的布局,例如聯(lián)發(fā)科于年中推出具高速AI邊緣運(yùn)算能力的i700解決方案,其單晶片設(shè)計(jì)整合CPU、GPU、ISP和專屬AI處理器APU(AI Processor Unit),強(qiáng)大的AI辨識(shí)能力可應(yīng)用于無(wú)人商店的辨物刷臉、智慧建筑的門禁系統(tǒng),以及智慧工廠辨別障礙物等場(chǎng)景。

耐能則推出具備可重組式人工智能神經(jīng)網(wǎng)絡(luò)技術(shù)的AI芯片KL520,將神經(jīng)網(wǎng)絡(luò)處理器的功耗降至數(shù)百mW等級(jí),適用于結(jié)構(gòu)光、雙目視覺(jué),而ToF特性也使該芯片將廣泛運(yùn)用于網(wǎng)絡(luò)攝影機(jī)、安防監(jiān)控系統(tǒng)、空拍機(jī)等領(lǐng)域。同樣看準(zhǔn)邊緣視覺(jué)AI的商機(jī),華晶科、訊連、和碩等也相繼推出計(jì)算機(jī)視覺(jué)及圖像辨識(shí)的相關(guān)產(chǎn)品。

綜觀臺(tái)灣地區(qū)產(chǎn)業(yè)優(yōu)勢(shì),以半導(dǎo)體產(chǎn)業(yè)中的晶圓代工及封測(cè)總產(chǎn)值為全球第一,IC設(shè)計(jì)亦位居前茅。于2019年7月由產(chǎn)官學(xué)研組成的臺(tái)灣人工智能芯片聯(lián)盟(AI in Chip Taiwan Alliance,AITA)4個(gè)主要聚焦議題中,異質(zhì)整合旨在將不同芯片透過(guò)技術(shù)提升效能同時(shí)縮小體積、減少功耗與降低成本,半通用型AI芯片著重在發(fā)展特定應(yīng)用的推論及深度學(xué)習(xí)芯片,皆是邊緣運(yùn)算與AI結(jié)合的重要發(fā)展目標(biāo),倘由產(chǎn)業(yè)動(dòng)態(tài)及政府資源挹注來(lái)看,臺(tái)廠若要切入邊緣運(yùn)算AI市場(chǎng),芯片仍是最好發(fā)揮的著力點(diǎn)。

我國(guó)首款超低功耗存算一體AI芯片在合肥問(wèn)世

我國(guó)首款超低功耗存算一體AI芯片在合肥問(wèn)世

合肥恒爍半導(dǎo)體科技公司與中國(guó)科大團(tuán)隊(duì)歷時(shí)兩年共同研發(fā)的基于NOR閃存架構(gòu)的存算一體(ComputingInMemory)AI芯片系統(tǒng)演示順利完成。

據(jù)了解,該芯片是一款具有邊緣計(jì)算和推理的人工智能芯片,能實(shí)時(shí)檢測(cè)通過(guò)攝像頭拍攝的人臉頭像并給出計(jì)算概率,準(zhǔn)確且穩(wěn)定,可廣泛應(yīng)用于森林防火中的人臉識(shí)別與救援、心電圖的實(shí)時(shí)監(jiān)測(cè)、人工智能在人臉識(shí)別上的硬件解決方案等。

據(jù)合肥日?qǐng)?bào)報(bào)道,這標(biāo)志著具有我國(guó)自主知識(shí)產(chǎn)權(quán),國(guó)內(nèi)首創(chuàng)、國(guó)際領(lǐng)先的超低功耗存算一體的人工智能芯片在肥問(wèn)世。

研發(fā)團(tuán)隊(duì)成員之一、中國(guó)科大博士陶臨風(fēng)介紹,存算一體就是把存儲(chǔ)和計(jì)算結(jié)合在一起。在傳統(tǒng)計(jì)算過(guò)程中,計(jì)算單元需要將數(shù)據(jù)從存儲(chǔ)單元中提取出來(lái),處理完成后再寫回存儲(chǔ)單元。而存算一體則省去數(shù)據(jù)搬運(yùn)過(guò)程,有效提升計(jì)算性能。相較于傳統(tǒng)芯片,存算一體人工智能芯片具有能耗低、運(yùn)算效率高、速度快和成本低的特點(diǎn)。

據(jù)官網(wǎng)介紹,合肥恒爍半導(dǎo)體科技公司于2015年2月在合肥市注冊(cè),在上海浦東高科技園區(qū)設(shè)有研發(fā)中心,并且在中科大先研院設(shè)有3DNAND聯(lián)合開(kāi)發(fā)實(shí)驗(yàn)室和測(cè)試中心。此外,公司已和多家晶圓生產(chǎn)和封裝廠建立了戰(zhàn)略合作伙伴關(guān)系,共同開(kāi)發(fā)NAND、NOR閃存、EEPROM和其它新型存儲(chǔ)器產(chǎn)品。

華米科技自研芯片“黃山1號(hào)”量產(chǎn)應(yīng)用

華米科技自研芯片“黃山1號(hào)”量產(chǎn)應(yīng)用

6月11日下午,華米科技在北京舉行夏季新品發(fā)布會(huì),發(fā)布其AMAZFIT米動(dòng)健康手表和AMAZFIT智能手表2兩款新品。在發(fā)布會(huì)上,華米科技創(chuàng)始人兼CEO黃汪宣布,其自研芯片黃山1號(hào)正式量產(chǎn)應(yīng)用。

黃汪現(xiàn)場(chǎng)介紹稱,華米科技自研芯片黃山1號(hào)是全球首款智能穿戴領(lǐng)域的第一顆人工智能芯片,同時(shí)是全球首顆RISC-V開(kāi)源指令集可穿戴處理器。該款芯片集成了RealBeats AI生物數(shù)據(jù)引擎,可進(jìn)行心律不齊含房顫本地實(shí)時(shí)甄別,具有高能效、AI前移、可擴(kuò)展等特性。

在性能方面,相比ARM Cortex-M4,黃山1號(hào)運(yùn)算效率高出38%,相比純軟件算法,黃山1號(hào)AI硬件引擎的房顫判斷效率高出200%,此外,黃山1號(hào)既可作為獨(dú)立處理器應(yīng)用,也可作為協(xié)處理器。黃汪表示,黃山1號(hào)可賦能其它普通可穿戴設(shè)備,與搭載高通驍龍移動(dòng)平臺(tái)的可穿戴設(shè)備協(xié)同發(fā)揮作用。

2018年 9 月,華米科技正式推出黃山1號(hào),這次發(fā)布會(huì)上,黃汪表示黃山1號(hào)不僅在今年上半年實(shí)現(xiàn)量產(chǎn),同時(shí)還在產(chǎn)品上得到應(yīng)用。這次發(fā)布的新品AMAZFIT米動(dòng)健康手表采用黃山1號(hào)芯片作為主芯片,AMAZFIT智能手表2則在高通Wear 2500的基礎(chǔ)上,增加黃山1號(hào)芯片。