目錄:
一、AI芯片概述
二、AI芯片的分類和市場劃分(云端/終端,訓(xùn)練/推理)
三、AI芯片技術(shù)路線(GPU/FPGA/ASIC,現(xiàn)狀/短期/長期方向)
四、AI芯片市場分析(四大場景:數(shù)據(jù)中心、自動駕駛、安防、手機(jī)終端)
五、AI芯片主要廠商介紹(國外,國內(nèi))
六、AI芯片展望
附:未來兩種可能的通用AI芯片技術(shù)路線介紹(類腦芯片、可重構(gòu)通用AI芯片)
AI芯片概述
一、AI芯片產(chǎn)生的背景
AI的三大關(guān)鍵基礎(chǔ)要素是數(shù)據(jù)、算法和算力。隨著云計算的廣泛應(yīng)用,特別是深度學(xué)習(xí)成為當(dāng)前AI研究和運(yùn)用的主流方式,AI對于算力的要求不斷快速提升。
AI的許多數(shù)據(jù)處理涉及矩陣乘法和加法。AI算法,在圖像識別等領(lǐng)域,常用的是CNN;語音識別、自然語言處理等領(lǐng)域,主要是RNN,這是兩類有區(qū)別的算法;但是,他們本質(zhì)上,都是矩陣或vector的乘法、加法,然后配合一些除法、指數(shù)等算法。
CPU可以拿來執(zhí)行AI算法,但因為內(nèi)部有大量其他邏輯,而這些邏輯對于目前的AI算法來說是完全用不上的,所以,自然造成CPU并不能達(dá)到最優(yōu)的性價比。因此,具有海量并行計算能力、能夠加速AI計算的AI芯片應(yīng)運(yùn)而生。
二、什么是AI芯片
一般的說,AI芯片被稱為AI加速器或計算卡,即專門用于加速AI應(yīng)用中的大量計算任務(wù)的模塊(其他非計算任務(wù)仍由CPU負(fù)責(zé))。
而從廣義范疇上講,面向AI計算應(yīng)用的芯片都可以稱為AI芯片。除了以GPU、FPGA、ASIC為代表的AI加速芯片(基于傳統(tǒng)芯片架構(gòu),對某類特定算法或者場景進(jìn)行AI計算加速),還有比較前沿性的研究,例如類腦芯片、可重構(gòu)通用AI芯片等(但距離大規(guī)模商用還有較長距離)。
以GPU、FPGA、ASIC為代表的AI芯片,是目前可大規(guī)模商用的技術(shù)路線,是AI芯片的主戰(zhàn)場,本文以下主要討論的就是這類AI芯片。
AI芯片的分類和市場劃分
一、從兩個維度對AI芯片進(jìn)行分類
維度1:部署位置(云端、終端)
AI芯片部署的位置有兩種:云端、終端。所以根據(jù)部署的位置不同,AI芯片可以分為:云AI芯片、端AI芯片。
云端,即數(shù)據(jù)中心,在深度學(xué)習(xí)的訓(xùn)練階段需要極大的數(shù)據(jù)量和大運(yùn)算量,單一處理器無法獨(dú)立完成,因此訓(xùn)練環(huán)節(jié)只能在云端實(shí)現(xiàn)。
終端,即手機(jī)、安防攝像頭、汽車、智能家居設(shè)備、各種IoT設(shè)備等執(zhí)行邊緣計算的智能設(shè)備。終端的數(shù)量龐大,而且需求差異較大。
云AI芯片的特點(diǎn)是性能強(qiáng)大、能夠同時支持大量運(yùn)算、并且能夠靈活地支持圖片、語音、視頻等不同AI應(yīng)用。基于云AI芯片的技術(shù),能夠讓各種智能設(shè)備和云端服務(wù)器進(jìn)行快速的連接,并且連接能夠保持最大的穩(wěn)定。
端AI芯片的特點(diǎn)是體積小、耗電少,而且性能不需要特別強(qiáng)大,通常只需要支持一兩種AI能力。
相比于云AI芯片來說,端AI芯片是需要嵌入進(jìn)設(shè)備內(nèi)部的,當(dāng)在設(shè)備內(nèi)部中嵌入了端AI芯片之后,能夠讓設(shè)備的AI能力進(jìn)一步提升,并且讓設(shè)備在沒有聯(lián)網(wǎng)的情況之下也能夠使用相應(yīng)的AI能力,這樣AI的覆蓋變得更為全面。
維度2:承擔(dān)任務(wù)(訓(xùn)練、推理)
AI的實(shí)現(xiàn)包括兩個環(huán)節(jié):訓(xùn)練、推理。所以根據(jù)承擔(dān)任務(wù)的不同,AI芯片可以分為:用于構(gòu)建神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練芯片,利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推理預(yù)測的推理芯片。
訓(xùn)練,是指通過大數(shù)據(jù)訓(xùn)練出一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,即用大量標(biāo)記過的數(shù)據(jù)來“訓(xùn)練”相應(yīng)的系統(tǒng),使之可以適應(yīng)特定的功能。訓(xùn)練需要極高的計算性能,需要較高的精度,需要能處理海量的數(shù)據(jù),需要有一定的通用性,以便完成各種各樣的學(xué)習(xí)任務(wù)。
推理,是指利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出各種結(jié)論。即借助現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算, 利用新的輸入數(shù)據(jù)來一次性獲得正確結(jié)論的過程。也有叫做預(yù)測或推斷。
訓(xùn)練芯片,注重絕對的計算能力,而推斷芯片更注重綜合指標(biāo), 單位能耗算力、時延、成本等都要考慮。
訓(xùn)練將在很長一段時間里集中在云端,推理的完成目前也主要集中在云端,但隨著越來越多廠商的努力,很多的應(yīng)用將逐漸轉(zhuǎn)移到終端。
推理相對來說對性能的要求并不高,對精度要求也要更低,在特定的場景下,對通用性要求也低,能完成特定任務(wù)即可,但因為推理的結(jié)果直接提供給終端用戶,所以更關(guān)注用戶體驗方面的優(yōu)化。
二、AI芯片市場劃分
以部署位置(云端、終端)和承擔(dān)任務(wù)(訓(xùn)練、推理)為橫縱坐標(biāo),可以清晰的劃分出AI芯片的市場領(lǐng)域,上表,列出了適用于各個市場的技術(shù)路線及相應(yīng)廠商。
1、云端訓(xùn)練
訓(xùn)練芯片受算力約束,一般只在云端部署。
CPU由于計算單元少,并行計算能力較弱,不適合直接執(zhí)行訓(xùn)練任務(wù),因此訓(xùn)練一般采用“CPU+加速芯片”的異構(gòu)計算模式。目前NVIDIA的GPU+CUDA計算平臺是最成熟的AI訓(xùn)練方案,除此還有兩種方案:
第三方異構(gòu)計算平臺OpenCL + AMD GPU或OpenCL + Intel/Xilinx FPGA
云計算服務(wù)商自研加速芯片(如Google的TPU)
訓(xùn)練市場目前能與NVIDIA競爭的就是Google,傳統(tǒng)CPU/GPU廠家Intel和AMD也在努力進(jìn)入訓(xùn)練市場。
2、云端推理
如果說云端訓(xùn)練芯片是NVIDIA一家獨(dú)大,那云端推理芯片則是百家爭鳴,各有千秋。
相比訓(xùn)練芯片,推理芯片考慮的因素更加綜合:單位功耗算力,時延,成本等等。AI發(fā)展初期推理也采用GPU進(jìn)行加速,目前來看,競爭態(tài)勢中英偉達(dá)依然占大頭,但由于應(yīng)用場景的特殊性,依據(jù)具體神經(jīng)網(wǎng)絡(luò)算法優(yōu)化會帶來更高的效率,F(xiàn)PGA/ASIC的表現(xiàn)可能更突出。除了Nvidia、Google、Xilinx、Altera(Intel)等傳統(tǒng)芯片大廠涉足云端推理芯片以外,Wave computing、Groq 等初創(chuàng)公司也加入競爭。中國公司里,寒武紀(jì)、比特大陸等同樣積極布局云端芯片業(yè)務(wù)。
3、終端推理
在面向智能手機(jī)、智能攝像頭、機(jī)器人/無人機(jī)、自動駕駛、VR、智能家居設(shè)備、各種IoT設(shè)備等設(shè)備的終端推理AI芯片方面,目前多采用ASIC,還未形成一家獨(dú)大的態(tài)勢。
終端的數(shù)量龐大,而且需求差異較大。AI芯片廠商可發(fā)揮市場作用,面向各個細(xì)分市場,研究應(yīng)用場景,以應(yīng)用帶動芯片。
傳統(tǒng)芯片大廠如NVIDIA、Intel、ARM、高通等都積極布局,中國芯片創(chuàng)業(yè)企業(yè),如寒武紀(jì)、地平線等,也有不俗表現(xiàn),在一些細(xì)分市場領(lǐng)域頗有建樹。
AI芯片技術(shù)路線
一、AI芯片主要技術(shù)路線
目前,作為加速應(yīng)用的AI芯片,主要的技術(shù)路線有三種:GPU、FPGA、ASIC。
1、GPU
GPU(Graphics Processing Unit),即圖形處理器,是一種由大量核心組成的大規(guī)模并行計算架構(gòu),專為同時處理多重任務(wù)而設(shè)計。GPU是專門處理圖像計算的,包括各種特效的顯示,更加針對圖像的渲染等計算算法。這些算法與深度學(xué)習(xí)的算法還是有比較大的區(qū)別。當(dāng)然,GPU非常適合做并行計算,也可以用來給AI加速。
GPU因良好的矩陣計算能力和并行計算優(yōu)勢,最早被用于AI計算,在數(shù)據(jù)中心中獲得大量應(yīng)用。GPU采用并行架構(gòu),超過80%部分為運(yùn)算單元,具備較高性能運(yùn)算速度。相比較下,CPU僅有20%為運(yùn)算單元,更多的是邏輯單元,因此CPU擅長邏輯控制與串行運(yùn)算,而GPU擅長大規(guī)模并行運(yùn)算。GPU最早作為深度學(xué)習(xí)算法的芯片被引入人工智能領(lǐng)域,因其良好的浮點(diǎn)計算能力適用于矩陣計算,且相比CPU具有明顯的數(shù)據(jù)吞吐量和并行計算優(yōu)勢。
2011年谷歌大腦率先應(yīng)用GPU芯片,當(dāng)時12顆英偉達(dá)的GPU可以提供約等于2000顆CPU的深度學(xué)習(xí)性能,展示了其驚人的運(yùn)算能力。目前GPU已經(jīng)成為人工智能領(lǐng)域最普遍最成熟的智能芯片,應(yīng)用于數(shù)據(jù)中心加速和部分智能終端領(lǐng)域,在深度學(xué)習(xí)的訓(xùn)練階段其性能更是無所匹敵。
在深度學(xué)習(xí)上游訓(xùn)練端(主要用在云計算數(shù)據(jù)中心里),GPU是當(dāng)仁不讓的第一選擇。目前GPU的市場格局以英偉達(dá)為主(超過70%),AMD為輔,預(yù)計未來幾年內(nèi)GPU仍然是深度學(xué)習(xí)訓(xùn)練市場的第一選擇。
另外,GPU無法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作。CPU可單獨(dú)作用,處理復(fù)雜的邏輯運(yùn)算和不同的數(shù)據(jù)類型,當(dāng)需要大量的處理類型統(tǒng)一的數(shù)據(jù)時,則可調(diào)用GPU進(jìn)行并行計算。
2、FPGA
FPGA(Field-Programmable Gate Array),即現(xiàn)場可編程門陣列,作為專用集成電路領(lǐng)域中的一種半定制電路出現(xiàn)。FPGA利用門電路直接運(yùn)算,速度快,而用戶可以自由定義這些門電路和存儲器之間的布線,改變執(zhí)行方案,以期得到最佳效果。
FPGA可以采用OpenCL等更高效的編程語言,降低了硬件編程的難度,還可以集成重要的控制功能,整合系統(tǒng)模塊,提高了應(yīng)用的靈活性,與GPU相比,F(xiàn)PGA具備更強(qiáng)的平均計算能力和更低的功耗。
FPGA適用于多指令,單數(shù)據(jù)流的分析,與GPU相反,因此常用于推理階段。FPGA是用硬件實(shí)現(xiàn)軟件算法,因此在實(shí)現(xiàn)復(fù)雜算法方面有一定的難度,缺點(diǎn)是價格比較高。
FPGA因其在靈活性和效率上的優(yōu)勢,適用于虛擬化云平臺和推理階段,在2015年后異軍突起。2015年Intel收購FPGA市場第二大企業(yè)Altera,開始了FPGA在人工智能領(lǐng)域的應(yīng)用熱潮。因為FPGA靈活性較好、處理簡單指令重復(fù)計算比較強(qiáng),用在云計算架構(gòu)形成CPU+FPGA的混合異構(gòu)中相比GPU更加的低功效和高性能,適用于高密度計算,在深度學(xué)習(xí)的推理階段有著更高的效率和更低的成本,使得全球科技巨頭紛紛布局云端FPGA生態(tài)。
國外包括亞馬遜、微軟都推出了基于FPGA的云計算服務(wù),而國內(nèi)包括騰訊云、阿里云均在2017年推出了基于FPGA的服務(wù),百度大腦也使用了FPGA芯片。中國剛剛被Xilinx收購的深鑒科技也是基于FPGA來設(shè)計深度學(xué)習(xí)的加速器架構(gòu),可以靈活擴(kuò)展用于服務(wù)器端和嵌入式端。
3、ASIC
ASIC(Application Specific Integrated Circuits),即專用集成電路,是一種為專用目的設(shè)計的,面向特定用戶需求的定制芯片,在大規(guī)模量產(chǎn)的情況下具備性能更強(qiáng)、體積更小、功耗更低、成本更低、可靠性更髙等優(yōu)點(diǎn)。
ASIC與GPU和FPGA不同,GPU和FPGA除了是一種技術(shù)路線之外,還是實(shí)實(shí)在在的確定的產(chǎn)品,而ASIC就是一種技術(shù)路線或者方案,其呈現(xiàn)出的最終形態(tài)與功能也是多種多樣的。
近年來越來越多的公司開始采用ASIC芯片進(jìn)行深度學(xué)習(xí)算法加速,其中表現(xiàn)最為突出的是Google的TPU。TPU比同時期的GPU或CPU平均提速15~30倍,能效比提升30~80倍。相比FPGA,ASIC芯片具備更低的能耗與更高的計算效率。但是ASIC研發(fā)周期較長、商業(yè)應(yīng)用風(fēng)險較大等不足也使得只有大企業(yè)或背靠大企業(yè)的團(tuán)隊愿意投入到它的完整開發(fā)中。
AlphaGo就使用TPU,同時TPU也支持著Google的Cloud TPU平臺和基于此的機(jī)器學(xué)習(xí)超級計算機(jī)。此外,國內(nèi)企業(yè)寒武紀(jì)開發(fā)的Cambricon系列芯片受到廣泛關(guān)注。華為的麒麟980處理器所搭載的NPU就是寒武紀(jì)的處理器。
二、AI芯片技術(shù)路線走向
1、短期:GPU仍延續(xù)AI芯片的領(lǐng)導(dǎo)地位,F(xiàn)PGA增長較快
GPU短期將延續(xù)AI芯片的領(lǐng)導(dǎo)地位。目前GPU是市場上用于AI計算最成熟應(yīng)用最廣泛的通用型芯片,在算法技術(shù)和應(yīng)用層次尚淺時期,GPU由于其強(qiáng)大的計算能力、較低的研發(fā)成本和通用性將繼續(xù)占領(lǐng)AI芯片的主要市場份額。GPU的領(lǐng)軍廠商英偉達(dá)仍在不斷探尋GPU的技術(shù)突破,新推出的Volta架構(gòu)使得GPU一定程度上克服了在深度學(xué)習(xí)推理階段的短板,在效率要求和場景應(yīng)用進(jìn)一步深入之前,作為數(shù)據(jù)中心和大型計算力支撐的主力軍,GPU仍具有很大的優(yōu)勢。
FPGA是目前增長點(diǎn),F(xiàn)PGA的最大優(yōu)勢在于可編程帶來的配置靈活性,在目前技術(shù)與運(yùn)用都在快速更迭的時期具有巨大的實(shí)用性,而且FPGA還具有比GPU更高的功效能耗比。企業(yè)通過FPGA可以有效降低研發(fā)調(diào)試成本,提高市場響應(yīng)能力,推出差異化產(chǎn)品。在專業(yè)芯片發(fā)展得足夠重要之前,F(xiàn)PGA是最好的過渡產(chǎn)品,所以科技巨頭紛紛布局云計算+FPGA的平臺。隨著FPGA的開發(fā)者生態(tài)逐漸豐富,適用的編程語言增加,F(xiàn)PGA運(yùn)用會更加廣泛。因此短期內(nèi),F(xiàn)PGA作為兼顧效率和靈活性的硬件選擇仍將是熱點(diǎn)所在。
2、長期:三大類技術(shù)路線各有優(yōu)劣,會長期并存
1)GPU主攻高級復(fù)雜算法和通用型人工智能平臺
GPU未來的進(jìn)化路線可能會逐漸發(fā)展為兩條路,一條主攻高端復(fù)雜算法的實(shí)現(xiàn),由于GPU相比FPGA和ASIC高性能計算能力較強(qiáng),同時對于指令的邏輯控制上也更復(fù)雜一些,在面臨需求通用型AI計算的應(yīng)用方面具有較大優(yōu)勢。第二條路則是通型人工智能平臺,GPU由于設(shè)計方面,通用性強(qiáng),性能較高,應(yīng)用于大型人工智能平臺夠高效地完成不同種類的調(diào)用需求。
沈陽App定制開發(fā),請信賴唯思科技!
