【中國(guó)安防展覽網(wǎng) 媒體導(dǎo)讀】5月16日消息,OpenAI發(fā)布了一份名為《AI與計(jì)算》的分析報(bào)告,自2012年以來(lái),AI訓(xùn)練任務(wù)所運(yùn)用的算力每3.43個(gè)月就會(huì)翻倍,這一數(shù)字大大超越了芯片產(chǎn)業(yè)長(zhǎng)期存在的摩爾定律(每18-24個(gè)月芯片的性能會(huì)翻一倍)。自2012年以來(lái),AI算力增長(zhǎng)了超過(guò) 300,000 倍(而如果是以摩爾定律的速度,只應(yīng)有12倍的增長(zhǎng))。
硬件算力的提升一直是AI快速發(fā)展的重要因素。因此,OpenAI表示,如果我們希望目前的發(fā)展趨勢(shì)持續(xù)下去,我們就需要為研發(fā)遠(yuǎn)超當(dāng)前算力的全新系統(tǒng)做好準(zhǔn)備。
OpenAI是2015年成立的AI非營(yíng)利組織,由以埃隆·馬斯克為首的諸多硅谷大亨聯(lián)合建立,致力于推動(dòng)AI發(fā)揮積極作用、避免AI帶來(lái)的問(wèn)題。
以下是OpenAI此次分析報(bào)告中的一些重點(diǎn)。
一、為何要從算力角度來(lái)看AI的發(fā)展?
推動(dòng)AI發(fā)展的動(dòng)力有三個(gè):算法、數(shù)據(jù)、算力。算法是否有創(chuàng)新發(fā)展難以量化跟蹤,而數(shù)據(jù)的巨大體量也難以計(jì)算,但算力是可以量化的,這為我們探究AI的發(fā)展進(jìn)程提供了機(jī)會(huì)。
OpenAI認(rèn)為,雖然使用大量的算力暴露出了當(dāng)前AI算法不夠的問(wèn)題,但是,重要的技術(shù)突破依然必須在足夠的算力基礎(chǔ)上才能實(shí)現(xiàn)。所以,從算力的角度來(lái)審視AI的發(fā)展是合理的。
在算力的分析中,OpenAI認(rèn)為起決定作用的數(shù)字并不是單個(gè)CPU的速度,也不是數(shù)據(jù)中心的大容量,而是用于訓(xùn)練單個(gè)模型所需的算力——這一數(shù)值有可能代表當(dāng)前佳算法的強(qiáng)大程度。
以模型計(jì)的算力需求與總算力有很大不同,因?yàn)椴⑿杏?jì)算的限制(硬件和算法上)使得模型不可能太大,訓(xùn)練的效率也不會(huì)太高。
OpenAI發(fā)現(xiàn),目前,算力發(fā)展的趨勢(shì)是每年大約增加10倍。這種增長(zhǎng)的實(shí)現(xiàn),部分是因?yàn)橛懈鼮閷?zhuān)業(yè)的硬件(如GPU和TPU)使得芯片每秒能夠執(zhí)行更多操作,但主要還是因?yàn)橛醒芯咳藛T們不斷尋找更好的并行計(jì)算方法,并花費(fèi)大量資金才實(shí)現(xiàn)的。
二、OpenAI是如何計(jì)量算力的?
AI深度學(xué)習(xí)模型需要耗費(fèi)大量時(shí)間和算力,若有足夠的信息,就可以估計(jì)出已知訓(xùn)練結(jié)果的總算力需求。
這份分析報(bào)告中,OpenAI使用petaflop/s-day(pfs-day)作為算力的計(jì)量單位。一個(gè)單位的petaflop/s-day(pfs-day)代表在一天時(shí)間內(nèi)每秒執(zhí)行10^15 次,總計(jì)約為10^20次神經(jīng)網(wǎng)絡(luò)操作(operations)。這種計(jì)量方法類(lèi)似于電能的千瓦時(shí)。
OpenAI不測(cè)量硬件FLOPS數(shù)的理論峰值,而是嘗試估計(jì)執(zhí)行的實(shí)際操作數(shù)量。OpenAI將任何加法或乘法計(jì)為單個(gè)操作,而不考慮數(shù)值精度,同時(shí)忽略集成模型。
通過(guò)OpenAI的計(jì)算,目前每次算力翻倍的時(shí)間為3.43個(gè)月。
三、算力發(fā)展的時(shí)期特征
OpenAI在分析報(bào)告中給出了兩張圖表,展示了為人熟知的幾個(gè)AI機(jī)器學(xué)習(xí)模型以petaflop/s-days計(jì)的計(jì)算總量,即其所需的算力。
(幾個(gè)為人熟知的AI機(jī)器學(xué)習(xí)模型以petaflop/s-days計(jì)的計(jì)算總量,即其所需的算力)
從圖表中我們可以發(fā)現(xiàn)AI算力發(fā)展分為4個(gè)時(shí)期。
2012年之前:使用GPU進(jìn)行機(jī)器學(xué)習(xí)還不常見(jiàn),因此,在這個(gè)時(shí)期,圖中顯示的小算力都難以達(dá)到。
2012年-2014年:使用很多個(gè)GPU進(jìn)行模型訓(xùn)練的基礎(chǔ)架構(gòu)還不常見(jiàn),這個(gè)時(shí)期多使用1-8個(gè)速度為1-2TFLOPS的GPU進(jìn)行訓(xùn)練,可達(dá)到0.001-0.1 pfs-days的算力水平。
2014年-2016年:普遍使用10-100個(gè)速度為5-10 TFLOPS的GPU進(jìn)行大規(guī)模的模型訓(xùn)練,可達(dá)到0.001-0.1 pfs-days的算力水平。這個(gè)時(shí)期的數(shù)據(jù)說(shuō)明,減少數(shù)據(jù)并行化的返回值帶來(lái)的收益會(huì)遞減,這意味著更大規(guī)模的模型訓(xùn)練帶來(lái)的價(jià)值是有限的。
2016年-2017年:出現(xiàn)可以實(shí)現(xiàn)更大規(guī)模算法并行化的方法(如較大的批量規(guī)模、架構(gòu)搜索和專(zhuān)家迭代)以及使用專(zhuān)用硬件(如TPU和更快速的網(wǎng)絡(luò)連接),極大地突破了算力的限制,尤其是對(duì)某些模型來(lái)說(shuō)。
AlphaGo Zero和AlphaZero是大家熟悉的大型算法并行化例子,而很多其他同等規(guī)模的應(yīng)用現(xiàn)在在算法層面上也是可行的,而且也可能已經(jīng)投入了應(yīng)用。
四、算力會(huì)繼續(xù)快速發(fā)展,我們?cè)撐从昃I繆
OpenAI認(rèn)為,人類(lèi)的算力需求每3.43個(gè)月就會(huì)翻倍,每年大約增加10倍,這樣的發(fā)展趨勢(shì)將會(huì)繼續(xù)。
很多創(chuàng)業(yè)公司都在開(kāi)發(fā)AI專(zhuān)用的芯片,一些企業(yè)聲稱(chēng)他們將在接下來(lái)一兩年大幅提高芯片的算力。這樣一來(lái),人們就可以僅僅通過(guò)重新配置硬件,以更少的經(jīng)濟(jì)成本得到強(qiáng)大的算力。而在并行性方面,很多近期出現(xiàn)的新算法在原則上也可以結(jié)合,例如,架構(gòu)搜索和大規(guī)模并行SGD。
另一方面,并行化算法的發(fā)展會(huì)被經(jīng)濟(jì)成本限制,而芯片效率的發(fā)展將會(huì)被物理上的局限所限制。OpenAI認(rèn)為,雖然如今大規(guī)模的AI模型訓(xùn)練使用的硬件,僅單個(gè)硬件就要花費(fèi)百萬(wàn)美元的采購(gòu)成本(盡管攤銷(xiāo)下來(lái),成本已經(jīng)低了很多)。但今天的神經(jīng)網(wǎng)絡(luò)計(jì)算的主體部分仍然在于推理階段,而不是模型訓(xùn)練階段,這意味著企業(yè)可以重新改裝或采購(gòu)更多的芯片用于模型訓(xùn)練。
因此,如果有足夠的經(jīng)濟(jì)基礎(chǔ),我們甚至可以看到更多的大規(guī)模并行訓(xùn)練,從而使這一趨勢(shì)持續(xù)數(shù)年。*的總體硬件預(yù)算是每年1萬(wàn)億美元,可以看到,經(jīng)濟(jì)成本對(duì)并行化算法的發(fā)展限制仍然遠(yuǎn)未達(dá)到。
OpenAI認(rèn)為,對(duì)于這種趨勢(shì)將持續(xù)多久,以及持續(xù)下去會(huì)發(fā)生什么,用過(guò)去的趨勢(shì)來(lái)預(yù)測(cè)是不足夠的。
但是,即使算力增長(zhǎng)的潛力目前處于我們可以掌控的范圍,也必須從今天就為研發(fā)遠(yuǎn)超當(dāng)前算力的全新系統(tǒng)做好準(zhǔn)備,并開(kāi)始警覺(jué)AI的安全問(wèn)題和惡意使用問(wèn)題。
這種遠(yuǎn)見(jiàn)對(duì)于負(fù)責(zé)任的政策制定和負(fù)責(zé)任的技術(shù)發(fā)展都至關(guān)重要,我們必須走在這些趨勢(shì)前面,而不是對(duì)這些趨勢(shì)置之不理。