當(dāng)流行科幻小說描述“機(jī)器智能的崛起”時(shí),它通常伴隨著激光、爆炸,或者在一些溫和的例子中,伴隨著輕微的哲學(xué)恐懼。但毫無疑問,人們對人工智能(AI)和機(jī)器學(xué)習(xí)(ML)在現(xiàn)實(shí)生活中應(yīng)用的可能性的興趣正在與日俱增,而且新的應(yīng)用程序每天都在涌現(xiàn)。
全球數(shù)百萬用戶已經(jīng)使用ChatGPT、Bard和其他AI界面與AI互動(dòng)。在印度,75%的辦公桌員工正在使用人工智能工具來提高生產(chǎn)力。但這些用戶中的大多數(shù)并沒有意識到,他們與好奇的人工智能助手進(jìn)行的舒適桌面交流實(shí)際上是由世界各地的大型數(shù)據(jù)中心驅(qū)動(dòng)的。
企業(yè)正在其數(shù)據(jù)中心內(nèi)投資人工智能集群,構(gòu)建、訓(xùn)練和完善其人工智能模型,以適應(yīng)其業(yè)務(wù)戰(zhàn)略。這些AI核心由機(jī)架上的GPU(圖形處理單元)組成,這些GPU提供了AI模型對其算法進(jìn)行詳盡訓(xùn)練所需的令人難以置信的并行處理能力。
導(dǎo)入數(shù)據(jù)集后,推理人工智能會(huì)分析該數(shù)據(jù)并理解它。這是根據(jù)對貓而非狗共有的特征的訓(xùn)練來確定圖像中是否包含貓或小狗的過程。然后,生成人工智能可以處理該數(shù)據(jù)以創(chuàng)建全新的圖像或文本。
正是這種“智能”處理吸引了世界各地的人們、政府和企業(yè)的想象力,但創(chuàng)建有用的人工智能算法需要大量數(shù)據(jù)用于訓(xùn)練目的,這是一個(gè)昂貴且耗電的過程。
高效培訓(xùn)從這里開始
數(shù)據(jù)中心通常維護(hù)離散的人工智能和計(jì)算集群,它們一起處理訓(xùn)練人工智能算法的數(shù)據(jù)。這些耗電的GPU產(chǎn)生的熱量限制了給定機(jī)架空間中可以容納的GPU數(shù)量,因此必須優(yōu)化物理布局,以減少熱量并最大限度地減少鏈路延遲。
AI集群需要新的數(shù)據(jù)中心架構(gòu)。GPU服務(wù)器需要服務(wù)器之間有更多的連接,但由于功率和熱量限制,每個(gè)機(jī)架的服務(wù)器數(shù)量較少。這導(dǎo)致我們的機(jī)架間布線比傳統(tǒng)數(shù)據(jù)中心更多,而銅線無法支持距離上需要100G到400G的鏈路。
人們普遍認(rèn)為,在訓(xùn)練大規(guī)模人工智能時(shí),大約30%的所需時(shí)間消耗在網(wǎng)絡(luò)延遲上,其余70%花費(fèi)在計(jì)算時(shí)間上。由于訓(xùn)練一個(gè)大型模型的成本高達(dá)1000萬美元,因此這段網(wǎng)絡(luò)時(shí)間是一筆巨大的成本。即使節(jié)省50納秒或10米光纖的延遲也很顯著,而且AI集群中幾乎所有鏈路都限制在100米范圍內(nèi)。
微調(diào)米、納秒和瓦特
運(yùn)營商應(yīng)仔細(xì)考慮他們將在人工智能集群中使用哪些光收發(fā)器和光纜,以最大限度地降低成本和功耗。
需要考慮的一些重要要點(diǎn):
•利用具有并行光纖的收發(fā)器來避免用于波分復(fù)用的光復(fù)用器和解復(fù)用器的需求
•收發(fā)器成本節(jié)省遠(yuǎn)遠(yuǎn)抵消了多光纖電纜而非雙工光纖電纜成本的小幅增加
•單模和多模光纖可支持長達(dá)100米的鏈路。雖然多模光纖的成本略高于單模光纖,但由于電纜成本主要由MPO連接器控制,因此兩種多光纖電纜之間的差異較小
•此外,高速多模收發(fā)器的功耗比單模收發(fā)器低一到兩瓦。這看起來似乎很小,但對于人工智能集群來說,任何節(jié)省電力的機(jī)會(huì)都可以在訓(xùn)練和操作期間帶來顯著的節(jié)省
收發(fā)器與有源光纜
許多AI/ML集群使用有源光纜(AOC),這是一種兩端帶有集成光發(fā)射器和接收器的光纜,用于互連GPU和交換機(jī)。然而,AOC中的發(fā)射器和接收器可能與類似收發(fā)器中的相同,但通常是廢棄品。
AOC發(fā)射器和接收器大多只需要與連接到電纜另一端的特定單元一起操作。由于安裝人員無法接觸到光纖連接器,因此不需要清潔和檢查光纖連接器所需的技能。此外,安裝AOC可能是一項(xiàng)耗時(shí)且精細(xì)的操作,因?yàn)樗枰褂眠B接的收發(fā)器來布線,并且正確安裝帶分線的AOC尤其具有挑戰(zhàn)性。
總體而言,AOC的故障率是同等收發(fā)器的兩倍。當(dāng)AOC發(fā)生故障,或者需要升級網(wǎng)絡(luò)鏈路時(shí),必須通過網(wǎng)絡(luò)路由新的AOC,這會(huì)占用計(jì)算時(shí)間。對于收發(fā)器,光纖布線是基礎(chǔ)設(shè)施的一部分,并且可以保持幾代數(shù)據(jù)速率。
數(shù)據(jù)中心的人工智能和機(jī)器學(xué)習(xí)時(shí)代
人工智能/機(jī)器學(xué)習(xí)已經(jīng)到來,它只會(huì)成為人們、企業(yè)和設(shè)備相互交互方式中更加重要和集成的一部分。根據(jù)Salesforce的一份報(bào)告,大約95%的印度IT領(lǐng)導(dǎo)者認(rèn)為生成式AI模型很快將在他們的組織中發(fā)揮重要作用,這表明需求不斷增長。
雖然與人工智能服務(wù)的接口實(shí)際上可以在你的手掌中發(fā)生,但它仍然依賴于大規(guī)模的數(shù)據(jù)中心基礎(chǔ)設(shè)施和驅(qū)動(dòng)它的所有動(dòng)力,而快速有效地訓(xùn)練人工智能的企業(yè)將在我們快速變化的超級互聯(lián)世界中占據(jù)重要地位。仔細(xì)考慮AI集群的布線將有助于節(jié)省成本、電力和安裝時(shí)間。正確的光纖布線將使組織充分受益于人工智能。今天投資于推動(dòng)人工智能培訓(xùn)和運(yùn)營的*光纖基礎(chǔ)設(shè)施,明天將帶來令人難以置信的結(jié)果。