使用GPU或者xPU的AI加速卡,核心芯片的工藝制程從7nm、5nm工藝,將很快過(guò)渡到3nm工藝節(jié)點(diǎn)。隨著工藝制程的不斷提升,xPU的核心工作電壓也在不斷降低,目前標(biāo)稱(chēng)核心電壓在0.75至0.9V之間。當(dāng)AI加速卡在處理模型訓(xùn)練運(yùn)算的時(shí)候,其核心所需電流可能達(dá)到600到1800A,電流變大的時(shí)候,PCB走線阻抗所帶來(lái)的損耗和PDN問(wèn)題就會(huì)變的相當(dāng)棘手。
AI加速卡的電源架構(gòu)
圖源:Renesas
為了提升計(jì)算密度,使用PCIe接口的AI加速卡,通常會(huì)通過(guò)集群的方式安裝到服務(wù)器中,每個(gè)AI服務(wù)器中安裝4或8個(gè)加速卡,此時(shí)的對(duì)于電源傳輸來(lái)講橫向的電源傳輸路徑被大幅壓縮,由于需要同時(shí)考慮到大電流開(kāi)關(guān)電源的噪聲對(duì)于高速信號(hào)的影響,所以多項(xiàng)開(kāi)關(guān)電源只能移動(dòng)到更靠近核心的位置,同時(shí)面對(duì)xPU核心電壓對(duì)于600-1800A大電流需求,傳統(tǒng)的多相buck電源方案幾乎難以滿足要求。
NVIDIA H200 NVL 4 GPU集群
AI加速卡的瞬態(tài)功率可能會(huì)達(dá)到額定最大功率的2倍甚至更高,在這種電流瞬態(tài)變化較大的情況下,還需要保證避免xPU電壓供電電壓過(guò)小導(dǎo)致系統(tǒng)掛起,供電電壓過(guò)大損壞xPU。這對(duì)于電源的容差、紋波以及負(fù)載瞬態(tài)相應(yīng)都要求極高。
熱管理同樣是面臨的重大挑戰(zhàn)之一,傳統(tǒng)的供電方法是將穩(wěn)壓器放置在xPU的一側(cè),電流橫向傳輸?shù)教幚砥鳌S捎陔娏鞑淮螅鸬碾妷?I2R)下降也在可接受范圍內(nèi)。但是當(dāng)電流達(dá)到600-1800A時(shí),PCB電源層傳輸路徑上的壓降會(huì)成倍的增加,即便是幾厘米的PCB電源走線也會(huì)產(chǎn)生大量的損耗。
針對(duì)AI加速卡集群,垂直供電是最好的解決方案。在垂直供電的方案中,電源模塊直接安裝在處理器PCB另外一側(cè)的下方,此時(shí)電流傳輸?shù)木嚯x就是PCB的板厚,與橫向供電相比,大大縮短了電流通過(guò)主板的距離,極大地減小了傳輸路徑寄生參數(shù)對(duì)電源質(zhì)量的影響,電源傳輸損耗最高能降低95%。
垂直供電示意圖
圖源:analog
在橫向供電的方案中,xPU的正下方放置的是很多個(gè)高頻電容,這些低ESR電容能夠更有效地濾除高頻噪聲,減少電源紋波,提供瞬態(tài)電流,提高電源的響應(yīng)速度。 在垂直供電的方案下,之前安裝高頻電容的位置需要安裝電源模塊,此次高頻電容的位置就會(huì)發(fā)生變化,一種方案是將高頻電容集成到電源模塊中,但是這種方案對(duì)于高頻電容來(lái)講,距離電源引腳過(guò)于遠(yuǎn),理想的解決方案是將電容分別嵌埋到xPU的基板和電源模塊的PCB中。 垂直供電方案下,高頻電容位置的變化 圖源:Murata 在摩爾定律逐漸失效的情況下,當(dāng)前AI計(jì)算硬件的主要升級(jí)路徑變?yōu)椴捎孟冗M(jìn)封裝和嵌埋元器件等方式來(lái)實(shí)現(xiàn)互聯(lián)堆疊的密度提升。隨著計(jì)算密度的不斷提升,散熱方面也需要使用高導(dǎo)熱FR-4材料或者埋嵌銅塊等方式來(lái)提高系統(tǒng)的整體散熱能力。垂直供電方案下,高頻電容位置的變化