產(chǎn)品分類

      當前位置: 首頁 > 工業(yè)電子產(chǎn)品 > 半導體產(chǎn)品 > 存儲器

      類型分類:
      科普知識
      數(shù)據(jù)分類:
      存儲器

      Virtex UltraScale+ HBM FPGA:革命性提升存儲器的性能

      發(fā)布日期:2022-10-09 點擊率:116

        數(shù)據(jù)中心、有線應用及其它帶寬密集型應用所需的性能,遠遠高于傳統(tǒng)的 DRAM 技術(shù)。和市場上已有的存儲器相比, HBM 存儲器在性能、功耗和尺寸上,能為系統(tǒng)架構(gòu)師和 FPGA 設計人員帶來前所未有的優(yōu)勢。

        摘要

        在過去的十年里,電子系統(tǒng)在計算帶寬上呈現(xiàn)出指數(shù)級的增長。計算帶寬的大幅提升,也顯著提高了存儲帶寬要求,以滿足計算需求。這類系統(tǒng)的設計人員經(jīng)常發(fā)現(xiàn)市場上的并行存儲器(例如 DDR4)再也無法滿足應用的帶寬需求。

      賽靈思支持高帶寬存儲器 (HBM) 的 FPGA 能夠以最低的功耗、尺寸和系統(tǒng)成本提供高帶寬,顯然能夠輕松應對這類挑戰(zhàn)。在設計這款 FPGA 的過程中,賽靈思與其他領先半導體廠商一樣,選擇了業(yè)界唯一經(jīng)過證明的堆疊硅片互聯(lián)技術(shù)(即臺積電 (TSMC) 的 CoWoS 集成工藝)。這篇白皮書將介紹賽靈思 Virtex? UltraScale+ ? HBM 器件如何滿足大幅提升的系統(tǒng)存儲帶寬需求,同時保持功耗、尺寸和成本在限定范圍內(nèi)。

        行業(yè)趨勢 :帶寬和功耗

        過去十年里,并行存儲器接口的帶寬功能進步緩慢——如今 FPGA 中支持的最大 DDR4 數(shù)據(jù)速率仍然不足 2008 年 DDR3 數(shù)據(jù)速率的 2 倍。但就在這段時間內(nèi),存儲帶寬需求增長遠遠超過了 DDR4 的性能。考慮以太網(wǎng)的發(fā)展趨勢 :從 DDR3 時代開始,以太網(wǎng)端口速度從 10Gb/s 提高到了 40Gb/s,然后提高到100Gb/s,現(xiàn)在到了 400Gb/s——原始帶寬增加了 10 倍以上。

        類似的趨勢也存在于高性能計算和視頻廣播市場。 FPGA 機器學習 DSP 容量已從最大型 Virtex-6 FPGA中的 2,000 個 DSP 增加到了現(xiàn)在的最大型 Virtex UltraScale+ 器件中的超過 12,000 個 DSP 元件。視頻廣播行業(yè)已經(jīng)從標準清晰度過渡到 2K,現(xiàn)已達到 4K,很快將達到 8K。這些應用領域中,所需帶寬與DDR4 DIMM 能提供的帶寬之間都存在明顯的差距。見圖 1。

      圖 1 :存儲器帶寬要求比較

       

        為了彌補帶寬差距,系統(tǒng)架構(gòu)師若要在這些應用中使用 DDR4,就必須增加系統(tǒng)中的 DDR4 元件數(shù)量——這不是為了增加容量,而是為了在 FPGA 與存儲器之間提供所需的傳輸帶寬。四個 DDR4 DIMM以 2,667Mb/s 的數(shù)據(jù)速率運行,所能實現(xiàn)的最高帶寬為 。如果應用所需的帶寬超過這個值,那么 DDR 方案就會因功耗、 PCB 尺寸和成本問題變得不可行。不難看出,這些高帶寬應用中需要一種新的DRAM 存儲方案。

        從能效的角度重新審視這十年時間,很顯然這種不惜一切代價“提高性能”的時代已經(jīng)結(jié)束。 MDPI發(fā)表的一篇文章中預測,到 2030 年,根據(jù)當時數(shù)據(jù)中心設備的實際能效來看,僅數(shù)據(jù)中心就能消耗3%-13% 的全球能源供應。設計人員極為重視能效性能,尤其在這個多兆瓦級數(shù)據(jù)中心時代。他們還重視高效散熱解決方案,因為可靠的通風和冷卻需要很高運營支出 —— 總能耗的三分之一。因此,供應商如果能以較低散熱量實現(xiàn)最高單位成本計算性能和單位功耗計算性能,則其解決方案會極富吸引力。

        DDR4 DIMM 的替代方案

        為了彌補帶寬差距,半導體行業(yè)引入了多種巧妙方案來替代 DDR4。見表 1。最近,業(yè)行內(nèi)興起了基于收發(fā)器的串行存儲器技術(shù),例如混合存儲立方體 (HMC)。這些技術(shù)提供更高的存儲器帶寬,能夠在單個芯片中提供相當于幾個 DDR4 DIMM 的存儲帶寬——但需要將多達 64 個超高速串行收發(fā)器分配至存儲器子系統(tǒng)中。

        表 1 : 不同存儲器解決方案的關鍵特性對比

       

        高帶寬存儲器簡介

        通過移除 PCB, HBM 能以不同方式解決存儲器帶寬問題。 HBM 利用硅片堆疊技術(shù)將 FPGA 和 DRAM并排放在同一封裝內(nèi)。這樣,采用相同封裝的 DRAM 結(jié)構(gòu)能夠?qū)崿F(xiàn)多個 Tb/s 的帶寬。與其它存儲器技術(shù)相比,該技術(shù)使設計人員能夠?qū)崿F(xiàn)帶寬的大幅度跨越式提升。

        HBM 器件采用臺積電 (TSMC) 的業(yè)界標準 CoWoS(chip-on-wafer-on-substrate) 堆疊硅片組裝工藝進行組裝。賽靈思已經(jīng)在過去三代高端 Virtex 器件中采用這種組裝技術(shù),因此該技術(shù)已得到了證明。 CoWoS起初由賽靈思率先采用,作為硅片堆疊互聯(lián)技術(shù)應用于 28nm Virtex-7 FPGA 中。 CoWoS 組裝工藝將有源芯片放在無源硅中間層上。硅與硅的堆疊結(jié)構(gòu)允許通過非常小、分布非常密集的微凸塊來連接相鄰的硅器件——這里是將 FPGA 連接到 DRAM,之間有成千上萬的信號。見圖 2。

      圖 2 : TSMC CoWoS 組裝工藝允許通過數(shù)千個非常小的線連接相鄰晶片

       

        采用 CoWoS 組裝工藝,與典型的 DDR4 PCB 走線相比,不僅連接 HBM 的 DQ 走線總長度不足 3mm,而且電容和電感 (LC) 寄生效應極低。這樣, HBM I/O 結(jié)構(gòu)的芯片面積比典型外部 DDR4 I/O 結(jié)構(gòu)的芯片面積小 20 倍。 HBM 接口非常小,以致于單個 HBM 堆棧接口就包含 1,024 個 DQ 引腳,而且 I/O 芯片面積僅為單個 DDR4 DIMM 接口 I/O 芯片面積的一半。具有 1,024 個 DQ 引腳,而且低寄生效應,這樣能實現(xiàn)非常高的 HBM 堆棧輸入輸出帶寬,而時延與 DDR4 相近。

        對于采用 HBM 的 FPGA,所使用的外部 DDR4 的數(shù)量與容量要求有關,與帶寬要求無關。這樣所用的DDR4 組件數(shù)量大大減少,為設計人員節(jié)省了 PCB 空間和功耗。有些情況下根本不需要外部存儲器。

        賽靈思 HBM 解決方案簡介

        如圖 3 所示, Virtex UltraScale+ HBM 器件通過集成賽靈思合作供應商提供的業(yè)經(jīng)驗證的 HBM 控制器和存儲器堆棧,可使用與已投入量產(chǎn)的賽靈思 16nm UltraScale+ FPGA 系列相同的構(gòu)建塊來構(gòu)建。利用經(jīng)過量產(chǎn)驗證的 CoWoS 組裝工藝集成 HBM,通過標準的 Virtex FPGA 組裝流程將基礎 FPGA 組件與HBM 簡單地堆疊在一起。該方法消除了產(chǎn)能風險,因為基礎 FPGA 系列器件中使用的所有芯片、 IP 和軟件都經(jīng)過了量產(chǎn)質(zhì)量級認證。

      圖 3 : SSI 技術(shù)與支持 HBM 的 XCVU37P

       

        Virtex UltraScale+ HBM 器件中新增加的模塊只有 HBM、控制器和加速器的緩存一致性互連 (CCIX) 模塊。收發(fā)器、 PCIe? 的集成模塊、以太網(wǎng)、 Vivado? Design Suite 等均已經(jīng)得到量產(chǎn)質(zhì)量級認證,使設計人員能夠集中精力充分發(fā)揮 HBM 的特性與功能,使產(chǎn)品在市場中脫穎而出。

        時序收斂創(chuàng)新

        由于 Virtex UltraScale+ HBM 器件的基礎已經(jīng)得到驗證,因此賽靈思工程師可將創(chuàng)新工作重點放在優(yōu)化HBM 存儲器控制器上。 HBM 與 FPGA 集成的過程中,最明顯的挑戰(zhàn)在于有效利用 HBM 提供的所有存儲器帶寬。賽靈思在這些器件中提供了幾大關鍵而獨特的創(chuàng)新特性,以幫助客戶獲得 HBM 堆棧最高可用的輸入輸出帶寬。

        擴展的 AXI 接口

        第一個創(chuàng)新是 AXI 接口,用戶可通過該接口連接存儲器控制器。典型的集成 IP 與緊挨著嵌入式 IP 模塊的可編程邏輯進行接口連接。對于大部分模塊來說這已經(jīng)足夠,因為本地路由的匯聚帶寬足以從該模塊輸入輸出數(shù)據(jù)。然而,進出 HBM 的帶寬非常高,因而有必要創(chuàng)建新的接口結(jié)構(gòu)類型,以便擴展到可編程互連。該結(jié)構(gòu)明顯增加接口表面積,極大提高用戶 AXI 接口的可用互連能力,可實現(xiàn)  的運行速度。見圖 4。

      圖 4 : 擴展的 AXI 接口

       

        靈活尋址

        第二個創(chuàng)新是 HBM 存儲器控制器中包含的靈活尋址功能。 HBM 堆棧將存儲器地址空間分成偽通道。這意味著任何給定的 HBM DQ 位都被分配到特定的存儲器地址區(qū)域。因此,如果設計人員想把數(shù)據(jù)寫入存儲地址,只能通過與該地址關聯(lián)的偽通道來寫入數(shù)據(jù)。

        如果設計人員想把 HBM 堆棧視為單個連續(xù)存儲器,或者跨偽通道邊界將它們進行分區(qū),那么這種限制并不理想。為了克服這種局限性,賽靈思在嵌入式存儲器控制器中包含了一個 AXI 交換網(wǎng)絡。這個交換網(wǎng)絡能夠根據(jù)地址從任意源 AXI 接口將存儲器讀和寫路由到任意 HBM 偽通道。該功能稱為靈活尋址,因為它允許任意用戶 AXI 接口訪問任意 HBM 存儲器地址。

        對于想針對特定存儲器訪問形式來優(yōu)化存儲器控制器的用戶來說,也可以繞開靈活尋址。見圖 5。

      圖 5 : AXI 接口(到用戶邏輯)和 HBM 偽通道(到 HBM 堆棧)

       

        靈活尋址具備多個重要優(yōu)勢 :

        1.讓用戶能夠完全控制對 HBM 堆棧的尋址。 由于交換網(wǎng)絡能路由整個器件,因而用戶無需遵守 HBM固有的嚴格偽通道要求。 32 個 AXI 接口都能讀寫任一 HBM 堆棧上的任意 HBM 偽通道,使用戶能完全控制地址分區(qū),無需考慮偽通道邊界。

        2. 允許設計人員根據(jù)設計的時序收斂情況使用最方便的 AXI 接口進行連接。 例如,向存儲器寫入數(shù)據(jù)的邏輯無需與從存儲器讀取數(shù)據(jù)的邏輯處在相同位置。在基本流量管理器實例中,數(shù)據(jù)包寫入和數(shù)據(jù)包讀取模塊的 AXI 接口均可處在距離模塊最近的位置。見圖 6。

      圖 6 : 典型的以太網(wǎng)橋接設計

       

        利用靈活尋址,可將數(shù)據(jù)包寫入和數(shù)據(jù)包讀取邏輯分開,以避免爭奪路由資源。

        4.大量減少可編程路由資源。 存儲器控制器中有很多 AXI 總線,寬度均為 256 位。因此,如果集成存儲器控制器中提供 32 條在器件中水平路由的通道,就能為 FPGA 設計人員釋放可觀的資源,以便用于具有更高價值的功能。 AXI 交換網(wǎng)絡如果完全在 FPGA 邏輯中實現(xiàn),會占用 250,000 個 LUT。如果利用靈活尋址,則整個交換網(wǎng)絡無需使用 LUT。

        5.與偽通道方案相比,允許設計人員更高效地使用 AXI 接口。 HBM 偽通道具有典型的 DRAM 低效特征,例如激活、預充電和刷新延遲。盡管存儲器控制器確實通過重新排序來提高效率,但是 DRAM不可能達到 100% 高效。然而,單個 AXI 接口能夠?qū)⒍鄠€偽通道訪問實現(xiàn)流水線,因此獲得高于HBM 偽通道效率的 AXI 接口效率。在眾多應用中,這意味著所需的 AXI 接口數(shù)量更少,能夠釋放更多可編程資源。

        能效和熱管理方面的創(chuàng)新

        賽靈思客戶非常重視能效性能。 TSMC 16nm FinFET+ 工藝支持雙電壓運行,使客戶能夠選擇最高絕對性能或者最高每瓦特性能。利用此工藝,賽靈思能夠提供業(yè)界最低內(nèi)核電壓,將動態(tài)總功耗降低 30%,提供行業(yè)領先的收發(fā)器技術(shù),以及在 FPGA 中混合多種集成模塊,例如以太網(wǎng)、 Interlaken 和 PCIe。

        HBM 技術(shù)使賽靈思能夠取消外部存儲器接口,用中間層上的走線取而代之,從而將節(jié)能設計推向新高度。這樣做可降低存儲器接口電容,從而降低多 Tb/s 存儲帶寬所需的功耗,將每比特功耗降低 5 倍。

          熱管理方面,賽靈思提供多種獨特技術(shù),用以抵消在集成 HBM 之后產(chǎn)生的不可避免的熱密度增加問題。賽靈思的 Virtex UltraScale+ HBM 器件采用散熱片就緒型、無蓋、裸芯片、倒裝芯片封裝,能顯著改善散熱性能,緩和更高熱密度問題。這些無蓋封裝已用于其它 Virtex UltraScale+ FPGA,并在大多數(shù)使用案例中將散熱設計改善 10° C 左右。這實現(xiàn)了更高的計算性能上限和 / 或更低的散熱設計成本。見圖 7。

      圖 7 : 有蓋 vs 無蓋倒裝芯片封裝

       

        應用實例 :智能網(wǎng)絡接口卡

        HBM 與高端可編程邏輯的聯(lián)姻在網(wǎng)絡、數(shù)據(jù)中心、音頻 / 視頻廣播、雷達、測試與測量等眾多應用領域中發(fā)揮出巨大優(yōu)勢。其中一種應用是智能網(wǎng)絡接口卡或智能 NIC。智能 NIC 包含 :一個或多個網(wǎng)絡端口,一個連接 CPU 的接口(例如 PCIe? 或 CCIX),要加速的網(wǎng)絡功能(例如 OVS、 GZIP、 IPSec、SSL 等),以及用于數(shù)據(jù)包存儲和鍵值查找的存儲器。傳統(tǒng)的智能 NIC 需要在 PCB 上安裝四個 72 腳DIMM,以提供足夠的存儲器帶寬來服務兩個 100G 端口。連接四個 DIMM 需要驅(qū)動 624 個 I/O,會顯著增加總功耗。容納四個 DIMM 需要全高全長 (FHFL) 尺寸,會帶來一系列功耗和空間效率挑戰(zhàn)。

        如果在采用 HBM 的 VU35P 中實現(xiàn)相同方案,則尺寸能縮減到半高半長 (HHHL),因為外部 DRAM 元器件被 HBM 堆棧取代(見圖 8)。 VU35P 方案( 圖 9)的功耗約為 50%,因為避免了 DIMM 接口的 I/O 功耗。若使用包含兩個 HBM 堆棧的 VU35P 器件,那么得益于 HBM 帶寬,查找速度可提升 3 倍,而且搜索條目是市場上的 TCAM 的 2 倍。除了最終解決方案的這些固有優(yōu)勢外, HBM 方案還能簡化 PCB并降低存儲器子系統(tǒng)的復雜性,從而實現(xiàn)更簡單、風險更低的設計流程。

      圖8:現(xiàn)有基礎架構(gòu)

      :

      圖9:Virtex UltraScale+ HBM 解決方案

       

        結(jié)論

        未來很多系統(tǒng)會超出 DDR 所能提供的帶寬, HBM 作為最佳選擇,能大幅提高存儲器帶寬,并實現(xiàn)最佳的單位功耗性能。賽靈思 Virtex UltraScale+ HBM 器件提供恰當?shù)拇鎯ζ鲙捄涂删幊逃嬎阈阅芙M合。憑借這些器件,賽靈思重點幫助設計人員充分利用 HBM 的性能,同時將經(jīng)過驗證的芯片工藝和架構(gòu)、組裝技術(shù)以及設計工具作為設計開發(fā)的基礎。設計人員和系統(tǒng)架構(gòu)師都會領略通過 Virtex UltraScale+HBM 器件將 HBM 功能引入系統(tǒng)所帶來的優(yōu)勢。

        


      下一篇: PLC、DCS、FCS三大控

      上一篇: 安森美半導體提供全面

      推薦產(chǎn)品

      更多
      主站蜘蛛池模板: 中文字幕亚洲一区| 乱精品一区字幕二区| 久久久久久人妻一区二区三区 | 痴汉中文字幕视频一区| 亚洲午夜精品第一区二区8050| 亚洲AV综合色一区二区三区| 亚洲免费一区二区| 中文字幕精品无码一区二区三区| 亚洲一区二区三区久久| 亚洲日本久久一区二区va| 香蕉视频一区二区三区| 大香伊人久久精品一区二区| 国产成人无码一区二区三区在线| 国产成人精品无码一区二区老年人 | 无码少妇一区二区浪潮av| 伊人久久精品一区二区三区| 无码人妻精品一区二区三区9厂| 熟女大屁股白浆一区二区| 精品人妻一区二区三区毛片 | 国产成人无码AV一区二区在线观看| 少妇人妻精品一区二区| 天堂Av无码Av一区二区三区| 2021国产精品视频一区| 亚洲变态另类一区二区三区| 国产精品亚洲午夜一区二区三区| 亚洲一区在线观看视频| 亚洲一区在线视频| 中文字幕一区在线观看视频| 亚洲av日韩综合一区久热| 久久久久人妻精品一区三寸| 国产一区二区三区小说| 日韩精品一区在线| 日韩精品视频一区二区三区| 精品无码成人片一区二区98| 无码人妻一区二区三区一| 亚洲AV无码一区二区三区电影 | 亚洲欧洲∨国产一区二区三区| 亚洲高清偷拍一区二区三区| 国产一区二区精品尤物| 99精品一区二区免费视频| 亚洲精品国产suv一区88|