發(fā)布日期:2022-07-14 點擊率:90
展示了一款新型路由器,該設備在一個定制的40核處理器Quantum Flow上整合了多種網(wǎng)絡服務功能。這名以太網(wǎng)巨頭打算充分發(fā)揮其在設計復雜ASIC上的專業(yè)技術(shù),以便在50億美元的邊緣路由器市場中超越對手。
一個專用的定制處理器、內(nèi)含40個Tensilica內(nèi)核、每個內(nèi)核能處理4個線程,在考察了思科系統(tǒng)公司的Quantum Flow處理器(QFP)之后,我們明白:多內(nèi)核設計并非生來都是一樣的。
Quantum Flow處理器把思科在網(wǎng)絡系統(tǒng)ASIC方面的技術(shù)水平推到了一個新高度,在某些方面超越了英特爾和SUN的主流服務器CPU技術(shù)。分析人員認為,思科這一舉措十分明智,盡管有人抱怨該公司對新芯片框架細節(jié)過于諱如莫深。
思科聲稱已投入2.5億美元和長達5年的時間在聚合服務路由器1000(ASR 1000)系列上,其中1億美元用于Quantum Flow處理器的開發(fā)。該系列路由器能夠支持多種服務功能,比如防火墻、IPSec安全虛擬專用網(wǎng)(IPSec VPN)、深層數(shù)據(jù)包檢測(DPI)和會話邊界控制(SBC)等,數(shù)據(jù)率高達20Gbps。
高度整合換來高性能
“要在運營商級和終端用戶網(wǎng)絡的邊緣提供這些功能,大約需要6個設備。”思科服務提供部門總經(jīng)理Pankaj Patel表示,“我們的價值主張是:把它們都整合在一個小盒子中,以便降低資本投入與運作支出。”
Juniper Networks和Redback Networks等競爭對手的產(chǎn)品,以及思科現(xiàn)有的7600系列路由器,一般都是在一個底盤上放置多個卡,或者是在一個機架上堆疊若干設備來處理網(wǎng)絡邊緣上日益增多的功能性,International Data公司電信分析師Eve Griliches提到。
“各路由器廠商都紛紛嘗試在一個盒子中整合所有的服務,但事實上迄今卻沒有真正成功過,而市場卻被搞得亂七八糟。把所有的東西都集成在一塊芯片上是正確的一步。思科的一大批競爭對手都將往這個方向發(fā)展。”她表示。
這一系統(tǒng)的關鍵是包含13億個晶體管的流處理器,這個80瓦的芯片是由TI采用90nm工藝技術(shù)制造的,設計中還采用了思科的專有工具。它所包含的40個Tensilica內(nèi)核中的任何一個內(nèi)核都能夠處理多達4個線程,遠遠超過了Sun的65nm Niagara或英特爾的45nm Penryn服務器芯片的RAW線程級并行能力。
“我們曾放眼公司內(nèi)外,尋找可以利用的技術(shù),但一無所獲?!彼伎浦行吐酚刹块T工程總監(jiān)Nikhil Jayaram表示,“其它架構(gòu)都是關于數(shù)據(jù)包處理的,而我們需要的是對狀態(tài)化流量進行流處理?!?/p>
多核處理器和復雜的聚合路由器被整合在一起,從而構(gòu)成了目前公共網(wǎng)邊緣上最復雜的通信處理芯片。現(xiàn)在,網(wǎng)絡中心承載的都是大容量的高速啞數(shù)據(jù)流,而所有的智能都駐留在公網(wǎng)的邊緣,像思科CRS-1這樣的核心路由器不再是高性能網(wǎng)絡處理器的首選平臺。”
思科希望新推的處理器用于范圍廣泛的路由器中,并在數(shù)年里可在現(xiàn)場進行升級。但能否在正以兩位數(shù)字速度增長的動態(tài)邊緣網(wǎng)絡市場獲得成功尚不確定,IDC的Griliches稱。
內(nèi)核完成的具體任務
對于Tensilica內(nèi)核到底完成哪些工作,思科公司一直守口如瓶,對此,分析師和競爭者均表示不滿。QFP包含眾多的多線程內(nèi)核,可以進入到比開放系統(tǒng)互聯(lián)(OSI)協(xié)議第三層(網(wǎng)絡層)更高的層,完成對互聯(lián)協(xié)議包進行內(nèi)部探查的任務(通常稱為深層次包審查)。流處理器看似比商業(yè)網(wǎng)絡處理器更具優(yōu)勢,不過鑒于思科對這款器件的具體細節(jié)守口如瓶,現(xiàn)在下結(jié)論尚為時過早。
“大多數(shù)網(wǎng)絡處理單元(NPU)都仍然主要工作在第2層和第3層,主要是轉(zhuǎn)發(fā)數(shù)據(jù)包,并沒有做大量的最上層處理事務?!盩he Linley Group公司分析師Bob Wheeler表示。
這個龐大的Tensilica內(nèi)核群可用于在第二層和第三層完成較簡單的交換和路由任務,即傳統(tǒng)上由互聯(lián)網(wǎng)路由器完成的包轉(zhuǎn)發(fā)任務。由于其中的一些技術(shù)源自思科在2004年收購的Procket Networks公司,QFP很可能用于完成許多高于第三層的任務。
確實,QFP的設計者曾在一次新聞發(fā)布會上提到,可通過編程讓Tensilica內(nèi)核完成更深層的包審查,但目前仍不清楚QFP在多大程度上是采用硬連線方式來提供更高層服務的。
我們?yōu)槭裁搓P心這些問題呢?雙層面網(wǎng)絡處理器可以充當許多角色,包括安全處理器。與之相比,純粹的數(shù)據(jù)通道處理器可高速且高效地完成包轉(zhuǎn)發(fā)任務,但沒有多少其它功能。
如果QFP可完成許多更高層的功能,則可以用ASR 1000來完成各種入侵檢測和預防任務。思科公司可能在其面向應用的聯(lián)網(wǎng)程序中把它作為XML網(wǎng)關的前端來使用。在這些應用中,邊緣路由器將變成實現(xiàn)聯(lián)網(wǎng)的利刃。
該戰(zhàn)略可能會進一步使思科與競爭者Juniper網(wǎng)絡公司在路由器架構(gòu)方面的差異加大。在思科公司推出了CRS-1核心路由器之后,Juniper公司也展示了類似的能力,該公司發(fā)布了包含T1600和T Matrix的T系列分布式套件。Juniper公司在前不久還為其路由器發(fā)布了一款專用的控制層面的硬件系統(tǒng)——JCS 1200。
F1: 思科Quantum Flow處理器性能對比。
需求推動更復雜處理器的發(fā)展
考慮到公共網(wǎng)絡聚集了多個速度高達10Gbps且QoS參數(shù)各不相同的服務通道,其邊緣路由器需要完成多種不同類型的任務。因而,即使是規(guī)模較小的路由器也需要使用非常復雜的處理器。
英特爾和Cavium Networks都已設計出了10G網(wǎng)絡處理器,性能功能接近思科的產(chǎn)品。英特爾IXP 2800采用了16個可編程內(nèi)核,可在卡上運行服務程序。新創(chuàng)公司Netronome正在開發(fā)一款20G產(chǎn)品。
Cavium的Octeon采用了16個MIPS內(nèi)核,能夠處理第4-7層的某些服務任務。它帶有一個嵌入式模式匹配引擎,但需要片外TCAM來進行數(shù)據(jù)包分類?!皩τ谒伎?挑戰(zhàn)在于如何把一個多核處理器轉(zhuǎn)變?yōu)榫W(wǎng)絡處理器?!盝ayaram指出。
面向服務器的多內(nèi)核型多處理器大多數(shù)(如果不是全部)是專門用于完成控制層面的操作,與之相比,思科公司的QFP更像是Cavium公司Octeon處理器的超大尺寸版,它的眾多內(nèi)核既完成控制平面的任務,也完成與數(shù)據(jù)路徑有關的任務。
思科有100多位工程師參與這個設計項目,其中一些曾在AMD、Cyrix、英特爾和Sun擔任過微處理器設計師,也有部分工程師來自思科的CRS-1內(nèi)核路由器設計團隊。這個項目組把思科的具體芯片設計推到了一個前所未有的高度。他們致力于電路設計和內(nèi)存設計,自行完成芯片版圖和RTL設計,甚至自己設計封裝,創(chuàng)思科另一先河。
“我們最大的挑戰(zhàn)之一是信號完整性,而封裝對其影響舉足輕重?!盝ayaram表示,“設計拙劣的封裝在功率和信號完整性方面會讓你頭痛不已,但從信號完整性的角度來看,我們的基板幾乎是沒有影響的?!?/p>
保持這個處理器反饋是另一個難題。思科選擇了一種平面存儲模型,利用第二代低延遲DRAM的多個信道和芯片內(nèi)的多個存儲模塊。
“我猜想我們比其它技術(shù)使用了更多的片上和片外存儲?!盝ayaram稱。
和某些采用TCAM(電信存取方法)分段存儲庫和其它存儲結(jié)構(gòu)的網(wǎng)絡處理器相比,這種系統(tǒng)DRAM平面模型更便于器件實現(xiàn)簡單的C代碼編程。
該芯片的每內(nèi)核支持多達4個線程,故能夠彌補通信處理器因需要多次存儲訪問而產(chǎn)生的延遲的一部分。大多數(shù)計算機處理器每核只采用2個線程。
選擇Tensilica而不是MIPS 或 ARM作為內(nèi)核供應商曾是很冒險的決策?!八鼈兿喈旑愃?但當你深入了解網(wǎng)絡處理的真實細節(jié)時,會發(fā)現(xiàn)Tensilica架構(gòu)具有某些優(yōu)勢?!盝ayaram提到。
這些內(nèi)核鏈接在一個高效高性能交叉開關上,他表示。使用40多個內(nèi)核的處理器一般轉(zhuǎn)向更復雜的結(jié)構(gòu),比如網(wǎng)格。
在外部,該芯片帶有4個10Gb的SPI 4.2端口,利用思科一項專有技術(shù)鏈接兩個互連,可以實現(xiàn)數(shù)據(jù)率高達20Gbps的流量進出。該芯片的下一代版本將采用一種Interlaken互連衍生技術(shù),流量進出芯片的速率將能達到40Gbps。
該芯片適用于樹查找、哈希函數(shù)和大帶寬/低延遲訪問DRAM等關鍵通信任務。它的主要秘密武器在于采用了復雜的算法來靈活處理各種不同的內(nèi)容流,比如其中部分可以直接通過,其它的被逐條處理。
板上的其它ASIC包括一些數(shù)據(jù)幀和常見小部件。思科在它的IOS路由器軟件上增加了一個虛擬層,這樣無需多個流處理器就可以提供系統(tǒng)容錯冗余。
思科已為這一新路由器申請了42個相關專利,其中大部分是關于處理器的。
網(wǎng)絡流量的快速上升將推動對新系統(tǒng)的需求,思科表示。該公司估計,全球IP需求將從2007年的每月7EB(exabyte)增長到2011年每月29Eb,其中部分增長來自于消費類視頻,2011年的數(shù)字比2000年美國互聯(lián)網(wǎng)主干網(wǎng)的流量總量大1,100倍。
該公司的新路由器受到了多家終端用戶或潛在用戶的支持,其中包括漢莎航空和金融公司W(wǎng)achovia。思科在一次新聞發(fā)布會上曾引用一位電信高管的話,稱路由器代表著未來運營商級網(wǎng)絡所需要的一類設計。
“我們認為在網(wǎng)絡邊緣必需執(zhí)行動態(tài)質(zhì)量控制,以便靈活且安全地實現(xiàn)寬帶服務和融合通信流量的匯聚。”Nippon Telegraph and Telephone公司執(zhí)行副總裁Shin Hashomoto在一次特別聲明中表示。
盡管ASR 1000包含了這種壯碩的QFP,但也并未取得可漫天要價的地位。鑒于思科公司已經(jīng)在夸耀其兩插槽ASR1000的價格優(yōu)勢(起始價格為3.5萬美元),該公司可能已經(jīng)做好了打價格戰(zhàn)的準備。
思科公司的ASR 1000及其QFP處理器的推出,使得業(yè)界在路由分配方面看到兩點傾向。其一,邊緣路由器仍將比核心路由器更多地需要多層處理,盡管40和100Gbps的高速鏈接可能最先將在核心路由器中實現(xiàn)。其二,在什么程度上把控制層面和數(shù)據(jù)路徑的功能結(jié)合到龐大的單個ASIC中,或在更為模塊化的系統(tǒng)中把它們分配到多個刀片中,可能會取決于思科公司和Juniper公司在邊緣路由器方面傾向采納的經(jīng)濟模式。
作者:麥利 衛(wèi)玲