0537- 6808158
網站首頁 >> 新聞中心 >>科技動態 >> Arm數據中心布局前瞻:Neoverse V1/N2解讀
详细内容

Arm數據中心布局前瞻:Neoverse V1/N2解讀

时间:2021-05-06     【转载】

Arm Neoverse產品線是在Cortex之外,另一條面向服務器和基礎設施設備的核心IP。包括初代發布即收獲不錯市場反響的Neoverse N1核心IP,亞馬遜Graviton2、Ampere Altra都是應用了這一IP的產品。除了N1之外,Arm此前還預告了今年即將推出的Neoverse N2和Neoverse V1,N1屬于Cortex A76的變體,而今年推向市場的Neoverse V1則可類比基于Cortex X1的核心……

前不久我們介紹了Arm在數據中心市場的部署,主要談到了Arm Neoverse產品線——即在Cortex之外的另一條面向服務器和基礎設施設備的核心IP。包括初代發布即收獲不錯市場反響的Neoverse N1核心IP,亞馬遜Graviton2、Ampere Altra都是應用了這一IP的產品。

除了N1之外,Arm此前還預告了今年即將推出的Neoverse N2和Neoverse V1。在上篇中,我們大致談到Neoverse N1屬于Cortex A76的變體,而今年推向市場的Neoverse V1則可類比基于Cortex X1的核心;N2則是個新架構,包括基于Armv9指令集,規劃上全面采用5nm工藝等。

廣告

Arm前幾天召開了一場發布會,詳述Neoverse N2與V1這兩個架構的情況,也分享了Neoverse系列IP目前的市場表現——尤其談到Graviton2被亞馬遜應用到了更多實例中,這些實例的增量遠超x86產品。有關Arm面向基礎設施的市場規劃,可參見上篇內容,此處不再贅述;本文著重談一談N2和V1這兩個微架構。

“應用于所有基礎設施”的野心

我們知道,Neoverse N1的價值主要體現在相比x86產品更出色的Performance/TCO,也就是性能與TCO(總擁有成本)之比。亞馬遜開發自家的Graviton,很大程度上也是基于節省成本的考量:這其中包括了Arm處理器在能效方面擁有更大的優勢,能耗相關的成本投入上也有不錯的紅利。

但至少在Neoverse N1之時,如上篇提到的,其每核性能表現實則是不及同時代的x86競品的。不過Arm一直在提“用內核來代替SMT”,并且強調單線程(整數)性能,以及“Arm合作伙伴提供比傳統線程更完整的內核”,或者“用內核代替SMT線程”,尤其云環境負載更需要專屬的核心——很顯然這是在說x86陣營的同時多線程(比如Intel的超線程)在服務器市場并無太大價值。

無論這樣的說法是否公平,在單線程性能表現(以及每瓦性能),乃至每核心一個線程的性能表現上,這次的Neoverse N2/V1都可能已經有了與傳統x86處理器一較高下的資本。

單線程性能的持續提升實則也是Arm得以在服務器、基礎設施市場站穩腳跟的關鍵。Arm基礎設施事業部高級副總裁兼總經理Chris Bergey表示,在Neoverse時代之前,Arm面向基礎設施的內核是基于Cortex-A72的,“它具有出色的能效比,而且媲美競爭對手的線程所提供的單核性能表現”,“但有些基礎設施細分市場還希望能進一步提高性能,并在大規模使用時保證性能表現!

“于是就有了現在的Neoverse N1內核與CMN-600 Mesh網絡,將線程性能擴展到非常高的內核數量,這也使得Neoverse更加適合云服務!盉ergey說,“在AWS Graviton2和Ampere Altra這樣的芯片上,幾乎所有工作負載都能為用戶帶來高出40%的性價比!

在Arm看來,通過這次新發布的Neoverse V1和N2,“我們將帶領大家進入這個新時代。我們想要改變業界對部署基礎設施的看法。大家不需要在性能和能效之間做選擇,我們希望大家能夠二者兼得!边@話的魄力還是相當之大。

“我們相信,我們的單核性能將能勝出傳統架構。當Arm合作伙伴提供比傳統線程(指SMT方案)更完整的內核時,哪一種解決方案能為最終用戶提供更好的性能和價值,已經毋庸置疑。這種說法發主要針對的是云服務,但考慮到Arm的性能和能效,這種說法也適用于所有基礎設施市場,從HPC、云到邊緣!盉ergey表示,“Arm Neoverse應用于所有基礎設施應用市場的時代已經到來了,現在正式啟動!笨梢夾rm對Neoverse V1/N2給予了多大的厚望。

Neoverse V1與N2的性能與能效變化

在面向國內的線上發布會上,Arm提到的有關Neoverse V1/N2的微架構改進細節并不多,主體上是以分享案例和談性能提升為主的。那我們就先來看看這兩個新架構在性能和能效上的變化,包括相比前代產品(N1)和競品(x86)。

在此前的發布會上,Arm就提到過Neoverse V1將實現50%的IPC(每周期執行執行數)提升,對比對象是N1。50% IPC提升在這個時代聽起來是比較恐怖的數字,不過其實仔細想一想,Neoverse N1是基于Cortex A76的,而Neoverse V1在核心微架構層面與Cortex X1相似。這其中差了2-3個代際,50%的IPC提升也就顯得順理成章了。而且Neoverse V1和Cortex X1一樣,都是在PPA指針方面更偏向性能,并一定程度犧牲成本、功耗為代價的微架構,V1原本就代表了彪悍的性能之路(應用定位上也偏HPC)。

值得一提的是,50%性能提升這個數字是個中值,即在不同的應用場景,可實現的IPC提升是不同的。比如能夠充分利用SVE的工作負載,最高能夠獲得100-125%的IPC提升。

雖然在國內的發布會上Arm并沒有提,但國外媒體給出的PPT上可見,Arm給出能效方面的數字為Neoverse V1是N1的70%-100%,核心面積是N1的1.7倍。意即功耗和面積產生了不對等的增加,這是符合預期的,因為如前所述V1部分犧牲了功耗和成本,換取性能的進一步提升。這里1.7倍的面積變化,也能看出在推升性能上,要付出的代價的確不小。如此,V1核心頻率應當不會比N1更高。雖然即便是這樣,包括面積效益、能耗比方面還是會顯著優于x86。

而在Neoverse N2這邊,在相同工藝和配置下,N2相比N1也有著40%的IPC提升;面積多出1.3倍;功耗則會高出大約1.45倍——表明N2和N1的能效基本相似,略有下降。在Arm所畫的相對性能與功耗曲線圖上,以N1為參考,N2的性能提升,伴隨的是功耗方面的線性提升——或者說N2在設計上,是性能與功耗線性提升的臨界點,再往后,功耗就開始躥升了。所以N2在Arm眼中仍是兼顧了PPA的核心,這一點與V1就很不一樣。

Arm有特別提到在性能提升的基礎上,5nm工藝實現的Neoverse N2核心在功耗與面積上,可與7nm的N1持平。這是個相當樂觀的估計,不知未來N2具體實施方案能不能達到這個程度。

上面這張圖是Arm給出的不同規格的Neoverse核心,與競品的比較。橫軸表示單個socket插槽的整數性能表現,縱軸表示單線程整數性能。很顯然,其中寫著“Traditional”的競品就是指Intel和AMD去年與今年的服務器CPU。

“這些是Arm基于,我們認為具有市場代表性的內部參考系統,所做的預測! Bergey說。

在縱軸單線程整數性能上,前文就提到了Arm基本無視了x86陣營的SMT設計(Arm此處列出的是競品單核SMT之時,每線程的性能表現)。這對Intel/AMD而言其實是不大公平的。如果以一個核心一個線程來算,如此前文章中提到的,N1目前的產品相對落后于Intel Xeon和AMD Epyc。Neoverse V1對x86前代產品的超越應該是個必然,但論單核單線程性能,應該還有商榷的余地。

比如圖中的Traditional 2021(40C/80T)指的應該是Intel Xeon 8380(Ice Lake-SP)。從SPEC2017 Rate-1單線程性能測試來看,Ampere Altra Q80-33的Neoverse N1核心實際上還是會略弱于Ice Lake-SP的(雖然有能效上的優勢)——所以還是需要看具體的實施方案。不過可能的確如Arm所述,在很多基礎設施環境(比如云),Arm的這種“更完整的內核”可表現出更大的價值。

而在橫軸單socket插槽性能方面,多核心的優勢自然更能淋漓盡致地體現出來。只是像圖中128c/128t這樣的設計,最終還是要看具體芯片的實施方案(比如N1雖然也規劃了128核,但目前最高核心數的Ampere Altra處理器采用了80核心的設計;以及PPA權衡是否真能達到Arm的預期)。

即便下半年服務器處理器市場還會有Sapphire Rapids這樣的勁敵出現,不過從Arm對Neoverse V1和N2的預期來看,Neoverse如今在服務器市場,戰力又比去年增長了一大截,起碼在性能方面也已經可以與對手叫板了,更不必說能效和性價比固有的優勢。

Neoverse V1:更寬的架構

接下來就談談這兩個新IP的微架構變化。有關這部分,Arm在國內的發布會上談的不多,所以內容主要來自國外同期報道的一些匯總。另外Arm透露的有關Neoverse N2的內容也很少,這可能是因為N2這種新架構的詳情,等著將來新一代Cortex產品問世時再揭曉。

對Neoverse V1而言,如前文所述,這是個與Cortex X1有著諸多相似之處的核心,如上圖所示的CPU管線:包括取指帶寬加倍,更大的L2 BTB(8K entries),L0 BTB(96 entries),去掉了L1 BTB。另外和Cortex X1一樣,引入了Mop cache(緩存最多3K解碼指令),Mop分發帶寬8-wide,指令解碼寬度5-wide;OoO亂序窗口尺寸翻倍,ROB增加到256 entries;后端增加超標量整數執行帶寬,分支執行端口翻倍,新增一個復雜ALU;存儲子系統部分,同樣增加了load/store單元數量。

緩存結構上,L2 cache在1MB容量下縮減1個周期,bank數翻倍提升訪問并行度;SLC延遲大幅縮減。新一代prefetcher,能夠發現針對存儲的任意訪問模式,以對后續相同模式的迭代做出識別和數據預取。為減少L2到SLC的流量采用一種新型的動態預取行為。

而Neoverse V1上比較重大的一些改進,包括Neoverse V1是Arm旗下首個支持SVE的微架構。SVE即Scalable Vector Extension,此前一直被認為是Neon的下一代擴展。Neon本身是一種SIMD(單指令多數據)。Neon一直使用固定長度的數據格式,早前128bit的計算寬度也適中。不過固定長度計算方式限制了其擴展并行計算能力。所以SVE作為當年Armv8.2-A的可選擴展就出現了。

SVE實現了128-2048bit可變矢量長度。這對軟件而言是很有價值的,相同的代碼就能跑在不同的目標產品上了。早前固定矢量長度計算方式,比如從128bit遷往256bit,就需要軟件做重新設計和編譯,才能應用這種更寬的執行能力。所以Arm的PPT針對SVE的描繪是:write once, compile once, deploy forever…

此前富士通的A64FX就率先用上了512bit SVE。而Neoverse V1則采用2條256bit寬度SVE管線,向后兼容128bit NEON/FP操作——也就是可作為4x128bit管線來用。除了這種可變長度的特性之外,還有不少特性,以此讓編譯器生成更優質的自動矢量化代碼。

“Arm現有的SIMD指令集NEON難以對某些代碼進行矢量化處理,例如這里的HACC示例!盉ergey解釋道,“而SVE可以直接取用相同的代碼,并很好地對其進行自動矢量化。相比于NEON,可提升將近3.5倍的處理速度(是指Neoverse N2)!薄霸赩1上加倍SVE矢量寬度,對應處理速度也就幾乎提升了一倍!币簿褪巧蠄D呈現的6.9倍。

SVE的引入對于重矢量計算負載的HPC而言,Neoverse V1/N2都會有相當大的提升。

與此同時,Neoverse V1也引入了對于BFloat16、Int8數據格式的支持,相比N1即加強了ML表現——Arm的數字是機器學習4倍性能提升。

Neoverse N2應用Armv9與SVE2的新架構

有關Neoverse N2的介紹,Arm透露的信息不多。從N2基于Armv9指令集就能看出,這是個面向未來,且晚于V1的設計。如前文所述,N2是盡可能在提升40% IPC的基礎上,藉由5nm的工藝紅利與微架構的改進,將功耗維持在于N1相同水平線上的核心IP。

SVE2是Armv9引入的新特性,SVE2也就是第二代SVE。Neoverse N2應用了SVE2,雖然其管線寬度只有V1的一半(2x 128bit)。Arm官方介紹中提到,SVE2在數據級并行(DLP)覆蓋到了更多的功能域。SVE主要針對HPC、ML應用設計;而SVE2則將范圍擴展到更多的數據處理領域。

“SVE2把我們討論的與SVE相關的性能、編程簡易性及可移植性等優勢,應用到更廣的領域和場景! Bergey在發布會上說,“SVE意在加速HPC,而SVE2則將其擴展到了ML、DSP、多媒體和5G等應用場景!边@符合Arm將Neoverse擴展到更多基礎設施設備上的意愿。

在針對Neoverse N2的宣傳中,Arm給的數據中也包含5G邊緣上“1.2倍的DPDK L3數據包處理”,“在云端提升1.3倍的Nginx表現”等。

從Arm的路線圖可知,N2產品的問世將晚于V1。N2本質上是V1的一個超集,只不過在具體規格上更加保守,畢竟V系列是真正面向高性能、HPC的;N系列則在基礎設施方面具備了更廣的通用性。

CMN-700 mesh互聯:CCIX升級,新增CXL支持

上篇Neoverse N1文章也大致談到了核心及更高層級的一些互聯方案,上代產品的核心互聯用的是CMN-600——這是Arm于2016年發布的SoC互聯IP。隨同Neoverse V1/N2核心一同到來的,是新版的CMN-700。

Mesh網絡連接大量核心,實際上也是這類面向服務器的IP根本上有別于Cortex系列的一部分。有關CMN如何連接核心,上篇中已經有了一些簡單介紹。

“Arm CMN-700 Mesh互聯技術是構建基于V1和N2高性能SoC的關鍵要素!薄癈MN-600為可擴展、高內核數、高性能SoC奠定了基礎。CMN-700是基于這個成功的基礎打造的,并在每個規格上都做了提升,從內核的數量、緩存的大小,到附加內存和IO設備的數量和類型!

從上面這張規格表可見,CMN-700 mesh網絡的交叉節點數量增加,單die之上的核心數也對應增加,從此前的64個增加到最多256個(上代N1擴展到更高核心似乎是通過DSU實現的)。每顆die最大的SLC可以達到512MB,每個節點4MB。

不過SLC在具體實施中會遇到一些實際問題,比如說Ampere Altra作為一款80核處理器,實際只配了32MB SLC,和Arm的目標配置相去甚遠。外媒Anandtech對此的分析是,mesh網絡中Home Node節點(帶Snoop Filter的SLC緩存模塊,snoop filter cache是一種特殊的緩存,存儲索引信息,主要用于減少因緩存一致性所需的cache tag查詢)的snoop filter緩存占用的面積比較大,所以實際的緩存大小設計也可能因此受限。

另外mesh上的最大內存控制器端口數量由16增加到40個;CCIX端口由原先的4個增多到32個——這對那些較多chiplet設計的芯片而言會有價值。

“對于基于V1的HPC平臺而言,支持高帶寬DDR5和HBM內存系統至關重要,CMN-700就實現了這一點! Bergey表示。Arm的PPT就明確提到了對DDR5+HBM的混合支持。更高的mesh頻率、節點之間mesh通道拓寬,則實現了互聯帶寬的提升。

針對CCIX的支持,這次升級到了CCIX 2.0。這在多die、多socket設計上,對Arm而言是比較重要的更新。上一代Ampere Altra在雙socket配置上就表現得比較低效,相比競爭對手有差距。CCIX 2.0著力在緩解這方面的問題,當然具體的還是要看最終成效。

“CMN-700一個關注重點,就是對多芯片功能的助益,以便為數據中心資源池化的增長提供更多的定制選項! Bergey說。針對多芯方案,Arm在CMN-700方案上的一些改進,包括跨雙芯片做Home Node節點一致性;還可通過一個中央I/O hub實現更大的彈性(如異構chiplet)——為此Arm引入了一種Super Home Node,作為中央一致性節點,內部有SLC、snoop filter。

而這次新增支持的CXL,原本是Intel在力推的一種高速互聯。Arm是在2019年加入CXL聯盟的。CXL著力于解決不同處理器、設備之間的通訊和緩存一致性問題(比如CPU、GPU、FPGA加速卡各自的內存就是割裂的)。

藉由CXL,CPU和其他加速器之間可實現低延遲的緩存一致性(和相同的存儲語義)。從Arm的PPT來看,多設備(包括CPU與加速器等)、池化內存資源之間的互聯用CXL/PCIe;而CPU本身的多die(chiplet)與多socket之間則用CCIX;這是個相對更完整的方案——這些對于Arm的客戶構建更多樣化的彈性設計是相當有價值的。

快速發育的市場

Neoverse V1/N2同時作為“平臺”,不僅有核心IP方面的方案,另外也有面向系統的方案,如電源管理。Arm這次有更細粒度的電源管理機制(MPMM),對于核心內資源更合理的分配都更有價值;有像Cbusy這樣的機制,可基于反饋的方式,進行CPU核心與mesh互聯的交互,CPU基于整體mesh與系統存儲的負載情況,靈活決策存儲prefetcher的行為;N2有個名為PDP的管理機制,可基于負載做CPU微架構特性的調整,在不影響性能的前提下減少功耗……

總的來說,雖說Neoverse出現的時間還不久,基礎設施市場的參與者反饋卻已經相當積極了。如今不僅有亞馬遜、Ampere Computing、Marvell這樣的參與者,Chris Bergey分享了更多有關Neoverse的生態發展情況。

亞馬遜云Graviton2之上的各種工作負載

“騰訊在硬件測試和軟件支持方面持續投入,這將使他們能夠采用Arm Neoverse技術。他們的硬件測試在性能方面展現了出色的結果! Bergey說的是Arm服務器測試框架TencentBench。騰訊專項測試技術中心總監黃聞欣說,“我們通過TencentBench測試框架發現,得益于更多可擴展的CPU核心數,Arm服務器比傳統的服務器性能表現更強勁。非常值得一提的是,其在AI推理和圖片處理領域優勢非常明顯!

阿里云方面,“他們測試了即將推出的Arm架構ECS實例,并在SPECjbb的測試數據中心獲得了驚艷的結果! Bergey表示,“Java對于阿里巴巴來說是很重要的工作負載”,“阿里巴巴和Arm在Java工作負載分析和調試方面持續合作。通過雙方的緊密合作,我們看到DragonWell JDK的性能提高了50%!蹦壳坝脩艉烷_發者已經可以在阿里云網站注冊,獲取Arm系列實例測試。

而針對這次最新發布的Neoverse V1/N2,“4月中,印度電子和信息技術部MeitY宣布,其百兆級高性能計算CPU設計將采用Neoverse V1平臺”,此前另外兩個宣布要采用Neoverse V1的參與者還包括法國芯片初創企業SiPearl和韓國電子通信研究所ETRI。

在HPC、5G、邊緣等方面的更多進展,包括Oracle將Ampere Altra用于云基礎設施、MarvellOCTEON DPU在5G方面的應用等,這里不再一一分享。隨技術本身的這種發展趨勢,Arm的確是搭上了這班變革熱潮,這可能也是數據中心市場改朝換代的開端。舊有的市場競爭者,這會兒應該正感受著前所未有的壓力。

    郵箱2032156294@qq.com           電話:0537- 6808158   17686138996     郵編:272400
公眾號
手機網站
版權所有:山東盈和電子科技股份有限公司
技术支持: 山東水木科技 | 管理登录
5544444