2022英特爾資料中心繪圖處理器:Ponte Ve - 3C

Emily avatar
By Emily
at 2021-09-08T23:32

Table of Contents


ithome

2022英特爾資料中心繪圖處理器:Ponte Vecchio

結合英特爾、台積電製程技術,打造適用高效能運算與機器學習的單一平臺,將模組化堆
疊擴充架構發揮至極致

在2019年11月的美國超級電腦大會期間,英特爾宣布,他們將基於自行發展的Xe架構,推
出新的通用繪圖處理器(GPU),而為了因應高效能運算的建模與模擬工作負載、機器學
習訓練等應用需求,他們預計推出代號為Ponte Vecchio的獨立GPU,基於Xe架構之餘,也
將導入英特爾7奈米製程,以及Foveros 3D、EMIB封裝技術,當中會集結HBM記憶體、CXL
互連介面等多種技術智財,整合至單一封裝。

英特爾期盼透過這樣的產品,搭配新世代Xeon Scalable系列伺服器處理器,也就是代號
為Sapphire Rapids的產品,以及橫跨多種運算架構的統一程式開發模式:OneAPI,實現
百萬兆級(exascale)運算。當時,他們也宣布美國阿貢國家實驗室Aurora系統,將運用
上述產品來建置運算節點。

隔年8月的英特爾架構日,他們揭露Xe架構更多資訊,例如,細分為4種微架構,而Ponte
Vecchio對應的是其中的Xe-HPC微架構,而在封裝方式上,採用Foveros、CO-EMIB等兩種
作法,當中包含多種晶磚(Tile)。

到了今年3月舉行的Intel Unleashed線上發表會(也就是英特爾宣布IDM 2.0策略的那場
活動),執行長Pat Gelsinger首度公開展示Ponte Vecchio晶片。

在6月的歐洲國際超級電腦大會期間,英特爾宣布Ponte Vecchio已過電開機,進入系統驗
證階段,並將提供OCP Accelerator Module(OAM)外形的模組,以及基於4張OAM模組而
成的子系統,以此支援高效能運算應用下的縱向擴展(Scale-up),以及橫向擴展(
Scale-out)部署需求。

過了一個月之後,英特爾在他們的Accelerated線上發表會,重申加速製程與封裝創新,
再度提及Ponte Vecchio,並表明這系列將是首款採用EMIB與第二代Foveros封裝技術的產
品。

到了8月,在英特爾召開的年度架構日當中,針對Ponte Vecchio這款資料中心GPU,揭露
更多技術層面的資訊。

例如,他們首度詳細介紹Xe-HPC微架構的組成,以及延展性。在效能方面,以設計定案送
交製造的第一版為例,根據英特爾內部測試,FP32運算效能超過45 TFLOPS,記憶體存取
頻寬達到5 TB/s以上,連結頻寬是2 TB/s以上。若使用ResNet框架來進行推論,每秒可處
理4.3萬張以上的圖片,若使用ResNet進行訓練,每秒可處理3,400張以上的圖片。

Xe-HPC 2-Stack型態的Ponte Vecchio

英特爾頂級資料中心GPU:Ponte Vecchio,今年已在兩個重要場合亮相,一次是3月的
IDM 2.0策略的線上發表會,執行長Pat Gelsinger首度公開展示這款晶片,另一次是英特
爾架構日,負責這項產品的總工程師Masooma Bhaiwala,展示Xe-HPC 2-Stack型態的
Ponte Vecchio。

提供超越競爭對手的運算效能與I/O頻寬

對於Ponte Vecchio運算效能、記憶體頻寬、連結頻寬等規格,英特爾在今年8月英特爾架
構日首度公開相關資訊,就產品賣相來看,相當具有市場競爭力,足以威脅Nvidia這幾年
主推的A100 GPU,甚至是尚未發布的第四代NVLink。圖片來源/英特爾

採用模組化、多晶磚架構,堪稱英特爾最複雜的晶片設計

就晶片設計方式而言,今年英特爾架構日也揭露Ponte Vecchio的特點。它和Sapphire
Rapids一樣,也是由多個晶磚(Tile)組合而成,但架構設計上更為複雜,該公司負責這
項產品的總工程師Masooma Bhaiwala,甚至將這項產品評為:「從事晶片建構工作30年以
來,最複雜的晶片」。

簡而言之,這些單元是透過多片EMIB晶磚組裝起來,而能以低耗電、高速的方式,將晶磚
與晶磚之間連結起來,而這群晶磚之後會放在Foveros封裝之中。

Ponte Vecchio本身所使用的晶磚類型也相當豐富,英特爾先前提到有47片之多,但到底
有多少種?

他們也在2021架構日,首度揭露這款系統單晶片架構是由8種元件所組成,分別是:運算
晶磚(Compute Tile)、Rambo晶磚、Forveros、基礎晶磚(Base Tile)、HBM晶磚、Xe
Link晶磚、可容納多個晶磚的封裝(Multi Tile Package)、EMIB晶磚。

從產品設計工程的角度來看,Ponte Vecchio這款系統單晶片,使用超過1千億顆電晶體,
裡面放了47片晶磚(Tile),總共使用5種製程,因此,在架構設計上,相當複雜,也突
顯其挑戰性。

提供運算組建區塊,能以層層堆疊方式擴充GPU應用規模

就運算與擴充性而言,Ponte Vecchio不只導入多晶磚式設計,就其採用的Xe-HPC微架構
而言,英特爾目前區分成4種階層式組建區塊(building block),包含:核心(Core)
、片段(Slice)、堆疊(Stack)、連結(Link),並以圖解方式呈現各自的特色,以及
彼此的關係,讓所有人理解GPU規模如何擴充。

Xe-Core

首先是核心,也就是Xe-Core,內含8個向量引擎、8個矩陣引擎(Xe Matrix eXtensions
,XMX),以及號稱業界最大的512 KB容量L1快取記憶體。

Xe-Core當中的每個向量引擎可支援512位元寬度的向量,以此處理整數運算與浮點運算,
若是FP16、FP32、FP64型別,每個週期可分別執行512、256、256個運算。

至於矩陣引擎的部分,每個內建8個脈動陣列(systolic array),而且,在每個運算週
期中,可執行8組512位元寬度的向量處理。

無論是向量引擎或矩陣引擎,都可支援寬型的載入/儲存單元(Load/Restore),每個運
算週期可餵送512 Bytes資料。

Xe-HPC Slice

Core往上一層就是Slice,這一層的擴充,包含16個Xe Core、16個光線追蹤單元(Ray
Tracing Unit)、1個硬體式脈絡交換處理(Hardware Context)。

基本上,16個Xe Core能為整個Xe-HPC GPU,提供8 MB的L1快取記憶體(16 x 512 KB);
光線追蹤單元包含多種固定功能的計算。

Xe-HPC Stack

串連更多Xe-HPC Slice,即可組成Xe-HPC Stack,事實上,這個階層也等同於一套完整的
GPU。基本上,每1個Xe-HPC Stack,包含了4個Xe-HPC Slice,而此時,也等於坐擁64個
Xe Core、64個光線追蹤單元,以及1個硬體式脈絡交換處理。

這一層還配更大容量的L2快取記憶體(英特爾稱為Xe Memory Fabric),以及4個HBM2e記
憶體控制器、複製引擎(Copy Engine)、媒體引擎(Media Engine),以及8個Xe Link


同時,Xe-HPC的架構支援多堆疊式(Multi-Stack)設計,英特爾強調這也是業界首創的
作法。之所以能實現這種方式,主要仰賴的是他們發展的EMIB封裝技術。而且,每一座
Xe-HPC Stack堆疊中的Xe Memory Fabric,可以直接相互連結,如此可促成兩座Xe-HPC
Stack之間,能有統合、一致的記憶體。

Xe Link

這項介面可針對GPU對GPU之間的連結,提供高速、一致的I/O交織存取,支援載入/儲存
、大量資料傳輸。

同時,它內建了8埠交換器,可用於單節點、8個完全連結的GPU,而不需要其他元件的協
助。而這個特色也讓用戶能藉此建立有彈性的拓樸。透過圖解的呈現方式,英特爾也逐一
示範單節點的多種GPU連接架構,從最基本的2個GPU,常見的4個GPU,到因應更大型處理
需求的6個GPU、8個GPU。而基於這樣的架構,若要做到縱向擴展,不需要額外元件。

整體而言,無論是Ponte Vecchio或Xe-HPC,就英特爾本次公布的硬體架構設計,以及層
層堆疊的擴充性,的確具有一定的說服力,然而,能否讓市場接受,進而挑戰競爭廠商的
領導地位,關鍵可能在於軟體生態系的健全與開放,以及各種應用場景的拓展。

https://www.ithome.com.tw/tech/146524


備註:英特爾要先鞏固伺服器市場了嗎?
自從Epyc 橫空出世之後吃掉了不少客戶
這次伺服器先跟台積電合作,是要收回原本被吃掉的客戶嗎?
順便為以後的消費及打下基礎吧

--
Tags: 3C

All Comments

Tom avatar
By Tom
at 2021-09-08T13:16
Xe到底怎麼唸啊
Elvira avatar
By Elvira
at 2021-09-10T03:10
XE應該音近Crusade吧
Sierra Rose avatar
By Sierra Rose
at 2021-09-08T13:16
插伊
Tristan Cohan avatar
By Tristan Cohan
at 2021-09-10T03:10
大招放完了
Frederica avatar
By Frederica
at 2021-09-08T13:16
對手是老黃的DPU
Oscar avatar
By Oscar
at 2021-09-10T03:10
可是那個阿貢實驗室不是因為等不及
所以用現貨組了嗎
Barb Cronin avatar
By Barb Cronin
at 2021-09-08T13:16
所以這些是要用在未來的DC
Quintina avatar
By Quintina
at 2021-09-10T03:10
I只剩發新聞稿的能力惹嗎?
Rebecca avatar
By Rebecca
at 2021-09-08T13:16
Xe intel自己是直接念X E
Quanna avatar
By Quanna
at 2021-09-10T03:10
樓上讓我想到NV的Ti,3080Ti發布的
時候NV的人念3080太
Lauren avatar
By Lauren
at 2021-09-08T13:16
Barb Cronin avatar
By Barb Cronin
at 2021-09-10T03:10
Geforce 2 Ti出來時就念鈦了 不是現
Emma avatar
By Emma
at 2021-09-08T13:16
在才這樣念 一堆youtuber不知道為
什麼分開唸...

高風壓Scythe鎌刀SCMG-5100W無限伍旋風版

Carolina Franco avatar
By Carolina Franco
at 2021-09-08T22:54
希望導入全機種好讀版 https://vostroman.pixnet.net/blog/post/354120292- 無限伍自2018推出以來,一直是中階的熱門空冷單塔機種 也歷經了幾次改款,也有限量的ARGB上蓋版跟黑化版 主要特色除了MIT以外,就是小巧154mm的高度 以及超頻記憶體零干涉設計,絕 ...

evga二手卡保固問題

Isla avatar
By Isla
at 2021-09-08T22:46
在蝦皮收了一張二手的EVGA 1050 保固還有1年左右。 若是在這1年顯卡有問題,是只要 有截圖保固證明就能送修了嗎? 還是說一定要有原本註冊保固的evga帳號 - ...

關於順發的顯卡庫存

Delia avatar
By Delia
at 2021-09-08T21:45
今天路上逛逛 於是想跑進去問 有沒有賣3060單卡 店員查了一下 說: 今天下午還有 ~ 不過被買走了 現在都剩下組裝的 讓我想到之前的線上購物也是 偶爾會突然補貨 但唯獨這個順發電商 完全搞不懂他的鋪貨機制 有時候說補就補 所以想問一下 版上有沒有大大買過這間的顯示卡呀 有沒有庫存都要親自打電話 ...

20K左右 娛樂影音文書機

Anthony avatar
By Anthony
at 2021-09-08T21:20
已買/未買/已付訂金(元):未買 預算/用途:20K /看影片 + 遠端到公司處理mail CPU (中央處理器):華碩 PRIME B560M-K/CSM + Intel i5-10400【6核/12緒】 MB (主機板):同上 RAM (記憶體):金士頓 16GB(8G*2) DDR ...

大哥 3060 ti 到貨囉

Margaret avatar
By Margaret
at 2021-09-08T21:14
7/30 升菁英同時排隊 首選08G-P5-3663-KL 次選12G-P5-3657-KR 買礦渣剛好撿到大哥電供,原本還想說要1050ti再戰半年以上 ... .. . EVGA 永遠的神 - ...