Infinity Cache 立大功,RDNA 2 架構詳解 - 3C

Frederic avatar
By Frederic
at 2020-11-19T01:43

Table of Contents

Infinity Cache 立大功,應用於 Radeon RX 6000 系列的 RDNA 2 架構詳解

https://benchlife.info/rdna-2-architecture-detailed-with-infinity-cache/

快取就是要大、大才有效!


這次 AMD 推出採用 RDNA 2 架構的 Radeon RX 6000 系列顯示卡,可說是徹底地揚眉吐
氣,該公司不僅是在 x86 處理器效能徹底贏過競爭對手 Intel,Radeon RX 6000 系列相
較 NVIDIA GeForce RTX 3000 系列也是相當具有競爭力,突破過去僅能在中階主流市場
對打的情況。

仔細端詳 RDNA 2 和 RDNA 內部 CU(Compute Unit)差異,除了增加 DXR(DirectX
Raytracing)必須的 Ray Accelerator 光線加速器單元之外,並沒有什麼變化,小修小
改傳輸路徑與快取機制、強化 power gating 省電機制、提升時脈頻率,讓 RDNA 2 的
IPC 相較 RDNA 僅有個位數的成長。那麼接下來你會問,能夠幹掉 GeForce RTX 3090
的效能是從哪裡來的?

▼ RDNA 2 三大主軸:更高的運作時脈、Infinity Cache、支援最新的 DirectX 12
Ultimate 和 DirectStorge API 功能。
https://benchlife.info/wp-content/uploads/2020/11/001-1.jpg

如同 NVIDIA Ampere 世代,加入浮點數執行功能至原本的 INT 整數執行單元,直接讓
CUDA/Stream Processor 數量暴增,RDNA 2 世代 Navi 21 晶片設計,同樣也從前一世
代 Navi 10 的 40 個 CU/2560 個 Stream Processor,翻倍暴增到 80 個 CU/5120 個
Stream Processor(Radeon RX 6900 XT 採用完全體,其餘型號依序遞減數量),這也
讓持續採用 TSMC 7nm 製程的情況之下,晶片面積與電晶體數量,從 251mm2/103 億個成
長至 519mm2/268 億個。

▼ RDNA 2 使用 TSMC 7nm 製程,並添加 AV1 硬體解碼與 8K HEVC 編碼能力。
https://benchlife.info/wp-content/uploads/2020/11/002-1.jpg

▼ 執行單元與快取的細部資訊
https://benchlife.info/wp-content/uploads/2020/11/003-1.jpg

▼ AMD 替每個 CU 均添加 1 個光線加速器單元,因此 RDNA 2 的光線追蹤單元數量跟著
CU 變動,Radeon RX 6900 XT 為 80 個、Radeon RX 6800 XT 為 72 個、Radeon RX
6800 為 60 個。
https://benchlife.info/wp-content/uploads/2020/11/004-1.jpg

▼ RDNA 2 CU 面對不同類型資料的運算能力,每個時脈能夠遍歷 4 個 bonding box 或
是 1 個光線與三角形的相交檢測。
https://benchlife.info/wp-content/uploads/2020/11/004_001.jpg

▼ 每組 Shader Engine 的 RB+ 為全新設計,單一時脈週期能夠處理 8 個 32bit 色深
像素,並與光柵單元連動提供 2×1、1×2、2×2 取樣支援。
https://benchlife.info/wp-content/uploads/2020/11/004_002.jpg


128MB Infinity Cache

Stream Processor 數量成長,相對而言需要餵給執行單元更多的指令、資料,NVIDIA 採
用與 Micron 合作 GDDR6X 繪圖記憶體加大頻寬。AMD 目前已確立運算、繪圖架構分立路
線,運算交由 CDNA 系列搭配 HBM 類型記憶體負責,消費市場端應該不會再出現
Radeon VII 這樣的產物,在亟需頻寬的情況之下,直接在 Navi 21 晶片設計高達
128MB 的 Infinity Cache,Radeon RX 6800/6800 XT/6900 XT 各等級均可享用。

▼ Navi 21 晶片設計於 GDDR6 記憶體和 L2 快取之間,添加容量為 128MB 的
Infinity Cache。
https://benchlife.info/wp-content/uploads/2020/11/005-1.jpg

▼ 快取太小沒意義,太大又會讓晶片過胖,衡量快取命中率與容量的關係式之後,
128MB 是個比較適中的容量。
https://benchlife.info/wp-content/uploads/2020/11/012-2.jpg

Navi 21 仍舊採用 GDDR6 記憶體,匯流排寬度 256bit,搭配 16Gbps 速度版本時,可以
提供 512GB/s 頻寬,Radeon RX 6800/6800 XT/6900 XT 全線均提供 16GB 記憶體容量。
128MB 的 Infinity Cache 在晶片內部的匯流排寬度為 64byte x 16 通道,在最高自動
加速頻率達 1.94GHz 的狀況下,能夠提供將近 2000GB/s 頻寬(基礎頻率則可提供
1664GB/s),相當驚人!

▼ Infinity Cache 採用動態時脈設定,最高可達 1.94GHz,提供將近 2000GB/s 頻寬。
https://benchlife.info/wp-content/uploads/2020/11/006-1.jpg

由於這個 128MB Infinity Cache 的出現,才能夠餵飽飢腸轆轆的 5120 個 Stream
Processor,也一舉讓 RDNA 2 擁有相當不錯的能源效率比值。除了傳統上的光柵化成像
之外,128MB 容量也能夠擺放光線追蹤所必需的 BVH 樹狀資料結構,有助於加速光線與
三角形的相交檢測,這個極度消耗晶片面積的 Infinity Cache 也算是值得了。

▼ 於圖片最左方能夠觀察到,若是沒有添加 Infinity Cache,其實 RDNA 2 相較於
RDNA 的 IPC 漲幅並不明顯。
https://benchlife.info/wp-content/uploads/2020/11/007-1.jpg

▼ Infinity Fabric 不僅提供驚人的頻寬,相對而言更能提升能源效率比值、降低存取
延遲。
https://benchlife.info/wp-content/uploads/2020/11/007-1.jpg

RDNA 2 架構也終於加入包含光線追蹤、VRS 可變速率著色(Tier 2)、Mesh Shader 網
格著色器、Sampler Feedback 取樣回饋等 DirectX 12 Ultimate 功能。其實 AMD 這部
分走得相當緩慢,甚至比 Intel 還要慢,Intel 早已在代號 Ice Lake 處理器的 Gen
11 繪圖核心支援 VRS,AMD 直到 RDNA 2 才算是全面導入。

▼ RDNA 2 已全面支援 DirectX 12 Ultimate。
https://benchlife.info/wp-content/uploads/2020/11/009-1.jpg


Smart Access Cahce

另一方面,AMD 終於提供 3A 平台(處理器、主機板的晶片組、顯示卡)合體加速特性,
當支援的硬體相互搭配,能夠開啟所謂的 Smart Access Memory 功能,再次提升遊戲效
能。縱使 AMD 於發表 Radeon RX 6000 系列顯示卡當下並未提供詳細技術資訊,之後輾
轉得知其實就是 Resizable BAR 功能。

PCI 規範當中,需要每個設備自行準備 256Byte 的 Configuration Register Space,前
64Byte 儲存這個設備的 Device ID、Vender ID 等基礎資訊,後 192Byte 則是描述這
個裝置究竟有什麼功能,到了 PCIe 時代,這個 256Byte 空間擴展至 4KB。處理器無法
直接存取這些額外的 4KB-256Byte 空間,而是透過記憶體位址映射的方式,從高位址往
下映射空間,處理器僅需讀寫這些映射空間,實際 PCIe 設備空間操作則由 PCIe Root
Complex 負責。

BAR 為 Base Address Register 的縮寫,也就是 PCIe 設備空間映射到系統記憶體的基
底位址,一般來說為保持與 32 位元作業系統的相容性,BAR 通常為 256MB(1 個 PCIe
系統最多擁有 256 條 Bus、每條 Bus 最多擁有 32 個設備、每個設備最多擁有 8 個功
能,每個功能對應 1 個 4KB 範圍,256 x 32 x 8 x 4KB=256MB)。256MB 記憶體映射
通常在 64bit 作業系統當中不會有什麼問題,因為記憶體控制器根本無法完整定址 264
實體記憶體;但在比較老舊的 32bit 作業系統,你可以發現並無法完整用完 232=4GB
實體記憶體,因為部分位址已拿去作為設備 I/O 或是記憶體空間映射用途。

▼ Smart Access Memory 應該就是 PCIe 規範裡的 Resizable BAR 功能,讓處理器可以
同時存取顯示卡所有的記憶體,而非預設的 256MB。
https://benchlife.info/wp-content/uploads/2020/11/010-1.jpg

為保持相容性,目前在記憶體位址中切給 PCIe BAR 的空間也都保持 256MB,但其實
BAR 能夠增加它的範圍大小,也就是 AMD 所說的完全存取顯示卡所搭載的記憶體,而非
僅限於 256MB。依據 AMD 內部的實際測試,若是啟用 Smart Access Memory,最高能夠
在 Forza Horizon 4 遊戲獲得 11% 的效能提升。此舉也讓綠色陣營額外表示,它們的
晶片其實也支援 Resizable BAR 功能,未來會透過軟體更新開放。

▼ RDNA 2 能源效率比值相較 RDNA 提升約 54%,其中 21% 透過 Infinity Cache 與
微調設計提供、17% 為強化省電設計、16% 為提升運作頻率。
https://benchlife.info/wp-content/uploads/2020/11/011-1.jpg


--
Tags: 3C

All Comments

Emily avatar
By Emily
at 2020-11-19T16:41
打氣加油文
Poppy avatar
By Poppy
at 2020-11-23T12:00
這次基本上能摸到30系列屁股都是靠IF cache
Victoria avatar
By Victoria
at 2020-11-26T16:07
叭叭,到處都沒貨,叭叭
Madame avatar
By Madame
at 2020-11-29T00:07
學老黃搞精簡核心有搞頭嗎? 只有CUDA才辦得到?
Queena avatar
By Queena
at 2020-11-30T01:35
RNDA2已經精簡過了啦
Edward Lewis avatar
By Edward Lewis
at 2020-12-01T18:57
已經把偏運算的分到CDNA去了
Frederica avatar
By Frederica
at 2020-12-02T20:06
反而是老黃現在的架構功能愈加愈多
Steve avatar
By Steve
at 2020-12-03T21:25
就是這個東西是大招之一
Olivia avatar
By Olivia
at 2020-12-04T10:42
memory based computing 要來了
Charlotte avatar
By Charlotte
at 2020-12-05T19:17
就算6800屌打3090又如何?買不到啊
Audriana avatar
By Audriana
at 2020-12-10T05:14
那個叫 In-memory computing
不過 總算是前進了一步
Anonymous avatar
By Anonymous
at 2020-12-15T03:35
if cache 怎麼好像兩者之間的電容?
Mary avatar
By Mary
at 2020-12-15T17:57
最初的記憶體就是電容啊
Liam avatar
By Liam
at 2020-12-16T22:42
PCI設備報的BAR 就是給cpu直接存取
Hedda avatar
By Hedda
at 2020-12-20T16:02
32bit 定址就4gb 導致256mb這個相容的數字
Frederic avatar
By Frederic
at 2020-12-25T06:08
現在顯卡上記憶體都gb 起跳當然不夠
Callum avatar
By Callum
at 2020-12-28T12:47
Server用的運算卡也早就報好報滿
Andrew avatar
By Andrew
at 2020-12-30T23:06
A100 上80gb 至於64bit 但cpu其實沒那麼多位置線 os
也沒實作那麼大就另一個故事
Odelette avatar
By Odelette
at 2021-01-04T20:37
就看日後驅動的優化了
Jessica avatar
By Jessica
at 2021-01-06T07:08
一般就39bit左右了 其他留著 要不然速度有差
Lucy avatar
By Lucy
at 2021-01-07T11:33
N家以前就有driver存取位址用太高和os 不匹配的問題
Gilbert avatar
By Gilbert
at 2021-01-09T23:51
老黃:Bar我也有,但對手給你,我才給
Isla avatar
By Isla
at 2021-01-11T15:59
RDNA2 架構的 APU 會有
Infinity Cache 嗎?
解決記憶體頻寬問題
Hazel avatar
By Hazel
at 2021-01-15T09:58
BAR是在說PCI的規範,樓上哈嘍?
*樓上上
Connor avatar
By Connor
at 2021-01-15T17:11
消費性有相容性迷思 死守256mb 不像server
Andrew avatar
By Andrew
at 2021-01-18T08:08
所以再搞個resize 認真說 你買貴貴的3080 然後裝xp
win7 32bit 沒開玩笑嗎?
William avatar
By William
at 2021-01-18T09:48
6700xt以下會不會用這個技術?感覺很貴的樣子
Elizabeth avatar
By Elizabeth
at 2021-01-20T11:05
理論上難度不高 號稱driver值5000的這麼晚才想到 該
打屁股
至於n家作完有沒有11% 這就不知道了
Kama avatar
By Kama
at 2021-01-25T06:24
很貴阿 下面應該砍半起跳吧
Suhail Hany avatar
By Suhail Hany
at 2021-01-29T21:53
沒有這個應該效能七折起啦
Emma avatar
By Emma
at 2021-01-30T07:12
PPT做到很精美 可以繼續吹一波了
Olive avatar
By Olive
at 2021-01-31T00:25
1080P贏1%=幹掉3090

Core 輝煌即將再現 Raja 表示 Alder Lake

Anthony avatar
By Anthony
at 2020-11-19T01:21
對於Intel來說他們現在正在砍掉一些不是很核心的業務 這樣可以聚集精力發展核心的CPU等主線。 據外媒overclocking報導稱Intel對於目前公司的處境並不是很擔憂 相反他們保持了極大的樂觀和自信,其將在2021年加速10nm製程的推出 Intel還表示計劃在2021年第三季推出Alder Lak ...

NV 四款新遊戲DLSS性能提升最高可達120%

Cara avatar
By Cara
at 2020-11-19T01:20
NVIDIA深度學習超級採樣(DLSS)可以使GPU渲染的畫面比必要的少 使用人工智慧和高度複雜的算法,NVIDIA GPU能夠即時以原始解析度重建影像 結果最終影像看上去幾乎與在不使用AI的情況下以相同解析度生成的影像相同。 該製造商昨天宣布將在DLSS支援的遊戲列表中添加另外四款遊戲 其中包括Call ...

EVGA 推出超短機身ATX BP Bronze系列電源

Irma avatar
By Irma
at 2020-11-19T01:20
EVGA宣布推出BP Bronze系列電源。是一款經濟實惠的選擇 同時EVGA將電源深度縮短至120mm-這是EVGA迄今為止最短的ATX電源! BP系列電源配備一個115mm液壓軸承風扇,以確保保持涼爽和安靜 結合全套保護和EVGA的3年有限保固。 特色 簡短而無聲:BP系列為您提供了120mm長的額外空 ...

華擎B450M Steel Legend(粉)恭迎Ryzen5000

Anonymous avatar
By Anonymous
at 2020-11-19T01:20
僅此一批60套!再賺NT.850 8G RAM! ASRock B450M Steel Legend(Pink Edition)這片主機板全球只有泰國獨享 台灣獨家引進60片給小可愛們同歡,想裝扮自己的房間, 示不一樣的心情,甚至是要送給娘們當禮物也很好 你可要好好把握...!開賣的這一刻我們在此同步釋出最 ...

利民多款AIO一體水冷便宜上市

Jacky avatar
By Jacky
at 2020-11-19T01:19
大陸淘寶利民新上市 最低1700起價 有夠香又佛 https://i.imgur.com/8pHKcR1.jpg 兩岸同胞一家親 -- http://i.imgur.com/JS7qgbp.png RX VEGA 哪裡有16G VRAM 啪啪啪 https://www.ptt.cc/bbs/PC_Sho ...