RX480 技術情報 PPT - 3C

Steve avatar
By Steve
at 2016-07-02T00:32

Table of Contents

※ 引述《b155073 ()》之銘言:
: 原文網址:http://videocardz.com/61557/rajas-super-secret-cigar-stash

一章一章來

: http://goo.gl/i8LpCz

從1 Graphics Command Processor到 576 Load/Store Units
都是指微架購上的改進 而之外的則是較一般的規格等

: http://goo.gl/PwA5r9

Geometry Engine :
三角面處理完之後 轉換給Pixel Shader中間的這個工作,
傳統稱為Geometry Setup或者是Rasterization(但是這個會跟ROP的"R"
容易混淆)

Primtive Discard Accelerator

在把東西丟給Pixel Shader之前,如果知道這個三角面已經被遮住了
就可以先丟掉不算.反正算完也沒用..如果更確定可以連前端的Shader
都省掉

相關的技術比如Early-Z,Z-Culling,或者進階的Tile-Based Defferred
Rendering等等

然後他提到跟MSAA有關 也就是說也影響你開一般遊戲下的FSAA的設定
因為一般遊戲的FSAA僅做到MSAA,跟MSAA有關則是因為MSAA只做三角面的邊緣
跟交界,要做MSAA的像素一定會發生有的實際上有被遮住有的沒有.

Index Cache

改變資料在Cache排的方式節省頻寬 或者把原本零散的存取
變動為連續的

: http://goo.gl/KX59Iv

Shader的性能變強 但是(?


Instruction Prefetch

注意 不要跟Prefetch Instruction搞混 兩個完全不一樣
這個是說 原本處理器不分CPU/GPU,如果沒有分支就是
執行下一個指令 那下一個指令確定會被執行就應該先取進來
這樣切換的時候就保證不用等

不過除非原本就設定成保證要等 不然一定會在GPGPU/遊戲特效上
產生正面效果的幅度就不會太大...

per wave instruction buffer size

每個"wavefront"的指令緩衝區變大
wavefront是AMD GPU內的抽象化單位 他是指一起執行的最小的集合體
一個wavefront會統整N個SP,相應的Thread,相對的暫存器數量等等
(CUDA/nVidia GPU的Warp,OpenCL的Compute Unit則是同級的名詞)

然後wavefront內部 每個cycle所執行的指令都是一樣的,
既然這樣 那儲存指令緩衝區就只要每個wavefront一個就夠了

Tuned L2 Cache

可以把存取合併 然後效率變好吧

FP16/INT 16 Support

由於開始有用GPU計算Machine Learning的,
比如說Deep Neuro Network,發現用不到float32
這麼高的精確量.

如果FP16/INT16比32bit可以更快更省
那都可以產生一樣的效果

不過google更極端 直接做純INT16的晶片,
2T INT16/s的晶片只耗0.5W,以後有介紹到google VISION CHIP再說

.........然後講到這邊 還沒DX10的時候,顯示卡超過80%的運算能力
都是在算整數而且這個整數只有8-10bit...

都已經轉過來Unified的環境卻發現你丟掉的東西才是你要的........

: http://goo.gl/bGFT0m

GPU Open Intrinsic Function
Direct ACCESS to inline ISA


兩個都是同一件事情,
因為設計特殊處理器的時候,不只GPU,你可以看到DSP,Cell
等等.他會有一些很難放進高階語言描述內的指令
這時候除了整個用組合語言硬幹之外

就是使用intrinsic或者是inline Assembly的方式處理
兩個雖然叫不同名字但是是等價的,一般而言intrinsic
長的像是高階語言的function,但是一個對應一個特殊硬體指令,
而inline ISA長的像是手寫組合語言但是使用比較方便.

甚麼叫做有這個硬體指令但是高階語言很難用?
比如我隨便設計一個指令,P=A*B*C+X+Y

那編譯器一定要看到P=A*B*C+X+Y; or Q=A*B*C;P=Q+X+Y;
這樣確定的運算才可以配出這個指令

如果中間有一些不對...比如說中間同時計算過A*B和X+Y
編譯器會很開心的用算過的東西取代掉A*B和X+Y

你就配不出你設計的新指令了

所以為了避免這樣 你可能就...假設指令名稱叫XC5

P=__intrinsic_xc5(A,B,C,X,Y);

或者

__asm("XC5 P,A,B,C,X,Y");


Performance Critical Function

允許Programmer標示哪個Function
在性能上關鍵 但基本上整個最佳化應該還是要你自己來

driver環境上頂多只能幫你 不要有拖慢這個Function執行的速度的行為
比如說 把其他計算也同時排進去.

: http://goo.gl/LHeklW

Memory Controller &PHY

Losesess DCC

針對要送進顯示卡DRAM的資料可以先壓縮 而節約頻寬
過去只有Texture在讀取前預先破壞性壓縮過.

這方法的原理就是你要存的資料很多都是圖形或者Shader
算出來的資料給下一步要用的投影.特色就是有不小的機會,
你和你的相鄰像素只差一點點 那我只傳兩個的差值就可以減少一些資料.

不過Maxwell有做啦,Tonga也宣稱有,就各種可能有較好有較差的...


: http://goo.gl/hVJ4Ar

DX12 async compute

不是中圖Preemtive的傳統計算,你算一個等他回來一個
而是部分的可以預先送入 利用沒用光的資源先計算

: http://goo.gl/M29cPB

所有應用軟體的要求 都會一起堆在driver內

然後除了driver之外,硬體層也在接受要求後
內部有排程器


這部分就...除非等HSA/Fusion完全完成,
否則只有進步沒有變革性的更動.

: http://goo.gl/02NPYM

DP支援的解析度,SDR=8bit,HDR: > 8bit

: http://goo.gl/bEaPbx

HDR色域
: http://goo.gl/hVU24E

: http://goo.gl/cwxiiC

因為節約耗電量 具有的動態調節能力

(注:最初期的省電作為以能否整個關閉邏輯閘
或者是動態調整頻率來考量省電.

而之後則實作發現比如能否劇烈切換
關閉後再打開有沒有反而更耗電各種問題

: http://goo.gl/UXfV5c
: http://goo.gl/sAE9bi
: http://goo.gl/H2u1kb
: http://goo.gl/SmqyAZ
: http://goo.gl/SlbT3i

: http://goo.gl/FwgSTh

傳統的繪製 假設在環境中存在一隻攝影機

而攝影機所拍到的東西存在他自己的"底片"上
這個底片是一個平面,你看的是這個平面,而且每個像素
大小均等

那現在如果是環境中有兩支攝影機在不同地方?

還是所用的底片不是平面的 ?

想也知道這是用在那個環境的,但我們先把這兩個問題訂為
雙眼顯示和曲面螢幕

傳統方式當然可以繪製兩個攝影機所拍的東西
只是你要這個frame切換攝影機所在位置,Vertex Shader
開始就重算一次.然後下個frame又要切回來

我跳過去了 我又跳過來了 每次你都要幫我重算呦

至於非平面螢幕也可以在每個vertex Shader後,Pixel Shader
之前再套入另外一個Shader換算.

可是就要多一套計算.

那直接硬體化了就是使用他的介面就可以直接做到兩個效果
不用在軟體再中間重新計算

: http://goo.gl/AtmnVq

Reservation (Station):

只要處理器需要動態分配執行的資源,也就是說不只
GPU,連現代(1995後吧)的cpu也會有,

: http://goo.gl/lgOSXJ

對應multiGPU或者是Crossfire的重大變更

理面的AFR指的是CF採用AFR(每Frame交互計算)

但是他會產生嚴重的叫做
Micro-Stuttring的問題

這是甚麼問題我記得剛好以前有寫過

https://www.ptt.cc/bbs/PC_Shopping/M.1336495940.A.DCA.html

簡單說FPS平均很好看 顯示出來的時間不均等 而且視覺差異更糟糕

那這個改進就是,

我AFR後算好後 我插一個延遲 到固定的時間才確定要顯示
這可以解決micro-stuttring的問題

可是我暫時懷疑一下.因為預設如果開 那麼CF後的數字就不一定漂亮


而且這個做法說不定之前多卡的時候如果有開VSYNC也不會有問題...
這就要確認了,但對不用多卡的這個功能是沒差別

: 懶人包:(只看標題)

--
Tags: 3C

All Comments

Mia avatar
By Mia
at 2016-07-03T22:53
看不懂 只能推QQ
Margaret avatar
By Margaret
at 2016-07-06T11:21
不是做電路的 看不懂+1 QQ
Margaret avatar
By Margaret
at 2016-07-06T16:13
無腦推就對惹
Belly avatar
By Belly
at 2016-07-06T17:19
QQ
Todd Johnson avatar
By Todd Johnson
at 2016-07-07T19:49
先推再看
阿 看不懂QQ
Susan avatar
By Susan
at 2016-07-09T13:27
看無推QQ
Ursula avatar
By Ursula
at 2016-07-09T22:15
Rae avatar
By Rae
at 2016-07-11T04:58
太高深了看不懂QQ
Iris avatar
By Iris
at 2016-07-15T05:06
幫教主QQ
Todd Johnson avatar
By Todd Johnson
at 2016-07-17T23:20
Jk大必推 不過好想知道為什麼ACE會被刪減阿
Jacob avatar
By Jacob
at 2016-07-21T19:45
看不懂 = =
Andy avatar
By Andy
at 2016-07-25T21:02
用不到就先刪阿QQ 大家都馬拿產品作實驗
Gary avatar
By Gary
at 2016-07-29T00:53
8葛ace用不太到 先砍到四葛試水溫QQ
Rachel avatar
By Rachel
at 2016-07-31T20:22
快推不然別人以為我看不懂
Una avatar
By Una
at 2016-08-04T08:04
懶人包應該放在最上面 我都拉完了....
Regina avatar
By Regina
at 2016-08-05T03:49
DX12不是會用到嗎QQ
Victoria avatar
By Victoria
at 2016-08-06T02:04
快推避免別人知道我看不懂
Blanche avatar
By Blanche
at 2016-08-09T04:08
這篇技術含量太高 只能推了
Skylar Davis avatar
By Skylar Davis
at 2016-08-12T19:05
QQ 應該是用不到那麼多 一個甜品級的概念
Daph Bay avatar
By Daph Bay
at 2016-08-14T07:29
推 深入淺出
Quintina avatar
By Quintina
at 2016-08-15T19:46
micro-stuttring跟侏儒畫格是同個意思嗎?
Kumar avatar
By Kumar
at 2016-08-18T11:41
Heather avatar
By Heather
at 2016-08-21T09:32
同意思
Edith avatar
By Edith
at 2016-08-21T17:29
…也太多頁,看到眼花
Kama avatar
By Kama
at 2016-08-26T09:54
intrinsic那邊應該就是把GCNㄧ些用高階語言難表示
的功能包成函數
Olga avatar
By Olga
at 2016-08-31T09:39
像同一wavefront資料洗牌這種功能
Ina avatar
By Ina
at 2016-09-03T18:09
這不就要遊戲廠商去針對gcn作特殊的優化
還是這個是對計算所做的
Odelette avatar
By Odelette
at 2016-09-05T15:19
嗯,原來是這樣
Ina avatar
By Ina
at 2016-09-06T23:13
CU reservation 那頁是講說可以為 command queue保
留專用的CU
Brianna avatar
By Brianna
at 2016-09-11T20:05
像是說RX480上有36個CU 我便可以專門切4個出來專門
算某幾個特定的kernel
Ursula avatar
By Ursula
at 2016-09-13T09:00
其他kernel去分其他32個
Oliver avatar
By Oliver
at 2016-09-17T06:00
AFR frame pacing就是要解決多GPU輸出frame時間差
Vanessa avatar
By Vanessa
at 2016-09-20T06:12
對岸有說rx480 frame的延遲比之前的A卡更低了
http://tieba.baidu.com/p/4644205249
感覺跟這裡提到的AFR無關?
Heather avatar
By Heather
at 2016-09-22T23:16
這可能搭配DX12非同步計算能力,在delay插入其他非
繪圖工作?
Hazel avatar
By Hazel
at 2016-09-23T15:42
嗯 好像暸解了些什麼呢!
Madame avatar
By Madame
at 2016-09-24T20:55
快推,不然人家以為我看不懂
Ivy avatar
By Ivy
at 2016-09-29T13:53
shader intrinsic 需要遊戲對GCN最佳化
像是 http://bit.ly/298jAHN
Ethan avatar
By Ethan
at 2016-09-29T15:43
快推,不然別人以為我看不懂!!!
Necoo avatar
By Necoo
at 2016-10-04T00:58
計算部份也當然是用得到
Agatha avatar
By Agatha
at 2016-10-06T04:58
Variable Rate Shading那邊說的不是vertex shader
Emma avatar
By Emma
at 2016-10-06T19:51
而是能應需求變化改變繪圖品質,比如視點看的位置
高解析高畫質,外圍餘光處低解析低畫質。
Dinah avatar
By Dinah
at 2016-10-08T04:26
不過這可能需要搭配其他硬體偵測眼球看的位置
Jack avatar
By Jack
at 2016-10-08T06:13
看不懂 推就對了…
Ethan avatar
By Ethan
at 2016-10-09T01:22
太專業看不懂。。。
Agatha avatar
By Agatha
at 2016-10-11T02:58
VR兩眼其實還是硬體要算兩次vertex shader,
因為兩眼座標不同,這邊的一pass是指軟體
只處理送出一份模型,但有兩組矩陣轉換座標
Thomas avatar
By Thomas
at 2016-10-12T17:51
Cpu處理的API與Driver可以省工,但GPU其實仍處理兩

所以VR很操GPU,但卻不一定操CPU...
Hardy avatar
By Hardy
at 2016-10-16T00:56
這些技術可以提升軟體處理效率,但GPU仍加倍負荷
William avatar
By William
at 2016-10-17T06:53
用比喻就是可以跟點菜的(CPU)說來兩桌類似的菜
只是這個不要辣,那個不吃牛。
點菜小妹的一次搞定兩桌,效率很好。
但是廚房還是得紮實做出兩桌,沒法省事。
VRS那邊才是未來能幫GPU大廚省事的功能。
Delia avatar
By Delia
at 2016-10-18T02:50
等於告訴廚師,我們只在意主菜,小菜你隨便上就好
Cara avatar
By Cara
at 2016-10-18T11:22
VR離眼睛注視處以外的區域邊邊角角糊一點無所謂。
Steve avatar
By Steve
at 2016-10-21T05:51
但主菜=視點注視處要確實做好做滿。
Dora avatar
By Dora
at 2016-10-22T15:29
GPU上16bit好像夠用,我搞別的DSP的演算法倒是常常
遇到16bit精度不夠的問題OTZ
Wallis avatar
By Wallis
at 2016-10-25T04:31
fp16應該是特別為DNN搞的吧
Tracy avatar
By Tracy
at 2016-10-26T05:48
FP16在手機GPU很普遍,因為省電晶體。
Isabella avatar
By Isabella
at 2016-10-27T05:30
其實FP16很好用了,只有某些狀況精度差會出包要避開
Yuri avatar
By Yuri
at 2016-10-28T21:57
PC現在是因為走GPU多用途化,GPGPU時機到了
Hedwig avatar
By Hedwig
at 2016-10-30T19:24
開始有更多兼差的工作不需要高精度。
David avatar
By David
at 2016-10-31T08:34
nv這樣手筆很大 額外開一顆大顆的專作gpgpu
那種大顆光罩來一次就破10M惹好像
Kumar avatar
By Kumar
at 2016-11-02T11:31
他退出手持晶片,總要找東西塞滿約好的產能
Audriana avatar
By Audriana
at 2016-11-04T20:33
而且搞不好繪圖也用的上。
Eartha avatar
By Eartha
at 2016-11-09T18:43
他那整組要賣十二萬鎂耶 根本是瞄準估狗之類的
Robert avatar
By Robert
at 2016-11-14T00:43
樓上obov 完全看不懂先推
Rae avatar
By Rae
at 2016-11-15T16:03
Valerie avatar
By Valerie
at 2016-11-17T17:57
推~
Aaliyah avatar
By Aaliyah
at 2016-11-19T05:20
樓下是圖論大師
Olga avatar
By Olga
at 2016-11-23T18:30
專業
Oliver avatar
By Oliver
at 2016-11-25T16:34
Mia avatar
By Mia
at 2016-11-26T00:18
!!
Harry avatar
By Harry
at 2016-11-26T08:24
EE系看懂一點幫推
Franklin avatar
By Franklin
at 2016-11-29T03:33
這太猛了...
Lydia avatar
By Lydia
at 2016-11-29T06:00
快推不然人家以為我看不懂
Todd Johnson avatar
By Todd Johnson
at 2016-12-02T19:05
資訊量龐大,還好是早上看到,推~
Belly avatar
By Belly
at 2016-12-05T09:37
請問一下,warp不是相當於wavefront嗎?1warp有32t
hread;1CU有8wavefront,1wavefront有64workitem
。thread相當於workitem
Queena avatar
By Queena
at 2016-12-08T06:07
不同一張卡 warp 會不一樣大喔
Belly avatar
By Belly
at 2016-12-09T03:52
不過後來好像都改成1wavefront32workitem了的樣子
Charlotte avatar
By Charlotte
at 2016-12-14T03:51
現階段 VR 軟體端還是硬幹居多,軟體上寫畫兩遍
Suhail Hany avatar
By Suhail Hany
at 2016-12-15T19:00
你硬體提供了畫一遍的神技,沒人拿去套也是沒用
Audriana avatar
By Audriana
at 2016-12-16T13:42
好複雜 看不太懂 只能跪了...
Kristin avatar
By Kristin
at 2016-12-17T09:18
嗯……算了,先推再說
Edwina avatar
By Edwina
at 2016-12-20T18:01
我們講同一種語言?
Damian avatar
By Damian
at 2016-12-23T00:01
膝蓋痛痛的...
Elvira avatar
By Elvira
at 2016-12-27T06:44
專業推

Coolchip 即將推出半高款“動能散熱器

Connor avatar
By Connor
at 2016-07-02T00:25
還記得桑迪亞國家實驗室在2011年推出的無鰭片CPU散熱器嗎? 去年1月份的時候,Coolchip Technologies曾和酷冷至尊攜手推出了一款類似的設備 只是兩者的合作莫名擱淺。不過Coolchip並未氣餒,而是推出了基於同一理念 但體型更小巧的產品。新產品的照片已經在該公司的Facebook頁面上曝 ...

32核Zen被曝完成調校:規格豪華對Xeon

Hardy avatar
By Hardy
at 2016-07-02T00:24
代號“Naples”(義大利那不勒斯)的AMD Zen處理器現身印度Zauba進出口網站 顯示已經處於FOC階段,時間是6月20日。外媒猜測FOC指代“Full Operational Capability” 直譯過來就是完整可運行,說明調校等工作已經打下新的里程碑。 此前,AMD曾在實驗室用Zen處理器跑 ...

AMD RX 480 供電超抽?官方釋疑

Kelly avatar
By Kelly
at 2016-07-02T00:22
AMD RX 480 最近正式發布開賣,不過有些媒體測試顯示 RX 480 的供電設計有問題, 超過了PCI-SIG組織的安全標準,AMD 日前也公開回應了這個問題,表示他們的產品是符 合規範的。 AMD RX 480 的TDP是150W,配備單1個 6pin供電接口,供電能力為75W, 再加上 PCI- ...

24K 輕度遊戲機

Steve avatar
By Steve
at 2016-07-02T00:20
已買/未買/已付訂金(元):未買 預算/用途:24K WOW LOL 巫師(求順不求全開) D3 影音 CPU (中央處理器):Intel I5-6500【四核】3.2GHz(↑3.6GHz)/6M/HD530/65W MB (主機板):微星 B150M MORTAR(迫擊砲)(M-ATX/1A ...

AMD 藍寶 Sapphire Radeon RX480

Annie avatar
By Annie
at 2016-07-02T00:09
這是我入手的版本 http://i.imgur.com/AwuH3w0.jpg 新聞曝光的版本,是泡麵僅供參考的意思嗎==? http://i.imgur.com/qROi82L.jpg 前言廢話 雖然在上市前就知道大概的效能了,只是期望有點過高 小弟是輕度的A粉,公版控,最後還是買了 進入正題開箱 ...