AMD顯示卡救星來了！SK HYNIX HBM2記憶 - 3C

Dorothy · 2016-07-16

Table of Contents

Post
Comments
Related Posts

藉這個話題一問:

HBM2這鬼玩意頻寬隨便也256GB/s, 反觀DDR4 3200 也才 25.6GB/s,
那為什麼 intel / AMD 不把這玩意用在CPU上?

我知道, 因為 RAM 有 dimm socket,
這鬼東西會讓速度很難快得起來,
但還是有兩種方案啊:

1. 主機板先內建個4G 8G的不行嗎? 反正中低階板不要放,
中高階板也不會有人不買RAM或只買少少的RAM吧。

2. 放個一顆 4G 當 L4 Cache 也不錯啊, 用在高階板上

-------

為什麼我會提這個, 是因為最近寫的軟體, 只要資料量一大,
整個性能就直直落, 可能掉到 1/10 之譜。

這時候就算拆成多緒來跑, 能增加的效益也很有限了,
因為共用的L3早就塞得滿滿的。

偏偏某些資料又很難拆成小份來跑。

所以我覺得有搞頭, 整體性能加個10%~20%都有可能,
特殊狀況下快個三五倍都不是問題。

※ 引述《hn9480412 (ilinker)》之銘言：
: https://news.xfastest.com/sk-hynix/23436/amd-vga-sk-hynix-hbm2/
: AMD顯示卡救星來了！SK HYNIX HBM2記憶體本季出貨
: 2016-07-16
: AMD R9 Fury X顯示卡去年第一個用上了HBM高頻寬顯示記憶體，實現了驚人的4096-bit位
: 元、512GB/s頻寬。大大節省了PCB面積，讓顯示卡整體做的更加小巧。不過遺憾的是容量
: 偏小，單顆只有1GB，Fury X用了四顆才提供4GB。
: 現在，SK Hynix宣布，第二代HBM2顯示記憶體已經開始量產，將在第三季內出貨，容量直
: 接提升至單顆4GB（4 Die堆疊），四顆就能組成16GB，輕鬆滿足任何顯示卡的需求。
: SK Hynix的HBM2有兩種頻率規格，其一為2Gbps，單顆頻寬256GB/s，四顆就能組成1TB/s
: ，其二為1.6Gbps，單顆頻寬204GB/s，四顆就是816GB/s。AMD Vega核心高階卡就會採用
: SK Hynix的這種HBM2記憶體，不過要到明年初才會正式發表。
: 三星已經在今年初就宣布量產自己的HBM2，單顆容量同樣是4GB，頻寬也是256GB/s，今年
: 還計劃推出8GB型號。NVIDIA GP100核心的高效能繪圖卡-Tesla P100，據悉使用的就是三
: 星這種4GB HMB2，四顆組成16GB，不過總頻寬只有720GB/s，意味著頻率只有1.4Gbps。

--

All Comments

David2016-07-20

你在說啥....................

Heather2016-07-25

額...哪邊有問題嗎

Adele2016-07-26

你可以改寫成CUDA看看

Poppy2016-07-28

記得好像是會卡在LGA上? i

Rachel2016-08-02

因為用你這個例子可以推論到有N種方案可以讓效能更

Zenobia2016-08-05

intel不敢說，當APU具有中階獨顯的架構+高頻寬
請問你中低階的顯示卡要怎麼賣？

Margaret2016-08-08

為什麼不選有很多大人的理由

Dinah2016-08-08

再來，快取這個東西也不是一直增加量就可以增加效益
其實跟命中率比較有關

Audriana2016-08-10

這鬼玩意兒會不會撞一下就掉下來 XDDDD

Ingrid2016-08-14

其實有現成的玩意啊 PS4和XB ONE

Olga2016-08-18

HBM的頻寬對大部分CPU軟體沒有幫助

Zenobia2016-08-21

原PO是用自己寫的軟體阿
他運算量很大，不知道怎麼加速

Doris2016-08-24

我記得為了內顯效能好像有提過這個idea
但是瓶頸會在CPU Socket上要弄成BGA才行

Steve2016-08-27

CPU連DDR4數十GB頻寬都用不完，
還能跟內顯分享....CPU更在意cache

Vanessa2016-08-29

弄成CACHE是要變成卡匣嗎@@

Leila2016-09-01

原Po應該研究提升效率，因為HBM也救不了
他的latency比cache長太多了。

Tristan Cohan2016-09-03

成本成本成本

Selena2016-09-08

嗯我記得當初沒弄出來也是因為成本為了強化內顯
搞這樣反而定價太高不如直接用顯獨

Daph Bay2016-09-12

APU就看看跟CPU共享L3和高頻DDR4之後有沒有救吧

Quintina2016-09-14

沒有救大概就注定那樣了加eRam增加成本
就跟當初設計APU的初衷背道而馳了

Isla2016-09-14

你可以像GOOGLE一樣，自己開發運算平台 XD
撰寫專用電路

Aaliyah2016-09-18

很好笑的是這設計在console上都不是問題XD

George2016-09-22

你這種需求現在只能組多通道吧
原PO買PS4跑程式阿

Audriana2016-09-23

vega有掛嗎？

Edwina2016-09-25

能疊在CPU裡是3dic的終極目標啊。就還做不到

Lily2016-09-26

買PS4能跑自製程式嗎？沒這麼容易吧

Freda2016-10-01

當然要破解阿不然哩

Lauren2016-10-04

嘗試切他中路嗎？沒那麼容易吧(?

Queena2016-10-05

console也是成本因素呀，不然要強也是能很猛

Edith2016-10-10

想當年美國某機構大量購買PS2運算

Mia2016-10-12

不是 PS3 嗎？

Skylar Davis2016-10-12

重點是原PO要專屬優化硬體拉

Leila2016-10-15

用PS2發射核彈（開門查水表）

Suhail Hany2016-10-17

想當年電影拿PS3當記憶轉移器

Agnes2016-10-17

優化自己的資料結構與演算法比較快

Elvira2016-10-20

你說去年那個機器人電影？

Una2016-10-24

CPU對高頻寬需求太少了，就算肯出也是天價

Ophelia2016-10-25

美國買PS2那個好像是因為PS2當初有支援Linux

Rachel2016-10-25

沒有廣大用戶一起分攤設計生產成本。

Sierra Rose2016-10-29

限量訂製晶片的代價會讓你吐血。

Una2016-10-29

當初PS3也說要支援Linux啊，結果跳票被告

Dora2016-11-03

所以這一定吉

Victoria2016-11-07

用嘴巴說都很容易，就是不容易做啊...

Kumar2016-11-12

就成本阿

Elma2016-11-17

PS3一開始的的確有支援安裝linux，但後來取消這功能

Necoo2016-11-20

連雙通道廣大鄉民都說無感了，你這問題豈不更不用說

Isla2016-11-21

樓上這是特殊運用

Anthony2016-11-24

雙通道無感?? 你沒用過內顯吼..

Lucy2016-11-28

然後你確定你的bound是RAM？把RAM頻率調低測一下馬
上知道

Dorothy2016-12-01

不，我只是在反諷鄉民

Skylar DavisLinda2016-12-06

你應該是要說CPU對RAM的延遲比較敏感頻率其次吧?
但GPU是剛好反過來對頻率比較敏感

Rae2016-12-07

原PO看上的是HBM的頻寬阿，那把現有電腦的RAM降頻一
下，自然能測得出頻寬對他有沒有幫助了

Valerie2016-12-07

就好像希望馬上喝到飲料和一次想喝一箱飲料的差別

Ophelia2016-12-11

因為安全性問題，做了就要不斷維護它。
乾脆拿掉，回到封閉系統，省事又降低風險。
Linux對PS3本業幫助太小。

Lucy2016-12-15

結果PS3還是被攻破了，不過這是另一個故事了XDDD

Wallis2016-12-17

風水輪流轉望向PS4和XBOX ONE

Freda2016-12-20

回原題，能差10倍，我不覺得RAM SPEED會是主因

Callum2016-12-22

仔細重看了一下原文如果跟他說的一樣資料量大到L3
不夠用好像跟RAM沒啥關係來著呢

Andrew2016-12-25

他認為L3不夠用是導致他程式變慢的主因，所以他希

Mia2016-12-28

望有夠大的L4或夠快的RAM阿，怎麼沒關係0.0

Erin2016-12-31

之前有人測頻寬，即使全在cache, CPU也只用幾十GB/s

Robert2017-01-03

因為CPU核心少，沒有夠多運算單位。

Oliver2017-01-06

變慢不是頻寬不夠，而是cache miss往下一級找。
找不到再往下，latency不斷上升導致效能閒置

Jessica2017-01-09

就算有thread也救不了兩個thread都miss...

Jacob2017-01-12

原po或許該買顆i7-5775c來玩
不過不知道intel的L4有沒有分給CPU..

Delia2017-01-13

裝上HBM也很可能多了閒置頻寬，然後繼續卡在latency

Ida2017-01-15

更大更多層cache應該幫助比較大。

Carol2017-01-19

如果演算法與資料結構真的無法最佳化……

Isla2017-01-20

我也記得是樓上說那樣 cache爆死的話RAM頻寬救不了

Hazel2017-01-22

比喻是媽媽炒菜缺瓦斯只好停頓。叫小明叫瓦斯
這時小明覺得叫一桶瓦斯要2小時太慢，
所以叫老板一次送10桶，希望這樣可加快，
結果事情不是小明想的這模簡單。還是2小時。
然後還是只用一桶@@

Sierra Rose2017-01-26

cache滿惹很正常八如果會滿問題不見得是latency

Delia2017-01-27

重點不是滿不滿，而是hit rate/miss rate

Yedda2017-01-31

今天L3滿惹就是卡ram速度

Daniel2017-02-04

而且運算量大那latency根bw都有可能幫助

Genevieve2017-02-08

可是他不是因為某些資料不好拆都卡在L3嗎?

Kristin2017-02-10

瓦沒注意到是wahaha99大大捨摸時後轉行血程式惹

Ina2017-02-11

cache原理是要讓 miss後再抓來的一大串資料
也盡量包含接下來其他ALU運算的所需資料
一次不幸miss，要換來更多幸福的hit....

Linda2017-02-12

這種東西要實驗也很簡單喇換快一點的ram

Victoria2017-02-14

所以他的DATA拆不開不就跟卡車肥宅一樣卡住通道

Caitlin2017-02-14

把RAM調慢比換快的RAM簡單啊...

Mason2017-02-15

雖然計概快忘光光惹

Callum2017-02-15

Latency是新資料回到各層cache的時間。
cache有所需資料，CPU就繼續跑，直到miss

Skylar DavisLinda2017-02-17

沒記錯的話太大的會卡在L3? MISS率就很高

Isla2017-02-22

這樣一講突然很好奇HBM他的latency相對起DDR3/4如何

David2017-02-24

L3 miss你就要等RAM把東西送來但是資料太大你L3

Tom2017-03-01

收沒多少組就爆惹這樣不是卡在RAM的頻寬吧?
不過我不是靠這吃飯的有高手要指點一下嗎QQ

Noah2017-03-02

之前好像看過slide有說HBM的latency比GDDR5低

Quintina2017-03-05

就算要用GPU去算，還是得切資料。要打破OO原則把同
性資料放在一起再送

Tracy2017-03-10

這會不會時序影響還更大啊
降頻拉時序?

Adele2017-03-10

我覺得可以算一下現在ddr3 latency大概10ns上下
頻寬500GB/s vs 50GB/s 來傳50M

Odelette2017-03-14

伊葛要0.1ms+10ns=110ns 令伊葛是1ms+10ns=1010ns

Lauren2017-03-17

降時序是一樣的道理啊...

Caitlin2017-03-18

小明...你搬家好了

Oscar2017-03-22

說真的啦，都到軟體層了，理論推敲不如跑一下實驗

Mary2017-03-27

先用 opencl 改寫一下，以後說不定有機會

Jack2017-03-28

雖然我覺得 ram 都閒慢有點扯，是隨機讀取不循序嗎

Hazel2017-03-30

另外拆多執行緒是門藝術，可以試試更好的拆法

Iris2017-04-03

我記得L3 cache miss也不是再填滿cache。
應該只填一個Cache line 約64byte.

Wallis2017-04-08

延遲太高

Barb Cronin2017-04-09

原po需要的是local sram,dram這種有row col的miss

Lydia2017-04-10

一次都是100T的cpu cycle,頻寬無用,除非都沒相依性

Liam2017-04-13

https://goo.gl/zGT9vc HMC,頻寬大,不過未來似乎..

Caroline2017-04-16

可以試試將要處理的資料的資料結構以你用的電腦CPU
的Catch架構的特性來規劃，再加上使用針對Catch的
低階指令，
應該會有幫助...。

Mary2017-04-21

原PO自己測試看看就知道了吧
借支記憶體上去跑雙通不就知道HBM大頻寬
對你有沒有幫助嗎？！不過我覺得改善有限就是了啦
畢竟就跟版友說的現在頻寬都吃不完了
資料運算來不及成瓶頸又不是內顯單通雙通差異不大

Margaret2017-04-25

去看5775c 128MB的edram有多大顆，就不能想像為什
麼intel不放了

Rachel2017-04-29

3D繪圖通常tex cache的hit rate是無敵高
因為texcord座標通常已知，會提早Fetch,
而且一起抓回來cache的texels幾乎100%
是周圍大量pixel未來要用的，很難miss.
所以latency對GPU不重要，提早抓資料就行。
但頻寬來不來的及把上百TMU數十Rop
的資料抓取或寫入，就是另一回事。
所以HBM高頻寬對高性能GPU幫助超大。
CPU則相反，更在乎HBM的Latency進步多少

Bethany2017-05-03

給它一個頻寬50GB但Latency超低的會更快

Oliver2017-05-07

HBM的記憶體控制器跟512BIT的GDDR5控制器大小有得拚

Regina2017-05-11

要內建雙控制器感覺就是很累贅

Dora2017-05-12

放了如果賺不到錢那就不用放了

Margaret2017-05-15

說真的啦，RAM bound要差到10倍效能我是覺得不太可

Rebecca2017-05-15

能，軟體端也能做很大程度的最佳化。

Blanche2017-05-19

我跟你想得剛好相反 SOC搭內顯才是最合適HBM的
而且這個市場最大(內顯)

Adele2017-05-20

因為內顯跟CPU分享HBM 這樣每塊錢效益更高

Carol2017-05-21

除了內顯外第二個HBM市場是SERVER超級電腦

Ivy2017-05-23

就像你說的作為L4
這部份利潤蠻高的玩得起HBM

Isabella2017-05-25

但是HBM好像延遲較慢

James2017-05-26

就看apple能不能加速3dic的整合啊據說A10會用

Catherine2017-05-27

AMD據說打算在APU內顯做HBM

Agatha2017-05-30

可能不用很大，因為貼圖可擺system ram

Una2017-06-01

就像i的edram也只是cover render target
的重度頻寬存取，貼圖較輕鬆就擺主記憶體

Adele2017-06-02

若不跑繪圖時，則把HBM當L4? 一魚兩吃

Donna2017-06-05

你應該不知道當年Rambus怎麼死的....

AMD顯示卡救星來了！SK HYNIX HBM2記憶 - 3C

All Comments

Related Posts