AMD顯示卡救星來了!SK HYNIX HBM2記憶 - 3C

Dorothy avatar
By Dorothy
at 2016-07-16T23:50

Table of Contents


藉這個話題一問:

HBM2這鬼玩意頻寬隨便也256GB/s, 反觀DDR4 3200 也才 25.6GB/s,
那為什麼 intel / AMD 不把這玩意用在CPU上?

我知道, 因為 RAM 有 dimm socket,
這鬼東西會讓速度很難快得起來,
但還是有兩種方案啊:

1. 主機板先內建個4G 8G的不行嗎? 反正中低階板不要放,
中高階板也不會有人不買RAM或只買少少的RAM吧。

2. 放個一顆 4G 當 L4 Cache 也不錯啊, 用在高階板上

-------

為什麼我會提這個, 是因為最近寫的軟體, 只要資料量一大,
整個性能就直直落, 可能掉到 1/10 之譜。

這時候就算拆成多緒來跑, 能增加的效益也很有限了,
因為共用的L3早就塞得滿滿的。

偏偏某些資料又很難拆成小份來跑。

所以我覺得有搞頭, 整體性能加個10%~20%都有可能,
特殊狀況下快個三五倍都不是問題。


※ 引述《hn9480412 (ilinker)》之銘言:
: https://news.xfastest.com/sk-hynix/23436/amd-vga-sk-hynix-hbm2/
: AMD顯示卡救星來了!SK HYNIX HBM2記憶體本季出貨
: 2016-07-16
: AMD R9 Fury X顯示卡去年第一個用上了HBM高頻寬顯示記憶體,實現了驚人的4096-bit位
: 元、512GB/s頻寬。大大節省了PCB面積,讓顯示卡整體做的更加小巧。不過遺憾的是容量
: 偏小,單顆只有1GB,Fury X用了四顆才提供4GB。
: 現在,SK Hynix宣布,第二代HBM2顯示記憶體已經開始量產,將在第三季內出貨,容量直
: 接提升至單顆4GB(4 Die堆疊),四顆就能組成16GB,輕鬆滿足任何顯示卡的需求。
: SK Hynix的HBM2有兩種頻率規格,其一為2Gbps,單顆頻寬256GB/s,四顆就能組成1TB/s
: ,其二為1.6Gbps,單顆頻寬204GB/s,四顆就是816GB/s。AMD Vega核心高階卡就會採用
: SK Hynix的這種HBM2記憶體,不過要到明年初才會正式發表。
: 三星已經在今年初就宣布量產自己的HBM2,單顆容量同樣是4GB,頻寬也是256GB/s,今年
: 還計劃推出8GB型號。NVIDIA GP100核心的高效能繪圖卡-Tesla P100,據悉使用的就是三
: 星這種4GB HMB2,四顆組成16GB,不過總頻寬只有720GB/s,意味著頻率只有1.4Gbps。

--
Tags: 3C

All Comments

David avatar
By David
at 2016-07-20T14:01
你在說啥....................
Heather avatar
By Heather
at 2016-07-25T07:25
額...哪邊有問題嗎
Adele avatar
By Adele
at 2016-07-26T13:37
你可以改寫成CUDA看看
Poppy avatar
By Poppy
at 2016-07-28T04:47
記得好像是會卡在LGA上? i
Rachel avatar
By Rachel
at 2016-08-02T03:31
因為用你這個例子可以推論到有N種方案可以讓效能更
Zenobia avatar
By Zenobia
at 2016-08-05T14:39
intel不敢說,當APU具有中階獨顯的架構+高頻寬
請問你中低階的顯示卡要怎麼賣?
Margaret avatar
By Margaret
at 2016-08-08T02:51
為什麼不選有很多大人的理由
Dinah avatar
By Dinah
at 2016-08-08T10:24
再來,快取這個東西也不是一直增加量就可以增加效益
其實跟命中率比較有關
Audriana avatar
By Audriana
at 2016-08-10T06:07
這鬼玩意兒會不會撞一下就掉下來 XDDDD
Ingrid avatar
By Ingrid
at 2016-08-14T19:41
其實有現成的玩意啊 PS4和XB ONE
Olga avatar
By Olga
at 2016-08-18T03:55
HBM的頻寬對大部分CPU軟體沒有幫助
Zenobia avatar
By Zenobia
at 2016-08-21T10:16
原PO是用自己寫的軟體阿
他運算量很大,不知道怎麼加速
Doris avatar
By Doris
at 2016-08-24T11:15
我記得為了內顯效能好像有提過這個idea
但是瓶頸會在CPU Socket上 要弄成BGA才行
Steve avatar
By Steve
at 2016-08-27T22:20
CPU連DDR4數十GB頻寬都用不完,
還能跟內顯分享....CPU更在意cache
Vanessa avatar
By Vanessa
at 2016-08-29T02:33
弄成CACHE是要變成卡匣嗎@@
Leila avatar
By Leila
at 2016-09-01T17:29
原Po應該研究提升效率,因為HBM也救不了
他的latency比cache長太多了。
Tristan Cohan avatar
By Tristan Cohan
at 2016-09-03T13:28
成本成本成本
Selena avatar
By Selena
at 2016-09-08T03:55
嗯 我記得當初沒弄出來也是因為成本 為了強化內顯
搞這樣反而定價太高不如直接用顯獨
Daph Bay avatar
By Daph Bay
at 2016-09-12T07:04
APU就看看跟CPU共享L3和高頻DDR4之後有沒有救吧
Quintina avatar
By Quintina
at 2016-09-14T06:19
沒有救大概就注定那樣了 加eRam增加成本
就跟當初設計APU的初衷背道而馳了
Isla avatar
By Isla
at 2016-09-14T22:39
你可以像GOOGLE一樣,自己開發運算平台 XD
撰寫專用電路
Aaliyah avatar
By Aaliyah
at 2016-09-18T22:37
很好笑的是這設計在console上都不是問題XD
George avatar
By George
at 2016-09-22T22:43
你這種需求現在只能組多通道吧
原PO買PS4跑程式阿
Audriana avatar
By Audriana
at 2016-09-23T22:45
vega有掛嗎?
Edwina avatar
By Edwina
at 2016-09-25T04:20
能疊在CPU裡是3dic的終極目標啊。就還做不到
Lily avatar
By Lily
at 2016-09-26T22:48
買PS4能跑自製程式嗎?沒這麼容易吧
Freda avatar
By Freda
at 2016-10-01T12:50
當然要破解阿 不然哩
Lauren avatar
By Lauren
at 2016-10-04T20:40
嘗試切他中路嗎?沒那麼容易吧(?
Queena avatar
By Queena
at 2016-10-05T10:12
console也是成本因素呀,不然要強也是能很猛
Edith avatar
By Edith
at 2016-10-10T07:01
想當年美國某機構大量購買PS2運算
Mia avatar
By Mia
at 2016-10-12T10:08
不是 PS3 嗎?
Skylar Davis avatar
By Skylar Davis
at 2016-10-12T21:05
重點是原PO要專屬優化硬體拉
Leila avatar
By Leila
at 2016-10-15T03:29
用PS2發射核彈(開門查水表)
Suhail Hany avatar
By Suhail Hany
at 2016-10-17T10:51
想當年電影拿PS3當記憶轉移器
Agnes avatar
By Agnes
at 2016-10-17T14:02
優化自己的資料結構與演算法比較快
Elvira avatar
By Elvira
at 2016-10-20T08:16
你說去年那個機器人電影?
Una avatar
By Una
at 2016-10-24T04:44
CPU對高頻寬需求太少了,就算肯出也是天價
Ophelia avatar
By Ophelia
at 2016-10-25T00:39
美國買PS2那個好像是因為PS2當初有支援Linux
Rachel avatar
By Rachel
at 2016-10-25T12:22
沒有廣大用戶一起分攤設計生產成本。
Sierra Rose avatar
By Sierra Rose
at 2016-10-29T12:52
限量訂製晶片的代價會讓你吐血。
Una avatar
By Una
at 2016-10-29T21:40
當初PS3也說要支援Linux啊,結果跳票被告
Dora avatar
By Dora
at 2016-11-03T00:46
所以這一定吉
Victoria avatar
By Victoria
at 2016-11-07T22:43
用嘴巴說都很容易,就是不容易做啊...
Kumar avatar
By Kumar
at 2016-11-12T13:56
就成本阿
Elma avatar
By Elma
at 2016-11-17T06:36
PS3一開始的的確有支援安裝linux,但後來取消這功能
Necoo avatar
By Necoo
at 2016-11-20T21:15
連雙通道廣大鄉民都說無感了,你這問題豈不更不用說
Isla avatar
By Isla
at 2016-11-21T03:09
樓上 這是特殊運用
Anthony avatar
By Anthony
at 2016-11-24T15:16
雙通道無感?? 你沒用過內顯吼..
Lucy avatar
By Lucy
at 2016-11-28T08:14
然後你確定你的bound是RAM?把RAM頻率調低測一下馬
上知道
Dorothy avatar
By Dorothy
at 2016-12-01T13:56
不,我只是在反諷鄉民
Skylar DavisLinda avatar
By Skylar DavisLinda
at 2016-12-06T11:28
你應該是要說CPU對RAM的延遲比較敏感 頻率其次吧?
但GPU是剛好反過來 對頻率比較敏感
Rae avatar
By Rae
at 2016-12-07T00:31
原PO看上的是HBM的頻寬阿,那把現有電腦的RAM降頻一
下,自然能測得出頻寬對他有沒有幫助了
Valerie avatar
By Valerie
at 2016-12-07T02:12
就好像希望馬上喝到飲料和一次想喝一箱飲料的差別
Ophelia avatar
By Ophelia
at 2016-12-11T12:10
因為安全性問題,做了就要不斷維護它。
乾脆拿掉,回到封閉系統,省事又降低風險。
Linux對PS3本業幫助太小。
Lucy avatar
By Lucy
at 2016-12-15T17:03
結果PS3還是被攻破了,不過這是另一個故事了XDDD
Wallis avatar
By Wallis
at 2016-12-17T16:07
風水輪流轉 望向PS4和XBOX ONE
Freda avatar
By Freda
at 2016-12-20T04:56
回原題,能差10倍,我不覺得RAM SPEED會是主因
Callum avatar
By Callum
at 2016-12-22T23:54
仔細重看了一下原文 如果跟他說的一樣資料量大到L3
不夠用 好像跟RAM沒啥關係來著呢
Andrew avatar
By Andrew
at 2016-12-25T03:20
他認為L3不夠用是導致他程式變慢的主因,所以他希
Mia avatar
By Mia
at 2016-12-28T11:36
望有夠大的L4或夠快的RAM阿,怎麼沒關係0.0
Erin avatar
By Erin
at 2016-12-31T07:42
之前有人測頻寬,即使全在cache, CPU也只用幾十GB/s
Robert avatar
By Robert
at 2017-01-03T06:55
因為CPU核心少,沒有夠多運算單位。
Oliver avatar
By Oliver
at 2017-01-06T06:39
變慢不是頻寬不夠,而是cache miss往下一級找。
找不到再往下,latency不斷上升導致效能閒置
Jessica avatar
By Jessica
at 2017-01-09T10:24
就算有thread也救不了兩個thread都miss...
Jacob avatar
By Jacob
at 2017-01-12T08:21
原po或許該買顆i7-5775c來玩
不過不知道intel的L4有沒有分給CPU..
Delia avatar
By Delia
at 2017-01-13T06:39
裝上HBM也很可能多了閒置頻寬,然後繼續卡在latency
Ida avatar
By Ida
at 2017-01-15T11:47
更大更多層cache應該幫助比較大。
Carol avatar
By Carol
at 2017-01-19T22:40
如果演算法與資料結構真的無法最佳化……
Isla avatar
By Isla
at 2017-01-20T19:22
我也記得是樓上說那樣 cache爆死的話RAM頻寬救不了
Hazel avatar
By Hazel
at 2017-01-22T08:43
比喻是媽媽炒菜缺瓦斯只好停頓。叫小明叫瓦斯
這時小明覺得叫一桶瓦斯要2小時太慢,
所以叫老板一次送10桶,希望這樣可加快,
結果事情不是小明想的這模簡單。還是2小時。
然後還是只用一桶@@
Sierra Rose avatar
By Sierra Rose
at 2017-01-26T08:38
cache滿惹很正常八 如果會滿 問題不見得是latency
Delia avatar
By Delia
at 2017-01-27T19:16
重點不是滿不滿,而是hit rate/miss rate
Yedda avatar
By Yedda
at 2017-01-31T04:39
今天L3滿惹 就是卡ram速度
Daniel avatar
By Daniel
at 2017-02-04T11:21
而且運算量大 那latency根bw都有可能幫助
Genevieve avatar
By Genevieve
at 2017-02-08T02:08
可是他不是因為某些資料不好拆都卡在L3嗎?
Kristin avatar
By Kristin
at 2017-02-10T13:23
瓦 沒注意到是wahaha99大大 捨摸時後轉行血程式惹
Ina avatar
By Ina
at 2017-02-11T17:26
cache原理是要讓 miss後再抓來的一大串資料
也盡量包含接下來其他ALU運算的所需資料
一次不幸miss,要換來更多幸福的hit....
Linda avatar
By Linda
at 2017-02-12T00:34
這種東西要實驗也很簡單喇 換快一點的ram
Victoria avatar
By Victoria
at 2017-02-14T02:15
所以他的DATA拆不開 不就跟卡車肥宅一樣卡住通道
Caitlin avatar
By Caitlin
at 2017-02-14T22:23
把RAM調慢比換快的RAM簡單啊...
Mason avatar
By Mason
at 2017-02-15T01:10
雖然計概快忘光光惹
Callum avatar
By Callum
at 2017-02-15T02:23
Latency是新資料回到各層cache的時間。
cache有所需資料,CPU就繼續跑,直到miss
Skylar DavisLinda avatar
By Skylar DavisLinda
at 2017-02-17T10:16
沒記錯的話太大的會卡在L3? MISS率就很高
Isla avatar
By Isla
at 2017-02-22T06:09
這樣一講突然很好奇HBM他的latency相對起DDR3/4如何
David avatar
By David
at 2017-02-24T21:55
L3 miss你就要等RAM把東西送來 但是資料太大你L3
Tom avatar
By Tom
at 2017-03-01T03:09
收沒多少組就爆惹 這樣不是卡在RAM的頻寬吧?
不過我不是靠這吃飯的 有高手要指點一下嗎QQ
Noah avatar
By Noah
at 2017-03-02T10:55
之前好像看過slide有說HBM的latency比GDDR5低
Quintina avatar
By Quintina
at 2017-03-05T10:44
就算要用GPU去算,還是得切資料。要打破OO原則把同
性資料放在一起再送
Tracy avatar
By Tracy
at 2017-03-10T08:03
這會不會時序影響還更大啊
降頻拉時序?
Adele avatar
By Adele
at 2017-03-10T15:14
我覺得可以算一下 現在ddr3 latency大概10ns上下
頻寬500GB/s vs 50GB/s 來傳50M
Odelette avatar
By Odelette
at 2017-03-14T10:44
伊葛要0.1ms+10ns=110ns 令伊葛是1ms+10ns=1010ns
Lauren avatar
By Lauren
at 2017-03-17T21:44
降時序是一樣的道理啊...
Caitlin avatar
By Caitlin
at 2017-03-18T11:21
小明...你搬家好了
Oscar avatar
By Oscar
at 2017-03-22T21:40
說真的啦,都到軟體層了,理論推敲不如跑一下實驗
Mary avatar
By Mary
at 2017-03-27T14:19
先用 opencl 改寫一下,以後說不定有機會
Jack avatar
By Jack
at 2017-03-28T08:06
雖然我覺得 ram 都閒慢有點扯,是隨機讀取不循序嗎
Hazel avatar
By Hazel
at 2017-03-30T19:31
另外拆多執行緒是門藝術,可以試試更好的拆法
Iris avatar
By Iris
at 2017-04-03T07:55
我記得L3 cache miss也不是再填滿cache。
應該只填一個Cache line 約64byte.
Wallis avatar
By Wallis
at 2017-04-08T07:35
延遲太高
Barb Cronin avatar
By Barb Cronin
at 2017-04-09T15:29
原po需要的是local sram,dram這種有row col的miss
Lydia avatar
By Lydia
at 2017-04-10T20:53
一次都是100T的cpu cycle,頻寬無用,除非都沒相依性
Liam avatar
By Liam
at 2017-04-13T17:29
https://goo.gl/zGT9vc HMC,頻寬大,不過未來似乎..
Caroline avatar
By Caroline
at 2017-04-16T19:45
可以試試將要處理的資料的資料結構以你用的電腦CPU
的Catch架構的特性來規劃,再加上使用針對Catch的
低階指令,
應該會有幫助...。
Mary avatar
By Mary
at 2017-04-21T05:12
原PO自己測試看看就知道了吧
借支記憶體上去跑雙通 不就知道HBM大頻寬
對你有沒有幫助嗎?!不過我覺得改善有限就是了啦
畢竟就跟版友說的 現在頻寬都吃不完了
資料運算來不及成瓶頸 又不是內顯 單通雙通差異不大
Margaret avatar
By Margaret
at 2017-04-25T08:54
去看5775c 128MB的edram有多大顆,就不能想像為什
麼intel不放了
Rachel avatar
By Rachel
at 2017-04-29T17:38
3D繪圖通常tex cache的hit rate是無敵高
因為texcord座標通常已知,會提早Fetch,
而且一起抓回來cache的texels幾乎100%
是周圍大量pixel未來要用的,很難miss.
所以latency對GPU不重要,提早抓資料就行。
但頻寬來不來的及把上百TMU數十Rop
的資料抓取或寫入,就是另一回事。
所以HBM高頻寬對高性能GPU幫助超大。
CPU則相反,更在乎HBM的Latency進步多少
Bethany avatar
By Bethany
at 2017-05-03T05:22
給它一個頻寬50GB但Latency超低的會更快
Oliver avatar
By Oliver
at 2017-05-07T22:37
HBM的記憶體控制器跟512BIT的GDDR5控制器大小有得拚
Regina avatar
By Regina
at 2017-05-11T10:21
要內建雙控制器感覺就是很累贅
Dora avatar
By Dora
at 2017-05-12T12:55
放了如果賺不到錢 那就不用放了
Margaret avatar
By Margaret
at 2017-05-15T13:19
說真的啦,RAM bound要差到10倍效能我是覺得不太可
Rebecca avatar
By Rebecca
at 2017-05-15T18:04
能,軟體端也能做很大程度的最佳化。
Blanche avatar
By Blanche
at 2017-05-19T16:52
我跟你想得剛好相反 SOC搭內顯才是最合適HBM的
而且這個市場最大(內顯)
Adele avatar
By Adele
at 2017-05-20T20:32
因為 內顯跟CPU分享HBM 這樣每塊錢效益更高
Carol avatar
By Carol
at 2017-05-21T13:13
除了內顯外 第二個HBM市場是SERVER超級電腦
Ivy avatar
By Ivy
at 2017-05-23T13:21
就像你說的 作為L4
這部份利潤蠻高的 玩得起HBM
Isabella avatar
By Isabella
at 2017-05-25T15:10
但是HBM好像延遲較慢
James avatar
By James
at 2017-05-26T10:20
就看apple能不能加速3dic的整合啊 據說A10會用
Catherine avatar
By Catherine
at 2017-05-27T22:30
AMD據說打算在APU內顯做HBM
Agatha avatar
By Agatha
at 2017-05-30T19:37
可能不用很大,因為貼圖可擺system ram
Una avatar
By Una
at 2017-06-01T09:16
就像i的edram也只是cover render target
的重度頻寬存取,貼圖較輕鬆就擺主記憶體
Adele avatar
By Adele
at 2017-06-02T13:41
若不跑繪圖時,則把HBM當L4? 一魚兩吃
Donna avatar
By Donna
at 2017-06-05T22:01
你應該不知道當年Rambus怎麼死的....

羅技 G300s $349

Adele avatar
By Adele
at 2016-07-16T23:21
請問有人買過這家的商品嗎? 會24小時到貨嗎? 最近想衝一隻m545他折200算是最便宜的了 ※ 引述《kadasaki (K~)》之銘言: : ※ [本文轉錄自 Key_Mou_Pad 看板 #1NXW_yBu ] : 作者: kadasaki (K~) 看板: Key_Mou_Pad : 標題: [滑 ...

30K 中度遊戲+繪圖機

Eartha avatar
By Eartha
at 2016-07-16T23:02
已買/未買/已付訂金(元):已付訂金3000 預算/用途:預算30K 平常玩玩GTA5、WOWs等等 畫質也不一定要到全開 順暢堪用就好 會畫一些比較複雜的solidworks圖 或是matlab跑分析 寫程式 CPU (中央處理器):Intel i5-6500 ...

bios設定問題

Barb Cronin avatar
By Barb Cronin
at 2016-07-16T22:59
請問要怎麼設定只讀內顯呢?? http://i.imgur.com/OUhSdpX.jpg - ...

台達白金550w $2,799

Dinah avatar
By Dinah
at 2016-07-16T22:28
http://goo.gl/xWGpzN 剛剛看到的 有電源需求的可參考喔 節錄部分文章: 台達電實在力量550W白金牌(型號GPS-550NB A)來看,全日系電解電容,雙路+12V每路 最高35A(420W)與LLC諧振、DC-DC架構,沒有半模或全模...................... ...

P100裝1070

Kelly avatar
By Kelly
at 2016-07-16T22:20
小弟想換GTX1070 (只買ASUS或MSI) 機殼為P100(顯卡長31.7cm) 不知STRIX和中二龍裝進去的狀況 因為感覺STRIX較長(長29.8cm) 而中二龍(長27.9cm) 寬較寬 想問是否有用P100的大大是裝這兩塊其中一塊 希望能給小弟一點意見 謝謝你們 - ...