AMD顯示卡救星來了!SK HYNIX HBM2記憶 - 3C

Table of Contents


藉這個話題一問:

HBM2這鬼玩意頻寬隨便也256GB/s, 反觀DDR4 3200 也才 25.6GB/s,
那為什麼 intel / AMD 不把這玩意用在CPU上?

我知道, 因為 RAM 有 dimm socket,
這鬼東西會讓速度很難快得起來,
但還是有兩種方案啊:

1. 主機板先內建個4G 8G的不行嗎? 反正中低階板不要放,
中高階板也不會有人不買RAM或只買少少的RAM吧。

2. 放個一顆 4G 當 L4 Cache 也不錯啊, 用在高階板上

-------

為什麼我會提這個, 是因為最近寫的軟體, 只要資料量一大,
整個性能就直直落, 可能掉到 1/10 之譜。

這時候就算拆成多緒來跑, 能增加的效益也很有限了,
因為共用的L3早就塞得滿滿的。

偏偏某些資料又很難拆成小份來跑。

所以我覺得有搞頭, 整體性能加個10%~20%都有可能,
特殊狀況下快個三五倍都不是問題。


※ 引述《hn9480412 (ilinker)》之銘言:
: https://news.xfastest.com/sk-hynix/23436/amd-vga-sk-hynix-hbm2/
: AMD顯示卡救星來了!SK HYNIX HBM2記憶體本季出貨
: 2016-07-16
: AMD R9 Fury X顯示卡去年第一個用上了HBM高頻寬顯示記憶體,實現了驚人的4096-bit位
: 元、512GB/s頻寬。大大節省了PCB面積,讓顯示卡整體做的更加小巧。不過遺憾的是容量
: 偏小,單顆只有1GB,Fury X用了四顆才提供4GB。
: 現在,SK Hynix宣布,第二代HBM2顯示記憶體已經開始量產,將在第三季內出貨,容量直
: 接提升至單顆4GB(4 Die堆疊),四顆就能組成16GB,輕鬆滿足任何顯示卡的需求。
: SK Hynix的HBM2有兩種頻率規格,其一為2Gbps,單顆頻寬256GB/s,四顆就能組成1TB/s
: ,其二為1.6Gbps,單顆頻寬204GB/s,四顆就是816GB/s。AMD Vega核心高階卡就會採用
: SK Hynix的這種HBM2記憶體,不過要到明年初才會正式發表。
: 三星已經在今年初就宣布量產自己的HBM2,單顆容量同樣是4GB,頻寬也是256GB/s,今年
: 還計劃推出8GB型號。NVIDIA GP100核心的高效能繪圖卡-Tesla P100,據悉使用的就是三
: 星這種4GB HMB2,四顆組成16GB,不過總頻寬只有720GB/s,意味著頻率只有1.4Gbps。

--

All Comments

David avatarDavid2016-07-20
你在說啥....................
Heather avatarHeather2016-07-25
額...哪邊有問題嗎
Adele avatarAdele2016-07-26
你可以改寫成CUDA看看
Poppy avatarPoppy2016-07-28
記得好像是會卡在LGA上? i
Rachel avatarRachel2016-08-02
因為用你這個例子可以推論到有N種方案可以讓效能更
Zenobia avatarZenobia2016-08-05
intel不敢說,當APU具有中階獨顯的架構+高頻寬
請問你中低階的顯示卡要怎麼賣?
Margaret avatarMargaret2016-08-08
為什麼不選有很多大人的理由
Dinah avatarDinah2016-08-08
再來,快取這個東西也不是一直增加量就可以增加效益
其實跟命中率比較有關
Audriana avatarAudriana2016-08-10
這鬼玩意兒會不會撞一下就掉下來 XDDDD
Ingrid avatarIngrid2016-08-14
其實有現成的玩意啊 PS4和XB ONE
Olga avatarOlga2016-08-18
HBM的頻寬對大部分CPU軟體沒有幫助
Zenobia avatarZenobia2016-08-21
原PO是用自己寫的軟體阿
他運算量很大,不知道怎麼加速
Doris avatarDoris2016-08-24
我記得為了內顯效能好像有提過這個idea
但是瓶頸會在CPU Socket上 要弄成BGA才行
Steve avatarSteve2016-08-27
CPU連DDR4數十GB頻寬都用不完,
還能跟內顯分享....CPU更在意cache
Vanessa avatarVanessa2016-08-29
弄成CACHE是要變成卡匣嗎@@
Leila avatarLeila2016-09-01
原Po應該研究提升效率,因為HBM也救不了
他的latency比cache長太多了。
Tristan Cohan avatarTristan Cohan2016-09-03
成本成本成本
Selena avatarSelena2016-09-08
嗯 我記得當初沒弄出來也是因為成本 為了強化內顯
搞這樣反而定價太高不如直接用顯獨
Daph Bay avatarDaph Bay2016-09-12
APU就看看跟CPU共享L3和高頻DDR4之後有沒有救吧
Quintina avatarQuintina2016-09-14
沒有救大概就注定那樣了 加eRam增加成本
就跟當初設計APU的初衷背道而馳了
Isla avatarIsla2016-09-14
你可以像GOOGLE一樣,自己開發運算平台 XD
撰寫專用電路
Aaliyah avatarAaliyah2016-09-18
很好笑的是這設計在console上都不是問題XD
George avatarGeorge2016-09-22
你這種需求現在只能組多通道吧
原PO買PS4跑程式阿
Audriana avatarAudriana2016-09-23
vega有掛嗎?
Edwina avatarEdwina2016-09-25
能疊在CPU裡是3dic的終極目標啊。就還做不到
Lily avatarLily2016-09-26
買PS4能跑自製程式嗎?沒這麼容易吧
Freda avatarFreda2016-10-01
當然要破解阿 不然哩
Lauren avatarLauren2016-10-04
嘗試切他中路嗎?沒那麼容易吧(?
Queena avatarQueena2016-10-05
console也是成本因素呀,不然要強也是能很猛
Edith avatarEdith2016-10-10
想當年美國某機構大量購買PS2運算
Mia avatarMia2016-10-12
不是 PS3 嗎?
Skylar Davis avatarSkylar Davis2016-10-12
重點是原PO要專屬優化硬體拉
Leila avatarLeila2016-10-15
用PS2發射核彈(開門查水表)
Suhail Hany avatarSuhail Hany2016-10-17
想當年電影拿PS3當記憶轉移器
Agnes avatarAgnes2016-10-17
優化自己的資料結構與演算法比較快
Elvira avatarElvira2016-10-20
你說去年那個機器人電影?
Una avatarUna2016-10-24
CPU對高頻寬需求太少了,就算肯出也是天價
Ophelia avatarOphelia2016-10-25
美國買PS2那個好像是因為PS2當初有支援Linux
Rachel avatarRachel2016-10-25
沒有廣大用戶一起分攤設計生產成本。
Sierra Rose avatarSierra Rose2016-10-29
限量訂製晶片的代價會讓你吐血。
Una avatarUna2016-10-29
當初PS3也說要支援Linux啊,結果跳票被告
Dora avatarDora2016-11-03
所以這一定吉
Victoria avatarVictoria2016-11-07
用嘴巴說都很容易,就是不容易做啊...
Kumar avatarKumar2016-11-12
就成本阿
Elma avatarElma2016-11-17
PS3一開始的的確有支援安裝linux,但後來取消這功能
Necoo avatarNecoo2016-11-20
連雙通道廣大鄉民都說無感了,你這問題豈不更不用說
Isla avatarIsla2016-11-21
樓上 這是特殊運用
Anthony avatarAnthony2016-11-24
雙通道無感?? 你沒用過內顯吼..
Lucy avatarLucy2016-11-28
然後你確定你的bound是RAM?把RAM頻率調低測一下馬
上知道
Dorothy avatarDorothy2016-12-01
不,我只是在反諷鄉民
Skylar DavisLinda avatarSkylar DavisLinda2016-12-06
你應該是要說CPU對RAM的延遲比較敏感 頻率其次吧?
但GPU是剛好反過來 對頻率比較敏感
Rae avatarRae2016-12-07
原PO看上的是HBM的頻寬阿,那把現有電腦的RAM降頻一
下,自然能測得出頻寬對他有沒有幫助了
Valerie avatarValerie2016-12-07
就好像希望馬上喝到飲料和一次想喝一箱飲料的差別
Ophelia avatarOphelia2016-12-11
因為安全性問題,做了就要不斷維護它。
乾脆拿掉,回到封閉系統,省事又降低風險。
Linux對PS3本業幫助太小。
Lucy avatarLucy2016-12-15
結果PS3還是被攻破了,不過這是另一個故事了XDDD
Wallis avatarWallis2016-12-17
風水輪流轉 望向PS4和XBOX ONE
Freda avatarFreda2016-12-20
回原題,能差10倍,我不覺得RAM SPEED會是主因
Callum avatarCallum2016-12-22
仔細重看了一下原文 如果跟他說的一樣資料量大到L3
不夠用 好像跟RAM沒啥關係來著呢
Andrew avatarAndrew2016-12-25
他認為L3不夠用是導致他程式變慢的主因,所以他希
Mia avatarMia2016-12-28
望有夠大的L4或夠快的RAM阿,怎麼沒關係0.0
Erin avatarErin2016-12-31
之前有人測頻寬,即使全在cache, CPU也只用幾十GB/s
Robert avatarRobert2017-01-03
因為CPU核心少,沒有夠多運算單位。
Oliver avatarOliver2017-01-06
變慢不是頻寬不夠,而是cache miss往下一級找。
找不到再往下,latency不斷上升導致效能閒置
Jessica avatarJessica2017-01-09
就算有thread也救不了兩個thread都miss...
Jacob avatarJacob2017-01-12
原po或許該買顆i7-5775c來玩
不過不知道intel的L4有沒有分給CPU..
Delia avatarDelia2017-01-13
裝上HBM也很可能多了閒置頻寬,然後繼續卡在latency
Ida avatarIda2017-01-15
更大更多層cache應該幫助比較大。
Carol avatarCarol2017-01-19
如果演算法與資料結構真的無法最佳化……
Isla avatarIsla2017-01-20
我也記得是樓上說那樣 cache爆死的話RAM頻寬救不了
Hazel avatarHazel2017-01-22
比喻是媽媽炒菜缺瓦斯只好停頓。叫小明叫瓦斯
這時小明覺得叫一桶瓦斯要2小時太慢,
所以叫老板一次送10桶,希望這樣可加快,
結果事情不是小明想的這模簡單。還是2小時。
然後還是只用一桶@@
Sierra Rose avatarSierra Rose2017-01-26
cache滿惹很正常八 如果會滿 問題不見得是latency
Delia avatarDelia2017-01-27
重點不是滿不滿,而是hit rate/miss rate
Yedda avatarYedda2017-01-31
今天L3滿惹 就是卡ram速度
Daniel avatarDaniel2017-02-04
而且運算量大 那latency根bw都有可能幫助
Genevieve avatarGenevieve2017-02-08
可是他不是因為某些資料不好拆都卡在L3嗎?
Kristin avatarKristin2017-02-10
瓦 沒注意到是wahaha99大大 捨摸時後轉行血程式惹
Ina avatarIna2017-02-11
cache原理是要讓 miss後再抓來的一大串資料
也盡量包含接下來其他ALU運算的所需資料
一次不幸miss,要換來更多幸福的hit....
Linda avatarLinda2017-02-12
這種東西要實驗也很簡單喇 換快一點的ram
Victoria avatarVictoria2017-02-14
所以他的DATA拆不開 不就跟卡車肥宅一樣卡住通道
Caitlin avatarCaitlin2017-02-14
把RAM調慢比換快的RAM簡單啊...
Mason avatarMason2017-02-15
雖然計概快忘光光惹
Callum avatarCallum2017-02-15
Latency是新資料回到各層cache的時間。
cache有所需資料,CPU就繼續跑,直到miss
Skylar DavisLinda avatarSkylar DavisLinda2017-02-17
沒記錯的話太大的會卡在L3? MISS率就很高
Isla avatarIsla2017-02-22
這樣一講突然很好奇HBM他的latency相對起DDR3/4如何
David avatarDavid2017-02-24
L3 miss你就要等RAM把東西送來 但是資料太大你L3
Tom avatarTom2017-03-01
收沒多少組就爆惹 這樣不是卡在RAM的頻寬吧?
不過我不是靠這吃飯的 有高手要指點一下嗎QQ
Noah avatarNoah2017-03-02
之前好像看過slide有說HBM的latency比GDDR5低
Quintina avatarQuintina2017-03-05
就算要用GPU去算,還是得切資料。要打破OO原則把同
性資料放在一起再送
Tracy avatarTracy2017-03-10
這會不會時序影響還更大啊
降頻拉時序?
Adele avatarAdele2017-03-10
我覺得可以算一下 現在ddr3 latency大概10ns上下
頻寬500GB/s vs 50GB/s 來傳50M
Odelette avatarOdelette2017-03-14
伊葛要0.1ms+10ns=110ns 令伊葛是1ms+10ns=1010ns
Lauren avatarLauren2017-03-17
降時序是一樣的道理啊...
Caitlin avatarCaitlin2017-03-18
小明...你搬家好了
Oscar avatarOscar2017-03-22
說真的啦,都到軟體層了,理論推敲不如跑一下實驗
Mary avatarMary2017-03-27
先用 opencl 改寫一下,以後說不定有機會
Jack avatarJack2017-03-28
雖然我覺得 ram 都閒慢有點扯,是隨機讀取不循序嗎
Hazel avatarHazel2017-03-30
另外拆多執行緒是門藝術,可以試試更好的拆法
Iris avatarIris2017-04-03
我記得L3 cache miss也不是再填滿cache。
應該只填一個Cache line 約64byte.
Wallis avatarWallis2017-04-08
延遲太高
Barb Cronin avatarBarb Cronin2017-04-09
原po需要的是local sram,dram這種有row col的miss
Lydia avatarLydia2017-04-10
一次都是100T的cpu cycle,頻寬無用,除非都沒相依性
Liam avatarLiam2017-04-13
https://goo.gl/zGT9vc HMC,頻寬大,不過未來似乎..
Caroline avatarCaroline2017-04-16
可以試試將要處理的資料的資料結構以你用的電腦CPU
的Catch架構的特性來規劃,再加上使用針對Catch的
低階指令,
應該會有幫助...。
Mary avatarMary2017-04-21
原PO自己測試看看就知道了吧
借支記憶體上去跑雙通 不就知道HBM大頻寬
對你有沒有幫助嗎?!不過我覺得改善有限就是了啦
畢竟就跟版友說的 現在頻寬都吃不完了
資料運算來不及成瓶頸 又不是內顯 單通雙通差異不大
Margaret avatarMargaret2017-04-25
去看5775c 128MB的edram有多大顆,就不能想像為什
麼intel不放了
Rachel avatarRachel2017-04-29
3D繪圖通常tex cache的hit rate是無敵高
因為texcord座標通常已知,會提早Fetch,
而且一起抓回來cache的texels幾乎100%
是周圍大量pixel未來要用的,很難miss.
所以latency對GPU不重要,提早抓資料就行。
但頻寬來不來的及把上百TMU數十Rop
的資料抓取或寫入,就是另一回事。
所以HBM高頻寬對高性能GPU幫助超大。
CPU則相反,更在乎HBM的Latency進步多少
Bethany avatarBethany2017-05-03
給它一個頻寬50GB但Latency超低的會更快
Oliver avatarOliver2017-05-07
HBM的記憶體控制器跟512BIT的GDDR5控制器大小有得拚
Regina avatarRegina2017-05-11
要內建雙控制器感覺就是很累贅
Dora avatarDora2017-05-12
放了如果賺不到錢 那就不用放了
Margaret avatarMargaret2017-05-15
說真的啦,RAM bound要差到10倍效能我是覺得不太可
Rebecca avatarRebecca2017-05-15
能,軟體端也能做很大程度的最佳化。
Blanche avatarBlanche2017-05-19
我跟你想得剛好相反 SOC搭內顯才是最合適HBM的
而且這個市場最大(內顯)
Adele avatarAdele2017-05-20
因為 內顯跟CPU分享HBM 這樣每塊錢效益更高
Carol avatarCarol2017-05-21
除了內顯外 第二個HBM市場是SERVER超級電腦
Ivy avatarIvy2017-05-23
就像你說的 作為L4
這部份利潤蠻高的 玩得起HBM
Isabella avatarIsabella2017-05-25
但是HBM好像延遲較慢
James avatarJames2017-05-26
就看apple能不能加速3dic的整合啊 據說A10會用
Catherine avatarCatherine2017-05-27
AMD據說打算在APU內顯做HBM
Agatha avatarAgatha2017-05-30
可能不用很大,因為貼圖可擺system ram
Una avatarUna2017-06-01
就像i的edram也只是cover render target
的重度頻寬存取,貼圖較輕鬆就擺主記憶體
Adele avatarAdele2017-06-02
若不跑繪圖時,則把HBM當L4? 一魚兩吃
Donna avatarDonna2017-06-05
你應該不知道當年Rambus怎麼死的....