Intel admits Ivy B chips run hotter - 3C

By Kyle
at 2012-05-05T22:15
at 2012-05-05T22:15
Table of Contents
推 arrenwu:以 GTX680 的情況來看,6系列通用計算應該是大輸 5系列 05/04 00:59
推 cluohy75118: GK110 05/04 01:36
→ cluohy75118:架構問題我比較想看jk神闡釋 可以確定的是maxwell會是 05/04 01:36
→ cluohy75118:nv這幾年來真正想表現的最終型態 05/04 01:37
GTX680的GPGPU表現其實基於一個很簡單的原因......
Register:SP數量比以往減少很多.
G80/G92的時候,8個SP總共使用16,384個reg,GK104則是192個SP使用65,536個reg.
比例大概是從2,048降到341,足足少了6倍.
這邊要說明一下,register的數量和每個block(SMp)對應的thread數量有關.
假如CUDA程式設定成128個thread的話,在G80/G92上就是同一個thread下真正使用
到16,384/128=128個register,這樣每個SP平均有16個reg可以用.算是蠻寬裕的.
而thread拉長,就是可以有效的隱藏Video RAM存取的延遲
常態來說這個video RAM的延遲都是100出頭個cycle,不同卡會不太一樣
所以舊的CUDA程式要求效能會以64~256個thread為主流.假定最主流的是128個thread
的話...
那這個程式在GK104上,每個thread就是192個SP分配到512個register.
由於每個SP每個CYCLE都要二讀一寫........好啦 中間計算就省略一下.
一般而言指令要有良好的平行度,不會浪費太多時間在register allocation
的時候作spill out(專有名詞,register不夠用所以把舊的資料存入記憶體)
那麼register最好是ALU總數(GPU下的例子是SP)的6~8倍.低於這數值平行度就會
很差,比這高當然效能還會好一點,但高過16倍又不一定會看到好處...因此換算起來,
192個SP分配512個register,真正的利用率可能只有1/2~1/3...意思是
和96 or 64個SP的效能差不多
那麼GTX680的1536個SP,除以這比例就剩下768~512,再除以沒有hot clock
的計算量減半.結果GK104的GPGPU表現就可能和GF104差不多會是同時脈下同等級.
實際上GK104的時脈高了一點.應該會領先少許.但約只有gtx580的75%吧.
[呂布:當我不用分心在謀權之上,誰可以敢說在武力上穩勝過我]
這個問題不能說整個Kepler系列設計不重視GPGPU,應該是只有GK104如此
很有可能是因為GK104的定位可以讓他只專注在Graphics不要管GPGPU.
nVidia策略上作的到HD7900作不到的一件事情.一個產品當陳宮一個產品當呂布.
只要GK110的register:SP比例提高兩倍以上(當然這就無法在同面積內塞入相同數量的
SP,大量register非常的佔面積).這樣的晶片的GPGPU表現並不會差.當然可能Graphics
的表現就不會明顯領先一截了....
--
推 cluohy75118: GK110 05/04 01:36
→ cluohy75118:架構問題我比較想看jk神闡釋 可以確定的是maxwell會是 05/04 01:36
→ cluohy75118:nv這幾年來真正想表現的最終型態 05/04 01:37
GTX680的GPGPU表現其實基於一個很簡單的原因......
Register:SP數量比以往減少很多.
G80/G92的時候,8個SP總共使用16,384個reg,GK104則是192個SP使用65,536個reg.
比例大概是從2,048降到341,足足少了6倍.
這邊要說明一下,register的數量和每個block(SMp)對應的thread數量有關.
假如CUDA程式設定成128個thread的話,在G80/G92上就是同一個thread下真正使用
到16,384/128=128個register,這樣每個SP平均有16個reg可以用.算是蠻寬裕的.
而thread拉長,就是可以有效的隱藏Video RAM存取的延遲
常態來說這個video RAM的延遲都是100出頭個cycle,不同卡會不太一樣
所以舊的CUDA程式要求效能會以64~256個thread為主流.假定最主流的是128個thread
的話...
那這個程式在GK104上,每個thread就是192個SP分配到512個register.
由於每個SP每個CYCLE都要二讀一寫........好啦 中間計算就省略一下.
一般而言指令要有良好的平行度,不會浪費太多時間在register allocation
的時候作spill out(專有名詞,register不夠用所以把舊的資料存入記憶體)
那麼register最好是ALU總數(GPU下的例子是SP)的6~8倍.低於這數值平行度就會
很差,比這高當然效能還會好一點,但高過16倍又不一定會看到好處...因此換算起來,
192個SP分配512個register,真正的利用率可能只有1/2~1/3...意思是
和96 or 64個SP的效能差不多
那麼GTX680的1536個SP,除以這比例就剩下768~512,再除以沒有hot clock
的計算量減半.結果GK104的GPGPU表現就可能和GF104差不多會是同時脈下同等級.
實際上GK104的時脈高了一點.應該會領先少許.但約只有gtx580的75%吧.
[呂布:當我不用分心在謀權之上,誰可以敢說在武力上穩勝過我]
這個問題不能說整個Kepler系列設計不重視GPGPU,應該是只有GK104如此
很有可能是因為GK104的定位可以讓他只專注在Graphics不要管GPGPU.
nVidia策略上作的到HD7900作不到的一件事情.一個產品當陳宮一個產品當呂布.
只要GK110的register:SP比例提高兩倍以上(當然這就無法在同面積內塞入相同數量的
SP,大量register非常的佔面積).這樣的晶片的GPGPU表現並不會差.當然可能Graphics
的表現就不會明顯領先一截了....
--
Tags:
3C
All Comments

By Aaliyah
at 2012-05-06T22:08
at 2012-05-06T22:08

By Emily
at 2012-05-09T13:45
at 2012-05-09T13:45

By Elvira
at 2012-05-10T18:51
at 2012-05-10T18:51

By Sandy
at 2012-05-13T16:34
at 2012-05-13T16:34

By Joseph
at 2012-05-18T08:50
at 2012-05-18T08:50

By Barb Cronin
at 2012-05-22T04:35
at 2012-05-22T04:35

By Steve
at 2012-05-22T19:24
at 2012-05-22T19:24

By Ula
at 2012-05-23T04:33
at 2012-05-23T04:33

By Andrew
at 2012-05-26T00:41
at 2012-05-26T00:41

By Kristin
at 2012-05-30T19:30
at 2012-05-30T19:30

By Isla
at 2012-06-02T19:51
at 2012-06-02T19:51

By Dorothy
at 2012-06-03T05:17
at 2012-06-03T05:17

By Lydia
at 2012-06-03T20:59
at 2012-06-03T20:59

By Sandy
at 2012-06-04T09:27
at 2012-06-04T09:27

By Isla
at 2012-06-06T00:06
at 2012-06-06T00:06

By Irma
at 2012-06-09T02:04
at 2012-06-09T02:04

By Leila
at 2012-06-11T20:21
at 2012-06-11T20:21

By James
at 2012-06-14T05:21
at 2012-06-14T05:21

By Jake
at 2012-06-17T14:31
at 2012-06-17T14:31

By Olive
at 2012-06-19T23:16
at 2012-06-19T23:16

By Annie
at 2012-06-21T13:05
at 2012-06-21T13:05

By Skylar Davis
at 2012-06-25T20:03
at 2012-06-25T20:03

By Edwina
at 2012-06-30T09:49
at 2012-06-30T09:49

By Elizabeth
at 2012-07-02T13:09
at 2012-07-02T13:09

By Yuri
at 2012-07-02T23:22
at 2012-07-02T23:22

By Hedda
at 2012-07-03T14:40
at 2012-07-03T14:40

By Elma
at 2012-07-04T05:45
at 2012-07-04T05:45

By Isabella
at 2012-07-08T23:30
at 2012-07-08T23:30

By Ingrid
at 2012-07-12T02:37
at 2012-07-12T02:37

By Eartha
at 2012-07-12T14:19
at 2012-07-12T14:19

By Delia
at 2012-07-12T22:06
at 2012-07-12T22:06

By Odelette
at 2012-07-15T21:24
at 2012-07-15T21:24

By Elvira
at 2012-07-18T08:59
at 2012-07-18T08:59
Related Posts
DVI-I跟DVI-D的差別

By Faithe
at 2012-05-05T17:28
at 2012-05-05T17:28
桌電沒有在用了~

By Elma
at 2012-05-05T01:36
at 2012-05-05T01:36
桌上型電腦? 掌上型電腦? 傻傻分不清楚

By Skylar DavisLinda
at 2012-05-05T00:46
at 2012-05-05T00:46
M3P-128G/SEAGATE-1TB/日立-1TB 測試

By Faithe
at 2012-05-04T22:50
at 2012-05-04T22:50
平板電腦

By Elma
at 2012-05-04T22:02
at 2012-05-04T22:02