光線追蹤太耗資源:《古墓奇兵:暗影》開 - 3C

Table of Contents

: 推 a2935373 : 然後在隔壁版看到V100好像還是很搶手 懷疑老黃這次 08/22 03:18
: → a2935373 : 是為了出給專業公司順便炒作一下遊戲來交代股東 不 08/22 03:18
: → a2935373 : 然RTX這幾張真的怎麼看都不像遊戲用 08/22 03:18
講到這個V100 我朋友最近分享一個 ML Benchmark Result 給我
https://github.com/u39kun/deep-learning-benchmark

先看一下 V100 和 1080 Ti 的規格差異

Model Memory CUDA Cores Tensor Cores
Tesla V100 16GB HBM2 5120 640
1080 Ti 11GB GDDR5 3584 0

V100 boosted Frequency 1455 MHz
1080Ti boosted Frequency: 1582 MHz

測試結果

PyTorch 0.3.0
1080 Ti
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 39.3ms 131.9ms 57.8ms 206.4ms
16-bit 33.5ms 117.6ms 46.9ms 193.5ms

V100
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 26.2ms 83.5ms 38.7ms 136.5ms
16-bit 12.6ms 58.8ms 21.7ms 92.9ms

Tensorflow 1.4.0
1080 Ti
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 43.4ms 131.3ms 69.6ms 300.6ms
16-bit 38.6ms 121.1ms 53.9ms 257.0ms

Tensorflow 1.5.0
V100
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 24.0ms 71.7ms 39.4ms 199.8ms
16-bit 13.6ms 49.4ms 22.6ms 147.4ms


V100 TDP 300W
1080Ti TDP 275W
這樣看下來,Tensor Core 的強是表現在能耗比上面

V100 一張要 $8900 @@"

--
「保護這個城市的我,不存在弱點。
...遊戲玩很爛...? 別說了......拜託你別再說了!!!」 ~琴葉
https://i.imgur.com/7JHnwBV.jpg

--

All Comments

Oscar avatarOscar2018-08-26
有雙精度的數據嗎?
Kama avatarKama2018-08-29
光能耗比就很屌了吧
Dinah avatarDinah2018-09-02
老黃想直接創造市場走向啊 供給方動手影響需求....
Hedda avatarHedda2018-09-03
都還是通用的架構不是專門跑ML的
Elvira avatarElvira2018-09-06
所以特斯拉才要自主研發自己的晶片
Leila avatarLeila2018-09-07
github.com/u39kun/deep-learning-benchmark 這個吧
Odelette avatarOdelette2018-09-08
FP32 不是mixed precision, tensor core沒用吧
Zanna avatarZanna2018-09-12
你確定差異來自tensor core?
Hedwig avatarHedwig2018-09-13
搞不好只是單純fp16輸出不同造成的
Lucy avatarLucy2018-09-17
還好我都用p100
Gilbert avatarGilbert2018-09-21
只跑Fp16也可以減少耗電與暫存器負擔
Elizabeth avatarElizabeth2018-09-26
V100有原生支援fp16, 1080ti沒有
Lauren avatarLauren2018-09-26
大部分人大概只用到fp16(泛用指令)
Sandy avatarSandy2018-09-30
以為v100能發揮tensor core(不泛用)
Tracy avatarTracy2018-10-01
順著看下來想說$8900怎麼這麼便宜,原來是鎂阿XDDD
Ursula avatarUrsula2018-10-02
看起來V100沒有想像中的那麼威
Sarah avatarSarah2018-10-04
遊戲公司出來說...遊戲未完善 後續會"陸續"完善
Mia avatarMia2018-10-08
不行就砍特效啊 還什麼個完善法..
Andrew avatarAndrew2018-10-09
Patch一次不夠,那你可以再Patch一次 如果還是不夠
那你可以買第二張來跑光影 (疑?!PhysX是你?!
Hedda avatarHedda2018-10-13
PhysX若還在 今天遊戲菜單要 顯卡+物理卡+光影卡 嗎
Ursula avatarUrsula2018-10-18
太累了....
Andrew avatarAndrew2018-10-20
現在ml的asic本來優勢就是來自於閹割精度來的 去質
疑因為fp16幹嘛 google tpu就是閹到int 8 Turing
這代也是開始往int4/8支援 tflops直接*4/*2
Megan avatarMegan2018-10-24
他們發現nchw比nhwc快...顯然是沒用到tensor core
Lucy avatarLucy2018-10-26
我覺得是沒有用到Tensor core
好像要cuda9.1才支援 他測試是用9.0
然後我推測tensorflow Pytorch都還沒支援 至少他用
的版本還沒
Susan avatarSusan2018-10-27
上面的速度純粹是cuda core數量造成的差距
James avatarJames2018-10-27
啊 還有HBM2
Irma avatarIrma2018-10-29
tensorCore不是用來加速矩陣運算的嗎?
Agatha avatarAgatha2018-10-30
樓上 ML就是矩陣運算呀
Skylar Davis avatarSkylar Davis2018-11-04
可惜了,這麼好的特效至少要在2070下有60fps才會普
及化
Ingrid avatarIngrid2018-11-05
這下連本來想買2070的都不用心動了xd
Margaret avatarMargaret2018-11-05
還可以觀望一下優化 不過大概再怎麼樣頂多2080 fhd
@60吧
Robert avatarRobert2018-11-09
優化完 納下一代要賣啥? 別鬧了
這代在硬體上這麼激進 下一代就是製程或是優化
Olga avatarOlga2018-11-11
對耶,G80之後的改進的G92價格便宜點,
然後下一代GT200核心就非常好了,
無論是DX10還是PPU
Vanessa avatarVanessa2018-11-14
蘿拉怎麼變醜了? !
Selena avatarSelena2018-11-17
用fp16沒問題,是1080ti的fp16沒強化
所以無法發揮更好功耗
Kumar avatarKumar2018-11-19
為什麼回來就發現被抓出來鞭惹QQ