光線追蹤太耗資源：《古墓奇兵：暗影》開 - 3C

Anonymous · 2018-08-22

Table of Contents

Post
Comments
Related Posts

: 推 a2935373 : 然後在隔壁版看到V100好像還是很搶手懷疑老黃這次 08/22 03:18
: → a2935373 : 是為了出給專業公司順便炒作一下遊戲來交代股東不 08/22 03:18
: → a2935373 : 然RTX這幾張真的怎麼看都不像遊戲用 08/22 03:18
講到這個V100 我朋友最近分享一個 ML Benchmark Result 給我
https://github.com/u39kun/deep-learning-benchmark

先看一下 V100 和 1080 Ti 的規格差異

Model Memory CUDA Cores Tensor Cores
Tesla V100 16GB HBM2 5120 640
1080 Ti 11GB GDDR5 3584 0

V100 boosted Frequency 1455 MHz
1080Ti boosted Frequency: 1582 MHz

測試結果

PyTorch 0.3.0
1080 Ti
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 39.3ms 131.9ms 57.8ms 206.4ms
16-bit 33.5ms 117.6ms 46.9ms 193.5ms

V100
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 26.2ms 83.5ms 38.7ms 136.5ms
16-bit 12.6ms 58.8ms 21.7ms 92.9ms

Tensorflow 1.4.0
1080 Ti
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 43.4ms 131.3ms 69.6ms 300.6ms
16-bit 38.6ms 121.1ms 53.9ms 257.0ms

Tensorflow 1.5.0
V100
精度 vgg16 eval vgg16 train resnet152 eval resnet152 train
32-bit 24.0ms 71.7ms 39.4ms 199.8ms
16-bit 13.6ms 49.4ms 22.6ms 147.4ms

V100 TDP 300W
1080Ti TDP 275W
這樣看下來，Tensor Core 的強是表現在能耗比上面

V100 一張要 $8900 @@"

--
「保護這個城市的我，不存在弱點。
...遊戲玩很爛...？別說了......拜託你別再說了！！！」～琴葉
https://i.imgur.com/7JHnwBV.jpg

--

All Comments

Oscar2018-08-26

有雙精度的數據嗎？

Kama2018-08-29

光能耗比就很屌了吧

Dinah2018-09-02

老黃想直接創造市場走向啊供給方動手影響需求....

Hedda2018-09-03

都還是通用的架構不是專門跑ML的

Elvira2018-09-06

所以特斯拉才要自主研發自己的晶片

Leila2018-09-07

github.com/u39kun/deep-learning-benchmark 這個吧

Odelette2018-09-08

FP32 不是mixed precision, tensor core沒用吧

Zanna2018-09-12

你確定差異來自tensor core?

Hedwig2018-09-13

搞不好只是單純fp16輸出不同造成的

Lucy2018-09-17

還好我都用p100

Gilbert2018-09-21

只跑Fp16也可以減少耗電與暫存器負擔

Elizabeth2018-09-26

V100有原生支援fp16， 1080ti沒有

Lauren2018-09-26

大部分人大概只用到fp16（泛用指令）

Sandy2018-09-30

以為v100能發揮tensor core(不泛用)

Tracy2018-10-01

順著看下來想說$8900怎麼這麼便宜，原來是鎂阿XDDD

Ursula2018-10-02

看起來V100沒有想像中的那麼威

Sarah2018-10-04

遊戲公司出來說...遊戲未完善後續會"陸續"完善

Mia2018-10-08

不行就砍特效啊還什麼個完善法..

Andrew2018-10-09

Patch一次不夠，那你可以再Patch一次如果還是不夠
那你可以買第二張來跑光影 (疑？！PhysX是你？！

Hedda2018-10-13

PhysX若還在今天遊戲菜單要顯卡+物理卡+光影卡嗎

Ursula2018-10-18

太累了....

Andrew2018-10-20

現在ml的asic本來優勢就是來自於閹割精度來的去質
疑因為fp16幹嘛 google tpu就是閹到int 8 Turing
這代也是開始往int4/8支援 tflops直接*4/*2

Megan2018-10-24

他們發現nchw比nhwc快...顯然是沒用到tensor core

Lucy2018-10-26

我覺得是沒有用到Tensor core
好像要cuda9.1才支援他測試是用9.0
然後我推測tensorflow Pytorch都還沒支援至少他用
的版本還沒

Susan2018-10-27

上面的速度純粹是cuda core數量造成的差距

James2018-10-27

啊還有HBM2

Irma2018-10-29

tensorCore不是用來加速矩陣運算的嗎?

Agatha2018-10-30

樓上 ML就是矩陣運算呀

Skylar Davis2018-11-04

可惜了，這麼好的特效至少要在2070下有60fps才會普
及化

Ingrid2018-11-05

這下連本來想買2070的都不用心動了xd

Margaret2018-11-05

還可以觀望一下優化不過大概再怎麼樣頂多2080 fhd
@60吧

Robert2018-11-09

優化完納下一代要賣啥? 別鬧了
這代在硬體上這麼激進下一代就是製程或是優化

Olga2018-11-11

對耶，G80之後的改進的G92價格便宜點，
然後下一代GT200核心就非常好了，
無論是DX10還是PPU

Vanessa2018-11-14

蘿拉怎麼變醜了？！

Selena2018-11-17

用fp16沒問題，是1080ti的fp16沒強化
所以無法發揮更好功耗

Kumar2018-11-19

為什麼回來就發現被抓出來鞭惹QQ