1660S x2 or 3070 組DL server - 3C

By Ina
at 2021-08-31T19:18
at 2021-08-31T19:18
Table of Contents
※ 引述《yoyololicon (十年魔乃粉)》之銘言:
: 乳題
: 最近想組個機器跑些DL的project
: 因為是自己玩玩的性質,所以都找些二手零件壓成本
: 用的是四代平台4790S + 8G 1866 x4,電供650w
: 最重要的顯卡預算大概是15k上下
: 目前最符合條件的感覺就3070
: 不過以前在學校跑DL的經驗,有兩顆gpu跑平行會快很多
: 所以想乾脆用兩隻1660S來組,記憶體還可以上到12G
: 但是就沒有Tensor core可以玩了qq,也不確定這樣組的效能是否可以追上3070
: 還請版友給個建議
最近版上出現一些深度學習配單,覺得有一些心得可以分享,省的走冤枉路
就來回一下舊文,我最後拿3070喇
先說結論,3060 cp值最高唯一推薦,再上去建議直接攻頂3090
大部分人買顯卡都很關心效能,所以我看到有些人會拿3070, 3060ti上來問
但是跑深度學習除了效能以外,VRAM大小以及資料讀取的IO時間都會影響training效率
VRAM影響能跑得模型大小、類型,或是能一次塞入的資料量,可以想成和運算量成正比;
而資料讀取的時間影響你能在多短的時間內拿到可以訓練的資料
從我去年11月買了3070後,這之間多多少少訓練過一些模型,算是有一些心得
觀察下來其實大部份的時間3070很難完全跑滿,看模型類型,有時甚至30,40%而已
為什麼沒有跑滿?因為卡在資料進來的速度,跟CPU,硬碟和主機板比較有關
但只要組的等級有到基本差別不大
而且這是已經優化過資料讀取的pipeline後的結果
沒辦法,只好增加顯卡的運算量,看能不能善用這些idle的時間
但這時就會發現,8 Gb的VRAM根本就小氣到不行,一下就塞滿了
相比之下,3060 12Gb就很值,雖然效能較差,但以3070完全效能過剩的表現來看
更有機會能發揮100%的效能
舉個實際的例子,小弟最近參加了一個跟AI相關的比賽,很幸運的撈到了銅牌
https://github.com/yoyololicon/music-demixing-challenge-ismir-2021-entry
其中一部分的模型就是用3070練出來的
為了讓GPU跑到滿,自己改了一個dataloader加速資料讀取速度、使用混合精度訓練
節省記憶體、將資料preprocessing改寫移植到GPU上讓它多一些運算
做了這麼多改動才好不容易讓GPU能跑在95% Orz
而且為了跑到預定的batch size大小,還得做gradient accumulation
如果有大VRAM就可以train比較無腦一些
大概醬
--
: 乳題
: 最近想組個機器跑些DL的project
: 因為是自己玩玩的性質,所以都找些二手零件壓成本
: 用的是四代平台4790S + 8G 1866 x4,電供650w
: 最重要的顯卡預算大概是15k上下
: 目前最符合條件的感覺就3070
: 不過以前在學校跑DL的經驗,有兩顆gpu跑平行會快很多
: 所以想乾脆用兩隻1660S來組,記憶體還可以上到12G
: 但是就沒有Tensor core可以玩了qq,也不確定這樣組的效能是否可以追上3070
: 還請版友給個建議
最近版上出現一些深度學習配單,覺得有一些心得可以分享,省的走冤枉路
就來回一下舊文,我最後拿3070喇
先說結論,3060 cp值最高唯一推薦,再上去建議直接攻頂3090
大部分人買顯卡都很關心效能,所以我看到有些人會拿3070, 3060ti上來問
但是跑深度學習除了效能以外,VRAM大小以及資料讀取的IO時間都會影響training效率
VRAM影響能跑得模型大小、類型,或是能一次塞入的資料量,可以想成和運算量成正比;
而資料讀取的時間影響你能在多短的時間內拿到可以訓練的資料
從我去年11月買了3070後,這之間多多少少訓練過一些模型,算是有一些心得
觀察下來其實大部份的時間3070很難完全跑滿,看模型類型,有時甚至30,40%而已
為什麼沒有跑滿?因為卡在資料進來的速度,跟CPU,硬碟和主機板比較有關
但只要組的等級有到基本差別不大
而且這是已經優化過資料讀取的pipeline後的結果
沒辦法,只好增加顯卡的運算量,看能不能善用這些idle的時間
但這時就會發現,8 Gb的VRAM根本就小氣到不行,一下就塞滿了
相比之下,3060 12Gb就很值,雖然效能較差,但以3070完全效能過剩的表現來看
更有機會能發揮100%的效能
舉個實際的例子,小弟最近參加了一個跟AI相關的比賽,很幸運的撈到了銅牌
https://github.com/yoyololicon/music-demixing-challenge-ismir-2021-entry
其中一部分的模型就是用3070練出來的
為了讓GPU跑到滿,自己改了一個dataloader加速資料讀取速度、使用混合精度訓練
節省記憶體、將資料preprocessing改寫移植到GPU上讓它多一些運算
做了這麼多改動才好不容易讓GPU能跑在95% Orz
而且為了跑到預定的batch size大小,還得做gradient accumulation
如果有大VRAM就可以train比較無腦一些
大概醬
--
Tags:
3C
All Comments

By Elvira
at 2021-09-04T21:50
at 2021-09-04T21:50

By Anonymous
at 2021-09-09T00:21
at 2021-09-09T00:21

By Quintina
at 2021-09-06T00:31
at 2021-09-06T00:31

By Lauren
at 2021-09-10T03:03
at 2021-09-10T03:03

By Daph Bay
at 2021-09-06T00:31
at 2021-09-06T00:31

By Necoo
at 2021-09-10T03:03
at 2021-09-10T03:03

By Blanche
at 2021-09-06T00:31
at 2021-09-06T00:31

By Connor
at 2021-09-10T03:03
at 2021-09-10T03:03
Related Posts
室友搬家 這台這價格可收嗎?

By Quanna
at 2021-08-31T19:15
at 2021-08-31T19:15
有點臭臭的MSI 3060開箱

By Sarah
at 2021-08-31T19:08
at 2021-08-31T19:08
SFX 金牌電供選擇

By Charlie
at 2021-08-31T19:01
at 2021-08-31T19:01
翼王教你如何查詢有可能的違法PSU產品

By Genevieve
at 2021-08-31T18:03
at 2021-08-31T18:03
Sn750 500g跟a2000 1000g的選擇?

By Kristin
at 2021-08-31T17:59
at 2021-08-31T17:59