請問 CUDA 每個 block 可使用多少 shar … - 顯卡

Hazel avatar
By Hazel
at 2010-06-03T01:10

Table of Contents

※ 引述《jk21234 ( 1569 11 /47)》之銘言:
: ※ 引述《mself (mself)》之銘言:
: : 就我瞭解,SM 跟 block 有對應,但好像不是 1 對 1,
: : 數個 block 會一起在一個 SM 上輪流執行,
: 所以,SM和Block在"某個時段內,獨佔的1:1執行"
: 如果你覺得不容易理解,它還蠻接近一顆cpu執行多工的方式.
: 切換也應該是context switch.有同樣的缺點就是切換再怎麼頻繁,
: 對幾百MHZ的晶片來說,都是巨大的效能損失.....
: (如果我沒記錯,cuda文件有描述context switch部分...)
: 所以也不用擔心你在程式中使用不到16KB的shared memory.

來閒扯一下他背後的運作,就 GT200 系列來說

每個 SM 在 resource 允許的情況下,最多能同時保持 1,024 個 computing threads

且每次 SM 最多只允許抓取 8 個 blocks,且不能超過 resource limitation

每個 block 內會有許多許多 computing threads,在實際執行時,會動態切出 warps

每個 full warp 會有 32 個 computing threads,而 warp 是 SM 每次實際執行的單位

由於每個 SM 只有 8 個 SP(先不提 SFU),故需要以連續 4 個 cycles 來做

被排程(這個排程很接近RR,詳見 US Patent US2007/0214343A1)到之 warp 的

一道指令(通通都做同一道,可以把 warp 視為一個 SIMD group)。當這道指令做完

dispatch unit 會排下一個 warp 來執行(不一定是同一個),可以視為 fine-grain

multithreading。(ATi 的作法比較接近 coarse-grain)

根據用 OpenCL 測試的結果,每個 SM 上,大概要同時保持 512 個 threads

才能達到最好的效能。而在 GPU 中,context switch 的 overhead 比起 OS 低很多~~

因為 GPU 中利用非常龐大的 Register file 來 keep 所有 in-flight data,所以對

GPU 來說,context switch 只是切換一下用的 register set 就沒事了~~~

回到正題,shared memory 如果需求的量超過,是沒辦法被執行的,只能等到在 SM 中

的工作都做完,resource release 了才行~~~

: : 視 register 用量,以及 thread 數上限而定
: : 假設現在是 8 個 block 在 1 個 SM 上輪流執行
: : 是不是每個 block 只能有 2 KB shared memory 呢?
: : 還是說每個 block 都能用滿 16 KB,但不是正在執行的 block
: : 的 shared memory (context) 會 switch 到 global memory
: : 要執行時在 switch 回來呢?

--

--
Tags: 顯卡

All Comments

James avatar
By James
at 2010-06-05T03:34
Block/SM內切換thread很快,不過我說的是比較上層的東西
也就是同一個SM去切換不同的Block,這個應當沒那麼快...
Edwina avatar
By Edwina
at 2010-06-09T19:27
就我對它的了解,只要在resource允許情況下,看起來沒差…
Kelly avatar
By Kelly
at 2010-06-10T19:33
但是,block內之threads需要能sync,碰到需要sync的比較傷
Una avatar
By Una
at 2010-06-11T07:18
它文件有暗示,就是說同一張顯卡跑兩個GPGPU程式比較不好.
Carolina Franco avatar
By Carolina Franco
at 2010-06-12T19:59
除了sync問題之外,SM切換執行不同的blocyk可能沒那麼快
Hedwig avatar
By Hedwig
at 2010-06-15T03:37
跑不同kernel,似乎是scheduling的問題,但是我沒實際試過
Fermi whitepaper 上有提到多個 kernel 時排程的改進~~
Isabella avatar
By Isabella
at 2010-06-17T20:05
fermi的sync應該是大有改進,否則也無法對應OO化的程式需求
Ingrid avatar
By Ingrid
at 2010-06-21T02:41
以前的硬體不適合multiprogram,也可能是sync的問題
Charlie avatar
By Charlie
at 2010-06-22T02:34
拿之前跑的數據算了一下,切block效能影響是有,但有限~~
只要讓每個block保持>=64 threads,切換 block 對效能的
影響,大概只有10ns不到…
Genevieve avatar
By Genevieve
at 2010-06-22T21:32
不過切出多個block通常都是資源量擺不進,如果還塞的下就沒
Lily avatar
By Lily
at 2010-06-24T23:24
必要去分出更多的block,效率上應該會差很多
Callum avatar
By Callum
at 2010-06-25T01:47
切block,我用OpenCL在GTX285上測,感覺效率影響不明顯:~~
Oliver avatar
By Oliver
at 2010-06-25T16:37
反而是要怎麼找到上百個threads在同一個SM上run比較麻煩
Harry avatar
By Harry
at 2010-06-30T05:42
不過如果block切太少,反而造成有SM idle這樣不更慘?:~~
Tom avatar
By Tom
at 2010-07-01T22:40
還沒有顯卡有100個SM以上.所以沒差...

請問 CUDA 每個 block 可使用多少 shar …

Sierra Rose avatar
By Sierra Rose
at 2010-06-03T00:49
※ 引述《mself (mself)》之銘言: : ※ 引述《jk21234 ( 1569 11 /47)》之銘言: : : SM跟Block一對一 一個是硬體性質一個是軟體定義 : : 所以每個SM/Block能用的Shared memory都一樣是16KB. : : 放1024個block在比如說16個S ...

請問顯卡該買哪一張?

Lydia avatar
By Lydia
at 2010-06-03T00:20
大家好 我的電腦是桌機 昨天使用時突然瑩幕瞬間暗下來 暗到只有湊到很近才勉強看得到還有一些些畫面 我將瑩幕換到別台電腦去試,瑩幕是好的 那應該是顯卡壞了對吧? 我電腦用4年,心想一直都有在操顯卡 也差不多該換了 我是重度adobe系列的使用者 偶爾也會使用3d max 不玩電動 希望能請教大家該換那一塊比較 ...

請問 CUDA 每個 block 可使用多少 shar …

Skylar DavisLinda avatar
By Skylar DavisLinda
at 2010-06-03T00:04
※ 引述《jk21234 ( 1569 11 /47)》之銘言: : ※ 引述《mself (mself)》之銘言: : : NVIDIA 一張顯卡上有 1~20 個 stream multiprocessor (SM),視顯卡型號而異 : : 每個 SM 有 16KB 大小的 shared memory : ...

清理風扇

George avatar
By George
at 2010-06-02T23:35
我好想清理我的9800GT TOP的風扇阿... 可是有三顆螺絲藏在櫻花妹的貼紙底下... 櫻花妹撕下來會不會破壞保固阿? 有人這麼做過嗎? - ...

買顯示卡可以買過保的嗎..

Zora avatar
By Zora
at 2010-06-02T23:32
8400gs 又壞了..邊閃螢幕邊打字中.. 修了3.4次..保固中我也不想修了 想上網挑張二手卡做做報告..偶爾玩玩休閒的網路遊戲之類的(跑跑.爆爆王之類的) 有人有推薦兩千以下的卡嗎 新舊都可.. 我看有很多不錯的 可是都已經過保了 買過保的ok嗎.. 謝謝回覆 - ...