請問 CUDA 每個 block 可使用多少 shar … - 顯卡

By Hazel
at 2010-06-03T01:10
at 2010-06-03T01:10
Table of Contents
※ 引述《jk21234 ( 1569 11 /47)》之銘言:
: ※ 引述《mself (mself)》之銘言:
: : 就我瞭解,SM 跟 block 有對應,但好像不是 1 對 1,
: : 數個 block 會一起在一個 SM 上輪流執行,
: 所以,SM和Block在"某個時段內,獨佔的1:1執行"
: 如果你覺得不容易理解,它還蠻接近一顆cpu執行多工的方式.
: 切換也應該是context switch.有同樣的缺點就是切換再怎麼頻繁,
: 對幾百MHZ的晶片來說,都是巨大的效能損失.....
: (如果我沒記錯,cuda文件有描述context switch部分...)
: 所以也不用擔心你在程式中使用不到16KB的shared memory.
來閒扯一下他背後的運作,就 GT200 系列來說
每個 SM 在 resource 允許的情況下,最多能同時保持 1,024 個 computing threads
且每次 SM 最多只允許抓取 8 個 blocks,且不能超過 resource limitation
每個 block 內會有許多許多 computing threads,在實際執行時,會動態切出 warps
每個 full warp 會有 32 個 computing threads,而 warp 是 SM 每次實際執行的單位
由於每個 SM 只有 8 個 SP(先不提 SFU),故需要以連續 4 個 cycles 來做
被排程(這個排程很接近RR,詳見 US Patent US2007/0214343A1)到之 warp 的
一道指令(通通都做同一道,可以把 warp 視為一個 SIMD group)。當這道指令做完
dispatch unit 會排下一個 warp 來執行(不一定是同一個),可以視為 fine-grain
multithreading。(ATi 的作法比較接近 coarse-grain)
根據用 OpenCL 測試的結果,每個 SM 上,大概要同時保持 512 個 threads
才能達到最好的效能。而在 GPU 中,context switch 的 overhead 比起 OS 低很多~~
因為 GPU 中利用非常龐大的 Register file 來 keep 所有 in-flight data,所以對
GPU 來說,context switch 只是切換一下用的 register set 就沒事了~~~
回到正題,shared memory 如果需求的量超過,是沒辦法被執行的,只能等到在 SM 中
的工作都做完,resource release 了才行~~~
: : 視 register 用量,以及 thread 數上限而定
: : 假設現在是 8 個 block 在 1 個 SM 上輪流執行
: : 是不是每個 block 只能有 2 KB shared memory 呢?
: : 還是說每個 block 都能用滿 16 KB,但不是正在執行的 block
: : 的 shared memory (context) 會 switch 到 global memory
: : 要執行時在 switch 回來呢?
--
--
: ※ 引述《mself (mself)》之銘言:
: : 就我瞭解,SM 跟 block 有對應,但好像不是 1 對 1,
: : 數個 block 會一起在一個 SM 上輪流執行,
: 所以,SM和Block在"某個時段內,獨佔的1:1執行"
: 如果你覺得不容易理解,它還蠻接近一顆cpu執行多工的方式.
: 切換也應該是context switch.有同樣的缺點就是切換再怎麼頻繁,
: 對幾百MHZ的晶片來說,都是巨大的效能損失.....
: (如果我沒記錯,cuda文件有描述context switch部分...)
: 所以也不用擔心你在程式中使用不到16KB的shared memory.
來閒扯一下他背後的運作,就 GT200 系列來說
每個 SM 在 resource 允許的情況下,最多能同時保持 1,024 個 computing threads
且每次 SM 最多只允許抓取 8 個 blocks,且不能超過 resource limitation
每個 block 內會有許多許多 computing threads,在實際執行時,會動態切出 warps
每個 full warp 會有 32 個 computing threads,而 warp 是 SM 每次實際執行的單位
由於每個 SM 只有 8 個 SP(先不提 SFU),故需要以連續 4 個 cycles 來做
被排程(這個排程很接近RR,詳見 US Patent US2007/0214343A1)到之 warp 的
一道指令(通通都做同一道,可以把 warp 視為一個 SIMD group)。當這道指令做完
dispatch unit 會排下一個 warp 來執行(不一定是同一個),可以視為 fine-grain
multithreading。(ATi 的作法比較接近 coarse-grain)
根據用 OpenCL 測試的結果,每個 SM 上,大概要同時保持 512 個 threads
才能達到最好的效能。而在 GPU 中,context switch 的 overhead 比起 OS 低很多~~
因為 GPU 中利用非常龐大的 Register file 來 keep 所有 in-flight data,所以對
GPU 來說,context switch 只是切換一下用的 register set 就沒事了~~~
回到正題,shared memory 如果需求的量超過,是沒辦法被執行的,只能等到在 SM 中
的工作都做完,resource release 了才行~~~
: : 視 register 用量,以及 thread 數上限而定
: : 假設現在是 8 個 block 在 1 個 SM 上輪流執行
: : 是不是每個 block 只能有 2 KB shared memory 呢?
: : 還是說每個 block 都能用滿 16 KB,但不是正在執行的 block
: : 的 shared memory (context) 會 switch 到 global memory
: : 要執行時在 switch 回來呢?
--
--
Tags:
顯卡
All Comments

By James
at 2010-06-05T03:34
at 2010-06-05T03:34

By Edwina
at 2010-06-09T19:27
at 2010-06-09T19:27

By Kelly
at 2010-06-10T19:33
at 2010-06-10T19:33

By Una
at 2010-06-11T07:18
at 2010-06-11T07:18

By Carolina Franco
at 2010-06-12T19:59
at 2010-06-12T19:59

By Hedwig
at 2010-06-15T03:37
at 2010-06-15T03:37

By Isabella
at 2010-06-17T20:05
at 2010-06-17T20:05

By Ingrid
at 2010-06-21T02:41
at 2010-06-21T02:41

By Charlie
at 2010-06-22T02:34
at 2010-06-22T02:34

By Genevieve
at 2010-06-22T21:32
at 2010-06-22T21:32

By Lily
at 2010-06-24T23:24
at 2010-06-24T23:24

By Callum
at 2010-06-25T01:47
at 2010-06-25T01:47

By Oliver
at 2010-06-25T16:37
at 2010-06-25T16:37

By Harry
at 2010-06-30T05:42
at 2010-06-30T05:42

By Tom
at 2010-07-01T22:40
at 2010-07-01T22:40
Related Posts
請問 CUDA 每個 block 可使用多少 shar …

By Sierra Rose
at 2010-06-03T00:49
at 2010-06-03T00:49
請問顯卡該買哪一張?

By Lydia
at 2010-06-03T00:20
at 2010-06-03T00:20
請問 CUDA 每個 block 可使用多少 shar …

By Skylar DavisLinda
at 2010-06-03T00:04
at 2010-06-03T00:04
清理風扇

By George
at 2010-06-02T23:35
at 2010-06-02T23:35
買顯示卡可以買過保的嗎..

By Zora
at 2010-06-02T23:32
at 2010-06-02T23:32