Nvidia探索將多GPU封裝到一塊:輕鬆打破 - 3C

Cara avatar
By Cara
at 2017-07-04T19:46

Table of Contents

Nvidia探索將多GPU封裝到一塊:輕鬆打破舊架構極限

http://www.cnbeta.com/articles/tech/628297.htm

商業計算、可選研究、以及4K多屏遊戲等需求,不斷推升著對現代GPU的性能需求。根據
一份近期的研究報告,Nvidia認為正在迅速接近當前GPU架構模型的極限,因此需要尋找
新的方法去攻堅。當前這個想法仍處於模擬階段,但文中提到的“多芯片模塊GPU”(
MCM-GPU)的概念,有望最終將多顆GPU模塊整合到一處。

在意識到Nvidia 將很快難以通過當前架構榨取GPU 性能之後,亞利桑那州立大學、英偉
達、德州大學奧斯汀分校、以及巴塞羅那超算中心攜手展開了研究。

此前,廠商還可以通過在每次製程迭代時堆積更多的流處理器來提升GPU 性能。但遺憾的
是,在單一模塊中塞入更多晶體管的方法,已經變得越來越困難。

以Nvidia V100 GPU 為例,其已經需要代工廠商(台積電)將製程推到12nm 的極限。此
外,製造規模越來越大的模塊,其成本和相關問題也不可忽視(比如因製造錯誤遇到的數
量減少)。

雖然Nvidia 可以通過將多顆GPU 裝在一塊PCB 上的方式來提升顯卡性能(比如Tesla
K10 和K80),但當前仍有一些未能解決的問題—— 比如跨多GPU 的任務分配就需要編程
來提升硬件效率。

於是研究人員們另闢蹊徑,決定在封裝技術上尋找新方法,讓Nvidia 可以將多個GPU 模
塊(GPMs)封裝到一塊。這些GPMs 比當代GPU 要小一些,製造起來也更容易和便宜。

儘管人們對其性能仍有疑問,但研究人員聲稱近期基板技術的發展(PDF)已經能夠幫助
其部署一種快速、強健的模塊通信互聯架構。從理論上來講,其帶寬可達數TB/s 。

在Nvidia 內部GPU 模擬中,研究團隊將MCM-GPU 堆到了256 組SMs,而Pascal 架構僅為
56 組SMs 。然後團隊基於當前架構進行了預測,結果顯示MCM-GPU 可提速45.5% 。

此外,在同一板子上進行的多GPU性能對比表明,MCM-GPU有26.8%的領先優勢。最後,有
消息稱AMD公司也有類似的點子(基於Navi GPU)。

--

GPU也即將邁入大膠水時代?

--
Tags: 3C

All Comments

Wallis avatar
By Wallis
at 2017-07-09T10:07
nvidia也懂膠水?
Freda avatar
By Freda
at 2017-07-13T23:41
會不會以後整個PCB版就一堆東西粘起來的?
James avatar
By James
at 2017-07-15T06:13
說AMD引領世界潮流真的不是開玩笑der
Aaliyah avatar
By Aaliyah
at 2017-07-15T10:37
我有能力評論我就不會上這個板了
Frederica avatar
By Frederica
at 2017-07-17T12:29
AMD之前講的INFINITY FABRIC不就是膠水惹
Ethan avatar
By Ethan
at 2017-07-19T22:37
最理想還是3dic 只是還做不出來
Joseph avatar
By Joseph
at 2017-07-21T10:09
GPU 膠水的難度比較高吧
Barb Cronin avatar
By Barb Cronin
at 2017-07-25T18:47
新架構生出來之前,先膠水sli檔一下。
Linda avatar
By Linda
at 2017-07-28T03:42
GPU的膠水會不會同等於內部SLI??
Sierra Rose avatar
By Sierra Rose
at 2017-07-28T08:40
膠水
Margaret avatar
By Margaret
at 2017-07-31T21:13
3dfx那個比較炫
Lily avatar
By Lily
at 2017-08-02T15:25
跟C2D有87% 像
Susan avatar
By Susan
at 2017-08-04T08:57
封一起跟外部雙GPU還是有差
Edward Lewis avatar
By Edward Lewis
at 2017-08-08T09:31
Pentium pro表示:比膠水,嗯哼
Cara avatar
By Cara
at 2017-08-12T09:21
大膠水時代要來臨惹嗎
Gilbert avatar
By Gilbert
at 2017-08-13T07:23
Pentium D:哼哼
Eden avatar
By Eden
at 2017-08-13T23:00
GPU膠水應該比較困難。否則AMD早就用了
Lucy avatar
By Lucy
at 2017-08-14T23:43
一般遊戲用戶大概也沒在擔心製程面積上限。
因為連GG都覺的很硬的超大Die很少人買的起
Victoria avatar
By Victoria
at 2017-08-19T00:23
HBM用的interposer不知道能不能解決問題
Bethany avatar
By Bethany
at 2017-08-19T01:50
印象中交火效率大於SLI?! A家軟體優勢大些?
Connor avatar
By Connor
at 2017-08-22T23:38
這應該不是傳統SLI
Eartha avatar
By Eartha
at 2017-08-25T09:26
GPU一堆pipeline怎麼黏啊
William avatar
By William
at 2017-08-28T11:43
Die連外的頻寬做到超高是很有可能。
但不同Die吃不同記憶體,很難有效率。
因為多GPU繪圖常常不是真的完全各算各的。
遊戲優化常是把運算切成好幾個frame算。
Ingrid avatar
By Ingrid
at 2017-08-28T21:04
pipeline還不算是問題,要能夠sync才是問題
應該說,要能夠sync又有效率就變成問題
Ivy avatar
By Ivy
at 2017-09-01T18:19
多GPU就變成GPU1算完,得丟給GPU2
Vanessa avatar
By Vanessa
at 2017-09-02T14:13
但兩GPU各自有自己記憶體自己的頻寬
資料傳來傳去就常常要等待。
Liam avatar
By Liam
at 2017-09-05T00:58
大膠水時代
Isabella avatar
By Isabella
at 2017-09-09T17:10
Crossfire的fps浮動值比較大,所以要說真的比較好也
Hedwig avatar
By Hedwig
at 2017-09-12T06:12
不算
Emily avatar
By Emily
at 2017-09-16T10:27
不像挖礦是多GPU毫無交流。
Adele avatar
By Adele
at 2017-09-17T00:36
如果是專門用來深度學習呢?這樣就比較不怕延遲
Frederica avatar
By Frederica
at 2017-09-19T17:51
應該說如果現行 multi-GPU 沒問題的話 膠水應該就行
Ina avatar
By Ina
at 2017-09-22T07:34
如果是為深度學習有需要黏嗎?
既然不介意延遲,直接多插幾張卡就好。
Kama avatar
By Kama
at 2017-09-25T04:20
不能一塊gpu分別算一個角落嗎?
Carolina Franco avatar
By Carolina Franco
at 2017-09-27T15:37
這之前kuma大有講解過,現在rendering算法連續兩張
圖片並不是獨立運算的
Agatha avatar
By Agatha
at 2017-09-30T08:57
會想搞膠水就是多卡多晶片不能解決的情況
Quintina avatar
By Quintina
at 2017-10-02T22:58
應該說繪圖大部分是獨立運算,但是
有一部分為了優化省效能,反而是不太獨立。
Harry avatar
By Harry
at 2017-10-04T20:59
你這frame的反射貼圖可能是上個frame算的
Steve avatar
By Steve
at 2017-10-05T18:51
不是所有即時素材都需每個frame從0開始
Kelly avatar
By Kelly
at 2017-10-08T01:07
的魔法輸
Ula avatar
By Ula
at 2017-10-08T03:11
單GPU素材擺在自己幾百GB/s的VRAM
Caitlin avatar
By Caitlin
at 2017-10-13T01:27
多GPU就糗了某些素材在另一PCIE顯卡那
Valerie avatar
By Valerie
at 2017-10-15T16:02
印象中3d算圖平行運算是切成一塊一塊再組合一張圖
Aaliyah avatar
By Aaliyah
at 2017-10-18T19:23
繪圖平行運算有很多種分配方式。
Oliver avatar
By Oliver
at 2017-10-21T00:22
這樣說起來,如果膠水之後是用同一個VRAM有搞頭囉?
Enid avatar
By Enid
at 2017-10-24T18:02
如果是那樣,兩晶片共用VRAM又怕頻寬不足
Eden avatar
By Eden
at 2017-10-26T23:24
剛剛查了一下 https://goo.gl/cP8hfS
目前 GDDR5 是 28GB/s,HBM 是 100GB/s
如果真的用上 HBM,頻寬問題應該可以克服?
Suhail Hany avatar
By Suhail Hany
at 2017-10-28T03:11
Xbox360的Ati晶片示範過pipeline上下切。
它把跟大頻寬有關的ROPs跟eDram做在一起
Callum avatar
By Callum
at 2017-10-31T13:12
所以它的eDram不只是記憶體,也有部分
GPU的功能。
Margaret avatar
By Margaret
at 2017-11-01T09:31
那種做法就不擔心工作分配的問題。
但兩邊都不是完整GPU,合起來才能運作。
Skylar Davis avatar
By Skylar Davis
at 2017-11-05T12:41
不知道成本如何
Blanche avatar
By Blanche
at 2017-11-08T15:24
如果能把ROP和SP切開的話 運算卡和遊戲卡部分晶片
或許能夠共用?
Linda avatar
By Linda
at 2017-11-08T19:14
這是nvidia research發表的學術論文
Sierra Rose avatar
By Sierra Rose
at 2017-11-11T20:57
原文是公開的 可以從research.nvidia.com下載
Sierra Rose avatar
By Sierra Rose
at 2017-11-15T14:03
原文連結 https://goo.gl/rxyTjD
Daniel avatar
By Daniel
at 2017-11-18T06:12
我不是業內人士 不過瞄一下看起來是用理論模擬比較
Anonymous avatar
By Anonymous
at 2017-11-20T16:59
膠水做在晶片上 封裝上 pcb板上 還是不同卡之間
Olga avatar
By Olga
at 2017-11-25T08:58
的效率跟能耗 不過似乎沒講怎樣實作(商業機密? XD)
Leila avatar
By Leila
at 2017-11-26T05:31
膠水大戰
William avatar
By William
at 2017-11-30T21:07
大家一起膠起來!
Kama avatar
By Kama
at 2017-12-05T01:34
大罐膠水!!!!
David avatar
By David
at 2017-12-08T11:00
原來是膠水xd
Emma avatar
By Emma
at 2017-12-09T08:10
膠水
Madame avatar
By Madame
at 2017-12-09T09:59
Intel才是專家吧
Christine avatar
By Christine
at 2017-12-11T16:45
這個就去年在nv research實習的學生和裡面大頭寫的
Olivia avatar
By Olivia
at 2017-12-12T08:53
paper阿,看到有Aamer Jaleel就知道應該會上吧XD
Una avatar
By Una
at 2017-12-16T21:58
這種通常都是C++模器跑一跑,沒有真的跑rtl電路
Franklin avatar
By Franklin
at 2017-12-18T01:27
以後顯卡也雙核心,好像蠻強的
Olivia avatar
By Olivia
at 2017-12-21T23:54
Paper的MCM畫法每內核還是各自有記憶體
資料分開放。各GPU再透過bus交換資料。
是用數位模擬推測MCM-GPU的優勢。
沒有牽涉到實際晶片製作與製程。
Lucy avatar
By Lucy
at 2017-12-22T09:14
由於多顆GPM模組之間頻寬仍遠輸大晶片
內部頻寬,研究重點在用設計去減少聯外需求
Anthony avatar
By Anthony
at 2017-12-25T10:46
當然這inter-GPM互訪頻寬是遠高於PCIE
Olga avatar
By Olga
at 2017-12-28T01:16
所以想做遠超過800mm2例如2000mm2
連輪班星人與i星人都會吐血的尺寸時
Kumar avatar
By Kumar
at 2018-01-01T07:11
MCM就有他市場在....如果有人買得起...
感覺這還遙遠,研究目的是未來摩爾定律死掉
Bennie avatar
By Bennie
at 2018-01-04T06:22
製程無法進化,DieSize也難以進化的時代
Eartha avatar
By Eartha
at 2018-01-05T06:33
短期內10~8~7~5nm製程應該還有不少餘地
Ursula avatar
By Ursula
at 2018-01-08T16:58
如果那一天到來,大概多卡多GPU也成熟了
Andrew avatar
By Andrew
at 2018-01-12T11:50
就像以前覺得CPU單核超強才是王道。
Dinah avatar
By Dinah
at 2018-01-15T22:46
當單核效率難以寸進,軟體也被迫接受多核
只是那普及時間有點久....
Sandy avatar
By Sandy
at 2018-01-16T18:05
模擬4GPM封裝的Dram總頻寬3TB/s等級。

25k 遊戲機

Quintina avatar
By Quintina
at 2017-07-04T18:50
已買/未買/已付訂金(元):未買 預算/用途:25k,劍靈or黑沙等OLG遊戲機 CPU (中央處理器):R5 1400(和MB搭機價) MB (主機板):ASUS prime B350M-A RAM (記憶體):創見JetRam 8G VGA (顯示卡):MSI gtx1060 AERO 3G HDD ...

NVIDIA GTX 1060 顯卡哪裡還有貨?

William avatar
By William
at 2017-07-04T18:00
新竹 NOVA,pchome/momo 上面都沒貨了,請問哪邊還有貨呢? - ...

舊電腦有辦法部分升級嗎 M4A77TD

Rae avatar
By Rae
at 2017-07-04T17:58
CPU (中央處理器):AMD Athlon™ Ⅱ X4 620 Processor , 2600Mhz ,4個核心,4個邏 輯處理器 MB (主機板):ASUS M4A77TD RAM (記憶體):8GB (DDR3的吧?!) VGA (顯示卡):NVIDIA GeForce GT ...

開箱 Superchannel 全透側自由戰士組機

Audriana avatar
By Audriana
at 2017-07-04T17:35
看到不少人都開了,也來跟風弄個一咖平價透側自由戰士 順便幫暑假吵著要打熾焰的姪子組台新機 本來是要買酷碼Lite 5 不過對方要預留光碟槽就Pass了 ▼▼組機零件▼▼ http://i.imgur.com/sCeNTun.jpg Core i5 7400 SanDisk X400 ASUS PRIME B ...

30k 鬥陣機

Yuri avatar
By Yuri
at 2017-07-04T17:19
已買/未買/已付訂金(元): 未買 預算/用途: 30k (OW為主) CPU (中央處理器):AMD Ryzen 5 1600 (高興價) MB (主機板):華碩 STRIX B350-F GAMING (高興價) RAM (記憶體):美光 DDR4 2400/16G(8G* ...