Nvidia探索將多GPU封裝到一塊：輕鬆打破 - 3C

Cara · 2017-07-04

Table of Contents

Post
Comments
Related Posts

Nvidia探索將多GPU封裝到一塊：輕鬆打破舊架構極限

http://www.cnbeta.com/articles/tech/628297.htm

商業計算、可選研究、以及4K多屏遊戲等需求，不斷推升著對現代GPU的性能需求。根據
一份近期的研究報告，Nvidia認為正在迅速接近當前GPU架構模型的極限，因此需要尋找
新的方法去攻堅。當前這個想法仍處於模擬階段，但文中提到的“多芯片模塊GPU”（
MCM-GPU）的概念，有望最終將多顆GPU模塊整合到一處。

在意識到Nvidia 將很快難以通過當前架構榨取GPU 性能之後，亞利桑那州立大學、英偉
達、德州大學奧斯汀分校、以及巴塞羅那超算中心攜手展開了研究。

此前，廠商還可以通過在每次製程迭代時堆積更多的流處理器來提升GPU 性能。但遺憾的
是，在單一模塊中塞入更多晶體管的方法，已經變得越來越困難。

以Nvidia V100 GPU 為例，其已經需要代工廠商（台積電）將製程推到12nm 的極限。此
外，製造規模越來越大的模塊，其成本和相關問題也不可忽視（比如因製造錯誤遇到的數
量減少）。

雖然Nvidia 可以通過將多顆GPU 裝在一塊PCB 上的方式來提升顯卡性能（比如Tesla
K10 和K80），但當前仍有一些未能解決的問題—— 比如跨多GPU 的任務分配就需要編程
來提升硬件效率。

於是研究人員們另闢蹊徑，決定在封裝技術上尋找新方法，讓Nvidia 可以將多個GPU 模
塊（GPMs）封裝到一塊。這些GPMs 比當代GPU 要小一些，製造起來也更容易和便宜。

儘管人們對其性能仍有疑問，但研究人員聲稱近期基板技術的發展（PDF）已經能夠幫助
其部署一種快速、強健的模塊通信互聯架構。從理論上來講，其帶寬可達數TB/s 。

在Nvidia 內部GPU 模擬中，研究團隊將MCM-GPU 堆到了256 組SMs，而Pascal 架構僅為
56 組SMs 。然後團隊基於當前架構進行了預測，結果顯示MCM-GPU 可提速45.5% 。

此外，在同一板子上進行的多GPU性能對比表明，MCM-GPU有26.8%的領先優勢。最後，有
消息稱AMD公司也有類似的點子（基於Navi GPU）。

--

GPU也即將邁入大膠水時代？

--

All Comments

Wallis2017-07-09

nvidia也懂膠水?

Freda2017-07-13

會不會以後整個PCB版就一堆東西粘起來的？

James2017-07-15

說AMD引領世界潮流真的不是開玩笑der

Aaliyah2017-07-15

我有能力評論我就不會上這個板了

Frederica2017-07-17

AMD之前講的INFINITY FABRIC不就是膠水惹

Ethan2017-07-19

最理想還是3dic 只是還做不出來

Joseph2017-07-21

GPU 膠水的難度比較高吧

Barb Cronin2017-07-25

新架構生出來之前，先膠水sli檔一下。

Linda2017-07-28

GPU的膠水會不會同等於內部SLI??

Sierra Rose2017-07-28

膠水

Margaret2017-07-31

3dfx那個比較炫

Lily2017-08-02

跟C2D有87% 像

Susan2017-08-04

封一起跟外部雙GPU還是有差

Edward Lewis2017-08-08

Pentium pro表示：比膠水，嗯哼

Cara2017-08-12

大膠水時代要來臨惹嗎

Gilbert2017-08-13

Pentium D:哼哼

Eden2017-08-13

GPU膠水應該比較困難。否則AMD早就用了

Lucy2017-08-14

一般遊戲用戶大概也沒在擔心製程面積上限。
因為連GG都覺的很硬的超大Die很少人買的起

Victoria2017-08-19

HBM用的interposer不知道能不能解決問題

Bethany2017-08-19

印象中交火效率大於SLI？！ A家軟體優勢大些？

Connor2017-08-22

這應該不是傳統SLI

Eartha2017-08-25

GPU一堆pipeline怎麼黏啊

William2017-08-28

Die連外的頻寬做到超高是很有可能。
但不同Die吃不同記憶體，很難有效率。
因為多GPU繪圖常常不是真的完全各算各的。
遊戲優化常是把運算切成好幾個frame算。

Ingrid2017-08-28

pipeline還不算是問題，要能夠sync才是問題
應該說，要能夠sync又有效率就變成問題

Ivy2017-09-01

多GPU就變成GPU1算完,得丟給GPU2

Vanessa2017-09-02

但兩GPU各自有自己記憶體自己的頻寬
資料傳來傳去就常常要等待。

Liam2017-09-05

大膠水時代

Isabella2017-09-09

Crossfire的fps浮動值比較大，所以要說真的比較好也

Hedwig2017-09-12

不算

Emily2017-09-16

不像挖礦是多GPU毫無交流。

Adele2017-09-17

如果是專門用來深度學習呢？這樣就比較不怕延遲

Frederica2017-09-19

應該說如果現行 multi-GPU 沒問題的話膠水應該就行

Ina2017-09-22

如果是為深度學習有需要黏嗎?
既然不介意延遲，直接多插幾張卡就好。

Kama2017-09-25

不能一塊gpu分別算一個角落嗎？

Carolina Franco2017-09-27

這之前kuma大有講解過，現在rendering算法連續兩張
圖片並不是獨立運算的

Agatha2017-09-30

會想搞膠水就是多卡多晶片不能解決的情況

Quintina2017-10-02

應該說繪圖大部分是獨立運算，但是
有一部分為了優化省效能，反而是不太獨立。

Harry2017-10-04

你這frame的反射貼圖可能是上個frame算的

Steve2017-10-05

不是所有即時素材都需每個frame從0開始

Kelly2017-10-08

的魔法輸

Ula2017-10-08

單GPU素材擺在自己幾百GB/s的VRAM

Caitlin2017-10-13

多GPU就糗了某些素材在另一PCIE顯卡那

Valerie2017-10-15

印象中3d算圖平行運算是切成一塊一塊再組合一張圖

Aaliyah2017-10-18

繪圖平行運算有很多種分配方式。

Oliver2017-10-21

這樣說起來，如果膠水之後是用同一個VRAM有搞頭囉？

Enid2017-10-24

如果是那樣，兩晶片共用VRAM又怕頻寬不足

Eden2017-10-26

剛剛查了一下 https://goo.gl/cP8hfS
目前 GDDR5 是 28GB/s，HBM 是 100GB/s
如果真的用上 HBM，頻寬問題應該可以克服？

Suhail Hany2017-10-28

Xbox360的Ati晶片示範過pipeline上下切。
它把跟大頻寬有關的ROPs跟eDram做在一起

Callum2017-10-31

所以它的eDram不只是記憶體，也有部分
GPU的功能。

Margaret2017-11-01

那種做法就不擔心工作分配的問題。
但兩邊都不是完整GPU,合起來才能運作。

Skylar Davis2017-11-05

不知道成本如何

Blanche2017-11-08

如果能把ROP和SP切開的話運算卡和遊戲卡部分晶片
或許能夠共用?

Linda2017-11-08

這是nvidia research發表的學術論文

Sierra Rose2017-11-11

原文是公開的可以從research.nvidia.com下載

Sierra Rose2017-11-15

原文連結 https://goo.gl/rxyTjD

Daniel2017-11-18

我不是業內人士不過瞄一下看起來是用理論模擬比較

Anonymous2017-11-20

膠水做在晶片上封裝上 pcb板上還是不同卡之間

Olga2017-11-25

的效率跟能耗不過似乎沒講怎樣實作(商業機密? XD)

Leila2017-11-26

膠水大戰

William2017-11-30

大家一起膠起來！

Kama2017-12-05

大罐膠水!!!!

David2017-12-08

原來是膠水xd

Emma2017-12-09

膠水

Madame2017-12-09

Intel才是專家吧

Christine2017-12-11

這個就去年在nv research實習的學生和裡面大頭寫的

Olivia2017-12-12

paper阿，看到有Aamer Jaleel就知道應該會上吧XD

Una2017-12-16

這種通常都是C++模器跑一跑，沒有真的跑rtl電路

Franklin2017-12-18

以後顯卡也雙核心，好像蠻強的

Olivia2017-12-21

Paper的MCM畫法每內核還是各自有記憶體
資料分開放。各GPU再透過bus交換資料。
是用數位模擬推測MCM-GPU的優勢。
沒有牽涉到實際晶片製作與製程。

Lucy2017-12-22

由於多顆GPM模組之間頻寬仍遠輸大晶片
內部頻寬，研究重點在用設計去減少聯外需求

Anthony2017-12-25

當然這inter-GPM互訪頻寬是遠高於PCIE

Olga2017-12-28

所以想做遠超過800mm2例如2000mm2
連輪班星人與i星人都會吐血的尺寸時

Kumar2018-01-01

MCM就有他市場在....如果有人買得起...
感覺這還遙遠，研究目的是未來摩爾定律死掉

Bennie2018-01-04

製程無法進化，DieSize也難以進化的時代

Eartha2018-01-05

短期內10~8~7~5nm製程應該還有不少餘地

Ursula2018-01-08

如果那一天到來，大概多卡多GPU也成熟了

Andrew2018-01-12

就像以前覺得CPU單核超強才是王道。

Dinah2018-01-15

當單核效率難以寸進，軟體也被迫接受多核
只是那普及時間有點久....

Sandy2018-01-16

模擬4GPM封裝的Dram總頻寬3TB/s等級。

Nvidia探索將多GPU封裝到一塊：輕鬆打破 - 3C

All Comments

Related Posts