?這顆用整個(gè)晶圓做的芯片,會(huì)是顛覆者嗎?
日期:2020-10-29 / 人氣: / 來(lái)源:
[概要說明]基于大型晶圓的機(jī)架和硅光子技術(shù)相結(jié)合的系統(tǒng)的未來(lái)發(fā)展并非無(wú)道理,這種技術(shù)可以解決熱量問題,并具有可分割,可擴(kuò)展且在合理的功率預(yù)算內(nèi)的真實(shí)通信。
長(zhǎng)期以來(lái)人們一直對(duì)晶圓級(jí)架構(gòu)持懷疑態(tài)度,這種懷疑可以追溯到幾十年前。出于商業(yè)或技術(shù)原因,僅有少數(shù)人做過相關(guān)嘗試,但他們都毫不例外地失敗了,當(dāng)中包括著名的Gene Amdah)。但是,除了適當(dāng)建立的半導(dǎo)體技術(shù)基礎(chǔ)之外,也許還缺少合適的時(shí)機(jī)。
如果您問Andrew Feldman,為什么晶圓級(jí)方法不那么普遍,他的回答很簡(jiǎn)單:他在Cerebras Systems的團(tuán)隊(duì)是唯一弄清楚如何真正做到這一點(diǎn)的人。在他看來(lái),沒有人能夠或?qū)⒁獓L試這個(gè),至少短期內(nèi)不會(huì)。
“我認(rèn)為沒有人能做到。我們花了五年的時(shí)間,我們還擁有龐大的專利產(chǎn)品組合。AI這一工作量將占總計(jì)算量的約三分之一。如果您看一下Google,他們已經(jīng)完成了大部分工作,看起來(lái)像是AI工作負(fù)載。此外,用于解決AI問題的計(jì)算量正以驚人的速度增長(zhǎng)。在接下來(lái)的三到五年中,數(shù)據(jù)中心中的更多工作將是AI或類似AI的工作,更多的難題將圍繞如何在數(shù)據(jù)中尋找見解。”
如果我們巧妙地越過專利組合的那薄弱的威脅,以及它對(duì) Cerebras 的可能性證明所鼓舞的潛在初創(chuàng)公司意味著什么,那么還會(huì)出現(xiàn)其他一些問題。首先,為什么以前沒有這項(xiàng)工作,其次,如果現(xiàn)在可能的話,為什么專業(yè)人士不這樣做呢?
“我們觀察了1984年Amdahl所做的晶圓級(jí)芯片,事實(shí)是,人們對(duì)此記憶猶新的的是芯片是如此之大,但他們其實(shí)從未真正看過它。當(dāng)時(shí)我們的行業(yè)還不那么成熟,所以肯定圍繞芯片制造工藝。但自那時(shí)以來(lái),我們已經(jīng)制造了成千上萬(wàn)的芯片。流程和體系結(jié)構(gòu)要好得多。我們?yōu)榫A規(guī)模選擇了一種架構(gòu),但Gene Amdahl沒有。我們?cè)噲D采用他喜歡的架構(gòu)并將其推廣到晶圓級(jí)。
他繼續(xù)說道:“我們能夠利用我們的架構(gòu)設(shè)計(jì)芯片并物理現(xiàn)實(shí)。我們要做的一件事是用超過40萬(wàn)個(gè)相同的塊構(gòu)建重復(fù)的圖塊設(shè)計(jì)。如果發(fā)生故障,我們可以解決。這是一個(gè)新發(fā)現(xiàn),它是如何結(jié)合已知的事實(shí),即存在缺陷的已知事實(shí)。這不是新事物;DRAM將位單元的行和列放在一邊,這就是他們獲得高良率的方式。但是直到我們這樣做之前,沒有人使用計(jì)算機(jī)來(lái)做到這一點(diǎn)。”
訣竅可能是做到這一點(diǎn)并擁有一個(gè)功能齊全、高效的系統(tǒng),但是,您不能只出售獨(dú)立的設(shè)備,并不是每個(gè)芯片制造商都希望負(fù)擔(dān)(盡管Nvidia的DGX機(jī)器可能反映出不同的東西)。從編譯器到冷卻的完整堆棧是唯一有意義的方法。這正是Feldman的公司Cerebras Systems正在推廣其CS-1系統(tǒng)的原因?;叵胍幌?,Cerebras今年通過其Wafer Scale Engine方法應(yīng)用于AI獲得了一些動(dòng)力,特別是在以研究為中心的站點(diǎn)上進(jìn)行了安裝,包括Lawrence Livermore國(guó)家實(shí)驗(yàn)室,Argonne國(guó)家實(shí)驗(yàn)室和匹茲堡超級(jí)計(jì)算中心。很難說出它們可能在企業(yè)或超大規(guī)模系統(tǒng)中的位置,但就目前而言,即使在純AI訓(xùn)練和推理之外。
我們必須假設(shè)英特爾和Nvidia的大量研究預(yù)算至少使該主題有了一些想法,尤其是在看到Cerebras證明了這一概念之后。也許他們確實(shí)找到了使所有片上電路都變得更重要的方法,更重要的是,編譯器成功地解決了這一問題,并發(fā)現(xiàn)盡管實(shí)用,但從經(jīng)濟(jì)上講不合算。也許那是因?yàn)槟荒軆H僅構(gòu)建要在2020-2025年的晶圓級(jí)游戲中使用的設(shè)備:整個(gè)系統(tǒng)必須以人類已知的最復(fù)雜的代碼簽名練習(xí)之一來(lái)構(gòu)建。大多數(shù)芯片制造商和加速器初創(chuàng)公司都不希望(或?qū)嶋H上不能)從事系統(tǒng)業(yè)務(wù),并且該設(shè)備的集成也不是典型的集成過程。
具有大量?jī)?nèi)核且可以超快速度通信的芯片有很多機(jī)會(huì),而這些都不是新鮮事物。除了AI,HPC領(lǐng)域(包括計(jì)算流體動(dòng)力學(xué))具有廣泛的商業(yè)價(jià)值,適合大規(guī)模使用信號(hào)處理等工作。開關(guān)芯片的想法更加萌芽,如果該行業(yè)已經(jīng)在使用一些最大的硅片,那么在更廣泛的可行范圍內(nèi),它可以輕松地改變晶片規(guī)模。那只是近期。我們甚至可以更進(jìn)一步,提出一個(gè)系統(tǒng)的概念,該系統(tǒng)將晶圓級(jí)引擎與裸露在機(jī)架上的硅光子相連,能夠保持涼爽并真正處理大量工作負(fù)載,而無(wú)需離開設(shè)備或橫向擴(kuò)展而無(wú)需全部多余的熱量和性能損失。但這是另一個(gè)長(zhǎng)遠(yuǎn)的故事。
對(duì)于石油和天然氣以及超級(jí)計(jì)算級(jí)科學(xué)法規(guī)中HPC等高價(jià)值應(yīng)用領(lǐng)域,新架構(gòu)的挑戰(zhàn)始終是相同的。這些代碼基本上是一成不變的,只有最近才可以從GPU加速中受益。但是,對(duì)于那些愿意大力投資的人來(lái)說,人工智能的故事顯而易見。我們從未能夠了解晶圓級(jí)方法的成本,以及與使用相同晶圓進(jìn)行切片和切塊以單獨(dú)出售的方式有何不同。使所有部件連接起來(lái)的所有額外網(wǎng)絡(luò)可能會(huì)帶來(lái)可觀的成本開銷
對(duì)于那些定義狹窄的應(yīng)用程序集,是否有足夠的市場(chǎng)需要解決,以使所有這些都值得呢?以及其中一家開關(guān)芯片制造商和集成商得到暗示并為其工程購(gòu)買Cerebras以及使具有AI功能的開關(guān)芯片產(chǎn)品多樣化需要多長(zhǎng)時(shí)間?
“如果您看一下Nvidia和Intel的研究,他們正在發(fā)表論文說無(wú)法做到。我們解決了70年來(lái)一直未解決的問題。這些擁有數(shù)萬(wàn)名工程師的巨型公司一直說這是不可能的,而我們位于洛斯阿爾托斯(Los Altos)房地產(chǎn)市場(chǎng)的小團(tuán)隊(duì)做到了。他的斷言是,由于天生缺乏技術(shù),大公司沒有追求晶圓規(guī)模。“ Nvidia和其他公司知道更大的芯片更適合這種工作負(fù)載。如果您從2013年開始繪制GPU的圖表,它的大小將增加一倍以上。為什么?因?yàn)樗麄冎栏蟮幕I碼會(huì)更好。但是他們不知道怎么做,仍然不知道,是如何變得大50到60倍,這就是我們所做的。”他補(bǔ)充道。
即使可以甚至確實(shí)存在硅片規(guī)模,也無(wú)論如何都無(wú)法解決所有問題。但是對(duì)于需要小型,密集計(jì)算和低功耗,低延遲和超高帶寬的大規(guī)模通信的AI工作負(fù)載,這種方法很有意義。盡管其他加速器和基于加速器的系統(tǒng)提供了此功能,但仍然存在外部網(wǎng)絡(luò)無(wú)法解決的問題。
但是,如果晶圓級(jí)的概念被證明是有效的,我們是否可以看到其他初創(chuàng)公司采用類似的方法?對(duì)自己的工廠進(jìn)行嚴(yán)格控制的公司可以輕松實(shí)現(xiàn)這一飛躍。Feldman說,他們之所以沒有這樣做,是因?yàn)樗麄儾恢廊绾巫?,但他們這樣做的原因可能更加復(fù)雜,并且與關(guān)注點(diǎn),半導(dǎo)體經(jīng)濟(jì)和需求有關(guān)。如果是這樣,他們將不得不用一種價(jià)格便宜的產(chǎn)品來(lái)應(yīng)對(duì)潛在的市場(chǎng)嗎?例如,考慮到像英特爾這樣的擁有全部網(wǎng)絡(luò),晶圓廠和市場(chǎng)專業(yè)知識(shí)的公司并沒有走這條路,那么,肯定有些事情要么不值得努力,要么根本無(wú)法完成。
那么,要回答標(biāo)題中的問題,是否有至少一個(gè)或兩個(gè)以上的初創(chuàng)公司,也許還有一個(gè)專業(yè)進(jìn)入該行業(yè)的晶圓級(jí)芯片行業(yè) ?也許。這就是為什么我們保持密切關(guān)注Cerebras機(jī)器的原因。不僅是為了查看它是否有效,還在于編程模型如何運(yùn)行以及它是否真的可以承擔(dān)起不僅僅限于AI的任務(wù)。
如上所述,基于大型晶圓的機(jī)架和硅光子技術(shù)相結(jié)合的系統(tǒng)的未來(lái)發(fā)展并非無(wú)道理,這種技術(shù)可以解決熱量問題,并具有可分割,可擴(kuò)展且在合理的功率預(yù)算內(nèi)的真實(shí)通信。然后事情就變得有趣了,特別是如果魔術(shù)編譯器可以真正地在HPC和大規(guī)模分析中使用并行代碼以及AI工作負(fù)載演變成的任何東西。
推薦內(nèi)容 Recommended
- 固態(tài)電容介紹,日系臺(tái)系...08-17
- AMC到底是什么?居然影...05-24
- SMT術(shù)語(yǔ)分別代表什么意思?08-04
- 臺(tái)灣鈺邦 公司簡(jiǎn)介之...03-29
- 固態(tài)電容使用注意事項(xiàng)...12-27
- 安規(guī)電容的作用是什么...01-07