因?yàn)閷I(yè)
所以領(lǐng)先
過(guò)去,大多數(shù)芯片都包含一到兩項(xiàng)前沿技術(shù),主要是為了跟上每隔幾年每個(gè)新工藝節(jié)點(diǎn)的光刻技術(shù)的預(yù)期改進(jìn)。這些改進(jìn)是基于行業(yè)路線圖,該路線圖要求隨著時(shí)間的推移取得可預(yù)測(cè)但不顯著的收益?,F(xiàn)在,隨著大型語(yǔ)言模型和更多傳感器推動(dòng)的數(shù)據(jù)爆炸式增長(zhǎng),以及設(shè)計(jì)自己芯片的系統(tǒng)公司之間的競(jìng)爭(zhēng)加劇,以及涉及人工智能的國(guó)際競(jìng)爭(zhēng)日益激烈,芯片設(shè)計(jì)前沿的規(guī)則正在發(fā)生相當(dāng)大的變化。
現(xiàn)在,漸進(jìn)式改進(jìn)與處理性能的巨大飛躍相結(jié)合,雖然這些改進(jìn)使計(jì)算能力和分析達(dá)到了一個(gè)全新的水平,但它們也需要一套全新的權(quán)衡。
這些轉(zhuǎn)變的核心是高度定制的芯片架構(gòu),其中一些涉及在最先進(jìn)的工藝節(jié)點(diǎn)開發(fā)的小芯片。并行處理幾乎是必然的,針對(duì)特定數(shù)據(jù)類型和操作的加速器也是如此。在某些情況下,這些微型系統(tǒng)不會(huì)進(jìn)行商業(yè)銷售,因?yàn)樗鼈優(yōu)閿?shù)據(jù)中心提供了競(jìng)爭(zhēng)優(yōu)勢(shì)。但它們也可能包括其他商用技術(shù),例如處理核心或加速器或用于減少延遲的內(nèi)存內(nèi)或近內(nèi)存計(jì)算技術(shù),以及不同的緩存方案、共同封裝的光學(xué)器件和更快的互連。其中許多進(jìn)展多年來(lái)一直處于研究或擱置狀態(tài),現(xiàn)在正在全面部署。
谷歌研究院工程研究員兼機(jī)器學(xué)習(xí)系統(tǒng)副總裁 Amin Vahdat 在最近的 Hot Chips 2023 會(huì)議上的演講中指出,今天的芯片可以解決十年前無(wú)法想象的問(wèn)題,而機(jī)器學(xué)習(xí)將承擔(dān)計(jì)算周期“越來(lái)越多的任務(wù)”。
“我們需要改變對(duì)系統(tǒng)設(shè)計(jì)的看法,”Vahdat說(shuō)?!斑^(guò)去五、六、七年中計(jì)算需求的增長(zhǎng)令人震驚......雖然在[算法]稀疏性方面出現(xiàn)了許多創(chuàng)新,但當(dāng)您查看[下面的圖 1]時(shí),它顯示了 10 倍每個(gè)模型的參數(shù)數(shù)量持續(xù)一年。我們還知道,計(jì)算成本隨著參數(shù)數(shù)量的增加而超線性增長(zhǎng)。因此,我們?yōu)閼?yīng)對(duì)這一挑戰(zhàn)而必須構(gòu)建的計(jì)算基礎(chǔ)設(shè)施類型必須改變。值得注意的是,如果我們?cè)噲D在通用計(jì)算上做到這一點(diǎn),我們就不會(huì)達(dá)到今天的水平?!?br/>
”我們?cè)谶^(guò)去 50 或 60 年間開發(fā)的傳統(tǒng)計(jì)算智慧已被拋棄?!?br/>
芯片制造商正在利用演進(jìn)和革命性技術(shù),以相同或更低的功耗實(shí)現(xiàn)性能的數(shù)量級(jí)提高,這標(biāo)志著從制造驅(qū)動(dòng)設(shè)計(jì)到半導(dǎo)體架構(gòu)師驅(qū)動(dòng)設(shè)計(jì)的根本轉(zhuǎn)變。
然而,這并不意味著老問(wèn)題消失了。功耗和散熱一直是設(shè)計(jì)團(tuán)隊(duì)頭疼的問(wèn)題,并且隨著處理速度和數(shù)量的增加,它們變得更加難以解決。在大約 3GHz 之后,由于熱密度更高且芯片無(wú)法散發(fā)熱量,僅僅調(diào)高時(shí)鐘頻率就不再是一個(gè)簡(jiǎn)單的選擇。雖然稀疏數(shù)據(jù)模型和軟硬件協(xié)同設(shè)計(jì)解決了在各種處理元件上運(yùn)行的軟件的效率,以及每個(gè)計(jì)算周期處理更多數(shù)據(jù)的能力,但不再需要轉(zhuǎn)動(dòng)一個(gè)旋鈕來(lái)提高每瓦性能。
一、內(nèi)存創(chuàng)新
然而,有許多小型和中型旋鈕,其中一些從未在生產(chǎn)系統(tǒng)中使用過(guò),因?yàn)闆](méi)有經(jīng)濟(jì)原因這樣做。隨著數(shù)據(jù)的增加和架構(gòu)創(chuàng)新的轉(zhuǎn)變,這些經(jīng)濟(jì)學(xué)發(fā)生了巨大的變化,這一點(diǎn)在今年的 Hot Chips 會(huì)議上顯而易見(jiàn)。
其中的選項(xiàng)包括內(nèi)存中/近內(nèi)存處理,以及更接近數(shù)據(jù)源的處理。這里的問(wèn)題是,移動(dòng)大量數(shù)據(jù)需要大量的系統(tǒng)資源——帶寬、電力和時(shí)間——這對(duì)計(jì)算有直接的經(jīng)濟(jì)影響。一般來(lái)說(shuō),收集和處理的大部分?jǐn)?shù)據(jù)都是無(wú)用的。例如,汽車或安全系統(tǒng)中的視頻輸入中的相關(guān)數(shù)據(jù)可能僅持續(xù)一兩秒,而可能需要數(shù)小時(shí)的數(shù)據(jù)進(jìn)行整理。對(duì)靠近源頭的數(shù)據(jù)進(jìn)行預(yù)處理,并使用人工智能來(lái)識(shí)別感興趣的數(shù)據(jù),意味著只需發(fā)送一小部分?jǐn)?shù)據(jù)進(jìn)行進(jìn)一步處理和存儲(chǔ)。
三星首席工程師 Jin Hyun Kim 表示:“大部分能源消耗來(lái)自移動(dòng)數(shù)據(jù)?!?他指出了三種提高效率和提升績(jī)效的解決方案:
使用 HBM 進(jìn)行內(nèi)存處理,實(shí)現(xiàn)極高的帶寬和功耗;
使用 LPDDR 對(duì)需要高容量的低功耗設(shè)備進(jìn)行內(nèi)存處理
使用 CXL 進(jìn)行近內(nèi)存處理,以適中的成本實(shí)現(xiàn)極高的容量。
內(nèi)存處理已經(jīng)在繪圖板上醞釀了很多年,直到最近才出現(xiàn)太大進(jìn)展。大型語(yǔ)言模型已經(jīng)極大地改變了經(jīng)濟(jì)學(xué),現(xiàn)在它變得更加有趣,大型內(nèi)存供應(yīng)商也沒(méi)有忽視這一點(diǎn)。
這一概念的新改進(jìn)是內(nèi)存加速,這對(duì)于 AI/ML 的乘法累加 (MAC) 函數(shù)特別有用,因?yàn)樾枰焖偬幚淼臄?shù)據(jù)量呈爆炸式增長(zhǎng)。使用生成式預(yù)訓(xùn)練 Transformer 3 (GPT-3) 和 GPT4,僅加載數(shù)據(jù)就需要大量帶寬。與此相關(guān)的挑戰(zhàn)有很多,包括如何有效地做到這一點(diǎn),同時(shí)最大限度地提高性能和吞吐量,如何擴(kuò)展它以處理大型語(yǔ)言模型中參數(shù)數(shù)量的快速增加,以及如何建立靈活性以適應(yīng)未來(lái)的變化。
SK hynix America 高級(jí)技術(shù)傳感經(jīng)理 Yonkwee Kwon 在 Hot Chips 2023 上的演講中表示:“我們一開始的想法是將內(nèi)存作為加速器。”“第一個(gè)目標(biāo)是實(shí)現(xiàn)高效擴(kuò)展。但擁有高性能也很重要。最后,我們?cè)O(shè)計(jì)的系統(tǒng)架構(gòu)易于編程,同時(shí)最大限度地減少系統(tǒng)結(jié)構(gòu)開銷,但仍然允許軟件堆棧實(shí)現(xiàn)靈活性。
二、CPU 改進(jìn)
雖然內(nèi)存的變化有助于減少需要移動(dòng)的數(shù)據(jù)量,但這只是難題的一小部分。下一個(gè)挑戰(zhàn)是加快主要處理元素的速度。做到這一點(diǎn)的一種方法是分支預(yù)測(cè),它基本上預(yù)測(cè)下一個(gè)操作將是什么——幾乎就像互聯(lián)網(wǎng)搜索引擎的方式一樣。然而,與任何并行架構(gòu)一樣,關(guān)鍵是保持各種處理元素充分運(yùn)行,沒(méi)有空閑時(shí)間,以最大限度地提高性能和效率。
Arm 通過(guò)其 Neoverse V2 設(shè)計(jì)對(duì)這一概念進(jìn)行了新的改造,將分支與獲取分離(decoupling branch from fetch)。其結(jié)果是通過(guò)最大限度地減少停頓來(lái)提高效率,并從錯(cuò)誤預(yù)測(cè)中更快地恢復(fù)。Arm 首席 CPU 架構(gòu)師 Magnus Bruce 表示:“動(dòng)態(tài)饋送機(jī)制允許內(nèi)核調(diào)節(jié)攻擊性,并主動(dòng)防止系統(tǒng)擁塞。”“這些基本概念使我們能夠推動(dòng)機(jī)器的寬度和深度,同時(shí)保持較短的管道以快速恢復(fù)錯(cuò)誤預(yù)測(cè)?!?br/>
這里的不同之處在于,整個(gè)系統(tǒng)的改進(jìn)來(lái)自于架構(gòu)在多個(gè)點(diǎn)的調(diào)整,而不是大規(guī)模的改變。例如,拆分分支預(yù)測(cè)器和獲取可以將分支目標(biāo)緩沖區(qū)拆分為兩個(gè)級(jí)別,使其能夠處理多 50% 的條目。它還將預(yù)測(cè)器中存儲(chǔ)的歷史記錄增加了三倍,并將獲取隊(duì)列中的條目數(shù)量增加了一倍,從而顯著提高了實(shí)際性能。為了使其有效,該架構(gòu)還將 L2 緩存加倍,從而將使用過(guò)的數(shù)據(jù)塊預(yù)測(cè)和使用過(guò)的多次數(shù)據(jù)塊預(yù)測(cè)分開。綜合各種改進(jìn),Neoverse V2 的性能是 V1 的兩倍,具體取決于它在系統(tǒng)中扮演的角色。
與此同時(shí),AMD 的下一代 Zen 4 核心由于微架構(gòu)的改進(jìn),每周期指令數(shù)增加了約 14%,由于工藝擴(kuò)展,在相同電壓下 5nm 下的頻率提高了 16%,由于微架構(gòu)和技術(shù)的改進(jìn),功耗降低了約 60%。物理設(shè)計(jì)改進(jìn)。
與 Arm 一樣,AMD 也致力于改進(jìn)分支預(yù)測(cè)和獲取。AMD 研究員兼 Zen 4 首席架構(gòu)師 Kai Troester 表示,由于更多的分支、每個(gè)周期更多的分支預(yù)測(cè)以及允許更多條目和每個(gè)條目更多操作的更大操作緩存,分支預(yù)測(cè)準(zhǔn)確性得到了提高。它還添加了 3D V 高速緩存,將每個(gè)內(nèi)核的 L3 高速緩存提升至高達(dá) 96 MB,并在 256 位數(shù)據(jù)路徑上使用兩個(gè)連續(xù)周期提供對(duì) 512 位操作的支持。簡(jiǎn)而言之,該設(shè)計(jì)增加了數(shù)據(jù)管道的大小,并盡可能縮短數(shù)據(jù)必須傳輸?shù)木嚯x。
三、平臺(tái)架構(gòu)系統(tǒng)
另一個(gè)主要趨勢(shì)是不斷增加的領(lǐng)域?qū)S眯裕@對(duì)開發(fā)適用于所有應(yīng)用程序的通用處理器的舊模式造成了嚴(yán)重破壞?,F(xiàn)在的挑戰(zhàn)是如何提供本質(zhì)上的大規(guī)模定制,有兩種主要方法:通過(guò)硬件或可編程邏輯添加可編程性,以及開發(fā)可互換部件的平臺(tái)。
英特爾推出了一個(gè)將小芯片集成到先進(jìn)封裝中的框架,該封裝利用其嵌入式多芯片互連橋來(lái)連接高速 I/O、處理器內(nèi)核和內(nèi)存。英特爾的目標(biāo)是提供足夠的定制和性能來(lái)滿足客戶的需求,但交付這些系統(tǒng)的速度比完全定制的架構(gòu)要快得多,并且結(jié)果可預(yù)測(cè)。
“這將是一個(gè)多芯片架構(gòu),”英特爾院士兼首席至強(qiáng)架構(gòu)師 Chris Gianos 說(shuō)道?!拔覀兛梢允褂眠@些小芯片構(gòu)建結(jié)構(gòu),具有很大的靈活性。它們都只是互操作,它為我們提供了專門優(yōu)化產(chǎn)品核心的維度之一。我們將創(chuàng)建 E 核(超高效)的小芯片和 P 核(高性能)的小芯片?!?br/>
英特爾還創(chuàng)建了一個(gè)模塊化網(wǎng)狀結(jié)構(gòu)來(lái)將各種組件連接在一起,以及一個(gè)支持 DDR 或 MCR 內(nèi)存以及通過(guò) CXL 連接的內(nèi)存的通用控制器。
四、神經(jīng)處理器、光學(xué)互連
即使對(duì)于 Hot Chips 會(huì)議來(lái)說(shuō),新方法和新技術(shù)的清單也是前所未有的。它表明業(yè)界正在多么廣泛地尋找增加功率和降低功率的新方法,同時(shí)仍然關(guān)注面積和成本。PPAC 仍然是焦點(diǎn),但不同應(yīng)用程序和用例的權(quán)衡可能非常不同。
IBM 研究員 Dharmendra Modha 表示:“人工智能的運(yùn)營(yíng)支出和資本支出正在變得不可持續(xù)。”他補(bǔ)充道,“架構(gòu)勝過(guò)摩爾定律?!?br/>
對(duì)于 AI/ML 應(yīng)用來(lái)說(shuō),精度也至關(guān)重要。IBM 的設(shè)計(jì)包括一個(gè)支持混合精度的向量矩陣乘法器,以及具有 FP16 精度的向量計(jì)算單元和激活函數(shù)單元。此外,處理是在距離內(nèi)存幾微米的范圍內(nèi)完成的?!安淮嬖谝蕾囉跀?shù)據(jù)的條件分支,”他說(shuō)?!皼](méi)有緩存未命中、沒(méi)有停頓、沒(méi)有推測(cè)執(zhí)行。”
復(fù)雜芯片的一個(gè)關(guān)鍵挑戰(zhàn)不僅是在內(nèi)存和處理器之間移動(dòng)數(shù)據(jù),而且還在于芯片周圍的數(shù)據(jù)移動(dòng)。片上網(wǎng)絡(luò)和其他互連結(jié)構(gòu)簡(jiǎn)化了這一過(guò)程。硅光子學(xué)已經(jīng)使用了一段時(shí)間,特別是對(duì)于高速網(wǎng)絡(luò)芯片,并且光子學(xué)在機(jī)架中的服務(wù)器之間發(fā)揮著作用。但是否或何時(shí)轉(zhuǎn)移到芯片層面仍不確定。盡管如此,這一領(lǐng)域的工作仍在繼續(xù),根據(jù)芯片行業(yè)的大量采訪,光子學(xué)受到了許多公司的關(guān)注。
Lightelligence 工程副總裁 Maurice Steinman 表示,他的公司已經(jīng)開發(fā)出專門構(gòu)建的基于光子學(xué)的加速器,其速度比 GPU 快 100 倍,而且功耗顯著降低。該公司還開發(fā)了片上光學(xué)網(wǎng)絡(luò),更多的是使用硅中介層作為使用光子而不是電子連接小芯片的介質(zhì)。
“純電氣解決方案面臨的挑戰(zhàn)是,隨著距離的衰減,僅在最近的鄰居之間進(jìn)行通信確實(shí)變得切實(shí)可行,”Steinman說(shuō)。“如果[芯片]左上角有一個(gè)結(jié)果需要與右下角通信,那么它需要遍歷很多跳。這給負(fù)責(zé)分配資源的軟件組件帶來(lái)了問(wèn)題,因?yàn)樗枰紤]接下來(lái)的幾個(gè)棋步以避免擁塞?!?br/>
五、可持續(xù)性、可靠性和未來(lái)
隨著所有這些變化,另外兩個(gè)問(wèn)題也出現(xiàn)了。一是可持續(xù)性。隨著更多的數(shù)據(jù)由更多的芯片處理,挑戰(zhàn)甚至將集中在能源消耗上,更不用說(shuō)減少碳足跡了。更多更高效的設(shè)備并不一定會(huì)消耗更少的電力,而且制造所有這些設(shè)備都需要能源。
一段時(shí)間以來(lái),數(shù)據(jù)中心一直是人們關(guān)注的目標(biāo)。十年前,普遍認(rèn)同的統(tǒng)計(jì)數(shù)據(jù)是數(shù)據(jù)中心消耗了地球上所有發(fā)電量的 2% 到 3%。美國(guó)能源效率和可再生能源辦公室表示,數(shù)據(jù)中心約占美國(guó)總用電量的 2%。這些數(shù)字并不總是準(zhǔn)確的,因?yàn)榫G色能源有多種,制造和回收太陽(yáng)能電池板和風(fēng)車葉片也需要能源。但很明顯,消耗的能源量將隨著數(shù)據(jù)的增長(zhǎng)而繼續(xù)增長(zhǎng),即使它沒(méi)有以相同的速度跟蹤。
Hot Chips 以及其他會(huì)議上的許多演講都將可持續(xù)發(fā)展作為目標(biāo)。盡管基礎(chǔ)數(shù)據(jù)可能有所不同,但事實(shí)上,這是許多芯片制造商的企業(yè)強(qiáng)制要求,這一點(diǎn)意義重大。
第二個(gè)尚未解決的問(wèn)題是可靠性。許多新芯片設(shè)計(jì)也比前幾代芯片復(fù)雜幾個(gè)數(shù)量級(jí)。過(guò)去,主要問(wèn)題是基板上可以塞滿多少晶體管以及如何避免芯片熔化。如今,數(shù)據(jù)路徑和分區(qū)如此之多,散熱只是眾多因素之一。隨著越來(lái)越多的數(shù)據(jù)被分區(qū)、處理、重新聚合和分析,結(jié)果的準(zhǔn)確性和一致性可能更難以確定和保證,特別是當(dāng)設(shè)備老化程度不同并以意想不到的方式交互時(shí)。
此外,谷歌研究院高級(jí)研究員兼高級(jí)副總裁 Jeff Dean 表示,模型正在從單一模態(tài)轉(zhuǎn)變?yōu)槎喾N模態(tài)(圖像、文本、聲音和視頻),從密集模型轉(zhuǎn)向稀疏模型?!皠?dòng)力、可持續(xù)性和可靠性確實(shí)很重要,”他說(shuō),并指出許多有關(guān)人工智能訓(xùn)練和 CO 2排放的數(shù)據(jù)都具有誤導(dǎo)性?!叭绻闶褂谜_的數(shù)據(jù),事情并沒(méi)有那么可怕。”
六、芯片封裝清洗:
合明科技研發(fā)的水基清洗劑配合合適的清洗工藝能為芯片封裝前提供潔凈的界面條件。
水基清洗的工藝和設(shè)備配置選擇對(duì)清洗精密器件尤其重要,一旦選定,就會(huì)作為一個(gè)長(zhǎng)期的使用和運(yùn)行方式。水基清洗劑必須滿足清洗、漂洗、干燥的全工藝流程。
污染物有多種,可歸納為離子型和非離子型兩大類。離子型污染物接觸到環(huán)境中的濕氣,通電后發(fā)生電化學(xué)遷移,形成樹枝狀結(jié)構(gòu)體,造成低電阻通路,破壞了電路板功能。非離子型污染物可穿透PC B 的絕緣層,在PCB板表層下生長(zhǎng)枝晶。除了離子型和非離子型污染物,還有粒狀污染物,例如焊料球、焊料槽內(nèi)的浮點(diǎn)、灰塵、塵埃等,這些污染物會(huì)導(dǎo)致焊點(diǎn)質(zhì)量降低、焊接時(shí)焊點(diǎn)拉尖、產(chǎn)生氣孔、短路等等多種不良現(xiàn)象。
這么多污染物,到底哪些才是最備受關(guān)注的呢?助焊劑或錫膏普遍應(yīng)用于回流焊和波峰焊工藝中,它們主要由溶劑、潤(rùn)濕劑、樹脂、緩蝕劑和活化劑等多種成分,焊后必然存在熱改性生成物,這些物質(zhì)在所有污染物中的占據(jù)主導(dǎo),從產(chǎn)品失效情況來(lái)而言,焊后殘余物是影響產(chǎn)品質(zhì)量最主要的影響因素,離子型殘留物易引起電遷移使絕緣電阻下降,松香樹脂殘留物易吸附灰塵或雜質(zhì)引發(fā)接觸電阻增大,嚴(yán)重者導(dǎo)致開路失效,因此焊后必須進(jìn)行嚴(yán)格的清洗,才能保障電路板的質(zhì)量。
合明科技運(yùn)用自身原創(chuàng)的產(chǎn)品技術(shù),滿足芯片封裝工藝制程清洗的高難度技術(shù)要求,打破國(guó)外廠商在行業(yè)中的壟斷地位,為芯片封裝材料全面國(guó)產(chǎn)自主提供強(qiáng)有力的支持。
推薦使用合明科技水基清洗劑產(chǎn)品。