這篇文章給大家分享一些關(guān)于NVIDIAGeForceRTX4090FE首測大杯的不只有體積還有性能,和408大風(fēng)扇不轉(zhuǎn)的相關(guān)知識,希望對大家?guī)椭?
1前言
距離2022年秋季GTC大會上發(fā)布最新一代GeForceRTX40系列桌面顯卡不到一個月,NVIDIA正式解鎖了GeForceRTX4090創(chuàng)始人版旗艦顯卡的性能。至于明天,10月12日將是各大AIC廠商的性能解鎖時間。
在談?wù)揘VIDIAGeForceRTX4090FounderEdition顯卡的性能之前,我們先來詳細談?wù)勥@款GeForceRTX40系列會給我們帶來什么樣的改進?
GeForceRTX4090[建議零售價12,999日元起]
GeForceRTX408016GB【建議零售價9499元起】
GeForceRTX408012GB[建議零售價7199日元起]
此次NVIDIA將推出限量版GeForceRTX4090FE版本,將于北京時間10月12日晚上9點在京東首發(fā),旨在為喜愛FE版本設(shè)計的發(fā)燒級玩家?guī)頍o與倫比的體驗。屆時,玩家可以選擇NVIDIAFE版本以及來自頂級顯卡供應(yīng)商的RTX4090GPU標準頻率版本和超頻版本?!军c擊購買】
技術(shù)講解架構(gòu)優(yōu)勢
圖靈和安培最后兩代的核心架構(gòu)都是以數(shù)字命名的。前者是計算機科學(xué)之父艾倫馬西森圖靈;后者是“電學(xué)牛頓”——AndreMarieAmpere。電流的單位安培就是以他的姓氏命名的。那么艾達洛夫萊斯一定是非凡的。掃了一眼,原來這就是被譽為“數(shù)字女王”的艾達洛夫萊斯。她編寫了歷史上第一個計算機程序,被公認為世界上第一位計算機程序員。她確實是一代人。甚至比上一代還要厲害。PS她的父親是詩人拜倫,《唐璜》的作者。
從Turing架構(gòu)開始,NVIDIA首次在顯卡中加入了用于加速光線追蹤的RTCore單元和用于AI推理的TensorCore單元。這項革命性的創(chuàng)新使實時光線追蹤成為可能。Ampere架構(gòu)是一種全面的架構(gòu)改進。除了新一代的第二代RTCore和第三代TensorCore之外,還有更先進的SM單元設(shè)計,使顯卡效率提升一倍。對于AdaLovelace架構(gòu)來說,效率提升是主要前提。自然而然地引入了最新的第三代RTCores和第四代TensorCores單元,并且加入了許多新穎的黑科技。在執(zhí)行效率方面,AdaLovelace架構(gòu)優(yōu)于上一代Ampere。架構(gòu)提升了2倍以上,甚至光線追蹤能力也達到了恐怖的4倍性能。
在講核心架構(gòu)之前,我們先了解幾個關(guān)鍵詞GeForceRTX4090、AdaLovelace、TSMC4N、608mm、760億個晶體管、2x性能功耗比。
如果你用幾個關(guān)鍵詞看一下上面的【顯卡規(guī)格對比】表,就會更容易理解上表。最新一代桌面顯卡GeForceRTX40系列均采用全新AdaLovelace架構(gòu)核心。GeForceRTX4090的核心為AD102,是目前最強大的AdaLovelace架構(gòu)核心,擁有760億個晶體管、16384個CUDA核心和24GB高速美光GDDR6X顯存。
GeForceRTX408016GB核心代號為AD103-300,擁有9728個CUDA核心和16GB高速美光GDDR6X顯存,顯存位寬降低至256Bit;GeForceRTX408012GB規(guī)格較低,核心代號為AD104-400,擁有7680個CUDA核心和12GB美光GDDR6X顯存,顯存位寬僅為192Bit。由于NDA的原因,我們在這里不再談?wù)揋eForceRTX4080系列。
得益于NVIDIA與臺積電深度合作的TSMC4N制程技術(shù),GeForceRTX4090的核心面積僅為608mm。它可以在更小的核心面積內(nèi)容納多達760億個晶體管,比上一代Ampere架構(gòu)多出約70個晶體管。數(shù)量。
值得注意的是,工藝技術(shù)的改進不僅可以有更多的晶體管,而且它的核心頻率也可以跑得很高。GeForceRTX4090Boost的頻率達到了2520MHz,從而在核心頻率和高規(guī)格的雙向保證下實現(xiàn)了更高的倍率。性能功耗比高達上一代顯卡的2倍。
從GTC2022秋季發(fā)布會上我們其實已經(jīng)發(fā)現(xiàn),目前GeForceRTX4090顯卡搭載的AD102-300核心其實并不是完整的AD102核心。完整的AD102核心應(yīng)包括12個GPC圖形處理集群、72個TPC紋理處理集群、144個SM流多處理器和一個384位視頻內(nèi)存寬度以及12個32位視頻內(nèi)存控制器。
看上面的GeForceRTX4090架構(gòu)圖,很容易看出與完整版AD102核心的差異。首先,GeForceRTX4090核心代號為AD102-300。它有9個全尺寸的GPC圖形處理集群,每個集群內(nèi)置6個TPC,還有2個非完整的GPC圖形處理集群,每個集群內(nèi)置5個TPC,總共形成了64個TPC,所以自然就有了共有128個SM單元。至于內(nèi)存位寬方向,是比較完整的——384Bit。
如果你還不明白,這里我將AdaLovelace架構(gòu)顯卡的組件一一講解。
剛才我們提到,一個完整的AdaLovelace架構(gòu)AD102核心內(nèi)部有12個GPC,每個完整的GPC包含一個專用的RasterEngine、兩套ROP總共16個ROP、6個TPC和12個SM單元。
2ADA技術(shù)講解
新的SM流式多處理器
AdaLovelace架構(gòu)的最大亮點之一新的SM流多處理器。每個SM包含128個CUDA核心、1個第三代RTCore、4個第四代TensorCore、4個TextureUnit、256KBRegisterFile和128KBL1數(shù)據(jù)緩存/共享內(nèi)存子系統(tǒng),因此這個新的SM單元的性能是上一代的兩倍。
過去,圖靈架構(gòu)INT32計算單元和FP32的數(shù)量是相同的,兩者相加形成64個CUDA核心。但從Ampere架構(gòu)開始,左邊的計算單元實現(xiàn)了FP32+INT32計算單元的并發(fā)執(zhí)行,這意味著CUDA核心數(shù)量增加了一倍,達到128個。
我們再來看看AdaLovelace架構(gòu)SM,即FP32/INT32計算單元組合,同樣實現(xiàn)了每個SM包含128個CUDA的設(shè)計??此铺嵘淮螅?dāng)你了解了GeForceRTX4090擁有128個SM和16384個CUDA核心后,那么你就應(yīng)該明白826TFLOPS的著色器能力是如何實現(xiàn)的,這是上一代RTX3090Ti顯卡40TFLOPS的兩倍多。
此外,AdaLovelace架構(gòu)在緩存方面也進行了重大改進。首先,每個SM單元配備128KB緩存,使得RTX4090顯卡達到163MBL1/共享顯存。其次,核心的二級緩存進行了重新設(shè)計,完整的AD102核心擁有96MB二級緩存,而RTX4090顯卡則擁有72MB二級緩存。這可能是因為AdaLovelace架構(gòu)核心對顯存位寬的依賴性不高。
事實上,等到11月份RTX4080推出時我們就會知道這是否屬實。
技術(shù)講解第三代RTCore和第四代TensorCore
我想剛才的CUDA數(shù)量和大二級緩存已經(jīng)很大了。AdaLovelace架構(gòu)中最大的改進是第三代RTCores和第四代TensorCores。
第三代RTCore
RTCore用于光線追蹤加速。第三代RTCore的有效光線追蹤計算能力達到191TFLOPS,是上一代的28倍。
在Ampere架構(gòu)中,第二代RTCore支持邊界交叉測試和三角形交叉測試,用于加速BVH遍歷并進行射線三角形交叉測試計算。雖然光線追蹤處理能力已經(jīng)比第一代圖靈架構(gòu)核心更加高效,但隨著環(huán)境物體的幾何復(fù)雜度不斷增加,傳統(tǒng)的處理方法很難更高效、準確地反射現(xiàn)實世界中的光線,尤其是光運動的準確性。
因此,第三代RTCore中增加了兩個重要的硬件單元OpacityMicromapEngine和DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine主要用于alpha通道加速,可以將alpha測試幾何體的光線追蹤速度提高2倍。
在傳統(tǒng)的光柵渲染中,開發(fā)人員使用一些Alpha通道材質(zhì)來實現(xiàn)更高效的圖片渲染,例如Alpha通道樹葉或火焰等形狀復(fù)雜的物體。但在光線追蹤時代,這種傳統(tǒng)的做法會導(dǎo)致光線追蹤大量無效計算。例如,移動的光多次穿過樹葉。每次光線照射到葉子時,都會調(diào)用著色器來確定如何處理相交。這會造成嚴重的執(zhí)行成本和時間等待成本。
而OpacityMicromapEngine用于直接解析與非不透明光線相交的不透明狀態(tài)
三角形。Alpha通道根據(jù)三種不同的塊狀態(tài)進行處理不透明、透明和未知透明塊直接忽略并繼續(xù)尋找下一個,不透明塊被記錄并通知命中,未知塊則交給著色器進行處理確定如何處理他們。這樣,大部分GPU不需要著色器調(diào)試,就能獲得更高效的性能。
位移微網(wǎng)格引擎
如果說OpacityMicromapEngine加速了表面處理,那么DisplacedMicro-MeshesEngine就是幾何表面細節(jié)的加速器。如上圖所示,在AdaLovelace架構(gòu)中,可以通過1個基本三角形+位移圖創(chuàng)建高度詳細的幾何網(wǎng)格,與第二代RTCore相比,資源占用更低,效率更高。
我們以NVIDIA給出的創(chuàng)建14:1珊瑚蟹為例。這里我們需要17萬個微網(wǎng)格和160萬個微三角形。在AdaLovelace架構(gòu)中,BVH創(chuàng)建速度可加快76倍,存儲空間可減少81倍。DisplacedMicro-MeshesEngine起著關(guān)鍵作用。它將幾何對象根據(jù)不同的細節(jié)劃分為不同密度的微網(wǎng)絡(luò)處理。紅色的密度極高,細節(jié)的處理變得更加復(fù)雜。相應(yīng)的低密度微網(wǎng)絡(luò)區(qū)域可以釋放更多的資源和存儲空間,因此DisplacedMicro-MeshesEngine可以幫助BVH加速進程并減少構(gòu)建時間和存儲成本。
同時,AdaLovelace架構(gòu)SM中添加了新的著色器執(zhí)行重新排序。這是因為光線追蹤不再只處理強光或陰影渲染。未來,它會更加關(guān)注光的運動,讓光變得越來越復(fù)雜。它們變得越復(fù)雜,如果你想讓第三代RTCore和第四代TensorCore有更高的執(zhí)行效率,你必須為它們安排一個管家。著色器執(zhí)行重新排序的目的是立即重新排列著色器負載以提高執(zhí)行效率,為光線追蹤提供2倍加速,并更好地利用GPU資源。但目前還沒有例子。要實現(xiàn)這個功能,我們需要和開發(fā)工具的支持。
第四代TensorCore
TensorCore是專門用于執(zhí)行張量/矩陣運算的執(zhí)行單元,這些運算是深度學(xué)習(xí)中使用的核心計算功能。第四代TensorCores增加了全新的FP8引擎,其張量處理性能高達132petaflops,是上一代的5倍。
3DLSS3技術(shù)和NVENC
技術(shù)說明DLSS3
或者也許第四代TensorCores太硬核而你不知道它是什么?改進的重點是什么?但你一定會知道TensorCores最經(jīng)典的應(yīng)用,DLSS。此次AdaLovelace架構(gòu)支持NVIDIA最新的DLSS3技術(shù)。
之前我們也講過DLSS技術(shù)。它最初是為了彌補光線追蹤技術(shù)之后的性能損失而設(shè)計的。具體表現(xiàn)為,開啟光線追蹤技術(shù)后,幀數(shù)明顯下降,甚至難以保證流暢運行。因此,DLSS采用低分辨率內(nèi)容作為輸入,利用AI技術(shù)輸出高分辨率幀,從而提高光線追蹤的性能。
封裝在DLSS3中
對于一些NVIDIAGeForceRTX4090FE首測大杯的不只有體積還有性能和408大風(fēng)扇不轉(zhuǎn)詳細內(nèi)容就介紹到這里了,希望對大家有所助益。
評論已關(guān)閉!
聚鴻H5開發(fā) - NVIDIAGeForceRTX4090FE首測大杯的不只有體積還有性能