耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）

待遇差异 2023-03-16 23:38:44

1前言

引言

在经历了两年的矿潮折磨后，玩家终于迎来了一丝曙光，RTX40系新显卡的发布既带来突飞猛进的性能提升，又搭载了眼前一亮的全新黑科技。无论是TSMC4NNVIDIA定制工艺还是强悍的DLSS3技术，都让玩家对RTX4090旗舰显卡的实际表现充满期待。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(1)

而随着NVIDIAGeForceRTX4090FoundersEdition公版显卡的解禁，各家AIC厂商也是百花齐放，推出了形态各异的非公RTX4090，耕升作为显卡产品领域里拥有相当深厚资历的显卡品牌，自然也不会缺席这次顶级显卡产品盛会，我们也有幸在第一时间收到了耕升GeForceRTX4090炫光OC显卡，一起来看看这款性能怪兽的表现究竟如何。

耕升GeForceRTX4090炫光OC（简称：“耕升RTX4090炫光OC”）

外观鉴赏：耕升 GeForce RTX 4090 炫光 OC

首先来看看外包装盒，耕升RTX4090炫光OC的包装盒体积巨大，正面印有耕升的Logo以及GeForceRTX4090字样，包装盒的正中间是大大的X型标志，满满的炫酷科技风，黑、灰银、红、蓝、粉等色彩的搭配更是能抓住人们的视线，包装设计相当有特色。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(2)

包装盒的底部印有这一代显卡使用的先进技术，如DLSS、光线追踪、NVIDIAReflex以及NVIDIAStudio。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(3)

打开包装盒后，映入眼帘的就是耕升RTX4090炫光OC本体，附赠的还有电源转换线和RGB同步线，今年的RTX4090有几斤几两大家也都见到，所以耕升RTX4090炫光OC还附赠了显卡支架，其他的配件则是使用手册和说明书等。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(4)

外观方面，耕升RTX4090炫光OC延续了前作RTX3090Ti的设计风格，简约沉稳，散热器外壳为波浪形的全黑配色设计，材质宛如暗黑色的钢琴，与现在很多棱角分明、硬朗线条的产品不同，耕升RTX4090炫光OC的设计更圆润更有层次感。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(5)

显卡顶部印有GEFORCERTX字样，底下是一整排的出风口，横跨整个显卡顶部，加速热量排出。并且这一代的RTX4090个头不小，耕升RTX4090炫光OC为3.5槽设计，装机时要注意兼容性。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(6)

显卡正面是三把风扇组成的第二代“炫之黑曜石”散热器，左右两侧的风扇为102mm，中间的为92mm。白色的扇叶与全黑的波浪形导流罩，简约而又不失美感，强烈的对比感增强了产品的视觉效果。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(7)

与其他非公的RTX4090类似，背板为全金属覆盖设计，上面印着“GeForceRTX”的字样和NVIDIA核心AIC之一“耕升”的英文名称。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(8)

并且显卡背板的右半部分还是镂空式设计，隐约可以看见内部的散热鳍片，增加内部空气对流，散热风扇能够快速带离内部热量，降低显卡温度，稳定释放性能。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(9)

显卡的接口为三个DP1.4a和一个HDMI2.1a，即使是外界到8K的显示器，这些接口也足够，并且这代显卡最多支持四联屏输出。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(10)

在供电方面，耕升RTX4090炫光OC使用的是12VHPWR供电接口，电源没有此接口不用担心，显卡配件内有NVIDIA专门配送的4*8pin转12VHPWR电源转换线。另外这一代的显卡建议搭配ATX3.0标准额定功率满850W以上的电源，确保显卡能在稳定功率下使用。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(11)

玩灯依旧是耕升的强项，这一代也不例外。正面纯黑色的导流罩表明平平无奇，其实底下是满满当当的ARGB灯珠，安装点亮后能够呈现多如繁星的炫彩灯光。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(12)

而显卡外壳是用半透明的塑胶材质制作，并且在表面采用了PCB板花纹设计，显卡在通电运行时会呈现出电路板的纹路，搭配上动态的RGB灯效，效果惊艳，极具未来感。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(13)

并且这一代显卡的RGB通过5V/3针线材连接后还能够实现全局灯效同步，使用自家的GW-SOUL软件还能自定义灯光效果。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(14)

喜欢RGB，喜欢玩灯的玩家，不要错过这张有“夜店卡皇”之称的耕升RTX4090炫光OC，它是目前发光面积最大的RTX4090显卡，没有之一。

2耕升RTX 4090炫光OC拆解

显卡拆解：耕升 GeForce RTX 4090 炫光 OC

卸下背板的螺丝就可以拆下耕升RTX4090炫光OC硕大的散热器，首先映入眼帘的是X型的散热鳍片固定器，在这背后就是那颗目前最强的GPU核心——TSMC4NNVIDIA定制工艺的AD102-300-A1核心。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(15)

耕升RTX4090炫光OC采用了类公版的PCB设计，PCB本体不算长，相比前代RTX3090Ti还要再小一些，但是却容纳了更多的元器件，并且采用越肩设计，比一般的显卡都要再高一些。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(16)

PCB的背面则简洁不少，主要是一些控制芯片，核心背部电容位置使用了四个POSCAP(导电聚合物钽电容)代替四组MLCC(一组10个MLCC)，整体电气性能更强。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(17)

PCB的正中间是RTX4090GPU专属的AD-102-300-A1核心，而其周边则是12颗GDDR6X显存。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(18)

显存来自美光，型号为2MU47D8BZC，单颗显存容量2GB，12颗组成24GB超大显存。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(19)

供电位置被安排在PCB的两端，耕升RTX4090炫光OC使用了18相核心供电 4相显存供电设计，稳定输出，持久耐用。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(20)

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(21)

每相供电均采用独立的DrMos芯片，型号为BLN3-2N2D

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(22)

供电控制芯片共三颗，均安排在PCB背面，型号分别是：uP9512、uP9521,以及uS5650Q。其中uP9512与uP9521共同管理核心供电，可以做精细化的供电管理，而uS5650Q则是主要负责显存供电部分。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(23)

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(24)

看完了PCB电路设计，下面来看看耕升全新设计的第二代“炫之黑曜石”散热器。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(25)

这一代的散热器相当庞大，不仅能够给GPU散热，还为显存、电感以及MOS管等进行散热，保证耕升RTX4090炫光OC能够全力输出。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(26)

可以看到显存和供电部分都配上了高系数的导热垫辅助散热，GPU核心也抹上了厚厚的硅脂，显存位置更是紧贴真空腔均热板，超高的散热效能助力这一代显卡强劲的性能释放。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(27)

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(28)

第二代“炫之黑曜石”散热器用的是两段式的散热模块，两边均升级了特大面积的散热鳍片。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(29)

内建了8根复合式热导管，S型的热导管贯穿了整个散热主体，实现超高效的导热设计。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(30)

8根热导管加上大面积的散热鳍片，这个散热配置看着就不会差，并且背板末端部分还是镂空设计，搭配散热风扇，还能进一步降低显卡温度。即使是超频，也能游刃有余。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(31)

第二代“炫之黑曜石”散热系统不仅升级了外观和灯效设计，还升级优化了耕升“炫风之刃”散热风扇的扇叶。散热器由2个102mm和1个92mm的风扇组合而成，经过升级后，提升风流量的同时还能减低声噪，更高速有效地散热，轻松应对高达600WTGP功耗下的温度。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(32)

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(33)

3测试平台介绍

测试平台介绍

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(34)

耕升RTX4090炫光OC作为旗舰级性能的显卡，想要衬得上它的，自然也是顶级的配置，我们选用了Intel目前最强的处理器i9-12900K，微星MEGZ670ACE主板，以及金士顿的64GBDDR5-6000高规格内存。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(35)

测试前，通过GPU-Z对显卡的运行状态以规格参数进行再次的检查，避免因为运行状态及参数不正确而导致测试成绩不正确。同时也能通过GPU-Z所呈现的数据来看看耕升RTX4090炫光OC显卡更为细分的规格参数。另外测试前我们确认主板BIOS里的ResizableBAR功能开启，这样才能发挥出RTX4090显卡强劲的性能。

航嘉MVPP120080PLUS白金牌全模电源

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(36)

电源方面使用了航嘉MVPP120080PLUS白金牌全模电源，其是一款1200W额定功率的电源，可以满足各玩家顶级平台的供电需求。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(37)

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(38)

同时还提供了一条原生12VHPWR模组线，可以提供600W供电需求，满足RTX4090显卡。

4理论&游戏性能测试

理论性能测试

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(39)

从3DMARK理论性能来看，耕升RTX4090炫光OC对比上代RTX3090Ti有着更为出色的性能表现，首先是代表DX11的FireStrike测试，虽然没有实现性能的翻倍，但提升也在70%左右。而在代表DX12的TimeSpy测试中，RTX4090与RTX3090Ti也是拉出了远远的差距，TimeSpyExtreme差点突破两万分大关。最让我惊喜的还是DLSS项目，不开启DLSS时，帧数已经接近前代开启DLSS的帧数，而RTX4090在开启DLSS后，帧数直接翻倍。实测下来，RTX4090的性能提升堪称巨大。

游戏性能

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(40)

从上面的理论性能来看，这一次RTX4090的性能提升是我历年来见过的最高的一次，相比其他显卡的性能几乎是跨时代级别的提升，这也让我非常好奇这款显卡的实际游戏性能。

这种级别的显卡我想就没必要测试2K了，这次我们直接在4K分辨率下测试，选用了大量光线追踪游戏和3A大作，可以看到在号称显卡杀手的《赛博朋克2077》中，前代旗舰仅有48FPS，而耕升RTX4090炫光OC已经能够在超级光追下跑出80FPS的成绩。而在《极限竞速：地平线5》中，RTX4090的性能大约比RTX3090Ti强出74%。实测下来，绝大部分的游戏在耕升RTX4090炫光OC下都是以高流畅度运行的。甚至在DLSS技术的加持下，能达到了120FPS以上，这样我们配备上4K144显示器，那是真的爽了。

5DLSS3性能测试

DLSS3性能测试

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(41)

AdaLovelace架构最大的亮点优势就是支持最新的DLSS3，这里我们也一并测试一多款DLSS测试程序与游戏。开启DLSS3后，耕升RTX4090炫光OC的性能表现相比前代旗舰RTX3090Ti有几乎翻倍的提升，4K分辨率下已经能够做到183FPS的成绩，完全能够满足4K@144的电竞需求，即使将分辨率提升至8K，RTX4090的帧数表现也逼近百帧，8K电竞指日可待。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(42)

同样的F122游戏中，4K分辨率下仅TAA设置的游戏流畅度仅为75，这说明了RTX4090不开启DLSS功能的游戏性能也很强。但是当开始DLSS3后，无论是质量档还是性能档，其游戏流畅度都高于120FPS，对于一款赛车游戏来说，这流畅度是真再爽不过了。

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(43)

DLSS3-F122-DLSS-Balance

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(44)

DLSS3-F122-DLSS-Perfoemance

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(45)

DLSS3-F122-DLSS-Quality

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(46)

DLSS3-F122-DLSS-SuperPerfoemance

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(47)

DLSS3-F122-TAA

UnrealEngine5LyraDLSS3测试

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(48)

Unreal-Engine-5-Lyra-DLSS3-OFF

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(49)

Unreal-Engine-5-Lyra-DLSS3-ON

而最后我们还测试了利用UnrealEngine5引擎打造的LyraDEMO，此DEMO除了能够支持最新的DLSS3技术外，还带上了NVIDIAReflex。笔者这里上传了两个图片给大家看看LyraDEMO里的DLSS3开启与关闭的画质对比，游戏流畅度自然是DLSS3开启后提升较为明显的，达到192FPS，而PCL延迟也进一步降低到了50ms的水平。

6创作者能力测试

创作者性能测试

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）(50)

视频制作方面，我们测试了PCMAK10整机性能、ULProcyon、以及PugetBench的测试，由于Photoshop、Premiere以及AfterEffect这三个软件对于显卡的要求都不算太高，显卡加速只起到辅助作用，所以耕升RTX4090炫光OC在制作视频方面的提升关不太明显，与上一代旗舰RTX3090Ti相比，提升幅度约13%，而RTX4090真正强悍的地方在于支持新的编解码方式，下面我们也会进行详细的测试。

来到生产力方面，我们先来看看专业级别的生产力会是怎么样的表现。Blender与OctanceBench测试中耕升RTX4090炫光OC性能表现同样的给力，相比前代RTX3090Ti有85%以上的性能提升。即使是在SPEX的专业领域测试中，耕升RTX4090炫光OC也没让人失望，比上代旗舰有约55%的性能提升。尤其是此款显卡才卖1W3左右，这价格跟这性能，只能说搞工业设计的用户这次真的可以换显卡了，这代RTX4090真的可以显著提升你们的渲染效率。

这代RTX4090的一大亮点就是支持AV1编码，AV1相比H.265能够以更低带宽、更小文件提供更高质量的画质，并且完全开放没有任何授权费用，正陆续得到更多平台、软件的支持。所以我们再做了一个RTX40系列显卡内置的第8代NVENC双编码器的测试，测试片源来自NVIDIA提供的8K片源与工程文件，耕升RTX4090炫光OC在8K30AV1视频输出到H.265格式视频时明显有着更短的视频，尤其是8K30规格的视频用时更短一些。而且还支持AV1格式的输出，这实在是再好不过了。即便是相同的H.265格式，耕升RTX4090炫光OC的导出速度相比前代旗舰也快了70%左右。

同时MAGICMASK工程文件的测试与ON1Resize的项目测试中也表明，耕升RTX4090炫光OC内置的第8代NVENC双编码器很强大，而且利用RTX40核心里的黑技术，可以让渲染的时候更短，大大的加快效率。

7超频&功耗&总结

超频

这一代的RTX4090超频能力相当出色，虽然英伟达已经给RTX4090足够高的频率，出厂最高可达2520MHz，不过依旧有继续超频的空间。所以我们手动对这张显卡进行超频，简单小超一下，将GPU核心频率拉至2910MHz，此时跑3DMark的PortRoyal光追测试，显卡得分26734分，相比默认状态下的26105有了小幅提升。

而对于笔者来说，这肯定是不满足的，所以继续往上超频，GPU核心频率直接拉到3015MHz，这在以前是想都不敢想的，已经接近部分CPU的频率了，超频后3DMark的PortRoyal光追测试显卡得分27073，相比默认状态下提升了约4%。可以看到这代RTX4090，即使不超频已经有非常不错的性能表现了，超频后的性能提升也比较可观。

功耗与散热

最后对耕升RTX4090炫光OC进行烤机测试，测试时室温24℃，Furmark甜甜圈设定为1280x720分辨率。在烤机15分钟后，显卡占用率达到了99%，满载功耗446.7W，显卡运行频率顶着2910MHz在跑，核心满载温度稳定在64℃，显存满载温度为62℃，果然全新的第二代“炫之黑曜石”散热器的效能强劲，用来压制这款显卡还是绰绰有余的。

相比FE公版，耕升RTX4090炫光OC的温度表现和噪音表现都更好，GPU温度有将近10℃的差距，显存更是接近20℃差距。并且得益于台积电4nm工艺，这一代的RTX4090在同等TDP下，性能更强的同时，温度也大幅下降。

总结

首先是外观方面，这一代的耕升RTX4090炫光OC不仅有着极具未来感的外观设计，颜值上也保留了前代的大面积炫光RGB，至今给我留下深刻印象，可以说是“棱角分明当道时代的锐丽异类”，即使是对RGB不感冒的玩家在看到耕升RTX4090炫光OC时，也会被它炫酷的RGB灯效所吸引。

评测完可以看到这代RTX4090后，它的性能也给我带来不小的惊喜，耕升RTX4090炫光OC相比前代旗舰提升巨大，性能确实称得上地表最强，至少现阶段，还没有对手能够撼动它消费级卡皇的宝座。散热效能也是前所未见，如此强悍的性能，温度控制却相当到位，不过60多度而已，从里到外都彰显了高端旗舰的风范。

如果你想购买一款性能最强、颜值在线、温控到位的显卡，那么耕升RTX4090炫光OC一定是你的最佳选择。DLSS3黑科技加持带你体验4K光追游戏的魅力，全新升级的RTCores和TensorCores邀你一同领略AI领域、视频转码等方面的代际飞跃。

最后是价格方面，耕升RTX4090炫光零售报价为12999，与FE公版持平；耕升RTX4090炫光OC零售报价13999。

8ADA架构讲解

Ada Lovelace架构讲解

Turing、Ampere上两代架构核心均以人物来命名，前者是计算机科学之父——艾伦·麦席森·图灵；后者则是“电学中的牛顿”——安德烈·玛丽·安培，电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人，度娘一下果然，这是人称“数字女王”的阿达·洛芙莱斯，编写了历史上首款电脑程序，是被世界公认的第一位计算机程序员，果真是一代比一代还要更牛。PS：她的父亲是《唐璜》的作者，诗人拜伦喔。

从Turing架构开始，NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元，以及面向AI推理的TensorCore单元，这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进，在加入新一代的二代RTCore和三代TensorCore基础上，还有着更先进的SM单元设计，这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构，同时是以效率提升为大前提，自然是引入了最新的第三代RTCores与第四代TensorCores单元，同时加入众多新颖的黑科技，从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上，甚至光线追踪能力更是达到了恐怖的4倍性能。

在讲述核心架构前，我们先了解几个关键词：GeForceRTX4090、AdaLovelace、TSMC4N、608mm²、760亿个晶体管、2倍性能功耗比。

大家带着几个关键字来看上面的【显卡规格参数对比】表格，就可以更容易读懂上述表格了。最新一代的桌面显卡GeForceRTX40系列均采用全新的AdaLovelace架构核心，GeForceRTX4090的核心是AD102，目前AdaLovelace架构核心中最为强大的，具有760亿个晶体管、16384个CUDA核心和24GB高速美光GDDR6X显存。

而GeForceRTX408016GB核心代号为AD103-300，拥有9728个CUDA核心和16GB高速美光GDDR6X显存，显存位宽也缩减到了256Bit；GeForceRTX408012GB规格要低一些，核心代号为AD104-400，拥有7680个CUDA核心和12GB美光GDDR6X显存，显存位宽仅为192Bit。这里由于NDA原因这里我们不再多说GeForceRTX4080系列相关的信息。

得益于NVIDIA与台积电深度合作的TSMC4N制程工艺，GeForceRTX4090核心面积仅是608mm²（上代RTX3090Ti628mm²），在更小的核心面积下却能塞下多达760亿个晶体管，比上一代的Ampere架构多出了约70%晶体管数量。

值得注意的是，制程工艺的提升不单能拥有更多的晶体管，其核心频率更是能跑得很高，GeForceRTX4090Boost频率就已经达到了2520MHz，这样在核心频率与高规格的双向保证下实现了比上代显卡高达2倍的性能功耗比。

从GTC2022秋季大会中，其实我们就已经发现了，目前GeForceRTX4090显卡中配备的AD102-300核心其实并非完整的AD102核心。完整的AD102核心应该包括了12个GPC(图形处理集群)、72个TPC(纹理处理集群)、144个SM(流式多处理器)和⼀个带有12个32Bit显存控制器的384Bit显存位宽。

再来看上面的GeForceRTX4090架构图，和完整版本的AD102核心对比起来就很容易看出差别。首先，GeForceRTX4090核心代号为AD102-300，其拥有9个完整规格的GPC(图形处理集群，每个内建6个TPC)，与2个非完整的GPC(图形处理集群，每个内建5个TPC)，共组成了64个TPC，那么SM单元自然就是128个了。至于显存位宽方向那是相当的完整——384Bit。

如果你还是不太懂，这里笔者就逐一为了AdaLovelace架构显卡的构成。

刚才我们已经说到，一个完整的AdaLovelace架构AD102核心内部拥有12个GPC，而每个完整的GPC中包含了一个专用的RasterEngine（光栅化引擎），两组ROPs共16个ROP（光栅化处理单元），以及6个TPC与12个SM单元。

全新的SM流式多处理器

AdaLovelace架构中最大的亮点之一：全新的SM流式多处理器，每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores（张量核心）、4个TextureUnits（纹理单元）、256KBRegisterFile（寄存器堆），以及128KBL1数据缓存/共享内存子系统，于是这一个全新的SM单元有着超过上一代2倍之的性能表现。

过去的Turing架构INT32计算单元与FP32数量是一致的，而两者相加才组成了64个CUDA核心。但是Ampere架构开始，左侧的计算单元实现了FP32 INT32的计算单元并发执行，也就是说CUDA核心数量翻倍到了128个。

再来看看AdaLovelace架构的SM，FP32/INT32的计算单元组合，同样实现了每个SM内含128个CUDA的设计，看似提升不大，但是当你了解到GeForceRTX4090拥有128个SM，16384个CUDA核心，那你也就应该明白达82.6TFLOPS的着色器能力是如何实现的了，比上一代的RTX3090Ti显卡的40TFLOPS，还真是提升了两倍有多。

另外缓存方面AdaLovelace架构也进行了大规格的提升，首先每个SM单元中单独配上了128KB的缓存，这样RTX4090显卡中就实现了163MBL1/共享内存。其次核心的二级缓存进行进行了重新的设计，并且完整AD102核心是96MB二级缓存，而RTX4090显卡拥有72MB二级缓存，也可能是因此AdaLovelace架构核心对显存位宽的依赖性并不高。

技术讲解：第三代RT Cores与第四代Tensor Cores

以为刚才的CUDA数量与超大L2缓存就已经很猛了，实现上AdaLovelace架构最大的提升还是在第三代RTCores与第四代TensorCores身上。

第三代RTCores

RTCores用于光线追踪加速，第三代RTCores的有效光线追踪计算能力达到191TFLOPS，是上一代产品2.8倍。

在Ampere架构中，第二代RTCores支持边界交叉测试（BoxIntersectiontesting）和三角形交叉测试（TriangleIntersectiontesting），用于加速BVH遍历和执行射线三角交叉测试计算，虽然光线追踪处理能力已经比初代的Turing架构核心更高效，但是随着环境和物体的几何复杂性持续增加，传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线，尤其是光的运动准确性。

所以在第三代RTCores增加了两个重要硬件单元：OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine，主要是用于alpha通道的加速，可以将alpha测试几何体的光线追踪速度提高2倍。

在传统光栅渲染中，开发人员使用一些Alpha通道的素材来实现更高效的画面渲染，例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代，这传统的做法会为光线追踪带为不少无效的计算，例如运动性的光线多次通过一块叶子，光线每击中一次叶子，都会调用一次着色器来确定如何处理相交，这时就会做成严重的执行成本与时间等待成本。

而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态

三角形。根据Alpha通道的不透明，透明与未知等三个不同的块状态进行处理：透明则直接忽略继续找下一个，不透明块则记录并告之命中，而未知的则交给着色器来确定如何处理，这样GPU很大部分都不需要进行着色器的调试处理，能够实现更为高效的性能。

DisplacedMicro-MeshesEngine

如果说OpacityMicromapEngine加速的是面处理，那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示，在AdaLovelace架构中，通过1个基底三角形位移地图，就可以创建出一个高度详细的几何网格，所需要资源占用比二代RTCores更低，效率也更高。

通过NVIDIA给出的创建14:1珊瑚蟹例子来说事，这里我们需要需要1.7万个微网格、160万个微三角形，在AdaLovelace架构中BVH创建速度可加快7.6倍，存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用，其将一个几何物体根据不同细节分成密度不一的微网络处理，红色密度超高，细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间，这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程，减少构建时间和存储成本。

同时AdaLovelace架构SM中新增了着色器执行重排序（ShaderExecutionReordering，SER），这是由于光线追踪不再只有强光或者阴影渲染处理，未来将会更多的是在光线的运动性，这样光线就会变得越来越复杂，想要第三代RTCores与第四代TensorCores有着更高的执行效率，那就得为他们来安排一位管家。而着色器执行重排序（SER）就是为了能够即时重新安排着色器负载来提高执行效率，为光线追踪提供2倍的加速，也能更好地利用GPU资源。不过目前仍未有实例，想实现这个功能，还得游戏与开发工具的支持才行。

第四代TensorCores

TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元，这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎，具有高达1.32petaflops的张量处理性能，超过上一代的5倍。

9DLSS3技术讲解

技术讲解：DLSS3

或者说第四代TensorCores太硬核你不会知道是啥？提升意义在哪？但是TensorCores最经典的应用DLSS你肯定会知道，这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。

之前我们也聊过DLSS技术，其设计之初是为了弥补光线追踪技术后的性能损失，具体的表现为开启光线追踪技术后游戏帧数大幅度的下降，甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧，从而提升光线追踪的性能。

在DLSS3中包含了三项技术：DLSS帧生成、DLSS超分辨率（也称为DLSS2）和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上，新增了DLSS帧生成技术；而后两技术中，DLSS超分辨率只需要GeForceRTX显卡都能使用上，NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。

想实现DLSS帧生成可不简单，这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是：利用AI技术生成更多帧，以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据，进而创建其他高质量帧，同时不会影响图像质量和响应速度。

从Ampere架构开始，NVIDIA显卡就已经支持了光流加速器，而AdaLovelace架构的光流加速器升级到了第二代，其提供了高达300TeraOPS(TOPS)，比安培架构的初代光流加速器（OpticalFlowAcceleration，OFA）快2倍以上。为了实现DLSS帧生成，OFA扮演了重要的角色，其配合上新的运行⽮量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。

另外，由于DLSS帧生成是在GPU上作为后处理执行的，那么即使在游戏受到CPU性能限制的时候，我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏，DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。

最后由于DLSS3是建立在DLSS2基础之上的，游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能，所以DLSS3已在游戏生态得到广泛应用，目前已有超过35款游戏和应用即将支持该技术。

阅读小亮点：NVIDIAReflex

NVIDIAReflex也是DLSS3其中的一环，它可以使GPU和CPU同步，确保最佳响应速度和低系统延迟。

想要实现端对端的最低延迟，你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。

当GeForceRTX40系列显卡和NVIDIAReflex搭配上后，直接达到1440p分辨率360FPS的体验，这着实是性能有点强劲了。

在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布，包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz，而最猛的是ASUSROGSwift360HzPG27AQN，刷新率直接来到了360Hz。

但唯一一个问题就在于，部分显示器厂商认为此类产品受众人群较少，会降低此类显示器的产能，甚至产品就已经被内部PASS掉，所以1440p360Hz是很美好，但现实也是相当的骨感。

技术讲解：双NVIDIA编码器（NVENC）

GeForceRTX40系列显卡还有一个全新的升级，那就是双编码器NVENC。第八代的NVENC双编码器不仅支持H.264与H.265，还支持开放式视频编码格式AV1。

而由于AV1是一种免版税的视频编码格式，上游软件厂商与下游戏的配套端都在大力推广此编码格式，我们也会看到越来越多的硬件与软件支持AV1格式，包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持，且均可通过编码预设使用双编码器，这样我们等待视频导出的时间缩短将近一半。

不单是视频制作软件，AV1格式也将会是主播、游戏直播UP主们的新宠儿，在保证画面最高质量的情况下，AV1编码器可将效率提高40%，同时显卡的占用也更低。包括OBSStudio一一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容，这样我们做游戏录制也会变得更为轻松。

包括我们之后测试时使用的游戏内录视频都是支持AV1格式，同时双编码器NVENC在资源占用和适配上做得越来越好。

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

秒懂生活

耕升gtx1060 super 炫光oc 显卡（棱角当道时代的锐丽异类）

猜您喜欢

其实命运早已标好价码（一切早已标好了价签）

飞鱼的结构图解（泳池中看不见的飞鱼）

全球首位机器人惊艳全场（从全球首位半机械人到新物种机器人）

花艺师怎么插花才好看（林博会上插花艺术家现场教你插花）

穿书年代文有空间的纯爱文（重回九七甩了渣攻我和残疾大佬好了）

雪橇犬为什么称为雪橇三傻（太感动为救50个儿童）

五大贼王大结局如何（根据真实事件改编）

热门推荐

排行榜