为什么新骁龙8功耗那么高(第二代骁龙8官方揭秘)

上周2022骁龙峰会正式发布全新第二代骁龙8移动平台,会后高通也举行了技术专访,回答了许多媒体关心的问题。

Q:Arm在6月份发布了A715,比A710能效提升了20%,从能效来看这应该是很大的提升,64位应用目前普及率应该足够高了,而且新的小核也是可以跑32位的,所以想问问为什么高通要为了32位的应用的支持去牺牲两个性能核的能效呢?

A:我们看到中国以及其他不同市场应用方面的情况,确实目前正在由32位应用向64位应用过渡,但是这样的过渡和转型还没有完全实现,现在还是有一定数量的应用使用32位,所以对我们来讲现在这个核心的配置是合理的。

另外,如果说我们只使用A715的话会出现一个问题,那就是我们在跑32位应用的时候只能放在效率内核上来跑,这样就无疑会牺牲相关的性能,所以我们觉得在性能内核方面既有A710,也有A715是正确的选择。

我想补充一下,在第二代骁龙8移动平台上,有一个超大核,四个性能内核和三个效率内核,这样在运行游戏等更加复杂的多线程应用时,能够大幅提升性能。

Q:那高通这边有没有什么举措或技术去推动32位应用向64位的转型?比如芯片级别的转译这种?

A:目前还有部分主流应用是32位,其中不乏游戏、工具和银行相关的应用,这类应用对于运行在效率内核还是性能内核是敏感的。第二代骁龙8的设计是选择将32位应用跑在效率内核和部分性能内核上,确保用户的体验。我们之前进行过对比分析,通过转译让32位应用在支持64位的内核上运行,效率就会减半。当然,从行业趋势上来讲,肯定是需要推动它们向64位转换。

Q:在上周竞品SoC发布时说的是所谓的第二代台积电4纳米工艺,N4P。据我了解第二代骁龙8依然是台积电N4,既然台积电有新的工艺,为什么高通这次没有使用呢?

A:第二代骁龙8里面确实采用的是台积电4纳米制程工艺。在我们看来,这是目前这个时间节点最出色的制程技术,而且是最适于将其大规模量产的。

Q:第三个问题,目前网络上已经有跑分能看到一些第二代骁龙8的测试数据,发现三星使用的超大核是3.36GHz,而在高通官网上第二代骁龙8代号是SM8550-AB,三星这个是不是SM8550-AC,因为它跟我们发布时说的频率不一样。

A:对于骁龙平台来说,有时候同一款产品是有不同的SKU,不同的SKU在产品性能上会有一定的差异,比如有的会高一些,有的会低一些,目前我们还没有办法向大家提供更多的信息,这次骁龙峰会上发布的SKU版本,它的超大核频率就是3.2GHz。

Q:我这边问两个问题。第一个问题是,效率内核A510本身在定义的时候就是两两核心共享一个浮点运算单元和一个二级缓存的,比如原来的第一代骁龙8和第一代骁龙8 用的就是四个A510,每两个A510就能共享一个浮点运算单元和256KB的缓存,但现在的第二代骁龙8变成了三个效率内核A510,那么它们是如何调动和分配资源的呢?

A:第二代骁龙8的Kryo CPU拥有三个A510效率内核、两个A710性能内核和两个A715性能内核,其中每一个性能内核都搭载了独享的二级缓存,并不会与其他内核共享二级缓存或浮点运算单元。同时,所有内核会共享一个8MB的三级缓存。

至于三个A510内核之间的缓存调度策略我们不方便透露具体细节,我们可以说明的是,二级缓存既可以由最多两个内核共享也可以由单个内核独享,在这方面并没有特别的限制。

Q:第二个问题是,今年高通和友商的处理器都加入了对光追渲染的硬件级支持,我想问一下在大幅度提升了GPU性能的前提下,开启光追渲染对Adreno GPU的影响有多大?

A:我们在这次骁龙峰会上与我们的合作伙伴做了光追的演示,有些来自OEM厂商,有些来自游戏工作室。从演示中可以看到,这些游戏在开启光追后仍然可以在60FPS的帧率下流畅运行30分钟甚至更久,有着非常稳定的表现。

另外我想补充的是,在骁龙峰会上我们展示的所有光追特性,都是在小于5W的功耗下实现的,这一点至关重要。我们的技术创新让我们可以在不牺牲性能而且也不增加功耗的前提下实现光追。并且,这是为Adreno GPU专门打造的基于硬件的实时光追特性,并不是来自第三方授权,目前仅有第二代骁龙8移动平台可以实现。

Q:我有三个方面的问题,分别是CPU、GPU和AI,首先是CPU方面的,今年增加了一个性能核是否可以明显地降低对于超大核的使用呢?

A:这里我想强调一下我们的超级内核,实际上它是专门针对单线程的重度工作负载,而且我们在这方面专门进行了优化。性能内核主要是面向高性能、多线程的工作负载,所以如果我们面对的是多线程的工作负载,其实会同时使用一个超级内核以及四个性能内核,但如果只是一个单线程并且需要非常高性能的工作负载,这时候我们还是主要用超级内核。

Q:CPU的问题,注意到上一代骁龙8其实也是8个核心的设计,这一代以后还是8个核心,所以,在设计的时候都是偶数,这是一种特别的考虑吗,还是说有一些什么样的考量维持在8核的设计,而不是说今年单纯做一个加法做一个性能核呢?

A:随着过去我们看到的市场发展方向以及产品演进方向,对于性能内核的需求是与日俱增的,而对效率内核的需求有所下降,所以为了能够进一步增强产品性能,我们就多加了一个性能内核,而考虑到效率内核的使用频率降低,我们就减少了一个效率内核。另外我想补充一下,对我们来讲,所有的性能内核都可以保持非常高的能效。

另外我想补充一下,首先刚才您问到为什么还是保持8核,因为对智能手机整个外形尺寸来讲,8核实际上是最为合理的,而且能为我们带来最大的、来自核心的一些益处。另外Karl所讲的性能和功耗方面的对比,我们减少了一个效率内核并增加了一个性能内核,并没有对平台整体的功耗产生任何负面影响,反而可以在保持低功耗的同时带来更强大的性能。所以对我们而言,目前智能手机采用8核已经算是上限了,我们要在8核范围之内做文章。Q:接下来是GPU的问题,要在5W的功耗内做到硬件级的光线追踪有非常大的挑战,想了解一下高通在这方面有一些什么样独到的技术能够支持在5W的功耗之内还能做到光线追踪呢?

A:就像刚才Ziad所说的,硬件加速的实时光追特性实际上是针对Adreno GPU量身定制的,在GPU的管线里面使用,效果非常出色。第二点,即使有最好的硬件设计,如果应用程序在编写的时候没有根据硬件进行定制化的调整,很容易就会出现性能和功耗不匹配的情况,也就是说会消耗过多的功耗。

我们的同事Dave他的团队发挥了非常重要的作用,因为他主要是和游戏引擎以及游戏制作工作室开展合作,从而确保这些游戏符合我们具体模块的需求,也就是在光追方面符合硬件的要求以及该模块的具体要求。正是基于双方在软硬件方面的合作,才能够确保我们的光追技术能够在保持小于5W的功耗的前提下,在不同的手游作品上发挥非常出色的能效。

Q:关于AI方面的问题是,高通用了一个微切片推理技术,这个技术是不是用到了一些图形计算和图编译的?

A:微切片推理技术就是在提高处理能力的同时,大幅度地减少相应的功耗,因为原来的处理是以层为单位的,做完一层再到下一层,现在,我们把它变成一个一个微小的切片,放到整个模型里,以切片为单元进行推理,这样可以大幅度提升效率。另外我想强调的是,我们在硬件端对它进行了很好的控制,在软件端,双方针对要推理的部分,进行进一步的协同,就可以有非常好的效果。您讲的图计算或者说图编译实际上跟我们所说的微切片推理是不一样的。图计算、图编译看的是比如语义等不同的数据点,把它放在一个图神经网络(Graph Neural Network, GNN)里面,体现不同数据点之间的关系。而微切片原理主要是针对一个单一的数据点,充分地利用硬件方面的性能对它进行更好的推理。在微切片推理方面我们是把图分割成不同的部分,通过它能够提高推理效率,让这个效率最大化。Q:最后一个问题是今年增加了对INT4精度的支持,处理器就可以支持更多的精度,是否会进一步地引入混合精度的方式去提升AI计算的效率呢?

A:我们已经能够实现对混合精度的支持,但是具体怎么混合取决于我们到底面向什么样的工作负载,比如说是语言处理的工作负载还是量化方面的工作负载,我们会基于具体工作负载的要求,将整数和浮点的精度支持有效地整合在一起。

我想强调一下,我们这种对混合精度的支持是不需要手动操作而是可以自动实现的,目前第二代骁龙8移动平台已经实现了对INT4的支持,未来,我们会在Qualcomm AI Studio上推出自动混合精度支持(AMP),从而确保这方面的技术能够被大家使用。

此外,还想补充一下的是,高通公司作为一家技术公司一直以来都非常看重整数的处理,因为我们希望能够在边缘侧提升AI处理能力。如果使用浮点的精度来进行推理和处理,往往没有办法达到我们所需要的功效表现,高通公司通过Qualcomm AI Studio能提供一应俱全的工具,在保证准确度的前提下,更好地进行AI处理的同时保持更高的功效。

Q:我们想问一下第二代骁龙8是否会搭配新的音频DAC方案,WCD9385是否会有后继型号?

A:目前第二代骁龙8没有采用新的DAC,我们看到WCD9385目前已经拥有不错的性能表现。如果未来我们的客户在旗舰层级市场有相应需求,我们会进行相应的调整和改进,以满足他们的不同需求。

为什么新骁龙8功耗那么高(第二代骁龙8官方揭秘)(1)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页