(麒麟)Kirin9000/9000E:这就是Mali-G78的预先目标?
Kirin9000终于发布,确实也证实了一些比较令人吃惊的规格。所以就来谈谈这个,这个真实令人吃惊的SoC。
CPU:5nm和高频A55小核心
首先进入传统的CPU性能的部分。其规格并非一个非常令人吃惊的规格:
1x Cortex-A77 @ 3.13 GHz | 1x Cortex-A77 @ 2.84GHz 1x512KB pL2 | 1x Cortex-A77 @ 3.1GHz 1x512KB pL2 |
3x Cortex-A77 @ 2.56 GHz | 3x Cortex-A77 @ 2.42GHz 3x256KB pL2 | 3x Cortex-A77 @ 2.42GHz 3x256KB pL2 |
4x Cortex-A55 @ 2.05 GHz | 4x Cortex A55 @ 1.80GHz 4x128KB pL2 | 4x Cortex A55 @ 1.80GHz 4x128KB pL2 |
kirin 9000/9000E | snapdragon 865 | snapdragon 865+ |
可以说,kirin9000的CPU规格和晓龙865+是一个水平的。主要区别在于,A77是预期运行在3GHz的,而晓龙865却运行在远低于此的值。而kirin9000和晓龙865+,其实都算是比较正常的A77频率。
Kirin9000的cpu优势纯粹是建立在中间核心的A77高了0.14GHz和小核心冲击上2.05GHz带来的。当然还有5nm的能耗比优势。
就现在来说,当然kirin9000能够建立起对于865+的性能优势,但是很明显,X1和A78早已发布,甚至泄露都七七八八了,就这个点来说,再去购买A77的产品就我个人来说总是认为是49年入国军的。
GPU:规模巨大,可是合算么?
GPU实际上可能是很多人会比较吃惊的,毕竟上一次堆上这么大的规格还是exynos8895。
Valhall架构 GPU | ||||||
kirin 9000 | kirin9000E | Exynos990 | D1000+ | D1000L | Kirin 985 | Kirin820 |
G78 MP24 | G78 MP22 | G77 MP11 800MHz | G77 MP9 836MHz | G77 MP7 695MHz | G77 MP8 804MHz | G57 MP6 804MHz |
/ | / | / | / | / | L2/总线带宽为G77满规格一半,与G57相同 | / |
我们知道,更多GPU核心一定会以功耗作为代价。所以作为权衡,整个GPU就会适当降频,这意味着,对于GPU来说堆一倍的规模并不是意味着性能提升一倍,而是对应降频的能耗比提升。实质上这个问题是选择一个能耗比更高的频率并且配合规格堆满功耗阈值的问题。
这也意味着,受限于架构和功耗限制,GPU规格的堆料,也是存在明显的边际效应的。
说到底,不管什么架构,都存在一个能耗比最高的运行频率,偏移这个运行频率,能耗比都只会更差的。
如果你看过我之前的MSM7201a的CPU测试,以及晓龙820的GPU测试。前者的ARM1136 CPU能耗比在384MHz处达到最高,低于这个频率高于这个频率,实际上都意味着能耗比的降低。后者的GPU在大约300MHz处,也存在一个峰值,这也意味着这个GPU运行在高于或低于这个频率是存在能耗比的降低的。
这也就是我所说的,GPU的边际效应,在越接近这个规格的时候,堆规模的收益会越来越小,甚至反而有损失。
通常,我不会去提这个问题,因为这个问题通常是不存在的:绝大部分厂商不会到规格大到我需要去讨论这个问题的程度,而且我相信,绝大部分厂商不会这个道理都不明白,一定要去把规格堆到这个程度,除非有必要。
但是很明显,在Kirin9000和9000E上,我就有必要去讨论这个问题了,因为他实在是太大了。
我已知的Kirin9000的一个实际表现在这:
可以看到,其峰值的FP32吞吐量达到了大约1.1TFlops,这意味着此时,该GPU运行在大于712MHz的频率上。当然,极其巨大的规模意味着其功耗也达到了大约10W。
随后降频到865.5GFlops,意味着其GPU降频到了大约560MHz,这意味着他的吞吐量实际上和一个790MHz的MP18是接近的。而考虑能耗比,此时能耗比提升了大约31%,功耗在6W附近。
而我网络上找了一个麒麟985的:
可以看到,其能耗比大约关系:
Valhall GPU GFlops | ||
Kirin985 peak | Kirin9000 peak | Kirin9000 throttle |
109GFlops/W | 109.3GFlops/W | 144GFlops/W |
可以看到,Kirin9000实际能耗比提升在33%左右。当然,这是纯粹依赖于降频的,如果当你只去讨论峰值性能的时候,你就只能接受东西吓人的功耗了。
而考虑通用计算的GB5计算成绩,在同样是的Valhall架构的成绩中,Kirin9000有较大的浮动,这或许就是散热限制的功耗的区别:其中中间在6492附近
Valhall GB5 compute score | |
Kirin9000 | Exynos990 |
5000-7820(6492) | 5430 |
119% | 100% |
或许在散热环境足够理想下,可以达到44%的优势。但是中间的数大小在19%的优势。
最后,这使得你可以指望在GFX Manhattan 3.1离屏中,达到110-122FPS,保持在大约5.9W的功率上。能耗比在18.6-21FPS/W附近。
总的来说,可以认为,这就是Valhall架构的极限,至于5nm红利去哪了,我也不知道,但是很明显离开了5nm 的密度红利,Kirin9000是无法堆砌上这么大的规格的。同时,G78积极强调的GPU核之间的带宽,也是建立堆砌如此多核心数的基础。或许在架构上,G78就是专注于更加拓展核心数量,而抛弃对于单核心的能耗比表现的提升,本身的目的就在于拓展核心数降频频率来换取总体上能耗比的提升。
如果G78的后代继续拓宽架构,或许还能达到更好的水平。但是做更大的GPU终究只是一个向边际效应挑战的行为。当然相对于前代Kirin990不同的是,这一次的竞争对手(ARM授权端),也是使用的Valhall架构,甚至是如今唯一的一个G78的产品。可以预料的是,竞争对手要超越Kirin9000,就业需要相应的资源堆砌。而如果G78确实本身就以堆砌核心数为前提构建,并且以更多核心数换取更低频率作为目标,那么巨大核心数的G78或许会在下一代的产品中遍地开花:Kirin9000如此规格的产品会是G78世代旗舰芯片的主流。
但是对于Adreno600架构的高通端,在能耗比上G78配合如此巨大的规模降频,也才将其追上,在下一代Adrenno600架构只需要延续路线,利用新的工艺的密度和电气性能提升,将GPU规模继续提升,就可以保持能耗比优势的同时也保持性能优势。Adreno600的架构优势依旧是明确的,甚至或许在5nm工艺中,Adreno600能够在继续缩小GPU的面积的前提下完成这个目标。
IOS端,A13的优势将会消失,但是并不能认为furain二代的优势就如此了:A13的GPU面积依旧会是在这些竞争中较小的那个。而A14就只能静候Albiorix的实际效果了。
NPU:老IP无聊的复用?
NPU显然并没有已知的巨大改变,主要改变在于NPU大核心和tiny核心的配置不同了。9000E使用单大核+单Tiny核,而9000则主要使用双大核+单Tiny核。剩余的,可以指望运行周期的增加带来的提升。
总结+其他
不管怎么样,Kirin9000是毫无疑问的堆料产品。甚至可以说正是因为堆料,才会有Kirin9000E这样的阉割版:这样毫无疑问会提高良品率,因为实际上需要可用的面积变小了。
但是,真正展现出优势的仅仅是GPU,因为GPU的性能提升可以说是仅仅以隐性的面积作为代价就可以换来的,而作为用户,将不会感受到直接的体验损失。虽然他们的钱包可能会因此变得更瘪,并且面积性能会存在极大的损失。
同时,随着时间发展,我又不得不说:集成基带将不会是一个好主意。随着半导体发展的极限,整个行业的趋势将会是MCM。而且更加现实的是,晓龙865+X55基带的面积总体和Kirin990 5g相当,但是因为分为两片die制造,前者的成本将会比后者更低。除非是诸如D1000+这样的产品,既不得不承认D1000+这样的接近于同代旗舰的产品,其成本较低,才有能力在控制成本的基础下,将基带集成进一片die中。当然,他们的优势就是建立在不去冲击边际效应之下的,也正是因为只是要接近与同代旗舰的产品力,才可以在如此有限的面积下完成这些事。
当然,对于一个末代旗舰芯片,好像说这事也没什么意义……