APPLE A14:目前可公开的情报
A14其实也算是发布一整子了。关于A14也有很多比较有意思的点。
A14依旧是2大核4小核,以及新的4核GPU,使用了台积电5nm工艺。
A14 CPU:极限下的情理之中
首先是A14的CPU核心,两个大核的提升幅度真不大。在这背后GB5从大约1300涨到1500的成绩,主要是依赖新的大核达到了3GHz。另外一个小细节是,小核心的一级指令缓存从96KiB增加到了128KiB,一级数据缓存从48KiB增加到了64KiB。二级缓存依旧保持A13的规模。
当然,CPU核心的频率提高,相应的因为内存延迟,CPU的PPC是会存在下滑的。所以其中PPC的提升或许来自于lpddr5内存的提升,尤其是A14的GB5的成绩主要提升来自于浮点和加密,PPC提升达到了7%和14%,而整数提升在3.4%,这可能就是由于内存带宽的提升带来的在浮点和加密项目上SIMD指令吞吐上的优势。同时A14也很有可能继续降低了缓存的延迟周期,才综合的达到了这样的提升。
GB5 单核 | A14 偷跑 | A13 | 性能比例 |
加密 | 2475 | 1925 | 128.5714% |
整数 | 1432 | 1232 | 116.2338% |
浮点 | 1760 | 1462 | 120.3830% |
GB5 单核 PPC | A14 偷跑 | A13 | PPC 比例 |
加密 | 827.7591973 | 723.6842105 | 114.3813% |
整数 | 478.9297659 | 463.1578947 | 103.4053% |
浮点 | 588.6287625 | 549.6240602 | 107.0966% |
其实A14也更加明确的标志着,苹果的CPU推进进入了吃制成红利的阶段。就像A12开始,进入到A13,苹果的大核心加入了AMX指令,同时大幅度的增加缓存大小,降低缓存的延迟周期。剩余的还是延续A12的架构,并没有让大核心变成一个更宽的CPU架构。而A13小核心,在整数管线的提升也就一个可能把能执行flag set的管线增加了一个,主要的提升还是在使浮点和SIMD管线增加了一倍。
对于苹果来说,追求大核心的巨核架构,在指令的本质并行度面前,CPU宽度已经达到了极限。这使得苹果接下来,在大核心的整数的提升就只会在更加优化内存子系统和内部的寄存器大小。或者说除此之外,苹果的大核心已经达到了原理上的物理极限。接下来要拓展CPU的性能也只会更加倾向于开发CPU的并行计算力,无论是A13的AMX还是A13的小核心SIMD管线翻倍,都是在发展向量指令,拓展CPU的并行算密度。
A14的改动将不仅仅是这一代你会看到的,而是将来就是这样了。
A14 NE:规模翻倍,大势所趋
A14的NE从8核增加到16核,或许这就是直接上一代的两个NE直接怼上去。随着现在设备的发展,对于神经网络性能的追求也是越来越大。加上NE或者NPU很可能就是一个巨大的SIMD吞吐的集群,在这样的高计算密度需求下。NE或者NPU以及GPU以及CPU的SIMD指令吞吐量,都会是将来的发展趋势。
A14 GPU:合理下的翻车?
GPU上虽然说,大家都估计按ppt提升就8%。所以,人人(包括我)都以为这就是苹果把A13的GPU新工艺翻新了一下,超一下频。可是并不是,一方面,确实有证据显示,苹果使用了新的架构。另外一方面,GB5的metal项目下,A14确实超越了A12Z一些。所以这里到底发生了什么?
毫无疑问的是A14转移到了新的架构。他就是imagination的Albiorix架构的产物,相对于A12Z的furain第一代,Albiorix架构是一个非常巨大的提升。在furain一代架构中,每个核心拥有两个USC,其中每个USC拥有一个32宽的MADD单元以及一个32宽的MUL单元。所以在furain二代架构中,每个核心乘加的单精度浮点吞吐量可以达到192Flops/clock。而在A14所使用的Albiorix架构中,同样配置又两个USC,而每个USC的拥有一个128宽的MADD单元。这使得A14的每个核心的乘加单精度浮点吞吐量,可以达到512flops/clock。
这也就意味着,A14的每个核心他的吞吐量应该超越A12Z的两个核心42%。而A14的核心的每周期纹理吞吐量也可以达到A13的两个核心的水准。为了控制功耗,A14相对于metal性能略弱的A12Z这样一个平板的GPU,有一个明显的我估计25%左右降频幅度。
这样一来,A14的规格提升,也能对应到GB5的metal的提升幅度。因为A14的规格本身,就是超过A12Z的furain一代架构的8核GPU的。
GPU架构吞吐量 | furain一代 | furain二代 | Albiorix |
实例 | A11//12/12X/12Z | A13 | A14 |
ADD每核心宽度 | 64 | 80 | 256 |
MUL每核心宽度 | 128 | 160 | 256 |
FP32每核心周期吞吐量(flops/clock/core) | 192 | 240 | 512 |
那么A13那边呢?A12Z的吞吐量高出了A13的50%,而metal的领先幅度接近了60%。这也就是说,相比之下A13相对于A12Z的降频幅度在大约6%。A13的GPU功耗控制更多是在和A12Z本身就相差巨大的硬件差距以上的。
这也使得A14即使有了5nm加成,在这么巨大的规模下,依旧相对于A13降频了大约20%。
另外一点是,在去年Albiorix架构的ppt出来的时候,我第一个就注意到的问题就是,128宽的MADD单元。这意味着在这么宽的SIMD单元和wavefront下,Albiorix可以达到前所未有的浮点计算密度,但是同时,要能够利用这么宽的GPU的也是一件非常困难的事。具体这个问题我在过去就说过。或许我的读者或者观众,很久以前就有说:高通的AdrenoGPU利用率低。在这么宽的wavefront下,Albiorix架构在这方面的问题只会困难的多。应该说,作为一个128宽的SIMD,在GPU架构中,已经是我们可见到的最宽的GPU架构了。而在AMD方面,GCN架构,使用了64宽的wavefront,但是在RDNA架构中,也重新缩小到了32宽。如今,GCN则专注于需要高计算密度的需求。
GPU wavefront宽度 | Bifrost | Valhall | GCN | RDNA | Albiorix |
实例 | G71/72/51/76/52 | G77/57/78/68 | / | / | A14 |
wavefront宽度 | 4 | 16 | 64 | 32 | 128 |
再来看到metal的跑分,metal的跑分并不是一个我们一般定义的GPU跑分。Metal的整个测项目都是围绕着GPU的通用计算能力展开的,最简单的,这意味着metal和我们一般要求的GPU性能是绝缘的。Metal的成绩,绝不能代表GPU的图形性能,真实的GPU的图形渲染性能的环境和metal是完全不同的。而在真实的GPU的图形性能上,或许Albiorix就是纯粹的翻车了,导致了A14的图形性能在ppt上,提升的非常的有限。
总结:A14或许无聊,但是别无法他
A14说到这里,A14因为说到底是一个iOS平台的设备,所以只要他不比前代更差,这事也没办法说他。A14的CPU很明显,已经说明苹果的大核心已经在我们一般的日常领域的性能需求下达到了物理上的极限,接下来的路线就是提升CPU的内存子系统的性能。而另一点,我管现在这个时代叫AI时代,神经网络性能这个时代变得越来越重要。同时这也是符合,单指令执行速度达到了物理极限,所有计算都必然向并行化发展的趋势的。A14的一切其实都是在说明这一点。
膜拜大佬