中国龙芯3A5000与性能计数器评测.docx
《中国龙芯3A5000与性能计数器评测.docx》由会员分享,可在线阅读,更多相关《中国龙芯3A5000与性能计数器评测.docx(13页珍藏版)》请在第一文库网上搜索。
1、中国龙芯3A5000与性能计数器评测龙芯的3A5000代表了中国国内的另一项小努力。它实现了四个1A464内核,面向从台式机到服务器再到联式应用程序的所有应用。就像我们之前介绍的兆信KX-6640MA和PhytiumD2000一样,龙芯的芯片以低时钟速度运行。但与其他中国芯片不同的是,龙芯使用的是基于MIPS的ISA。之前的龙芯芯片兼容MIPS64,但该公司改用名为1oongarch的ISAo1oongarch共享MIPS的大部分语义,但使用不同的指令编码。龙芯还扩展了ISA以支持256位矢量执行。我们将在这里做一些简短的基准测试。这样做的目的不是测试大量应用程序以提供全面的性能图。Phoro
2、niX己经有一些结果,以防您想知道CPU通常位于何处。相反,我们正在运行几个测试,并使用我们可用的少量性能计数器来分析它们。我们将使用这些数据来帮助我们分析龙芯的架构。为了进行比较,我们将使用幽的Zen1架构,因为一些网站认为3A5000可能与Zen1相当。泰坦尼克号友好地设置了具有双通道则7-1800的RyZen4X系统2400T。AmpereA1tra,以来自出空Ie云的免费四核实例的形式,也将在这里展示。NeoverseN3内核可能与500OA中的内核更具可比性,因为它们同样不会达到高时鲤速度。高级性能7-Zip是一个高效的压缩程序,我们看到压缩从分析Firefox编译中生成的巨大文件需
3、要多长时间。执行的指令流几乎完全由标量整数运算组成。此处的结果无法与此站点上以前的结果直接比较,因为我们这次指定了16个线程。尽管我们将其限制为四个内核,但运行更多线程可以提高利用率和性能。7-ZipCompression(2.67GBET1Fi1e,16Threads)3A5000在绝对性能上无法与Zen1相提并论。但是,如果我们不让Zen1在一个内核中使用两个SMT线程,则每个时钟的性能具有竞争力。龙芯的实际性能更接近四核安培AItra设置。但即使在那里,它的表现也大大优于。同样,每个时钟的性能很接近,但2.5GHz是一个非常低的时钟速度,即使对于不优先考虑单线程性能的服务器芯片也是如此。
4、视频编码1ibx264是一个用于处理H264编解码器的免费软件库。尽管H264相当古老,但由于广泛的硬件解码支持和H265等较新编解码器的许可问题,H仍然很受欢迎。在这里,我们正在转码守望先锋游戏玩法的短片,使用“非常慢”预设来优先考虑质量。毕竟,如果您不关心质量并且想要最快的编码,您只需使用GPU的硬件编码器。x264_8_cwe1ght-w16node1asejse?;XvTdrep1.h$xr1,$r*8,(2)xv1dr*p1.hSXre,r8,()cee0xr4jSxr1xvna1.hSxr3,xr3,xvaaxi.hC464xvssr1n1.bu.hSxr4,xr3,e82e3xv
5、pri.dSx3.x4483484xvprai.dJxr4,xr4,1JMJCc4ee3vst$vr3,$r4.vstx$vr4,$Z,$r5C18e6a1s1.d$r6t$r7,$r6.C1a4a1s1.dSr4,Sr5.Sr4,13644ebff929addi.w$r9t$r9,()ffb889bit5rW,-()4ceee2jir1$re,ir1.Adi$re,$re.1364SCand1一些从1OOngarCh1ibx264中反汇编的代码,显示了使用“xr”256位1ASX矢量寄存器,以及“辽”256位1SX寄存器此测试中执行的指令流包含高百分比的向量指令。1OOngSOn使用内部函数
6、在其1ibx264的分布式版本中添加了1SX和1ASX支持。这非常好,因为尝试仅使用编译器生成的代码进行视频编码或其他计算繁重的任务将导致性能极差。Iibx2644KEncode,verys1owpreset,erf24Ryzen18X,4c8t(1CCX)1.94Rze18X,4c4t(1CCX)1.68AmpereAtra4c1.121gson3A5O0.960.00.51.01.52.02.5FramesPerSecond不幸的是,性能并不出色。依赖纯C代码通常会导致性能降低个数量级。值得庆幸的是,龙芯避免了这种情况。但3A5000与ZCn1相比表现不佳。它也无法与四核安培A1tra相匹
7、配。考虑到这两个芯片都有128位执行单元,这是一个糟糕的表现。至少在支持AVX2的x86芯片上,此测试中执行的指令中有10%以上是256位的。Zen1确实支持AVX2,但将256位指令解码为两个微操作。安培A1tra当然仅限于128位NEON指令。Zen1和NeoverseN1都不以强大的矢量性能而闻名,但都击败了3A5000。指令计数和IPC性能计数器让我们跟踪很多事件,其中最重要的事件之一是停用指令的数量。在无序执行的CPU中,指令停用是指内核提交指令的结果并使其可见(换句话说,已完成执行并通过所有必需的检查)。我们在这里不是使用熟悉的ISA测试CPUo如果ISA有影响,一个迹象是指令计数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中国龙 A5000 性能 计数器 评测