热点推荐
ZOL首页 > CPU频道 > CPU评测 >

IBM PowerPC 970FX: 超标量内核怪兽

Apple不再神秘 三大平台服务器震撼横评

中关村在线 作者:Text 责任编辑:王刚 【投稿】 2005年06月16日 12:39 评论

  G5 cpu其实就是IBM的PowerPC 970FX,RISC指令架构集(了解的人会知道这个架构集相当负责,很难称其已精简),提供32个architectural寄存器,architectural寄存器对于程序员是"可见"的,大部分汇编程序可以用二进制代码调用这些寄存器.


Apple不再神秘 三大平台服务器震撼横评

PowerPC 970FX

  PowerPC 970FX的汇编程序员必须写出清晰的代码,以免造成L1 cache,"秘密的"rename寄存器和architectual寄存器之间的数据紊乱,也有权威人士反映针对PowerPC 970FX编程时所面临的寄存器压力要比EM64T或AMD64 cpu(16个寄存器)小,而EM64T和AMD64的寄存器压力又比它们上一代的32bit x86 cpu(8个architectural寄存器)要小很多,无论如何,64bit版本多出来的8个寄存器使多数x86 64bit的程序性能提升了10%-30%.

Apple不再神秘 三大平台服务器震撼横评

  970FX具有很深的管线,比Athlon和opteron都要深,Opteron拥有12条阶段管线(stage pipeline)用于整数运算,970FX在这方面则有16条阶段管线,浮点运算甚至达到了21条阶段管线(Opteron仅仅只有17条),也许这会使你联想到经典的Pentium 4 Northwood,但是读者要注意到的是Pentium 4在trace cache前还设置了8个stage,也就是总共具有20个stage.在预测结果(branch prediction)的表现上,970FX与Pentium 4(Northwood)不相上下.

  970FX的设计思路十分大胆,它不仅仅体现在更深的处理器管线,更夸张的是它在一个时钟周期内能同时处理5(4+1 branch)条指令,Operton最多只能处理3条,Pentium 4的trace cache带宽限制p4一个时钟周期内只能处理两条x86指令.

  970FX具备乱序执行能力(out-of-order cpu),它能在一个周期内从L1 cache中取出8条指令,并且以相同的速度对指令进行解码,这样优秀的性能使人怀疑970FX到底是不是out-of-order cpu的终极版本?

  也许970FX能同时运行200条指令是鼓舞人心的,如果没有核心尺寸(die size)的限制,这个数字也许能提升到几千条,但是,调度程序必须具备从缓冲区选择独立指令(那些不依赖别的指令执行结果的指令)的能力,而寻找和分析缓冲区需要占据一定时间,虽然大致上讲缓冲区越大,性能越好,但是一个时钟周期内能够分析的指令数相当有限,相对于Athlon 64的72条(共三组,每组24条)指令的reorder缓冲区来说,970FX执行单元前的缓冲区能够存储100条指令还是相当令人敬佩的,这里每组5条指令,这样的分组能使调度程序更容易重新排序和跟踪指令的执行状况.

  内存子系统

  很多人对512KB大小的L2 cache颇有微辞,但是内存延迟的问题更容易引起大家的公愤,Apple网页公布的RAM访问时间是135ns,相比之下,Opteron的RAM访问时间是60ns,Pentium 4(875芯片)的访问时间是100-115ns.

  LM bench 20.4的测试数据具体如下:

Apple不再神秘 三大平台服务器震撼横评

  巨大的内存延迟的确是G5的一个问题.值得一提的硬币另一面则是出色的FSB带宽,G5/Power PC 970FX 2.7GHz FSB的频率达到1.35GHz(双向),单方向具备10.8GB/S的传输能力,虽然双通道DDR400最多只能使用6.4GB/S的带宽,但是考虑到8个预取数据流来说,带宽总会得到有效的利用.

上一页 1 2 3 4 5 ...8 下一页
频道热词:AMD  散热器  intel  
视觉焦点
CPU评测热点
排行 文章标题
TOP10周热门CPU排行榜
  • 热门
  • 新品
查看完整榜单>>