● 开始革新——Palomino
微架构的研发对一代甚至几代CPU产品都有着重要影响,其研发时必须考虑制造工艺、晶体管集成度、未来发展趋势等很多方面。Intel在1998年开始了对NetBrust(网络爆发)微架构的研发并在2000年取得成效。AMD也在98年前后开始了对新的64位微架构Hammer(大锤)的研发并在2001年生产了少量测试产品。但是Hammer最终在2003年推出市场,而使得Athlon必须在这一段时间独立面对Intel。
依靠强大的产能和市场控制力,Intel在Pentium III时代依然保持了良好的上升势头。但Intel连续在与AMD的性能斗争中失利,让剧情在这里发生了变化。Intel站在岔路口上:是继续增强Pentium III的能力,提高其主频?还是转向新的微架构?迫于Athlon的压力和自己在CPU市场的地位,Intel高层做出了一个惊人的举措,决定把P6微架构的发展暂时冻结(已成功生产的Tualatin核心Pentium III必须为Pentium 4让位),转向激进的甚深流水线架构——NetBrust,也被称作P68。
如图,Pentium III和Pentium 4的流水线长度对比
采用甚深流水线的目的为了在同样的工艺下获得更快的时钟频率,NetBrust正是如此,它采用了20级超长流水线,配合Intel的制造工艺,获得非常高的运行频率。但长流水线也有致命的缺陷——执行效率低下。流水线越长,对于采用乱序+猜测执行的处理器来说,预测失败的成本就越高。Pentium III的流水线在预测失败的时候会损失10个周期,而在第一代的Willamette Pentium 4 上就达到了20个周期。即使这样,Pentium 4照样把频率提得超高,一定程度上弥补了分支测错造成的性能损失。
Athlon开始面对一场从未预料到的战斗,对手Pentium 4采用了疯狂飙升频率的办法来打压自己,Athlon的战略也不得不做调整。
2000年11月20日,Intel发布Pentium 4 1.4GHz、Pentium 4 1.5GHz处理器,采用了0.18微米工艺技术,提供256K的二级缓存。这是采用了Willamette核心的第一代Pentium 4,虽然将频率提升到2.0GHz,但相对落后的工艺和缓存容量限制了性能的提升空间,Athlon还是能战胜它。但这时的Athlon已明显感觉体力不支,并预测到未来会迎接更猛烈的挑战。同时Athlon XP策划已经出炉,越来越多的信息表明AMD要改进核心来应对Intel。
2001年8月27日,Intel发布Pentium 4 2.0GHz处理器,采用了最新0.13微米工艺技术,提供512K的二级缓存,这标志着Northwood核心正式启用。随后,Pentium 4在1年多的时间里将频率迅速提至3.06 GHz,并引入超线程技术。而AMD则开始艰苦的追随战。
AMD于2001年10月9日正式发布新型的Athlon XP处理器,AMD Athlon XP中的XP指Extreme Performance(卓越性能),它支持更大的高速缓存、专业3Dnow!技术和QuantiSpeed架构。首批Athlon XP采用Palomino核心,制造工艺没有像人们预想的那样有所提升,而是沿用了上一代的0.18微米工艺,二级缓存的大小也维持了256KB,Palomino将Thunderbird的核心元件位置做了更改,内核形状由原来的长方形变为正方形,当时普遍认为这样的改动是为将L2提升到512KB做调整,很可惜实际的产品并没有证实这个想法。Palomino相对于Thunderbird当然还是有一些改进的,它将一级缓存中Data TLB数据缓存中的4K寻址页的地址变量寄存器由Thunderbird的24项提升到32项。这样可有有效增强缓存命中率,在缓存数量不变的情况下,有效增强了效率,商业应用下性能进一步提升。同时新核心加入了第三代3D Now!指令集,使3D Now!通过一些转换能够兼容一些SSE指令。其余架构方面完全没有改动。
如图,Athlon XP基本的架构没有发生变化,而Pentium 4则完全不同了。Athlon XP相对于Pentium 4拥有更高的IPC是不争的事实,性能(Performance)=频率(Frequency)×每一时钟周期内所执行的指令多少(IPC instructions per cycle),IPC是一个较为公正的效率值。比如Athlon XP 1600+,实际频率为1333MHz,它的性能大约相当于1颗1.6GHz的Pentium 4。
针对自己拥有高IPC,而对手拥有高频率,AMD提出了QuantiSpeed架构理论来反击“频率至上论”。QuantiSpeed架构理论有以下几个部分组成:
1、超标量完全管道化微体系结构。QuantiSpeed体系结构的核心是同时发出9条指令的超标量完全管道化微体系结构。这种体系结构能提供更多的路径,并应用指令传送到核心的执行机制,因而处理器能够在给定的时钟周期内完成更多的任务(高IPC)。路径(管道)深度与处理器操作频率之间的良好平衡能产生极高的性能。如果只是管道更长,就会产生较低的IPC和高操作频率。如果只是管道更短,将提高IPC,但频率会降低。AMD Athlon XP处理器能够保持管道深度与处理器频率之间的平衡,因而能实现极高的总处理器性能。
2、超标量完全管道化浮点QuantiSpeed采用了超标单元量完全管道化浮点运算单元(FPU),与x86处理器相比,不但能够在每个时钟周期内完成更多的浮点操作,还能提高操作频率,因而能产生最强大的x86 FPU。AMD Athlon XP处理器有足够的计算能力,能满足计算最密集的软件应用的要求。
3、硬件数据预取将指令从系统内存预取到处理器的一级指令高速缓存中,提高了处理器的工作吞吐量,从而提高整体性能的通用作法。QuantiSpeed体系结构的这种特性能将数据从系统内存预取到处理器的一级数据高速缓存中,从而缩短了向处理器输入关键数据的时间,提高了工作吞吐量。因此,在使用带QuantiSpeed体系结构的AMD Athlon XP处理器时,应用性能将自动得到增强。
4、非复用TLB。QuantiSpeed体系结构中的TLB结构能保留关键数据表以及靠近处理器的指令。当再次请求数据或指令时,这种设计使处理器无需等待就能开始操作。这些TLB结构现在更大,在高速缓存之间是唯一的,具有预测性。更大的TLB使AMD Athlon XP处理器能访问其它图形;这些结构的排他性消除了信息复制,在二级高速缓存中释放出更多的空间,留给处理器使用其它有用信息;推测使AMD Athlon XP处理器能快速产生关键数据和指令的未来图形。对TLB结构的这3种增强进一步提高了每个时钟周期能完成的工作量,从而提高了AMD Athlon XP处理器的实际应用性能。
QuantiSpeed架构理论实际上是完全相对NetBrust微架构提出的,它全面总结了Athlon XP一贯的架构优势,间接地说明对方高频低能。Athlon XP在此理论背景下重新启用了废弃多年的PR值对CPU性能进行标注,当然这也是在Intel的高频压力下被迫做出的举动。特别是像Pentium 4这样使用长流水线的CPU,IPC相对Athlon XP偏低,所以频率较低的CPU使用PR值来标注性能是完全可行的。
在其他方面也有一些变化,与Thunderbird核心相比Palomino对核心做了一些优化,如晶体管数量增加的同时CPU功耗大大减少。新核心中集成了热敏二极管和温控电路,使处理器具备内核温度探测和过热保护功能,增强了CPU的稳定性和易用性,改变了以往给人们不稳定的印象,性价比在Pentium 4的压迫下也同样很高。Palomino最终把频率提到1733MHz,PR值为2100+。
当然实际频率低会造成CPU在流媒体和数据转换应用中性能下降,所以Pentium 4在这些方面一直保持着对Athlon XP的压制。还有一点是不能忽视的,在FSB方面,Athlon XP也一直没有超越Pentium 4,这意味着Athlon XP在数据密集型,内存敏感型等方面不能和Pentium 4相比,Athlon XP运用EV6总线最终将FSB提升到400 MHz,而Pentium 4则使用QDR-speed四倍速前端总线技术把FSB做到800 MHz,内存吞吐量达到6.4GB/s。