第一个4年(1999年6月23日——2003年9月22日)
● Athlon第一个4年 Athlon诞生——Pluto、Orion、Magnolia
第一款K7处理器于1999年6月23日首度亮相。AMD在K7时代给予了CPU一个响亮的名字——Athlon,其名称取自田径运动的“十项全能” (Decathlon)。从这一天起,Athlon时代正式到来。首批处理器的主频介于500到700 MHz之间,并带有512 KB的半速L2 cache,之后AMD又抢在Intel之前推出了1000 MHz的版本。这一架构内核发展共经历3个阶段:Pluto、Orion、Magnolia。这些处理器使用的插槽,与Pentium II的Slot 1相似,但两款插槽并不兼容。
采用了Slot A插槽的Athlon 650(Pluto核心)
上图就是采用了Slot A插槽的Athlon 650(Pluto核心)。这颗CPU使用0.25微米工艺制造,核心面积为184mm2,6层金属连接,晶体管集成数量达到了2200万。Athlon拥有128KB一级缓存(64KB指令+64KB数据),这一设计也在整个8年的变化中得以保留,这个阶段Athlon内核与L2 Cache采用分离式设计,核心位于长方形电路板中央,L2 Cache植荚谄淞讲啵幌馪entium II集成在一个管芯里。
从Athlon时代开始,AMD的CPU能够实现乱序执行Out Of Order(它允许执行指令的顺序和取指令的顺序不同,实际上做到了指令只要有可能就执行。因为关键的路径计算可能随时开始和完成,因此这种方法加快了指令的执行速度)、可编程L2接口、在CPU与芯片组之间使用200MHz EV6总线(增加与内存之间带宽,获得更大的数据吞吐量)、增强型3DNow!TM指令集(在原有的3DNow!TM上继续完善追加至52个指令,包含一些SSE码,同时获得了更多软件的支持。但是3D Now!缺乏SSE所具备的IEEE-754兼容性、视频加速能力以及内存流式传输能力,因此虽然3D Now!一开始的时候威势不少并且有大量媒体借机炒作,但事实证明3D Now!的确有不少地方不如SSE)。
从内部而言,Athlon是完整的第七代x86处理器。也是它的同类型中的首位。这颗CPU是由AMD工程师和新雇用的DEC工程师联合开发的。所以融合了AMD以前的CPU和DEC Alpha 21264的技术。正如AMD的K5和K6,Athlon是一个RISC(精简指令集)的CPU,能够实时解码x86指令到它自己的内部指令。
AMD设计的这颗CPU提供了更加稳定的x86指令编码兼容性,使它可以同时处理更多的数据。Athlon的CISC(相对RISC而言,复杂指令集计算机)-RISC三元组解码器能够在每个时钟解码6个x86操作。关键分支预测单元(Critical Branch Predictor Unit)相比K6得到增强,这是因为Athlon更长的管线使得高准确的预测成为必要,否则将会导致使性能下降的管线延迟。
上图为Athlon的内核设计详细结构,其在设计时参考了Alpha 21264处理器。21264以超标量超流水的方式实现了Alpha体系结构,是一颗设计先进的高性能CPU,其在SPEC benchmark中取得了相当好的成绩。Alpha 21264的缓存系统也对高性能水平做出了贡献。Athlon继承了它的高效缓存设计——芯片内部L1包括一个64KB的指令缓存器(I-cache)和一个64KB的数据缓存器(D-cache)和外部总线——Alpha EV6 200MHz,片上和片外缓存提供了低延时的数据访问能力,从而带来了很高的数据访问带宽和整体性能,而且AMD K7处理器的动态分支预测技术也领先于P6架构,同时具有多重并行x86指令解码器。由于当时制造工艺的局限, L2 Cache部分只能以2/3、1/2、1/3于CPU主频速度运行,在后来很大程度上又制约了CPU整体性能发挥。以往AMD CPU较差的浮点性能在Athlon架构中同样得到改善,其浮点性能与Pentium III相比毫不逊色。
AMD的缓存设计与Intel相比也有很大不同,Athlon架构使用拥有一个很大的L1 Cache,直到今天的Athlon 64也一样没有发生变化。这表示了CPU需要的大量数据可以从L1获取,而Pentium III的L1 Cache则很小,为16KB,很大程度上要依赖于L2 Cache提供数据。所以Intel为CPU设计的L2 Cache位宽和关联度都比较高,以此来获得较高的L2带宽。特别是到了Pentium 4时,L1 Cache数据缓存只剩下8KB,Intel用新增的一种一级追踪缓存替代指令缓存,容量为12KμOps,表示能存储12K条微指令。所以Pentium 4必须有一个很大的L2 Cache,L1 Cache在Pentium 4中更多的作用是告诉CPU数据在L2 Cache的某个地方,而并没有存放很多数据。因此在低端市场,AMD可以大幅度削减CPU的L2 Cache,带来性能损失远没有Intel,这也为抢占低端市场打下了坚实的性能基础。
安装了散热器的Slot A插槽Athlon
Intel没有想到AMD在K7时代变得异常强大,这让Pentium III措不及防,Intel迅速将Pentium III过度到新核心——也就是后来最流行的Coppermine,它使用0.18微米工艺,256KB全速二级缓存,支持Socket 370与Slot 1两种接口。Intel终于把L2 cache集成到了和CPU同一枚管芯(die)内,也是在Pentium III,Intel引入了71条SSE扩展指令集,显著加强了x86处理器在流媒体处理方面的能力。
Coppermine微架构(0.18微米Pentium III,属于Pentium Pro家族第3代改进型)
其实Pentium II和Pentium III的设计来自于对Pentium Pro的改进。1995年11月1日,Intel推出了当时看来可以用“硕大”来形容的Pentium Pro处理器(中文名称是高能奔腾),这款代号P6的产品和Pentium相比革新相当大,例如整数流水线采用了10级工位的超级流水线;能作多重分支预测和猜测执行;具备能够把x86指令转换成RISC风格微操作的译码器;实现了乱序执行等。
如图,Intel CPU晶体管集成数量的发展
在规格上,Pentium Pro相当强大,其晶体管集成度发展速度甚至超越了摩尔定律,使CPU的性能进一步提高到惊人的水平。即使是这样,在整个Pentium III时代,Intel仍无法超越AMD,Athlon优秀的架构抵挡了所有来自Pentium III的进攻,在性能上几乎全面领先。更重要的是2000年3月6日,AMD抢在Intel之前,在美国加州的Sunnyvale发布了第一款实用的1GHz Athlon处理器(Magnolia核心),跨越了一个新的里程碑。对于奉行摩尔定律的Intel来说这样的局面是无论如何也抬不起头的。这在当时被称作AMD完全的胜利!
如上图,Athlon在当时的各种测试中终于让AMD扭转乾坤,也使CPU市场格局发生了翻天覆地的变化。Athlon取得不可动摇的性能领先。
在这个需要支持SMP的测试中,Athlon虽败给了双路Celeron,但用测试人员的话说:不可想象未来配备在服务器上的双路Athlon将会取得怎样的领先。
第一代Athlon 1GHz在生产时没有能得到高性能的SRAM晶圆,所以很可惜,其L2 Cache是以1/3于CPU主频速度运行的。反而随着Pentium III的频率上升,性能的增益也越来越强,不要忘了其所采用的全速Cache。在1GHz 决战时,迟到的Pentium III终于超越了Athlon。
- 第1页:● Athlon到来之前
- 第2页:● Athlon第一个4年 Athlon诞生——Pluto、Orion、Magnolia
- 第3页:● 延续辉煌——Thunderbird
- 第4页:● 开始革新——Palomino
- 第5页:● 坚持斗争——Thoroughbred(A/B)
- 第6页:● 完美谢幕——Barton
- 第7页:● Athlon第二个4年(2003年9月23日——2007年第三季度)
- 第8页:● 1、全新设计的AMD 64核心
- 第9页:● 2、x68-64计算技术