超线程技术的回归成为了Nehalem架构处理器的一大亮点。在多核处理器大行其道的今天,超线程技术不仅帮助芯片企业降低了生产成本,还将多线程性能发挥到了极致。进一步提高了处理器的运算效率,不能不说这是一次技术上的突破。但即便是多线程应用已经非常广泛的今天,仍然有不少仅支持单线程计算的应用程序存在。而超线程技术在这些应用程序上反而帮了倒忙。今天我们就从应用层面入手,为大家找出超线程技术扼杀的受害者......
在开始我们的测试前,首先了解一下Intel超线程技术,以及为何在Nehalem系列处理器中引入超线程技术。
超线程技术历史
超线程,早在2002年Intel便已经推出了这一技术,并且广泛的在奔腾4处理器中大规模应用。据当时的Intel官方资料,采用了超线程技术的奔腾4处理器可以比原产品效能提升10%-15%左右,可见Intel对超线程技术的运用是信心满满的。
但是事实却出乎Intel的意料。首先是来自操作系统端的问题,当时微软已经发布了Windows 2000系统,然而该系统并没有加入对超线程技术的支持,虽然后来出现的Windows XP系统加入了对该技术的支持,但也最终因为应用软件端对超线程技术的优化较少而作罢。另一个问题是来自于Intel自身的奔腾4处理器。基于NetBurst架构的奔腾4处理器由于过分的追求高主频加长了流水线设计,这导致了处理器的主频虽然达到了3GHz以上,却并没有提供3GHz主频相等的性能。由于过高的流水线已经造成数据运算错误率提高,在加上超线程技术的双核模拟容易让CPU在运算时命中失败,且对带宽的惊人需求。超线程技术不但没为处理器带来更高的执行效率,反而在某些情况下降低了奔腾4处理器的性能。所以说超线程技术虽然是一个非常先进且使用的概念,但在那个时代并不适合。
早在奔腾4时代Intel就加入了HT超线程技术
进入酷睿2时代后,由于内存带宽没有获得突飞猛进,而且酷睿2处理器的短流水设计并不适合超线程技术,因此新一代的酷睿架构处理器也就取消了超线程这一概念。
随着技术的进步,Intel已经进入了45nm工艺和Nehalem架构时代,在最新的Nehalem Core i7处理中,由于对DDR3内存控制器的整合,同时引入了三通道内存技术,内存带宽得到了质的飞跃,QPI总线的引入也令处理器的带宽大幅提升。这为超线程技术的回归提供了契机,于是乎Intel在酷睿i7系列以及未来的双核酷睿i5处理器中加入了超线程技术。
此外,新一代操作系统的推出也给多线程处理器提供了施展拳脚的机会,而3D游戏以及众多的应用软件也针对多线程进行了优化,可以说超线程技术在此时回归时绝对的最佳时机。
● Nehalem超线程技术细节
超线程技术就是利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片,让单个处理器都能使用线程级并行计算,进而兼容多线程操作系统和软件,减少了CPU的闲置时间,提高的CPU的运行效率。
Nehalem架构采用的为同步多线程技术(Simultaneous Multi-Threading,SMT)。基于2路设计,即每颗核心可以同时执行2个线程。在多任务情况下可以有效提升性能,采用这种模拟的逻辑运算核心绝对比直接增加一颗物理运算核心成本低。
超线程技术让酷睿i7在设备管理器中被识别为8个核心
超线程技术的应用不仅需要指令集方面的帮助,同时也需要消耗一部分晶体管以在硬件上提升处理器运算效率。推测这一晶体管的数目大概为数百万个,但具体数量我们现在还不得而知。
需要指出的是,超线程技术虽然让处理器实现了线程数量翻倍的目的,但它并不像两个物理核心,每个核心都具有独立的资源。当两个线程都同时需要某一个资源时,其中一个要暂时停止,并让出资源,直到这些资源闲置后才能继续。因此超线程的性能并不等于两颗CPU的性能,所以处理器的性能并没有达到翻倍的效果。这一点还需要广大的用户群进一步了解。
【每日焦点】节省700元 SSD+USB3.0学生配置详测
性能测试的硬件、软件平台状况
● 测试系统硬件环境
测 试 平 台 硬 件 | |
中央处理器 | Intel Core i7 870 |
Intel Core i5 750 | |
散热器 | Intel 原厂散热器 |
For LGA1156 | |
内存模组 | |
宇瞻 2GB DDR3 1333*2 | |
SPD:PC3-12800 CL9 | |
主板 | Intel DP55KG |
(Intel P55 Chipset) | |
显示卡 | NVIDIA Geforce GTX480 |
(GF100 / 1536MB / 核心:700MHz / 显存:3696MHz /) | |
硬盘 | Western Digital 鱼子酱 KS 640G SATA |
(640GB / 7200RPM / 16M | |
电源供应器 | Topwer TOP-900W |
(ATX12V 2.0 / 900W) | |
显示器 | SAMSUNG P2450 |
(24英寸LCD / 1920*1080分辨率) |
● 测试系统的软件环境
操 作 系 统 及 驱 动 | |
操作系统 | Microsoft Windows 7 Ultimate RTM |
(中文版 / 版本号7600) | |
主板芯片组 驱动 |
Intel Chipset Device Software for Vista/7 |
(WHQL / 版本号 9.1.1.1014) | |
显卡驱动 | Geforce Driver Release 258.96 For Vista/7 32 bit |
(WHQL / 版本号 258.96) | |
|
1920*1080_32bit 60Hz |
● 测试系统的软件环境
操 作 系 统 及 驱 动 | |
操作系统 | Microsoft Windows 7 Ultimate RTM |
(中文版 / 版本号7600) | |
主板芯片组 驱动 |
Intel Chipset Device Software for Vista/7 |
(WHQL / 版本号 9.1.1.1014) | |
显卡驱动 | Geforce Driver Release 191 For Vista/7 32 bit |
(WHQL / 版本号 191.07) | |
|
1920*1080_32bit 60Hz |
理论性能 测试软件 |
PCMark Vantage |
Futuremark / 版本号1.00 | |
3DMark 06 | |
Futuremark / 版本号1.02 / 使用默认渲染路径 | |
3DMark Vantage | |
Futuremark / 版本号1.00 / 使用默认渲染路径 | |
Fritz 10 | |
软件自带测试脚本,测试2遍取第二遍成绩 | |
视频/音频 图像处理 压缩软件 |
暴风转码 |
版本号:1.2.0.7 / 将一段影片转换为MP4通用格式 | |
WinRAR | |
Alexander Roshal / 版本号3.9 | |
Cinebench R11.5 | |
软件自带测试脚本 | |
光影魔术手 3.1.2.102 | |
将100张图片进行批量处理 | |
3D游戏 相关软件 |
魔兽世界 巫妖王之怒 |
手动测试,使用Fraps进行帧数记录 | |
街头霸王4 | |
使用游戏自带Benchmark测试 | |
英雄连 | |
游戏自带 Benchmark脚本 | |
失落星球2 | |
游戏自带 Benchmark脚本 | |
系统信息获取 | CPU-Z |
www.cpuid.com / 版本号1.55 |
各类合成测试软件和直接测速软件都用得分来衡量性能,数值越高越好,以时间计算的几款测试软件则是用时越少越好。
首先进行的是常规性的3Dmark和PCMark测试。通过该测试我们可以先得到酷睿i7 870在开启和关闭超线程时的理论性能。初步了解到超线程技术在3D运算方面的作用。首先是DX9环境下的3DMark 06测试。
酷睿i7 870开启超线程3Dmark 06测试成绩
总分:20804分 CPU子项得分5524分
酷睿i7 870关闭超线程3Dmark 06测试成绩
总分:20150分 CPU子项得分4934分
在该项测试中,关闭超线程后的酷睿i7 870在总成绩上并没有太大的变化,这与显卡及内存性能较高有很大关系。但CPU子项得分已经出现了较大幅度的下降。可见超线程技术对DX9环境3D性能的影响还是较为明显的。与酷睿i5 750相比,酷睿i7 870凭借主频的优势取得了小幅度领先。
接下来的是DX10特效3Dmark Vantage测试,该测试我们选定为P模式,关闭没有必要的显卡测试项目Feature Test。以下为最终测试成绩截图。
酷睿i7 870开启超线程3Dmark Vantage测试成绩
总分:21838分 CPU子项得分52651分
酷睿i7 870关闭超线程3Dmark Vantage测试成绩
总分:21878分 CPU子项得分54381分
在DX10特效环境下,开启超线程与关闭超线程对总成绩的影响都较小。但在CPU子项上开启超线程的成绩出现了小幅度下降。在与酷睿i5 750的对比上,开启超线程技术的酷睿i7 870性能表现并没有超过酷睿i5 750很多。可见在3Dmark Vantage测试项目上,超线程技术反倒帮了倒忙。好在影响并不算大,所以不会影响视听感受。
理论性能可以反映出处理器在开启或是关闭超线程技术时的性能差异,我们选用测试项目较多的PCmark Vantage进行该项目测试。通过各子项的成绩可以看出性能差异。以下为该测试的最终测试成绩截图。
酷睿i7 870开启超线程3Dmark Vantage测试成绩
总成绩:8113
酷睿i7 870关闭超线程3Dmark Vantage测试成绩
总成绩:7768
在该测试项目上,超线程技术终于没有像之前的3Dmark Vantage那样起到反作用。开启超线程的成绩要比关闭超线程的成绩高出一大截。可见搞测试项目对多线程的支持还是不错的。与酷睿i5 750相比,开启或是关闭超线程后的酷睿i7 870领先幅度都较大。
理论性测试除了PCmark Vantage之外还有国际象棋测试。通过该项目测试我们可以看出多线程与少线程之间的差异。
酷睿i7 870开启超线程国际象棋测试
成绩:11723
在全部吃满8条线程的情况下,酷睿i7 870的全部性能被展现出来,其成绩领先关闭超线程时很多。可见在多线程优化的软件运行情况下,超线程技术对处理器的性能影响还是非常大的。
以上三项测试都是基于理论性能进行的,接下来我们切入主题,从日常应用范围入手开始应用性测试。参加测试的软件主要有Winrar 3.9版本,暴风转码1.2版本,以及制图软件光影魔术手。
WinRAR 是一款功能强大的压缩包管理器,它是档案工具RAR 在 Windows 环境下的图形界面。该软件可用于备份数据,缩减电子邮件附件的大小,解压缩从 Internet 上下载的 RAR、ZIP 2.0 及其它文件,并且可以新建 RAR 及 ZIP 格式的文件。目前WinRAR已经推出了支持多线程的3.9版本,我们选用的测试软件正是3.9版本,测试方法为软件自带Benchmark。
酷睿i7 870开启超线程解压缩能力测试
成绩:3010KB/s
酷睿i7 870关闭超线程解压缩能力测试
成绩:2998KB/s
超线程技术在Winrar解压缩上的表现确实有一定的帮助,但其性能提升非常小。笔者进行了多次尝试,开启超线程与关闭超线程最大的差异是,8线程情况下Winrar的成绩不会低于3000KB/s,而4线程是最高不会高过3000KB/s。这样的性能差距并没有什么实质性意义。至于酷睿i5 750由于吃了主频的亏输给了关闭超线程的酷睿i7 870。但其性能表现也已经非常不错了。
新推出的视频转码软件现在都加入了对多线程的支持,甚至还加入了新型的并行计算技术。让用户在视频转码上节约了大笔的时间。本次测试我们选用了国内较为热门的转码软件暴风转码1.2版本。该版本虽然加入了针对N卡优化的CUDA技术但是对于众多的非N卡用户来讲,要想转视频依然需要CPU才可以。所以在本项目测试中,我们关闭CUDA并行计算功能,仅采用CPU进行视频转码。转码脚本为2.73GB容量1080i的太平洋战争作为转码片源,测试成绩如下:
酷睿i7 870开启超线程暴风转码进行格式转换
预测用时:10分28秒
酷睿i7 870关闭超线程暴风转码进行格式转换
预测用时:10分36秒
从CPU的使用率上来看,超线程技术在测试上已经起了作用,但其最终成绩却并没有达到满意的地步。这主要在于关闭超线程时,全部四核的使用率几乎达到了100%,而开启超线程时的每条线程使用率并不算高,这就可以证明开启超线程后出现了资源浪费现象。但好在酷睿i7性能强劲,即使没有达到最高性能,但其性能表现也相当出众了。至少超线程技术没有起到反作用。相比之下,酷睿i5 750与关闭超线程的870情况类似,所用时间也相对较短。
Photoshop一直是图片或者照片后期处理的主要工具,但由于应用繁琐,很多普通用户难以使用。相比之下光影魔术手则简单许多,虽然功能还不够强大,但进行批量的简单处理已经足够。接下来我们选用100张图片进行光影魔术手默认模式批量处理。以下为测试截图。
酷睿i7 870开启超线程光影魔术手批量处理测试成绩
用时:1分40秒
酷睿i7 870关闭超线程光影魔术手批量处理测试成绩
用时:2分05秒
在光影魔术手项目测试上,超线程技术显了神威,另批量处理的使用时间大幅缩短。其实从CPU占用率上来看。该软件其实并不支持8条线程。但在关闭超线程时,大部分负载都压在了第一个核心上,让众多核心参与到的工作很少。而开启超线程时,虽然有4条线程并没有使用,但其余的4条线程使用率却很高,这也就是说有两颗核心都参与到了工作中。因此性能要比关闭时优秀许多。酷睿i5 750与关闭超线程的酷睿i7 870一样,也是仅有一个核心参与大部分工作,所以影响了工作效率,使用时间相对较长。
图片的批处理还算是较为轻松的工作,相比之下图形渲染则是非常费时间的工作了,如果处理器的性能不够强大的话。渲染一幅尺寸较大的图片能够用上数个小时甚至几天的时间。接下来我们使用Cinebench R11.5来检测开启超线程和关闭超线程酷睿i7 870处理器的性能表现。
酷睿i7 870开启超线程Cinebench R11.5测试成绩
成绩:5.14pts
酷睿i7 870关闭超线程Cinebench R11.5测试成绩
成绩:3.97pts
Cinebench R11.5是一款支持多线程任务的软件,最高可以支持到16条线程。开启超线程技术的酷睿i7 870在该项目的测试上展现出了实力。在测试过程中,开启超线程比关闭超线程的使用时间能够明显感到缩短。其成绩对比也可以看出。开启超线程的酷睿i7 870每秒钟可以处理5.14帧画面,而关闭后只有3.97帧。可见超线程技术对图形渲染的帮助非常大。
测试进行到这里相信很多读者都已经了解到了超线程技术在日常应用端的作用,除了小部分测试成绩没用发生变化或出现了负增长外,其他的测试中超线程技术的表现还是非常抢眼的。接下来我们将进行的是用户最为关注的游戏性能测试。我们选用了DX9,DX10与DX11特效的四款游戏作为测试脚本。以测试超线程技术在游戏上的表现。
DX9游戏我们选择了非常热门的网络游戏魔兽世界和单机游戏街霸4。其中魔兽世界脚本为纯手动测试,使用Fraps进行帧数记录,街霸4采用自带Benchmark,以下为测试成绩。
魔兽世界测试脚本截图:
测试脚本截图
在魔兽世界测试上,我们将所有线程全部勾选上。最后的测试结果开启超线程与关闭超线程并无差别。可见超线程技术在运行魔兽世界上并没有实质性作用。而低端的酷睿i5 750也凭借着睿频加速技术获得了较好的表现。
DX9特效街霸4测试:
酷睿i7 870开启超线程街霸4测试成绩
平均帧:196.98
酷睿i7 870关闭超线程街霸4测试成绩
平均帧:200.12
在街霸4性能测试上,超线程技术再一次帮了倒忙,开启后不但性能没有提升,反而出现了下降。看来这超线程技术在某些游戏上真的需要关闭才能得到更好的表现。当然了,您也可以完全不管他,毕竟这负增长仅在百分之一以下浮动,所以就算是性能发挥的不好也不会影响您的游戏快感。
在DX10特效的3Dmark Vantage测试中,超线程技术就帮了倒忙,让关闭超线程后的CPU子项测试成绩反而大增。在DX10特效游戏测试上又当如何呢?我们选用英雄连自带的Benchmark作为测试脚本,已测试酷睿i7 870处理器的超线程作用。
酷睿i7 870开启超线程英雄连测试成绩
平均帧:142.2
酷睿i7 870关闭超线程英雄连测试成绩
平均帧145.6
英雄连的成绩告诉着我们,超线程技术在DX10特效上确实存在一定的小问题。酷睿i7 870在开启超线程技术后平均帧出现了下降。但即使这样其成绩也与之前的测试结果相类似。对游戏的运行几乎不会有任何影响。毕竟这性能下降的幅度可以忽略不计。通过与酷睿i5 750的成绩对比可以得出结论,主频的影响远在超线程影响之上。
DX9和DX10特效游戏都出现了一定的负增长,那么在DX11特效游戏下是否也会出现同样的问题呢?我们下面的测试就选用了最新DX11特效游戏失落星球2作为测试脚本。游戏自带的Benchmark会自动得出成绩,让我们深度了解酷睿i7 870处理器开启或关闭超线程后的性能。
酷睿i7 870开启超线程失落星球2测试成绩
平均帧:62.6
酷睿i7 870关闭超线程失落星球2测试成绩
平均帧:61.5
在DX11特效游戏的表现上,超线程技术终于没有再次呈现负增长,究其原因这应该与DX11特效真多多线程优化有一定的关系。其实从之前的测试中我们也应该能够发现。即使是在一些超线程技术阻碍性能发挥的项目上,其成绩下降也微乎其微,所以对于游戏的影响我们也可以完全忽略不计了。
写在测试完成之后:
回到文章的开始,我们所提到的超线程扼杀谁的言论已经被攻破。我们并没有发现任何一款应用程序因为超线程技术出现性能大幅度萎缩。虽然出现了一些成绩下滑的现象,但这些成绩下滑都在非常小的范围内,对日常应用并不会产生影响。相反的,一些应用程序正是因为有了超线程技术的帮助,运算效率得到了大幅度的提升。可见超线程技术整体对用户起到的还是非常正面的作用。至于游戏测试中的性能下滑,用户也不必要恐慌。从成绩中我们就可以了解到这样的成绩下滑并不会影响游戏感受。恐怕也没人会抱怨在非常流畅的前提下损失个1、2帧的游戏速度。所以在Nehalem架构时代超线程表现还是非常正面的。
关于未来日常应用的发展:
未来软件业的发展必定会对多核多线程进行优化,这一点毋庸置疑。从测试中我们也可以看到,影响了超线程性能发挥的软件绝大部分都是因为对多线程优化不够完善造成的。随着软件的逐步更新,相信超线程技术在未来的应用中起到的正面作用会越来越广,至少对人们的日常办公以及技术应用上是这样的。