英特尔Xeon X7560 四路服务器超详评测(1)(4)

时间:2010-11-18   来源:   网友评论:0   人气: 6283 作者:

 

Nehalem-EX:基于Nehalem微架构
Nehalem-EX家族11个产品的简介

目前,Nehalem-EX家族一共推出了11款产品,其中7500系列有8款,6500系列有3款。TDP分为95、105、130三个档次,照例用了L、E、X三个前缀,不过和TDP不是绝对的一一对应关系。8核心的Nehalem-EX一共有四款:X7560、X7550、X6550和L7555,四核心的有E7520和E6510,剩下的5款都是六核心的型号。

Nehalem-EX的频率普遍不高,最高的X7542也只达到了2.66GHz,然而其只有6个核心,并且QPI只有5.86GT/s。总体规格最高的是X7560,频率2.26GHz,8个核心,售价也是最高的:3838美元。我们收到的样机一共配置了四颗X7560。

附录:单路/双路Xeon规格表


Penryn/Harpertown Xeon规格对照表


Nehalem-EP/Nehalem-WS Xeon规格对照表


Westmere-EP Xeon规格对照表

 

我们收到的Nehalem-EX平台是4U规格,四路Nehalem-EX Xeon X7560和64个DIMM共256GB内存,比较少见的是在笔者的要求下,Intel提供了两个64GB的X25-E固态内存;整台机器由Intel和Quanta打造:

 Nehalem-EX平台评测
4U机架,前面版主要被4个风扇的进风口占据了

 4
8个2.5"热插拔硬盘槽i和一个笔记本DVD-RW(还能刻录哦)

 4
可以接2.5"的SAS硬盘,也可以接SSD……

 4
数数,背后一共提供了11个空余全高挡板的位置,不过,其中最左边一条被一块O自LSI 9260-8i的阵列卡占用了(抱歉……Intel的型号实在记不住),剩下的十个插槽中有一条是PCIE 2.0 x16规格,其它的全部是x8规格

 4
使用了4个冗余电源,确保机器可以全天候365天稳定运行(模拟线路的电源是电脑中故障率较高的部件)

 4
台达出品,850W,因此要两个协同工作才能支撑整台服务器满负荷运行(后面我们可以看到机器的功耗需求)

Nehalem-EX官方平台:内存子系统
打开机盖,可以发现,大部分的空间都被内存子系统占用了(另一个大空间则是扩展卡区间),内存前方是8个热插拔冗余暴力风扇模块,后方是处理器区域

Nehalem-EX官方平台:内存子系统
内存模块上有众多的指示灯指示内存DIMM的工作状态,还有一个ATTN Button按钮,要进行热操作的时候需要用到

Nehalem-EX官方平台:内存子系统
8个热插拔内存模块,每个模块对应CPU的一个内存控制器(SMI界面),使用两个SMI Link;每个内存模块里面有两个SMB芯片和一共8条内存

Nehalem-EX官方平台:内存子系统
拿下所有内存模块之后,机器空了很多

Nehalem-EX官方平台:内存子系统
使用的内存条除了芯片比较多之外没有什么特别之处;可能比较有趣的是,它们都是DDR3-1333规格的,不过在Nehalem-EX上只能运行在DDR3-1066

6
机器最中央的就是四个Nehalem-EX处理器的位置了

 6
螺丝固定的高塔热管铜底铝片散热器

 6
CPU与插槽

 6 

 6
Nehalem-EX Xeon X7560……工程样品

 6
八核心2.27GHz Nehalem-EX


上一代:六核心45nm Penryn Dunnington——Xeon 7400系列处理器

实际上,这台机器的网络子系统和显示、串口等IO系统是集成在同一块扩展卡上的:

 7
很特别的插槽

 7
四个千兆网口、一个VGA接口和一个9针串口

 7
三个大芯片

 7
SE-SM4210-P01实际上是一个集显示、IPMI/KVM等为一体的芯片,采用的显示核心为Matrox G200eW,它右边为其工作内存

 7
Intel 82576NS网络芯片,代号Kawela,576NS是576EB的简化版,NS就是Non-Security的意思,它没有了IPsec Offload功能,除此之外如16/16 TX/RX Queue、8 RSS Queue以及8 VMDq Queue功能都保留了下来

8
Intel RS2BL080阵列卡,长的就和LSI MegaRAID 9260-8i阵列卡一模一样

 8
PCI Express 2.0 x8接口;这个阵列基于800MHz的PPC 440处理器,512MB缓存

 8
8个SAS 6Gb/s接口,支持RAID 0/1/3/5/6等

 8
两个Intel X25-E固态硬盘,64GB,SLC芯片,企业规格

 8
型号SSDSA2SH064G1GC,Firmware版本是8860,单价约是¥6000

服务器对比测试平台

 Nehalem-EX座驾:Boxboro芯片组
测试平台的结构就是Intel文档的标准结构

对比平台比较多,包括Nehalem-EP、Westmere-EP、Dunnington和Nehalem-EX,为了发挥Intel处理器的Turbo Boost能力,我们将Windows Server 2008 R2的电源计划设置为“高性能”;默认设置将不使用Turbo Mode。

Intel Nehalem-EX官方平台:软件截图
64个逻辑处理器、256GB内存

 Intel Nehalem-EX官方平台:软件截图
一定要安装驱动程序……因为会协助认出很多硬件

 Intel Nehalem-EX官方平台:软件截图
处理器的组织方式也和通常机器不同,每一个处理器在一个ACPI Module Device类下面,包含了16个逻辑处理器

 Intel Nehalem-EX官方平台:软件截图
其中一个Boxboro(7500) IOH芯片上的设备

 Intel Nehalem-EX官方平台:软件截图
ICH10R连接在这个IOH上

 Intel Nehalem-EX官方平台:软件截图
另一个IOH上则没有什么设备,机器背板右方的扩展口就连接到这个IOH上 

 Intel Nehalem-EX官方平台:软件截图
这个PCI bus下面的一堆设备其实是CPU1上的东西,如Caching Agent、QPI Home Agent、QPI Port、SMI Port、Memory Controller等

 Intel Nehalem-EX官方平台:软件截图
非常复杂

 Intel Nehalem-EX官方平台:软件截图
这么复杂的意义就是为了容错,每一个CPU模块乃至IOH芯片上的一些设备都可以进行热添加/删除

Intel Nehalem-EX官方平台:CPU-Z截图
默认频率1.066GHz,在EIST的作用下

 Intel Nehalem-EX官方平台:CPU-Z截图
正常工作频率是2.27GHz

 Intel Nehalem-EX官方平台:CPU-Z截图
Turbo Boost之后可以达到最高的2.67GHz

 Intel Nehalem-EX官方平台:CPU-Z截图
QSSC-S4R主板

 Intel Nehalem-EX官方平台:CPU-Z截图
256GB内存,参数一概认不出来

 Intel Nehalem-EX官方平台:CPU-Z截图
SPD读不出来

 Intel Nehalem-EX官方平台:CPU-Z截图
默认显示器……如非必要笔者一般是不会装上显卡驱动的

SiSoftware Sandra是一款可运行在32bit和64bit Windows操作系统的分析软件,它可以对于系统进行方便、快捷的基准测试,还可以用于查看系统的软件、硬件等信息。SiSoftware Sandra所有的基准测试都针对SMP和SMT进行了优化。我们利用了其中多个性能测试模块对于被测系统的性能进行了快速的测试。

 

 

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
2.93GHz
双路Intel Westmere-EP
Xeon X5670
2.93GHz
双路Intel Westmere-EP
Xeon X5680
3.33GHz
Dawning I840-H
四路Intel Dunnington
Xeon X7460
2.66GHz
@Sandra 2009
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Processor Arithmetic Benchmark
处理器算术性能测试
Aggregate Arithmetic Performance
147.17GOPS 218.69GOPS 249.2GOPS   298.6GOPS 451.7GOPS
Dhrystone iSSE4.2
172.5GIPS 257GIPS 291.36GIPS 292201MIPS 350.47GIPS 518.5GIPS
Whetstone iSSE3
121.84GFLOPS 180.41GFLOPS 207GFLOPS 208685MFLOPS 246.73GFLOPS 385GFLOPS
Processor Multi-Media Benchmark
处理器多媒体性能测试
Aggregate Multi-Media Performance
277MPixel/s 410.36MPixel/s 465.8MPixel/s 753.51MPixel/s 562.11MPixel/s 852.7MPixel/s
Multi-Media Int x16 iSSE4.1
317.13MPixel/s 470.51MPixel/s 534.13MPixel/s 283.27MPixel/s 646.86MPixel/s 979.21MPixel/s
Multi-Media Float x8 iSSE2
237MPixel/s 350.2MPixel/s 397.47MPixel/s 501.36MPixel/s 477.37MPixel/s 726.17MPixel/s
Multi-Media Double x4 iSSE2
128.62MPixel/s 190.87MPixel/s 216.17MPixel/s 260.18MPixel/s 260MPixel/s 394.66MPixel/s
Multi-Core Efficiency Benchmark
多核效率测试
Inter-Core Bandwidth
71.15GB/s 80.7GB/s 84GB/s 12.88GB/s    
Inter-Core Latency
(越小越好)
18ns 18ns 16ns 110ns    
Cryptography Benchmark
加密解密性能测试
Cryptographic Bandwidth
1.26GB/s 10.33GB/s 11.72GB/s   3GB/s 4.51GB/s
AES128-ECB iAES
Cryptographic Bandwidth
1GB/s 18.45GB/s 21GB/s   2.88GB/s 4.36GB/s
SHA256 iSSE4 Hashing Bandwidth
1.49GB/s 2.22GB/s 2.52GB/s   3GB/s 4.66GB/s
.NET Arithmetic Benchmark
.NET算术性能测试
Aggregate .NET Performance
55.84GOPS 73.6GOPS 80.22GOPS   89.47GOPS 134.76GOPS
Dhrystone .NET
32.11GIPS 32.2GIPS 37GIPS 75397MIPS 31.67GIPS 49.18GIPS
Whetstone .NET
79.56GFLOPS 115GFLOPS 123.43GFLOPS 136088MFLOPS 147.26GFLOPS 220.35GFLOPS
.NET Multi-Media Benchmark
.NET多媒体性能测试
Aggregate .NET Multi-Media Performance
42.13MPixel/s 63.18MPixel/s 71.4MPixel/s   90MPixel/s 136.17MPixel/s
Multi-Media Int x1 .NET
59MPixel/s 88.64MPixel/s 100.36MPixel/s 119.30MPixel/s 127.38MPixel/s 191.7MPixel/s
Multi-Media Float x1 .NET
25.22MPixel/s 37.73MPixel/s 42.42MPixel/s 31.74MPixel/s 52.7MPixel/s 80.64MPixel/s
Multi-Media Double x1 .NET
48.3MPixel/s 68.45MPixel/s 78.48MPixel/s 58.72MPixel/s 102.48MPixel/s 156.37MPixel/s

 

 

四路32核心64线程果然不同凡响,451.7GOPS(整数518.5GIPS浮点385GFLOPS)比最高端的双路X5680高了81%(整数78%浮点86%),不过,Nehalem-EX在加密测试上敌不过具有AES增强指令集的Westmere-EP。

 SiSoftware Sandra 2010处理器性能
和若干平台的对比图

SiSoftware Sandra的处理器测试还算比较快捷的,不过内存缓存测试方面就极耗费时间了。

 

 

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Nehalem-EP
Xeon X5570
2.93GHz
双路Intel Westmere-EP
Xeon X5670
2.93GHz
双路Intel Westmere-EP
Xeon X5680
3.33GHz
Dawning I840-H
四路Intel Dunnington
Xeon X7460
2.66GHz
@Sandra 2009
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Memory Bandwidth Benchmark
内存带宽测试
Aggregate Memory Performance
38GB/s 35GB/s 35.2GB/s   33.86GB/s 65.76GB/s
Int Buff'd iSSE2 Memory Bandwidth
38GB/s 35GB/s 35.2GB/s 3.49GB/s 33.86GB/s 65.76GB/s
Float Buff'd iSSE2 Memory Bandwidth
38GB/s 35GB/s 35.18GB/s 3.49GB/s 33.85GB/s 65.77GB/s
Memory Latency Benchmark(Random)
内存延迟测试(随机)
Memory(Random Access) Latency
(越小越好)
80ns 83ns 82ns   192ns 149ns(min)
Speed Factor
(越小越好)
55.50 57.00 64.60   98.10 94.50
Internal Data Cache
4clocks 4clocks 4clocks   4clocks 3~4clocks
L2 On-board Cache
11clocks 10clocks 10clocks   10clocks 9~10clocks
L3 On-board Cache
49clocks 57clocks 60clocks   84clocks 66~70clocks
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
7ns 7ns 7ns   41ns 36ns(min)
Speed Factor
(越小越好)
4.80 5.10 5.50   20.70 20.20
Internal Data Cache
4clocks 4clocks 4clocks   4clocks 3~4clocks
L2 On-board Cache
10clocks 11clocks 11clocks   10clocks 9~10clocks
L3 On-board Cache
13clocks 13clocks 13clocks   34clocks 27~28clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
142GB/s 183.26GB/s 195.6GB/s   315GB/s 510.58GB/s
Speed Factor
(越小越好)
21.20 31.00 35.20   34.80 26.90
Internal Data Cache
471GB/s 663.51GB/s 744.49GB/s   919.66GB/s 1.3TB/s
L2 On-board Cache
295.4GB/s 537.88GB/s 611GB/s   749GB/s 909.27GB/s
L3 On-board Cache
112GB/s 146.33GB/s 159GB/s   336.6GB/s 571.35GB/s

 

 

很明显,同样为Nehalem-EX,官方平台比M910对比平台的内存带宽高了一倍达到了65.76GB/s,是上一代Dunnington的18.8倍,是顶级双路X5680的1.87倍。M910在四路配置下每个处理器仅使用了两个内存控制器的其中一个,从结果来看影响巨大。

测试样机使用了两个内存控制器——通常的Nehalem-EX机器都应该这样,这样不仅内存带宽翻倍,连内存延迟也有所下降,幅度大约在20%左右,当然,还是要比双路产品线要明显高不少。L1/L2/L3延迟的略为降低应该是跟处理器主频相关,和内存控制器关系不大。

最后,Nehalem-EX的L3总带宽达到了571.35GB/s,双路Westmere-EP Xeon X5680则是159GB/s,增强的带宽和Nehalem-EX的CPU总数以及每CPU的核心数量有关,此外,我们也可以看到环形总线的威力。

 SiSoftware Sandra 2010缓存内存性能

 SiSoftware Sandra 2010缓存内存性能

 SiSoftware Sandra 2010缓存内存性能

SPEC CPU 2006整数运算主要包含编译、压缩、人工智能、视频压缩转换、XML处理等,此外,各种日常操作也主要是基于整数操作。SPEC CPU 2006的整数运算包含了400.perlbench PERL编程语言、401.bzip2 压缩、403.gcc C编译器、429.mcf 组合优化、445.gobmk 人工智能:围棋、456.hmmer 基因序列搜索、458.sjeng 人工智能:国际象棋、462.libquantum 物理:量子计算、464.h264ref 视频压缩、471.omnetpp 离散事件仿真、473.astar 寻路算法、483.xalancbmk XML处理共12项。

SPEC CPU 2006整数性能测试

462.libquantum 物理:量子计算的得分很惊人:1550,它导致了其它得分条的整体缩短……已经知道,这个测试和内存延迟、内存带宽很有关系,因此M910表现不佳,其他的双路Xeon得分差不多。

整体来看,四路八核心Xeon X7560平台的整数吞吐量比最高的双路六核心Xeon X5680平台高83.2%,比仅使用了单个内存控制器的四路六核心Xeon E7540高79.8%,比四路六核心Xeon X7460(上一代四路)高241.9%,在所有项目中都很突出,只有在403.gcc C编译器项目中和各个平台表现差不多。

SPEC CPU 2006的浮点运算测试包括的全部都是科学运算,科学运算需要用到大量的高精度浮点数据,如410.bwaves 流体力学、416.gamess 量子化学、433.milc 量子力学、434.zeusmp 物理:计算流体力学、435.gromacs 生物化学/分子力学、436.cactusADM 物理:广义相对论、437.leslie3d 流体力学、444.namd 生物/分子、447.dealII 有限元分析、450.soplex 线形编程、优化、453.povray 影像光线追踪、454.calculix 结构力学、459.GemsFDTD 计算电磁学、465.tonto 量子化学、470.lbm 流体力学、481.wrf 天气预报、482.sphinx3 语音识别共17项测试。

 SPEC CPU 2006浮点性能测试

有两个测试项目很特别:433.milc 量子力学和465.tonto 量子化学,其他的项目X7560平台都很明显占优。整体来看,四路八核心Xeon X7560平台的浮点吞吐量比最高的双路六核心Xeon X5680平台高90.5%,比四路六核心Xeon E7540高130.4%,比四路六核心Xeon X7460(上一代四路)高241.1%,整个测试表明更高的内存带宽在浮点运算中是较有优势的。

CineBench R11.5是最新的版本,上一个CineBench R10最多支持16个逻辑处理器,在很多测试中受到了明显的限制,幸好R11.5升级到最多支持64个逻辑处理器,不过,需要手动进行设置一个参数。仍然不是很方便。

 CineBench R11.5性能测试
R11.5默认只使用32个测试线程

 CineBench R11.5性能测试
手动配置后得以以64线程运行

 CineBench R11.5性能测试
不过仍然显示为32线程

 

 

CineBench R11.5 64bit
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
显卡 - - - - -
CPU Benchmark
Rendering (1 CPU) 1.02 pts 1.02 pts 1.16 pts 0.78 pts 0.92 pts
Rendering (x CPU) 9.92 pts 14.58 pts 16.40 pts 19.26 pts 27.08 pts
Threads 16 24 24 48 64
Multiprocessor Speedup 9.68x 14.33x 14.18x 24.65x 29.43x

 

 

幸运的是,测试样机的逻辑处理器刚好达到CineBench R11.5的支持上限。从总分上看,它是顶级双路的1.65倍。单核心渲染能力上则是顶级双路的80%

 

MMM - Matrix-Matrix Multiplicaion Benchmark
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
单位 GFLOPS GFLOPS GFLOPS GFLOPS GFLOPS
Threads 1
5000 step 7.821975 7.842319 8.877563 5.867645 7.036748
10000 step 7.890761 7.840417 8.883291 5.865347 7.034792
15000 step 7.888751 7.845479 8.881528 5.826604 6.960592
Threads 2
5000 step 15.59136 15.62796 17.5891 11.570261 13.979099
10000 step 15.7544 15.66469 17.73566 11.689317 14.032266
15000 step 15.7445 15.64657 17.67208 11.602247 13.89951
Threads 4
5000 step 30.69218 29.99696 34.85343 21.788607 27.555005
10000 step 31.02227 29.75883 34.90105 22.21115 27.685804
15000 step 31.04954 30.55926 34.92557 22.073702 27.297404
Threads 8
5000 step 36.2252 49.03697 45.99856 41.228878 49.518835
10000 step 38.21083 50.30305 45.99856 43.472432 49.767277
15000 step 40.71236 56.00031 47.74417 43.37777 49.750117
Threads 16
5000 step 59.38371 64.04222 66.10022 73.379889 47.855051
10000 step 61.44583 62.42291 72.38159 78.596851 48.320744
15000 step 61.83442 64.3761 73.2495 79.099092 48.421492
Threads 24
5000 step 54.82514 84.13599 66.10022 94.000418 70.233111
10000 step 54.82514 88.58685 72.38159 124.028823 71.502532
15000 step 59.18915 90.12297 73.2495 124.574801 71.685326
Threads 32
5000 step         96.076302
10000 step         97.64478
15000 step         98.195937
Threads 48
5000 step       97.335138 136.623189
10000 step       119.780984 142.50301
15000 step       121.637469 145.534244
Threads 64
5000 step         137.141474
10000 step         182.49902
15000 step         185.098571

 

 

MMM是一个类似矩阵乘法基准测试软件,得到的结果单位是GFLOPS,也就是说它是一个浮点测试。可以看到,X7560平台最终展示了185.1GFLOPS的计算能力。MMM和Linpack一样,都能充分地利用CPU运算核心的能力,因此它实际上建议关闭超线程来测试。

 

 

SunGard Adaptiv Analytics Benchmark v4.0
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
Threads 16 24 24 48 64
Time
(lower is better)
138.076s 110.331s 94.911s 139.512s 104.925s

 

 

对于SunGard风险分析管理套件基准测试程序来说,多线程有其优势,不过高频率带来的好处也不少,X7560平台的表现不错。

 

 

black_scholes
处理器 双路Intel Nehalem-EP
Xeon X5570
双路Intel Westmere-EP
Xeon X5670
双路Intel Westmere-EP
Xeon X5680
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
四路Intel Nehalem-EX
Xeon X7560
Threads 16 24 24 48 64
Time
(lower is better)
9.17s 6.16s 5.51s 4.40s 2.78s

 

 

black_scholes是对布莱克-肖尔斯期权定价模型进行计算,布莱克-肖尔斯期权定价模型是由1997诺贝尔经济学奖的两个获得者创立和发展的模型。看起来这个测试对多线程的支持不错,X7560平台成绩是2.78秒。

EVEREST主要是一个系统信息查看工具,它也具有一些性能测试项目,可以用来参考,不过我们发现它对四路Nehalem-EX这样有些复杂的拓扑结构的多路产品的测试不太好用:

 

 

EVEREST Ultimate Edition 5.50.2100
Benchmark Module 2.5.292.0 
测试对象 双路Intel Nehalem-EP 双路Intel Westmere-EP 双路Intel Westmere-EP DELL PowerEdge M910 四路Intel Nehalem-EX
Xeon X5570 Xeon X5670 Xeon X5680 四路Intel Nehalem-EX Xeon X7560
      Xeon E7540 @16x LCPU
      @16x LCPU  
内存读取 14279 MB/s 13293 MB/s 13689 MB/s 3568 MB/s 5912 MB/s
内存写入 8865 MB/s 7526 MB/s 8324 MB/s 2143 MB/s 3382 MB/s
内存复制 11878 MB/s 10430 MB/s 10616 MB/s 2753 MB/s 4531 MB/s
内存潜伏 64.5 ns 68.7 ns 67.0 ns 16.6 ns 21.2 ns
CPU Queen 46138 46082 52461 32185 73861
CPU PhotoWorxx 58330 73372 73828 58556 113653
CPU ZLib 193850 KB/s 282989 KB/s 319463 KB/s 236148 KB/s 296569 KB/s
CPU AES 46774 849298 844363 32098 74727
FPU Julia 22410 32730 37178 0 0
FPU Mandel 12096 16349 18583 0 0
FPU SinJulia 10978 16429 18706 0 0

 

 

仅用来参考参考。

解读:w/HTT的意思是with HTT,也就是“在超线程状态下”,w/o HTT意思是without HTT,也就是“不在超线程状态下”,TB则是Turbo Boost睿频技术,4P24C48T指的是4处理器(Processors)、24核心(Cores)、48线程(Threads)。依此类推。GbE是Gigabit Ethernet(千兆以太网),4 GbE Ports表示使用了4个千兆端口。

 SQL2005数据库测试

30万的TPS并不高……感觉并没有充分发挥出来,瓶颈在网络子系统上……不过这个问题比较复杂,使用一个工作在1G速率的10G以太网卡也能达到26万的成绩,只是这个网卡具有比通常网卡具有更多地TX/RX/RSS队列。要完全表明其性能,还是需要升级到全万兆网络。当然,如果将X7560平台分成多个独立的数据库服务器,总吞吐量应该还可以提升。

笔者还进行了开关超线程的测试,以对比在Nehalem-EX平台上超线程起到的影响力度:

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Westmere-EP
Xeon X5680
3.33GHz
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz

四路Intel Nehalem-EX
Xeon X7560

2.27GHz
超线程关闭

四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Processor Arithmetic Benchmark
处理器算术性能测试
Aggregate Arithmetic Performance
249.2GOPS 298.6GOPS 337.12GOPS 451.7GOPS
Dhrystone iSSE4.2
291.36GIPS 350.47GIPS 440GIPS 518.5GIPS
Whetstone iSSE3
207GFLOPS 246.73GFLOPS 234.22GFLOPS 385GFLOPS
Processor Multi-Media Benchmark
处理器多媒体性能测试
Aggregate Multi-Media Performance
465.8MPixel/s 562.11MPixel/s 752.77MPixel/s 852.7MPixel/s
Multi-Media Int x16 iSSE4.1
534.13MPixel/s 646.86MPixel/s 860.65MPixel/s 979.21MPixel/s
Multi-Media Float x8 iSSE2
397.47MPixel/s 477.37MPixel/s 644.9MPixel/s 726.17MPixel/s
Multi-Media Double x4 iSSE2
216.17MPixel/s 260MPixel/s 324.72MPixel/s 394.66MPixel/s
Multi-Core Efficiency Benchmark
多核效率测试
Inter-Core Bandwidth
84GB/s   126.76GB/s  
Inter-Core Latency
(越小越好)
16ns   76ns  
Cryptography Benchmark
加密解密性能测试
Cryptographic Bandwidth
11.72GB/s 3GB/s 4.46GB/s 4.51GB/s
AES128-ECB iAES
Cryptographic Bandwidth
21GB/s 2.88GB/s 4GB/s 4.36GB/s
SHA256 iSSE4 Hashing Bandwidth
2.52GB/s 3GB/s 4.88GB/s 4.66GB/s
.NET Arithmetic Benchmark
.NET算术性能测试
Aggregate .NET Performance
80.22GOPS 89.47GOPS 128.11GOPS 134.76GOPS
Dhrystone .NET
37GIPS 31.67GIPS 101.25GIPS 49.18GIPS
Whetstone .NET
123.43GFLOPS 147.26GFLOPS 155GFLOPS 220.35GFLOPS
.NET Multi-Media Benchmark
.NET多媒体性能测试
Aggregate .NET Multi-Media Performance
71.4MPixel/s 90MPixel/s 107.7MPixel/s 136.17MPixel/s
Multi-Media Int x1 .NET
100.36MPixel/s 127.38MPixel/s 167.4MPixel/s 191.7MPixel/s
Multi-Media Float x1 .NET
42.42MPixel/s 52.7MPixel/s 48MPixel/s 80.64MPixel/s
Multi-Media Double x1 .NET
78.48MPixel/s 102.48MPixel/s 89.36MPixel/s 156.37MPixel/s

 总运算性能明显地下降了,不过多核效率测试神奇地可以运行了。少数测试在关闭超线程状态下运行得更好:SHA256 iSSE4 Hashing Bandwidth和Dhrystone .NET Arithmetic Benchmark

SiSoftware Sandra Pro Business 2010
测试对象
双路Intel Westmere-EP
Xeon X5680
3.33GHz
DELL PowerEdge M910
四路Intel Nehalem-EX
Xeon E7540
2.0GHz
四路Intel Nehalem-EX
Xeon X7560

2.27GHz
超线程关闭
四路Intel Nehalem-EX
Xeon X7560
2.27GHz
Memory Bandwidth Benchmark
内存带宽测试
Aggregate Memory Performance
35.2GB/s 33.86GB/s 57.84GB/s 65.76GB/s
Int Buff'd iSSE2 Memory Bandwidth
35.2GB/s 33.86GB/s 57.87GB/s 65.76GB/s
Float Buff'd iSSE2 Memory Bandwidth
35.18GB/s 33.85GB/s 57.81GB/s 65.77GB/s
Memory Latency Benchmark(Random)
内存延迟测试(随机)
Memory(Random Access) Latency
(越小越好)
82ns 192ns 148ns(min) 149ns(min)
Speed Factor
(越小越好)
64.60 98.10 96.40 94.50
Internal Data Cache
4clocks 4clocks 3clocks 3~4clocks
L2 On-board Cache
10clocks 10clocks 9clocks 9~10clocks
L3 On-board Cache
60clocks 84clocks 56~57clocks 66~70clocks
Memory Latency Benchmark(Linear)
内存延迟测试(线性)
Memory(Linear Access) Latency
(越小越好)
7ns 41ns 40ns(min) 36ns(min)
Speed Factor
(越小越好)
5.50 20.70 19.50 20.20
Internal Data Cache
4clocks 4clocks 3clocks 3~4clocks
L2 On-board Cache
11clocks 10clocks 9clocks 9~10clocks
L3 On-board Cache
13clocks 34clocks 27~28clocks 27~28clocks
Cache and Memory Benchmark
缓存及内存测试
Cache/Memory Bandwidth
195.6GB/s 315GB/s 410.41GB/s 510.58GB/s
Speed Factor
(越小越好)
35.20 34.80 23.60 26.90
Internal Data Cache
744.49GB/s 919.66GB/s 973.74TB/s 1.3TB/s
L2 On-board Cache
611GB/s 749GB/s 1.32TB/s 909.27GB/s
L3 On-board Cache
159GB/s 336.6GB/s - 571.35GB/s

总带宽有所下降,延迟也有所下降~随机缓存延迟甚至降到了Westmere-EP的水平,不过线性访问延迟变化不大。


 

文章评论