家用固态硬盘的测试内容相对简单,就是看看顺序读写,4K随机读写性能。有些朋友比较关注SLC缓存外写入速度,并对掉速现象深以为恨。实际上,固态硬盘真正发挥实力的场景是在服务器中,也就是要用到企业级固态硬盘。
这次PCEVA评测室将测试新一代PCIe 4.0接口企业级SSD。在消费级产品已经能够跑满PCIe 4.0带宽的情况下,一起来看看企业级产品能够带来哪些改变。
本次测试的三款3.84TB容量企业级SSD:DapuStor R5101、英特尔D7-P5510、三星PM9A3,均具备1DWPD写入耐久度指标,属于读取密集型产品。
这里首先介绍下SSD的一些分类方式。通常大家将SSD分成企业级(服务器用)和消费级(家用)。而一些SSD制造商可能会进一步细分企业级产品:企业(Enterprise)SSD和数据中心(Data Center)SSD,差异主要是在性能层面。消费级固态硬盘通常也可称为客户级(Client SSD)。这次我们测试的DapuStor R5101和英特尔D7-P5510属于企业级SSD,三星PM9A3属于数据中心级SSD。另外还有一张1TB容量的消费级SSD作为参考。
大家对英特尔的企业级SSD应该都耳熟能详,它们在二手市场也很受欢迎。这次测试的P5510属于D7系列,在英特尔企业级SSD产品线中是仅次于使用傲腾的顶级产品。D7-P5510 3.84TB的顺序读取带宽6500MB/s,顺序写入带宽3400MB/s,4K随机读写700K/170K IOPS。
英特尔D7-P5510只用到了两颗螺丝固定,每个芯片上方都设置了导热垫。断电保护储能电容耐压35V,容量1000uF。
英特尔EAX 33339主控缺少具体资料,有可能是12通道设计。英特尔D7-P5510 3.84TB混合使用了29F01T2ALCQKI和29F04T2ANCQKI两种不同编号的16颗NAND闪存颗粒。
英特尔144层堆叠3D闪存依然是独树一帜的Floating Gate浮栅结构,分为TLC和QLC两种,D7-P5510上使用的是企业级eTLC类型。
三星企业级SSD拥有很高的市占率。这次测试的PM9A3提供U.2、M.2 22110和E1.S三种规格。U.2接口3.84TB型号的顺序读取带宽6800MB/s,顺序写入带宽4000MB/s,4K随机读写1000/180K IOPS。
三星PM9A3厚度只有7mm,内部设计比较紧凑:
背面只给电源管理芯片设置了导热贴,看来三星对闪存发热控制很有信心。四颗用于断电保护的储能电容来自韩国三和。
正面的主控、DRAM缓存、四颗NAND闪存以及电源管理芯片背面都设置了导热贴。
ELPIS主控是不是很熟悉?没错,三星的消费级旗舰980PRO使用的就是同款主控。该主控为8通道设计,使用三星自家8nm工艺制造。在PM9A3当中,同ELPIS主控搭配的是三星128层V-NAND V6,自然也是eTLC类型。
作为近年崛起的国内头部企业级存储厂商代表,大普微(DapuStor)具备从芯片设计到产品交付量产全栈能力,产品涵盖使用eTLC闪存的企业级固态硬盘和使用XL-Flash的SCM存储级内存。
这次测试的DapuStor R5101是大普微嵘神5系列成员,主打低延迟、高可靠及易扩展。3.84TB型号的顺序读取带宽7400MB/s,顺序写入带宽5700MB/s,4K随机读写1750K/240K IOPS。
拧下正面的4颗内六角螺丝即可打开DapuStor R5101,PCB通过另外4颗螺丝固定一侧外壳上。8颗NAND闪存颗粒、5颗DRAM缓存颗粒,通过导热膏向外壳传递散热。
如果是更大的7.68TB容量型号,主控这一面也将会有闪存和DRAM缓存:
DPU616主控是大普微自主研发的16通道智能SoC,使用12nm FinFET工艺制造,支持4K LDPC纠错。LDPC码长从2K增加到4K可带来更强的纠错能力。主控还在IO路径上进行了多项优化,从而在混合读写下提供更优的延迟和QoS表现。
用于断电保护的尼吉康储能电容:
编号为TH58LKT2Y45BA8H的铠侠企业级eTLC闪存,属于112层堆叠BiCS5,并且是4 Plane高性能类型,写入速度接近普通2 Plane版本的两倍。DRAM缓存来自南亚,DDR4类型,8Gb容量,耐温0到95度。
平时大家接触到的家用SSD在标称读写性能的时候都有一个Up to xxxx MB/s,也就是至高多少兆每秒,这个峰值速度需要借助SLC缓存的帮助才能在理想状态下实现。家用环境默认使用负载是比较低的,所以不会标出SLC缓存用完后的性能。
在下面的规格表中可以看到,企业级固态硬盘的性能指标跟消费级旗舰相比并没有更大的优势,三星PM9A3的指标相比使用同款主控的消费级旗舰980PRO还略低一些,这是因为企业级SSD并不追求极限爆发性能,而是需要充分考虑重负载条件下能够持续输出的性能,并且竭尽所能在各种条件下都提供一致的性能表现。
得益于大普微DPU600系列主控的强悍实力,DapuStor R5101的性能指标明显更强一些,其1750K IOPS的4K随机读取性能已经远远超越现有消费级SSD。
此外,企业级SSD相比消费级SSD还具备很多优势。比如更高的耐久度:
更强的性能:
更强的保护:
企业级固态硬盘使用冗余数据恢复技术来处理闪存中多个die失效的故障,并且不影响数据完整和业务运行,UBER不可修复的错误比特率通常会比消费级SSD低一到两个数量级。
企业级固态硬盘还可提供全路径端到端数据保护,在数据从主机端通过 PCIe 链路传输到SSD主控,主控将数据传输到闪存接口,再通过闪存接口将数据写入闪存颗粒中,再返回给主机端的整个传输路径中,每一段传输路径都有纠错/检错算法保证数据被正确传输,降低静默错误风险。
以上介绍完产品还有基本的纸面,下面进行实测来体验企业级真正的实力
CPU:AMD Ryzen 7 5800X @ 4.6GHz
主板:AMD X570
内存:16GB DDR4-3200
SSD:STEC s620 200GB(系统盘)
DapuStor R5101 3.84TB(FW:FF002100)
Intel D7-P5510 3.84TB(FW:JCV10200)
Samsung PM9A3 3.84TB(FW:GDA5402Q)
某消费级PCIE4.0旗舰(对照盘)
OS:Windows Server 2019/Ubuntu 21.10
本次测试依然是在PC测试平台上进行,通过同样的脚本测试,让三款企业级固态与一款消费级旗舰进行对比,已经能体现出来明显优势。除了用于对照的消费级SSD直接安装在CPU直连的M.2插槽之外,三款企业级SSD在测试时均通过U.2转接卡连接到CPU直连的主板PCIE插槽。
CrystalDiskInfo信息识别:三款企业级SSD均使用PCIe 4.0 x4接口,DapuStor R5101和三星PM9A3支持NVMe 1.4协议,英特尔D7-P5510则沿用NVMe 1.3。
在测试英特尔D7-P5510的时候发生了一个小插曲,这块测试样品默认使用了512B+8B的扇区格式,Windows Server 2019无法正确识别,而在Linux下则能够正常工作。我们在Linux下通过nvme-cli将其高级格式化为标准的512B扇区,成功解决了这个问题。
在我们熟悉的Windows操作系统中,CrystalDiskMark是非常好用的SSD带宽和IOPS测试工具。只需简单调整就可以评估SSD能否达到其标称性能。
不过这一次CrystalDiskMark失灵了,Windows系统似乎在1000K IOPS左右存在一个瓶颈,无法测出DapuStor R5101应有的1750K随机读取IOPS。即便请出IOMeter也仅仅是能跑出7500MB/s顺序读取,4K随机读取IOPS依然无法体现出来。
而在Linux系统下,DapuStor R5101通过fio可以轻松跑出1800K IOPS。除了平均延迟之外,fio还提供详细的99百分位延迟信息。虽然很多Linux下的测试工具没有漂亮的图形界面,但性能与功能都比Windows下的同类软件更强,后续的测试也将以Linux系统为主。
ezFIO是经NVM Express推荐的企业级SSD综合测试,它是一个可重复进行的稳定态性能测试脚本。在测试开始前有两次全盘容量写入的预处理阶段,帮助模拟企业级SSD的长期性能。ezFIO同时支持Windows和Linux平台,测试完成后可自动生成测试报告。以下成绩在是Linux系统下搭配fio 3.27测得。
ezFIO的长期性能稳定性检验通过稳定态随机混合读写进行,根据平均IOPS和标准差计算得出变异系数,变异系数越低说明SSD在长期高负荷使用后的性能越稳定,越不容易产生程序需要等待IO的情况(卡顿)。
DapuStor R5101 3.84TB的稳定态混合随机读写20分钟平均IOPS为460071,变异系数1.42%。
英特尔D7-P5510 3.84TB的稳定态混合随机读写20分钟平均IOPS为313174,变异系数1.60%。
三星PM9A3 3.84TB的稳定态混合随机读写20分钟平均IOPS为356543,变异系数为0.70%。
作为参照的消费级1TB SSD,稳定态混合随机读写20分钟平均IOPS为43181,变异系数为21.34%。从平均IOPS来看,消费级PCIe 4.0 SSD能达到企业级的十分之一左右,但高负载下糟糕的性能稳定性使得10块消费级SSD加起来也不能充当一块企业级SSD来使用。
三款企业级SSD的稳定性表现都非常不错,其中三星PM9A3的稳定性最佳(变异系数0.70%),DapuStor R5101的综合性能表现更好。
接下来的稳定态4K随机读写测试,又到了企业级和消费级的岔路口。消费级SSD的随机读写IOPS都建立在SLC缓存基础上,而企业级SSD则会按照稳定态标注,一个是最佳状态,一个是最恶劣条件。
测试的结果也比较符合我们的预期:DapuStor R5101 3.84TB稳定态4K随机读写符合1750K/240K IOPS标称值、英特尔D7-P5510 3.84TB稳定态4K随机读写符合700K/170K IOPS标称值、三星PM9A3 3.84TB稳定态4K随机读写符合1000K/180K IOPS标称值。对照用的消费级旗舰固态稳定态4K随机读写777K/14K IOPS,读取尚能达标,写入则比理想状态下定义的标称值低了将近40倍。
下面是稳定态4K混合读写测试,其中读取占比70%,写入占比30%。为什么要测试混合读写?读取和写入同时进行的难度远比纯读取或纯写入高,但恰恰是这种难度更高的情况更贴近实际使用。金庸小说射雕英雄传里练成左右互搏术的仅有3人,SSD要在混合读写一项上取得好成绩更是考验厂商的技术实力。
消费级SSD在自身能力上同企业级SSD有着巨大差距,能顺利跑完测试就算成功了。DapuStor R5101则延续它在纯读取和纯写入时的领先优势,以459K IOPS的成绩夺魁,领先第二名的三星PM9A3大约28%。
ezFIO脚本还提供了4K混合随机读写的99百分位延迟数据,有助于全面评估SSD在复杂高压条件下的性能一致性表现。图中将读取(左)和写入(右)延迟分开统计,横轴是延迟,越低越好,不同QD下成绩越接近越好。
DapuStor R5101 3.84TB:
英特尔D7-P5510 3.84TB:
三星PM9A3 3.84TB:
整体来看三块企业级SSD各有千秋,DapuStor和三星的写入延迟较低,但英特尔的可预期延迟范围更集中一些。
SSS PTS的全称为Solid State Storage Performance Test Specification,即固态存储性能测试规范,它由SNIA存储网络行业协会制定,当前最新版本是2.0,包括针对企业级SSD的PTS-E规范以及针对消费级SSD的PTS-C规范。
PTS测试在设备而非文件系统级别进行,通俗的说就是SSD在没有分区的状态下进行。PTS测试的是SS(Steady State稳定态)性能,而非FOB(Fresh-Out-of-the-Box开箱状态即出厂态)表现。
为了使SSD达到稳定态,PTS测试需要先执行预处理,也就是我们常说的“填盘”:用随机数据写入全盘2倍容量。而后执行一系列随机写入,稳定态的判定方式为:检查测试窗口中的4K随机写入、64K R65:W35混合随机写入和1024K随机读取三项成绩,允许波动范围+-10%,确认SSD已经进入稳定态后才会继续后续测试。
接下来是对SSS PTS测试报告内容的解读。SSD PTS测试报告会展示测试平台的软硬件配置情况(包括主板、CPU、内存以及操作系统、测试软件版本等)、受测SSD的信息(包括制造商、型号、序列号、固件版本、容量、擦除方式、写入缓存开关等)、测试设定(包括数据模型、测试范围、预处理方式等等)。下图是DapuStor R5101 3.84TB的SSS PTS测试信息:
SSS PTS测试的内容包括512字节、4K、8K、16K、32K、64K、128K和1MB块大小,在0/100、5/95、35/65、50/50、65/35、95/5和100/0混合读写比例下的稳定态IOPS,并以数据表格、2D和3D图示三种形式进行展现。首先是DapuStor R5101 3.84TB的成绩:
然后是英特尔D7-P5510 3.84TB的成绩:
最后是三星PM9A3 3.84TB的成绩:
作为参照物的消费级PCIe 4.0 SSD,我们为它降低难度,选择适合它的PTS-C测试标准,测试范围从100%降低到75%,写入缓存从禁用改为启用:
即便是降低了考试的难度,这款产品依旧压力很大,毕竟现在消费级SSD突出的都是爆发力,针对家用系统盘环境极优化的SLC缓存算法,不一定适合稳定态。
为了方便对比,我们直接把PTS成绩中的数据表格拼到同一张图中:
DapuStor R5101的稳定态性能全面超越了其他对手。三星和英特尔之间的战况胶着,在512字节和4K块大小上三星有比较明显的优势,而在64K以上则是英特尔占优。消费级参照型号继续打酱油,就无需过多评论了。
PCMark 10盘性能一致性测试是Windows系统下的长期高负载测试。测试开始前有两次全盘填充过程、结束后有一次全盘填充过程,此外,每个性能降级阶段将随机写入1分钟或50GB,以先到者为准,这就使得高性能的企业级SSD有机会更快地完成整个测试。
最终DapuStor R5101以3小时37分5秒率先到达终点,三星PM9A3和英特尔D7-P5510的用时分别为4小时50分36秒和4小时55分5秒。作为参照的消费级SSD则耗时11小时41分36秒。各盘成绩对比如下:
一张盘跑上好几个小时,消耗数十TB的写入寿命,如果就只看这么一个总分成绩就太不划算了。下面我们导出详细测试数据进行分析。PCMark 10盘性能一致性测试在大量随机写入过程中掺杂了若干存储性能测试项目,其中包括代表大文件同盘内复制(混合读写)的cp2:4个ISO镜像文件,共计20GB。DapuStor R5101最快,三星PM9A3次之,英特尔D7-P5510第三。作为参照的消费级SSD一旦进入到性能降级阶段就开始打酱油了。
代表零碎小文件同盘内复制的cps2:339个JPEG图片文件,共计2.37GB。英特尔D7-P5510在这个测试中强势翻身夺得第一,DapuStor R5101和三星PM9A3分居第二和第三。作为参照的消费级PCIe 4.0 SSD除了开始阶段的亮点(SLC缓存爆发力强)之外,就没有了太多表现的机会。
代表设计应用的Photshop重负载测试psh:DapuStor R5101表现得游刃有余,英特尔D7-P5510排名第二,三星PM9A3屈居第三,但性能一致性表现的还可以。
下表为稳定态阶段Photoshop重负载项目的第99百分位延迟数据。
VDBench是甲骨文推出的存储性能评估工具,能够支持去重和压缩等特性,我们参考PURESTORAGE的数据制作了模拟甲骨文数据库、VDI、VCI三种企业级应用负载的测试脚本,并将IOPS和延迟的关系制表。图中横轴为IOPS为IOPS(越高越好),纵轴为对应的延迟(越低越好)。iorate的原理是VDBench先以无限制的方式测一次IOPS,而后以其作为100%基准,按照curve参数中给出百分比的IOPS为目标测定延迟。
在VDBench甲骨文数据库工作负载中,DapuStor R5101 3.84TB以192477 IOPS和663us的成绩排名第一。三星PM9A3 3.84TB以116021 IOPS和1102us延迟的成绩位列次席。
VDI虚拟化桌面模拟测试,排名顺序不变:DapuStor R5101 3.84TB以195731 IOPS和646us的成绩勇夺头名,其后分别是三星PM9A3、英特尔D7-P5510。
VSI虚拟化存储模拟测试,消费级SSD直接将双手举过了头顶,这毕竟不是它该来的赛场。DapuStor R5101 3.84TB则以141327 IOPS和897us的成绩遥遥领先于其他竞争对手。
VDBench的iorate曲线功能可以方便得显示出各SSD在逐步达到其极限之前的延迟增长情况。三个测试项目的成绩排名顺序一致:DapuStor R5101、三星PM9A3、英特尔D7-P5510。
这是近几年来PCEVA首次正式评测企业级SSD,虽然测试没有在真正的服务器平台上进行,但我们尽最大努力让每个读者能够由浅入深地了解一些企业级SSD同消费级SSD差异、企业级SSD的测试方法和原理。
本次测试的三款企业级SSD来自三星、英特尔和大普微。从全球市场来看,三星和英特尔的企业级SSD的出货量分别位居第一和第二位。DapuStor R5101则是当前最具实力的国产企业级SSD之一,它使用的DPU616主控在去年荣获2021中国芯“芯火”新锐产品奖,于稳定态混合随机读写性能上有着极为出色的表现。
性能上,同样是PCIe 4.0接口,消费级SSD追求各项“全能”,同时满足办公、游戏、设计需求,但是只适合处理读取为主的中轻度任务。企业级SSD在外观和性能指标上都显得朴实无华,但所标称的性能却是实打实的不含水分,他们的重负载使用性能是消费级SSD无法企及的。
安全性上,企业级SSD不仅具备比消费级SSD更低的UBER(不可修复的错误比特率),还提供闪存die级别的内部冗余数据安全保护,自身故障率更低。此外,企业级SSD能够提供“可预期的性能”,这一点对于给SSD组建RAID阵列非常重要。消费级SSD由于SLC缓存释放等因素的影响,强行组建RAID阵列不仅性能差而且容易导致阵列崩溃。而企业级SSD则可以通过RAID阵列进一步增强原本就更高的数据安全性。
用过企业级SSD之后,小编才感受到了SSD的真正实力:它提供了酣畅淋漓的舒适感、无后顾之忧的信任感和安全感。经常感叹SSD一年不如一年的朋友或许可以开拓一下新视角。