一直以来,“数据保持时间”都是谈论固态硬盘可靠性时绕不开的话题。西部数据的“冷数据”事件更是闹得沸沸扬扬,令不少用户们提心吊胆、人人自危。
什么是“数据保持时间”?什么是“冷数据”问题?要将它们介绍清楚,还得从固态硬盘的工作原理说起。
何为“数据保持时间”?传统固态硬盘使用的是NAND“与非门”,通过电子来存储记录数据。存储单元中带有电子即为“1”,不带电荷则为“0”。但在不通电时,NAND中的电子会随着时间的推移而逐渐泄露。
随着硬盘擦写次数的增加,电子泄露的速度也会逐渐加快。同时,硬盘断电后的环境温度,也会显著影响电子的泄露速度。就像人类的记忆一般,硬盘中的数据也将随着时间而逐渐模糊。当电子泄露积累到一定程度时,就可能引发错误。
所幸,如今的硬盘主控大都有专门应对“冷数据”的算法,最大限度地降低数据损坏的可能。但是,这些算法势必对读取速度有着不小影响,它们也并非万无一失。
早在2012年,第一代商用TLC硬盘——三星840EVO就曾爆出过“冷数据门”,三星通过固件更新解决了部分问题。而在2020年前后,西部数据与闪迪的SATA硬盘也出现了大范围的“冷数据”情况。
一块发生“冷数据”的SATA蓝盘 图自Chiphell越早写入的数据,读取越是缓慢。原本可用500MB/S速度打开大文件的硬盘,在“冷数据”面前,就只剩下不到50MB/S。
这次风波主要涉及西部数据SATA蓝盘、SN500 M.2硬盘与闪迪Ultra系列SATA固态硬盘。
反复读取并不能让硬盘的“冷数据”恢复如初。消费者们唯一的应对方法,便是定期将全盘文件擦除、重写。但是,也会显著增大存储单元的磨损,可能将进一步恶化“冷数据”问题,最终落入“冷数据”越来越严重、擦除重写愈发频繁的死循环。
存储可靠性,是硬盘的关键所在。如此种种关乎“数据保持时间”的异常情况,一次次刺激着所有人的敏感神经。雪上加霜的是,随着技术不断迭代,存储颗粒的类型从MLC、TLC再发展到QLC。每个单元所存储的电子越来越多,硬盘的数据保存能力也越来越差。
逐渐普及的QLC存储介质,也因此被推上了风口浪尖:它是否也有“冷数据”问题?是否能经受住时间的考验?
简单测试怀着对这些问题的好奇,我进行了一次简单的“断电保持时间”测试。
我选用的硬盘,是一块特殊的INTEL 670p SSD,容量为512G。这款SSD搭载了由英特尔研发的QLC颗粒,堆叠层数为144层。
英特尔是QLC商业化应用的先驱,这款144层颗粒已是其第二代产品。
英特尔曾不止一次地强调,其QLC颗粒“有着与TLC一样的品质与可靠性”。仿佛为了证明这一点,英特尔甚至将QLC技术用在了极为重视可靠性的企业级市场。并解释称自己的QLC颗粒使用浮动栅极结构,拥有更好的电子保持能力。
但在不少消费者看来,英特尔的说法十分苍白——“再强也只是个QLC”。消费者们依然没有认可英特尔的QLC颗粒。连续亏损之下,英特尔的NAND部门最终于2020年被整体出售。这块670p SSD便成为了英特尔的最后一款消费级产品。
为了尽可能地模拟真实使用环境,这块QLC硬盘事先经过处理。我希望它的磨损情况,能够贴近消费者日常使用一段时间后的水准。因此,在测试时,它已被写入了超过45TB数据,并经过了大量通电与断电循环。
整盘写入次数超过80次。剩余健康度便下降至62%——可以证明,QLC颗粒确实不耐擦写。那么,一块重度擦写的QLC硬盘,是否能保证数据的长期完整性呢?
这块硬盘是特殊的QS“质量验证”样品,工作在PCIE 3.0X2通道下。如今,我就将验证这块硬盘的质量到底如何。
2022年10月28日,我使用urwtest软件向这块硬盘填满测试数据文件,并就此将其封存。不接入电脑、不进行通电,并保存在没有阳光直射的室温环境之下。
直到8个月后的2023年6月28日,我再度将这块硬盘接入电脑。运行Urwtest进行校验,检测数据是否完整。
由于运行在PCIE 3.0X2通道,这块硬盘的最大读取速度仅在1000MB/S上下,而此时正保持着这个数值,表明硬盘没有发生掉速。Urwtest的校验过程很快结束,硬盘内的数据完整性没有问题。
为了确保万无一失,我将原有的数据全部擦除,并再一次进行全盘写入,以检测硬盘的工作是否正常。
QLC硬盘的全盘写入是个极为漫长的过程,512G的小容量型号更是如此。在SLC缓存消耗殆尽后,它的写入速度会迅速下跌至不足100MB/S,堪比“大号U盘”,比机械硬盘还要缓慢。在经历了无比漫长的一个小时后,数据写入终于完成了。
随后再次进行数据校验,硬盘依旧保持在1000MB/S的最大速度上下。校验结果表明,刚刚写入的数据没有问题。
测试结束,检查硬盘S.M.A.R.T数据。可以看到,0E“媒体与数据完整性错误计数”没有增加,03“可用备用空间”没有异常下降。一切正常。
看来,在8个月的静置时间里,这块擦写量不算少的QLC硬盘并无异常。数据的读取速度并没有明显下降,更没有文件发生丢失或损坏。硬盘也依然能正常擦、写数据,仿佛此前的“休眠”从未发生。
当然,这并不代表着QLC硬盘一定万无一失,但或许能说明“冷数据”离我们还有一段距离。除了个别爆出严重缺陷的硬盘型号以外,大部分SSD并无必要对此过于担忧——真的如此吗?
在这篇文章的编辑过程中,我重新检查了一些经常通电使用的TLC硬盘。然而,令我惊异的是,它们竟然出现了不同程度的冷数据问题。
东芝RD500-Refresh前东芝RD500-Refresh后这块东芝RD500是一块系统盘,读取频繁但很少进行大文件写入。从Refresh前后的情况推断,它出现了轻微的冷数据问题。
RD500已经随着东芝的重组而更名。它便是如今的“铠侠RD20”。
相比于东芝的“轻微掉速”,这块放在硬盘盒上使用、主要存储较大文件的SSD,就更显夸张了——从HD TUNE曲线来看,这或许已是极为明显的“冷数据”问题!
后记长时间静置、重度擦写的QLC硬盘相安无事,而频繁使用、写入较少的TLC硬盘却出现了“冷数据”的征兆。这样的情况大大超出了我的预期,实在是令人费解。
唯一能够解释的,可能只有INTEL那独特的“浮动栅极”结构了。从理论上说,这种结构确实有着更好的数据保持能力。而我们频繁使用的TLC颗粒,是工艺更为简便的“电荷俘获”结构。
英特尔早已退出存储领域。目前市场上的大部分产品,都采用了“电荷俘获”的结构。或许,“冷数据”离我们并不遥远,只是程度各不相同。
我会持续关注手中硬盘的“冷数据”情况,各位值友也可以检查常用SSD的“冷数据”问题。这篇文章到这里就结束了。如果你对文章中的内容有疑问,欢迎随时与我交流!
希望这篇文章能帮到你!