硬盘驱动器可靠性和 MTBF / AFR

Seagate 不再使用行业标准“故障间隔时间” (MTBF) 来量化磁盘驱动器的平均故障率。MTBF 过去被证明有用,但也存在缺陷。

为了解决可靠性问题,Seagate 正在改为采用另一种标准:“年度故障” (AFR)。

MTBF 是一个与可靠性相关的统计术语,以通电时间 (p.o.h.) 表示,通常是与硬盘机构相关的规格。
它最初是为军事领域开发,可以通过几种不同的方法来计算,每种方法都会产生极为不同的结果。对于硬盘驱动器机构,常见的 MTBF 等级为 300,000 至 1,200,000 小时之间,这可能让人们得出结论,即该规格承诺可实现 30 至 120 年的连续操作。事实并非如此!此规格基于在测试站点上持续运行的大量(具有统计意义)硬盘以及根据各种已知统计模型推断的数据,从而生成结果。
MTBF 是根据几周或几个月内观察到的错误率估算得出,并不代表您的个人硬盘或任何个别产品可以持续使用多长时间。MTBF 也不是质保 - 它代表了一系列产品的相对可靠性。较高的 MTBF 通常仅仅表示该系列机构更加可靠和耐用(取决于所使用的统计模型的一致性)。历史上,包含无论何种原因的所有退货在内,现场 MTBF 通常为预计 MTBF 的 50-60%。

Seagate 的新标准为 AFR。  AFR 与 MTBF 类似,只是单位不同。MTBF 是故障之间可能的平均服务小时数,AFR 则是每年故障的可能百分比,基于制造商类似类型的已安装装置总数。AFR 是对一年内由于供应商原因而导致现场故障的产品百分比的估计值。Seagate 已经从平均衡量值转变为百分比衡量值。

MTBF 量化了产品故障的概率,但是,当产品首次推出时:这个概率通常是预测的数字,只有在现场进行大量测试或广泛使用后,制造商才能提供经证明的或实际的 MTBF 测量值。AFR 将允许更好地制定服务计划和备用装置策略。

硬盘的可靠性与温度密切相关。根据运行设计,环境温度为 86°F。高于 122°F 或低于 41°F 的温度会降低可靠性。对于高速硬盘,建议采用达 150 线性英尺/分钟的定向气流。

故障率不包括“未发现故障”、有过度冲击故障或处理损坏的硬盘退货。 
搜索硬盘的产品手册了解可靠性、运行冲击和振动的规格。

以下是产品手册的示例节选,适用于 Barracuda ES.2 近线并行 ATA 硬盘:

在确保 HDA 箱体温度不超过 40°C 的环境中运行时,产品应达到 0.73%的年度故障率 (AFR) (平均故障间隔时间 - 120 万小时)。在第 2.9 节规定以外的温度范围内操作可能会增加产品年度故障率(降低 MTBF)。AFR 和 MTBF 是总体统计数字,与个别装置无关。
AFR 和 MTBF 规格基于以下关于关键业务存储系统环境的假设:

  • 每年 8,760 运行小时数。
  • 每年 250 次平均电机启动/停止循环。
  • 在额定电压下运行。
  • 系统将提供足够的冷却以确保外壳温度不超过 40°C。第 2.9 节中的规格之外的温度将增加产品 AFR 并降低 MTBF。