欢迎光临
我们一直在努力

Chia硬盘驱动器如何失效?

全球最大交易所币安

国区邀请链接:https://accounts.suitechsui.io/zh-CN/register?ref=16003031 支持86手机号码,网页直接注册。

全球最大交易所币安,国区邀请链接:https://accounts.binance.com/zh-CN/register?ref=16003031  币安一向重视合规,早在2017年就已经退出中国大陆市场,注册不了请用香港IP地址,居住地选中国,认证照旧,邮箱推荐如gmail、outlook。,认证照旧。,居住地选中国,认证照旧。,认证照旧。

目前不清退的交易所推荐:

1、全球第二大交易所OKX欧意,邀请链接: https://www.ukifpycwpmrd.com/zh-hans/join/1837888  注册简单,交易不需要实名,新用户能开合约,币种多,交易量大!。

2、老牌交易所比特儿现改名叫芝麻开门 :https://www.gate.ac/signup/XgRDAQ8?ref_type=103

hdd_black

摘要/TL; DR

HDD(硬盘驱动器)有活动部件,经常使用会因机械磨损和温度等外部环境因素而发生故障。使用 SMART 来监控驱动器的健康状况以查找不可纠正的错误和重新分配的扇区以寻找预测性故障的迹象。

Chia农业工作量是独一无二的

多年来,当新的实习生加入我们在英特尔的团队时,我会抓起一块白板,向他们解释一些关于 SSD 工作原理的基本概念、带宽和延迟之间的差异以及一些奇特的类比,并且总是以 RAID 和储存耐久性。在开发存储用户数据的产品时,保证用户数据安全是一项工作。关于在存储系统层次结构的哪一层放置冗余总是存在争论,但无论采用何种方法,数据保护总是存在开销。对于学习 Chia 的存储老手来说,一开始这可能会令人不快。Chia 不存储任何用户数据……所有绘图文件都是可替代的,与典型的消费者或企业工作负载相比,农业工作负载非常轻。在一系列帖子中,我将解释为什么 Chia 拥有如此独特的存储工作负载,这将不可避免地导致存储的二次使用和循环性增加。我假设即使有一些错误的旧驱动器也非常适合种植 Chia,即使不符合关键数据存储的条件。了解存储设备如何报告错误和执行自我监控是基础,但不幸的是,通常并没有很好地理解。今天我要从 Chia 农业的面包和黄油开始 – 硬盘驱动器。

硬盘驱动器的故障与 SSD 非常不同

硬盘驱动器和SSD 出现故障以非常不同的方式。由于固件与硬件问题,SSD 更容易出现故障。我的背景是 SSD,我们花了很多时间争论,因为 HDD 有活动部件 – 它们本质上不太可靠。这是真的,实际上是 HDD 故障的根源,但我认为人们不太了解的是为什么会发生这些机械故障以及用户可以采取哪些措施来确保其 HDD 的使用寿命。现代 HDD 由物理磁盘组成,高容量 HDD 在 16、18 和 20TB 型号中最多使用 9 个盘片。执行器与磁体组件相连,磁体组件承载着执行读写操作的磁头。当磁头不使用时,它们会在加载/卸载事件中“停放”。多年来,所有这些微小的操作都增加了小颗粒被释放到驱动器内部的机会,一般用空气或氦气密封。当这些颗粒在驱动器中松动时,在进行读取或写入时,磁头可能会撞到一个,这会对盘片造成微小的损坏,HDD 固件现在必须将这些数据重新分配到其他安全的地方盘。此事件称为“重新分配的扇区”,我们将探讨如何在 SMART 中查看这些事件。其中一些很好,并且磁盘可以恢复,但是快速增加的扇区过多或重新分配的扇区是磁盘将出现故障的良好迹象。此事件称为“重新分配的扇区”,我们将探讨如何在 SMART 中查看这些事件。其中一些很好,并且磁盘可以恢复,但是快速增加的扇区过多或重新分配的扇区是磁盘将出现故障的良好迹象。此事件称为“重新分配的扇区”,我们将探讨如何在 SMART 中查看这些事件。其中一些很好,并且磁盘可以恢复,但是快速增加的扇区过多或重新分配的扇区是磁盘将出现故障的良好迹象。

关于如何衡量可靠性的快速说明

质量和可靠性是不同的指标。质量是减少时间零故障的目标。一些低端驱动器型号在出厂前没有像高端驱动器型号那样经过严格的测试,尽管它们可能更有可能被 DOA(到达时死亡)。不要将这些与可靠性问题相混淆,可靠性问题是由设备的长期使用引起的。企业 HDD 的额定 MTBF(平均故障间隔时间)为 200 万或 250 万小时,分别相当于 0.44% 和 0.35% 的 AFR(年故障率)。MTBF 和 AFR 是以不同方式表示的相同指标。平均故障间隔时间是预计出现故障​​之前的总行驶小时数。这并不意味着单个驱动器可以持续 200 万小时;这意味着如果您有一组正在运行的驱动器,您应该预计每 2M 总驱动器通电小时数(所有驱动器的总和)会出现一次故障。年故障率表示,根据来自大量驱动器的数据,单个驱动器每年有 0.44% 的机会发生故障。Backblaze 博客有一些关于几种不同驱动器型号的很好的测量信息,这只是现场硬盘可靠性的一个案例研究,它们显示了它们监控SMART 属性,我发现这接近于我从制造商那里听到的推荐他们自己。

硬盘是智能的!

自我监控、分析和报告技术 (SMART)功能集在 ATA 命令集规范中的 SATA 中定义。SMART 是驱动器告诉主机系统驱动器状态的方式。目标是通过监控设备(SSD 或 HDD)的预测性故障和降级来保护用户数据并最大限度地减少停机时间。SMART 和随附的设备统计日志是驱动器维护驱动器状态、温度、错误等记录的一种方式!

驱动器有活动部件

由于 HDD 具有活动部件,因此它们更容易受到物理环境的影响,包括温度、湿度和外部振动。内部零件的额定运动量在其使用寿命内。如果超过这些,则不能保证存在故障,但在统计上会增加可能性。

温度

如果您见过硬盘驱动器,您就会知道磁盘安装在一个带有顶板的大外壳中,以保持关键组件(如磁盘)与外界隔离。这也意味着 HDD 的导热性非常好,并且在运行时需要气流来保持凉爽。人们的整个职业生涯都在设备散热方面度过,但我会尽量在不冒犯任何人的情况下在这里总结我的建议。设备制造商通常只会说可以将驱动器运行到规格表上的额定温度,这是测试质量和可靠性的温度,但事实是保持驱动器冷却会延长使用寿命。

温度范围 描述
25-30°C 最佳
30-40°C 完全没问题!
40-50°C 温暖的一面,但仍然没有高度影响可靠性
50-60°C 警告温度,尝试找到更好的驱动器冷却
>60°C 会对驱动器造成损坏

冲击和振动

随着硬盘变得越来越大(在行业中,我们称之为面密度),物理硬盘磁盘上的每英寸轨道数需要增加。HDD 过滤外部振动的能力变得更具挑战性——现代 HDD 的速度为每英寸 500,000 条磁道(每条磁道 50 纳米,大约是病毒大小的一半)。振动可能来自驱动器与驱动器之间的交互或附近的设备、风扇或其他系统组件。正确安装驱动器至关重要!服务器的载体经过精心设计,以减弱附近磁盘的旋转振动。如果您尝试为 HDD 进行 DIY,请监控 SMART 属性Raw_Read_Error_Rate and Seek_Error_Rate以确保驱动器不会因过度的外部振动而出现错误。

随着时间的推移影响硬盘可靠性的事情

大多数人过度分析时间作为 HDD 何时会发生故障的主要指标,但驱动器的使用方式和位置在可靠性方面起着重要作用。没有一刀切的方法,但了解这些区域中的一个是否超出额定规格将很好地表明 HDD 出现故障的“原因”。

公制 测量 智能属性
时间 开机时间 9 Power_On_Hours
温度 度 C 194 Temperature_Celsius,设备统计日志 – 温度统计
湿度 % 非冷凝 不适用
工作量 TB 读写 设备统计日志 – 写入的逻辑扇区,读取的逻辑扇区
省电 装载/卸载循环 192 Power-Off_Retract_Count
193 Load_Cycle_Count
冲击和振动 读取头上的错误 1 Raw_Read_Error_Rate
7 Seek_Error_Rate

寻找预测性故障的 SMART 属性

当 HDD 盘片出现物理损坏时,驱动器固件必须将扇区中的数据物理重新分配到新扇区,并保留该数据现在所在位置的信息。这样做是为了防止用户数据丢失。该事件称为 a Reallocated_Event_Count,当主机向需要重新分配的 LBA(逻辑块地址)写入新数据时触发。驱动器固件将保留需要重新分配的所有扇区的计数Current_Pending_Sector,并且当这些扇区写入固件时,将重新分配扇区并增加Reallocated_Sector_Ct每个扇区的属性以及Reallocated_Event_Count每次发生这种情况时。如果您的驱动器上满是 Chia 农业的地块,并且您以只读模式安装,您可能看不到任何Reallocated_Sector_Ct因为这!如果存在物理损坏的扇区,请检查Current_Pending_Sector增量是否更高。如果您看到属性 5 或 197 快速增加,这可能表明驱动器中有大量松散的粒子造成严重破坏,并且是故障的早期指标。在某些时候,当这些属性达到预设的 SMART 限制时,驱动器将触发 SMART 预测性故障标志。

属性 描述 这是什么意思
5 Reallocated_Sector_Ct 驱动器固件需要移动/重新分配的扇区数量 如果它迅速上升,这可能意味着粒子在驱动器中
第196回 驱动器固件重新分配扇区的次数(一次可以做多个) 应该跟踪从 197 > 5 开始的移动
197 Current_Pending_Sector 需要重新分配的扇区将显示在这里,直到主机写入它,然后将移动到属性 5 如果它迅速上升,这可能意味着粒子在驱动器中
第198回 驱动器在后台清理期间发现的无法纠正的错误 大量无法纠正的错误意味着潜在的驱动器故障

智能自检

有两种类型的 SMART 自检可以测试驱动器的故障。有一个简短的自检,应该只需几分钟。驱动器在短短几分钟内可以测试的内容并不多,但如果驱动器未能通过短期测试,则肯定是坏了。扩展自检会完整读取驱动器上的所有数据,并将报告任何无法纠正的错误Offline_Uncorrectable智能属性。但是,扩展测试不会写入任何数据,因此不会强制重新分配扇区。人们必须在磁盘 LBA 跨度上完全覆盖零,如果正在使用旧驱动器,这可能不是一个坏主意。SMART 自检的想法是让系统定期运行它并得出“好”或“坏”的结果,以便数据中心运营商更轻松。就我个人而言,我发现实际上只查看 SMART 数据更有趣,因为每个单独的指标都有一个阈值和标准化值。

如何监控 SMART

我建议在 Windows 或 Linux 中使用smartctl来监视 SMART,但由于实际的 SMART 日志在 SATA 中标准化,因此有无数可用的工具。

sudo apt install smartmontools
sudo smartctl -a /dev/sda

Windows 中

C:\Program Files\smartmontools\bin> .\smartctl.exe -a /dev/sda

在 Mac 上

brew install smartmontools

要查看完整日志,您也可以运行 -x。如果您想深入了解运行 smartctl 并设置 smartd 以在后台监控驱动器,请查看我在此处制作的视频。 Chia 农业 – 硬盘驱动器如何失败!

供应商工具

虽然我更喜欢使用 smartmontools (smartctl) 来监控 SMART,但供应商确实制作了自己的工具,这些工具可用于固件更新和解析所有供应商特定的日志之类的事情。有些人对希捷硬盘注意到一些更高的数字Raw_Read_Error_RateSeek_Error_Rate。不要惊慌!它们报告读取的总字节数和需要解析的错误。我和希捷谈过这个问题,他们计划与 smartmontools 合作来修复解析,但现在它可以与他们自己的名为SeaChest的工具一起使用

sudo ./SeaChest_SMART_x86_64-redhat-linux  -d /dev/sg0 --smartAttributes analyzed

SAS 驱动器

SAS HDD 有几种口味,其中一种是 2.5 英寸 10k 或 15k RPM(曾经是“性能”硬盘驱动器)。你可以想象 SSD 基本上已经杀死了这些,但一些 Chia 农民正在使用它们作为一些临时存储以进行绘图。对于 Chia 农场,可以使用更大容量的 3.5 英寸硬盘。通常,由于以下几个原因,它们往往比 SATA HDD 略贵:它们具有用于高可用性或多主机配置的双端口,它们以更高的突发速度(12Gbps 与 6Gbps)运行,并且具有更多配置选项,包括安全性和数据保护信息。不过,下面的机械硬盘仍然完全相同,因此我们上面学到的相同原则适用于 SAS 硬盘,只是它们的报告方式不同。在 SAS 中,一切都是一个日志页面。当您在 SAS 驱动器上执行 smartctl 时,它只是转储和报告日志页面。在 smartctl 的解析输出中查找的日志页面是Elements in grown defect listError counter log。生长缺陷也是 SSD 中使用的术语,也用于 NAND 缺陷和退役块,类似于上面讨论的 SATA HDD 的重新分配扇区。

SAS HDD 预测性故障属性

Grown Defect List
Read Errors Corrected by ReReads/ReWrites
Read Total Uncorrected Errors
Write Errors Corrected by ReReads/ReWrites
Write Total Uncorrected Errors

NVMe SSD(不是本文的重点)

如果您想在 NVMe 上监控 SMART,我也写了大量有关此主题的文章!我是 NVM Express 组织的一员,我们非常努力地将尽可能多的 SMART 标准化,以便所有供应商都以相同的格式报告它。 NVMe CLI 在 Windows 和 Linux 中读取 NVMe SMART

概括

任何在 Chia 认真耕种的人都会在 eBay 或 Craigslist 上遇到一些有问题的驱动器,并遇到驱动器故障或不得不将驱动器退还给制造商。我喜欢 smartmontools (smartctl) 使在 Linux、Windows 或 Mac 上运行单个命令变得相当容易,并在不同的存储接口上获取 SMART 日志的解析版本,我希望每个人都非常熟悉监控 SMART在硬盘上。

如果您有问题或想谈论 HDD,请加入我们的公共 Keybase 团队,并查看我们的 #farming 和 #plotting 频道。

目前不清退的交易所推荐:

1、全球第二大交易所OKX欧意,邀请链接: https://www.ukifpycwpmrd.com/zh-hans/join/1837888  注册简单,交易不需要实名,新用户能开合约,币种多,交易量大!。

2、老牌交易所比特儿现改名叫芝麻开门 :https://www.gate.ac/signup/XgRDAQ8?ref_type=103

全球最大交易所币安,国区邀请链接:https://accounts.binance.com/zh-CN/register?ref=16003031  币安一向重视合规,早在2017年就已经退出中国大陆市场,注册不了请用香港IP地址,居住地选中国,认证照旧,邮箱推荐如gmail、outlook。,认证照旧。,居住地选中国,认证照旧。,认证照旧。

火必所有用户现在可用了,但是要重新注册账号火币https://www.huobi.com

全球最大交易所币安

国区邀请链接:https://accounts.suitechsui.io/zh-CN/register?ref=16003031 支持86手机号码,网页直接注册。

赞(0)
未经允许不得转载:Chia之家 » Chia硬盘驱动器如何失效?