Диски Seagate показывают странные очень большие SMART атрибуты

Если вы используете диски Seagate в своем NAS, то могли заметить огромные значения в некоторых атрибутах SMART, а например Synology DSM пишет, что диск исправен. Давайте разберемся почему так и что с этим делать.

Информация, предоставленная в данной статье, основывается на моих личных наблюдениях и опыте, а так же я проводил поиск в интернете и пытался это все сконцентрировать и предоставить в одном месте.

У меня, как и у многих других есть диски Seagate IronWolf. Я не особо люблю диски данного производителя, тем не менее купил именно их, т.к. они стоили очень не дорого. Конечно потом оказалось, что меня обманули и диски были не новыми, а просто с обнуленным SMART, но я был морально готов к такому повороту событий, т.к. цена была соответствующая.

В общем Seagate IronWolf сколько я себя помню вечно показывали огромные значения в некоторых атрибутах SMART, в то время как другие диски WD или Toshiba в таком замечены не были. Поэтому на огромные значения атрибутов SMART в Seagate IronWolf я внимания не обращаю.

Вот например, если посмотреть на атрибуты SMART в программе Scrutiny (Просмотр атрибутов SMART в DSM 7.2.1 и новее), то она все диски Seagate IronWolf помечает как неисправные. Причина – нереально большие показатели в атрибуте 188 (Command Timeout) в данном моем случаи.

Command Timeout (188):

  • Этот атрибут показывает количество операций (команд) ввода/вывода (I/O), которые диск не смог выполнить в заданное время и были прерваны по таймауту.
  • Это одна из самых критичных ошибок для диска в NAS, особенно в RAID-массиве.
  • Причины: Проблемы с кабелем (SATA), неисправный контроллер диска на NAS, плохой блок питания, физическая деградация диска (особенно механики или электроники), прошивка диска.

Если вы используете диски с такой ошибкой Command Timeout, то можете столкнуться со следующими проблемами:

  • Вылет диска из RAID: Диски с такими ошибками часто внезапно “исчезают” из системы (выпадают из RAID) при нагрузке, так как контроллер RAID не может дождаться ответа. Это приводит к деградации массива.
  • Сбой ребилда: Если диск выпал, и вы начинаете восстанавливать массив на новый диск, велик шанс, что этот проблемный диск выпадет снова во время ребилда (очень ресурсоемкий процесс), что может уничтожить весь массив.
  • Потеря данных/Коррупция данных: Прерванные операции записи/чтения могут привести к повреждению файлов на диске или в кэше.
  • Нестабильность системы: NAS может зависать, сервисы (типа SMB) могут обрываться из-за проблем с диском.

В таких случаях нужно немедленно сделать резервную копию данных (Резервное копирование и восстановление в Synology), запустить сначала быстрый тест SMART, а затем расширенный (Synology NAS тест SMART). Если тест завершится с ошибкой или зависнет – это явный признак неисправности диска. (Synology почему тест SMART зависает на 90%?)

Казалось бы диск или как в моем случаи все диски неисправны и их нужно менять. Вот только Synology DSM отображает все эти диски как исправные, что явно вызывает сомнения и в том или в другом. Диски спокойно проходят проверки SMART, нет битых секторов и скорость работы дисков соответствует спецификациям производителя.

Поискав почему Seagate IronWolf показывают такие нереальные значения и при этом работают я пришел к таким выводам:

  • SMART-атрибуты у разных производителей интерпретируются по-разному. Seagate использует некоторые атрибуты (особенно 188 – Command Timeout, 190 – Airflow Temperature, 195 – Hardware ECC Recovered) как счетчики всего подряд. Такой подход еще называют мусорной корзиной. Сюда попадают не только реальные критические ошибки, но и огромное количество внутренних, незначительных событий контроллера диска, коррекции, служебные операции. У других производителей (WD, Toshiba) эти же атрибуты считают только критические события. Поэтому у них значения часто близки к нулю.
  • У Seagate более агрессивный сбор диагностики. Высокие значения в этих атрибутах часто не являются индикатором реальной проблемы, а просто особенностью работы прошивки. Значения в миллиарды для 188 и 195 на совершенно новых дисках – печальная норма.

Утилиты вроде Scrutiny (и даже smartctl) по умолчанию применяют общие критические пороги ко всем дискам. Они видят гигантское число в 188 и кричат FAILED. Synology DSM (и некоторые другие NAS-системы) использует специфичные пороги и логику для разных моделей дисков, особенно популярных в NAS такие, как IronWolf. DSM знает, что для Seagate 188 с миллиардами – это нормально, если нет других тревожных признаков, и не считает это критичным.

Тут самое главное не паниковать. Если диски проходят все тесты SMART корректно, то смотреть нужно на следующие атрибуты:

  • 5 (0x05) Reallocated Sectors Count: САМЫЙ ВАЖНЫЙ! Число переназначенных (бэд) секторов. Должно быть 0 (RAW_VALUE). Любое значение > 0 – повод для беспокойства. Рост – тревога!
  • 187 (0xBB) Reported Uncorrectable Errors: Число неисправимых ошибок. Идеально 0.
  • 197 (0xC5) Current Pending Sector Count: Сектора, которые под подозрением, ожидают переназначения или повторной проверки. Идеально 0. Любое значение > 0 – запускайте расширенный тест SMART.
  • 198 (0xC6) Offline Uncorrectable Sector Count: Сектора, которые не смогли быть прочитаны во время офлайн-тестов. Идеально 0.

Еще помните, что значения SMART, например Reallocated Sectors Count, могут быть больше нуля и при этом диск может работать годами. Тут главное динамика роста ошибок. Например, в Synology есть даже график ошибок самых важных по их мнению атрибутов. Этим графикам, как и тестам SMART и нужно выделять повышенное внимание. Если на этих графиках наблюдается рост ошибок, то меняйте диск как можно скорее.

Доверяйте не абсолютным значениям, а динамике и ключевым атрибутам. Если диск стабильно работает, а тесты проходят – значит, всё в порядке, даже если 188 показывает миллиарды.

Подписаться
Уведомить о
guest
0 Комментарий
Старые
Новые
Межтекстовые Отзывы
Посмотреть все комментарии