Проблемы с дисковой подсистемой

Опрос

Появились у вас в последнее время на новых ядрах (~с 4.13) проблемы с дисковой подсистемой и зависаниями?
Нет
Бывают постоянно
vasek
Вообщем без логов нет смысла и гадать.
К своему стыду - за столько лет использования Арча так и не научился более-менее его "админить" - ни пользоваться толком тонкими ключами команд, ни пользоваться логами, как мощным инструментом выявления ошибок - спросил, дали наводку, наделал кучу исправлений - помогло - ну и успокоился на этом... ,ни узнать что-то элементарного важного - всё по мануалам только, хотя возможность углубиться в основы управления линуксом были и есть... В общем - типичный лентяй)...
sharddin, в части ошибок диска
vasek
И думаю, в SMART, если проблема с потерей контакта, это должно быть отмечено в ошибках.
имел ввиду, много ли ошибок содержится в журнале/протоколе ошибок диска. В принципе любое грубое отключение диска должно (но не обязано) быть записано. Посмотреть можно так
sudo smartctl -l error /dev/sda
Нет, не поддерживается данная функция, иначе бы выложил и по нему инфу.
Всякие там значение регистров нет смысла смотреть. Важно смотреть строки типа
Error 1 occurred at disk power-on lifetime: 9004 hours (375 days + 4 hours)
По ним можно оценить количество ошибок и время их появления.

И я так и не понял - у тебя нет в SMART параметра 199 UDMA_CRC_Error_Count ?
Вот что пишут про этот параметр
Атрибут: 199 (С7) UltraDMA CRC Error Count
Так вот же - число ошибок:
1,"Raw Read Error Rate","never","95","95","50","0/3368061"
и коррелирующая с ней:
195,"Uncorrected ECC Error Count","never","120","120","0","0/3368061"
- как раз же число не откорректированных ECC-ошибок!
В подавляющем большинстве случаев причинами ошибок становятся некачественный шлейф передачи данных, разгон шин PCI/PCI-E компьютера либо плохой контакт в SATA-разъёме на диске или на материнской плате/контроллере.
Ошибки при передаче по интерфейсу и, как следствие, растущее значение атрибута могут приводить к переключению операционной системой режима работы канала, на котором находится накопитель, в режим PIO, что влечёт резкое падение скорости чтения/записи при работе с ним и загрузку процессора.
Вот именно этому подобное и наблюдалось - было как-то не по себе - ЛИНУКС, более-менее оптимизированная ОС под железо, которое тоже более-менее не старое и довольно средней мощности..., а фризы и зависания просто заставляли разводить руками...
Поэтому и предложил по наблюдать за этим параметром. Запомни его сейчас, а после каждого очередного зависания проверяй значение этого параметра. Так хотя бы как то можно что-то то оценить.
Это будет сделано..., но что-то подсказывает мне, что такого уже не повторится в ближайшее время, ибо по моим субъективным ощущениям - проблема была исправлена...
П.Н. Да, кстати, с наступающем всех! Всех благ и мирного неба над головой!
у меня нечто похожее было с ссд. причиной оказался блок питания идущий в комплекте с корпусом...
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874
sharddin
Так вот же - число ошибок:
1,"Raw Read Error Rate","never","95","95","50","0/3368061"
и коррелирующая с ней:
195,"Uncorrected ECC Error Count","never","120","120","0","0/3368061"
- как раз же число не откорректированных ECC-ошибок!
Это не то, опишу подробнее, может пригодится
01 Raw Read Error Rate - частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска (для части дисков это число внутренних коррекций данных, проведенных до выдачи в интерфейс, а потому имеет очень большое значение)
И да, есть такое понятие
ECC (Error Correcting Code — код, корректирующий ошибки) - сколько производилось коррекций ошибок аппаратной частью диска. Бывают Hardware ECC, Soft ECC и имеют, как правило, следующие коды
195 Hardware ECC Recovered - число коррекции ошибок аппаратной частью диска (чтение, позиционирование, передача по внешнему интерфейсу)
204 Soft ECC correction - Количество ошибок ECC, скорректированных программным способом
Но не все ошибки корректируются. И вот те что не корректируются, получили термин Uncorrectable ECC error и имеюти, как правило, следующий код
198 Uncorrectable Errors Count - число ошибок обращения к сектору, которые нельзя исправить
UPD - у тебя, кстати, этот код равен 195 и отличается от обще принятой нумерации, такое редко, но бывает. А вот кода 199 или похожего на него, у тебя нет.

sharddin
но что-то подсказывает мне, что такого уже не повторится в ближайшее время, ибо по моим субъективным ощущениям - проблема была исправлена…
Дай бог ….
sharddin
Да, кстати, с наступающем всех! Всех благ и мирного неба над головой!
Да это хороший праздник, присоединяюсь к поздравлению ...
Ошибки не исчезают с опытом - они просто умнеют
nafanja
у меня нечто похожее было с ссд. причиной оказался блок питания идущий в комплекте с корпусом…
Так оно и описано (упоминал выше)
vasek
часто это плохой кабель SATA или плохой или ненадлежащий источник питания
Ошибки не исчезают с опытом - они просто умнеют
nafanja
у меня нечто похожее было с ссд. причиной оказался блок питания идущий в комплекте с корпусом…
А БП у меня хоть и на 500Вт, но явно ширпотребовский, некий Qori, довольно лёгкий для своих ватт...
 
Зарегистрироваться или войдите чтобы оставить сообщение.