Проблемы с дисковой подсистемой

Опрос

Появились у вас в последнее время на новых ядрах (~с 4.13) проблемы с дисковой подсистемой и зависаниями?
Нет
Бывают постоянно
vs220
vasek
собирай все llibata error
Можно журнал грипнуть по ошибкам что то вроде
journalctl -g Serror
или вообще по ata1 ata3

$ journalctl -g ata1
-- Logs begin at Tue 2018-01-16 15:52:35 +05, end at Mon 2018-05-07 23:56:04 +05. --
-- Reboot --
-- Reboot --
-- Reboot --
-- Reboot --
-- Reboot --
мая 07 19:35:48 sharddin kernel: ata1: PATA max UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xfa00 irq 14
-- Reboot --
мая 07 20:16:41 sharddin kernel: ata1: PATA max UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xfa00 irq 14
-- Reboot --
мая 07 20:17:19 sharddin kernel: ata1: PATA max UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xfa00 irq 14
-- Reboot --
мая 07 23:34:54 sharddin kernel: ata1: PATA max UDMA/100 cmd 0x1f0 ctl 0x3f6 bmdma 0xfa00 irq 14

$ journalctl -g ata3
-- Logs begin at Tue 2018-01-16 15:52:35 +05, end at Mon 2018-05-07 23:56:04 +05. --
-- Reboot --
-- Reboot --
-- Reboot --
-- Reboot --
-- Reboot --
мая 07 19:35:48 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 19:35:48 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 19:35:48 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 19:35:48 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 19:35:48 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 19:35:48 sharddin kernel: ata3.00: configured for UDMA/133
-- Reboot --
мая 07 20:16:41 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 20:16:41 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 20:16:41 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 20:16:41 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 20:16:41 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 20:16:41 sharddin kernel: ata3.00: configured for UDMA/133
-- Reboot --
мая 07 20:17:19 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 20:17:19 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 20:17:19 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 20:17:19 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 20:17:19 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 20:17:19 sharddin kernel: ata3.00: configured for UDMA/133
-- Reboot --
мая 07 23:34:54 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 23:34:54 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 23:34:54 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 23:34:54 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 23:34:54 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 23:34:54 sharddin kernel: ata3.00: configured for UDMA/133
$ journalctl --since="2018-05-07 16:00:16"  -g ata3
-- Logs begin at Tue 2018-01-16 15:52:35 +05, end at Mon 2018-05-07 23:59:20 +05. --
-- Reboot --
мая 07 19:35:48 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 19:35:48 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 19:35:48 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 19:35:48 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 19:35:48 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 19:35:48 sharddin kernel: ata3.00: configured for UDMA/133
-- Reboot --
мая 07 20:16:41 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 20:16:41 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 20:16:41 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 20:16:41 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 20:16:41 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 20:16:41 sharddin kernel: ata3.00: configured for UDMA/133
-- Reboot --
мая 07 20:17:19 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 20:17:19 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 20:17:19 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 20:17:19 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 20:17:19 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 20:17:19 sharddin kernel: ata3.00: configured for UDMA/133
-- Reboot --
мая 07 23:34:54 sharddin kernel: ata3: SATA max UDMA/133 abar [email protected] port 0xfe02f100 irq 22
мая 07 23:34:54 sharddin kernel: ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
мая 07 23:34:54 sharddin kernel: ata3.00: HPA detected: current 234433391, native 234441648
мая 07 23:34:54 sharddin kernel: ata3.00: ATA-8: KINGSTON SV300S37A120G, 605ABBF2, max UDMA/133
мая 07 23:34:54 sharddin kernel: ata3.00: 234433391 sectors, multi 1: LBA48 NCQ (depth 31/32), AA
мая 07 23:34:54 sharddin kernel: ata3.00: configured for UDMA/133
В текущей загрузке ошибок нет. Блин journalctl -g выводит только для текущей или конкретной journalctl --since "дата" -g
Извините не учел
для всех загрузок тогда традиционно

 journalctl |grep ata3 |wgetpaste
или только конкретную ошибку
 journalctl |grep HostInt  |wgetpaste
В подтверждение плохого контакта говорит похоже и это
EXT4-fs (sda3): Remounting filesystem read-ounly
EXT4-fs (sda3): previous I/O error to superblock detected
Но там есть и другие нехорошие строки, типа
softreset failed  (1st FIS failed)
INFO: task jbdZ/sda2-8:224 blocked for more than120 sec
и другие
которые уже не относятся к llibata error
UPD - и если уж вытаскивать ошибки libata, то грепать нужно не только по Serror, но и Emask и, возможно, другим. Можно типа такого, например,
journalctl | grep -E 'Serror|Emask'
Ошибки не исчезают с опытом - они просто умнеют
vs220
В текущей загрузке ошибок нет. Блин journalctl -g выводит только для текущей или конкретной journalctl –since "дата" -g
Извините не учел
для всех загрузок тогда традиционно

 journalctl |grep ata3 |wgetpaste
https://paste.pound-python.org/show/W7ljF9KkB9gA50Hrppc9/
или только конкретную ошибку
 journalctl |grep HostInt  |wgetpaste
sudo journalctl | grep HostInt  | wgetpaste
No input read. Nothing to paste. Aborting.
vasek
В подтверждение плохого контакта говорит похоже и это
EXT4-fs (sda3): Remounting filesystem read-ounly
EXT4-fs (sda3): previous I/O error to superblock detected
Home-раздел...
Но там есть и другие нехорошие строки, типа
softreset failed  (1st FIS failed)
INFO: task jbdZ/sda2-8:224 blocked for more than120 sec
и другие
которые уже не относятся к llibata error
Да, ошибка "softreset" в таких случаях была повальной.
UPD - и если уж вытаскивать ошибки libata, то грепать нужно не только по Serror, но и Emask и, возможно, другим. Можно типа такого, например,
journalctl | grep -E 'Serror|Emask'
sudo journalctl | grep -E 'Serror|Emask'
мая 07 23:56:04 sharddin sudo[5209]: baekaetin : TTY=pts/0 ; PWD=/home/baekaetin ; USER=root ; COMMAND=/usr/bin/journalctl -g Serror
Буду проверять...
sharddin
Буду проверять…
Не пойму, на приведенных фотках с экрана монитора ошибки есть и, насколько я понимаю это логи journal.
А вот на диск /var/log/journal эти ошибки не попали - то ли причина в том, что что разделы перемонтируются в режим только для чтения то ли в чем то другом, непонятно.
UPD - кстати на фотке была такая строчка - EXT4-fs (sda3): Remounting filesystem read-ounly
Если происходит перемонтирование дисков в режим только для чтения, то тогда вероятнее всего, что все проблемы обусловлены или потерей контакта диска или проблемами с контроллером диска.
Разбирайся.

EDIT 1 - интересно, как часто такие падения бывают? И, думаю, в SMART, если проблема с потерей контакта, это должно быть отмечено в ошибках.
И не понятно - в отсутствии зависаний система работает нормально? нет подтормаживаний, нагрузки cpu и др?
Ошибки не исчезают с опытом - они просто умнеют
vasek
sharddin
Буду проверять…
Не пойму, на приведенных фотках с экрана монитора ошибки есть и, насколько я понимаю это логи journal.
Согласно рекомендациям по Systemd - настроил переброску журнала в 12-ую консоль..., но как-будто она итак раньше "работала"...
А вот на диск /var/log/journal эти ошибки не попали - то ли причина в том, что разделы перемонтируются в режим только для чтения то ли в чем то другом, непонятно.
Да, когда система виснет и работает (движется) только курсор, но есть возможность переключения между консолями - так и пишется, что в режиме чтения ФС - может из-за этого ничего "нельзя сделать"? Хотя, ведь, теоретически - лишь отсутствует запись на диск, но ведь сама ОС работает из ОЗУ!??...
UPD - кстати на фотке была такая строчка - EXT4-fs (sda3): Remounting filesystem read-ounly
Если происходит перемонтирование дисков в режим только для чтения, то тогда вероятнее всего, что все проблемы обусловлены или потерей контакта диска или проблемами с контроллером диска.
Разбирайся.
Пробую, нужно "сильное" компилирование, но выбор linux-rt затруднён за отсутствием нужных подписей - почему так бывает (с пакетами АУР-а), если все операции по обновлению ключей я делаю?... Хотя, со временем "такие" пакеты всё равно обзаводятся нужными подписями...
EDIT 1 - интересно, как часто такие падения бывают? И, думаю, в SMART, если проблема с потерей контакта, это должно быть отмечено в ошибках.
И не понятно - в отсутствии зависаний система работает нормально? нет подтормаживаний, нагрузки cpu и др?
Бывают, когда идёт интенсивная нагрузка на диск в многопоточном режиме, ИМХО - особенно, при использовании Фокса/Ютуба+установка программ/обновление ОС+компиляция из АУР-а, возможно, так как системник под ногой, его задеваю неосознанно - может микроудары происходятили, может от вибраций - раз разъёмы на МП хиловатые какие-то... В отсутствие данных проблем, всё работает как-будто нормально - зависаний не ощущается, нагрузка есть - в основном - это PulseAudio (до 20-40%), ОгнеЛис, Х-ы...:
"ID","Name","Failed","Norm-ed value","Worst","Threshold","Raw value","Type","Flags"
1,"Raw Read Error Rate","never","95","95","50","0/3368061","old age","-O--CK"
5,"Retired Block Rate","never","100","100","3","0","<b>pre-failure</b>","PO--CK"
9,"Power-On Time","never","92","92","0","7258h+11m+41.970s","old age","-O--CK"
12,"Power Cycle Count","never","100","100","0","995","old age","-O--CK"
171,"Program Fail Count","never","100","100","0","0","old age","-O-R--"
172,"Erase Fail Count","never","100","100","0","0","old age","-O--CK"
174,"Unexpected Power Loss Count","never","0","0","0","179","old age","----CK"
177,"Wear Range Delta","never","0","0","0","1","old age","------"
181,"Program Fail Count","never","100","100","0","0","old age","-O-R--"
182,"Erase Fail Count","never","100","100","0","0","old age","-O--CK"
187,"Reported Uncorrectable","never","100","100","0","0","old age","-O--C-"
189,"Airflow Temperature","never","35","43","0","35 (Min/Max 11/43)","old age","------"
194,"Temperature (Celsius)","never","35","43","0","35 (Min/Max 11/43)","old age","-O---K"
195,"Uncorrected ECC Error Count","never","120","120","0","0/3368061","old age","--SRC-"
196,"Reallocation Event Count","never","100","100","3","0","<b>pre-failure</b>","PO--CK"
201,"Soft Read Error Rate","never","120","120","0","0/3368061","old age","--SRC-"
204,"Soft ECC Correction Rate","never","120","120","0","0/3368061","old age","--SRC-"
230,"Life Curve Status","never","100","100","0","100","<b>pre-failure</b>","PO--C-"
231,"SSD Life Left","never","98","98","11","55�834�574�849","old age","------"
233,"Internal Attribute","never","0","0","0","5�267","old age","-O--CK"
234,"Internal Attribute","never","0","0","0","2�362","old age","-O--CK"
241,"Total GiB Written","never","0","0","0","2�362","old age","-O--CK"
242,"Total GiB Read","never","0","0","0","7�872","old age","-O--CK"
244,"Average Erase Count","never","99","99","10","3�211�304","old age","------"
"Description","Value","Flags","Page, Offset"
"General Statistics (rev 2)","","",""
"    Lifetime Power-On Resets","995","---","0x01, 0x008"
"    Power-on Hours","7�258","---","0x01, 0x010"
"    Logical Sectors Written","4�954�379�787","---","0x01, 0x018"
"    Logical Sectors Read","16�509�874�222","---","0x01, 0x028"
"General Errors Statistics (rev 1)","","",""
"    Number of Reported Uncorrectable Errors","0","---","0x04, 0x008"
"    Resets Between Cmd Acceptance and Completion","1","---","0x04, 0x010"
"Temperature Statistics (rev 1)","","",""
"    Current Temperature (C)","35","---","0x05, 0x008"
"    Average Short Term Temperature (C)","32","---","0x05, 0x010"
"    Average Long Term Temperature (C)","30","---","0x05, 0x018"
"    Highest Temperature (C)","43","---","0x05, 0x020"
"    Lowest Temperature (C)","15","---","0x05, 0x028"
"    Highest Average Short Term Temperature (C)","36","---","0x05, 0x030"
"    Lowest Average Short Term Temperature (C)","26","---","0x05, 0x038"
"    Highest Average Long Term Temperature (C)","31","---","0x05, 0x040"
"    Lowest Average Long Term Temperature (C)","28","---","0x05, 0x048"
"    Time in Over-Temperature (Minutes)","0","---","0x05, 0x050"
"    Specified Maximum Operating Temperature (C)","70","---","0x05, 0x058"
"    Time in Under-Temperature (C)","0","---","0x05, 0x060"
"    Specified Minimum Operating Temperature (C)","0","---","0x05, 0x068"
"Transport Statistics (rev 1)","","",""
"    Number of Hardware Resets","0","---","0x06, 0x008"
"    Number of ASR Events","3�445","---","0x06, 0x010"
"    Number of Interface CRC Errors","0","---","0x06, 0x018"
"Solid State Device Statistics (rev 1)","","",""
"    Percentage Used Endurance Indicator","1","---","0x07, 0x008"
Self-test log:
"Test #","Type","Status","% Completed","Lifetime hours","LBA of the first error"
1,"Short offline","Completed without error","100%","7�258","-"
vasek
А вот на диск /var/log/journal эти ошибки не попали - то ли причина в том, что что разделы перемонтируются в режим только для чтения то ли в чем то другом, непонятно.
Вот тоже не понятно
журнал как будто начинается с 7 мая, причем /var он монтирует на другой диск не на тот котором ошибки
sharddin
# /dev/sdc8
UUID=95a467f3-3bd5-4e51-953a-241a4f5fdf4b /var
.
По идеи даже при монтировании корня в ro журнал на другой диск должен записаться, может системд чудит при /var на отдельном диске
Вообщем без логов нет смысла и гадать.

sharddin, в части ошибок диска
vasek
И думаю, в SMART, если проблема с потерей контакта, это должно быть отмечено в ошибках.
имел ввиду, много ли ошибок содержится в журнале/протоколе ошибок диска. В принципе любое грубое отключение диска должно (но не обязано) быть записано. Посмотреть можно так
sudo smartctl -l error /dev/sda
Всякие там значение регистров нет смысла смотреть. Важно смотреть строки типа
Error 1 occurred at disk power-on lifetime: 9004 hours (375 days + 4 hours)
По ним можно оценить количество ошибок и время их появления.

И я так и не понял - у тебя нет в SMART параметра 199 UDMA_CRC_Error_Count ?
Вот что пишут про этот параметр
Атрибут: 199 (С7) UltraDMA CRC Error Count
В подавляющем большинстве случаев причинами ошибок становятся некачественный шлейф передачи данных, разгон шин PCI/PCI-E компьютера либо плохой контакт в SATA-разъёме на диске или на материнской плате/контроллере.
Ошибки при передаче по интерфейсу и, как следствие, растущее значение атрибута могут приводить к переключению операционной системой режима работы канала, на котором находится накопитель, в режим PIO, что влечёт резкое падение скорости чтения/записи при работе с ним и загрузку процессора.
Поэтому и предложил по наблюдать за этим параметром. Запомни его сейчас, а после каждого очередного зависания проверяй значение этого параметра. Так хотя бы как то можно чтот то оценить.
Ошибки не исчезают с опытом - они просто умнеют
vs220
vasek
А вот на диск /var/log/journal эти ошибки не попали - то ли причина в том, что что разделы перемонтируются в режим только для чтения то ли в чем то другом, непонятно.
Вот тоже не понятно
журнал как будто начинается с 7 мая,
Так журнал был ограничен в 50 МБ - может из-за этого! (увеличил до 200МБ)
причем /var он монтирует на другой диск не на тот котором ошибки
sharddin
# /dev/sdc8
UUID=95a467f3-3bd5-4e51-953a-241a4f5fdf4b /var
Всё так - дабы износа ССД не было такого… Кстати, очень часто в логах вижу ошибки отмонтирования /var при перезагрузке или выключении…
По идеи даже при монтировании корня в еro журнал на другой диск должен записаться, может системд чудит при /var на отдельном диске
Об этом я тоже думал - но что делать, если /var очень перезаписываемая часть ФС? Разве кто ещё так не делает или при современных ССД перенос данной папки на отдельный раздел НЖМД уже не актуально??
 
Зарегистрироваться или войдите чтобы оставить сообщение.