Сбой на системном SSD накопителе

vasek
Глядя на S.M.A.R.T. я критических ошибок не вижу - то что много ошибок чтения и имеются переназначенные сектора еще ни о чем не говорит (поле RAW_VALUE не стандартизовано и каждый производитель использует свои стандарты), главное, что столбец WHEN_FAILED пуст, здесь метода у всех стантартизована — сигнал об ошибке все расчитывают одинаково.
В части сообщений Libata error ….. ничего конкретного вытащить нельзя …...
media error - Software detected a media error ….(очень широкое понятие)
Сохрани важные данные, сделай полный S.M.A.R.T. (по времени будет больше часа ....доведи до конца и ничего не делай...)
smartctl -t long /dev/sd.... (или smartctl --test=long /dev/sd....)
ну и периодически анализируй динамику развития параметров S.M.A.R.T.
Смарт у меня вываливается в офф, я жду назначенное время, а потом:
sudo smartctl -H /dev/sdb
...
Standard Inquiry (36 bytes) failed [Input/output error]
Retrying with a 64 byte Standard Inquiry
Standard Inquiry (64 bytes) failed [Input/output error]
A mandatory SMART command failed: exiting. To continue, add one or more
'-T permissive' options.
Из оффа, кстати, комп в коматозном состоянии выползает - большинство функций не работают.
Полный лог ошибок

corner
Похожая ситуация с SSD Intel...
S.M.A.R.T. здесь, конечно, не помощник.
Тоже обновлял прошивку, оставлял 25% свободными при создании файловой системы.
Пробовал на разных компьютерах...
Решил проблему заменой диска на обычный.
Теперь жду, когда найдется накладная :)
Гарантия 5 лет :) 3 года в запасе :)
Беда-печаль. У меня походу все.
yaa
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
Насчет ошибки (не в курсе что у тебя, поэтому привожу полный перечень для проверки)
- smartmontools надеюсь установлен
- в некоторых BIOS требует подключения в BIOS
- проверить активирован ли SMART (# hdparm -I /dev/sda | grep SMART ..... должна быть звездочка)

- если все имеется, пробуй, что тебе советует вывод - add one or more '-T permissive' options
- пробовать (дополнительно к опции T permissive) опцию '-d' ....можно методом логического выбора
- ну и если usb , то возможно нет smart (все зависит от контроллера)

Вооот склероз....совсем забыл, что вывод SMART имеется...... как всегда, пишу, а потом думаю.....
PS..... попробуй использовать /dev/sg... ....как то встречалось, что иногда помогает..
Ошибки не исчезают с опытом - они просто умнеют
Покапался у себя …. некоторые пробуют разные опции типа libata.force= и другие …. даю ссылку, где часть этих опций в одном месте.....чел пробовал их методом тыка и проверял их действие
Плюс к этому свежая статейка на тему ошибки "failed command: READ FPDMA QUEUED"
Вряд ли это твое (вроде бы причина ее шлейф, источник питания), но на всякий случай ссылку оставляю....
PS...... Давно хочу найти подробную расшифровку libata error, в принципе, на ихнем сайте имеется описание, но хотелось бы иметь подробное описание формата сообщений (всех полей)
Ошибки не исчезают с опытом - они просто умнеют
Не смог получить внятного ответа от тестов поверхности.
После тестирования по опциям "...-l selftest..." и "...-l error..." выдаётся

Device does not support Self test logging
и
Error Counter logging not supported

После завершения тестирования ничего не работает (input/output error) приходится в жёсткую перезагружать компьютер

vasek
....попробуй использовать /dev/sg... ....как то встречалось, что иногда помогает..
У меня вообще нет устройств /dev/sg*

По ссылкам ходил, но так и не понял - как их можно использовать. Перебирать ключи не рискнул.
yaa
Device does not support Self test logging
и
Error Counter logging not supported
Это значит что у тебя не поддерживается.... для надежности можно перепроверить
# hdparm -I /dev/sd... и смотреть секцию Enabled Supported: ...наличие звездочек
Выходит что в SSD это не поддерживается, никогда с ними дела не имел.
Насчет /dev/sg... забудь....нет смысла и делать в этом случае...
Я имел ввиду это соответствие....
# sg_map -i
/dev/sg0 ......... /dev/sda .......ATA .... TOSHIBA MK6465GS 2C
Ошибки не исчезают с опытом - они просто умнеют
Так, по тесту поверхности вроде бы PASSED:
( ~ )  >> sudo smartctl -Hc /dev/sdb
smartctl 6.4 2015-06-04 r4109 [x86_64-linux-4.3.3-3-ARCH] (local build)
Copyright (C) 2002-15, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00)	Offline data collection activity
					was never started.
					Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever
					been run.
Total time to complete Offline
data collection: 		(    0) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  48) minutes.
Conveyance self-test routine
recommended polling time: 	 (   2) minutes.
SCT capabilities: 	       (0x0021)	SCT Status supported.
					SCT Data Table supported.

vasek
.... для надежности можно перепроверить
# hdparm -I /dev/sd... и смотреть секцию Enabled Supported: ...наличие звездочек
( ~ )  >> sudo hdparm -I /dev/sdb

/dev/sdb:

ATA device, with non-removable media
	Model Number:       Corsair Force GT
	Serial Number:      12447911000014820120
	Firmware Revision:  5.05
	Transport:          Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6, SATA Rev 3.0
Standards:
	Used: unknown (minor revision code 0x0110)
	Supported: 8 7 6 5
	Likely used: 8
Configuration:
	Logical		max	current
	cylinders	16383	16383
	heads		16	16
	sectors/track	63	63
	--
	CHS current addressable sectors:   16514064
	LBA    user addressable sectors:  234441648
	LBA48  user addressable sectors:  234441648
	Logical  Sector size:                   512 bytes
	Physical Sector size:                   512 bytes
	Logical Sector-0 offset:                  0 bytes
	device size with M = 1024*1024:      114473 MBytes
	device size with M = 1000*1000:      120034 MBytes (120 GB)
	cache/buffer size  = unknown
	Nominal Media Rotation Rate: Solid State Device
Capabilities:
	LBA, IORDY(can be disabled)
	Queue depth: 32
	Standby timer values: spec'd by Standard, no device specific minimum
	R/W multiple sector transfer: Max = 16	Current = 16
	Advanced power management level: 254
	DMA: mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 udma5 *udma6
	     Cycle time: min=120ns recommended=120ns
	PIO: pio0 pio1 pio2 pio3 pio4
	     Cycle time: no flow control=120ns  IORDY flow control=120ns
Commands/features:
	Enabled	Supported:
	   *	SMART feature set
	    	Security Mode feature set
	   *	Power Management feature set
	   *	Write cache
	    	Look-ahead
	   *	Host Protected Area feature set
	   *	WRITE_BUFFER command
	   *	READ_BUFFER command
	   *	NOP cmd
	   *	DOWNLOAD_MICROCODE
	   *	Advanced Power Management feature set
	    	Power-Up In Standby feature set
	   *	SET_FEATURES required to spinup after power up
	   *	48-bit Address feature set
	   *	Mandatory FLUSH_CACHE
	   *	FLUSH_CACHE_EXT
	   *	SMART error logging
	   *	SMART self-test
	   *	General Purpose Logging feature set
	   *	WRITE_{DMA|MULTIPLE}_FUA_EXT
	   *	64-bit World wide name
	   *	IDLE_IMMEDIATE with UNLOAD
	    	Write-Read-Verify feature set
	   *	{READ,WRITE}_DMA_EXT_GPL commands
	   *	Segmented DOWNLOAD_MICROCODE
	   *	Gen1 signaling speed (1.5Gb/s)
	   *	Gen2 signaling speed (3.0Gb/s)
	   *	Gen3 signaling speed (6.0Gb/s)
	   *	Native Command Queueing (NCQ)
	   *	Host-initiated interface power management
	   *	Phy event counters
	   *	Device automatic Partial to Slumber transitions
	   *	READ_LOG_DMA_EXT equivalent to READ_LOG_EXT
	   *	DMA Setup Auto-Activate optimization
	    	Device-initiated interface power management
	   *	Software settings preservation
	   *	SMART Command Transport (SCT) feature set
	   *	SCT Data Tables (AC5)
	   *	SET MAX SETPASSWORD/UNLOCK DMA commands
	   *	Data Set Management TRIM supported (limit 1 block)
	   *	Deterministic read data after TRIM
Security:
	Master password revision code = 65534
		supported
	not	enabled
	not	locked
		frozen
	not	expired: security count
	not	supported: enhanced erase
	2min for SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 0000000000000000
	NAA		: 0
	IEEE OUI	: 000000
	Unique ID	: 000000000
Checksum: correct

То есть если "The previous self-test routine completed without error or no self-test has ever been run (а я его совершенно точно run)" причина не в физике, а в логике?
yaa
То есть если "The previous self-test routine completed without error or no self-test has ever been run (а я его совершенно точно run)" причина не в физике, а в логике?
Также обнадеживающий и этот вывод
yaa
SMART overall-health self-assessment test result: PASSED
…..в этом выводе возможно только два варианта: или PASSED или FAILING
SMART, конечно обнадеживает, но он не дает 100% гарантии что все зашибись и можно расслабиться....
С использованием SSD опыта не имею, только присматриваюсь к ним..... но когда читал насчет SMART SSD, то запомнилось высказывание - параметры SMART могут быть нормальными, но в отличие от обычных HDD с этими нормальными параметрами SSD могут отказать в любой момент — т.е. нельзя сделать вывод о длительном сроке их нормальной работы, основываясь на этих параметрах. И еще подметил один минус — ошибки в основном программные, а не аппаратные (SSD более напичкан электроникой, чем обычный HDD) …..кстати, судя по сообщениям, у тебя такая же ошибка
yaa
res 51/40:02:32:48:8a/00:00:00:00:00/40 Emask 0x409 (media error)
как уже писал расшифровку media error - Software detected a media error
Лечение программных ошибок советуют лечить сменой прошивки....

Знатокам SSD — заметил в выводе hdparm следующие не понятные для меня записи - проясните, если сможете...
- cache/buffer size = unknown
- не активирована опция Look ahead - предвыборка чтения (отключениеи этой опции в обычных HDD приводит к снижению быстродействия).
Это так на всех SSD и эти параметры ни очем не говорят и в SSD не имеют смысла?

UPD....yaa, не понял, а почему были проблемы с тестом....
Ошибки не исчезают с опытом - они просто умнеют
vasek
не понял, а почему были проблемы с тестом....

Я сам не знаю. Запускаешь тест. Он выдаёт стандартное сообщение о продолжительности, реквизиты и пр.
Я предварительно тушу всё лишнее. Через обозначенное время смотрю результаты.
Так вот - вывод "smatrctl" работает. Остальное - даже reboot не работают "после выхода" из офф-лайна.
Может у меня "офф" какой-то неправильный?

Чудить начал. Сижу на дуал-буте. Запустил тест поверхности mini-tool - 6 сбойных секторов на том разделе, где Арч. На виндюке, кстати, всё нормально - он тоже на sdb сидит.

А чем можно пометить "бэды"?

yaa
А чем можно пометить "бэды"?
попробуй badblocks
http://kubuntu.ru/node/6874
Псевдографический инсталлятор Arch Linux ver. 3.8.2
Благодарности принимаются на ЯД 410012815723874
nafanja
yaa
А чем можно пометить "бэды"?
попробуй badblocks
http://kubuntu.ru/node/6874
Попробовал, прожевать, увы, не смог.
Badblocks нормально отбрарабанил, а e2fsck - нет:
ext2fs_open2: Bad magic number in super-block
e2fsck: Superblock invalid, trying backup blocks...
e2fsck: Bad magic number in super-block при попытке открыть /dev/sda5

The superблок could not be read or does not describe a valid ext2/ext3/ext4
ФС.  If the устройство is valid and it really contains an ext2/ext3/ext4
ФС (<b>and not swap</b> or ufs or something else), then the superблок
is corrupt, and you might try running e2fsck with an alternate superблок:
    e2fsck -b 8193 <устройство>
 or
    e2fsck -b 32768 <устройство>
 
Зарегистрироваться или войдите чтобы оставить сообщение.