frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
Всем доброго времени суток. после недавнего обновления видеокарты на 5700xt начались возникать перезагрузки во время игр с применением dxvk как с использованием proton, так и wine со следующей ошибкой mce: соответственно, до обновления подобных ситуаций не возникало.нашёл две темы по данному вопросу: 1. https://bugzilla.kernel.org/show_bug.cgi?id=206903 2. https://gitlab.freedesktop.org/drm/amd/-/issues/892 в первой теме присутствуют пояснения, которые раскрывают суть ошибки; mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108 ==> Bank 5 is EX [21:16] = 0x0 CPU WDT (watchdog timeout) …means thread is not retiring micro-ops in the time-out period. предпринимались следующие попытки, чтобы избежать повторения ситуации с зависаниями системы: 1. в качестве параметров ядра применялись следущие значения 2. в /etc/enviroment добавил значение AMD_DEBUG=nongg,nodma3. также в биосе поменял значение Power supply idle control с Auto на Typical Current Idle. 4. пробовал использовать иные драйвера vulkan amdgpu-pro-vulkan и amdvlk-2020.Q3.3, но результат тот же на данный момент собираюсь попробовать wayland. более подробное описание системы
|
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
frankyboyОколо года назад был топик на похожую тему ... и с таким же кодом MCE bea0000000000108 В том же топике есть ссылка на другой топик, точнее пост, в котором приведены разные параметры загрузки, помогающие некоторым в решении проблемы CPU freezes AMD Ruzen .... попробуй.
Ошибки не исчезают с опытом - они просто умнеют
|
frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
vasekвидел, но если я правильно понял, то проблема не в процессоре как таковом, а в системе динамического питания у видеокарты, ибо с параметром ядра amdgpu.dpm=0 перезагрузок не случается, но и игры особо не идут, так как указанный параметр сбрасывает частоты видеокарты до стоковых.frankyboyОколо года назад был топик на похожую тему … и с таким же кодом MCE bea0000000000108 p.s. решил попробовать на всякий пожарный |
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
frankyboyТак сразу и не определишь. Но если при каждом зависании выскакивает ошибка MCE, то это уже имеет отношение к cpu, PS - наличие MCE error указывает на то, что обнаружена аппаратная ошибка или сбой (могут быть как устранимые так и не устранимые). И как пишут, MCE могут возникать по разным причинам: от не соответствующих напряжений от источника питания, от космического излучения, изменяющего биты в модулях памяти DIMM или ЦП, или от других различных сбоев, включая сбой программного обеспечения вызывающий аппаратные ошибки. В части изменения битов - судят по битовой маске mce, которая в твоем случае равна и глядя на бит 57, равный 1, можно сказать, что ошибка именно cpu - наличие бита равного 1 говорит о наличии ошибки processor context corrupt … и если бы работала утилита типа mcelog, то она бы выдала, что типа такого Я не спец в этом, выводы сделаны на основе чистой теории, так что могу и ошибаться и это вообще очень сложная тема и обычно пробуют все, что подвернется.EDIT 1 - зачеркнул ошибочные суждения .... думаю, что все таки ошибки MCE вторичны, так как они чем то обусловлены, каким то фактором .... если исключить чисто аппаратную ошибку.
Ошибки не исчезают с опытом - они просто умнеют
|
frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
vasekв общем, метался я между параметрами ядра, как в одном из баг репортов увидел про отключение функции Cool'n'Quiet в биосе. пошуршал в биосе в поисках этой настройки, и наткнулся на ещё две штучки -core performance boost -global c-state constrol плюс ещё подсказали вот эту статью https://habr.com/ru/post/517000/, в которой описываются некоторые моменты разногласий между ос и биос. |
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
frankyboy, опиши какие конкретно параметры помогли - может и еще кому пригодится. Или я не верно понял ... и ничего не помогло?
Ошибки не исчезают с опытом - они просто умнеют
|
marlock |
|
Темы:
35
Сообщения:
736
Участник с: 02 июля 2010
|
В первую очередь - убрать разгон памяти (если был ручной) или же отключить XMP профиль. От переразгона памяти имел похожие проблемы с ryzen 2600. |
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
Уточнение в части использования параметра rcu_nocbs=… - данный параметр больше не работает в нашем ядре - вот с какого времени - не выяснял. Сегодня копался во флагах config.gz и заметил, что данный параметр не установлен zgrep RCU_NOCB /proc/config.gz # CONFIG_RCU_NOCB_CPU is not set PS - данный параметр многим помогал при зависаниях с cpu ryzen EDIT 1 - попробуй ради интереса ядро из AUR linux-ryzen-git
Ошибки не исчезают с опытом - они просто умнеют
|
frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
marlockс моей оперативной материнка xmp не применяет, хард резет биоса, пока руки не доходят вручную значения ввести, так что память на стандартных настройках работает. vasekизвиняюсь, что несвоевременно отвечаю. к сожалению, ошибки mce и зелёный экран перед перезагрузкой случаются с разными периодами, после применения того или иного решения. также гигабайт для моей материнской платы стал частенько клепать обновления биоса, поэтому я обнуляю (как это сейчас модно) всё и опять тестирую на повторение ошибок mce. итого за сегодня: ядро пересобрал с CONFIG_RCU_NOCB_CPU=y, добавил к параметрам ядра rcu_nocbs=0-23 также установил zenstates, чтобы отключить C6 state ещё нашёл что-то похожее на zenstates https://aur.archlinux.org/packages/ryzen-stabilizator-git/
|
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
frankyboy, смотрю основательно занялся проблемой - молодец. Но, главное, при решении проблемы, как бы она не решилась, унал много нового ... а это когда-нибудь да пригодится ...
Ошибки не исчезают с опытом - они просто умнеют
|