frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
искал чем лучше отслеживать сообщения ядра, чтобы поймать лог при паники ядра, либо sysdig либо PStore в связке с ramoops, как схватил новый ребут из-за mce и такой ошибки я в интернете не обнаружилсудя по всему данная проблема возникает при компиляции ядра в чруте (словил ещё один ребут), но ранее при компиляции ни разу вылетов не было. p.s. причиной ребутов была некорретно выставленные значения таймингов оперативной памяти в биос. |
frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
хорошая мысля приходит опосля (с) после глубокого погружения в тему и тестирования разных настроек и версий биоса, а также параметров ядра, попробовал ядро lts и "чудесным" образом перезагрузки системы прекратились. |
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
MCE (Machine Check Exception) - это аппаратные ошибки, генерируемые cpu в момент их возникновения. И согласно DOC ошибки MCE могут возникать по разным причинам, связанным как с не соответствующими значениями напряжений питания, так и с космическими излучениями, которые способны изменить биты в модулях памяти и другими, связанными даже со сбоем программного обеспечения, которые могут привести к аппаратным ошибкам. И если эти ошибки себя проявили (были обнаружены), то они никуда не исчезли и могут проявится и далее если такая причина/случай повторится. Допускаю, что переход на ядро lts эти причины уменьшил, но, думаю, не на 100%. Рекомендую установить из AUR rasdaemon и активировать его демон - пусть работает и отслеживает эти ошибки, которые всегда можно посмотреть и уточнить PS - в части лога kernel panic - в принцпе получить его не сложно, используя ramoops, правда информации не так и много.
Ошибки не исчезают с опытом - они просто умнеют
|
frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
vasekтак и случилось недавно словил ошибку, но даже не совсем уверен, что указаная ошибка относится это к mce или нет
|
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
frankyboyПо этому логу ничего сказать нельзя. Этот лог есть последнее, что успело записать ядро. Скорее всего это лог kernel panic … но kernel panic бывает двух типов - hard panic и soft panic. hard panic в большинстве случаев обусловлен драйверами, когда тот пытается обратится к несуществующему или нулевому указателю, что скорее всего и наблюдается в твоем случае (в стэке Call Trace виден amdgpu и последнее, что видим в стэке - это kmalloc, хотя ядро в этом и не уверно на все 100%). Признаки hard panic - обычно жесткое зависание компа, лог пишется не всегда (точнее редко) и его нужно вытаскивать используя ramoops. Но интерес представляет первоначальная причина этого зависания, точнее, или виновник чисто amdgpu или это связано с MCE error. Ошибки MCE нехорошие ошибки и если они уж проявляются, то будут проявляться и дальше при возникновении определенных ситуаций. А потому все-таки рекомендую vasekПримерный вывод (суммарный, без уточнения) ras-mc-ctl --summary На ошибки Disk errors внимания обращать не нужно (это фича экспериментальная)Edit 1 - хотя не стоит исключать и тот факт, что это может быть и обусловлено багом Ryzen, у которого проблемы с C-состояниями наблюдаюся с самого начала и AMD не может решить эту проблему на протяжении длительного времени ... склонность к зависаниям у Ryzen заложена изначально.
Ошибки не исчезают с опытом - они просто умнеют
|
frankyboy |
|
Темы:
15
Сообщения:
324
Участник с: 05 декабря 2012
|
в общем, прочитал новость, что в новых дровах amdgpu_pro исправлена ошибка, приводящая к зависанию видеокарты. в итоге зависание произошло практически моментально полсе запуска cyberpunk со следущей ошибкой, приведённой ниже. что интересно, то ошибка mce при перезагрузке не возникла
|
vasek |
|
Темы:
48
Сообщения:
11320
Участник с: 17 февраля 2013
|
AMD не использую, только иногда почитываю .... и вот эта ошибкаfrankyboyвстречалась, описание здесь
Ошибки не исчезают с опытом - они просто умнеют
|