Перезагрузка раз в час

Добрый день. Имеется проблема на одном из шлюзов. Вылезла недавно, с сим ранее не сталкивался. Раз в час + - 2 минуты происходит ребут. Шлюз помимо интернета занимается бэкапами. При этом если его обновить и перезагрузить командой reboot - работает без перезагрузок одну или две недели.
Сил моих уже нет с ним разобраться, надеюсь на помощь сообщества.
на данный момент ядро 3.6.3-1, не обновляюсь потому что хочу найти причину. Надоело. Подскажите куда копать?
И что, в логах ничего нет?
в логах пусто =( на момент перезагрузки что нибудь из named например или другого демона.совершенно обычное несущее информацию, потом лог загрузки. Кусок вывода last
reboot system boot 3.6.3-1-ARCH Wed Nov 14 17:37 - 21:06 (03:29)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 16:37 - 21:06 (04:29)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 15:36 - 21:06 (05:30)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 14:36 - 21:06 (06:30)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 13:36 - 21:06 (07:30)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 12:35 - 21:06 (08:30)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 11:35 - 21:06 (09:31)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 10:35 - 21:06 (10:31)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 09:34 - 21:06 (11:31)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 08:34 - 21:06 (12:32)
reboot system boot 3.6.3-1-ARCH Wed Nov 14 07:34 - 21:06 (13:32)

пара строчек kernel лога на стыке перезагрузки

Nov 13 23:31:39 kpd-gw kernel: nf_conntrack version 0.5.0 (16384 buckets, 65536 max)
Nov 14 00:32:10 kpd-gw kernel: Initializing cgroup subsys cpuset

Да и в остальных логах тоже самое. доходит до момента перезагрузки и дальше обычная работа системы.

upd. Температура в норме. крон выключалл нафиг.
Что характерно ещё как минимум 5 таких же шлюзов работают без проблема.
Если в логах ничего нет, значит либо в момент перед ребутом запись на диск становится недоступной, либо ребут происходит мгновенно по причине какого-то фатального ядерного или аппаратного сбоя.

Пробовали ловить баг со включённым монитором?

P.S.
Если они программно такие же, то может имеет смысл проверить железо?
С монитором проверить возможности нет, шлюз удаленный. Может на неделе получится половить баг с монитором. если находиться в ssh сессии, то просто дисконнект. Софт тот же, да. Смущает интервал в 1 час ровно. и обновления помогающие на неделю….
Крэшдамп обычно выводится в настоящую консоль, а не в псевдотерминал, так что по ssh не всё так просто.
В случае резкого падения там даже дисконнекта не будет, просто пакеты перестанут доходить.
про крэшдамп в курсе. ловил пару лет назад. Была проблема с ребутом ровно раз в сутки, но там я udev поймал, хватило обновления.
в auth логе чисто на предмет левых судо и пр.?
Лозунг у них был такой: "Познание бесконечности требует бесконечного времени". С этим я не спорил, но они делали из этого неожиданный вывод: "А потому работай не работай — все едино". И в интересах неувеличения энтропии Вселенной они не работали. (с)
 
Зарегистрироваться или войдите чтобы оставить сообщение.