Linux Linux, actualizacion de RedHat 6.4 a 6.8

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.772
Hace unos días el messages alertó errores en la lectura de memoria en uno de los servidores de base de datos de producción.

Código:
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:48 oracleprod1 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0": 108 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c1 (ch=1), addr = 0x4cf61bf000 => socket=1, Channel=0(mask=1), rank=1


La gente de redHat me dice que es error de hardware y la gente de dell me dice que anda todo la raja porque el chequeo de hardware dice que anda todo impeque. Le mandé un reinicio al server pero a los dos días volvió a saltar el mismo error.

Finalmente Dell me dice "actualiza firmware" y bueno, actualicé firmware y el chequeo de hardware sigue impeque- Y ahora viene lo peor: aplicar yum update para pasar de RedHat 6.4 a RedHat 6.8.

Que el pulento se apiade de mi alma para que los servicios de Oracle levanten después de este update.
 

Harima

Pegao al tarro
Se incorporó
15 Mayo 2008
Mensajes
3.931
Hace unos días el messages alertó errores en la lectura de memoria en uno de los servidores de base de datos de producción.

Código:
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:48 oracleprod1 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0": 108 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c1 (ch=1), addr = 0x4cf61bf000 => socket=1, Channel=0(mask=1), rank=1


La gente de redHat me dice que es error de hardware y la gente de dell me dice que anda todo la raja porque el chequeo de hardware dice que anda todo impeque. Le mandé un reinicio al server pero a los dos días volvió a saltar el mismo error.

Finalmente Dell me dice "actualiza firmware" y bueno, actualicé firmware y el chequeo de hardware sigue impeque- Y ahora viene lo peor: aplicar yum update para pasar de RedHat 6.4 a RedHat 6.8.

Que el pulento se apiade de mi alma para que los servicios de Oracle levanten después de este update.

Pero que hombre más valiente, nos cuentas como te fue y a cuantos santos te encomendaste.

que servicios tienes corriendo en esa maquina o solo Oracle?
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.772
Pero que hombre más valiente, nos cuentas como te fue y a cuantos santos te encomendaste.

que servicios tienes corriendo en esa maquina o solo Oracle?

Sólo Oracle, pero es parte de un Cluster que tiene volúmenes montados de un storage externo con multipath. Si, igual estoy preocupado de que la huea falle.
 
Upvote 0

whiplashh

Capo
Se incorporó
30 Marzo 2015
Mensajes
345
Por lo generar el error MCE sale errores de HW, aumento de temperatura, errores en la cache del procesador
La actualización te arrojará muchos problemas
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.772
Por lo generar el error MCE sale errores de HW, aumento de temperatura, errores en la cache del procesador
La actualización te arrojará muchos problemas

¿Qué tipo de problemas? Porque es pasar de 6.4 a 6.8, no un upgrade a 7.2 (por ejemplo)

PD: Todavía estoy a tiempo de cancelar la actualización. Recién está descargando los paquetes (va en el 60%).
 
Upvote 0

whiplashh

Capo
Se incorporó
30 Marzo 2015
Mensajes
345
¿Qué tipo de problemas? Porque es pasar de 6.4 a 6.8, no un upgrade a 7.2 (por ejemplo)

PD: Todavía estoy a tiempo de cancelar la actualización. Recién está descargando los paquetes (va en el 60%).

Depende de las librerías que tengas instaladas... Algunas (por no decir muchas) veces Red Hat - CentOS se ponene odiosos

Te recomiendo que instales mcelog, esperes un par de días a q se presenten los mimos errores y verifica que te dice este programa.
 
Upvote 0

Harima

Pegao al tarro
Se incorporó
15 Mayo 2008
Mensajes
3.931
¿Qué tipo de problemas? Porque es pasar de 6.4 a 6.8, no un upgrade a 7.2 (por ejemplo)

PD: Todavía estoy a tiempo de cancelar la actualización. Recién está descargando los paquetes (va en el 60%).

igual yo clonaria el disco para volver atras :circulos
 
Upvote 0

whiplashh

Capo
Se incorporó
30 Marzo 2015
Mensajes
345
Extracto del man:

"
X86 CPUs report errors detected by the CPU as machine check events (MCEs). These can be data corruption detected in the CPU caches, in main memory by anintegrated memory controller, data transfer errors on the front side bus or CPU interconnect or other internal errors. Possible causes can be cosmic radiation, instable power supplies, cooling problems, broken hardware, running systems out of specification, or bad luck.
"
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.772
Extracto del man:

"
X86 CPUs report errors detected by the CPU as machine check events (MCEs). These can be data corruption detected in the CPU caches, in main memory by anintegrated memory controller, data transfer errors on the front side bus or CPU interconnect or other internal errors. Possible causes can be cosmic radiation, instable power supplies, cooling problems, broken hardware, running systems out of specification, or bad luck.
"

Es lo lógico pensar eso. De hecho el soporte de RedHat dice que es pana de hardware. Pero el diagnóstico de hardware de Dell dice que anda todo la raja :sisi !!!
 
Upvote 0

K3rnelpanic

non serviam
Miembro del Equipo
MOD
Se incorporó
1 Octubre 2007
Mensajes
6.052
Puta, parece que el pulento me está queriendo decir algo: hubo un corte de 1 minuto en el enlace a internet y se canceló el yum update.
Murphy's Law :zippyte

Si el diagnóstico de hardware de la bios del server indica que las ram están OK, entonces el error es descartable. Tal como dice whipplash, puede ser hasta un rayo cósmico el que te está alertando. :zippy

Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)
 
Upvote 0

whiplashh

Capo
Se incorporó
30 Marzo 2015
Mensajes
345
Murphy's Law :zippyte

Si el diagnóstico de hardware de la bios del server indica que las ram están OK, entonces el error es descartable. Tal como dice whipplash, puede ser hasta un rayo cósmico el que te está alertando. :zippy

Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)

Sobre todo lo que es de Oracle
cof cof cof
 
Upvote 0

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Se incorporó
15 Enero 2004
Mensajes
11.772
Murphy's Law :zippyte

Si el diagnóstico de hardware de la bios del server indica que las ram están OK, entonces el error es descartable. Tal como dice whipplash, puede ser hasta un rayo cósmico el que te está alertando. :zippy

El problema es que ya van varios días en que salta el error de memoria en el /var/log/messages


Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)

Discrepo. Si uno maneja una política de actualización constante (considerando actualización como aplicación de parches de corrección de errores y de seguridad) se evita caídas de servicio producto de fallos de seguridad o bugs en el sistema.
 
Upvote 0
Subir