Linux Linux, actualizacion de RedHat 6.4 a 6.8

Zuljin · 6 Septiembre 2016

Hace unos días el messages alertó errores en la lectura de memoria en uno de los servidores de base de datos de producción.

Código:

Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR
Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1
Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20
Aug 31 00:54:48 oracleprod1 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0": 108 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c1 (ch=1), addr = 0x4cf61bf000 => socket=1, Channel=0(mask=1), rank=1

La gente de redHat me dice que es error de hardware y la gente de dell me dice que anda todo la raja porque el chequeo de hardware dice que anda todo impeque. Le mandé un reinicio al server pero a los dos días volvió a saltar el mismo error.

Finalmente Dell me dice "actualiza firmware" y bueno, actualicé firmware y el chequeo de hardware sigue impeque- Y ahora viene lo peor: aplicar yum update para pasar de RedHat 6.4 a RedHat 6.8.

Que el pulento se apiade de mi alma para que los servicios de Oracle levanten después de este update.

Carlos E. Flores · 6 Septiembre 2016

¿No es la RAM?

Zuljin · 6 Septiembre 2016

Darknesshell dijo:
¿No es la RAM?

El chequeo full de memoria que tiene Dell a nivel de Bios dice que todo el hardware está impeque.

SI después de actualizar sistema operativo y firmware sigue el error, vuelvo a abrir el caso con Dell.

Harima · 6 Septiembre 2016

Zuljin dijo:
Hace unos días el messages alertó errores en la lectura de memoria en uno de los servidores de base de datos de producción.

Código:

Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1 Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20 Aug 31 00:54:47 oracleprod1 kernel: sbridge: HANDLING MCE MEMORY ERROR Aug 31 00:54:47 oracleprod1 kernel: CPU 1: Machine Check Exception: 0 Bank 9: cc001b08000800c1 Aug 31 00:54:47 oracleprod1 kernel: TSC 0 ADDR 4cf61bf000 MISC 90840c00040108c PROCESSOR 0:206d7 TIME 1472615687 SOCKET 1 APIC 20 Aug 31 00:54:48 oracleprod1 kernel: EDAC MC1: CE row 0, channel 0, label "CPU_SrcID#1_Channel#0_DIMM#0": 108 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=1 Err=0008:00c1 (ch=1), addr = 0x4cf61bf000 => socket=1, Channel=0(mask=1), rank=1

La gente de redHat me dice que es error de hardware y la gente de dell me dice que anda todo la raja porque el chequeo de hardware dice que anda todo impeque. Le mandé un reinicio al server pero a los dos días volvió a saltar el mismo error.

Finalmente Dell me dice "actualiza firmware" y bueno, actualicé firmware y el chequeo de hardware sigue impeque- Y ahora viene lo peor: aplicar yum update para pasar de RedHat 6.4 a RedHat 6.8.

Que el pulento se apiade de mi alma para que los servicios de Oracle levanten después de este update.

Pero que hombre más valiente, nos cuentas como te fue y a cuantos santos te encomendaste.

que servicios tienes corriendo en esa maquina o solo Oracle?

Carlos E. Flores · 6 Septiembre 2016

Clona primero.

Zuljin · 6 Septiembre 2016

Harima dijo:
Pero que hombre más valiente, nos cuentas como te fue y a cuantos santos te encomendaste.

que servicios tienes corriendo en esa maquina o solo Oracle?

Sólo Oracle, pero es parte de un Cluster que tiene volúmenes montados de un storage externo con multipath. Si, igual estoy preocupado de que la huea falle.

Zuljin · 6 Septiembre 2016

Darknesshell dijo:
Clona primero.

Es físico

whiplashh · 6 Septiembre 2016

Por lo generar el error MCE sale errores de HW, aumento de temperatura, errores en la cache del procesador
La actualización te arrojará muchos problemas

Zuljin · 6 Septiembre 2016

whiplashh dijo:
Por lo generar el error MCE sale errores de HW, aumento de temperatura, errores en la cache del procesador
La actualización te arrojará muchos problemas

¿Qué tipo de problemas? Porque es pasar de 6.4 a 6.8, no un upgrade a 7.2 (por ejemplo)

PD: Todavía estoy a tiempo de cancelar la actualización. Recién está descargando los paquetes (va en el 60%).

whiplashh · 6 Septiembre 2016

Zuljin dijo:
¿Qué tipo de problemas? Porque es pasar de 6.4 a 6.8, no un upgrade a 7.2 (por ejemplo)

PD: Todavía estoy a tiempo de cancelar la actualización. Recién está descargando los paquetes (va en el 60%).

Depende de las librerías que tengas instaladas... Algunas (por no decir muchas) veces Red Hat - CentOS se ponene odiosos

Te recomiendo que instales mcelog, esperes un par de días a q se presenten los mimos errores y verifica que te dice este programa.

Harima · 6 Septiembre 2016

Zuljin dijo:
¿Qué tipo de problemas? Porque es pasar de 6.4 a 6.8, no un upgrade a 7.2 (por ejemplo)

PD: Todavía estoy a tiempo de cancelar la actualización. Recién está descargando los paquetes (va en el 60%).

igual yo clonaria el disco para volver atras :circulos

Carlos E. Flores · 6 Septiembre 2016

Zuljin dijo:
Es físico

Y yo músico.

Wut?

whiplashh · 6 Septiembre 2016

Extracto del man:

"
X86 CPUs report errors detected by the CPU as machine check events (MCEs). These can be data corruption detected in the CPU caches, in main memory by anintegrated memory controller, data transfer errors on the front side bus or CPU interconnect or other internal errors. Possible causes can be cosmic radiation, instable power supplies, cooling problems, broken hardware, running systems out of specification, or bad luck.
"

K3rnelpanic · 6 Septiembre 2016

Ctrl+C es tu amigo. No actualices :zippy

Zuljin · 6 Septiembre 2016

Puta, parece que el pulento me está queriendo decir algo: hubo un corte de 1 minuto en el enlace a internet y se canceló el yum update.

Zuljin · 6 Septiembre 2016

whiplashh dijo:
Extracto del man:

"
X86 CPUs report errors detected by the CPU as machine check events (MCEs). These can be data corruption detected in the CPU caches, in main memory by anintegrated memory controller, data transfer errors on the front side bus or CPU interconnect or other internal errors. Possible causes can be cosmic radiation, instable power supplies, cooling problems, broken hardware, running systems out of specification, or bad luck.
"

Es lo lógico pensar eso. De hecho el soporte de RedHat dice que es pana de hardware. Pero el diagnóstico de hardware de Dell dice que anda todo la raja :sisi

!!!

Zuljin · 6 Septiembre 2016

VittokoX dijo:
Ctrl+C es tu amigo. No actualices

¿Por que susto a actualizar? ¿Alguna vez te ha fallado algún servicio por actualizar el sistema operativo?

K3rnelpanic · 6 Septiembre 2016

Zuljin dijo:
Puta, parece que el pulento me está queriendo decir algo: hubo un corte de 1 minuto en el enlace a internet y se canceló el yum update.

Murphy's Law :zippyte

Si el diagnóstico de hardware de la bios del server indica que las ram están OK, entonces el error es descartable. Tal como dice whipplash, puede ser hasta un rayo cósmico el que te está alertando. :zippy

Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)

whiplashh · 6 Septiembre 2016

VittokoX dijo:
Murphy's Law

Si el diagnóstico de hardware de la bios del server indica que las ram están OK, entonces el error es descartable. Tal como dice whipplash, puede ser hasta un rayo cósmico el que te está alertando.

Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)

Sobre todo lo que es de Oracle
cof cof cof

Zuljin · 6 Septiembre 2016

VittokoX dijo:
Murphy's Law

Si el diagnóstico de hardware de la bios del server indica que las ram están OK, entonces el error es descartable. Tal como dice whipplash, puede ser hasta un rayo cósmico el que te está alertando.

El problema es que ya van varios días en que salta el error de memoria en el /var/log/messages

VittokoX dijo:
Actualizar un server de producción NO es recomendable, a menos que tenga una falla que tengas la certeza podrás subsanar actualizando todo el sistema, o aplicando un update específico de algo que necesitas (como parchar el openssl por las vulnerabilidades recientes)

Discrepo. Si uno maneja una política de actualización constante (considerando actualización como aplicación de parches de corrección de errores y de seguridad) se evita caídas de servicio producto de fallos de seguridad o bugs en el sistema.

Linux Linux, actualizacion de RedHat 6.4 a 6.8

Fundador

Zombie

Fundador

Pegao al tarro

Zombie

Fundador

Fundador

Capo

Fundador

Capo

Pegao al tarro

Zombie

Capo

non serviam

Fundador

Fundador

Fundador

non serviam

Capo

Fundador