Portada! Se quema un datacenter en Europa - no olviden los respaldos

incendio_Datacenter.jpg


Lágrimas de sysadmins al ver esta imagen.

OVH es el proveedor de hosting más grande de Europa y un top ten en el mundo y uno de sus datacenter ha quedado totalmente destruido por un incendio.

Actualmente nos enfrentamos a un importante incidente en nuestro DataCenter de Estrasburgo con un incendio declarado en el edificio SBG2. Los bomberos llegaron inmediatamente al lugar, pero no pudieron controlar el incendio en SBG2. Todo el sitio ha sido aislado, lo que afecta a todos nuestros servicios en SBG1, SBG2, SBG3 y SBG4. Si tu producción está en Estrasburgo, le recomendamos activar tu Plan de Recuperación ante Desastres. Todos nuestros equipos están totalmente movilizados junto con los bomberos. Te mantendremos actualizado a medida que haya más información disponible

Hace cuatro años 2017 la misma compañía sufrió una caída en sus servidores debido a un problema de suministro eléctrico, aunque se recuperó varias horas después. Sin embargo, este incendio definitivamente fue más desastroso porque si los clientes alojados ahí no hicieron respaldos probablemente perdieron todo.

Actualización: 464 mil dominios offline por el incendio



Muy Europa/OCDE/Primer Mundo serás, pero el incendio no pudo ser controlado por los bomberos y se llevó puesto no solo equipamiento (que es reemplazable) sino que los datos y la información que ahí se contenían, además de muchos servicios interrumpidos. ¿Alguien lloró cuando se les rompió el notebook y perdieron la tésis y las fotos porque no respaldaron? Imagínense un datacenter completo.

Cuando los hombres vemos que a otro hombre le pegan una patada en las canicas nos retorcemos igual como empatía genital, así que de igual manera no pude evitar estremecerme cuando leí la noticia con mi corazón de sysadmin así que creí necesario escribir algo al respecto.


Los ricos también lloran

OCDE, Primer Mundo, Europa, museo de louvre, gente en bicicleta pedaleando al trabajo. Muy moderno todo pero si a ellos se les quema un datacenter completo que queda para esta larga, angosta y tercer mundista franja de tierra.

Puede que implementar un sofisticado sistema de respaldo, una solución de contingencia o migrar a la nube parezca costoso, pero ese costo tienes que equipararlo a lo que le cuesta a tu institución el no brindar servicios por un largo tiempo o la pérdida de datos. Imagínense que se quedan sin correo laboral por cuatro horas, ¿cuánto dinero perdería tu institución, tu empresa? Sistema de facturación, negocios, la base de datos, etc, etc.


La importancia de los respaldos, los planes de contingencia y hacer las preguntas correctas.

Hay cursos completos de esto así que no esperen algo académico, simplemente para sensibilizar a los no expertos vamos a hacer dos preguntas.

Primera pregunta
Imagínate que haces respaldo una vez a la semana a tu servicio de correo y a tu sistema de facturación. Justo, 10 minutos antes de que se inicie el respaldo semanal SE ROMPE TODO. Ya sea porque alguien metió las patas, te hackearon, virus, lo que sea. Perderías una semana de la historia de correos y de facturación de toda tu institución.
¿Puedes tolerar perder todo eso? No, es mucho. ¿Entonces cuánto tiempo de información y datos podrías tolerar perder? ¿Dos días, un día, una hora, 15 minutos?
Hay sistemas de respaldo para cada necesidad pero tienes que considerar que un sistema que te garantice una pérdida mínima es más costoso.

Segunda pregunta.
Brindas servicio a clientes y usuarios internos por internet, ya sea sistema de correo, de facturación, un sistema propietario, lo que sea. Hay un corte de energía en tu datacenter, los sistemas de alimentación de contingencia aguantan un rato pero se terminan apagando. Nada se ha destruido y seguramente cuando vuelva la energía todos tus datos e información van a estar ahí (cero pérdida), pero dejas sin sistemas a todos tus clientes y a todo el personal de tu institución. Llamas a los técnicos y hay caos porque nadie sabe bien que pasó, así que comienzan un análisis punto por punto. Pasan los minutos, las horas y no se arregla nadie sabe por qué.
¿Cuánto tiempo podrías tolerar estár sin servicio? ¿15 minutos? ¿Una hora? ¿Un día? ¿Una semana?
Hay métodos en que automáticamente vas llevando los datos y sistemas a otro datacenter o a la misma nube, de tal manera que si falla tu datacenter principal puedes activar todo desde otro lado y seguir con los sistemas arriba. También tiene un costo pero tú debes determinar si lo vale o no.


La nube al rescate

Ahora muchos servicios y sistemas pueden llevarse a la nube con lo que te ahorras problemas domésticos como el consumo energía, mantención de servidores, espacio físico, cumplir protocolos, etc, etc, aunque antes de que corrar a contratarlo recuerda que detrás del velo de misterio la nube sigue estando alojada en un datacenter. Así es, queridos lectores, debajo de todo ese maquillaje de glamour y tecnosexualidad la nube sigue siendo un computador alojado en un datacenter de algún lugar del mundo con conexión a internet aunque los mayores proveedores de servicios en la nube tienen sus sistemas distribuidos entre datacenters, así que la destrucción de uno de sus edificios no te dejaría con los pies en la calle. De todas maneras, antes de correr a contratar un servicio en la nube pregunta si está distribuido en dos o más datacenters y la política de respaldos.
Salvo excepciones, deberías tender a llevar tus servicios a la nube.






Camaradas sysadmins, si tienen anécdotas o experiencias de caídas de servicio este es el preciso momento de compartirlas.
 
Última modificación:

Soujiro

Fanático
Uta aca tenemos servidor pricipal, servidor secundario en el mismo datacenter, copia slave de la base de datos en otra comuna, ademas un site secundario de respaldo funcionando en la nube (otro slave). Aparte de eso saco un respaldo de la db todos los domingos.

Ojo que irte a la nube no es garantia de nada, solo disminuyes las posibilidades de desastre. Hace unos meses tuvimos un problema con una de las zonas gcp la cual se fue completita a piso, por suerte como somos paranoicos tenemos 2 zonas gcp, pero nada garantiza que esa segunda zona no caiga.
 

Gran_Maestre

Copuchento
Wen wall text, lo lei completo mientras espero la actualizacion de windows (reinicie) ... Hace ya varios años cuando fui sysadmin en una pyme me toco ver e implementar el sistema de respaldo y en una conversacion con el gerente gral me dijo "y que pasa si en este minuto hay un incendio en los servidores" y no atine a nada mas que decirle "no estaria aca conversando con ud" ... despues cai en cuenta de lo que dije y me quede callao mientras me penqueaban por otra wea .... Con cuea no me echaron

Enviado desde mi Redmi Note 8 mediante Tapatalk
 

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Una vez por un error humano nos piteamos la tabla principal completa del transantiago que tenía cientos de millones registros de los bips. Fue el manso cagazo y nos demoramos caleta en restaurar porque la base de datos era tan grande que el sistema de respaldo y recuperación se hacía chico.

Menos mal que ese era un sistema batch, pero los procesos de liquidación de plata a los sistemas de transporte se retrasaron varios días.

En nuestra defensa debo decir que manejábamos el sistema a mano, a punta de scripts directos a la base de datos porque el sistema de negocio que debería administrar la plataforma de liquidación tenía la terrible deuda técnica, onda nivel Argentina y el FMI, así que el 80% de las acciones que debería haber hecho el sistema lo terminamos haciendo a mano con todo el riesgo que eso implica.
 
Última modificación:

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
Wen wall text, lo lei completo mientras espero la actualizacion de windows (reinicie) ... Hace ya varios años cuando fui sysadmin en una pyme me toco ver e implementar el sistema de respaldo y en una conversacion con el gerente gral me dijo "y que pasa si en este minuto hay un incendio en los servidores" y no atine a nada mas que decirle "no estaria conversando con ud" ... despues cai en cuenta de lo que dije y me quede callao mientras me penqueaban por otra wea .... Con cuea no me echaron

Enviado desde mi Redmi Note 8 mediante Tapatalk

jajaja. Pero efectivamente el gerente hizo la pregunta correcta.
 

Soujiro

Fanático
Solo decir que yo llege a este trabajo el 2014 y en ese entoces "habia" sistema de respaldo..... que en la practica era inexistente (no servia). Desde entonces con mi jefe logramos echar a andar todo lo que comente anteriormente y valla que nos ha salvado en un par de ocaciones, en particular cuando me pitie el servidor pricipal de produccion completito por un typo en el script de respaldo, por suerte fue un fomingo y nadie se entero.
 

clusten

ADMIN
Miembro del Equipo
ADMIN
Acá tenemos un WD My cloud home (!) como backup (Era lo que estaba cuando llegué, al menos está en RAID 1).

Como medida de seguridad, lo primero que hice fue una imagen a mi WD My cloud EX (si, el respaldo de mi casa era más robusto que el de la empresa y tenía 4 TB vs 2 TB de la oficina) y monté un grupo en teams donde subo los respaldos (por suerte el total de la empresa anda entorno a los 800 GB, por lo que aun queda espacio, si no montar otro grupo "respaldos 2" cuando lleguemos 1 TB. el problema va a ser cuando lleguemos a 5 TB si se consuma el espacio asignados a grupos).

Otro problema es que muchos colegas por paja de subir un par de GB al pc de la oficina, trabajaban directo en el workstation (sin respaldar y sin orden). A punta de callampazos y cortes "simulados", están entendiendo que si la empresa le pasa un laptop potente, es para que trabajen ahí y solo el procesamiento duro lo hagan los workstation de la oficina.


Estamos un paso arriba de no tener respaldo, pero como 10 pasos abajo de uno bien hecho.
 

EITSAEB

Team Peacemaker Hater
respalden el pr0n...diría mi yo del 2002.
 

unreal4u

I solve problems.
Miembro del Equipo
ADMIN
pta igual me dio qué pensar... capa9 tiene su sistema de producción (una máquina) y respaldo+dev (otra máquina) hosteados en Alemania en dos datacenters distintos se supone, pero en la misma ciudad, muy parecido a lo ocurrido con OVH. Lo más probable es que entre ambos datacenters sólo haya un cortafuegos (no firewall, una pared literal jajajaj)

Creo que vamos a transportar el respaldo + dev al otro datacenter que tiene Hetzner en Finlandia, total no necesitamos tanta velocidad hacia afuera: si se quema toda Alemania, todavía tendremos el respaldo al día en Finlandia.

Saludos.
 

dwyer

Sonidista-Computin
pta igual me dio qué pensar... capa9 tiene su sistema de producción (una máquina) y respaldo+dev (otra máquina) hosteados en Alemania en dos datacenters distintos se supone, pero en la misma ciudad, muy parecido a lo ocurrido con OVH. Lo más probable es que entre ambos datacenters sólo haya un cortafuegos (no firewall, una pared literal jajajaj)

Creo que vamos a transportar el respaldo + dev al otro datacenter que tiene Hetzner en Finlandia, total no necesitamos tanta velocidad hacia afuera: si se quema toda Alemania, todavía tendremos el respaldo al día en Finlandia.

Saludos.
Capaz que en el server de respaldo esté el tema dark...
 

sr_meck

a.k.a chikogollo
Capaz que era un Datacenter Tier IV, pero el sitio de al lado había una cocinería que vende pollo a las brasas con papas fritas.

no no... es probable que el Data haya sido solo uso interno y no vendían servicios a terceros, por lo cual, la certificación del Uptime no es necesaria para venta o estaba en proceso.
 

Zuljin

Fundador
Miembro del Equipo
Fundador
ADMIN
no no... es probable que el Data haya sido solo uso interno y no vendían servicios a terceros, por lo cual, la certificación del Uptime no es necesaria para venta o estaba en proceso.

Por lo que leí en la noticia habían varios servicios externos caidos y les avisaban a los clientes que aplicasen sus planes de contingencia.
 

Patomax

REPORTERO
REPORTERO
habían servidores de Rust en ese datacenter al menos unos 25, varios perdieron todo el progreso que habían realizado y van a tener que comenzar desde cero :zippycafe


ojala hubieran sido los servidores de fornite :daleoh
 

ayn

MOD
Miembro del Equipo
MOD
En los ultimos 2 años he estado trabajando.en analisis de riesgos para distintos DC que se han estado instalando en Chile, de hecho nos acabamos de adjudicar uno mas, parte de lo que hacemos es analizar los riesgos de incendio y las medidas de control para evitar catastrofes, ademas de modelar el incendio para evaluar en caso de, que instalaciones se ven afectadas, hasta donde se expande, cuanto dura, etc, en general he visto buenas medidas de proteccion contra incendios (estamos hablando de 2 gigantes de la tecnologia), el problema generalmente es el mantenimiento mas que el estandar de la instalacion.

Ahi esta el cagazo.

Saludos!

Enviado desde mi SM-N980F mediante Tapatalk
 

Mako99

Demifiend
Para un simple mortal, usuario de Windows 10, ¿cual sería la forma más fácil de crear respaldos en la nube? Del tipo "toma las carpetas de acá y copialas allá cada X tiempo de forma automática" y luego un "copia solo lo que haya sido modificado" (¿Incremental backups creo que le llaman?)
 
Subir