Software de monitoreo para controlar tu plataforma

Zuljin · 10 Noviembre 2014

Distintas herramientas que permiten controlar el estado de tu plataforma, desde pings sencillos hasta simulación de logueo en una página web, pasando por el control de espacio en disco, cpu y memoria.

Nagios

Nagios Core: Gratis.
Nagios Xi: Pagado.

Nagios - The Industry Standard in IT Infrastructure Monitoring

http://www.nagios.org/

Icinga

Derivó de Nagios. Es gratis. Como buen fork es muy similar a nagios en su concepción pero se han ido distanciando un poco.

https://www.icinga.org/

Foglight

Es una suite de Quest, que ahora es de dell. Hay componentes que se instalan sobre Windows Server y en poco tiempo puedes estar controlando a punta de ping y snmp toda tu plataforma. Es caro.

http://www.quest.com/foglight/

101f943b21f0a0e791433f0a9352ce6af53_2screenshot-foglightnms_network-map_540x312.jpg

System Center Operations Manager

System Center es una suite de productos de Microsoft que tienen como objetivo controlar tus plataformas, haciendo hincapié (obviamente) en productos y servicios de Microsoft. El componente Operations Manager monitorea a nivel de ping, de snmp, de WMI (protocolo de Windows). Para monitorear servidores Microsoft es excelente, pero para monitorear Linux es pésimo. Si tu plataforma tiene mayoritariamente servicios y productos Microsoft, como Active Directory de Microsoft, Exchange, Sharepoint, etc, System Center Operations Manager es tu mejor opción si es que tienes las lukas. Es pagado.

http://technet.microsoft.com/es-es/library/hh205987.aspx

PRTG

Permite desplegar monitoreo por SNMP y PING, además integra mibs especializados para distintos tipos de plataformas y aplicaciones como VMware, Hyper-V, SQL, Oracle, etc.. Tiene la ventaja de ser muy flexible y extremadamente facil de desplegar.

Es de pago y tiene versión trial.

http://www.paessler.com

Newrelic

http://newrelic.com/

Newrelic se corre como un servicio en tus máquinas, y va reportando periódicamente a un servicio Cloud. La versión básica es gratis.

El panel de Newrelic cumple dos funciones: monitorear tus máquinas y monitorear tus aplicaciones. Esta es una relación muchos a muchos: en un panel tienes tus máquinas (y cada una dice abajo cuales de tus apps está corriendo) y en otro panel tienes tus aplicaciones, y cada una puede estar corriendo en N máquinas.

En la vista particular de una máquina tienes información de la carga y los procesos más pesados.

La foto que te muestra es de los últimos 30 minutos. Puedes cambiar ese tiempo para mostrar, en cambio, una hora, tres, seis o hasta 12 horas, y puedes mover ese intervalo para ver por ejemplo la carga entre las 15 y las 18 horas del día anterior.

Además del demonio de sistema, Newrelic tiene librerías para la mayoría de los lenguajes de desarrollo: PHP, Python, Ruby, JAVA, .NET y Node. Con eso se perfila tu aplicación. En la pestaña de Aplicaciones puedes ver cuales son las transacciones que más peticiones generan, o que más tiempo consumen. Puedes ver los últimos errores o medir qué tablas se llevan más pega en la BBDD

Ya que te muestra en qué máquinas está corriendo una cierta aplicación, podrías sacar mediciones tan reveladoras como:
- Máquina 1 está al 80% de carga, está recibiendo 50 peticiones por segundo y corre apache
- Máquina 2 está al 5% de carga, recibe 200 peticiones por segundo y corre nginx

(El ejemplo es real, hice ese ejercicio el 2012 para hacer lobby a favor de nginx en mi pega)

Newrelic tiene plugins para casi cualquier servicio que se les ocurra, pero estos plugins son desarrollados por los respectivos proveedores y a veces no tienen mucho gráfico o no sirven de nada. De todas maneras les comento que he probado los plugins de mysql, amazon aws, postgres, php-fpm, mongodb y nginx. Todos funcionan :zippy

y algunos se pueden integrar con las alertas nativas de Newrelic.

Justamente esa es otra cosa bien útil que tiene Newrelic: un sistema de alertas muy granular. Puedes definir grupos de alertas y grupos de usuarios, y decidir qué eventos gatillan cierta alerta a cierto grupo. Por ejemplo
- Si el HDD de una máquina está al 90% de capacidad, alerta al grupo de sistemas
- Si el porcentaje de errores de una app sube del 5%, alerta al grupo de desarrolladores
- Si el ping deja de responder por un minuto, alerta a todos los weones que se cayó el sitio

Las alertas se pueden gatillas por correo, pero también puedes mandarlas a una cola de Amazon SQS, a un SMS (no funca en Chile), a un sistema de ticketing como Zendesk o a un cliente de Chat como Hipchat.

Observium.

http://www.observium.org/

Permite monitorear en tiempo real dispositivos de red como Switchs y routers al nivel de puertas mediante el protocolo SNMP, además de controlar servidores también vía SNMP. Tiene opción gratuita y de pago.

ELK stack

https://www.elastic.co/

ELK stack es un diminutivo para Elasticsearch - Logstash - Kibana, y permite reunir información de muchos lados y de distintos tipos para mostrar gráficas como los que puse arriba en un solo panel centralizado.

Así por ejemplo puedes, tal como se ve arriba, importar los access_logs y error_logs de apache o nginx, o estadísticas de máquinas como load o uso de disco, o todo lo que se logea hacia systemd por ejemplo.

En el caso de arriba, en la pega también importamos eventos, como los de la centralita de teléfono: cada llamada entrante o saliente la logea, o bien, cuando ocurre algo (se envía un correo por ejemplo), se crea un evento con ciertos parámetros mediante los cuales filtro.

Hay dos variantes: la gratuita y la pagada. La pagada incorpora elementos avanzados como cuentas de usuario y otras cosas de forma fácil, se puede hacer todo con plugins gratuitos pero muchos son un culo de instalar.

La gracia de ELK stack es que permite escalar con facilidad, gracias a que puedes definir N nodos de ElasticSearch, Logstash o Kibana (si es que hace falta), aunque sugiero investigar antes de meterse del todo, ya que el setup inicial puede ser complicado. Yo estuve 2 semanas de lleno instalando todo, pero estamos conformes con el resultado. Hoy mismo hubo un problema con un backbone entre dos datacenters y lo detectamos al tiro:

sr_meck · 7 Enero 2015

Estimados

Aca les dejo un pequeño slide de por que no deberiamos usar nagios como software de monitoreo.

Stop using Nagios (so it can die peacefully)

Es interesante y muestra las falencias de software de monitoreo arcaico y poco escalable.

Y por acá una entrada en el blog de Gartner donde dice que lo tiremos a la basura

http://blogs.gartner.com/jonah-kowall/2013/02/22/got-nagios-get-rid-of-it/

Saludos

Miguelwill · 7 Enero 2015

interesante
le voy a pegar una leída

Pagot · 15 Enero 2015

Nagios peca de los mismos problemas de otras tecnologias, el enfoque estricto a la herramienta en desmedro del enfoque del negocio al que da servicio, un profesional de TI destinado a configurar una herramienta y darle continuidad es un costo dificil de solventar, un profesional de TI enfocado en buscar maneras de mejorar el negocio, de hacerlo mas efectivo, mas eficiente, mas disponible, etc. ese es el que aporta valor agregado.

Creo firmemente, que las buenas herramientas de TI se enfocan en facilitar lo mas posible las tareas técnicas para dejar tiempo para "pensar" en lo que importa, en lo que da valor.

Salidos

sr_meck · 16 Enero 2015

Corresto [MENTION=111]Tbon[/MENTION] es decir, Nagios es un culo, configurarlo es una paja y existen otros software que hace lo mismo mejor y mas simple en su operación y mantencion.

Zykboss · 16 Enero 2015

chikogollo dijo:
Estimados

Aca les dejo un pequeño slide de por que no deberiamos usar nagios como software de monitoreo.

Stop using Nagios (so it can die peacefully)

Es interesante y muestra las falencias de software de monitoreo arcaico y poco escalable.

Y por acá una entrada en el blog de Gartner donde dice que lo tiremos a la basura

Got Nagios? Get rid of it.

Saludos

El único con el que he trabajado es Nagios de hecho (politica implantada)...

chikogollo dijo:
Corresto @Tbon es decir, Nagios es un culo, configurarlo es una paja y existen otros software que hace lo mismo mejor y mas simple en su operación y mantencion.

Alguno en particular? Vale, hay una lista larga ya publicada, sin embargo probarlos todos no es muy factible. Tnx.

chertsey · 17 Enero 2015

Mi grano de arena, he implementado un par de IBM Systems Director y es muy bueno para administrar y monitorear todo el equipamiento IBM (obvio), incluyendo la posibilidad de administrar el consumo de energia de tus equipos.

Te informa cuando han salido parches o firmware nuevos y los puede instalar en caliente. Además si te falla un componente en garantia automaticamente genera un RMA a IBM y de paso te informa.

Es medio pesado, y requiere agentes en los equipos Windows y Linux. En AIX e iSeries viene integrado.

sr_meck · 19 Enero 2015

Zykboss dijo:
El único con el que he trabajado es Nagios de hecho (politica implantada)...

Alguno en particular? Vale, hay una lista larga ya publicada, sin embargo probarlos todos no es muy factible. Tnx.

A mi me gusta mucho Zeoss, Zenoss | Transforming IT Operations encuentro facil de instalar y administrar.

Saludos

Cosme · 19 Enero 2015

chikogollo dijo:
A mi me gusta mucho Zeoss, Zenoss | Transforming IT Operations encuentro facil de instalar y administrar.

Saludos

vi por alli que vale 30.000 anuales para 500 hosts D:

sr_meck · 19 Enero 2015

Hay una version free si no quieres pagar esta se llama Zenoss Core... Ahora ojo cuando elijan un software de monitoreo mas que la cantidad de host tienen que fijarse en la cantidad de interfaces para su licenciamiento, ya que no es lo mismo monitorear un equipos de acceso de 24 interfaces ano de core con 240 interfaces.

Saludos

Gen1us · 19 Enero 2015

Tengo PRTG para monitorear los ESX, Servicio vCenter, SAN SW Core-Edge, Datastore (IO y Espacio). Hice un dashboard de toda la solución que mantienen en los monitores.

Para el análisis de las VMs vCOPS Advanced con Dashboard Custom.

Zuljin · 30 Enero 2015

Oye g3n15z, ¿puedes tirarte un screen de pantalla de tu PRTG monitoreando los hosts ESXi?

Gen1us · 30 Enero 2015

Zuljin dijo:
Oye g3n15z, ¿puedes tirarte un screen de pantalla de tu PRTG monitoreando los hosts ESXi?

2 DC, 8 ESX por lado.

2 SAN SW EDGE y 2 SAN SW CORE por lado, abajo está el espacio de los datastore.

No puedo monitorear SW LAN L2 ni L3 ya que lo hace otra empresa.

Zuljin · 30 Enero 2015

Gracias. Lástima que es de pago

Gen1us · 30 Enero 2015

Yep, pero los vale.

Soujiro · 14 Abril 2015

ciertamente nagios es un culo de configurar las primeras veces y/o cuando tienes una red grande pero funciona bien.

Miguelwill · 18 Agosto 2015

este ultimo par de meses estuve probando zenoss, aca algunas impresiones y tips para el que quiera experimentar o probarlo de plano

http://www.capa9.net/foro/threads/instalacion-zenoss-opciones.1114299/

Zuljin · 18 Agosto 2015

miguelwill dijo:
este ultimo par de meses estuve probando zenoss, aca algunas impresiones y tips para el que quiera experimentar o probarlo de plano

http://www.capa9.net/foro/threads/instalacion-zenoss-opciones.1114299/

Puta madre, leí muy rápido y te iba a mandar el post a fap-time, hasta que entré al link y entendí el contexto.

Eliezar · 18 Agosto 2015

me animare a implementar algún sistema , me tinca zenooss en centos

Cosme · 18 Agosto 2015

Eliezar dijo:
me animare a implementar algún sistema , me tinca zenooss en centos

Zenoss es facil de instalar y medianamente facil de llevar, pero no es muy comodo cuando quieres que sea mas especifico

Eliezar · 18 Agosto 2015

Cosme dijo:
Zenoss es facil de instalar y medianamente facil de llevar, pero no es muy comodo cuando quieres que sea mas especifico

entiendo , pero mi plataforma es bastante simple :ash

Software de monitoreo para controlar tu plataforma

Fundador

a.k.a chikogollo

I am out

Fundador

a.k.a chikogollo

404 Not Found

Pro

a.k.a chikogollo

Gold Member

a.k.a chikogollo

VCP

Fundador

VCP

Fundador

VCP

Fanático

I am out

Fundador

mi gato :D

Gold Member

mi gato :D