Software de monitoreo para controlar tu plataforma

Zuljin · 10 Noviembre 2014

Distintas herramientas que permiten controlar el estado de tu plataforma, desde pings sencillos hasta simulación de logueo en una página web, pasando por el control de espacio en disco, cpu y memoria.

Nagios

Nagios Core: Gratis.
Nagios Xi: Pagado.

Nagios - The Industry Standard in IT Infrastructure Monitoring

http://www.nagios.org/

Icinga

Derivó de Nagios. Es gratis. Como buen fork es muy similar a nagios en su concepción pero se han ido distanciando un poco.

https://www.icinga.org/

Foglight

Es una suite de Quest, que ahora es de dell. Hay componentes que se instalan sobre Windows Server y en poco tiempo puedes estar controlando a punta de ping y snmp toda tu plataforma. Es caro.

http://www.quest.com/foglight/

101f943b21f0a0e791433f0a9352ce6af53_2screenshot-foglightnms_network-map_540x312.jpg

System Center Operations Manager

System Center es una suite de productos de Microsoft que tienen como objetivo controlar tus plataformas, haciendo hincapié (obviamente) en productos y servicios de Microsoft. El componente Operations Manager monitorea a nivel de ping, de snmp, de WMI (protocolo de Windows). Para monitorear servidores Microsoft es excelente, pero para monitorear Linux es pésimo. Si tu plataforma tiene mayoritariamente servicios y productos Microsoft, como Active Directory de Microsoft, Exchange, Sharepoint, etc, System Center Operations Manager es tu mejor opción si es que tienes las lukas. Es pagado.

http://technet.microsoft.com/es-es/library/hh205987.aspx

PRTG

Permite desplegar monitoreo por SNMP y PING, además integra mibs especializados para distintos tipos de plataformas y aplicaciones como VMware, Hyper-V, SQL, Oracle, etc.. Tiene la ventaja de ser muy flexible y extremadamente facil de desplegar.

Es de pago y tiene versión trial.

http://www.paessler.com

Newrelic

http://newrelic.com/

Newrelic se corre como un servicio en tus máquinas, y va reportando periódicamente a un servicio Cloud. La versión básica es gratis.

El panel de Newrelic cumple dos funciones: monitorear tus máquinas y monitorear tus aplicaciones. Esta es una relación muchos a muchos: en un panel tienes tus máquinas (y cada una dice abajo cuales de tus apps está corriendo) y en otro panel tienes tus aplicaciones, y cada una puede estar corriendo en N máquinas.

En la vista particular de una máquina tienes información de la carga y los procesos más pesados.

La foto que te muestra es de los últimos 30 minutos. Puedes cambiar ese tiempo para mostrar, en cambio, una hora, tres, seis o hasta 12 horas, y puedes mover ese intervalo para ver por ejemplo la carga entre las 15 y las 18 horas del día anterior.

Además del demonio de sistema, Newrelic tiene librerías para la mayoría de los lenguajes de desarrollo: PHP, Python, Ruby, JAVA, .NET y Node. Con eso se perfila tu aplicación. En la pestaña de Aplicaciones puedes ver cuales son las transacciones que más peticiones generan, o que más tiempo consumen. Puedes ver los últimos errores o medir qué tablas se llevan más pega en la BBDD

Ya que te muestra en qué máquinas está corriendo una cierta aplicación, podrías sacar mediciones tan reveladoras como:
- Máquina 1 está al 80% de carga, está recibiendo 50 peticiones por segundo y corre apache
- Máquina 2 está al 5% de carga, recibe 200 peticiones por segundo y corre nginx

(El ejemplo es real, hice ese ejercicio el 2012 para hacer lobby a favor de nginx en mi pega)

Newrelic tiene plugins para casi cualquier servicio que se les ocurra, pero estos plugins son desarrollados por los respectivos proveedores y a veces no tienen mucho gráfico o no sirven de nada. De todas maneras les comento que he probado los plugins de mysql, amazon aws, postgres, php-fpm, mongodb y nginx. Todos funcionan :zippy

y algunos se pueden integrar con las alertas nativas de Newrelic.

Justamente esa es otra cosa bien útil que tiene Newrelic: un sistema de alertas muy granular. Puedes definir grupos de alertas y grupos de usuarios, y decidir qué eventos gatillan cierta alerta a cierto grupo. Por ejemplo
- Si el HDD de una máquina está al 90% de capacidad, alerta al grupo de sistemas
- Si el porcentaje de errores de una app sube del 5%, alerta al grupo de desarrolladores
- Si el ping deja de responder por un minuto, alerta a todos los weones que se cayó el sitio

Las alertas se pueden gatillas por correo, pero también puedes mandarlas a una cola de Amazon SQS, a un SMS (no funca en Chile), a un sistema de ticketing como Zendesk o a un cliente de Chat como Hipchat.

Observium.

http://www.observium.org/

Permite monitorear en tiempo real dispositivos de red como Switchs y routers al nivel de puertas mediante el protocolo SNMP, además de controlar servidores también vía SNMP. Tiene opción gratuita y de pago.

ELK stack

https://www.elastic.co/

ELK stack es un diminutivo para Elasticsearch - Logstash - Kibana, y permite reunir información de muchos lados y de distintos tipos para mostrar gráficas como los que puse arriba en un solo panel centralizado.

Así por ejemplo puedes, tal como se ve arriba, importar los access_logs y error_logs de apache o nginx, o estadísticas de máquinas como load o uso de disco, o todo lo que se logea hacia systemd por ejemplo.

En el caso de arriba, en la pega también importamos eventos, como los de la centralita de teléfono: cada llamada entrante o saliente la logea, o bien, cuando ocurre algo (se envía un correo por ejemplo), se crea un evento con ciertos parámetros mediante los cuales filtro.

Hay dos variantes: la gratuita y la pagada. La pagada incorpora elementos avanzados como cuentas de usuario y otras cosas de forma fácil, se puede hacer todo con plugins gratuitos pero muchos son un culo de instalar.

La gracia de ELK stack es que permite escalar con facilidad, gracias a que puedes definir N nodos de ElasticSearch, Logstash o Kibana (si es que hace falta), aunque sugiero investigar antes de meterse del todo, ya que el setup inicial puede ser complicado. Yo estuve 2 semanas de lleno instalando todo, pero estamos conformes con el resultado. Hoy mismo hubo un problema con un backbone entre dos datacenters y lo detectamos al tiro:

K3rnelpanic · 1 Agosto 2019

frosstatx dijo:
Acá en la planta estamos probando zabbix, se ve bastante bueno.

Acá en "principal centro de operaciones bursátiles de Chile" dejamos de usar SCOM justamente para usar Zabbix.
Totally worth it!

yakko · 1 Agosto 2019

lo que yo estoy usando ahora es icinga y la verdad anda muy bien, tengo uno que monitorea aprox 800 host, aprox 7000 servicios, y corre en una sola maquina y cero problemas

xkastorx · 10 Agosto 2019

en mi pega ocupamos zabbix, de lo mejorcito en monitoreo

Mr_JaVa · 10 Agosto 2019

Zabbix hace la pega, buena herramienta

Enviado desde mi SM-G950F mediante Tapatalk

Amenadiel · 17 Agosto 2019

Harima dijo:
PLW ahora new Relic te cobra aparte por las alertas

A estas alturas, dos años después, cobran por todo. Y es más. A sabiendas que cobran hasta por tirarse peos intenté tirarme uno y no salía, no quería salir.

Pensé que se me había pegado un yogur en la guatita como a Christell, pero cuando me metí al panel decía: "New relic APM ya no soporta peítos, pinche aquí para acceder a un free trial de 12 horas de New Relic Fart Manager".

En otras palabras estos CSM no sólo cobran por todo sino que van podando el servicio.

En fin... me gusta el vikingo, o sea digo, la idea del vikingo. ElasticSearch y Kibana andan un kilo, aunque te puedes gastar un resto en armarlo. El servicio elasticsearch de AWS viene con kibana preinstalado y sólo hace falta meterle datos. Yo lo que hago es mantener una cola (no la cola sino una cola cualquiera) en Redis, y cada pocos segundos vaciarla hacia elasticsearch. (pero no hice eso para el monitoreo sino para hacer machine learning sobre tweets, cuento corto, mi machine no aprendió ni raja)

Lo que sí vale la pena comentar es que una cosa es un visualizador de logs, para lo cual también hay implementaciones más simples (Logentries, Papertrail, Loggly... todos son un robo pero bonitos) pero no tienen relojitos mostrando el uso de RAM, disco duro libre, uso de CPU. Si estás corriendo en cualquier PaaS en todo caso esos relojitos están visibles de por sí o por un pequeño delta.

0Soporte · 17 Agosto 2019

Donde trabajo ocupan solar, centreum y Wocu, pero esta última se encuentra en vías de desarrollo

Harima · 17 Agosto 2019

El

Amenadiel dijo:
A estas alturas, dos años después, cobran por todo. Y es más. A sabiendas que cobran hasta por tirarse peos intenté tirarme uno y no salía, no quería salir.

Pensé que se me había pegado un yogur en la guatita como a Christell, pero cuando me metí al panel decía: "New relic APM ya no soporta peítos, pinche aquí para acceder a un free trial de 12 horas de New Relic Fart Manager".

En otras palabras estos CSM no sólo cobran por todo sino que van podando el servicio.

En fin... me gusta el vikingo, o sea digo, la idea del vikingo. ElasticSearch y Kibana andan un kilo, aunque te puedes gastar un resto en armarlo. El servicio elasticsearch de AWS viene con kibana preinstalado y sólo hace falta meterle datos. Yo lo que hago es mantener una cola (no la cola sino una cola cualquiera) en Redis, y cada pocos segundos vaciarla hacia elasticsearch. (pero no hice eso para el monitoreo sino para hacer machine learning sobre tweets, cuento corto, mi machine no aprendió ni raja)

Lo que sí vale la pena comentar es que una cosa es un visualizador de logs, para lo cual también hay implementaciones más simples (Logentries, Papertrail, Loggly... todos son un robo pero bonitos) pero no tienen relojitos mostrando el uso de RAM, disco duro libre, uso de CPU. Si estás corriendo en cualquier PaaS en todo caso esos relojitos están visibles de por sí o por un pequeño delta.

El elastic de Amazon como servicio vale wano , en la antigua pega pasamos con casos porque esa mierda no funcionaba como corresponde, así que no me arriesgaría a dejarlo como sistema de monitoreo, hay que asegurarse con levantar un cluster a manito no más
El sucesor de new relic se llama status cake (solo probé el monitoreo Web y alertas) y te puedes importar la cuenta de new relic

Amenadiel · 18 Agosto 2019

Harima dijo:
El

El elastic de Amazon como servicio vale wano , en la antigua pega pasamos con casos porque esa mierda no funcionaba como corresponde, así que no me arriesgaría a dejarlo como sistema de monitoreo, hay que asegurarse con levantar un cluster a manito no más
El sucesor de new relic se llama status cake (solo probé el monitoreo Web y alertas) y te puedes importar la cuenta de new relic

Hmmm en realidad ahora uso herramientas distintas para debug + trazas vs logs de sistema y errores... Aunque se superponen.

Me llama la atención que te haya funcionado tan mal ES. Cuántos nodos tenía ese clúster y de que tamaño cada uno?

Enviado desde mi HMA-L29 mediante Tapatalk

Harima · 18 Agosto 2019

Amenadiel dijo:
Hmmm en realidad ahora uso herramientas distintas para debug + trazas vs logs de sistema y errores... Aunque se superponen.

Me llama la atención que te haya funcionado tan mal ES. Cuántos nodos tenía ese clúster y de que tamaño cada uno?

Enviado desde mi HMA-L29 mediante Tapatalk

No recuerdo el tamaño pero era caro unos 7000 usd mensuales y no solo dio problemas de performance sino que con los filtros de la ip, le hicieron redeploy, lo cambiaron de server, pero desde soporte nunca lo pudieron hacer funcionar como corresponde, al final convencí a desarrollo y comenzamos a migrar a cosmosdb de azure. Llevábamos como 3 países cuando me fui pero andaba filete.

Amenadiel · 18 Agosto 2019

Harima dijo:
No recuerdo el tamaño pero era caro unos 7000 usd mensuales y no solo dio problemas de performance sino que con los filtros de la ip, le hicieron redeploy, lo cambiaron de server, pero desde soporte nunca lo pudieron hacer funcionar como corresponde, al final convencí a desarrollo y comenzamos a migrar a cosmosdb de azure. Llevábamos como 3 países cuando me fui pero andaba filete.

Uff por 7K yo hubiera contratado los servicios de un experto como Dani Pérez (epistemoniko) en vez de meterle mas lucas. El soporte de Amazon es como la diuca.

No estoy acostumbrado a usar Azure (estoy trepando la curva de Google) pero estoy consciente que su soporte es a toda raja.

Bueno... claramente tu necesitas más poder que el que yo usaba para meter 100 tweets por segundo,que ahora que lo pienso es una cagada

Enviado desde mi HMA-L29 mediante Tapatalk

yakko · 19 Agosto 2019

pero elastic+kibana no es un sistema de monitoreo, es un motor de búsqueda y está enfocado en recolectar datos y mostrar tendencias en el tiempo, performance, uptime, uso de recursos, crecimiento, etc. etc. Yo lo encuentro la raja pero no es pa monitorear.

cuento aparte, lo encuentro mas desordenado e inestable que mi salud mental si, kibana ordena las cosas como quiere, algunos parámetros los muestra a penas son leídos y si justo la lectura es nula o cero (pasa bastante) el gráfico se muestra como un error o como un valor nada que ver, lo mismo pasa con algunos valores en el tiempo, en vez de mostrar el promedio muestra una lectura actual y el gráfico se va a la mierda (no tiene solución aun, estuve hablando con uno de los desarroladores del módulo hace poco)

Amenadiel · 20 Agosto 2019

Cierto, con los tweets me pasaba harto, y entre que las inserciones son eventualmente consistentes pero nada mas, sumado a la propagación asincrona entre nodos... kibana pareciera comerse registros que al rato pueden aparecer.

Alguna vez use logentries y paperttail. Pero, como mencioné, hoy en dia me cunde mas la instrumentación a nivel de software. Rollbar o Sentry, por ejemplo, agrupan las excepciones y su traza. No servirian para un accesslog, y aunque podrias correr un demonio monitoreando el uso de memoria minuto a minuto, te comerias el free tier con una solar maquina

Respecto a los dashboards de monitoreo, Cuando newrelic se puso weon estuve cotizando alternativas, pero las mejorcitas implicaban recompilar paquetes (e.g. nginx ) con un modulo propietario. Eso, y ademas el cobro no era por plan sino por maquina. Si corres un cluster de maquinas chicas te hacen bolsa.

Enviado desde mi SM-T590 mediante Tapatalk

WINTENDOX · 2 Septiembre 2019

ZABBIX ES EL MEJOR en resumen xd

Miguelwill · 4 Septiembre 2019

WINTENDOX dijo:
ZABBIX ES EL MEJOR en resumen xd

jaja esto no es una guerra santa como para buscar al "mejor"
total siempre hay necesidades diferentes y hay que buscar lo que mejor se acomode

WINTENDOX · 5 Septiembre 2019

miguelwill dijo:
jaja esto no es una guerra santa como para buscar al "mejor"
total siempre hay necesidades diferentes y hay que buscar lo que mejor se acomode

lose solo por experiencia mas que nada

epic · 14 Octubre 2019

Acá uso Nagios, instale OpManager en su memento para ver una cosa especifica y me dio lo que necesitaba.

yakko · 15 Octubre 2019

WINTENDOX dijo:
ZABBIX ES EL MEJOR en resumen xd

zabbix no fue culo de soportar un ambiente de 1400 equipos y en promedio 16.000 servicios a chequear (usando un solo zabbix) , icinga2 lo hace sin arrugarse.

depende del uso que se le va a dar, depende de que quieres monitorear, de si necesitas que sea algo facil de configurar, etc. etc. hay para todos los gustos.

Soujiro · 15 Octubre 2019

Maestro @yakko ¿es muy complicado pasar de nagios a icinga2? ¿probastes las opciones de "alta disponibilidad de icinga2?
Saludos.

sr_meck · 15 Octubre 2019

Algun software que se alimente de netflow para monitorear un servicio. Ahora el desafio es que la maquina no puede llegar al host final si no que tiene acceso a los equipos que comunican los host.

chertsey · 15 Octubre 2019

chikogollo dijo:
Algun software que se alimente de netflow para monitorear un servicio. Ahora el desafio es que la maquina no puede llegar al host final si no que tiene acceso a los equipos que comunican los host.

Elastic + Kibana tienen un addon llamado packetbeat , el cual soporta netflow como servidor (tienes que enviarle los datos)

Ahora es parte del SIEM que ellos promocionan, aunque esta bastante verde...

Enviado desde mi iPad utilizando Tapatalk

Software de monitoreo para controlar tu plataforma

Fundador

non serviam

pingüino mal genio

Miembro Regular

Capo

Ille qui nos omnes servabit

Old School Gamer

Pegao al tarro

Ille qui nos omnes servabit

Pegao al tarro

Ille qui nos omnes servabit

pingüino mal genio

Ille qui nos omnes servabit

MESIAS

I am out

MESIAS

Pro

pingüino mal genio

Fanático

a.k.a chikogollo

Pro