Software de monitoreo para controlar tu plataforma

Zuljin · 10 Noviembre 2014

Distintas herramientas que permiten controlar el estado de tu plataforma, desde pings sencillos hasta simulación de logueo en una página web, pasando por el control de espacio en disco, cpu y memoria.

Nagios

Nagios Core: Gratis.
Nagios Xi: Pagado.

Nagios - The Industry Standard in IT Infrastructure Monitoring

http://www.nagios.org/

Icinga

Derivó de Nagios. Es gratis. Como buen fork es muy similar a nagios en su concepción pero se han ido distanciando un poco.

https://www.icinga.org/

Foglight

Es una suite de Quest, que ahora es de dell. Hay componentes que se instalan sobre Windows Server y en poco tiempo puedes estar controlando a punta de ping y snmp toda tu plataforma. Es caro.

http://www.quest.com/foglight/

101f943b21f0a0e791433f0a9352ce6af53_2screenshot-foglightnms_network-map_540x312.jpg

System Center Operations Manager

System Center es una suite de productos de Microsoft que tienen como objetivo controlar tus plataformas, haciendo hincapié (obviamente) en productos y servicios de Microsoft. El componente Operations Manager monitorea a nivel de ping, de snmp, de WMI (protocolo de Windows). Para monitorear servidores Microsoft es excelente, pero para monitorear Linux es pésimo. Si tu plataforma tiene mayoritariamente servicios y productos Microsoft, como Active Directory de Microsoft, Exchange, Sharepoint, etc, System Center Operations Manager es tu mejor opción si es que tienes las lukas. Es pagado.

http://technet.microsoft.com/es-es/library/hh205987.aspx

PRTG

Permite desplegar monitoreo por SNMP y PING, además integra mibs especializados para distintos tipos de plataformas y aplicaciones como VMware, Hyper-V, SQL, Oracle, etc.. Tiene la ventaja de ser muy flexible y extremadamente facil de desplegar.

Es de pago y tiene versión trial.

http://www.paessler.com

Newrelic

http://newrelic.com/

Newrelic se corre como un servicio en tus máquinas, y va reportando periódicamente a un servicio Cloud. La versión básica es gratis.

El panel de Newrelic cumple dos funciones: monitorear tus máquinas y monitorear tus aplicaciones. Esta es una relación muchos a muchos: en un panel tienes tus máquinas (y cada una dice abajo cuales de tus apps está corriendo) y en otro panel tienes tus aplicaciones, y cada una puede estar corriendo en N máquinas.

En la vista particular de una máquina tienes información de la carga y los procesos más pesados.

La foto que te muestra es de los últimos 30 minutos. Puedes cambiar ese tiempo para mostrar, en cambio, una hora, tres, seis o hasta 12 horas, y puedes mover ese intervalo para ver por ejemplo la carga entre las 15 y las 18 horas del día anterior.

Además del demonio de sistema, Newrelic tiene librerías para la mayoría de los lenguajes de desarrollo: PHP, Python, Ruby, JAVA, .NET y Node. Con eso se perfila tu aplicación. En la pestaña de Aplicaciones puedes ver cuales son las transacciones que más peticiones generan, o que más tiempo consumen. Puedes ver los últimos errores o medir qué tablas se llevan más pega en la BBDD

Ya que te muestra en qué máquinas está corriendo una cierta aplicación, podrías sacar mediciones tan reveladoras como:
- Máquina 1 está al 80% de carga, está recibiendo 50 peticiones por segundo y corre apache
- Máquina 2 está al 5% de carga, recibe 200 peticiones por segundo y corre nginx

(El ejemplo es real, hice ese ejercicio el 2012 para hacer lobby a favor de nginx en mi pega)

Newrelic tiene plugins para casi cualquier servicio que se les ocurra, pero estos plugins son desarrollados por los respectivos proveedores y a veces no tienen mucho gráfico o no sirven de nada. De todas maneras les comento que he probado los plugins de mysql, amazon aws, postgres, php-fpm, mongodb y nginx. Todos funcionan :zippy

y algunos se pueden integrar con las alertas nativas de Newrelic.

Justamente esa es otra cosa bien útil que tiene Newrelic: un sistema de alertas muy granular. Puedes definir grupos de alertas y grupos de usuarios, y decidir qué eventos gatillan cierta alerta a cierto grupo. Por ejemplo
- Si el HDD de una máquina está al 90% de capacidad, alerta al grupo de sistemas
- Si el porcentaje de errores de una app sube del 5%, alerta al grupo de desarrolladores
- Si el ping deja de responder por un minuto, alerta a todos los weones que se cayó el sitio

Las alertas se pueden gatillas por correo, pero también puedes mandarlas a una cola de Amazon SQS, a un SMS (no funca en Chile), a un sistema de ticketing como Zendesk o a un cliente de Chat como Hipchat.

Observium.

http://www.observium.org/

Permite monitorear en tiempo real dispositivos de red como Switchs y routers al nivel de puertas mediante el protocolo SNMP, además de controlar servidores también vía SNMP. Tiene opción gratuita y de pago.

ELK stack

https://www.elastic.co/

ELK stack es un diminutivo para Elasticsearch - Logstash - Kibana, y permite reunir información de muchos lados y de distintos tipos para mostrar gráficas como los que puse arriba en un solo panel centralizado.

Así por ejemplo puedes, tal como se ve arriba, importar los access_logs y error_logs de apache o nginx, o estadísticas de máquinas como load o uso de disco, o todo lo que se logea hacia systemd por ejemplo.

En el caso de arriba, en la pega también importamos eventos, como los de la centralita de teléfono: cada llamada entrante o saliente la logea, o bien, cuando ocurre algo (se envía un correo por ejemplo), se crea un evento con ciertos parámetros mediante los cuales filtro.

Hay dos variantes: la gratuita y la pagada. La pagada incorpora elementos avanzados como cuentas de usuario y otras cosas de forma fácil, se puede hacer todo con plugins gratuitos pero muchos son un culo de instalar.

La gracia de ELK stack es que permite escalar con facilidad, gracias a que puedes definir N nodos de ElasticSearch, Logstash o Kibana (si es que hace falta), aunque sugiero investigar antes de meterse del todo, ya que el setup inicial puede ser complicado. Yo estuve 2 semanas de lleno instalando todo, pero estamos conformes con el resultado. Hoy mismo hubo un problema con un backbone entre dos datacenters y lo detectamos al tiro:

Miguelwill · 18 Agosto 2015

Eliezar dijo:
entiendo , pero mi plataforma es bastante simple

Para monitorear cosas o servicios estándares , sirve bastante

Enviado desde mi XT1058 mediante Tapatalk

Cosme · 18 Agosto 2015

Eliezar dijo:
entiendo , pero mi plataforma es bastante simple

por no decir toda abierta? :ash

Eliezar · 18 Agosto 2015

Cosme dijo:
por no decir toda abierta?

K3rnelpanic · 10 Junio 2016

Arrrrrrrrrrriba.

Acá en el trabajo van a desechar SCOM porque la licencia sale lucas (que en estos tiempos andan escasas). Alguien ha usado Zabbix?

Miguelwill · 10 Junio 2016

VittokoX dijo:
Arrrrrrrrrrriba.

Acá en el trabajo van a desechar SCOM porque la licencia sale lucas (que en estos tiempos andan escasas). Alguien ha usado Zabbix?

Yo lo probé unos días y me decante por zenoss, la interface me parecía más intuitiva de manejar y los gráficos más agradables
Zabbix tiene una imagen virtual para vmware que es llegar y cargar, así te ahorras toda la pajade la instalación para hacer pruebas y probarlo tu mismo

Enviado desde mi XT1058 mediante Tapatalk

K3rnelpanic · 15 Junio 2016

Estoy jugando con zabbix y se ve potencial :zippy

. Por temas de licenciamiento en la empresa prefieren ir con algo con GPL nomas :naster

yakko · 27 Julio 2016

nagios es un culo y no es escalable sólo si no se sabe lo que se hace. Lo complicado que tiene de configuración también es ignorancia de la persona que lo está configurando, ya que prácticamente no tiene estructura, se puede configurar de millones de maneras, eso lo hace complejo para alguien que no sabe, pero muy útil y potente para alguien que si se maneja.

es importante que cuando se instala un nagios esté bien configurado y pensado desde su base, si se entiende como funciona es muy sencillo (es por eso que gran porcentaje de los software de monitoreo que nombraron no son más que un "skin" de nagios y otros tantos están basados en nagios al punto que por linea de comando los puedes modificar igual que un nagios.

las notificaciones también es parte de la estructura, si está bien hecha es MUY granular.

además de haber millones de plugins, es re fácil hacerlos si es que es algo muy específico.

el único punto realmente válido de los links que puso chikogollo es la escalabilidad, pero tampoco está tan acertado, nagios XI (de pago) si lo hace, y también se puede hacer en el nagios gratis, pero hay que configurarlo a mano, a diferencia del nagios XI que se hace con un click. De todas maneras yo tengo un par de nagios absurdamente grandes funcionando sin ningún problema en servidores sin grandes características.

por ejemplo tengo uno para comunicaciones (de una empresa grande, hay una sucursal en casi cada ciudad/pueblo de chile), monitorea por snmp todos los routers y switch (midiendo ancho de banda usado, con alertas por porcentaje de uso, status de las bocas, carga de cpu, temperatura, etc)
este tuvo un par de problemas por la cantidad de chequeos que hacía, pero nada que un buen tuning no pueda solucionar.

otro para monitorear los clusters de vmware, monitorea cluster (uso de CPU total del cluster, uso de RAM total, uso de la RED y status de los ESX/ESXi que la componen),

status de cada ESX (uso de CPU, RAM, RED, conexión al cluster, status de hardware, sensores, path a los storages, espacio en los datastorages, servicios de vmware, temperaturas, uptime, etc.)

status de cada maquina virtual (estado de las vmtools, I/O de disco, red, ram, estado de la maquina (pausada, corriendo, detenida, etc)

la configuración está pensada en escalar fácilmente, si se quieren agregar más vms al monitoreo basta con correr un script que hace una consulta al vcenter y agrega las maquinas nuevas al nagios, lo mismo con los ESX, en este minuto tiene 5 clusters vmware monitoreados, el más pequeño tiene 125 maquinas virtuales y 6 ESX, el más grande tiene 1600 máquinas virtuales y 18 ESX.

algunas fotitos.

vcenter

Captura%20de%20pantalla%20de%202016-07-27%2015-07-29_zpskukqaljm.png

ESX

Captura%20de%20pantalla%20de%202016-07-27%2015-08-38_zps6idf4wrf.png

maquina virtual

Captura%20de%20pantalla%20de%202016-07-27%2015-09-03_zpsuhqcjhkd.png

Harima · 27 Julio 2016

Yo estoy re contento con el PandoraFMS, el más lindi de todos, y como tenemos la ensalada de maquinas repartida por todos lados, es lo que más nos acomodaba.

yakko · 27 Julio 2016

Harima dijo:
Yo estoy re contento con el PandoraFMS, el más lindi de todos, y como tenemos la ensalada de maquinas repartida por todos lados, es lo que más nos acomodaba.

parece que tiene mejores diseñadores gráficos que programadores.
lo probamos (con el distribuidor de pandora en chile) para hacer varias muestras a los clientes. El cliente que se instala no anda bien en algunos linux, en algunos servers producía que el LOAD se disparara, había que conectarse al equipo y reiniciar el cliente de pandora, en algunos unix simplemente no era compatible, dio hartos cachos.

nibal2 · 27 Julio 2016

Como dato, el representante de Nagios en Chile era compañero mío de la U.

Le pega harto a ese tema de servidores y monitoreo.

No sé como será el tema de las lucas por el soporte, pero una gracia es que el puede dar soporte especializado en español.

K3rnelpanic · 27 Julio 2016

Seguimos avanzando con Zabbix :zippy

yakko · 27 Julio 2016

nibal2 dijo:
Como dato, el representante de Nagios en Chile era compañero mío de la U.

Le pega harto a ese tema de servidores y monitoreo.

No sé como será el tema de las lucas por el soporte, pero una gracia es que el puede dar soporte especializado en español.

no existe representante de nagios en chile, lo que hay es una pagina oficial de la comunidad de nagios en chile (cosa bastante distinta)

nibal2 · 27 Julio 2016

yakko dijo:
no existe representante de nagios en chile, lo que hay es una pagina oficial de la comunidad de nagios en chile (cosa bastante distinta)

Toda la razón, pero igual es partner oficial de nagios (que son 3 en Chile) y representante de la comunidad a la vez.

Saludos!

Zuljin · 24 Octubre 2017

Update.

Acá en la pega estamos probando Observium para monitoreo de redes, todos los switchs. Nuestra necesidad de negocio es poder saber en tiempo real en que dispositivo tenemos cuellos de botella ya que tenemos switchs y routers en oficinas de regiones y en distintos pisos del edificio central.
El desafío es monitorear los switchs virtuales que se crean con Vmware. No se si sea posible (hay que habilitarles snmp) pero ahí probaremos.

http://www.observium.org/

Todavía no tenemos una opinión muy acabada porque estamos en etapa de prueba.

unreal4u · 24 Octubre 2017

Me sorprende que nadie haya mencionado ELK stack ... yo lo introduje hace algunos meses en la pega y ha salvado harto. Nos permite intervenir errores antes de que los clientes se den cuenta.

Por el momento funciona con ElasticSearch + Logstash + Kibana, y otro software adicional, como RabbitMQ para los eventos generados en el código mismo, Jenkins que a su vez remite a RabbitMQ que de ahí Logstash importa, y así suma y sigue.

En cuanto a crecimiento, ahora tenemos sólo 2 nodos, que es suficiente por ahora. Logeamos 3 semanas que equivale a un total de aprox. 95~100 millones de documentos. A corto plazo, pondremos un server donde podamos instanciar al menos 6 nodos más para que podamos guardar al menos 3 meses de estadísticas, y si es que llegamos a necesitar más, simplemente se agrega otra máquina cotota y listo. (ES distribuye por si solo la información entre los nodos).

Kibana se ve más o menos así:

Cada sección tiene un par de monitores colgados para desplegar esta información. Así, en informática tenemos información sobre procesos, load, etc, mientras que marketing tiene información de qué buscadores hay activos en el sitio y soporte tiene información acerca de cuántas llamadas telefónicas han entrado y el tiempo medio de espera y esas cosas.

Saludos.

Zuljin · 24 Octubre 2017

Oye @unreal4u , ¿exactamente qué hace ELK stack?

unreal4u · 24 Octubre 2017

ELK stack es un diminutivo para Elasticsearch - Logstash - Kibana, y permite reunir información de muchos lados y de distintos tipos para mostrar gráficas como los que puse arriba en un solo panel centralizado.

Así por ejemplo puedes, tal como se ve arriba, importar los access_logs y error_logs de apache o nginx, o estadísticas de máquinas como load o uso de disco, o todo lo que se logea hacia systemd por ejemplo.

En el caso de arriba, en la pega también importamos eventos, como los de la centralita de teléfono: cada llamada entrante o saliente la logea, o bien, cuando ocurre algo (se envía un correo por ejemplo), se crea un evento con ciertos parámetros mediante los cuales filtro.

Hay dos variantes: la gratuita y la pagada. La pagada incorpora elementos avanzados como cuentas de usuario y otras cosas de forma fácil, se puede hacer todo con plugins gratuitos pero muchos son un culo de instalar.

La gracia de ELK stack es que permite escalar con facilidad, gracias a que puedes definir N nodos de ElasticSearch, Logstash o Kibana (si es que hace falta), aunque sugiero investigar antes de meterse del todo, ya que el setup inicial puede ser complicado. Yo estuve 2 semanas de lleno instalando todo, pero estamos conformes con el resultado. Hoy mismo hubo un problema con un backbone entre dos datacenters y lo detectamos al tiro:

Ahí se ve el momento exacto en que el enlace empezó a dar jugo.

Debo aclarar que los gráficos de arriba están todos basados en tráfico en sitios web, pero es refácil importar otro tipo de datos y graficar de acuerdo a eso.

Saludos.

Zuljin · 24 Octubre 2017

Listo rucio, lo agregamos.

Miguelwill · 25 Octubre 2017

por mi lado estuve probando unas semanas, aprovechando que me llegaron unas máquinas con bastante memoria libre, Zenoss core 5.2, el cual está bastante estable y funcional
ahora funciona todo (sus servicios) sobre contenedores , los que van gestionados por un panel como el de Jenkins (creo , tenía un nombre propio como si fuera un fork), el cual también integra registro de logs con kibana y elastic-search
esto como gestión interna y apoyo al funcionamiento de zenoss como tal , el cual en conjunto funciona sobre CentOS 7, pero como cada servicio interno de zenoss funciona con contenedores separados, suele ser algo complicado en una primera instancia el instalar nuevos zenpacks , pero al final se vuelve más seguro ya que es difícil hecharlo a perder de esa forma

lo bueno, está remozado y se nota en los gráficos que lo actualizaron en general, la estructura del sistema es la misma, pero se maneja de forma más robusta y segura

lo malo, el 70 u 80% de los zenpacks de la comunidad no a actualizado los paquetes para ser compatibles con esta nueva versión, por lo que quedan estancados en la versión 4.2 y cuesta bastante actualizarlos para poder funcionar sobre la versión 5.2 , lo que frena las ganas de actualizar si ya estás usando algunos zenpacks para monitorear ciertos parámetros críticos

lo feo, el core completo con todos sus servicios requiere por lo bajo 24 GB de memoria, incluso hasta 32gb solo para funcionar con sus contenedores y todos los subsistemas , algo pesado si comparamos con la versión 4 que bastaba con unos 8 a 12gb de memoria, y funciona rápido , así que el consumo de recursos es algo que también puede frenar su implementación en algunos escenarios
pero supongo que las mejoras requieren recursos, pero 3 o 4 veces igual es notorio

Enviado desde mi TA-1039 mediante Tapatalk

Harima · 20 Noviembre 2017

PLW ahora new Relic te cobra aparte por las alertas

Software de monitoreo para controlar tu plataforma

Fundador

I am out

Gold Member

mi gato :D

non serviam

I am out

non serviam

pingüino mal genio

Pegao al tarro

pingüino mal genio

pajarón nuevo

non serviam

pingüino mal genio

pajarón nuevo

Fundador

I solve problems.

Fundador

I solve problems.

Fundador

I am out

Pegao al tarro