Software de monitoreo para controlar tu plataforma

yakko

pingüino mal genio
Maestro @yakko ¿es muy complicado pasar de nagios a icinga2? ¿probastes las opciones de "alta disponibilidad de icinga2?
Saludos.
no , para nada, icinga esta basado en nagios, la config es muy similar.

y no, no he probado la alta disponibilidad de icinga. tiene hartos metodos para descentralizar los chequeos, muy choro, pero anda tan bien que no he tenido que usarlo, incluso en ambientes gigantes y con plugins super poco eficientes como el de vmware-perl que hace mierda los cpu.
 

chertsey

Capo
ojo que elastic+kibana no es un sistema de monitoreo/alertas.
La version pagada soporta alertas definidas por el usuario o por comportamiento, pero claro no es un software de monitoreo, sino de análisis, esto es bastante práctico porque te permite correlacionar eventos de forma rápida.
 

WINTENDOX

EL AVE FENIX A RESUCITADO
zabbix no fue culo de soportar un ambiente de 1400 equipos y en promedio 16.000 servicios a chequear (usando un solo zabbix) , icinga2 lo hace sin arrugarse.

depende del uso que se le va a dar, depende de que quieres monitorear, de si necesitas que sea algo facil de configurar, etc. etc. hay para todos los gustos.
Pero eso es en tu caso quizás alguna drama en el hardware. Pero a nivel de monitoreo etc en los nodos cumple sin problemas más de 100000 servicos y sumando

Enviado desde mi Redmi Note 7 mediante Tapatalk
 

yakko

pingüino mal genio
Pero eso es en tu caso quizás alguna drama en el hardware. Pero a nivel de monitoreo etc en los nodos cumple sin problemas más de 100000 servicos y sumando

Enviado desde mi Redmi Note 7 mediante Tapatalk
no, se monta en una vm de un cluster gigante de vmware, al superar x cantidad de servicios se empiezan a encolar y los chequeos se retrasan, pasamos por el mismo problema con varias plataformas, el único que funcionó bien en un ambiente así fue incinga2, ya que está hecho para ser multitarea, puede desplegar simultáneamente miles de chequeos.
 

Amenadiel

Ille qui nos omnes servabit
Fundador
OVERLORD
REPORTERO
Resulta que buscando una solución para concentrar los logs de todas las máquinas y apps que tengo andando llegué a Datadog.

Datadog puede usarse para monitoreo y alertas de infraestructura, para concentrar logs, para APM y hasta para synthetics.

Para logs anda bien, tiene mil integraciones y puedes añadir transformaciones al pipeline para dejarlos con campos homogéneos. Sale como un dólar el giga de logs/mes y retención de 15 días. Extenderlo a un mes vale otro dólar.

En lo que respecta a la infraestructura... Todo muy bonito pero vale 20 dólares por host por mes y no estaba para esos gastos.

De todos modos, como puedes tirar logs de lo que quieras al concentrador, y configurar alertas sobre ellos, puedes usar cualquier chequeo local para meter alertas por uso de ram, disco lleno, descriptores de archivo, etc.

Enviado desde mi HMA-L29 mediante Tapatalk
 

Harima

Pegao al tarro
REPORTERO
Resulta que buscando una solución para concentrar los logs de todas las máquinas y apps que tengo andando llegué a Datadog.

Datadog puede usarse para monitoreo y alertas de infraestructura, para concentrar logs, para APM y hasta para synthetics.

Para logs anda bien, tiene mil integraciones y puedes añadir transformaciones al pipeline para dejarlos con campos homogéneos. Sale como un dólar el giga de logs/mes y retención de 15 días. Extenderlo a un mes vale otro dólar.

Enviado desde mi HMA-L29 mediante Tapatalk
Probaste graylog?
 

miguelwill

Matrix Operator
Miembro del Equipo
MOD

chertsey

Capo
Resulta que buscando una solución para concentrar los logs de todas las máquinas y apps que tengo andando llegué a Datadog.

Datadog puede usarse para monitoreo y alertas de infraestructura, para concentrar logs, para APM y hasta para synthetics.

Para logs anda bien, tiene mil integraciones y puedes añadir transformaciones al pipeline para dejarlos con campos homogéneos. Sale como un dólar el giga de logs/mes y retención de 15 días. Extenderlo a un mes vale otro dólar.

En lo que respecta a la infraestructura... Todo muy bonito pero vale 20 dólares por host por mes y no estaba para esos gastos.

De todos modos, como puedes tirar logs de lo que quieras al concentrador, y configurar alertas sobre ellos, puedes usar cualquier chequeo local para meter alertas por uso de ram, disco lleno, descriptores de archivo, etc.

Enviado desde mi HMA-L29 mediante Tapatalk
Para concentrar logs, esta graylog, que soporta LDAP y alertas en la versión opensource o usar ELK, que trae ya predefinido varios dashboard de monitoreo para logs de aplicaciones, APM, NetFlow y un intento de SIEM.

Slds
 

Amenadiel

Ille qui nos omnes servabit
Fundador
OVERLORD
REPORTERO
Para concentrar logs, esta graylog, que soporta LDAP y alertas en la versión opensource o usar ELK, que trae ya predefinido varios dashboard de monitoreo para logs de aplicaciones, APM, NetFlow y un intento de SIEM.

Slds
Por lo que vi en graylog tienes que hostear tu concentrador? La versión Enterprise igual dice que hay que instalar algo. En Datadog solo instalas el agente y habilitas las extensiones

Enviado desde mi HMA-L29 mediante Tapatalk
 

chertsey

Capo
Por lo que vi en graylog tienes que hostear tu concentrador? La versión Enterprise igual dice que hay que instalar algo. En Datadog solo instalas el agente y habilitas las extensiones

Enviado desde mi HMA-L29 mediante Tapatalk
Graylog Enteprise te permite hacer la correlación de eventos y mejores dashboard, en ambos tienes que instalar tu propio server. No necesita agentes, a excepción de equipos Windows, que con NXlog la haces.

En Linux/AIX puedes usar rsyslog o syslogd para enviar mediante UDP los logs.
 

unreal4u

I solve problems.
Miembro del Equipo
ADMIN
Otro voto para Datadog, es muy fácil y te quita el webeo de tener que administrarlo tu.

Para capa9.net a todo esto estamos probando / ocupando la combinación Telegraf + influxdb + grafana ahora, y por lo visto tiene un sistema de alerta tb, aunque está más bien hecho para presentaciones a pantalla completa:



Todo eso lo hice con docker compose en un par de horas, al menos ya rindió sus frutos pq me di cuenta que esos errores ocasionales de db que me salían en los logs tenían que ver con que nos topábamos con un límite de memoria, que ahora debería estar solucionado :)

Esto sería todo el contenido de docker-compose.yml:
Código:
version: "3"
services:
  influxdb:
    container_name: influxdb
    image: "influxdb:latest"
    restart: unless-stopped
    ports:
      - 8086:8086
    volumes:
      - ~/monitoring/influxdb/db:/var/lib/influxdb
      - ~/monitoring/influxdb/config/influxdb.conf:/etc/influxdb/influxdb.conf
  telegraf:
    container_name: telegraf
    image: "telegraf:latest"
    restart: unless-stopped
    environment:
      - HOST_PROC=/chanchocloud/proc/
    ports:
      - 8125:8125 # StatsD
      - 8092:8092 # UDP
      - 8094:8094 # TCP
    volumes:
      - ~/monitoring/telegraf/config/telegraf.conf:/etc/telegraf/telegraf.conf:ro
      - /proc:/chanchocloud/proc:ro
      #- /var/run/docker.sock:/var/run/docker.sock ## No monitoring yet for docker
    network_mode: "host"
  grafana:
    container_name: grafana
    image: "grafana/grafana:latest"
    restart: unless-stopped
    user: "0"
    ports:
      - 3000:3000
    volumes:
      - ~/monitoring/grafana/db:/var/lib/grafana
      - ~/monitoring/grafana/config/grafana.ini:/etc/grafana/grafana.ini
Tengo un nginx por delante que hace de proxy transparente hacia grafana.

Saludos.
 
@unreal4u mejor usa prometheus + grafana, dado que prometheus te permite crear alarmas bien utilies basadas en cuantos minutos lleva en estado "alarma" de esa forma los spikes innecesarios se los pasa por el aro, por ejemplo en nuestro server de produccion la carga de io es normalamente de un 10% pero hay un puto proceso que la eleva al 80% por 5 minutos todos los dias, entoces con eso evito que me chille por nada.
 

unreal4u

I solve problems.
Miembro del Equipo
ADMIN
@unreal4u mejor usa prometheus + grafana, dado que prometheus te permite crear alarmas bien utilies basadas en cuantos minutos lleva en estado "alarma" de esa forma los spikes innecesarios se los pasa por el aro, por ejemplo en nuestro server de produccion la carga de io es normalamente de un 10% pero hay un puto proceso que la eleva al 80% por 5 minutos todos los dias, entoces con eso evito que me chille por nada.
pq prometheus y no influxdb? Ambas son db en base a eventos en el tiempo y hasta donde sé es grafana donde configuras y mandas las alertas, así que daría lo mismo la db por debajo cierto?

Saludos.
 
la diferencia esta en las alertas, nosotros las tenemos configuradas en prometheus directamente, no en grafana, te pego algo de la configuracion de alarmas de prometheus, ademas con prometheus puede hacer polling menores a 1 segudno para cosas bien criticas.


Código:
groups:
- name: alert.rules
  rules:
  - alert: monitor_down
    expr: up == 0
    for: 5m
    annotations:
      summary: Instancia {{ $labels.instance }} esta caida por mas de 5 minutos
      description: "{{$labels.instance}} of job {{$labels.job}} has been down for more than 5 minutes."
  - alert: High_Load
    expr: node_load1{alias="UngaBunga"} >= 7
    for: 5m
    annotations:
      summary: High Load en UngaBunga
  - alert: PERM_GEN
    expr: CMS_Perm_Gen_usageUsed / CMS_Perm_Gen_usageMax > 0.8
    annotations:
      summary: Uso de Perm Gen sobre 80%
  - alert: OLD_GEN
    expr: CMS_Old_Gen_usageUsed / CMS_Old_Gen_usageMax > 0.93
    annotations:
      summary: Uso de Old Gen sobre 80%
  - alert: SWAP_OUT
    expr: rate(node_vmstat_pswpout[5m]) * 4096 > 100000
    annotations:
      summary: Swap Out a mas de 1 MBs
 
Subir