Gestor de base de datos para muchos datos

Matjazz · 7 Mayo 2016

Debo realizar un sistema que guarde en una base de datos, datos que capta un sensor cada 1 segundo. En total, segun mis calculos, al año se generarán cerca de 2gb de datos. Se que no es mucho, pero no estoy acostumbrado a tratar con tal cantidad de datos.

Alguna recomendación? Por la cantidad de datos, descarté mysql. Me tinca posgress o mongodb funcionaría mejor en este caso.

gracias, saludos.

Harima · 7 Mayo 2016

para esa cantidad de data, cualquiera sirve

EITSAEB · 7 Mayo 2016

un cluster Oracle 12c :lezippy

K3rnelpanic · 8 Mayo 2016

Oye pero 2gb al año es un moco. :zippy

Por ejemplo. En la BCS una bd fácil pesa 65gb :naster

Enviado desde mi MotoE2 mediante Tapatalk

hashimoto · 8 Mayo 2016

yo usaria el mismo mysql o postgresql

K3rnelpanic · 8 Mayo 2016

Postgresql hace la pega cagado de la risa.

Enviado desde mi MotoE2 mediante Tapatalk

GORDIO · 9 Mayo 2016

2 GB al año, igual es poco.
Hasta MySQL te hace la pega,
por cuantos años vas a tener el historico ???

alex_xp · 9 Mayo 2016

Los datos son cíclicos, yo consideraría un round robin database https://es.wikipedia.org/wiki/RRDtool
Saludos

Zuljin · 9 Mayo 2016

¿Tay seguro de que la base de datos va a crecer 2 GB al año? ¿Tienes como calcular el tamaño del registro? Te lo menciono porque una de las bases de datos del transantiago, esa que registra el posicionamiento de los buses, recibía actualizaciones cada... no se... 30 segundos por bus. La cosa es que la base de datos crecía 1TB al año (así muy al ojo).

Acabo de hacer una prueba con una tabla de Oracle 11g, que tiene sólo tres campos: un entero, un alfanumérico de sólo 5 campos y uno de tipo fecha. El promedio de tamaño del registro es de 9 bytes.

Al año hay 31.536.000 segundos. Multiplicado por 9 bytes son 283.824.000 bytes. En un año son 270MB. Ahora bien, eso es en una tabla de sólo 3 campos. Si agregas campos el tamaño va subiendo, si hay otras tablas involucradas también.

Zuljin · 9 Mayo 2016

Update:

Si crees que tendrás una tabla muy grande, trata de buscar un software de base de datos que te permita particionar la tabla. ¿Qué cresta significa esto? Que físicamente puedes partir la tabla en varios pedazos, pero desde el punto de vista lógico no se nota. Ejemplo:

Imagínate que tienes una tabla enoooorme, con un campo de tipo fecha. Evalúas entonces "partir" la tabla por año, y creas una partición por cada año. Así, tu tabla estará particionada en el año 2010, 2011, 2012, 2013, 2014, 2015 y 2016 lo que significa que estará partida físicamente. Pero la tabla se llamará igual, desde el punto de vista de tu aplicativo esto es transparente.

¿Quñe ventaja tiene esto? Que si haces una consulta referente a una fecha del añó 2012, internamente no tendrás que revisar TOOOODA la bendita tabla, sino que el motor irá automáticamente a la partición correspondiente al año 2012 con lo que ahorrarás mucho acceso a disco. Créeme, esto mejora mucho el rendimiento, pero MUCHO.

Yo se que Oracle, MySql y Postgresql tienen esa opción. En Oracle y MySql la he probado y es la cumbia. No se en Postgresql, pero el vikingo calvo (alias @unreal4u ) se maneja en Postgres y puede darnos feedback.

Esto es una consideración de diseño. Convérsalo con la gente de tu pega. Lo mejor de todo es que como te decía, esto es transparente para la aplicación.

unreal4u · 9 Mayo 2016

1 entrada por segundo? pfffff eso no es nada

Son apenas 86400 entradas nuevas al día. Para MySQL tendrías datos suficientes para 2 años antes de siquiera tener que entrar a tunear.

Punto aparte: en las pruebas que he hecho yo con particionado no he visto un cambio radical o que me permita decir oh que bkn, pero puede ser tb mi use-case (muchas operaciones sobre todo a la última partición y el resto queda más como historial que apenas se consulta). Creo que en tu caso será más o menos igual por lo que no te servirá yo creo.

Yo te recomendaría algo así como ElasticSearch la verdad, está hecho para datamining de forma heavy pero eso si te aviso que requiere una máquina más menos potente por detrás (pero 1 inserción por segundo no es nada). Nosotros lo queríamos ocupar para analizar logs de todos los servidores en vivo y en directo lo cual produce cerca de 2000 entradas nuevas por minuto (Si es esto lo que necesitas, revisa ELK stack o busca por Kibana solamente que es con lo que tú trabajarías más que con logstash) pero el server no nos dio, claro que era una VM en un host que ya tenía harto que hacer con 1 CPU y 2GiB en RAM. Al final otros proyectos más importantes tuvieron prioridad y ahí quedó en el tintero hasta nuevo aviso.

Lo genial de ElasticSearch es que no necesitas una estructura predefinida: insertas datos como wn y luego simplemente haces consultas basadas en esos datos. Kibana por el otro lado puede ser un culo de configurar pero una vez hecho eso funciona fantástico: no hay satisfacción más grande que ver en el momento gráficos, aciertos y errores aparecer en pantalla, sin que tengas que esperar 5 minutos como con Munin.

Anyway, es lo que yo haría

Saludos.

Gestor de base de datos para muchos datos

Matjazz

asdf

Harima

Pegao al tarro

EITSAEB

Team Peacemaker Hater

K3rnelpanic

non serviam

hashimoto

Gold Member

K3rnelpanic

non serviam

GORDIO

Tatita del Ritmo

alex_xp

Gold Member

Zuljin

Fundador

Zuljin

Fundador

unreal4u

I solve problems.