Sugerencias text mining 10k+ archivos word-excel-pdf-ppt

guaripolo

Fanático
Se incorporó
21 Agosto 2006
Mensajes
1.333
Estimados,

Busco sugerencias para proyecto de text mining, tengo mas de 10.0000 archivos entre word, excel, pdf, ppt

Probablemente tiremos esto como tarea para un laboratorio de mineria de datos, pero quería escuchar sus sugerencias.

Me manejo bastante en R, python podría aprender en un par de días (soy hábil programando).

Por ahora estoy googleando que librerias necesito para levantar los archivos (son varios GB) y comenzar a leer los datos, pero me gustaría escuchar sus sugerencias.

en wikipedia mencionan varias alternativas libres. pero queria escuchar su opinion si alguien ha ocupado alguna
 

Mesita

Capo
Se incorporó
3 Mayo 2007
Mensajes
100
Usando python:

word: antiword, python-docx2txt
excel: pandas, xlrd
pdf: pdfminer.six
ppt: python-pptx

Hay una librería que utiliza por debajo casi todas estas "textract". Lo que sí, para csv o excels en general recomiendo pandas.
 
Upvote 0

Solido

Miembro Activo
Se incorporó
4 Enero 2020
Mensajes
16
apoyo al socio de arriba, para los excel con pandas en python sale sabroson y rápido
 
Upvote 0
Subir