Una nueva herramienta para el procesado de datos estructurados de archivos PDF ha aparecido en escena, se trata de Textricator. La herramienta es capaz de procesar y escrapear datos de documentos en formato PDF.
A partir de los datos extraídos, se puede generar una estructura de datos en formato JSON o CSV. Esto nos permite manejar con grandes volúmenes de datos, lo cual es una gran ventaja.
¿Cómo funciona Textricator?
La aplicación Textricator está programada en Java y hace uso de librerías externas para procesar los datos de los archivos PDF. Se auxilia en las librerías Apache PDFBox, iText 5 e iText 7.
Es una herramienta multiplataforma, cuyo código está disponible en Github. Además, podemos encontrar los binarios compilados en un repositorio Maven. Basta con seleccionar la versión más reciente y descargar el archivo con extensión .tgz correspondiente (en el momento de escribir el artículo la versión más reciente es la 9.0.43 y el fichero que hay descargar es textricator-9.0.43-bin.tgz).
Otra ventaja de esta herramienta, es que no necesitamos conocimientos de programación, ya que la aplicación funciona desde la consola o desde una versión web. Personalmente he probado Textricator en Windows y ha dado los resultados esperados.
En Windows basta con ejecutar desde la consola el archivo de procesado por lotes textricator.bat. Un ejemplo de uso para extraer los datos estructurados de texto sería el comando textricator text --input-format=pdf.pdfbox test.pdf.