Una nueva herramienta para el procesado de datos estructurados de archivos PDF ha aparecido en escena, se trata de Textricator. La herramienta es capaz de procesar y escrapear datos de documentos en formato PDF.
A partir de los datos extraídos, se puede generar una estructura de datos en formato JSON o CSV. Esto nos permite manejar con grandes volúmenes de datos, lo cual es una gran ventaja.
¿Cómo funciona Textricator?
La aplicación Textricator está programada en Java y hace uso de librerías externas para procesar los datos de los archivos PDF. Se auxilia en las librerías Apache PDFBox, iText 5 e iText 7.
Es una herramienta multiplataforma, cuyo código está disponible en Github. Además, podemos encontrar los binarios compilados en un repositorio Maven. Basta con seleccionar la versión más reciente y descargar el archivo con extensión .tgz
correspondiente (en el momento de escribir el artículo la versión más reciente es la 9.0.43 y el fichero que hay descargar es textricator-9.0.43-bin.tgz).
Otra ventaja de esta herramienta, es que no necesitamos conocimientos de programación, ya que la aplicación funciona desde la consola o desde una versión web. Personalmente he probado Textricator en Windows y ha dado los resultados esperados.
En Windows basta con ejecutar desde la consola el archivo de procesado por lotes textricator.bat
. Un ejemplo de uso para extraer los datos estructurados de texto sería el comando textricator text --input-format=pdf.pdfbox test.pdf
.