5 minute read
Identificación y extracción del dato
Francisco García
Socio director
Advertisement
PFS TECH
pfstech.es
Reexdoc: un paso más allá de los OCR El uso de la inteligencia artificial o la automatización a través de RPA son pilares fundamentales en la transformación de procesos de las compañías. La identificación y extracción de datos desde todo tipo de documentos, procedentes de diferentes fuentes y con múltiples formatos, no solo aporta mayores niveles de eficiencia y agilidad, sino que también incide en la reducción de errores en el tratamiento de la información y en un aumento evidente de la productividad.
Facturas, hojas de pedido, albaranes, partes médicos, días de vacaciones, horas de trabajo… Datos, datos y más datos. La información que día a día genera la actividad de cualquier empresa no deja de crecer y, con ella, la necesidad de extraerla y gestionarla de forma correcta para generar valor. Concretamente, y según los resultados del tercer estudio Global Data Protection Index que realiza Dell, desde 2016 el volumen de datos que manejan las compañías ha crecido un 569%. Pero el reto va mucho más allá de su almacenamiento. El verdadero desafío está en ser capaces de gestionarlos de forma correcta, con seguridad y sencillez, para poder extraer el valor que se oculta detrás de toda esa información. Un reto en el que, afortunadamente, la inteligencia artificial y la automatización robótica de procesos (RPA) se presentan como los aliados perfectos. De hecho, según las previsiones de IDC, la inversión en automatización de procesos en Europa alcanzará los 1 229 millones de euros en 2022. Concretamente, en España el mercado se doblará en los próximos años, creciendo a tasas del 50,1% hasta 2021. Sin duda, una de sus aplicaciones más interesantes son las relacionadas con la gestión y el análisis de datos. Según IDC, el uso de la RPA en estos ámbitos ofrece una serie de ventajas consistentes, como la eficiencia operativa y la reducción de costes.
MÁS ALLÁ DEL OCR Hasta ahora, una de las tecnologías más extendidas para poder capturar la información procedente de todo tipo de documentos digitalizados es el reconocimiento óptico de caracteres (OCR, por sus siglas en inglés). Esta tecnología permite convertir diferentes tipos de documentos —digitalizados desde papel, archivos PDF o imágenes captadas por una cámara— en datos e información editable, que se puede indexar y en la que se pueden realizar búsquedas… Normalmente, esta tecnología se utiliza para reconocer determinados caracteres o incluso códigos de barras en documentos tales como albaranes, formularios, facturas, etc. Pero ¿qué ocurre cuando la calidad de esos documentos no es la óptima, incluye texto manuscrito o tipografías poco comunes? ¿Cómo extraer información de documentos dispares, con campos que no están claramente estructurados? Para este tipo de casos, la respuesta llega a través del uso conjunto de tecnologías como la inteligencia artificial y la automatización robótica de procesos (RPA). Desde PFS Tech hemos desarrollado una interesante solución al respecto: Reexdoc. Se trata de una herramienta que permite el reconocimiento y la extracción automatizada de datos de documentos semiestructurados utilizando técnicas de inteligencia artificial, lo que mejora en gran medida la fiabilidad que se puede obtener con los OCR avanzados. Datos encasillados letra por letra, firmas sobre el texto, documentos rotados o con cierta inclinación, diferentes tipologías de letra, etc. A diferencia de los motores OCR convencionales, esta tecnología resuelve todos estos casos de forma satisfactoria y permite la extracción de información con una precisión muy elevada para que los datos puedan integrarse en sistemas legacy, ERP o CRM, o, incluso, alimentar un RPA para facilitar la automatización de los procesos de extremo a extremo. Entre sus principales características podemos destacar: » Soporta varios tipos de documentos (facturas, albaranes, partes médicos, etc.) con la posibilidad de extender y ampliar a nuevos tipos de forma sencilla. » Utiliza machine learning para identificar el campo y la extracción de los datos. » Ofrece una fiabilidad aproximada del 90%. » Utiliza modelos entrenados por etiqueta asociados a cada tipo de documento. » Permite la extracción de campos principales, con la posibilidad de incorporar nuevos personalizados. » Es una solución segura (no almacena documentos). » Mejora la precisión al optimizar el documento antes del procesado. » Está construida sobre tecnología open source, lo que reduce el coste del licenciamiento y la implantación. » Cuenta con plugins específicos para cada caso. » Se integra con herramientas de RPA u otras aplicaciones mediante API. » No está basada en plantillas de documentos, lo que aporta gran escalabilidad y flexibilidad.
» Es apta para su despliegue e implementación en modelos cloud y on-premise.
MÁS AGILIDAD, MENOS ERRORES Si llevamos las funcionalidades de Reexdoc al día a día de una empresa, una de sus aplicaciones clave sería la extracción de datos de facturas de proveedores o pedidos de clientes para insertarlos en el sistema ERP de la compañía. Las personas que realizan estos procesos reciben cientos de facturas procedentes de sus proveedores, generalmente por correo electrónico u ordinario, y en todo tipo de formatos distintos. Normalmente, estas personas deben introducir todos estos datos en el sistema ERP, ya sea copiando o pegando la información que necesitan o, en el peor de los escenarios, tecleándolos desde un papel físico. En este escenario, Reexdoc facilita el tratamiento de todos estos documentos, actuando como los ojos de la persona que lee la información, para después extraer los datos necesarios y, tras ello, enviarlos a un robot de RPA, que es quien los introduce en el sistema ERP. Otro ámbito especialmente indicado para la aplicación de Reexdoc es la recepción y gestión de partes médicos de la Seguridad Social (alta/baja de empleado), que deben ser registrados en las aplicaciones de RRHH de cada compañía. En ese proceso, los profesionales al cargo se enfrentan a documentos que tienen diferentes formatos según la comunidad autónoma que los emite. Al igual que en el caso anterior, esta herramienta permite extraer la información importante de forma automática, haciendo después que un robot la introduzca en la aplicación. La aplicación de este tipo de tecnologías ofrece importantes beneficios que van más allá de la transformación eficiente de los procesos, beneficios que llegan, en muchos casos, a eliminar incluso el uso del papel. Hablamos también de mejoras relacionadas con la reducción de errores en los datos introducidos, o de mayores niveles de productividad (la herramienta es más rápida y, además, soporta varios tipos de documentos a la vez), lo que se traduce en un ahorro de costes y en la capacidad para liberar tiempo de los empleados, que pueden así dedicarse a tareas de mayor valor. * Reexdoc permite la extracción automatizada de datos en documentos semiestructurados