CONTENT
CAPTURA MANUAL
VS.
AUTOMATIZADA Mucho se habla del uso de tecnologías para automatizar la captura de índices, pero ¿cuál es realmente el alcance de estas tecnologías? POR Javier Guerrero Veraza (@jguerrerogv)
Uno de los aspectos más delicados dentro de los procesos de digitalización de documentos y gestión documental es la calidad de la captura de datos asociados a las imágenes para su posterior localización; sin amebrago, un mal proceso de captura e indexación puede llevar a serios dolores de cabeza. A lo largo de las últimas decadas, los sistemas de OCR (Optical Character Recognition, por sus siglas en inglés), OMR (Optical Mark Recognition) e ICR (Intelligent Character Recognition) han evolucionado de una forma significativa, pero ¿su confiabilidad lo ha hecho en la misma medida? ¿Ha mejorado sustancialmente su ROI? Hace años, las plataformas comerciales que llevaban a cabo estas funciones, requerían que los usuarios "entrenaran" los motores de reconocimiento, mediante la creación de librerías de caracteres, en las que escaneaban distintos formatos de la misma letra a diferentes resoluciones y formatos, y creaban una librería de imágenes con dicha letra. Hoy en día, esta labor ya no es necesaria, puesto que las plataformas actuales ya cuentan con ese motor configurado. 10
I N F ÓS F ERA
ABR I L / M AYO 20 1 7
CONTENT
WYSIWYG (What You See Is What You Get): la importancia de la imagen Para que un proceso de reconocimiento de caracteres sea eficiente, es importante que la imagen sea clara, aunque uno de los errores más comunes es confundir lo que es claridad para el ojo humano de lo que es para un motor de reconocimiento. Por lo general, se tiende a pensar que una imagen con alta resolución funciona de mejor manera que una imagen blanco y negro. Este error induce a la selección de formatos .jpg, .pdf, .bmp o escala de grises, lo que genera archivos de gran tamaño con lento procesamiento y transmisión. Las mejores prácticas apuntan a que la digitalización de documentos para extracción de caractéres debe ser TIFF IV en blanco y negro a 300 dpi; de esta forma, los motores de reconocimiento identificarán con mayor certeza los contornos de las letras y procederán a su reconocimiento. Otro punto importante es el color de las hojas que se están digitalizando, esto se debe a que el fondo puede crear sombras que dificulten la lectura de los caracteres, por eso es recomendable que en el proceso de digitalización se utilicen equipos con la capacidad de hacer una omisión automática del color del fondo.
¿Plataformas funcionales o no? Dichas tecnologías se desarrollaron con la finalidad de automatizar la captura de grandes volúmenes de formatos estándares, como las declaraciones de impuestos o pólizas de seguros. Uno de los factores más importantes a considerar es el llenado de las formas, ya que si son capturadas a mano es fundamental hacer pruebas de calidad de reconocimiento para saber cuánta información requerirá asegurar su calidad. Existen otros métodos para validar información como máscaras de captura, validación contra una base de datos existente y diseño del formato, que también ayudan a mejorar la calidad de reconocimiento. Por último, se deberá comparar el costo de la implementación de la solución cosiderando los elementos de software (licenciamiento usualmente por volumen) y hardware, además de la cantidad de personal de aseguramiento de la calidad, contra el costo de la implementación de una línea de captura manual con sus controles de calidad. Es fundamental evaluar todos los factores para evitar costos ocultos, que salgan a la luz una vez que se tomó la decisión de iniciar un proceso de este tipo, así como definir expectativas, alcances y presupuestos del proyecto para determinar si el uso de dichas plataformas tendrá un buen retorno de inversión.
Javier Guerrero Veraza Javier es un la gestión de experiencia soluciones en
profesional del campo de contenido con 25 años de en la implementación de el sector públ ico y privado
mx.l inkedin.com/in javier-guerrero-751a154
w w w .i n fos feramaga zi ne.com
I N F ÓSF E R A
11