3 minute read
de texto completo
así la producción de documentos en forma digital nativa, es decir, documentos digitales desde su origen, y que desde ahí pueden ser interpretados por el público en general. Minutas y actas de reuniones, informes, solicitudes de adquisiciones, contabilidad, planos de obras públicas, directorios y registros, todo tipo de documentos están ahora en un formato digital que puede ser copiado con fidelidad absoluta a un costo marginal prácticamente nulo. Naturalmente la demanda de la ciudadanía, los especialistas y las empresas se transforma: ahora se espera que los gobiernos entreguen estos documentos tal como se producen, en soportes que inicialmente serían discos o cintas magnéticos y posteriormente discos ópticos (CDs y similares). La llegada de Internet daría paso a la solicitud de transferencia electrónica a través de redes y a la publicación electrónica, así como a mecanismos por Internet (primero correo electrónico y después la WWW, pasando por tecnologías hoy no utilizadas como Gopher) para hacer las solicitudes y en algunos casos explorar directamente los archivos.
6.5. OCR, escaneos, extracción de información de texto completo
Advertisement
Muchos documentos llegan al público en forma de texto sin que se tenga acceso a su origen digital, es decir, no tenemos acceso al archivo original en procesador de texto o formatos para impresión, pero sí a impresos o incluso texto manuscrito. Una tecnología fundamental para explotar estos documentos es la combinación de “escaneo” (captura de imágenes de los documentos en forma digital, como una sucesión de bits que representan colores o blancos y negros de la superficie del documento como imagen), y otra, complementaria, más sofisticada y exigente en software, OCR (optical character recognition o reconocimiento óptico de caracteres). En un escaneo obtenemos una reproducción digital de la imagen del documento, pero para la computadora esto sólo es una colec111 Ición de bits que representan visualmente al original. La colección de signos que cubre la superficie del documento podría igualmente
ser una pintura o un plano. El OCR utiliza métodos computacionales para interpretar estas sucesiones de signos como letras y números, siempre en una representación digital, que ahora puede ser alimentada a software de procesamiento de texto, hojas de cálculo, o bases de datos. El documento ahora puede cumplir las mismas funciones que un texto nativo digital, salvo quizás por algunos errores en la captura y reconocimiento. Puede dar lugar a reproducción, publicación, formateos para la impresión, y diversos tipos de análisis y búsquedas. Si el documento original era una tabla de números, una hoja de contabilidad, o un directorio, podemos procesarlo en una hoja de cálculo o en un manejador de bases de datos. La tecnología de OCR avanza constantemente. En sus orígenes solamente funcionaba bien para texto impreso con tipografías muy bien delineadas y documentos con líneas perfectamente rectas; de lo contrario, era más económico producir el texto digital a partir de capturistas que leen el texto y lo mecanografían en una computadora. La tecnología OCR está siendo aumentada con técnicas de Inteligencia Artificial, especialmente las de “visión computacional” que son capaces de producir un texto digital a partir de textos impresos o manuscritos de bajo contraste, alta distorsión, con superposiciones, y otras condiciones adversas. Además, una vez producido el texto por OCR, la Inteligencia Artificial provee actualmente procesamiento de lenguaje natural (o NLP, por sus siglas en inglés; no confundir con la pseudociencia conocida como “programación neurolingüística”). El NLP permite a las computadoras extraer contenido y dar significado a lo escrito con resultados parecidos a los de un analista humano, sin pasar por un laborioso proceso de etiquetado de texto para convertirlo en una base de datos que sólo entonces permite algunas búsquedas. En conjunto estas distintas etapas del análisis automatizado o semiautomatizado de grandes volúmenes de texto es un auxiliar 112Tinvaluable de la transparencia y el derecho a saber, sobre todo del