13 minute read
Inteligencia Artificial en RTVE
by Daro
Herramientas que cambiarán el modo en el que trabajamos
RTVE, representada por Pere Vila, director de Estrategia Tecnológica e Innovación Digital, y Carmen Pérez Cernuda, subdirectora de Innovación y Estrategia Tecnológica de RTVE, y TM Broadcast os ofrecemos un estudio pormenorizado sobre el presente y el futuro de la inteligencia artificial aplicada a todos los procesos de producción asociados al broadcast. Todos los procesos tratados a continuación son los proyectos de innovación que la televisión pública española tiene sobre la mesa en la actualidad. El departamento de innovación de RTVE ha estado trabajando sobre tres aspectos empujados por la tecnología: la UHD, el 5G y la IA. Pere Vila argumentó que los dos primeros procesos tienen una característica evolutiva. Es decir, que con estas soluciones mejoran las calidades, mejoran las prestaciones, pero no cambia la manera de trabajar. No obstante, el campo de la inteligencia artificial es realmente rupturista. Es una tecnología que modifica cómo son los procesos, modifica la distribución de recursos, cambia los tiempos de ejecución de proyectos y va a permear en todas las capas de la organización.
A continuación, se ofrecen todas las líneas de acción en las que está trabajando RTVE al respecto de la integración de herramientas de inteligencia artificial en su estructura
Por Javier Tena
Primer proceso. Archivo y fondos documentales.
Pere Vila: RTVE es una empresa que produce cada día centenares de horas. Una parte muy importante de estos contenidos van al archivo. Y claro, es un archivo que tiene millones de ítems. La única manera de que podamos localizar un contenido concreto es que esté perfectamente identificado. Cuando guardas un ítem en el archivo no solo almacenas un archivo, sino que también conservas todo un conjunto de información que permite lanzar tareas de búsqueda dentro del archivo. Lo interesante es metadatar estos assets.
¿Qué significa metadatar? Analizar el audio, pasar de audio a texto, analizar este texto para saber de qué se está hablando, identificar a las personas que están hablando, etc. Y un tanto similar en el vídeo.
RTVE empezó a trabajar en 2017 con una cátedra con la Universidad de Zaragoza. Aparte, hemos lanzado retos a la comunidad de investigadores en lengua española. Como resultado, preparamos un expediente hace ya casi un año y medio para empezar a metadatar de manera automática. Hoy ya está funcionando.
Carmen Pérez: Lo publicamos en abril de 2020. Empezamos el servicio en octubre. Primero estuvimos cuatro meses desarrollando la herramienta para que permitiera la edición del vídeo y valoración de los resultados por parte de nuestros documentalistas. En el proyecto, que fue prorrogado por un año más desde octubre de 2022, se pretende metadatar 11.000 horas de audio, de las cuales hay un 20% en las que también se analiza el vídeo.
Nosotros enviamos un fichero en baja calidad a la empresa adjudicataria con los metadatos inicialmente asociados a ese fichero, que son muy pocos, básicamente el nombre de programa y la fecha en la que se hizo. Esto le permite al documentalista identificar el contenido. Ellos generan todo el metadatado, nos lo devuelven con ello incorporado y, finalmente, se incorpora a nuestro gestor documental.
Pere: Parece muy sencillo, pero hay multitud de contigencias técnicas, culturales, de aprendizaje, etc., que debemos tener en cuenta. Pero lo que es relevante aquí no es que hayamos introducido esta solución, sino la participación de los profesionales del archivo y la adecuación que hemos hecho de la infraestructura del archivo, de cerrada a abierta.
Otros aspectos en los que estamos considerando trabajar son, por ejemplo, la intención de mejorar la calidad de un contenido cuando lo sacas del archivo de manera automática. Esto se ha quedado en suspenso a la espera de obtener recursos para trabajar en ello.
Antes de continuar me gustaría recalcar que la introducción de cada herramienta nueva supone un esfuerzo por parte de la compañía en el sentido de que tiene que tener algún ingeniero que entienda el proceso que vamos a hacer. Hay que hacer todas las pruebas, adaptarlo. Por tanto, hay un proceso de varios meses en el que vas a corrigiendo errores y adaptaciones.
¿Cuál es la empresa que ha sido la adjudicataria?
Carmen: Hay un integrador, que es VSN. Por otro lado, aunque está contemplado en el proyecto que se pueda cambiar de empresa proveedora de los servicios de inteligencia artificial, hemos estado trabajando para audio desde el principio con Etiqmedia. Respecto al vídeo, trabajan con Azure, los servicios de nube de Microsoft. Ellos adaptan los resultados para nosotros y nos los devuelven adaptados a nuestras necesidades.
Pere: Al respecto de las soluciones específicas, esta cuestión tiene un transfondo cultural muy importante y es que no has de casarte absolutamente con nadie. Antes comprabas un hardware con un software asociado al que tenías que hacer sitio en el CPD y, a lo mejor, tardabas un año en introducirlo. Ahora no, cuando hacemos el concurso, adjudicamos el servicio, pero nos da lo mismo la herramienta en sí, ya que a los seis meses seguramente sea sustituida.
Carmen: Los que desarrollamos el expediente lo diseñamos teniendo en cuenta herramientas que proporcionasen control, accesibilidad y flexibilidad a los documentalistas. Al principio había mucha desconfianza y ahora prácticamente todo se ha automatizado.
¿Incluso el monitorado posterior?
Pere: Sí.
Carmen: la solución que introdujo VSN era una herramienta de edición que proporcionaba al documentalista la opción de revisar e, incluso, de corregir. La idea era que cuando se produjera una revisión de una parte pequeña de esos datos y se diera por validado un número determinado de ficheros, ya todos los demás automáticamente entrarían al archivo. Inicialmente, los documentalistas no se sentían cómodos con el proceso, pero a medida que se ha ido adquiriendo confianza, se han ido automatizando todos los procesos.
Trabajar con una empresa española, nos ha permitido comunicar nuestras necesidades y obtener la ventaja de modificar las soluciones. También constatamos en qué contenidos funcionaba mejor la solución de metadatado automático, porque no es lo mismo hacerlo para un informativo o un programa de entretenimiento.
¿Cuál es el siguiente paso? ¿Dónde está el reto ahora en la herramienta de metadatado?
Carmen : Que la tecnología no solamente identifique a una silla como una silla, sino que interprete que esa silla está en una oficina. Eso se puede obtener a través de un análisis más profundo del vídeo.
Pere : Es una herramienta que sigue evolucionando. Yo creo que dentro de cinco años habrá evolucionado de forma natural y permitirá hacer muchas más cosas de las que ahora hacemos.
Segundo proceso. Subtitulado automático.
Pere: Quisimos subtitular los informativos territoriales que hace Televisión Española cada día. Se emiten cada jornada 17 informativos en televisión de ámbito territorial. que se emitían sin subtítulos.
Carmen: Todos son a la misma hora y uno en cada comunidad.
Pere: Efectivamente. Todos se emitían sin subtítulos.
El objetivo que planteamos en el expediente, no sé hasta qué punto lo conseguimos, era hacer capaz de diferenciar usos de habla regionales dentro de la pluralidad que hay en España. Es decir, adaptar la herramienta a las particularidades comunicativas de cada región.
Inicialmente lo lanzamos en español y observamos que los resultados eran muy buenos. De hecho, ya se han integrado en los recursos de producción. Los retardos que estamos manejando oscilan alrededor de los cuatro segundos. Se transcriben casi el 100% de las palabras. La tasa de acierto está en el 95%.
Hemos desarrollado dos pliegos en este caso. La empresa que proporcione el servicio en uno y otra empresa que emprenda la monitorización en otro.
Ahora continuamos trabajando para intentar mejorar el subtitulado bilingüe. Los informativos gallegos, por ejemplo, están a tramos en gallego y en español, y lo mismo ocurre con otras lenguas. Estamos tramitando expedientes, pero la tasa de fallo todavía es alta como para darlo por bueno. Por ello lo continuamos monitorizando desde Innovación.
Carmen : Además de la buena interpretación del bilingüismo por parte de la herramienta, otra de los desafíos importantes es que la solución sea capaz de identificar correctamente el idioma que está analizando. Como decía Pere, el uso del idioma en los informativos territoriales es dinámico. Cada comunidad representa una casuística distinta. Además, los corpus de las distintas lenguas no están igualados en su profundidad, por lo tanto, no es siempre fácil entrenar a la herramienta.
¿Cómo prevéis que debe evolucionar y qué esfuerzo técnico se debe hacer para que crezcan las prestaciones de esta herramienta?
Carmen: Estamos en el límite de la tecnología. Pero creemos que irán apareciendo nuevas soluciones que sean capaces de reconocer idiomas de forma más eficaz.
Pere: Aparte, las Comunidades con lenguas propias también están haciendo esfuerzos para aumentar el corpus de material para entrenar las herramientas.
¿Con qué empresas estáis trabajando?
Carmen: En el subtitulado bilingüe trabajamos con el integrador Aicox y Etiqmedia se encarga de la creación de la herramienta. En la parte de español y catalán está desarrollando la solución la Universidad Carlos III. Ángel García Crespo es el responsable de este caso de uso con la Universidad.
Tercer proceso. Análisis de contenidos.
Pere: Este desarrollo ha sido abordado desde dos perspectivas. En la primera, desde RTVE, se nos pidió que comprobáramos cuántos minutos se dedicaban en la casa al tratamiento de contenido relacionado con los Objetivos de Desarrollo Sostenible. Lo que hicimos fue coger estos contenidos de texto generados con el subtitulado de piezas audiovisuales y empezar a crear una ontolo- gía y herramientas que fueran leyendo todos los archivos y extrayendo las temáticas tratadas relacionadas con cada uno de los ODS.
Este primer caso fue lanzado hace dos años. Hicimos una primera prueba que ganó otro departamento de la Universidad Carlos III. Hicimos pruebas sobre dos ODS y los resultados fueron muy buenos. La casa se animó y nos pidió que tratáramos este tema para todos los Objetivos. Sacamos un nuevo pliego que lo ganó Political Watch.
Carmen: Incorporamos dos ODS cada mes. El ratio de éxito del análisis está en un 90% de éxito.
Pere: Pero es que además sucede algo que es curioso. Porque hay algunos ODS de los que se habla relativamente poco, por lo tanto hay poco material para enseñar a la solución.
Carmen: Nosotros, para suplir esta carencia, desarrollamos un corpus interno en el que se testea cada vez que se incorpora un ODS.
Nuestro propio entendimiento humano muchas veces no nos permite comprender exactamente de qué se está hablando, aún más cuando se trata de encuadrar una temática dentro de una categorización tan concreta. Es difícil ser objetivo muchas veces. ¿Cómo actúa la IA en esos casos?
Carmen : La interpretación que hace la herramienta queda en función de lo que nosotros le hayamos incorporado como ontología. Cada vez que aparece la palabra mujer en un texto no significa que haya una desigualdad de género detrás. Entonces la IA lo que hace es comprobar que se den una serie de reglas concretas entre las palabras. Pero claro, tenemos que tener en cuenta que si haces demasiado precisa esta regla, te vas a dejar fuera temáticas que sean importantes para el conteo. Por ello tenemos que estar siempre controlando que los parámetros de interpretación de la herramienta sean lo equidistantes entre flexibilidad y solidez. Esta es una labor que compartimos con el departamento de Responsabilidad Social para elaborar un criterio común.
Y limitar el discurso periodístico para facilitar la labor a estas herramientas. ¿Se contempla?
Pere: Yo no entraría en este jardín.
Carmen: Bueno, es que nosotros no podemos hacer eso. Nos han dicho muchas veces, por ejemplo, con el tema del subtitulado, ¿por qué no retrasáis la emisión unos segundos? De esa manera el subtitulado ya no iría retrasado. Pero es que nosotros esas cosas no podemos hacerlas. Se trata de que la solución se adapte a lo que hay, no de que se adapte el contexto a la solución.
Pere: El segundo proceso que nos propusieron fue la averiguación de cuántas horas de lenguaje de signos ofrecíamos en el canal 24 Horas. Sacamos un pliego y entrenamos una máquina que, a día de hoy, mira un frame cada cierto tiempo y comprueba si hay o no un signante. Cada mes te da un reporte del número de horas. Esta herramienta lleva implementada tres años y hoy la precisión está en un 95%, pero al principio no funcionaba tan bien.
Carmen: Yendo más allá, estamos empezando a desarrollar el servicio de algo parecido a lo de los ODS y el desarrollo de reportes en base al contenido, pero para radio.
Lo primero que hay que hacer es transcribir el audio y la interpretación que hace la IA está orientada a lo que necesiten los compañeros. La idea es dejar a la máquina cumplimentar formularios de reporte pertinentes. Por ejemplo, el tiempo de pantalla que se ha dedicado a cada partido político en tiempo de elecciones. Por supuesto, todo ello queremos que sea supervisado, no pretendemos que todo el proceso sea automatizado. Pero aun así, esta solución adelantará mucho sus tareas. Estamos analizando unas 140 horas a la semana entre Radio 1 y Radio 5. En ambos casos, se hace sobre la desconexión de informativos de Madrid.
Cuarto proceso. Redacción automática de noticias.
Pere: Se ha fomentado sobre contenidos que nosotros no podríamos cubrir por la gran cantidad de textos que se podrían generar. Empezamos a hacer pruebas con equipos de fútbol de segunda regional ya que los partidos de fútbol ofrecen datos estructurados y porque no llegábamos a cubrir esta categoría. Fue un proyecto que nació con mala suerte porque llegó la pandemia y quedó paralizado.
No obstante, hemos avanzado con otro proyecto que mantiene caracte- rísticas similares. Se trata de una prueba de concepto para redactar contenidos de manera automática la noche electoral en las próximas elecciones municipales. Solo se haría sobre los municipios de menos de 1000 habitantes. Una vez más, información a la que no llegamos a cubrir. Estamos hablando de crear la noticia de 4600 poblaciones en menos de un cuarto de hora. Nos hemos unido a la Universidad de Castilla-La Mancha. Sobre unas 700 además tenemos imágenes. Se trata de crear un asset completo: fotografía de la población, un titular, una o dos entradillas, comparaciones, gráficos, un pactómetro, etc. Además, narración de audio de la crónica con voces masculinas y femeninas y música de fondo.
Llevamos trabajando en este proyecto casi un año y medio. Si todo va bien, lanzaremos los resultados de este proyecto en la noche del día de las elecciones de mayo de 2023 tratándolo como una prueba de concepto.
La empresa que ganó la parte tecnológica es Narrativa y trabajamos con la Universidad de Castilla-La
Mancha para los contenidos y, en el momento en el que se realizó esta entrevista, nos encontrábamos en proceso de adjudicación de las voces.
Otra cosa que tenemos que decir es que el tratamiento del lenguaje que estamos dando es el que debería dar una televisión pública. En comparación con el otro caso de uso, el de la redacción de textos sobre partidos de fútbol en el que lo que hicimos fue observar las redes sociales de los clubes, en el proyecto de las elecciones hemos seleccionado la horquilla de palabras que podemos usar para evitar pecar de tendenciosos.
Pere: La parte de redacción automática de noticias se puede hacer sobre contenidos que están estructurados. Por ejemplo en el caso de un partido de fútbol, el contenido se estructura con una serie de datos como la hora de inicio, hora de fin, los goles, etc.
Con esto en mente, quisimos hacerlo a la inversa. Para empezar establecimos un grafo de conocimiento sobre un contenido concreto; por ejemplo, huracanes. Es decir, fijar una estructura nosotros mismos al tema. Con información como el día, la hora, el lugar, la fuerza del viento, la asiduidad de tornados en esa localización, etc., puedes ser capaz de realizar automáticamente un texto informativo.
El proyecto, que está en fase de estudio, consistiría en que cada vez que se produce un tornado, se daría rienda suelta a un proceso en el que la solución de IA, con esta estructura que hemos definido previamente, va a buscar la información para cumplimentar la estructura yendo a fuentes fidedignas. Una vez que la IA rellene los datos, seguiría confeccionando el texto y se complementaría con una imagen, una locución y una música.
Esta herramienta, eso sí, debería convertirse en una ayuda para el periodista. Será, por tanto, una herramienta de soporte al meteorólogo que le facilite el proceso de creación de una noticia y generar un contenido más depurado en menos tiempo.
Sexto proceso. Verificación de noticias.
Pere: En este proyecto hemos conseguido financiación del Ministerio de Ciencia e Innovación con fondos de Next Generation, está dentro IVERES. La idea es poner a disposición de profesionales de RTVE herramientas de verificación. La verificación es un conjunto de tareas diferentes que incluyen monitorear canales, identificar aspectos de viralización que pueden aparecer en diferentes redes sociales, herramientas que te permitan archivar de distintas maneras según qué cosas, etc.
El objetivo es hacer un estudio de los temas que pueden llegar a ser interesantes para el periodista extrayéndolos de las redes sociales y enviarle una alerta para que se entere de lo que está pasando. Por otro lado, la solución también tiene una herramienta de archivo para que cuando algo le interesa al periodista, se lo pueda guardar y compartir con sus compañeros en el mismo momento. Finalmente, esta aplicación incorporaría herramientas a la solución que permitan verificar la autenticidad de las voces, de las personas o de los datos mostrados en la noticia.
Para lograrlo estamos trabajando con otro de los departamentos de la Universidad Carlos III de Madrid para observar redes sociales. También trabajamos con la Universidad Politécnica de Cataluña sobre una herramienta que han creado ellos para verificar la autenticidad de cualquier contenido visual de una manera rápida y sencilla. Igualmente trabajamos con la Universidad de Granada, con una empresa se llama Monoceros, ideando una solución para verificar, una vez más, la autenticidad del contenido.
Otros proyectos (en estudio)
Realización automática de vídeo
Pere: Queríamos probar un sistema el pasado noviembre, no lo pudimos hacer por un problema en el suministro, que desarrollase una realización automática de un acontecimiento deportivo. Desarrollamos esta prueba de concepto en el Campeonato Mundial de Taekwondo que se desarrolló en el Navarra Arena. Participaban Nasertic, la Universidad de Navarra, el propio Navarra Arena, profesionales vinculados a este deporte, una empresa vinculada a la Universidad
Politécnica de Cataluña que hacía la parte de repetición de jugadas de manera autónoma, Overon, del Grup Mediapro, que aportaba el sistema de realización y cámaras especiales; y una empresa de telecomunicaciones que ofrecía la conectividad 5G para hacerlo todo. La idea era simular un edge en el Navarra Arena. En un principio se iba a hacer, pero no se pudo completar el experimento. Lo retomaremos.
Herramientas de producción basadas en Chat GPT y Dall-e
Pere: Mientras tanto, hemos empezado a observar todas las capacidades que aporta el Chat GPT. También han aparecido una serie de software como el Dall-e y una serie de paquetes de software para manejar estas herramientas y hacer labiales.
Basándonos en estas prestaciones, hemos desarrollado un proyecto para Radio 3 por el que crearemos un avatar en formato audiovisual dedicado a sus redes sociales. No se pretende que el avatar sea humano, sino un personaje creado con su propia idiosincrasia y aspecto. Hemos definido ya al personaje y ahora estamos trabajando la voz. Además, la idea es que los guionistas trabajen con Chat GPT.
Como has visto, esto afecta a muchos procesos de la casa. Has de tenerlo en cuenta en procesos de guionización, tienes que considerarlo para la parte creativa, en el archivo, en producción. Por ello es una herramienta totalmente disruptiva que va a cambiar todas las formas de trabajar y de entender el trabajo.