WHITEPAPER
Interacción natural por voz
Sistemas de Información Inteligentes
#GrowthMakers
#WHITEPAPERTEKNIKER
Interacción natural por voz
Ventajas de los sistemas conversacionales Los sistemas conversacionales están destinados a convertirse en una de las tecnologías clave que promoverán y optimizarán la colaboración entre personas y máquinas en la fábrica del futuro, conectada y digitalizada. Estos sistemas de diálogo facilitan el trabajo al personal, permiten delegar las acciones más sencillas a los sistemas industriales mientras trabajan en otras más complejas, interactuar con los equipos para acceder a información concreta, lanzar tareas o incluso recibir asistencia en procesos. Dentro de las diversas aplicaciones que ofrecen, los sistemas de diálogo orientados a tareas destacan como una de las opciones más prometedoras en este ámbito.
La era de los interfaces conversacionales Los asistentes conversacionales y sistemas de interacción de voz se han convertido en herramientas innovadoras para simplificar y mejorar la comunicación entre personas y máquinas. Actualmente, más de la mitad de los usuarios de dispositivos móviles utilizan asistentes de voz (1). Las perspectivas de crecimiento del uso del lenguaje natural indican que nos encontramos en la “era de los interfaces conversacionales”. El mercado mundial de la voz, conversación y tecnologías asociadas alcanzará los 6.770 millones de dólares en 2025, con un crecimiento anual del 25,7%, según las previsiones (2). En la industria, a pesar de su progresiva digitalización y cada vez mayor adopción de sistemas inteligentes, el uso de asistentes conversacionales es aún limitado debido a los desafíos que plantea este entorno. Este documento comparte el conocimiento que Tekniker ha adquirido a través de la investigación e implementación de sistemas de interacción en la industria y presenta una solución de fácil adaptación a este sector. (1) Fuente: Capgemini (2) Fuente: Data Bridge Market Research
Sin embargo, hoy en día, la mayoría de las soluciones y aproximaciones desarrolladas en el ámbito industrial no están diseñadas para permitir la comunicación natural entre personas y máquinas. A este desafío se suma el hecho de que las técnicas más avanzadas en el campo de los asistentes conversacionales se basan en inteligencia artificial y, más concretamente, en redes neuronales. Hasta ahora estas redes requerían grandes cantidades de datos para su entrenamiento y, en entornos industriales, los datos son un recurso escaso debido a la especificidad y complejidad del dominio, en contraste con áreas como la reserva de billetes de transporte, restaurante u hoteles. A pesar de que existe una gran cantidad de información en documentos de naturaleza técnica, todavía resulta muy costoso proporcionar a estos sistemas de diálogo el conocimiento necesario para implementar casos de uso y tareas de fabricación y mantenimiento activo que tengan un significado y contexto adecuados. En consecuencia, los sistemas de conversación diseñados para aplicaciones industriales tienden a ser altamente especializados, lo que dificulta su adaptación o reutilización en diferentes contextos y conlleva un aumento sustancial en términos de tiempo y recursos económicos.
#WHITEPAPERTEKNIKER
Interacción natural por voz
Soluciones actuales En el mercado actual se pueden encontrar diferentes tipos de soluciones que utilizan la voz como canal de comunicación para facilitar las tareas, mejorar la eficiencia, la seguridad y la productividad en entornos laborales. Estas soluciones, pese a estar orientadas al ámbito laboral, no están diseñadas para integrarse con sistemas inteligentes de la industria, como robots o sistemas de gestión empresarial. Por otro lado, existen soluciones con un enforque más industrial, pero se limitan a interacciones de voz comandadas en entornos muy controlados, lo que conlleva una pérdida de naturalidad en la comunicación. Comprender y aceptar las limitaciones de los entornos industriales a la hora de incorporar sistemas conversacionales no debería impedir su adopción, pero sí nos lleva a replantear la mejor manera de implantarlos.
Tekniker ha desarrollado un sistema de diálogo denominado KIDE4I orientado a una comunicación natural entre personas y sistemas industriales que permite adaptar la solución a los diferentes escenarios industriales de manera simple
#WHITEPAPERTEKNIKER
Interacción natural por voz
KIDE4I, una solución versátil Tekniker ha desarrollado el sistema de diálogo KIDE4I en dos versiones, una más completa basada en tecnologías semánticas y otra que se apoya en tecnologías más consolidadas en la industria y las empresas clientes finales. Los componentes principales son los que se muestran en la figura:
API REST / MQTT
API REST
TTS
API REST
STT
NLU
API REST
ARQUITECTURA DE KIDE4I
Información de dominio
Gestor
Sistemas Inteligentes
El uso de las tecnologías semánticas ofrece un gran potencial para el desarrollo de esta solución y su recorrido. Permiten representar el escenario y contexto de aplicación de una manera lógica, lo que hace que sea muy fácil adaptarla a nuevos casos de uso. Sin embargo, es importante destacar que el uso de tecnologías semánticas aún se encuentra en una fase incipiente en la industria. Por esta razón, el centro tecnológico ha desarrollado una segunda solución que sigue la misma aproximación modular de KIDE4I con tecnologías más arraigadas en los entornos industriales, prescindiendo del dialogo y manteniendo la naturalidad en la interacción.
MÓDULOS PRINCIPALES Gestor Es el encargado de orquestar y coordinar la comunicación entre todos los componentes para ofrecer un diálogo/interacción natural. NLU (Natural Language Understanding) Es el componente que se encarga de descomponer e interpretar las interacciones naturales de los usuarios. Información de dominio Es el componente en el que se representa la información relevante del dominio donde el diálogo tiene lugar. HMI (Human-Machine Interface) Es el componente que hace de mediador entre el usuario, el gestor de diálogo y el sistema inteligente.
#WHITEPAPERTEKNIKER
Pasos para su implantación Para definir cuál de las dos soluciones es más adecuada a la necesidad de la empresa cliente y adaptarla es necesario seguir los siguientes pasos.
_01_ Análisis de requisitos El primer paso consiste en analizar: • El sistema sobre el que se quiere habilitar la interacción natural. • Qué tipo de interacciones se quieren resolver. • Los mecanismos de comunicación de los que dispone el sistema. • Las acciones equivalentes y parámetros de entrada de las interacciones que se pretenden abordar.
_02_ Selección de módulos En función de las necesidades identificadas en el primer paso, se establece la mejor combinación e implementación basada en los módulos de KIDE4I para componer la solución de interacción final.
_03_ Adaptación de los módulos Con los requisitos definidos, se adaptan todos los módulos de KIDE4I y se establece la solución en clave de servicios. El único módulo opcional de KIDE4I es el HMI, que, dependiendo del escenario y los elementos existentes en el caso de uso, puede quedar en manos del cliente.
_04_ Integración con el sistema Si el HMI es un componente integrado con el sistema, no será necesario este paso final. Sin embargo, si se ha optado por un elemento externo al sistema (como una app, por ejemplo), éste deberá implementarse.
Interacción natural por voz
#WHITEPAPERTEKNIKER
Interacción natural por voz
CASO DE ESTUDIO 1
Robótica colaborativa Tekniker ha personalizado la versión semántica de KIDE4I para interactuar con un robot de bin-picking, un tipo de robot colaborador diseñado para realizar tareas de selección y recogida de objetos desde contenedores o recipientes en entornos industriales. El centro tecnológico ha desarrollado una app que actúa como interfaz de interacción persona-máquina (HMI) entre la persona usuaria y el robot. Gracias a esta solución, el robot puede recibir órdenes para recoger cartuchos de impresora, identificarlos y clasificarlos según los parámetros especificados por la persona usuaria, a través de interacciones naturales por voz y/o gestos. En este caso, la interacción natural se traduce a acciones concretas que se transmiten al robot colaborativo para que éste las ejecute.
CASO DE ESTUDIO 2
Integración con sistema de gestión empresarial (CRM) La aplicación móvil OnyxComercial, creada por ANER Sistemas Informáticos, permite gestionar tareas comerciales y de ventas directamente desde dispositivos móviles. Tekniker ha colaborado con ANER en la mejora de esta app mediante una solución basada en interacción natural que parte de la versión simplificada de KIDE4I. La solución permite a las personas usuarias interactuar de manera natural por voz con OnyxComercial para realizar gestiones como dar de alta clientes, programación de visitas, generación de pedidos, lanzar búsquedas sobre información existente e incluso navegar por la propia aplicación.
La inclusión de voz como canal de comunicación ha mejorado la experiencia de usuario y ha agilizado las búsquedas y la introducción de información en los formularios. Para llevar a cabo esta integración, se ha utilizado la app OnyxComercial como HMI. La gestión de voz y la comunicación con el gestor de interacción de KIDE4I se han añadido directamente a la propia app. El gestor es el encargado de orquestar el resto de los módulos para lograr interpretar la interacción natural y convertirla en una acción comprensible para OnyxComercial. Este enfoque ha permitido mejorar la usabilidad de la aplicación y brindar a los usuarios una experiencia más intuitiva y eficiente.
#WHITEPAPERTEKNIKER
Interacción natural por voz
CONCLUSIONES Los asistentes conversacionales en entornos industriales ofrecen ventajas significativas, pero es esencial comprender sus limitaciones y adaptar soluciones a las necesidades específicas. Tekniker ofrece una solución de diálogo versátil, KIDE4I, que puede adaptarse a diversos escenarios industriales para una comunicación más natural entre personas y sistemas.
Tekniker es un centro tecnológico especializado en Fabricación Avanzada, Ingeniería de Superficies y Materiales y TIC para producción. Su misión es aportar crecimiento y bienestar a través de la I+D+i al conjunto de la sociedad, contribuyendo de manera sostenible a la competitividad del conjunto del tejido empresarial. Tekniker es miembro de Basque Research and Technology Alliance (BRTA).
Contacto Izaskun Fernández Sistemas de Información Inteligentes izaskun.fernandez@tekniker.es www.tekniker.es
#GrowthMakers