Avances de ingeniería del lenguaje, del conocimiento y la interacción humano máquina (Volumen I)

Page 1

Avances de ingeniería del lenguaje, del conocimiento y la interacción humano máquina Volumen I

Juan Manuel González Calleros Josefina Guerrero García Claudia Zepeda Cortés Darnes Vilariño Ayala (Editores)


Avances de ingeniería del lenguaje, del conocimiento y la interacción humano máquina

Volumen I

Juan Manuel González Calleros Josefina Guerrero García Claudia Zepeda Cortés Darnes Vilariño Ayala Coordinadores

1


2021 United Academic Journals (UA Journals) Coordinadores Juan Manuel González Calleros Josefina Guerrero García Claudia Zepeda Cortés Darnes Vilariño Ayala

Reservados todos los derechos. Ni la totalidad ni parte de este libro puede reproducirse o transmitirse por ningún procedimiento electrónico o mecánico, incluyendo fotocopia, grabación magnética o cualquier almacenamiento de información y sistema de recuperación, sin permiso escrito de los coordinadores, así como de United Academic Journals (UA Journals). Esta obra fue dictaminada por pares académicos externos a la institución de adscripción de los autores

United Academic Journals (UA Journals) ISBN 978-84-949828-9-7 Digital (suministrado electrónicamente) Detalle Formato: PDF Núm. páginas: 103 Español / Castellano 31/07/2021 Huelva España Edición digital con tiraje de un ejemplar

2


Proceso Editorial

El proceso de selección de contribuciones en esta obra pasó por un proceso de revisión doble ciego. Los jueces que fungieron en este proceso están enlistados en la sección de revisores. La tasa de aceptación de trabajos es del 68% con un total de 13 trabajos publicados. Apoyados por la plataforma web easychair el proceso doble ciego. Después del proceso de selección, se evaluaron nuevamente los trabajos para certificar que cumplían con las correcciones derivadas de las observaciones de la primera ronda de evaluaciones. El cuidado editorial de esta obra es responsabilidad de los integrantes del cuerpo académico en sistemas y ambientes educativos: Dr. Juan Manuel González Calleros, Dra. Josefina Guerrero García, la Dra. Claudia Zepeda Cortés y el cuerpo académico de ingeniería del lenguaje y comunicación representado por la Dra. Darnes Vilariño Ayala.

3


Avances de ingeniería del lenguaje, del conocimiento y la interacción humano máquina Volumen I

Revisores

• • • • • • • • • • • • • • • • • • • •

Abraham Sánchez López Georgina Flores Becerra José Andrés Vázquez Flores Carmen Cerón Garnica José de Jesús Lavalle Martínez María Auxilio Medina Nieto Guillermo De Ita Luna Manuel Martín Ortiz Maria Aurora Diozcora Vargas Treviño Sergio Vergara Limón Amparo Dora Palomino Merino José Arturo Olvera López Marciano Vargas Treviño Jesús López Gómez Fermín Martínez Solís Beatriz Beltrán Martínez Darnes Vilariño Ayala Josefina Guerrero García Juan Manuel González Calleros Mireya Tovar Vidal

• • • • • • • • • • • • • • • • • • • •

José Luis Carballido Carranza José Raymundo Marcial Romero Rafael de la Rosa Flores Omar Flores Sánchez Mario Rossainz López Hilda Castillo Zacatelco Claudia Zepeda Cortés Josefa Somodevilla García David Eduardo Pinto Avendaño Iván Olmos Pineda Irene Olaya Ayaquica Martínez Pedro García Juárez Ivo H. Pineda Torres Luis Enrique Colmenares Guillén Guillermina Sánchez Román Etelvina Archundia Sierra Rafael Lemuz López Daniel Valdés Amaro Beatriz Bernabe Loranca Reyna Carolina Medina Ramírez

4


PRÓLOGO El uso y adopción en la vida diaria de la inteligencia artificial (IA) es cada vez mayor. Muchos problemas se están resolviendo apoyados de sistemas inteligentes. No obstante, muchas soluciones sin gran innovación en los algoritmos o técnicas de IA, pero con gran impacto en contextos específicos no siempre son accesibles a comunidades académicas. En este libro precisamente nos ocupamos de atender esta realidad y nos proponemos generar la primera de muchas ediciones de divulgación y acceso universal al conocimiento. En avances de ingeniería del lenguaje, del conocimiento y la interacción humano máquina, presentamos métodos, técnicas, metodologías de aplicación de la IA a problemas en el contexto nacional e internacional. El primer conjunto de trabajos se concentra en la visión por computadora aplicada a la resolución de problemas específicos. En el capítulo 1, se presenta el trabajo de estimación de trayectorias vehiculares por medio de inferencias en redes dinámicas bayesianas aplicado al contexto mexicano, muy similar al de muchos países de américa latina, en el que los obstáculos a los que se enfrenta un auto pueden ser muy variados, desde el carrito de un vendedor de comida, hasta una llanta señalando un bache. En el capítulo 2, se discute la problemática del entrenamiento de SVM para la autenticación de personas. En un contexto un poco atípico que es cuando una cámara está montada en un robot humanoide. Si bien el problema de identificación automática de personas se trabaja desde hace tiempo. En este trabajo se discute de forma didáctica sobre cómo hacerlo e incluso cómo crear una base de datos de imágenes. En el capítulo 3, presenta las técnicas de procesamiento de imágenes aplicadas al área de física de altas energías. Un contexto de aplicación muy particular de la visión por computadora. En este trabajo se muestra la naturaleza del problema y una revisión sistemática de trabajos relacionados de cómo los eventos que resultan de experimentos en el área de física de altas energías pueden ser procesados con técnicas de visión por computadora y aprendizaje automático. Una idea novedosa que sin duda sienta una base importante en este trabajo. En el capítulo 4, se discute la clasificación de imágenes microscópicas de cáncer a través de redes neuronales convolucionales. El uso de este tipo de estrategias es muy amplio hoy en día y aplicado a la identificación de células enfermas se hace muy relevante ya que se aspira a una detección temprana de la enfermedad. Este trabajo es una herramienta para expertos hematólogos de cara a la toma de decisiones respecto a una clasificación de células para diagnosticar la leucemia. Un segundo conjunto de trabajos en este libro aborda el uso de la IA en problemas en el ámbito educativo. La pandemia ha hecho manifiesta la necesidad de integrar herramientas automáticas en proceso educativos como la evaluación o el bienestar de los estudiantes. En el capítulo 5, se presenta una clasificación multi-etiqueta de retroalimentaciones utilizando el algoritmo ML-KNN. Abordando el problema de la retroalimentación en cursos en línea y la calidad de esta, en este trabajo se discute la forma de determinar la calidad de las retroalimentaciones y en consecuencia

1


clasificarlas acorde a un modelo ya prestablecido. Sin duda, muy útil será esta herramienta en procesos de evaluación docente. En el capítulo 6, se discute el reconocimiento automático de emociones centradas en el aprendizaje: una revisión del estado del arte. Dejando evidente que, si bien hay mucho trabajo relacionado al análisis de sentimientos usando IA, aquellas que son relevantes para procesos educativos no son triviales de identificar con técnicas conocidas. Por lo que con este trabajo algunas pistas y direcciones de investigación alrededor de este problema son discutidas. Finalmente, un tercer conjunto de trabajos que incluyen aspectos de interacción humano máquina, con particularidad hacia el uso de robots, el uso de técnicas inteligentes para entender lo que ocurre en el monitoreo de partículas y un trabajo con la problemática del procesamiento del lenguaje natural. En el capítulo 7, se discute la cinemática inversa de un robot de 18 grados de libertad. Uno de los grandes problemas de la robótica tiene que ver con la definición de los modelos de la cinemática del robot. Esto normalmente requiere de un desarrollo matemático. En este trabajo, con simulaciones realizadas en Matlab, mediante un modelo 3D del robot se trata de incorporar algo de IA para encontrar estos modelos o al menos validarlos. El capítulo 8, presenta el diseño de un software para el sistema de monitoreo de corriente autoajustable para un detector GEM. Los picos de voltajes en sistema de experimentación novedosos en contextos como los experimentos asociados al CERN, pues requieren de mecanismos de monitoreo. En este trabajo se presenta una propuesta de simulación y de visualización de la información con los datos crudos y otra mediante el alisado de la información. El capítulo 9, documenta el estado del arte de métodos de descubrimiento de tópicos. Un problema abierto sobre todo cuando se trabaja con textos cortos. En esta revisión no solo podrás descubrir las técnicas que se han usado sino entender qué se requiere para ofrecer soluciones innovadoras. La diversidad de temas de esta obra sin duda ofrecerá al lector disponer de un panorama amplio sobre los uso y aplicaciones de la IA. Además, de sensibilizarlo sobre lo que en contextos como el mexicano es necesario abordar. Esperamos que disfruten de la lectura.

Juan Manuel González Calleros Josefina Guerrero García Claudia Zepeda Cortés Darnes Vilariño Ayala

2


Contenido Sección I. Aplicaciones del uso de Visión por computadora Capítulo 1. Estimación de Trayectorias Vehiculares por Medio de Inferencias en Redes Dinámicas Bayesianas....................................................................................................5 Capítulo 2. Entrenamiento de SVM para la Autenticación de Personas ......................15 Capítulo 3. Técnicas de Procesamiento de Imágenes Aplicadas al Área de Física de Altas Energías ..............................................................................................................23 Capítulo 4. Clasificación de Imágenes Microscópicas de Cáncer a través de Redes Neuronales Convolucionales........................................................................................33 Sección II. Aplicaciones en el Ámbito Educativo Capítulo 5. Clasificación Multi-Etiqueta de Retroalimentaciones Utilizando el Algoritmo ML-KNN ....................................................................................................44 Capítulo 6. Reconocimiento Automático de Emociones Centradas en el Aprendizaje: Una Revisión del Estado del Arte ................................................................................55 Sección III. Temas en General Capítulo 7. Cinemática Inversa de un Robot de 18 Grados de Libertad ......................66 Capítulo 8. Diseño de un Software para el Sistema de Monitoreo de Corriente Autoajustable para un Detector GEM ..........................................................................78 Capítulo 9. Estado del Arte de Métodos de Descubrimiento de Tópicos ....................89

3


Sección I Aplicaciones del uso de Visión por computadora

4


Capítulo 1. Estimación de Trayectorias Vehiculares por Medio de Inferencias en Redes Dinámicas Bayesianas Lauro Reyes-Cocoletzi1, Ivan Olmos-Pineda1, J. Arturo Olvera-López1 1

Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación, Av. San Claudio y 18 Sur, Ciudad Universitaria, Puebla, México 1 lauro.reyesc@alumno.buap.mx, 1{iolmos, aolvera}@cs.buap.mx

Resumen. Uno de los problemas por resolver en el desplazamiento autónomo en ambientes de tráfico es la detección y estimación de movimiento de los obstáculos. La estimación de las trayectorias de obstáculos en ambientes de tránsito es de mayor importancia para garantizar que un vehículo autónomo se desplace sin riesgo de colisión. En este trabajo se usan cámaras de video para la captura de información del entorno y se propone un algoritmo para la estimación de trayectorias de objetos en tránsito vehicular basado en Redes Dinámicas Bayesianas (RDB). La metodología aplicada incluye las relaciones causales de las variables de interés obtenidas del video, así como una propuesta topológica de RDB. Dicha topología establece la dependencia de las variables para la inferencia de la probabilidad de colisión según un número de direcciones determinadas. Los resultados obtenidos permiten realizar una comparación cuantitativa de los trayectos estimados contra el trayecto real observado en video. Palabras Clave: Detección, Estimación de Trayectorias, Redes Dinámicas Bayesianas.

1

Introducción

En el ámbito industrial existen diversos algoritmos y técnicas desarrolladas para la prevención de colisiones mediante detección de obstáculos, sin embargo, no son de acceso público y la información al respecto es nula o limitada; esto debido a los derechos exclusivos y patentes para explotar comercialmente esta tecnología. Adicionalmente a la poca información proporcionada por las armadoras automotrices aún estas no han logrado alcanzar la prevención requerida de colisiones en desplazamientos del vehículo autónomo en ambientes reales. La problemática pendiente por resolver es la implementación de un algoritmo para la detección y estimación de trayectorias de obstáculos a una tasa de detección equiparable a la capacidad que logra tener un conductor humano (Li et al., 2018). La propuesta metodológica que se aborda en este trabajo de investigación corresponde a un modelo de probabilidad para estimar las posibilidades de riesgo de colisión de los objetos detectados en una escena vehicular capturada en video. Por tanto, el algoritmo desarrollado se basa en el modelo de las Redes Dinámicas Bayesianas, esto es debido a que, las RDB pueden modelar los fenómenos de interés a

5


analizar mediante un conjunto concreto de variables y las relaciones de dependencia entre ellas. Las redes bayesianas dinámicas son procesos temporales que ocurren en momentos discretos t > 1, es decir, una extensión de las redes bayesianas estáticas. El trabajo realizado se organiza en las siguientes secciones: la sección 1 corresponde a trabajos relacionados donde se establecen metodologías propuestos para la solución del problema, en la sección 2 denominada propuesta metodología se describe el procedimiento que se realizó para resolver la problemática. En la sección 3 se presentan las relaciones entre las variables de interés y el modelo de probabilidad para realizar las consultas de la inferencia de colisión. En el apartado de experimentos (sección 4) se presentan ejemplos de resultados preliminares obtenidos y finalmente en la sección 5 se mencionan conclusiones parciales del trabajo realizado con base en los datos e información recopilada de las pruebas realizadas.

2

Trabajos relacionados

A continuación, se plantean trabajos relacionados con la metodología de RDB a tener en consideración para realizar la comparativa con el modelo propuesto. El modelo de Estimación de Ruta Interactivo (ERI) implica utilizar las variables Xi, Yi que denotan el estado oculto respectivo y los atributos de observación en la secuencia i del ambiente, los índices i=1,2 denotan dos flujos de observación; Xti, Yti son las variables aleatorias (nodos) para Xi, Yi en el tiempo discreto t(Schulz et al., 2018). Una escena de tráfico consiste en un conjunto de objetos V = {V0, V1,..., Vk}, con K ϵ N0, en un entorno estático (mapa) en tiempo discreto, estado continuo y espacio de acción continua. El mapa consta de una red de carreteras con información topológica, geométrica y de infraestructura (líneas de rendimiento, señales de tráfico, etc.), así como las normas de tráfico vigentes. En el tiempo t, cada uno de los objetos está representado por sus intenciones de ruta rtiy su estado cinemático Cinti=[xti, yti, ψti, vti] que comprende la posición cartesiana (xti, yti), rumbo (ψti) y velocidad absoluta (vti). Las longitudes y anchos de los objetos se consideran dados, pero por razones de brevedad, no están incluidos en Cin it. La intención de la ruta rti define un camino a través de la red de carreteras que el objeto desea seguir. En cada intervalo de tiempo, cada agente ejecuta una acción ati= [ati, δti] que comprende la aceleración longitudinal y el ángulo de dirección. Esta acción depende de la intención de ruta del objeto, el mapa y los estados cinemáticos de todos los elementos, transformando la cinemática del estado actual xit al nuevo estado xit+1. Las mediciones de ruido zit= [zix,t , ziy,t ,ziθ,t, ziv,t] se utilizan para actualizar la creencia del estado del agente. El objetivo del modelo ERI es derivar un método de acción preciso dado por p (ai | i 0 r ,x ,...,xK,mapa) que permita predecir el próximo estado cinemático de un objeto dado su estado cinemático actual y su intención de ruta (Yoon et al., 2015). Este modelo está destinado a integrarse como un modelo de transición probabilístico en algoritmos basados en muestreo, la entrada al modelo es determinista (una muestra de la creencia), mientras que la salida es una distribución de probabilidad sobre las

6


acciones, de la cual se puede extraer muestras nuevamente si se requiere. La acción se modela para distribuir normalmente dada una intención de ruta específica y el contexto de la situación actual de la forma: 𝑝(𝑟 𝑖 , 𝑥 0 , … , 𝑥 𝑘 , 𝑚𝑎𝑝𝑎) = ([𝜇𝑎 𝜇𝛿 ], )[𝜎𝑎2 0 0 𝜎𝑏2 ](1) La predicción interactiva con múltiples participantes del tráfico en escenarios altamente dinámicos es extremadamente difícil para la conducción autónoma, especialmente cuando están involucrados agentes heterogéneos como vehículos y peatones. Los métodos de predicción existentes encuentran problemas de interpretación y generalización para abordar una tarea tan complicada. Para finalizar el análisis de trabajos relacionados se menciona el trabajo de la Red Bayesiana Dinámica Híbrida Multi-agente (RBDHM), la cual propone un método que puede modelar los cambios de estado de múltiples agentes heterogéneos en una variedad de escenarios. Se incorporan conocimientos previos, como la información de mapas y reglas de tráfico en la estructura del gráfico, además de utilizar el filtro de partículas (FP) para rastrear, predecir las intenciones y trayectorias de los agentes. En el paso de tiempo k cada agente i = 0,1,2,...N en interacción tiene un estado continuo Xi(k), un estado latente discreto Zi(k) y acción Ai(k). El estado continuo describe las características de comportamiento, que incluyen estados cinemáticos y muestras, es decir, características observables (Sun et al., 2019).

3

Propuesta metodológica

A continuación, se aborda la propuesta metodológica planteada en este trabajo. Para el caso de estudio de esta investigación, una escena de tránsito consiste en un conjunto de objetos participantes del tráfico en un espacio variante en el tiempo que representan un riesgo de colisión para el auto que captura el video. Los objetos participantes pueden ser automóviles, peatones, ciclistas, animales entre otros. Para especificar la posición de un objeto se define un vector D que parte del centro del cuadro envolvente del obstáculo detectado en escena. El sistema de referencia establece vectores unitarios {xr, yr} que definen el vector de movimiento D del cuadro envolvente para calcular la traslación y rotación con respecto a la referencia global O. La posición de D en el marco de referencia O se especifica mediante las coordenadas necesarias para describir el modelado cinemático. Se debe considerar que la captura del sensor del entorno representa el tiempo en lapsos (Δt), lo que implica que el sistema percibe información del ambiente en tiempo discreto, es decir, depende de la velocidad de captura de la cámara de video. El ambiente dinámico de la escena cambia en el tiempo, por lo que se puede representar los intervalos de cambio como ti = ti-1 +Δt. El cambio temporal corresponde al número de frames consecutivos considerados en el intervalo Δt, por ejemplo, puede corresponder a 30 frames por segundo (fps) o un rango menor. El conjunto S denota de forma global el ambiente, sin embargo, es necesario ser específico en las características de desplazamiento de cada objeto participante de la escena. Se debe dividir la información de la escena mediante el conjunto S delimitado

7


a todos los objetos de interés presentes en la escena de tráfico que representan un riesgo de colisión. Los obstáculos de interés se clasifican de acuerdo a sus características particulares y como se mueven en el entorno (modelo cinemático), por ejemplo, se pueden representar a los vehículos como el subconjunto V={v0,...,vk} con k ϵN, a los peatones como W={w0,...,wk}, a los animales como H={h0,...,hk}y los obstáculos restantes como G={g0,...,gk}. Por lo tanto, la dinámica completa de la escena se describe como: S= [V,W,H,G] con características diferentes en el tiempo. El primer punto a describir de los participantes del tráfico es el estado cinemático en general. El estado cinemático comprende la posición cartesiana (x, y), la orientación (θ) y la velocidad relativa (vel) tomando como sistema de referencia la perspectiva de captura de las cámaras montadas sobre el vehículo. Para señalar a qué frame se está haciendo referencia se denota el número de frame como c = 1,2,...,M donde M es el número total de frames del video. Por ejemplo, se tiene la representación del estado cinemático de los vehículos detectados en un frame específico de la forma Vc ={vc0,..., vck}, para peatones Wc ={wc0,..., wck} y de igual forma para los conjuntos restantes. De forma que el conjunto de objetos de interés presentes en el transcurso del video se puede denotar como Sc = [Vc, Wc, Hc, Gc] y para denotar de forma específica a algún participante del tráfico en un frame dado, por ejemplo, el peatón k-ésimo en el frame c-ésimo, se expresa con la siguiente notación wck. Como se mencionó, el estado cinemático comprende la posición cartesiana, orientación y velocidad lo cual se expresa de manera particular para los vehículos como vck= [xck, yck, θck, velck] y de manera similar para los demás participantes. En un tiempo determinado cada participante del tráfico (Sc) sigue un trayecto descrito en el video que se puede representar como Tr, así se consideran los puntos consecutivos donde se localizó el objeto a través del tiempo, por ejemplo, para señalar los frames de aparición de un vehículo dado se determina como Trvk=(…,vkc-3,vkc-2,vkck 1,v c), de forma similar la inferencia de la probabilidad de colisión se denota como Ci, para simplificar se establece para cadavkc+1 con base en los trayectos posibles obtenidos, donde i va de 1 hasta n predicciones posibles de posición. En la propuesta inicial el vector de estados latentes (globales) para cualquier participante de la escena de tráfico Trvk se define como los posibles cambios de dirección en el desplazamiento, es decir Trvk=[derecha, izquierda, de frente] (en la notación de forma concreta se refiere a un vehículo, pero puede generalizarse para cualquier obstáculo de interés como Tri). 3.1 Estimación de trayectorias La propuesta para modelar los cambios de estado de múltiples participantes del tráfico en una variedad de escenarios se basa en una topología de RDB. La topología RDB planteada incorpora análisis previos de los estados-posición de los objetos para rastrear y estimar las trayectorias de estos en la escena vehicular para evitar colisiones. La formulación general del problema implica definir la escena de tráfico incluyendo a varios tipos de objetos participantes con diferentes características de movilidad. Se definen las variables en el espacio de estado discreto para facilitar el análisis del problema.

8


Existen dos tareas principales en este problema, la primera es calcular y proponer la trayectoria de diferentes objetos, así como justificar si las estimaciones corresponden a lo que se observa en el mundo real, la segunda tarea es ver si el modelo puede predecir la inferencia de movimiento y los cambios de trayectoria (Schulz et al., 2018). En la Figura 1 se muestra la topología de la RBD, así como la interacción en la red con las variables planteadas.

Fig. 1. El modelo de red Bayesiana se desarrolla durante dos segmentos de tiempo (t-1, t) de dependencias condicionales del estado latente. Las líneas continuas y las líneas punteadas son dependencias de observaciones causales y temporales.

La información del ambiente e interacción de los distintos objetos participantes (vehículos, peatones, ciclistas, etc.) se usan para diseñar estados latentes, mientras que las dependencias causales se usan para diseñar dependencias condicionales en el tráfico. Los modelos dinámicos se utilizan para diseñar el espacio de estado de movimiento y las variables de acción-reacción. En la captura de video se considera la existencia de variables discretas latentes Tri diseñadas para incluir las intenciones de cada participante de la escena, es decir lo que antes se le llamaba ruta del k-ésimo vehículo Trvk (u otro obstáculo). La distribución de probabilidad Tri es dependiente de todos los estados observablesTr1,Tr2,…,Trn pero no lo es en los estados latentes de otros participantes de la escena, este diseño evita los componentes acíclicos en la red (Wang et al., 2016). Para cada vehículo u obstáculo k-ésimo, Ci es una distribución discreta condicionada (inferencia dadas las variables espaciales). La probabilidad condicional puede ser escrita como P( Ci | Tri ) cuando Tri puede ser alguna combinación para las variables espaciales latentes resultando en una matriz de varianza. Como se mencionó anteriormente, las variables discretas latentes se definen para ayudar a estimar las intenciones de movimiento, se usan como indicadores para el sistema de dinámica de conmutación y para incorporar conocimiento previo de la interacción del tráfico dentro de la red Bayesiana. La predicción en la RDB significa que el modelo se desarrolla sin observación de todos los estados; el punto crítico es mostrar si el modelo puede capturar la posible interacción entre objetos sin observar la información de un estado en particular.

9


3.2 Modelo de interacción El modelo de interacción propuesto representa el comportamiento de interacción de múltiples participantes en el tráfico con una categoría arbitraria. Entre todos los participantes del tráfico, los peatones y los vehículos son los más comunes. Se debe definir los espacios de estado de un ambiente típico de tránsito, por ejemplo, para el caso de un vehículo vk y de igual forma aplica para cualquier otro participante del tráfico. En el ambiente cinemático se define el vector vkc que representa de forma bidimensional la posición espacial de vehículos, dirección y velocidad, en un frame determinado. La primera inferencia para el desarrollo de la propuesta del algoritmo para la estimación de trayectoria se basa en vectores de estado latente globales; es decir, estados anteriores específicos para peatones, vehículos u otro participante del tráfico. En el algoritmo 1 se proporciona como entrada el estado cinemático actual aplicado a vehículos vk (para resumir el proceso) y el estado de la inferencia de colisión Ei de los vehículos participantes del tráfico del video. La salida esperada es la aproximación del estado latente y el cinemático en un tiempo t+1. Se muestra que ocurre un estado condicional tal que P(Tri|vk); es decir, que las condiciones del camino impliquen que haya un cambio de dirección en los desplazamientos de los participantes (k-participantes), esto se denota en P(Tri-1|v1:kc-1, Ei) a través del transcurso del video (frames anteriores t-1).

Algoritmo 1 Propuesta Modelo Bayesiano Entrada: Trj, E(i) Salida: vkc, Trj+1 1: Actualización y lazo de control 2: for c = 1 to n do 3: for j = 1 to 3 do 4: cálculo de la de probabilidad de los tres posibles movimientos 5: for t = 1 to m do 6: Muestra vk(c),E(j)🡨Trk(j) 7:E(t) 🡨 P(Tri(t+1)|v1:n(c+1),Tr(j)) 8: end for 9: actualizar vk(c+1) de Ek(j+1) 10:Tri(d)🡨P(Ei(t)|vk(c)) 11: end for 12: end for 13: devolver vk(c),Tr(j)

4

Estimación e inferencia de parámetros

Una vez determinadas las variables de predicción y la estructura de la red, el siguiente paso es estimar la distribución de probabilidad condicional entre los nodos secundarios y los nodos principales.

10


Dado que todos los parámetros son variables discretas, la distribución de probabilidad condicional se simplifica a una tabla de distribución de probabilidad condicional. El método utilizado para aprender los parámetros es la estimación de máxima verosimilitud. Para una secuencia de frames Fr={ Fr1,Fr2,Fr3,...} que contiene n instancias, el objetivo del método de estimación de máxima verosimilitud es encontrar parámetros denotados como θ que maximicen la función de verosimilitud (ec. 2). 𝐿(𝜃) = ∑𝑛𝑘=1

𝐼𝑛(𝑝(𝐹𝑟𝑘 ))(2)

El algoritmo EM (Expectation-Maximization) (Cappé & Moulines, 2009) se utiliza para encontrar el parámetro óptimo (ec. 3). 𝜃 ∗ = 𝑎𝑟𝑔𝑚𝑎𝑥𝜃 𝐿(𝜃)(3) Según la estructura de la red, se puede obtener la distribución de probabilidad conjunta entre dos intervalos de tiempo como: 𝑃(𝑋𝑡 , 𝑌𝑡 , 𝑍𝑡 , 𝑋𝑡+1 , 𝑌𝑡+1 , 𝑍𝑡+1 ) = 𝑃(𝑋𝑡 )𝑃(𝑋𝑡 )𝑃(𝑌𝑡 ) 𝑃(𝑋𝑡+1 , 𝑃(𝑌𝑡+1 |𝑌𝑡 , 𝑋𝑡+1 , 𝑍𝑡 )𝑃(𝑍𝑡+1 |𝑌𝑡 ))(4) El proceso de inferencia de RBD se refiere al cálculo de probabilidad de cierta intención de maniobra. Sobre la base de la red establecida y los parámetros aprendidos previamente, utiliza todos los estados observables en dos porciones de tiempo continuas como evidencia para la inferencia. El resultado de la inferencia es la probabilidad de intención en el tiempo t+1. La intención que tiene la máxima probabilidad a posteriori se elige como resultado de la predicción, el proceso de cálculo específico como se muestra a continuación. 𝑃(𝑌𝑡+1 | 𝑋𝑡 , 𝑌𝑡 , 𝑍𝑡 , 𝑋𝑡+1 , 𝑍𝑡+1 ) ∝ ∑𝑌𝑡

𝑃(𝑋𝑡 , 𝑌𝑡 , 𝑍𝑡 , 𝑋𝑡+1 , 𝑌𝑡+1 , 𝑍𝑡+1 , )(5)

4.1 Inferencia en el modelo propuesto Para realizar inferencia en la red es necesario determinar cómo se relaciona el conocimiento que almacena. Esto es, dadas las observaciones de las variables de interés la dependencia causal es necesaria para calcular la probabilidad de colisión con base en cada estado de un nodo en la red cuando se conocen los valores que toman las variables de interés. Dado un subconjunto arbitrario Sc objetos en escena (conocimiento base), el objetivo es encontrar la distribución de probabilidad condicional del trayecto dadas las variables observadas datos(k) = [(x,y),θ,vel,prof]. Esto se puede escribir como Ptrayecto(Sc|datos(k)).

11


5

Experimentos

El trayecto probable es determinante para definir si existe riesgo observable en el nodo de colisión en instantes consecutivos y la probabilidad asociada. La implementación de la RDB implica determinar las relaciones de las variables por medio de las tablas de probabilidad conjunta (en las tablas siguientes se presenta información pertinente de casos determinados). Las relaciones de las variables y las distribuciones de probabilidad conjunta (DPC) son necesarias para procesar las consultas en la topología de la red bayesiana y esta pueda obtener el conjunto de inferencias probables respecto a la probabilidad de colisión normalizada. Respecto a la topología descrita anteriormente se realizan experimentos para determinar resultados preliminares. Dado las condiciones de las variables de interés se puede hacer la consulta e inferir la probabilidad de colisión. A continuación, se mencionan algunos de los resultados obtenidos. En el experimento, desarrollado a continuación, se detecta un vehículo con la información y las condiciones de las variables de interés. Los parámetros discretos a ingresar en la topología de la RDB son los siguientes: ● ● ●

Velocidad aproximada de 40 km/hr (velocidad media) Distancia de 10 m (objeto cercano) Posición espacial en el centro del frame (acercamiento frontal)

La inferencia del trayecto estimado y la probabilidad de colisión a través del algoritmo de estimación de trayectos se muestran la Tabla 1. Tabla 1. Resultados del experimento mediante la inferencia de colisión para cada dirección de trayecto discretizado. Trayecto Colisión (no) Colisión (no) Colisión (no) Colisión (si) Colisión (si) Colisión (si)

Izquierda Derecha Frente Izquierda Derecha Frente

Probabilidad (normalizada) 0.07 0.07 0.12 0.07 0.11 0.56

Cabe mencionar que la Tabla 1muestra los resultados normalizados del procesamiento realizado en la red bayesiana, por lo que aquel evento que tiene mayor probabilidad de ocurrir es: colisionar si se mantiene el rumbo frontal dado que tiene el valor mayor (0.56). La información y el resultado obtenido en escena se puede observar en la Figura 2 donde se muestra el desplazamiento realizado. A partir de esta información se pueden realizar experimentos adicionales tomando en consideración estados anteriores de las variables, es decir, se toma en consideración la relación entre la variable cambio de velocidad con respecto a la inferencia del cambio

12


de trayecto. Por ejemplo, dada la velocidad en un tiempo determinado (t-1) la probabilidad de cambio de trayecto calculada es del 35 % y para el tiempo consecutivo (t) se presenta un cambio en el trayecto con probabilidad del 60 % dado la velocidad alcanzada en t. El resultado implica que con las condiciones de velocidad del experimento hay una probabilidad cambio en el trayecto.

Fig.2. Escena descrita en el experimento realizado.

El modelo propuesto es comparado con el modelo RBDHM y con el modelo ERI, dicha comparación incluye datos de las variables de interés, presentes en los tres algoritmos (velocidad, posición, orientación y distancia de separación de los objetos). La topología planteada en este trabajo se evalúa al cuantificar el vector de dirección del movimiento estimado; el resultado a evaluar es el error (normalizado) obtenido de la diferencia entre la estimación de movimiento y el trayecto real (ground truth). Cuantitativamente se puede llevar a cabo una comparativa de la estimación de la trayectoria, a través del tiempo, dados los vectores de dirección (frente, derecha, izquierda). La Figura 3 muestra la comparación de la estimación de probabilidad del vector de dirección izquierda obtenida por cada método con los datos de interés de un objeto detectado en una escena vehicularen un tiempo determinado.

Fig.3. Estimación de probabilidad con respecto al vector de dirección de un objeto.

13


La estimación del error para la inferencia del trayecto del vector de dirección izquierda vs el ground truth en el intervalo de interés t= [80,120] corresponde a RBDHM de 0.24, a ERI de 0.39 y a la propuesta de este trabajo obtiene 0.4 de error. RBDHM tiene el mejor desempeño dado los resultados obtenidos, la propuesta y el método ERI tienen resultados similares, sin embargo, cabe hacer mención que la propuesta en este trabajo divide las relaciones causales de la inferencia del trayecto no sólo en los vectores de dirección, sino que también toma en consideración el riesgo de colisión asociado a cada cambio de dirección.

6

Conclusiones

En este trabajo se presenta una topología de RDB para inferir las probabilidades de cambio de ruta con respecto a la información obtenida en video al modelar las características espacio-temporales del movimiento de los objetos detectados. Los experimentos realizados hasta el momento proporcionan datos preliminares del funcionamiento del algoritmo, así como características iniciales de la implementación de la topología de la RDB. En específico, se puede mencionar que la RDB cualitativamente es capaz de determinar cambios de rutas básicos, cuantitativamente puede obtener parámetros de probabilidad de colisión normalizada que diferencian objetos con riesgo de colisión. Como trabajo futuro, se contempla analizar y complementar el enfoque presentado respecto la inferencia de trayectorias en ambiente vehiculares con múltiples objetos en escena y mejorar los resultados comparativos. Agradecimientos. Este trabajo fue realizado bajo apoyo por beca CONACYT 708553.

Referencias 1. Cappé, O., & Moulines, E. (2009). Online EM Algorithm for Latent Data Models. Journal of the Royal Statistical Society: Series B, Royal Statistical Society, 71(3), 593–613. 2. Li, P., Mi, Y., He, C., & Li, Y. (2018). Detection and discrimination of obstacles to vehicle environment under convolutional neural networks. Proceedings of the 30th Chinese Control and Decision Conference, CCDC 2018, 337–341. https://doi.org/10.1109/CCDC.2018.8407155 3. Schulz, J., Hubmann, C., Lochner, J., & Burschka, D. (2018). Multiple Model Unscented Kalman Filtering in Dynamic Bayesian Networks for Intention Estimation and Trajectory Prediction. IEEE Conference on Intelligent Transportation Systems, Proceedings, ITSC, 2018-Nov. 1467–1474. https://doi.org/10.1109/ITSC.2018.8569932 4. Sun, L., Zhan, W., Wang, D., & Tomizuka, M. (2019). Interactive Prediction for Multiple, Heterogeneous Traffic Participants with Multi-Agent Hybrid Dynamic Bayesian Network. 2019 IEEE Intelligent Transportation Systems Conference, ITSC 2019, 1025–1031. https://doi.org/10.1109/ITSC.2019.8917031 5. Wang, J., Zhou, L., Pan, Y., Lee, S., Song, Z., Han, B. S., & Saputra, V. B. (2016). Appearance-Based Brake-Lights Recognition Using Deep Learning. 2016 IEEE Intelligent Vehicles Symposium (IV) Gothenburg, Sweden, IV, 19–22. 6. Yoon, J. H., Yang, M. H., Lim, J., & Yoon, K. J. (2015). Bayesian multi-object tracking using motion context from multiple objects. Proceedings - 2015 IEEE Winter Conference on Applications of Computer Vision, WACV 2015, 33–40. https://doi.org/10.1109/WACV.2015.12

14


Capítulo 2. Entrenamiento de SVM para la Autenticación de Personas Aida A. Aparicio-Arroyo, Ivan Olmos-Pineda, J. Arturo Olvera-López Doctorado en Ingeniería del Lenguaje y del Conocimiento, Facultad de Ciencias de la Computación, Benemérita Universidad Autónoma de Puebla, Puebla, México aida.aparicio@alumno.buap.mx, {iolmos, aolvera}@cs.buap.mx

Resumen. En el presente artículo, se realiza una breve revisión de trabajos relacionados con la etapa de entrenamiento de un clasificador para la autenticación de personas. Posteriormente, se presenta un diagrama general del proceso de autenticación de personas, el cual sirvió como base para la realización de diferentes experimentos. De igual forma, se presentan algunos de los resultados obtenidos en la etapa de clasificación utilizando una Máquina de Vectores de Soporte (SVM, por sus silgas en inglés). Y, por último, se hace un análisis de los resultados logrados y del posible trabajo a futuro. Palabras Clave: Extracción de Características, SVM, Autenticación de Personas.

1

Introducción

En la actualidad, el término de autenticación o verificación (palabra coloquialmente utilizada), es común escucharlo en situaciones como: al momento de hacer algún movimiento bancario (aquí se necesita realizar una verificación de los datos del cuentahabiente o necesitan autenticar tu credencial para votar para ver si no es falsa), o al abrir una cuenta en alguna aplicación (es necesario verificar el correo inscrito a dicha aplicación), pero este término no solamente se relaciona con la autenticación a través de la voz, la huella dactilar o dando clic en un enlace, sino que, también se autentica utilizando características faciales. Algunos ejemplos donde emplean la autenticación de personas utilizando las características faciales son: varios dispositivos móviles (celulares), que como parte de su sistema de seguridad cuentan con el reconocimiento facial, otro ejemplo es en la zona de embarque de algunos aeropuertos, donde utilizan cámaras conectadas a algún software que compare la imagen del pasaporte con la persona que está a punto de abordar y, por último, un ejemplo muy claro se puede ver en Facebook, dicha red social sugiere quién puede estar en una foto para ser etiquetado, esta función utiliza un algoritmo de aprendizaje profundo, el cual memoriza las fotos de perfil de los amigos de una persona y hace una relación de la foto con su nombre de usuario. Para autenticar a una persona, el proceso consta de etapas como: detección de rostros, extracción de características, clasificación y, finalmente, la etapa de pruebas

15


para tener como resultado la autenticación. En este trabajo solo se presentarán las dos últimas etapas: clasificación y autenticación.

2

Trabajos relacionados

En el estado del arte, existen diferentes trabajos en relación con la autenticación de personas. Estos implementan diferentes técnicas para la detección de rostros, el preprocesamiento y la extracción de características, con el fin de respaldar el proceso de autenticación. Los clasificadores más utilizados en la literatura son: Máquinas de vectores de soporte (SVM, por sus siglas en inglés), Redes neuronales (NN, por sus siglas en inglés), K-Vecinos más cercanos (K-NN, por sus siglas en inglés) y AdaBoost (Adaptive Boost). Para el reconocimiento facial, SVM es uno de los clasificadores más empleados dentro del estado del arte, algunos trabajos son H. Chen & Haoyu (2019); Dino & Abdulrazzaq (2019); Hu & Cui (2019); Kar et al. (2019) y Shi et al. (2020). Este clasificador encuentra el mejor equilibrio entre la complejidad del modelo y la capacidad de aprendizaje según la información de entrada (Ding et al., 2014). En muchos de estos trabajos relacionados, este clasificador funciona en combinación con una técnica de extracción de rasgos faciales, para dar como resultado el reconocimiento facial o incluso la autenticación de personas. Este algoritmo se puede utilizar para clasificar rostros tanto en imágenes como en video. De igual forma, clasifica videos e incluso puede determinar si un video es verdadero o falso. Otro clasificador que se encuentra en la literatura es AdaBoost, algunos trabajos relacionados son Afifi & Abdelhamed (2019) y (L. Chen et al. (2021). Es un algoritmo que construye un clasificador combinando un conjunto de clasificadores débiles (Favaro & Vedaldi, 2014). El primer trabajo, lo implementa en conjunto con Redes Neuronales Convolucionales para extraer características aisladas del rostro y como resultado, poder determinar el género de la persona. Mientras que el segundo trabajo, proponen una versión de AdaBoost-KNN que extrae características adaptativas para el reconocimiento dinámico de emociones durante la interacción humano-robot. Además de los dos clasificadores mencionados previamente, otro clasificador que es igualmente utilizado dentro del procesamiento digital de imágenes faciales son las NN. Algunos trabajos relacionados son Almabdy & Elrefaei (2019); Khan et al. (2019) y Zangeneh et al. (2020). Estos autores utilizan una NN para la etapa de extracción de características o para la etapa de clasificación. Dentro de los trabajos relacionados más recientes, en su gran mayoría utilizan una Red Neuronal Convolucional (CNN, por sus siglas en inglés). La cual, debido a sus características, brinda grandes resultados en las diferentes etapas en la que es implementada, tanto para la extracción de características como para la etapa de clasificación.

3

Metodología propuesta

Después de haber revisado algunos trabajos relacionados, queda claro que, el proceso de autenticación de personas consta de diferentes etapas. La Figura 1 muestra el

16


diagrama general del proceso de autenticación. Cabe recalcar que, en este trabajo, solo se presentan las dos últimas etapas (clasificación y autenticación), asumiendo que los otros procesos ya se han analizado y realizado previamente.

Fig. 1. Diagrama general del proceso de autenticación de personas.

La primera etapa del proceso es la detección de rostros, aquí se tiene una imagen de entrada en la cual se detectará dónde hay una persona (por ende, un rostro). Una vez que se ha detectado el rostro, es el momento de extraer los rasgos o características faciales. Cabe recalcar que, las partes relevantes de este trabajo están en una etapa previa a la extracción de características y durante la etapa de extracción de características. Una explicación a grandes rasgos de estas partes relevantes es que, en primer lugar, se realiza un preprocesamiento a los rostros previamente detectados (se hace una corrección de rotación y/o traslación al rostro) y ya con los rostros procesados (corregidos), el conjunto de características que se extraerán está considerando los diferentes aspectos de la cara como lo son: el color, la textura y la forma (en la siguiente sección se profundiza sobre estas características). Para obtener estas características, se aplican diferentes técnicas y para así generar un descriptor, que será utilizado para el entrenamiento de un clasificador. Este clasificador nos dará un modelo de entrenamiento, que al final se utilizará para la etapa de autenticación de personas. En la siguiente sección, se presentarán las características extraídas, el clasificador utilizado y los resultados obtenidos:

17


4

Resultados preliminares

Como primer punto, se generó una base de imágenes, está conformada de 10 personas (5 mujeres y 5 hombres). Esta base cuenta con un promedio de 30 imágenes por persona, estas imágenes fueron tomadas en diferentes escenarios y en diferentes circunstancias. En este apartado se presentarán los resultados obtenidos de las últimas dos etapas descritas en la sección de la metodología propuesta. Para recordar, se extraen características basadas en color, basadas en textura y basadas en simetría. Como parte del preprocesamiento para la obtención de los valores característicos, es necesario realizar una corrección de pose y una segmentación del rostro, con el objetivo de tener los rostros en una misma posición y siempre las mismas regiones. El algoritmo de Landmarks se utiliza para la etapa de preprocesamiento. Este algoritmo consiste en utilizar una plantilla que detecta 68 puntos de referencia, estos puntos se distribuyen en diferentes zonas de interés (ROIs) del rostro como son: las cejas, ojos, nariz, boca y mentón. Después de haber localizado estas ROIs, se utiliza una matriz de transformación para poder rotar o trasladar el rostro a una posición deseada y posteriormente, segmentar el rostro. En la Figura 2, se muestran dos columnas, en la del lado izquierdo están las imágenes originales, mientras que en la columna del lado derecho se muestran las imágenes resultantes de la corrección de pose.

Fig. 2. Ejemplos de la corrección de pose y escalamiento. Imagen original (columna izquierda), rostro corregido (columna derecha).

Mientras que en la Figura 3, en la primera columna están las imágenes obtenidas de la corrección de pose y en la otra columna, se observan los resultados de la segmentación del rostro.

18


Fig. 3. Ejemplos de la etapa de segmentación. Rostro corregido (columna izquierda), rostro segmentado (columna derecha).

A cada una de estas áreas segmentadas se le aplica un filtro, con el fin de poder normalizar los valores que se extraen de las características basadas en el color y las características basadas en textura. Para las características basadas en la simetría, solo se miden las diferentes distancias entre las zonas de interés, tales como: la separación de los ojos, el ancho de la boca, el ancho de la nariz, la distancia entre los ojos y la boca, entre otras. Las características extraídas para cada categoría (basadas en color, en textura y basadas en simetría), se enlistan en la Tabla 1. Tabla 1. Características extraídas de cada una de las diferentes categorías (basadas en color, basadas en textura y basadas en simetría). Categoría Características basadas en color Características basadas en textura Características basadas en simetría

Características Desviación estándar (R,G,B), Varianza (R,G,B), Entropía (R,G,B), Desviación estándar (H,S,V), Varianza (H,S,V) y Entropía (H,S,V) Matriz de Coocurrencia, Transformada de Fourier y Filtro de Gabor Ancho del rostro, ancho de los ROIs y distancia entre los ROIs

Para la extracción de las características de cada categoría se aplican diferentes técnicas, por ejemplo, para las características basadas en color se divide la imagen en tres canales (R,G,B), al igual que se hace una conversión de color a (H,S,V). Para cada uno de estos

19


canales, se obtienen diferentes métricas estadísticas como son: desviación estándar, varianza y entropía. En relación con las características basadas en textura, en primer lugar, la imagen en RGB se pasa a escala de grises, a partir de esta imagen, se obtiene la matriz de coocurrencia y sus diferentes propiedades. Para el caso de la Transformada de Fourier, se obtiene la transformada rápida de Fourier, de esta solamente se analiza la magnitud del espectro. Mientras que, para Gabor, se aplica el filtro de Gabor y se obtiene la varianza y la media del resultado obtenido del filtro. Por último, para la parte de las características basadas en simetría, en el proceso de la segmentación, se utiliza la plantilla de los Landmarks, al aplicar esta plantilla se genera un conjunto de coordenadas de las diferentes ROIs. Al obtener estas coordenadas, se miden las diferentes distancias que hay entre ellas, como, por ejemplo: el ancho del rostro, el ancho de la nariz, el ancho de la boca, el ancho de los ojos, la distancia entre la nariz y la boca, la separación entre los ojos, etc. Tomando como base este conjunto de características faciales, se prosigue con la etapa de experimentación. Como se menciona a lo largo de este trabajo, el clasificador que es utilizado es una Máquina de Vector de Soporte (SVM). Estos modelos trabajan a través de kernels, los cuales por ejemplo pueden ser: “rbf”, “linear” (uno de los kernels más utilizados), “poly”, “sigmoid” y “precomputed”. Se hicieron diferentes experimentos con algunos de los kernels, como resultados se obtuvieron los porcentajes de precisión correspondiente a cada una de las personas, de igual manera, se obtuvo la matriz de confusión, además de la precisión global y el tiempo de ejecución. Pero en esta sección, solo se muestran los porcentajes de precisión global y el tiempo de ejecución. Este tiempo de ejecución comprende desde la etapa de extracción de características hasta la etapa de pruebas (la etapa de autenticación), los tiempos mostrados son el tiempo que tarda en realizarse estas etapas en todo el conjunto de imágenes de los diferentes experimentos. En la Tabla 2 se muestran los resultados aplicando el kernel “rbf”. Tabla 2. Resultados de la etapa de clasificación, utilizando una SVM y el kernel rbf. Experimento 2 personas 4 personas 6 personas

Precisión (Global) 80% 63% 31%

Tiempo de ejecución (segundos) 0.19 0.27 0.40

Estos son algunos de los resultados obtenidos para la etapa de clasificación. Se hicieron diferentes experimentos con la misma base de imágenes que se ha generado. Como se menciona al principio de esta sección, cada persona cuenta con un promedio de 30 imágenes. Estas imágenes son de diferentes tamaños, pero para la realización de los experimentos, se redimensionaron las imágenes. Para la etapa de entrenamiento, se utilizó el 75% de las imágenes, mientras que el restante 25% se utilizó para la etapa de pruebas. Como se menciona en párrafos anteriores, hay diferentes kernels para el clasificador SVM, por tal motivo, se elaboraron otros experimentos utilizando el kernel “linear” y en la Tabla 3 se muestran los resultados obtenidos.

20


Tabla 3. Resultados de la etapa de clasificación, utilizando una SVM y el kernel linear. Experimento 2 personas 4 personas 6 personas

5

Precisión (Global) 87% 77% 40%

Tiempo de ejecución (segundos) 0.002 0.42 4.80

Conclusiones y trabajos futuros

Como se puede observar en la sección de resultados preliminares, se hicieron varios experimentos en relación con la etapa de clasificación y autenticación. Se puede notar que, cuando va aumentando el número de personas el porcentaje de precisión global va disminuyendo. Una de las primeras razones a considerar es, por el tipo de kernel que se utiliza en el clasificador o por las características de este. Cabe indicar que, para todos los experimentos realizados se utilizaron las mismas personas, es decir: primer experimento (Anai, Enrique), segundo experimento (Anai, Enrique, Ariana, Erick) y tercer experimento (Anai, Enrique, Ariana, Erick, Norma, Héctor). También se puede observar, que cuando se utilizó otro kernel, los porcentajes de precisión global, al igual que el tiempo de ejecución aumentaron para cada uno de los experimentos. En primera instancia, se puede pensar que el kernel “linear” realice más operaciones o sea más grande a comparación del kernel “rbf” y por esa razón, su tiempo de ejecución sea mayor. Como trabajo a futuro, se seguirán realizando experimentos para ver qué tan eficiente son las características en conjunto con el clasificador. De igual manera, se analizará a profundidad las características y/o propiedades del clasificador, para ver que ajustes se pueden realizar, con el fin de mejorar el porcentaje de precisión, para que, al momento de realizar experimentos con un mayor número de personas, el porcentaje de precisión pueda ser alto, a comparación de los resultados obtenidos y mostrados en este artículo. Agradecimientos. El primer autor, cuyo número de becarios es 331482, agradece al CONACYT (Consejo Nacional de Ciencia y Tecnología) el apoyo brindado durante todo el desarrollo del trabajo.

Referencias 1. Afifi, M., & Abdelhamed, A. (2019). AFIF4: Deep gender classification based on AdaBoostbased fusion of isolated facial features and foggy faces. Journal of Visual Communication and Image Representation, 62, 77–86. https://doi.org/10.1016/j.jvcir.2019.05.001 2. Almabdy, S., & Elrefaei, L. (2019). Deep convolutional neural network-based approaches for face recognition. Applied Sciences (Switzerland), 9(20). https://doi.org/10.3390/app9204397

21


3. Chen, H., & Haoyu, C. (2019). Face Recognition Algorithm Based on VGG Network Model and SVM. Journal of Physics: Conference Series, 1229(1). https://doi.org/10.1088/17426596/1229/1/012015 4. Chen, L., Li, M., Su, W., Wu, M., Hirota, K., & Pedrycz, W. (2021). Adaptive feature selection-based AdaBoost-KNN with direct optimization for dynamic emotion recognition in human-robot interaction. IEEE Transactions on Emerging Topics in Computational Intelligence, 5(2), 205–213. https://doi.org/10.1109/TETCI.2019.2909930 5. Ding, S., Yu, J., Qi, B., & Huang, H. (2014). An overview on twin support vector machines. Artificial Intelligence Review, 42(2), 245–252. https://doi.org/10.1007/s10462-012-9336-0 6. Dino, H. I., & Abdulrazzaq, M. B. (2019). Facial Expression Classification Based on SVM, KNN and MLP Classifiers. 2019 International Conference on Advanced Science and Engineering, ICOASE 2019, 70–75. https://doi.org/10.1109/ICOASE.2019.8723728 7. Favaro, P., & Vedaldi, A. (2014). AdaBoost. In K. Ikeuchi (Ed.), Computer vision 3 A Reference Guide (pp. 16–19). Springer International Publishing. https://doi.org/10.1109/iccp.2016.7737154 8. Hu, L., & Cui, J. (2019). Digital image recognition based on Fractional-order-PCA-SVM coupling algorithm. Measurement: Journal of the International Measurement Confederation, 145, 150–159. https://doi.org/10.1016/j.measurement.2019.02.006 9. Kar, N. B., Babu, K. S., Sangaiah, A. K., & Bakshi, S. (2019). Face expression recognition system based on ripplet transform type II and least square SVM. Multimedia Tools and Applications, 78(4), 4789–4812. https://doi.org/10.1007/s11042-017-5485-0 10.Khan, M. Z., Harous, S., Hassan, S. U., Ghani Khan, M. U., Iqbal, R., & Mumtaz, S. (2019). Deep Unified Model for Face Recognition Based on Convolution Neural Network and Edge Computing. IEEE Access, 7, 72622–72633. https://doi.org/10.1109/ACCESS.2019.2918275 11.Shi, L., Wang, X., & Shen, Y. (2020). Research on 3D face recognition method based on LBP and SVM. Optik, 220, 165157. https://doi.org/10.1016/j.ijleo.2020.165157 12.Zangeneh, E., Rahmati, M., & Mohsenzadeh, Y. (2020). Low resolution face recognition using a two-branch deep convolutional neural network architecture. Expert Systems with Applications, 139, 112854. https://doi.org/10.1016/j.eswa.2019.112854

22


Capítulo 3. Técnicas de Procesamiento de Imágenes Aplicadas al Área de Física de Altas Energías Tonatiuh García Chávez1, Arturo Fernández Téllez2 1, 2

Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación. 1 2 tonaspiuck@gmail.com, afernan@mail.cern.ch

Resumen. Gracias al avance en las técnicas de análisis de la información, el área de aprendizaje automático ha tenido un gran impulso dentro de diferentes campos como lo son: procesamiento de imágenes, visión a computadora, control de robots autónomos, procesamiento del lenguaje natural, por dar algunos ejemplos. En el presente trabajo se hace una revisión de cómo se han utilizado técnicas de aprendizaje automático dentro del área de física de altas energías, donde estos algoritmos han sido tomados como una fuerte alternativa para el análisis de datos provenientes de detectores de radiación. Tales propuestas han estado presentes desde varias décadas, inclusive siendo utilizadas como implementaciones dentro de la puesta en marcha de varios experimentos. Este trabajo expone la evolución de un enfoque específico en el que se transforman los datos de los detectores a una representación gráfica con el fin poder ser manipulados como imágenes y así utilizar técnicas dedicadas a esta área de procesamiento. Palabras Clave: Detectores de Partículas, Procesamiento de Imágenes, IA.

1

Introducción

Los colisionadores de partículas siempre han planteado nuevos desafíos para diferentes áreas científicas y en general para el avance de la tecnología. A pesar de un tremendo progreso en las técnicas de análisis de datos y tratamiento de la información, los experimentos en el área de física de altas energías (HEP) generalmente no pueden hacer frente al gran volumen de datos generado por los detectores en tiempo real, la búsqueda de eventos raros necesita una tasa de interacción tan alta que saturaría fácilmente el poder de procesamiento y las capacidades de almacenamiento de cualquier experimento existente. Lo anteriormente expuesto, aunado al costo y esfuerzo para la puesta en marcha de estos proyectos provoca que cualquier mejora, por mínima que parezca, sea de gran valor como contribución al experimento (P. Baldi et al., 2014). Cada que se realiza una mejora o actualización de los experimentos dentro del LHC (Large Hadron Collider) en el CERN (Centro Europeo para la Investigación Nuclear) no sólo las componentes físicas y electrónicas quedan obsoletas para las nuevas capacidades previstas del experimento, de la misma manera, las técnicas utilizadas para el procesamiento de señales deben ser optimizadas con el fin de asegurar un buen

23


desempeño u optar por nuevas alternativas. Dentro del área de HEP se tienen diferentes problemas donde se proponen algoritmos de aprendizaje automático (ML, Machine Learning) como solución para las principales tareas: traza de partículas (tracking), sistemas de disparo (trigger) y clasificación de eventos (tagging).

2

Preliminares

Este trabajo de revisión se enfoca en una serie de artículos centrados en tareas de clasificación de eventos, dependiendo el artículo puede ser clasificación de una partícula, varias partículas o clasificación de un evento más general. La serie de artículos seleccionados se agruparon debido a que utilizan técnicas inspiradas en el área de procesamiento de imágenes, en específico dentro del ámbito del aprendizaje automático, como herramienta principal para el tratamiento de la información, pero son utilizadas para analizar datos provenientes de detectores de partículas, donde la energía de las partículas depositada en los detectores es convertida a la intensidad del píxel. Se expondrá la idea general de cada artículo, así como detalles particulares de implementación y objetivos, mientras que, en la discusión se tratará la integración de todos los trabajos como un solo aporte. Los datos con los que se trabaja usualmente son generados por medio de simulaciones además que la tarea a realizar no debe de ser ejecutada en tiempo real (offline).

3

Evolución teórica desde su concepción hasta su aplicación

Se toma como el inicio de la conexión entre las áreas de visión a computadora y análisis de datos provenientes de experimentos en el área de HEP con el trabajo de Cogan et al. (2015). Utilizan un preprocesamiento similar a aquel realizado para aplicaciones de reconocimiento facial pero ahora enfocado a la tarea de etiquetar chorros de partículas provocados por las colisiones (jets), dicho preprocesamiento contiene 5 pasos: recortado, localización del punto de interés, alineamiento, ecualización y agrupación. Particularmente utiliza un discriminante de Fisher sobre imágenes de 25x25. Este artículo menciona poco sobre el set de datos utilizado, sin embargo, mantiene una liga al código del proyecto. El trasladar a imágenes los resultados del experimento tiene propiedades útiles para el etiquetado de eventos, por ejemplo, cada imagen tiene la misma dimensionalidad lo que es una propiedad importante para el procesamiento y entrenamiento de algoritmos de clasificación. Con una imagen se captura toda la información disponible para ser utilizada por las siguientes técnicas de discriminación en lugar de comprimir la información en un subconjunto de variables derivadas de cálculos matemáticos. Finalmente, la semejanza entre dos eventos puede ser fácilmente obtenida por operaciones básicas de algebra lineal. Todos los eventos son simulados y no toma en cuenta eventos múltiples (pileup) sin embargo hace una pequeña prueba con este tipo de eventos verificando que el

24


desempeño muestra una degradación poco significativa, enfatizando la necesidad de más estudios sobre el tema. Su algoritmo mejora el desempeño al etiquetar eventos en comparación con otras técnicas que se utilizaban, sin embargo, el principal aporte es una salida a la manera habitual en la que el área de HEP utilizaba algoritmos de aprendizaje automático. Con el mismo enfoque se tiene el trabajo de Almeida et al. (2015), mantiene la idea de que es posible trasladar la energía depositada en cada célula del detector a una representación gráfica y de esta manera el etiquetado de eventos se convierte en un problema de reconocimiento de patrones. Una diferencia con el primer trabajo mencionado se encuentra en el preprocesamiento utilizado, ahora sólo consta básicamente de tres pasos: encontrar el evento, encontrar el eje principal del evento, rotar el sistema para que se vuelva coincidente en todo evento. Este trabajo utiliza una red FFNN (Feed-Forward Neural Network) con arquitectura 900-100-100-1 y un set de 100,000 eventos dividido equitativamente para los dos tipos de jets a etiquetar, una representación de la red utilizada se muestra en la Figura 1. Como resultado muestra un mejor desempeño al compararse con tres etiquetadores representativos de su momento, también realizaron una prueba entrenando la red neuronal sin realizar el preprocesamiento de rotación encontrando que también se tiene un etiquetado efectivo. Esto enfatiza como aplicación prometedora el utilizar redes neuronales y técnicas de procesamiento de imágenes sobre resultados de experimentos en el área de HEP.

Fig. 1. Red neuronal utilizada en Almeida et al.(2015).

En el trabajo de de Oliveira et al. (2016) continúan utilizando la noción de que las partículas que chocan con el detector pueden ser medidas como una imagen, pero ahora introduce para el procesamiento técnicas de aprendizaje profundo (DL, Deep Lxearning), las cuales se encontraban dentro del estado del arte para el campo de visión por computadora. Esta técnica se basa en la extracción automática de características. Nuevamente propone sus propios pasos de preprocesamiento: traslación, rotación, repixelacion e inversión. Algo notorio en este trabajo es que hace un análisis intensivo sobre el efecto que tiene cada una de las operaciones de preprocesamiento en la representación final del

25


evento. Pone a prueba dos tipos de redes neuronales: Convolucional (CNN, Convolutional Neural Network) y MaxOut. Utilizan 8 millones de eventos para entrenar, 2 millones como validación y 3 millones de prueba. Para la red de tipo MaxOut establecen una arquitectura de dos capas 256-128 con activación MaxOut seguidas de dos capas 65-25 con activación ReLU para finalizar con una última capa de clasificación. Para la red CNN se tienen tres unidades secuenciales [Conv + MaxPool + Dropout] seguidas de una capa LRN (Local Response Normalization) seguida de dos capas completamente conectadas. Cada capa convolucional tiene 32 filtros de tamaño 11x11, 3x3, 3x3 respectivamente. Una vista gráfica de este concepto se muestra en la Figura 2.

Fig. 2. Red neuronal convolucional para la clasificación de jets utilizada en de Oliveira et al. (2016).

Nuevamente mejora los resultados con respecto a otras técnicas utilizadas para la misma tarea. En particular, la arquitectura MaxOut demuestra mejor desempeño en la mayoría de los casos. Sin embargo, también resalta detalles del evento que no son completamente capturados, en especial la masa de la partícula, eso es algo que se deja como un problema para futuros trabajos. Un aporte que se debe de resaltar es que ahora realiza un nuevo enlace entre la física de partículas y el campo de visión a computadora por medio del uso de redes profundas para el análisis de datos. El siguiente trabajo Pierre Baldi et al. (2016) abarca otros aspectos del problema como lo son la multiplicidad de eventos y la respuesta de los detectores. Los datos utilizados fueron 10 millones de ejemplos como entrenamiento donde 500 mil fueron utilizados para validación además de otros 5 millones para pruebas. En su artículo hace una comparación de sus resultados con enfoques de etiquetado que se encontraban en uso al momento de presentar su trabajo. Tales enfoques utilizaban características extraídas de expertos en conjunto con técnicas más simples de inteligencia artificial como BDT (Boosted Decision Trees). Otro cambio con respecto a trabajos anteriores fue la arquitectura, ya que primero utilizan capas conectadas localmente donde cada neurona es conectada solamente a una región de 4x4 de la capa anterior y en capas posteriores era donde ya se conectaban completamente. Al revisar eventos con multiplicidad la arquitectura que mostró mejores resultados fue con tres capas localmente conectadas seguida de cinco capas completamente

26


conectadas, mientras que, para eventos sin multiplicidad la mejor configuración tiene arquitectura de cuatro capas localmente conectadas seguidas de cuatro capas completamente conectadas. Todas las capas contenían 500 unidades. Una vez más mejora la clasificación de jets con respecto de las técnicas que se utilizaban al momento de ser publicado. Pasando a la investigación mostrada en Barnard et al. (2017) reconoce y utiliza los avances de los trabajos previos y, sin proponer un nuevo método para la clasificación de eventos, su aporte se enfoca en un análisis exhaustivo sobre cómo garantizar que la red neuronal realmente aprenda las características físicas de la señal con respecto del ruido (background) y no detalles particulares debidos a un generador de eventos específico. Aborda una cuestión simple pero importante ya que la mayoría de los trabajos se basan en datos provenientes de simulaciones y es una cuestión que debe ser aclarada si es que se espera que las técnicas de aprendizaje profundo sean aplicadas dentro del LHC. Todos los generadores de eventos se basan en técnicas estadísticas de análisis de Monte Carlo y solamente son aproximaciones del Modelo Estándar en su totalidad. Con una arquitectura y preprocesamiento similar a la que se expresa en de Oliveira et al. (2016) se utilizaron 3 millones de imágenes para señal y 3 millones para background, estudiaron la dependencia al generador de eventos comparando finalmente cinco diferentes modelos basados en tres de los principales generadores que se utilizan en el área de HEP. El resultado fue cambios en el rechazo al background de hasta 50% dependiendo del modelo seleccionado, una cantidad que demuestra una dependencia grande y mayor a la esperada. Se concluyó que la red aprendió características del generador y no del evento, demostrando que es necesario tener precaución al momento de aplicar en entornos reales redes entrenadas solamente con datos simulados. Prosiguiendo con Komiske et al. (2017) continúa aportando al tema ahora proponiendo la representación de datos como imágenes a color, donde los valores RGB se establecen según sea el valor del momento en partículas cargadas, el momento en partículas no cargadas y la cuenta de partículas detectada por pixel, respectivamente. El preprocesamiento es similar a trabajos anteriores, pero se evita cualquier operación motivada por características físicas, por ejemplo, permiten la normalización de pixeles, pero evade pasos como buscar subestructuras existentes en la señal deseada. De esta manera se propone evaluar qué tanto es capaz de aprender la red neuronal a partir de los datos en crudo. El trabajo divide los datos en 4 conjuntos dependiendo del momento del evento además de utilizar datos provenientes de dos diferentes generadores. Cada conjunto de datos tiene 100 mil eventos en el que 90% fue utilizado para entrenamiento y el restante para fines de prueba. Adicionalmente utilizaron “data augmentation” sobre cada imagen. Lo que respecta a la arquitectura de la red, también utiliza redes convolucionales, cada capa convolucional tiene 64 filtros (8x8, 4x4, 4x4) siguiendo de una capa de MaxPooling que hace un submuestreo de 2x2 con paso de 2 para finalmente tener una capa completamente conectada de 128 unidades. Un ejemplo de la arquitectura se muestra en la Figura 3.

27


Fig. 3. Red neuronal convolucional utilizada en Komiske et al. (2017).

Se compara con discriminadores motivados por extracción de variables físicas como trabajos anteriores demostrando que la red neuronal propuesta al menos iguala y en la mayoría de los casos mejora el desempeño. También realiza un pequeño estudio sobre la dependencia del tamaño de la imagen creando una red neuronal más pequeña demostrando que el desempeño decrece muy poco. Un resultado a destacar es en la comparación con datos provenientes de otro generador de eventos ya que la arquitectura de la red neuronal ahora muestra ser insensible al generador utilizado para la simulación de los datos. En Kasieczka et al. (2017) muestra un trabajo utilizando redes convolucionales, de la misma manera a los anteriores, los datos provienen de simulaciones y se comparan con las técnicas principales que se utilizaban para la tarea de clasificación de eventos. En cuanto a los datos utilizados para el entrenamiento se tienen 600 mil imágenes de señal y la misma cantidad para background. Los datos se separan en 150 mil para entrenamiento, 150 mil para optimización y 300 mil para prueba. La arquitectura de la red utilizada en este trabajo se muestra en la Figura 4. En este trabajo también muestra una mejora en el desempeño sin embargo no es tan marcado como en otros casos anteriores. Aunque podría pensarse que es un trabajo similar al anterior presentado, en este se tiene un aporte extra importante: la comparación de resultados se realizó con las últimas técnicas que daban resultados exitosos y establecidos como métodos de etiquetado en experimentos del LHC, por lo que una vez más se enfatizaba la posible aplicación de estas técnicas de aprendizaje automático para implementaciones en experimentos reales dentro del LHC.

28


Fig. 4. Red neuronal convolucional utilizada en Kasieczka et al. (2017).

Continuando con tareas de clasificación basadas en la transformación del evento a imágenes se tiene el trabajo de Pearkes et al. (2017). Un punto importante es que utilizaron simulaciones con un número de eventos múltiples similar al que se esperaba encontrar en el LHC. Utilizaron 7.5 millones de eventos donde la mitad eran señal y el restante era background, se utilizó 80% para entrenamiento, 10% en validación y 10% prueba. Se realizó una evaluación final del desempeño con otro conjunto independiente de 11 millones de eventos en aquellas arquitecturas que mostraban un mejor comportamiento. La arquitectura final consistió en 4 capas ocultas de 300, 102, 12 y 6 nodos respectivamente. Optaron por cambiar el uso de redes convolucionales y retomaron las redes profundas. La justificación se basó en que cada evento provoca una activación en los detectores de manera muy dispersa, donde la mayoría del área en el detector no es activada. Otra razón es que no existen características distinguibles como esquinas, bordes, arcos o alguna semejanza a patrones usualmente utilizados en el procesamiento de imágenes. Finalmente, ya se había demostrado que filtros de mayor tamaño son requeridos con el fin de alcanzar un desempeño competitivo comparado con otras técnicas. Un resultado significativo es que la red no debía de ser reentrenada para escenarios con aparición de eventos múltiples. Primeramente, la red se entrenó con una cierta multiplicidad de eventos y al cambiar el número de multiplicidad la red neuronal parece ser relativamente robusta ante tales variaciones. Por otro lado, también mostró una mejora en el desempeño comparado con trabajos donde utilizaban características de alto nivel y características físicas extraídas manualmente. Otro enfoque se muestra en Egan et al. (2017) se basa en la misma idea al trabajo anterior y los datos fueron similares, sin embargo, alcanza una mejora de hasta un factor de dos en comparación con el mismo trabajo, la diferencia pue la propuesta de arquitectura para realizar la clasificación de eventos. Las constituyentes del evento usualmente se cortaban a un tamaño fijo para crear la imagen y para satisfacer la topología de la red neuronal, en este trabajo no se lleva a cabo ese recorte de datos ya que se mantiene su tamaño original. Utilizan redes del tipo LSTM (Long Short-Term Memory) lo cual permite la propiedad de no establecer un tamaño fijo de valores para la entrada de la red neuronal. La arquitectura utilizada fue de 128 unidades seguidas de una capa completamente conectada de 64 nodos. Finalmente se tienen los trabajos J. Duarte et al., (2018); Javier Duarte et al., (2019) en donde diferentes arquitecturas de redes neuronales son exploradas y puestas a prueba

29


fuera de un entorno de simulación y fuera de una computadora. En estos trabajos exploran la implementación de redes neuronales en dispositivos dedicados. Además de dar buenos resultados en desempeño, una métrica importante fue la medición de latencia total que toma el modelo para inferir un resultado, teniendo valores de hasta 15 ciclos de reloj equivalentes a 75ns, una característica importante que podría ser de utilidad para una aplicación en tiempo real

4

Discusión y análisis

Para cada artículo expuesto los resultados podían ser mejor en el momento en el que fueron reportados, no obstante, los métodos que se utilizaban gracias al avance en el área de HEP y métodos provenientes de expertos volvían a mejorar y sobrepasar el desempeño de la técnica propuesta. Entonces ¿Por qué utilizar técnicas de aprendizaje automático? Primeramente, hay que recordar que la naturaleza del problema conlleva a la reducción de la dimensionalidad por la extracción de características a través del conocimiento de los expertos. Sumando a lo anterior, no existe un modelo analítico completo para clasificar cada evento directamente a partir de principios teóricos. Lo anterior provoca que muy probablemente al realizar la extracción de características no se pueda capturar toda la información relevante. Por estas razones y por los resultados obtenidos, se puede validar que las características extraídas de expertos en combinación con otra herramienta de análisis multivariable sí parecen capturar toda la información relevante, aumentando la confiabilidad en el resultado final. Un análisis más interesante se enfoca al aporte logrado. En un principio existían limitantes en la aplicación, por ejemplo: eventos sin multiplicidad, no se tomaba en cuenta la respuesta del detector, tampoco la dependencia a los generadores de datos, no podían extraer completamente ciertas características como la masa de la partícula, no se sabía que operaciones de preprocesamiento realmente influían en los resultados, las variaciones de energía y masa en cada evento cada vez abarcaron un rango más amplio de valores, entre otros inconvenientes. En consecuencia, se puede resaltar el progreso para los resultados, donde el límite de un trabajo generalmente es el aporte en artículos posteriores ampliando cada vez más el soporte y confiabilidad para su aplicación en una situación real. Se puede ver la evolución en complejidad y tamaño de las técnicas utilizadas, al principio eran clasificadores simples, después utilizan redes neuronales profundas, redes convolucionales, modificaron la forma en que se conectan las capas que conforman la red para obtener mejores resultados y cuando parecía que era la mejor opción se volvió a mostrar ventaja al utilizar redes profundas en conjunto con LSTM. También se mostró un incremento en la cantidad de datos con 100 mil eventos en los primeros trabajos, mientras que en los trabajos finales se pueden encontrar conjuntos de hasta 17.5 millones de eventos. Un resumen de la información expresada se puede observar en la Tabla 1.

30


Tabla 1. Resumen de la información de los trabajos presentados.

Artículo (Cogan, Kagan, Strauss, & Schwarztman, 2015) (Almeida, Backovic, Cliche, Lee, & Perelstein, 2015) (de Oliveira, Kagan, Mackey, Nachman, & Schwartzman, 2016) (Baldi, Bauer, Eng, Sadowski, & Whiteson, 2016) (Barnard, Dawe, Dolan, & Rajcic, 2017) (Komiske, Metodiev, & Schwartz, 2017) (Kasieczka, Plehn, Russell, & Schell, 2017) (Pearkes, Fedorko, Lister, & Gay, 2017) (Egan, Fedorko, Lister, Pearkes, & Gay, 2017)

5

Arquitectura Discriminante de Fisher

Nodos

Datos

-

-

FFNN: 900-100-100-1

1100

CNN: [ConvMaxPool+DropOut]*3-64-64 MaxOut: 256-128-64-25-1 DNN no pileup: [425*4]LC+[425*4]FC DNN sí pileup: [500*3]LC+[500*5]FC MaxOut: 625-256-128-64-25-2 CNN:

130 474 3400 4000 1100 128

64 filtros (8x8,4x4,4x4)+maxpool(2x2)+128

CNN: [8 mapas de características]*4+3*64*2 DNN: 300-102-12-6 LSTM 128+64FC

200 200 192

100K eventos 13M eventos 15.5M eventos 6M eventos 100K eventos 600K eventos 18.5M eventos 18.5M eventos

Conclusiones

Se mostró una serie de artículos que se basan sobre una hipótesis similar: al representar como imágenes los eventos que resultan de experimentos en el área de física de altas energías pueden ser procesados con técnicas de visión por computadora y aprendizaje automático. Este fue un nuevo enfoque para la aplicación de este tipo de técnicas de procesamiento dentro de los experimentos de física de partículas. Se mostraron ventajas de dicha idea, así como resultados que generalmente superaban a aquellos obtenidos con métodos tradicionales de procesamiento. Como se pudo dar cuenta en este tipo de trabajos, nada está escrito, no hay una regla general para el éxito de los resultados, no se conoce el número de neuronas necesario, ni su topológica, ya sea por cada capa o en la arquitectura completa. Lo que resta es seguir buscando métodos y alternativas para mejorar el desempeño y confiabilidad de los resultados previamente obtenidos, ya que los desafíos tecnológicos en esta área continuarán con los nuevos proyectos en la frontera de energía. Finalmente, se debe insistir que, en principio lo que era un área de posible oportunidad con gran camino para su exploración y validación ahora se convirtió en un fuerte prospecto para su implementación dentro de experimentos de alta luminosidad. Todo comenzó con la evolución de una nueva propuesta, que fue demostrando su viabilidad gracias a la contribución de diferentes investigaciones, superando las limitaciones que surgían con cada nuevo aporte, hasta llegar al punto en el que la limitante ya no es la confiabilidad del resultado si no el tiempo en el que se genera dicho resultado. Se demostró que, una hipótesis correctamente desarrollada puede convertirse en una la solución real para futuras aplicaciones.

31


Referencias 1. Almeida, L. G., Backović, M., Cliche, M., Lee, S. J., & Perelstein, M. (2015). Playing tag with ANN: Boosted top identification with pattern recognition. Journal of High Energy Physics, 2015(7). https://doi.org/10.1007/JHEP07(2015)086 2. Baldi, P., Sadowski, P., & Whiteson, D. (2014). Searching for exotic particles in high-energy physics with deep learning. Nature Communications, 5, 1–9. https://doi.org/10.1038/ncomms5308 3. Baldi, Pierre, Bauer, K., Eng, C., Sadowski, P., & Whiteson, D. (2016). Jet substructure classification in high-energy physics with deep neural networks. Phys. Rev. D, 93(9), 94034. https://doi.org/10.1103/PhysRevD.93.094034 4. Barnard, J., Dawe, E. N., Dolan, M. J., & Rajcic, N. (2017). Parton shower uncertainties in jet substructure analyses with deep neural networks. Phys. Rev. D, 95(1), 14018. https://doi.org/10.1103/PhysRevD.95.014018 5. Cogan, J., Kagan, M., Strauss, E., & Schwarztman, A. (2015). Jet-images: computer vision inspired techniques for jet tagging. Journal of High Energy Physics, 2015(2). https://doi.org/10.1007/JHEP02(2015)118 6. de Oliveira, L., Kagan, M., Mackey, L., Nachman, B., & Schwartzman, A. (2016). Jet-images — deep learning edition. Journal of High Energy Physics, 2016(7). https://doi.org/10.1007/JHEP07(2016)069 7. Duarte, J., Han, S., Harris, P., Jindariani, S., Kreinar, E., Kreis, B., Ngadiuba, J., Pierini, M., Rivera, R., Tran, N., & Wu, Z. (2018). Fast inference of deep neural networks in FPGAs for particle physics. Journal of Instrumentation, 13(7). https://doi.org/10.1088/17480221/13/07/P07027 8. Duarte, J., Harris, P., Hauck, S., Holzman, B., Hsu, S.-C., Jindariani, S., Khan, S., Kreis, B., Lee, B., Liu, M., Lončar, V., Ngadiuba, J., Pedro, K., Perez, B., Pierini, M., Rankin, D., Tran, N., Trahms, M., Tsaris, A., … Wu, Z. (2019). FPGA-Accelerated Machine Learning Inference as a Service for Particle Physics Computing. Computing and Software for Big Science, 3(1), 13. https://doi.org/10.1007/s41781-019-0027-2 9. Egan, S., Fedorko, W., Lister, A., Pearkes, J., & Gay, C. (2017). Long Short-Term Memory (LSTM) networks with jet constituents for boosted top tagging at the LHC. Mc, 3–8. http://arxiv.org/abs/1711.09059 10.Kasieczka, G., Plehn, T., Russell, M., & Schell, T. (2017). Deep-learning top taggers or the end of QCD? Journal of High Energy Physics, 2017(5). https://doi.org/10.1007/JHEP05(2017)006 11.Komiske, P. T., Metodiev, E. M., & Schwartz, M. D. (2017). Deep learning in color: towards automated quark/gluon jet discrimination. Journal of High Energy Physics, 2017(1). https://doi.org/10.1007/JHEP01(2017)110 12.Pearkes, J., Fedorko, W., Lister, A., & Gay, C. (2017). Jet Constituents for Deep Neural Network Based Top Quark Tagging. http://arxiv.org/abs/1704.02124

32


Capítulo 4. Clasificación de Imágenes Microscópicas de Cáncer a través de Redes Neuronales Convolucionales José De Jesús Moya Mora1, Manuel I. Martín Ortíz2. 1,2

Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación {mmartinmx1; jo.moya.mora2}@gmail.com

Resumen. La identificación de células enfermas es un aspecto sustancial del diagnóstico del cáncer, de este modo se puede establecer el grado de progresión de la enfermedad. Las enfermedades de la sangre, como la leucemia, generalmente solo se descubren en etapas avanzadas, cuando la cantidad de células cancerosas es mayor que la cantidad de células sanas. Debido a la similitud morfológica entre las células enfermas y sanas; clasificar este tipo de células es una tarea muy desafiante incluso para expertos hematólogos. El diagnóstico temprano de la leucemia se basa en la clasificación precisa de las células sanas y enfermas de imágenes tomadas con un microscopio. La clasificación de células usando herramientas computacionales se ha popularizado como una técnica eficaz para diagnosticar la leucemia. Nuestro enfoque de clasificación emplea técnicas de aprendizaje profundo usando aprendizaje por transferencia y comparando los resultados obtenidos con un modelo creado por nosotros para comparar los resultados obtenidos de la clasificación resultante entre ambos modelos. Palabras Clave: Aprendizaje profundo, Aprendizaje por transferencia, leucemia.

1

Introducción

La leucemia mieloide aguda (LMA) y la leucemia linfocítica aguda (LLA) son tipos de cáncer en las células sanguíneas, que se caracterizan por un aumento en la cantidad de mielocitos y linfocitos inmaduros. Es una de las principales causas de muerte por cáncer en todo el mundo, con una tasa de incidencia global de 876.000 y una tasa de mortalidad de 110.500 (Vos et al., 2016). Sin embargo, tras la detección precoz y la atención médica adecuada, la tasa de cura global de la LLA alcanza el 80% (Shafique & Tehsin, 2018). Como medio de pronóstico temprano, las herramientas de diagnóstico de leucemia asistidas por computadora han despertado un gran interés. La clasificación de las células mediante el procesamiento de imágenes se ha convertido en un método para diagnosticar la leucemia y determinar su nivel de progresión. Sin embargo, debido a su similitud morfológica (sobre todo en los linfocitos), la tarea de distinguir entre células malignas y normales es un desafío, véase la Figura 1.

33


Fig. 1. Nacimiento de las células cancerígenas. Cuando la célula madre madura, se desprende en dos tipos de células y estas se conocen como células precursoras (célula madre mieloide y linfoide), dependiendo donde se formen las anomalías en las células precursoras la leucemia recibe el nombre de leucemia mieloide aguda o linfoide. Cuando las células van madurando podemos obtener células maduras asociadas a la enfermedad, en el caso de la mieloide tenemos células maduras que reciben el nombre de eosinófilo, basófilo y neutrófilo y en el caso de las células maduras asociadas a la enfermedad del tipo linfoide llegamos a tener linfoblastos del tipo B o T. En nuestro caso con la base de datos obtenida tenemos 5 subtipos de células que se asocian a la clase leucemia del tipo mieloide o linfoide. Los servicios de diagnóstico aún no están disponibles en muchas áreas de los países en desarrollo. El rápido desarrollo de esta enfermedad significa que las perspectivas de supervivencia para la mayoría de los pacientes en áreas desatendidas son sombrías, porque su cáncer ya se encuentra en una etapa avanzada antes de encontrar atención médica. Estas limitaciones han impulsado la demanda de soluciones de diagnóstico automatizadas, simples y de bajo costo. Las últimas mejoras en los algoritmos de visión por computadora y su desempeño casi humano en muchas tareas complejas de análisis de imágenes los convierten en una opción atractiva para las soluciones de diagnóstico asistido por computadora para este problema. En este trabajo, estudiamos un nuevo modelo de aprendizaje profundo que puede clasificar los mieloblastos y linfoblastos enfermos (linfocitos enfermos con leucemia), utilizando imágenes microscópicas de frotis de médula ósea o sangre periférica obteniendo una alta precisión.

2

Trabajos previos

Recientemente, el uso de redes neuronales convolucionales para realizar tareas clasificación y reconocimiento en imágenes digitales se ha vuelto popular, especialmente en el campo de la biomedicina. Varios trabajos han demostrado que la precisión predictiva de los métodos de aprendizaje profundo es comparable a la de los

34


expertos humanos. Por ejemplo Huang et al. (2017), propuso un método basado en el aprendizaje profundo para identificar la metástasis del cáncer. También demostraron que la combinación de métodos de aprendizaje profundo con el diagnóstico de patólogos humanos puede mejorar la precisión del diagnóstico patológico. Shi et al. (2020), describe un método de aprendizaje profundo llamado "Red de atención recurrente tipo DenseNet" (RADnet: Recurrent Attention Dense Net) para detectar hemorragia cerebral a partir de tomografías computarizadas. RADnet mostró que la precisión de la predicción de hemorragias fue del 81,82% a nivel de tomografía computarizada, que es similar a la de los radiólogos. Liu et al. (2018), utilizaron una red neuronal de extremo a extremo para clasificar las lesiones cutáneas, demostró que un sistema de inteligencia artificial puede clasificar el cáncer de piel con una capacidad comparable a la de un dermatólogo. De la literatura revisada lo que se asemeja a nuestro trabajo, son los trabajos previos de Dürr & Sick (2016); Zhang et al. (2017), los cuales propusieron un método para clasificar glóbulos blancos inmaduros a partir de imágenes microscópicas, en el trabajo de los autores mencionados se detecta el cáncer de sangre y logran una precisión del 89,2% en la tarea de distinguir los glóbulos blancos inmaduros malignos de los glóbulos blancos normales.

3 3.1

Metodología Base de datos

El conjunto de datos utilizado en este trabajo proviene del Centro de Archivo de Imágenes de Cáncer (TCIA: The Cancer Imaging Archive, de sus siglas en inglés), el cual contiene células mieloides y linfoides de cáncer asociadas a la enfermedad de leucemia, contiene imágenes etiquetadas de células malignas. Después de normalizar la tinción usando el método descrito en Duggal et al. (2016). Estas células se pueden emplear para identificar un patrón para la clasificación de los leucocitos enfermos asociados a la enfermedad. En esta base de datos se recolectaron un total de 20,661 imágenes asociadas a los leucocitos de 76 personas, de las cuales 7,272 imágenes fueron recolectadas de 47 pacientes con leucemia mieloide y linfoide aguda. Evaluamos diferentes modelos, por lo que usamos la validación cruzada para determinar el modelo con mejor rendimiento y ajuste de sus parámetros. A continuación, véase la Tabla 1, se muestran algunas características de las diferentes clases incluidas en la Base de Datos mencionada, y que se cuenta para poder realizar la clasificación. De la Tabla 1, se puede apreciar que tenemos 2 clases con imágenes que corresponde a los dos tipos y cinco subtipos de leucemia de tamaño de 220 x 220 pixeles, estas células corresponden a la enfermedad de leucemia mieloide y linfoide aguda, estas se utilizarán para entrenar nuestro modelo de aprendizaje profundo, teniéndose un total de 17,500 imágenes.

35


Tabla 1. Distribución de las diferentes subclases para determinar las células cancerígenas asociadas a la enfermedad mieloide aguda. Tipo de Leucemia Mieloide Linfoide

Número de imágenes 3,500 3,500 3,500 3,500 3,500

Tipos de células Basófilos (M1) Neutrófilos (M2) Eosinófilos (M3) L1 L2

Tamaño en pixeles 220x220 220x220 220x220 220x220 220x220

En este artículo, proponemos una solución basada en el aprendizaje profundo que utiliza un esquema de preprocesamiento dedicado con estandarización y un método de expansión de datos. Usamos un modelo de red neuronal llamado ResNet descrita por (Chollet, 2018); así como otro modelo adaptado y propuesto por los autores de este trabajo de investigación para llevar a cabo la clasificación. 3.2

Normalización de los datos

Se sabe que la normalización de entrada puede acelerar la convergencia de las redes neuronales profundas, una técnica estándar es restar la media y dividir por la varianza del mini-lote de datos de entrenamiento, las imágenes obtenidas con el microscopio son imágenes de tres canales (RGB) con un tamaño de 220 × 220, y las imágenes se han preprocesado mediante la normalización de puntos de tinción para eliminar los cambios de iluminación. La adquisición de datos y el preprocesamiento se describen con más detalle en los trabajos de Gupta et al., 2020. 3.3

Incremento en el número de datos a partir de transformaciones geométricas.

Debido a los datos de entrenamiento limitados (alrededor de 3500 imágenes por clase), utilizamos ampliamente el aumento de datos para incrementar el tamaño efectivo del conjunto de entrenamiento. Usamos técnicas estándar para imágenes de microscopio, como las que se mencionan a continuación: ● ● ● ● ●

Escalado de las imágenes. Rotaciones. Voltear las imágenes en forma vertical y horizontal. Aumento de la intensidad (mejora del contraste, compensaciones de intensidad de contraste, por mencionar algunos ejemplos de mejoras). Hacer inclinaciones de las imágenes en cada dirección posible (derecha, izquierda, arriba, abajo) con una magnitud positiva y negativa.

Una vez realizado el preprocesamiento de los datos, así como el implementar los diferentes puntos dados para realizar nuestro aumento de datos. El incremento en el número de datos por este método fue de 6 veces, Resultando un conjunto para el

36


entrenamiento y verificación de 105,000 imágenes en total, de las cuales se repartieron en 70% para entrenamiento; y la diferencia para las pruebas y verificación De manera diagramática a continuación se muestra cómo se está abordando el problema de clasificación de los leucocitos asociados a la enfermedad de leucemia, véase la Figura 2.

Fig. 2. Metodología implementada.

4 4.1

Arquitectura de las redes neuronales Aprendizaje por transferencia

La transferencia de aprendizaje en el aprendizaje profundo se refiere a la transferencia de conocimiento de un domino a otro (Bengio, 2012). Debido a la necesidad de conjuntos de datos muy grandes, el aprendizaje profundo representa un desafío para las aplicaciones médicas, esto debido a que generalmente no se cuentan con base de datos muy grandes para entrenar modelos y en ocasiones es difícil encontrar datos de forma pública. Por lo tanto, el emplear aprendizaje por transferencia para realizar experimentos de conjuntos pequeños se ha vuelto una práctica común realizada por varios investigadores, aun así, se debe analizar su comportamiento para determinar si esas redes profundas pre-entrenadas nos dan una resolución satisfactoria al problema que deseamos resolver, en este caso realizar una buena clasificación para los distintos tipos de leucocitos enfermos. Lo que se hace para emplear redes previamente entrenadas en un conjunto más grande como las que se emplearon para el reto de ImageNet (Deng et al., 2009), se congela la primera capa convolucional de la red propuesta (existen diferentes modelos pre-entrenados con este conjunto de datos), pues deseamos que los pesos aprendidos por esta red se mantengan intactos, luego reentrenamos las capas convolucionales restantes en nuestro conjunto de datos. Para llevar a cabo nuestro experimento empleamos la red neuronal ResNet proporcionado por keras y tensorflow (Chollet, 2018), véase la Figura 3.

37


Fig. 3. Arquitectura de la red neuronal ResNet. La arquitectura ResNet es una de las más novedosas. Esta arquitectura se propuso con el objetivo de resolver el conflicto existente entre la necesidad de modelos muy profundos capaces de resolver tareas más complicadas y también a la vez incrementar o mejorar la precisión de la clasificación. Existen diferentes variantes del modelo ResNet (50,101 y 152 capas) cada uno con diferente número de capas en profundidad en su diseño. 4.2

Modelo propuesto

Dado que los modelos empleados para realizar aprendizaje por transferencia son muy profundos, no siempre se obtienen buenos resultados de clasificación debido al tamaño del conjunto de datos con que se cuenta en problemas específicos del área médica, es por ello que se optó por implementar un modelo con menor cantidad de capas ocultas en comparación con el modelo ResNet para analizar su rendimiento y obtener mejores resultados para su clasificación, algo interesante es que no se emplearán los pesos aprendidos en ImageNet tal como es en el caso de los diferentes modelos preentrenados existentes, por lo que nuestro modelo estará particularmente entrenada con los pesos asociados a las diferentes clases de los leucocitos enfermos asociados a la leucemia, aprendidos durante su etapa de entrenamiento desde cero, véase la Figura 4.

Fig. 4. Modelo de red neuronal profundo propuesto. De la figura 4, que el modelo propuesto para llevar a cabo la clasificación de nuestras 5 clases tiene pocas capas ocultas para realizar la tarea de clasificación respecto al caso mostrado en la figura 3, es decir con relación al modelo ResNet que cuenta con muchas

38


más capas profundas y dentro de sus diferentes variantes de modelo ResNet, se pueden utilizar más o menos capas profundas para realizar la misma tarea de clasificación.

5 5.1

Experimentación Precisión, Recall y F1-score

En nuestros experimentos, obtenemos el mejor modelo al analizar los resultados de las diferentes métricas de evaluación obtenidas de los modelos, la Tabla 2 proporciona las métricas de: Precisión, Recall y F1-score del desempeño obtenido de los diferentes modelos. Tabla 2. Medición en base a métricas de evaluación del desempeño de los modelos. Modelo ResNet50 ResNet152 Red propuesta

Precisión 0.8695 0.9158 0.9632

Recall 0.8655 0.9159 0.9656

F1-Score 0.8675 0.9164 0.9887

De la Tabla 2, los resultados obtenidos para los diferentes modelos presentan un desempeño entre el 86.95% y 96.32 % en cuanto a precisión se refiere, de igual forma el tener una red neuronal muy profunda pre-entrenada con los pesos aprendidos en ImageNet nos da resultados cercanos al 92 % más sin embargo se encuentran por debajo en comparación con el modelo de red neuronal propuesta.

5.2 Gráficas de desempeño de los modelos Para realizar el análisis del desempeño de los modelos se utilizó como herramienta un análisis gráfico en su etapa de entrenamiento, en cuanto a la precisión y pérdida del modelo, con ello podremos determinar que tan bien podrá generalizar los diferentes modelos, véanse las Figuras 5 y 6.

Fig. 5. Comparativa de la gráfica de precisión de ambos modelos.

39


Obsérvese en la Figura 5, que el modelo propuesto tiene una mejor precisión respecto del modelo ResNet50, puesto que los datos de entrenamiento en ambos modelos tienden a aprender de forma correcta respecto de los datos de validación, lo cual tendrá una generalización buena, en el modelo ilustrado en la Figura 5 (a), se tiene un entrenamiento mejor respecto del modelo inciso (b). También es el caso en nuestros datos de validación, los cuales van siguiendo a los datos de entrada, y es justo lo que se busca al momento de entrenar un modelo, esto con el fin para que la red neuronal pueda aprender lo más correcto posible los datos de las diferentes clases que se tiene, y así se tenga una clasificación acertada de múltiples clases que se manejan.

Fig. 6. Gráfica de la función de pérdida de ambos modelos. Al momento de evaluar el comportamiento de los diferentes modelos (véase las Figuras 5 y 6), es importante saber si la red ha aprendido con éxito los patrones utilizados durante la etapa de aprendizaje, pero también es de suma importancia conocer el comportamiento de la red ante patrones que no se han utilizado durante el entrenamiento. Esto se puede notar en la figura 6, donde la red neuronal ResNet aprende correctamente, pero que no responde adecuadamente ante patrones nuevos (véase la figura 6 apartado (b)), caso diferente en la figura 6 apartado (a), en donde el modelo propuesto extrae las características necesarias para poder así responder de manera más acertada ante patrones diferentes de las distintas subclases que se tiene. Para realizar este entrenamiento de amabas redes neuronales, se empleó una repartición de los datos de la siguiente manera, 70% para los datos de entrenamiento y 20% para los datos de prueba y un 10% para los datos de validación, escogidos de forma aleatoria del conjunto total de datos. Tabla 3. Resultados obtenidos de las métricas empleadas por subclase de la leucemia mieloide y linfoide. Tipo de Leucemia Mieloide Linfoide

Tipo de célula M1 M2 M3 L1 L2

Precisión 0.87 0.99 1.00 0.93 0.94

Recall 0.99 0.90 0.99 0.85 0.99

F1-score 0.92 0.95 0.99 0.88 0.96

De la Tabla 3, obtenemos los resultados de las diferentes métricas empleadas para cada subclase de células asociadas a la enfermedad de leucemia mieloide y linfoide respectivamente obtenidas por el modelo propuesto. En los trabajos revisados de Kulhalli et al.(2019); Prellberg & Kramer (2019), ellos obtienen resultados cercanos al

40


90% de precisión por cada subclase empleando redes pre-entrenadas como lo es ResNet, lo cual, al compararla con los resultados obtenidos en el modelo propuesto, obtenemos resultados entre 87% y 100% dependiendo de la subclase que se esté analizando.

6

Conclusiones

Se hace comparación de dos modelos, uno con aprendizaje por transferencia y otro propuesto para analizar su comportamiento y se establece el que mejor pueda clasificar dentro de las distintas clases que se tienen. Al analizar la curva de aprendizaje de ambos modelos, Notamos que el modelo propuesto puede generalizar mejor que el modelo ResNet, esto debido a que el modelo propuesto esta particularmente diseñado para nuestras 5 clases, diferente del modelo preentrenado que emplea 1000 clases diferentes, además que dentro de estas no se encuentra las clases que tenemos en nuestro problema, dándole al modelo propuesto un mejor desempeño ya que los pesos asociados durante la etapa de entrenamiento tienen a estar mejor asociados a las diferentes clases que se tienen, logrando así una precisión de un poco más del 96%.

Referencias 1. Bengio, Y. (2012). Deep Learning of Representations for Unsupervised and Transfer Learning. In I. Guyon, G. Dror, V. Lemaire, G. Taylor, & D. Silver (Eds.), Proceedings of ICML Workshop on Unsupervised and Transfer Learning (Vol. 27, pp. 17–36). PMLR. http://proceedings.mlr.press/v27/bengio12a.html 2. Chollet, F. (2015). keras-team/keras. GitHub. https://github.com/keras-team/keras 3. Chollet, François. (2018). Deep Learning with Python, Manning. In Manning. 4. Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A largescale hierarchical image database. 2009 IEEE Conference on Computer Vision and Pattern Recognition, 248–255. https://doi.org/10.1109/CVPR.2009.5206848 5. Duggal, R., Gupta, A., & Gupta, R. (2016). Segmentation of overlapping/touching white blood cell nuclei using artificial neural networks. In CME Series on Hemato-Oncopathology, All India Institute of Medical Sciences (AIIMS), New Delhi, India. 6. Dürr, O., & Sick, B. (2016). Single-cell phenotype classification using deep convolutional neural networks. Journal of Biomolecular Screening, 21(9), 998–1003. https://doi.org/10.1177/1087057116631284 7. Gupta, A., Duggal, R., Gehlot, S., Gupta, R., Mangal, A., Kumar, L., Thakkar, N., & Satpathy, D. (2020). GCTI-SN: Geometry-inspired chemical and tissue invariant stain normalization of microscopic medical images. Medical Image Analysis, 65. https://doi.org/10.1016/j.media.2020.101788 8. Gupta, R., Mallick, P., Duggal, R., Gupta, A., & Sharma, O. (2017). Stain Color Normalization and Segmentation of Plasma Cells in Microscopic Images as a Prelude to Development of Computer Assisted Automated Disease Diagnostic Tool in Multiple Myeloma. Clinical Lymphoma Myeloma and Leukemia, 17(1). https://doi.org/10.1016/j.clml.2017.03.178

41


9. Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-Excitation Networks. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. https://doi.org/10.1109/CVPR.2018.00745 10.Huang, G., Liu, Z., Van Der Maaten, L., & Weinberger, K. Q. (2017). Densely connected convolutional networks. Proceedings - 30th IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, 2017-January. https://doi.org/10.1109/CVPR.2017.243 11.Kulhalli, R., Savadikar, C., & Garware, B. (2019). Toward automated classification of b-acute lymphoblastic leukemia. In Lecture Notes in Bioengineering. https://doi.org/10.1007/978981-15-0798-4_7 12.Liu, C., Zoph, B., Neumann, M., Shlens, J., Hua, W., Li, L. J., Fei-Fei, L., Yuille, A., Huang, J., & Murphy, K. (2018). Progressive Neural Architecture Search. Lecture Notes in Computer Science (Including Subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 11205 LNCS. https://doi.org/10.1007/978-3-030-01246-5_2 13.Prellberg, J., & Kramer, O. (2019). Acute lymphoblastic leukemia classification from microscopic images using convolutional neural networks. In Lecture Notes in Bioengineering. https://doi.org/10.1007/978-981-15-0798-4_6 14.Shafique, S., & Tehsin, S. (2018). Acute lymphoblastic leukemia detection and classification of its subtypes using pretrained deep convolutional neural networks. Technology in Cancer Research and Treatment, 17. https://doi.org/10.1177/1533033818802789 15.Vos, T., Allen, C., Arora, M., Barber, R. M., Brown, A., Carter, A., Casey, D. C., Charlson, F. J., Chen, A. Z., Coggeshall, M., Cornaby, L., Dandona, L., Dicker, D. J., Dilegge, T., Erskine, H. E., Ferrari, A. J., Fitzmaurice, C., Fleming, T., Forouzanfar, M. H., … Zuhlke, L. J. (2016). Global, regional, and national incidence, prevalence, and years lived with disability for 310 diseases and injuries, 1990–2015: a systematic analysis for the Global Burden of Disease Study 2015. The Lancet, 388(10053), 1545–1602. https://doi.org/10.1016/S01406736(16)31678-6 16.Zhang, L., Lu, L., Nogues, I., Summers, R. M., Liu, S., & Yao, J. (2017). DeepPap: Deep convolutional networks for cervical cell classification. IEEE Journal of Biomedical and Health Informatics, 21(6). https://doi.org/10.1109/JBHI.2017.2705583

42


Sección II Aplicaciones en el Ámbito Educativo

43


Capítulo 5. Clasificación Multi-Etiqueta de Retroalimentaciones Utilizando el Algoritmo ML-KNN Dorian Ruiz Alonso, Claudia Zepeda Cortés, Hilda Castillo Zacatelco, José Luis Carballido Carranza Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación {dorian;czepedac;hildacz;jlcarballido7}@gmail.com

Resumen. Este trabajo forma parte de una investigación doctoral que tiene por objetivo clasificar automáticamente las retroalimentaciones que genera un docente a las actividades enviadas por estudiantes en cursos en línea de la plataforma Blackboard en los niveles tarea, proceso, regulación y elogios propuestos por Hattie & Timperley (2007), a través de técnicas de minería de textos para estimar y evaluar la toma de decisiones respecto al desempeño docente. Se utiliza el enfoque de adaptación de la clasificación multi-etiqueta que emplea algoritmos de clasificación conocidos que han sido adaptados para ser capaces de trabajar con datos multi-etiqueta sin necesidad transformar los datos. Se ocupa la adaptación del algoritmo vecinos más cercanos propuesta por Zhang & Zhou, (2007). La metodología se aplicó en un caso de estudio. Se recopilaron del sistema gestor de aprendizaje Blackboard 11013 retroalimentaciones de 121 cursos en línea de la licenciatura en derecho de una universidad pública de México. Las retroalimentaciones se clasificaron manualmente por expertos en educación en línea siguiendo el modelo de retroalimentación de Hattie & Timperley (2007). Las retroalimentaciones se preprocesaron y se calcularon las frecuencias de términos con diferentes n-gramas. Las retroalimentaciones se dividieron en dos conjuntos de datos multi-etiqueta para realizar el entrenamiento de clasificadores y probar cuan bien clasificaban con respecto a lo realizado por los expertos. Cada clasificador se evaluó utilizando las métricas estándar de la clasificación multi-etiqueta. Palabras Clave: Minería de textos, clasificación multi-etiqueta, educación en línea.

1

Introducción

Este trabajo forma parte de una investigación doctoral que tiene por objetivo clasificar automáticamente las retroalimentaciones que genera un docente a las actividades enviadas por estudiantes en cursos en línea de la plataforma Blackboard en los niveles tarea, proceso, regulación y elogios propuestos por Hattie & Timperley (2007), a través de técnicas de minería de textos para estimar y evaluar la toma de decisiones respecto al desempeño docente. La retroalimentación, se refiere a la información que recibe alguien sobre su desempeño o nivel de entendimiento al realizar una tarea. Se define como “información

44


provista por un agente sobre aspectos del desempeño o entendimiento de alguien” Hattie & Timperley (2007, p.81) y como “un producto resultante de la revisión y el análisis por parte del profesor a la actividad, aportación o proyecto que ha enviado el o los estudiantes” (Alvarado García, 2014, p.70). La retroalimentación es un elemento importante en el proceso de aprendizaje de los estudiantes (Aguerrebere et al., 2018; Alvarado García, 2014; Cavalcanti et al., 2020; Fui & Lian, 2018; Hattie & Timperley, 2007; Wisniewski et al., 2020). Se ha identificado como una parte central de la evaluación formativa (Quesada Castillo, 2019). La retroalimentación, permite al estudiante identificar lo que le falta para lograr el éxito de acuerdo con lo que se espera de él (Alvarado García, 2014). Ayuda a los estudiantes a evaluar su progreso de aprendizaje (Cavalcanti et al., 2020). Empodera a los estudiantes a identificar y solventar sus concepciones equivocadas con lo cual mejora su desempeño (Fui & Lian, 2018). En la educación en línea, donde los docentes y estudiantes están separados físicamente en tiempo y espacio, la retroalimentación se vuelve más crítica para la construcción del conocimiento y éxito académico (Cavalcanti et al., 2020). La retroalimentación en la educación en línea puede ser la principal o única forma de comunicación entre el docente y el estudiante, lo que la vuelve una práctica esencial ya que ayuda al andamiaje del aprendizaje (Hernández Gallardo, 2007). Las investigaciones sobre retroalimentación se centran en tratar de evaluar cuándo una retroalimentación es efectiva para determinar si se puede mejorar y cómo hacerlo (Van der Kleij et al., 2015). Una retroalimentación efectiva es aquella que permite cerrar la brecha entre el desempeño actual y el esperado en el estudiante (Hattie & Timperley, 2007; Uribe & Vaughan, 2017). En la literatura, existen modelos que permiten la identificación de características para analizar si una retroalimentación es efectiva o no. y Uribe & Vaughan (2017), proponen clasificarlas en retroalimentaciones correctivas, epistémicas, sugestivas y epistémica + sugestiva. Shute (2008), por su parte propone diferenciarlas en retroalimentaciones enfocadas al resultado, respuestas correctas y elaboradas. Hattie & Timperley (2007) plantean ubicarlas en cuatro niveles: tarea, proceso, regulación y elogios. Los niveles propuestos en el modelo de Hattie & Timperley (2007)son una manera viable de analizar la retroalimentación (Brooks et al., 2019; Hattie & Timperley, 2007). Los niveles, se han utilizado con diferentes fines como el desarrollo de aplicaciones que proporcionan retroalimentación a un nivel específico (Pardo et al., 2019), análisis de retroalimentaciones (Ajjawi & Boud, 2017; Brooks et al., 2019; Harris et al., 2015) y como estrategia para mejorar el desempeño de docentes Ramírez & Valdés, 2019. También, se ha identificado que las retroalimentaciones más efectivas son las ubicadas en el nivel proceso y regulación, que las retroalimentaciones en el nivel tarea solo son efectivas si se combinan con las de nivel proceso o de nivel regulación y que las de nivel elogios no son significativas para el aprendizaje. En este trabajo, se propone un enfoque para clasificar automáticamente las retroalimentaciones que generan los docentes a las actividades enviadas por estudiantes en cursos en línea de la plataforma Blackboard en los niveles tarea, proceso, regulación y elogios propuestos por Hattie & Timperley (2007), a través de técnicas de minería de textos para estimar y evaluar la toma de decisiones respecto al desempeño docente. Se ocupa la clasificación multi-etiqueta que es una tarea predictiva que busca aprender de

45


retroalimentaciones etiquetadas manualmente por expertos en los niveles propuestos por Hattie & Timperley (2007), para después ser capaz de predecir el nivel de nuevas retroalimentaciones. En la literatura (Al-Salemi et al., 2019; Blanco et al., 2020; Cabrera-Diego et al., 2020; Herrera et al., 2016), la clasificación multi-etiqueta se aborda desde dos enfoques que son: transformación y adaptación. El enfoque de transformación utiliza algoritmos de clasificación existentes aplicando métodos de transformación a los datos para que puedan ser procesados por dichos algoritmos (Herrera, et al. 2016). El enfoque de adaptación también utiliza algoritmos de clasificación conocidos, pero, que han sido adaptados para ser capaces de trabajar con datos multi-etiqueta sin necesidad de aplicar métodos de transformación de datos (Herrera et al., 2016). En este trabajo se utiliza el enfoque de adaptación a través del algoritmo ML-KNN propuesto por Zhang & Zhou (2007). El algoritmo ML-KNN, es una derivación del algoritmo vecinos más cercanos. Para predecir el conjunto de etiquetas de una nueva instancia se identifican sus k vecinos más cercanos. Después, basado en información estadística obtenida de los conjuntos de etiquetas de las instancias vecinas (el número de instancias vecinas pertenecientes a cada posible clase), se utiliza el principio de máximo a posteriori para determinar el conjunto de etiquetas de la instancia. Se prueba el algoritmo con diferentes n-gramas para determinar las que permiten una mejor clasificación de las retroalimentaciones con respecto a lo clasificado por expertos en contenido. Los apartados siguientes se describen a continuación. En la sección 2 se proporcionan los preliminares del modelo de retroalimentación de Hattie & Timperley (2007) y la clasificación multi-etiqueta, la sección 3 provee detalles sobre la metodología aplicada para clasificar automáticamente las retroalimentaciones conforme los niveles propuestos por el modelo de Hattie & Timperley (2007). Los resultados y discusión se encuentran en la sección 4 seguido de las conclusiones y trabajo futuro en la sección 5.

2

Preliminares

En esta sección, se presentan los preliminares del trabajo que describen en qué consiste el modelo de retroalimentación propuesto por Hattie & Timperley (2007) y la clasificación multi-etiqueta. 2.1 Modelo de retroalimentación Hattie y Timperley El modelo de Hattie & Timperley (2007), parte de que el propósito de la retroalimentación es reducir las discrepancias entre lo que ha entendido o ha desempeñado un estudiante y el objetivo deseado. Plantea que existen varias formas para reducir la brecha entre lo entendido y lo que se espera, que la retroalimentación no siempre es efectiva en mejorar el aprendizaje y que aquellas que lo son responden a tres preguntas ¿A dónde voy? ¿Cómo llego? ¿Qué sigue después? Las preguntas trabajan de manera conjunta en el nivel tarea, nivel proceso, nivel regulación y nivel de los

46


elogios. Se destaca, que el nivel al que se dirige la retroalimentación influye en la efectividad. Los niveles propuestos en el modelo son: (1) nivel tarea (NT), que se refiere a comentarios que pueden ser sobre la tarea o producto indicando si es correcto o incorrecto, o que incluye indicaciones para adquirir más información diferente o correcta, (2) nivel proceso (NP) referente a comentarios dirigidos al proceso usado para crear un producto o completar una tarea, dirigidos al procesamiento de la información o procesos de aprendizaje que se requieren para comprender o completar la tarea, (3) nivel regulación (NR) que se refiere a comentarios dirigidos a la autorregulación, incluye estrategias para mejorar la autoevaluación o confianza para comprometerse más en una tarea y (4) nivel de elogios (NE), que son comentarios dirigidos al “yo” que no están relacionados con el desempeño de la tarea. Ejemplos de retroalimentaciones en cada nivel se pueden encontrar en Hattie & Timperley ( 2007). 2.2 Clasificación multi-etiqueta La clasificación multi-etiqueta, es una tarea de predicción en la que cada una de las instancias en este caso retroalimentaciones tiene asociado un vector de salidas en vez de un solo valor como es el caso de la clasificación tradicional. El tamaño del vector es ajustado de acuerdo con el número de diferentes etiquetas en el conjunto de datos, donde cada elemento del vector será un valor binario indicando si la etiqueta correspondiente es relevante para el ejemplo o no. Varias etiquetas pueden estar activas a la vez (Herrera et al., 2016). De acuerdo con Charte et al. (2014), en el contexto de la clasificación multi-etiqueta las clases son llamadas etiquetas y el conjunto de etiquetas que pertenece a cada dato de ejemplo en este caso retroalimentaciones se le llama conjunto de etiquetas. La clasificación multi-etiqueta puede abordarse desde varios enfoques: transformación de datos, adaptación de métodos y ensamblaje de clasificadores, Herrera et al. (2016), establece que el primero está basado en métodos de transformación que aplicados a conjuntos de datos multi-etiqueta originales son capaces de producir uno o más conjuntos binarios o multiclase, una vez transformados se pueden emplear clasificadores tradicionales para procesarlos. El segundo, busca adaptar algoritmos existentes para que puedan lidiar con conjuntos de datos multietiqueta produciendo varias salidas en vez de una. El tercero, combina algoritmos adaptados o métodos de transformación de datos para hacer las predicciones. 2.2.1 Métricas de la clasificación multi-etiqueta Para analizar las características de los conjuntos de datos multi-etiqueta se utilizan métricas que de acuerdo con Herrera et al. (2016), tienen el propósito de evaluar el nivel de multiplicidad de etiquetas en los datos. Entre las métricas se encuentran: la cardinalidad, que cuenta el número de etiquetas promedio relevantes para cada instancia en el conjunto de datos; la densidad que se refiere a la cardinalidad normalizada por el número total de todas las posibles etiquetas; MeanIR, que obtiene la proporción máxima de desbalance, es decir, la proporción de

47


la etiqueta más común contra la más rara; el valor SCUMBLE, que mide la concurrencia entre etiquetas frecuentes y raras (Herrera et al., 2016). Además de las métricas para el análisis de conjuntos multi-etiqueta se utilizan otras que permiten medir el desempeño de los clasificadores. La Tabla 1 muestra las utilizadas en este trabajo. Tabla 1. Métricas de desempeño clasificadores multi-etiqueta. Métrica Hamming Loss. F-measure. Exactitud (Accuracy) F1(macro) F1(micro) Tiempo

Descripción Porcentaje de etiquetas mal clasificadas. Promedio ponderado de la precisión y exhaustividad calculado a nivel macro Porcentaje de conjuntos de etiquetas predichas correctamente. Cálculo de métrica F-measure por cada etiqueta, cuenta el total de verdaderos positivos, falsos negativos y falsos positivos Cálculo de la métrica f-measure de manera global, contando el total de verdaderos positivos, falsos negativos y falsos positivos. Cantidad de segundos que pasaron para entrenar el clasificador

Las fórmulas para el cálculo de cada métrica se pueden encontrar en Herrera et al., 2016.

3

Metodología

La metodología para clasificar automáticamente las retroalimentaciones conforme los niveles del modelo Hattie & Timperley (2007)seguida en este trabajo considera cuatro pasos: (1) recolección en integración de datos, (2) preprocesamiento y extracción de características TF-IDF, (3) clasificación, (4) análisis y evaluación. 3.1 Recolección e integración de datos La metodología se aplica en un caso de estudio, se recopilaron del sistema gestor de aprendizaje Blackboard las retroalimentaciones generadas por docentes a las actividades de estudiantes en cursos en línea de la licenciatura en derecho de una universidad pública de México. El conjunto de datos contiene retroalimentaciones escritas en español, generadas por docentes que las publicaron a través de la herramienta de revisión de tareas en el sistema gestor de aprendizaje. El conjunto de datos está compuesto de 11013 retroalimentaciones de 121 cursos de la licenciatura en modalidad en línea en derecho. El promedio de palabras en cada retroalimentación es de 77. Una vez que fueron recopiladas las retroalimentaciones, cada una fue clasificada manualmente por expertos en educación en línea, responsables del diseño instruccional en la elaboración de materiales educativos utilizados en programas educativos en línea, quienes cuentan con experiencia como docentes en línea. Los expertos, siguieron el

48


modelo de retroalimentación de Hattie y Timperley (2007) para ubicar cada retroalimentación en los niveles tarea, proceso, regulación, elogios y otros. Al final de la clasificación manual, se obtuvo un conjunto de datos multi-etiqueta con clases binarias: Clase 0 si una retroalimentación no pertenece a uno de los niveles tarea (NT), proceso (NP), regulación (NR), elogios (NE) y otros (NO); clase 1 si la retroalimentación pertenece a algunos de los niveles. El conjunto de datos multi-etiqueta fue particionado en dos subconjuntos uno para el entrenamiento de los clasificadores y el otro para evaluar el desempeño de los clasificadores. El conjunto de entrenamiento contiene el 66 % del total retroalimentaciones seleccionadas de manera aleatoria. El 34 % restante de las retroalimentaciones forman el conjunto de entrenamiento. La distribución de retroalimentaciones clasificadas por cada nivel se muestra en la Tabla 2. Tabla 2. Distribución de retroalimentaciones por clase en los conjuntos de prueba y entrenamiento. Conjunto de entrenamiento

Conjunto de prueba

Clase NT

NP

NR

NE

47 46 29 63 77 09

27 42 49 67 77 09

37

30 15 46 94 77 09

NO

NT

NP

NR

NE

90

20 66 12 38 33 04

11 53 21 51 33 04

26

12 63 20 41 33 04

NO

Val or

0 1 Tot al

76 69 77 09

6 68 03 77 09

32 78 33 04

38 9 29 15 33 04

En la Tabla 2, se muestran las características de los conjuntos de datos multi-etiqueta para el entrenamiento y prueba. El conjunto de entrenamiento está compuesto por 7709 retroalimentaciones cada una con un conjunto de 5 etiquetas que especifican si encuentra en uno de los niveles o no. El conjunto tiene 23 diferentes combinaciones de etiquetas. La cardinalidad indica que cada retroalimentación tiene 1.48 etiquetas activas al mismo tiempo. El valor de meanIR muestra que existe desbalance a una proporción de 27.5. El valor SCUMBLE indica que existe una baja concurrencia entre las etiquetas desbalanceadas. El conjunto de prueba está formado por 3304 retroalimentaciones. Cada retroalimentación cuenta con un conjunto de 5 etiquetas. El conjunto tiene 21 diferentes combinaciones de etiquetas. La cardinalidad muestra que se tienen 1.4 etiquetas activas por retroalimentación. El promedio de desbalance es de 17.84. El valor SCUMBLE indica que existe baja concurrencia entre las etiquetas desbalanceadas. Tabla 3. Características de los conjuntos multi-etiqueta de entrenamiento y prueba Métrica No. Retroalimentaciones No. Etiquetas No. Conjuntos de sub-etiquetas Cardinalidad Densidad MeanIR Scumble

Conjunto entrenamiento 7709 5 23 1.484 0.296 27.562 0.021

Conjunto prueba 3304 5 21 1.482 0.296 17.84 0.026

49


3.2 Preprocesamiento y cálculo de TD-IDF Siguiendo las recomendaciones de Herrera et al. (2016)para el tratamiento previo que deben tener los textos antes de pasarlos a un algoritmo de clasificación, se preprocesaron las retroalimentaciones de los conjuntos de prueba y entrenamiento de la siguiente manera: (1) se removieron códigos HTML/CSS; (2) se aplicaron métodos de limpieza para obtener solo las palabras y dígitos de cada retroalimentación; se reemplazaron dígitos, direcciones web y nombres de archivos por claves de identificación; (3) se pasaron las retroalimentaciones a minúsculas para poder hacer comparables palabras con el mismo significado; (4) se obtuvieron los lemas de cada una de las palabras; (5) se aplicó un corrector ortográfico que utiliza la distancia de Levenshtein para las palabras con frecuencia menor a 10; (6) se eliminaron las palabras que detienen ('de', 'lo', 'el', 'que', 'en', 'y', 'a', 'ser', 'uno', 'se', 'los’, ‘dígitos', 'del', 'su', 'por', 'no', 'o', 'parir', 'al', 'poder', 'con', 'derecho', 'tu', 'este', 'la'); (7) se aplicó truncamiento; (8) se eliminaron palabras con frecuencias menor a 10. Una vez completada la etapa de preprocesado el paso siguiente fue transformar los documentos en un formato compatible para el análisis de los textos. En esta etapa se convierten las retroalimentaciones en frecuencias que puedan ser usadas por el algoritmo de clasificación. Se transforman las retroalimentaciones en una matriz término-documento representando la frecuencia de cada palabra en cada documento. Se calcula el valor TF-IDF que combina la frecuencia de término y la frecuencia inversa de retroalimentaciones a través de multiplicar el peso de frecuencia local de cada retroalimentación por el peso inverso de la retroalimentación. La fórmula de cálculo se puede encontrar en Anandarajan et al. (2019). El valor TF-IDF es calculado para diferentes n-gramas: un-grama, dos-gramas, tresgramas, uno-dos-gramas, dos-tres-gramas y uno-dos-tres-gramas. 3.3 Clasificación Una vez que los conjuntos de datos de entrenamiento y prueba estuvieron preprocesados y se obtuvieron las frecuencias TF-IDF para cada n-grama, se pasó a la etapa de clasificación. Esta etapa, consistió en aplicar el algoritmo ML-KNN para entrenar clasificadores multi-etiqueta para que aprendieran del conjunto de prueba que contiene la clasificación manual de las retroalimentaciones realizada por los diseñadores instruccionales. En total se entrenaron 6 clasificadores multi-etiqueta usando el enfoque de adaptación con el algoritmo ML-KNN, uno por cada n-grama señalado en la sección anterior. Para el entrenamiento de los clasificadores se utilizó scikit-multilearn que es una librería-BSD para clasificación multi-etiqueta que está construida bajo el ecosistema de scikit-learn. La librería provee entre sus algoritmos el ML-KNN. Se implementó el algoritmo utilizando los parámetros k=3, s=1.0.

50


3.4 Análisis y evaluación El conjunto de prueba se utilizó para evaluar el desempeño de los 6 clasificadores multietiqueta. Se proporcionó a cada clasificador multi-etiqueta las retroalimentaciones del conjunto de prueba sin las clasificaciones realizadas por los diseñadores instruccionales para que clasificaran automáticamente cada una conforme los niveles propuestos de Hattie y Timperley. Después, se compararon las clasificaciones automáticas realizadas por los clasificadores multi-etiqueta con las clasificadas por los diseñadores instruccionales. Las métricas de clasificación multi-etiqueta utilizadas para medir el desempeño de los clasificadores fueron exactitud, promedio ponderado de la precisión y exhaustividad a nivel micro, promedio ponderado de la precisión y exhaustividad a nivel macro, cantidad de etiquetas mal clasificadas y tiempo en segundos en llevar a cabo el entrenamiento, las cuales se describieron en el en la sección 2.

4

Resultados

Los resultados obtenidos del entrenamiento y prueba de los clasificadores multietiqueta utilizando diferentes n-gramas se muestran en la Tabla 4. Cada fila muestra cada clasificador entrenado utilizando las un-grama, dos-grama, tres-grama, uno-dosgrama, dos-tres-grama y uno-dos-tres-gramas mientras que las columnas muestran el valor obtenido al calcular cada métrica de desempeño. Las flechas al lado del nombre de cada métrica indican si es mejor un valor alto o bajo. Se logra una clasificación aceptable con respecto a lo etiquetado por los expertos como lo muestra la métrica Hamming Loss logrando obtener un valor de 0.141, que quiere decir que de cada 100 etiquetas que se predicen 85 estarán bien. Para la métrica F1(micro) se obtienen valores mayores al 73.5% lo cual indica que se tiene un balance aceptable entre la precisión y exhaustividad cuando se considera el desbalance entre clases. Para la métrica Accuracy se lora obtener un valor 0.55 es decir, que de 100 retroalimentaciones 55 tendrán el conjunto de las 5 etiquetas correctamente clasificadas, el resto podrá tener alguna etiqueta incorrecta. La métrica F1(macro) que mide el balance de precisión y exhaustividad dando el mismo peso a cada clase proporciona valores bajos alcanzando el máximo de 0.586, esta métrica podría mejorarse si aplica algún método de balanceo de las clases. Para determinar cuál de los clasificadores tiene un mejor desempeño se utilizó una gráfica radial. En la gráfica radial de la Figura 1, cada vértice corresponde a una de las métricas evaluadas y los puntos que corresponden a un solo clasificador multi-etiqueta son conectados para formar un polígono. Mientras mayor es el área del polígono mejor es la clasificación.

51


Tabla 4. Resultados de evaluación de clasificadores Métrica N-grama un-grama dos-grama tres-grama uno-dos-grama dos-tres-grama uno-dos-tresgrama

Hamming Loss ↓ 0.156 0.141 0.205 0.153 0.141

F1 (micro) ↑ 0.735 0.738 0.61 0.739 0.737

Exactitud ↑ 0.55 0.517 0.362 0.55 0.511

0.152

0.741

0.556

F1 (macro) ↑ 0.586 0.526 0.325 0.57 0.526 0.569

Tiempo ↓ 144 213 268 513 456 780

Se observa que se logran valores similares para las métricas cuando se utilizan cinco de los seis n-gramas utilizados. El uso de tres-grama logra un bajo desempeño en la clasificación en comparación con las demás n-gramas.

Fig. 1. Radial de métricas de desempeño de clasificadores. Respecto al tiempo en segundos que se tardó el algoritmo en entrenar utilizando cada n-grama, la Figura 2, muestra que se invierte menos tiempo cuando se utiliza un-grama lo cual la hace la opción más viable al obtener métricas similares con los otros ngramas.

Fig. 2. Tiempo en segundos para el entrenamiento de clasificadores.

52


5

Conclusiones y trabajo futuro

En este trabajo se analiza cómo se desempeña a el algoritmo ML-KNN en la clasificación automática de retroalimentaciones que genera un docente a las actividades enviadas por los estudiantes en cursos en línea conforme los niveles propuestos por el modelo de Hattie & Timperley (2007) para ubicarlas en los niveles tarea, proceso, regulación, elogios y otros comprando seis diferentes n-gramas. Se muestra que el algoritmo ML-KNN permite la clasificación automática de retroalimentaciones cercana a como lo harían los expertos de manera manual si se considera el total de etiquetas predichas con solo 14 de cada 100 clasificadas incorrectamente. Se detecta que el tiempo de entrenamiento de los clasificadores multi-etiqueta será mayor cuando se utilizan n-gramas diferentes a un-grama no mejorando de manera significativa las métricas de desempeño. Como trabajo futuro, se buscará mejorar el valor de la métrica de exactitud a través de la afinación de hiperparámetros del algoritmo MLKNN, con el fin de aumentar el porcentaje de retroalimentaciones con las 5 etiquetas correctamente predichas.

Referencias 1. Aguerrebere, C., Cabeza, S. G., Kaplan, G., Marconi, C., Cobo, C., & Bulger, M. (2018). Exploring feedback interactions in online learning environments for secondary education. CEUR Workshop Proceedings, 2231. 2. Ajjawi, R., & Boud, D. (2017). Researching feedback dialogue: an interactional analysis approach. Assessment and Evaluation in Higher Education, 42(2), 252–265. https://doi.org/10.1080/02602938.2015.1102863 3. Al-Salemi, B., Ayob, M., Kendall, G., & Noah, S. A. M. (2019). Multi-label Arabic text categorization: A benchmark and baseline comparison of multi-label learning algorithms. Information Processing and Management, 56(1), 212–227. https://doi.org/10.1016/j.ipm.2018.09.008 4. Alvarado García, M. A. (2014). Retroalimentación en Educación en Línea: Una estrategia para la construcción del C. RIED. Revista Iberoamericana de Educación a Distancia, 17(2), 59–73. https://doi.org/10.5944/ried.17.2.12678 5. Blanco, A., Perez-de-Viñaspre, O., Pérez, A., & Casillas, A. (2020). Boosting ICD multi-label classification of health records with contextual embeddings and label-granularity. Computer Methods and Programs in Biomedicine, 188. https://doi.org/10.1016/j.cmpb.2019.105264 6. Brooks, C., Carroll, A., Gillies, R. M., & Hattie, J. (2019). A matrix of feedback for learning. Australian Journal of Teacher Education, 44(4), 14–32. https://doi.org/10.14221/ajte.2018v44n4.2 7. Cabrera-Diego, L. A., Bessis, N., & Korkontzelos, I. (2020). Classifying emotions in Stack Overflow and JIRA using a multi-label approach. Knowledge-Based Systems, 195. https://doi.org/10.1016/j.knosys.2020.105633 8. Cavalcanti, A. P., Diego, A., Mello, R. F., Mangaroska, K., Nascimento, A., Freitas, F., & Gaševic, D. (2020). How good is my feedback? a content analysis ofWritten feedback. ACM International Conference Proceeding Series, March, 428–437. https://doi.org/10.1145/3375462.3375477

53


9. Charte, F., Rivera, A., Del Jesus, M. J., & Herrera, F. (2014). Concurrence among imbalanced labels and its influence on multilabel resampling algorithms. Hybrid Artificial Intelligence Systems, 8480 LNAI, 110–121. https://doi.org/10.1007/978-3-319-07617-1_10 10.Fui, C. S., & Lian, L. H. (2018). The effect of computerized feedback on students’ misconceptions in algebraic expression. Pertanika Journal of Social Sciences and Humanities, 26(3), 1387–1403. 11.Harris, L. R., Brown, G. T. L., & Harnett, J. A. (2015). Analysis of New Zealand primary and secondary student peer- and self-assessment comments: applying Hattie and Timperley’s feedback model. Assessment in Education: Principles, Policy and Practice, 22(2), 265–281. https://doi.org/10.1080/0969594X.2014.976541 12.Hattie, J., & Timperley, H. (2007). The power of feedback. In Review of Educational Research (Vol. 77, Issue 1, pp. 81–112). https://doi.org/10.3102/003465430298487 13.Hernández Gallardo, S. C. (2007). El constructivismo social como apoyo en el aprendizaje en línea. Apertura, 7(7), 46–62. 14.Herrera, F., Charte, F., Rivera, A. J., & Del Jesus, M. J. (2016). Multilabel classification. In Multilabel Classification (pp. 17–31). Springer. 15.Pardo, A., Jovanovic, J., Dawson, S., Gašević, D., & Mirriahi, N. (2019). Using learning analytics to scale the provision of personalised feedback. British Journal of Educational Technology, 50(1), 128–138. https://doi.org/10.1111/bjet.12592 16.Quesada Castillo, R. (2019). Evaluación del aprendizaje en la educación a distancia “en línea.” RED. Revista de Educación a Distancia, 15. http://www.um.es/ead/red/M6 17.Ramírez, G. R., & Valdés, D. E. (2019). El modelo de retroalimentación de Hattie y Timperley como estrategia para favorecer el cambio en las percepciones sobre la evaluación formativa en docentes y alumnos. Revista de Investigación Educativa de la Escuela de Graduados en Educación, 10(19), 75–87. https://www.rieege.mx/index.php/rieege/article/view/568 18.Shute, V. J. (2008). Focus on formative feedback. Review of Educational Research, 78(1), 153–189. https://doi.org/10.3102/0034654307313795 19.Szymánski, P., & Kajdanowicz, T. (2019). Scikit-multilearn: A scikit-based Python environment for performing multi-label classification. Journal of Machine Learning Research, 20(February 2017). https://doi.org/10.5281/zenodo.3670934 20.Uribe, S. N., & Vaughan, M. (2017). Facilitating student learning in distance education: a case study on the development and implementation of a multifaceted feedback system. Distance Education, 38(3), 288–301. https://doi.org/10.1080/01587919.2017.1369005 21.Van der Kleij, F. M., Feskens, R. C. W., & Eggen, T. J. H. M. (2015). Effects of Feedback in a Computer-Based Learning Environment on Students’ Learning Outcomes: A MetaAnalysis. Review of Educational Research, 85(4), 475–511. https://doi.org/10.3102/0034654314564881 22.Wisniewski, B., Zierer, K., & Hattie, J. (2020). The Power of Feedback Revisited: A MetaAnalysis of Educational Feedback Research. In Frontiers in Psychology (Vol. 10). https://doi.org/10.3389/fpsyg.2019.03087 23.Zhang, M. L., & Zhou, Z. H. (2007). ML-KNN: A lazy learning approach to multi-label learning. Pattern Recognition, 40(7), 2038–2048. https://doi.org/10.1016/j.patcog.2006.12.019

54


Capítulo 6. Reconocimiento Automático de Emociones Centradas en el Aprendizaje: Una Revisión del Estado del Arte Yesenia Nohemí González-Meneses, Josefina Guerrero-García Facultad de Ciencias de la Computación, Benemérita Universidad Autónoma de Puebla, Av. San Claudio, Blvr. 14 sur, Cd. Universitaria, 72592, Puebla, Pue. yesenia.gonzalezm@alumno.buap.mx, josefina.guerrero@correo.buap.mx

Resumen. En este trabajo se presenta una revisión del estado del arte sobre el reconocimiento automático de emociones centradas en el aprendizaje (ECA). El problema del reconocimiento automático de emociones es un tema de investigación altamente activo en los últimos años. Sin embargo, diversos inconvenientes han influido en la construcción de una solución apropiada desde el punto de vista computacional. Por un lado, un factor que afecta el desempeño de los reconocedores de emociones en contextos reales es la dificultad de generar bases de datos con emociones espontáneas. Por otro lado, está el reto de extracción y selección de características que permitan reconocer emociones en los datos capturados de manera espontánea. A pesar de que los avances en el área han sido importantes, es evidente que en contextos realistas aún falta bastante por hacer. Palabras Clave: Reconocimiento Automático, Emociones Centradas en el Aprendizaje, Bases de Datos de Expresiones Faciales de Emociones.

1

Introducción

En este trabajo se hace una revisión de investigaciones del área de interacción humanocomputadora específicamente sobre el reconocimiento automático de ECA tales como: interés, frustración, confusión, aburrimiento y sorpresa; presentadas cuando estudiantes realizan una actividad de aprendizaje a través de algún dispositivo electrónico y usando algún software educativo. El objetivo es identificar el avance hacia el reconocimiento de ECA producidas de manera espontánea y capturadas en contextos educativos utilizando técnicas de aprendizaje computacional. El análisis también involucra una revisión de las bases de datos con información sobre ECA. Las bases de datos con información fisiológica y de comportamiento capturada de manera espontánea son cruciales para alcanzar mejores precisiones de reconocimiento. Con esto identificamos que la problemática en la creación de las bases de datos es la complejidad para capturar datos en ambientes reales. Este documento se divide en 4 apartados principales, en el segundo se definen los conceptos relacionados a la teoría de las emociones y los diferentes enfoques utilizados para su reconocimiento automático. En el tercero se

55


analiza el estado del arte sobre la investigación en el reconocimiento automático de ECA. En el apartado cuatro se presenta un análisis de las bases de datos con información utilizada para el reconocimiento de ECA. Y finalmente, se hace una reflexión sobre la información analizada.

2

Preliminares

El cómputo afectivo es el estudio y desarrollo de sistemas y dispositivos que pueden reconocer, interpretar, procesar y simular el afecto humano. Se relaciona directamente con las emociones, específicamente sobre lo que son las emociones humanas, cómo y cuándo son producidas y lo que ellas generan. El cómputo afectivo puede ayudar a desarrollar y probar nuevas y viejas teorías sobre las emociones. También incluye la habilidad de reconocer y expresar emociones, para responder inteligentemente a la emoción del humano, y hacer posible regularlas y utilizarlas. Por su parte, uno de los retos del cómputo inteligente es la habilidad para reconocer emociones, es decir, inferir un estado emocional desde la observación de expresiones y razonar sobre la situación que genera la emoción. En Cowie et al. (2001) se define a la emoción como un episodio de cambios sincronizados e interrelacionados en los estados de todos o la mayoría de los cinco subsistemas del organismo en respuesta a la evaluación de un evento de estímulo externo o interno relevante para las principales preocupaciones del organismo. Hill (2014) las define como sucesos espontáneos que se desarrollan dentro de nosotros. Ayudan a movilizar al cuerpo para salir de una situación de urgencia. Tienen un inicio, una cúspide y, por lo general, se atenúan en pocos segundos. Son sumamente propensas a detonar estímulos que conducen a la acción; son mucho más intensas que los estados de ánimo. Al examinar las opiniones expuestas por diversos expertos en la materia (Cornelius, 1996), surge un consenso psicofisiológico (mente/cuerpo). Existen tres cualidades universales que caracterizan las emociones: 1) Un componente de sentimiento, sensaciones físicas incluyendo cambios químicos en el cerebro. 2) Un componente de pensamiento, apreciaciones “racionales” conscientes o intuitivas. 3) Un componente de acciones expresivas (sonrisas o fruncir el ceño), al igual que conductas de afrontamiento (pelea o huida). A veces existe opcionalmente un componente sensorial como la vista, el sonido, etcétera, que se inmiscuye y sirve como detonador de la respuesta emocional. El reconocimiento de emociones en los seres humanos tiene sus inicios con el análisis gestual haciendo observaciones detalladas, ya que las expresiones faciales son uniformes y universales. Charles Darwin fue el primero en descubrir la sorprendente verdad acerca de la naturaleza innata y preprogramada de las expresiones faciales (Darwin, 1890). Por desgracia, no fue sino hasta mediados de 1960 que el Dr. Paul Ekman, profesor de la Universidad de California San Francisco y su colega Wally Friesen crearon el Sistema de Codificación de Acción Facial (FACS, Facial Action Coding System), haciendo posible cuantificar las emociones y definir siete emociones básicas: sorpresa (neutra), temor, enojo, tristeza, repugnancia y desprecio (negativas), felicidad (positiva), (Ekman, 2003). Las unidades de acción facial (AUs) codifican las acciones fundamentales (se han identificado 46 AUs) de un músculo o de un grupo de

56


músculos típicamente vistos cuando la expresión facial de una emoción en particular es producida. Para reconocer la emoción facial, la AU individual es detectada y el sistema de clasificación facial la categoriza de acuerdo con la combinación de AUs. Así, por ejemplo, para la emoción de “sorpresa”, las AUs presentes y que determinan la emoción son: AU1 (levantar la ceja interior), AU2 (levantar la ceja exterior), AU5 (subir el parpado), AU25 (separar los labios) y AU26 (dejar caer la mandíbula). A partir del modelo de emociones básicas es posible ampliar el conjunto de emociones para anticipar más situaciones y considerar emociones específicas para un contexto. Cada emoción secundaria es una combinación de dos emociones primarias, por ejemplo, indignación es una combinación de enojo y sorpresa. Cuando tomamos en cuenta todas las combinaciones de la lista de Ekman, se crean en total 30 emociones. Es en la clase de emociones secundarias donde se encuentran las ECA. En el área de ambientes de aprendizaje existe un consenso en la definición de cuatro estados cognitivos-afectivos: aburrimiento, interés, frustración y confusión (Nye et al., 2017), que son las emociones que se presentan en contextos educativos cuando estudiantes realizan alguna actividad de aprendizaje (D’Mello y Graesser, 2012). Así las emociones secundarias se pueden tomar como referencia universal mensurables contra las cuales se pueden cuantificar metas específicas en forma científica (Hill, 2014). Los psicólogos han usado dos métodos para obtener reportes personales de la experiencia emocional: (1) el enfoque de emociones discreto, y (2) el enfoque dimensional. El primero, describe las expresiones como estados claramente separados. En el segundo método, el enfoque dimensional, se sugiere que los sentimientos subjetivos pueden ser descritos por su posición en un espacio tridimensional formado por la dimensión de placer o valencia (positiva-negativa), activación o incitación (calma-excitación), y dependencia o tensión (tenso-relajado). Estas tres dimensiones se usan para describir el fenómeno mental de los sentimientos y varían con estados medibles del cuerpo tales como la incitación fisiológica. Por otro lado, las expresiones faciales es uno de los canales de comunicación no verbal más importante para expresar las emociones internas y las intenciones. El reconocimiento de expresiones faciales (FER, Facial Expression Recognition) automatizado ha sido un tema de estudio por décadas. Aunque hay muchos avances en el desarrollo de sistemas de FER, muchos de ellos muestran comportamiento inadecuado en aplicaciones prácticas o carencia de generalización debido a las condiciones controladas en las cuales fueron desarrollados. El reconocimiento de expresiones es un proceso muy retador dividido en tres fases: inicio, ápice y culminación, el ápice describe la expresión en su máxima intensidad y la culminación describe la expresión desvaneciéndose. La mayoría de las veces la entrada del evento de la expresión facial desde el inicio hasta su culminación es muy rápido, lo cual hace al proceso de reconocimiento muy complejo. Muchos métodos han sido propuestos para el FER. Los enfoques tradicionales principalmente consideran imágenes independientes e ignoran las relaciones temporales de fotogramas consecutivos en una secuencia lo cual es esencial para reconocer cambios sutiles en la apariencia de imágenes faciales especialmente en la transición de emociones entre fotogramas. Ya sea considerando imágenes individuales o una secuencia de fotogramas, en los enfoques tradicionales el primer paso consiste en la extracción de características bajo diferentes estrategias. Como, por ejemplo, con modelos de apariencia activa (AAM, Active Appearance Models) (Lucey, Cohn et al,

57


2010), transformaciones afines (Berger, 2006) y análisis procrustes (Gower, 1975), entre otros. Por su parte, el aprendizaje computacional (ML, Machine Learning) se encarga de estudiar y modelar computacionalmente los procesos de aprendizaje en sus diversas manifestaciones. Así, el aprendizaje computacional se refiere a las técnicas empleadas en computación para crear programas que aprendan a realizar una tarea de manera eficiente. Tom Mitchell define aprendizaje computacional diciendo que un programa de computadora aprende de la experiencia E, con respecto a alguna tarea T, y a alguna medida de ejecución P, si su ejecución sobre T medida por P mejora con la experiencia E (Mitchell, 2009). Dos tipos principales de aprendizaje computacional son identificados: 1) aprendizaje supervisado, la idea es enseñarle a la computadora cómo hacer algo, y 2) aprendizaje no supervisado, la idea es dejar que la computadora aprenda por sí misma, sin indicarle cómo hacer algo.

3

Reconocimiento automático de ECA

Partimos de consultas generales sobre el reconocimiento automático de emociones del año 2016 a junio de 2019. De este total de publicaciones aproximadamente el 60% de ellas corresponden a investigaciones en el campo de las ciencias computacionales y el 40% corresponden a investigaciones de otras áreas como educación, psicología, neurología, neuropsicología, psiquiatría, entre otras. Así que tomamos este 60% para iniciar nuestro análisis estado del arte. En la primera etapa de revisión se analizaron trabajos sobre interacción humano computadora (HCI, Human Computer Interaction) con la idea de identificar las diferentes tecnologías de adquisición de datos fisiológicos y de comportamiento en seres humanos y para conocer los avances en la teoría del cómputo afectivo. Posteriormente, identificamos que gran parte de los avances en el reconocimiento automático de emociones usan cámaras de video y diademas para obtener lecturas de las ondas cerebrales se hizo una revisión de trabajos sobre identificación de emociones a partir de electroencefalogramas (EEG) y video. La mayor parte de estas investigaciones (aproximadamente el 80%) se enfocan en el reconocimiento de las emociones básicas de: alegría, tristeza, enojo, miedo, asco, sorpresa y neutro; y sólo algunos pocos (aproximadamente el 20%) intentan reconocer emociones centradas en el aprendizaje como interés, aburrimiento, frustración, confusión, excitación y sorpresa. De esta manera el análisis comparativo del estado del arte que se presenta consiste en una recopilación de artículos enfocados específicamente al reconocimiento de emociones en actividades de aprendizaje y a la identificación de la relación emociónaprendizaje. Hay una clara diferencia en la literatura encontrada. Existen trabajos que, aunque realizan una identificación de emociones le dan mayor relevancia al análisis de la relación emoción-aprendizaje (aproximadamente el 37%), mientras que otros hacen énfasis especialmente en los algoritmos para reconocimiento automático de emociones y la tasa de reconocimiento alcanzada dando poca importancia al análisis de la relación emoción-aprendizaje (aproximadamente el 63%). Para este trabajo nos enfocamos en el problema computacional del reconocimiento automático de emociones y consideramos las publicaciones más recientes. En el trabajo de González-Hernández et

58


al (2017) se utiliza una red neuronal convolucional para el reconocimiento de ECA. Ejecutan pruebas usando tres bases de datos: RaFD, base de datos de expresiones faciales posadas conteniendo imágenes de 8 emociones básicas y dos bases de datos espontáneas creadas por ellos mismos especialmente con contenido de emociones centradas en el aprendizaje. Las emociones que reconocen son: interesado, excitado, aburrido y relajado. Concluyen que en la literatura no hay ningún trabajo que aplique el enfoque de aprendizaje profundo para el reconocimiento de emociones en la educación. La precisión que alcanzan al utilizar la base de datos RaFD es de 95% mientras que con las otras dos bases de datos alcanzan 88% y 74% respectivamente. En el trabajo de Mehmood y Lee (2017) se propone un método asistido por computadora para instructores de escuelas especiales, donde enseñan a alumnos con desórdenes mentales o problemas emocionales con un sistema que trabaja tecnologías usables y reconocimiento inteligente de emociones. El módulo de reconocimiento de emociones inicia con la captura de la señal de diademas cerebrales. Extraen características que procesan con dos clasificadores: máquina de vectores de soporte y k-vecinos cercanos con una validación cruzada de 10 iteraciones. El estado emocional identificado es enviado a un módulo administrador de información para continuar con el módulo de tratamiento de la información de acuerdo con la condición mental detectada. Las emociones que reconocen son: felicidad, calma, tristeza y miedo. Un módulo de expresión muestra al instructor las sugerencias de tratamiento de acuerdo con el estado emocional detectado. No presentan una evaluación de precisión de reconocimiento. Este trabajo identifica emociones básicas y aunque analiza el comportamiento de alumnos en un proceso de enseñanza no se enfoca a reconocer emociones centradas en el aprendizaje. En Zatarain-Cabada et al (2017) se implementa un patrón local binario para el reconocimiento de emociones centradas en el aprendizaje. El propósito de este trabajo es construir una base de datos de expresiones faciales espontáneas correspondientes a estados afectivos en educación para ser usada en diferentes sistemas tutoriales inteligentes. Las tecnologías que utilizan son video y diademas de EEG (EmotivEPOC). Las ECA que reconocen son: frustración, aburrimiento, compromiso y entusiasmo. Para construir la base de datos toman fotografías de las expresiones faciales de los estudiantes y con el estado afectivo detectado con las señales del EEG etiquetan cada una de las imágenes. Obtienen una base de datos con 730 fotogramas etiquetados. Inician el proceso de reconocimiento de emociones aplicando cinco diferentes filtros a las imágenes, para después aplicar el operador uniforme del patrón local binario (PLB), los histogramas de la imagen del PLB son usados como descriptores de características. Cada histograma es concatenado y normalizado en un vector. Un clasificador de máquina de vectores de soporte recibe el vector de característica para hacer la clasificación de emociones. Alcanzan una precisión de 80% con una desviación estándar de 2%. La misma base de datos la utilizan en otros trabajos como ZatarainCabada et al. (2017). En este trabajo los alumnos programan en código Java. Obtienen una precisión por emoción con la siguiente distribución: aburrido de 64%, interesado de 64%, excitado de 83% y frustrado de 62%. El mismo modelo para el reconocimiento de emociones lo usan también en Zataraín et al. (2017), como parte de un medio ambiente de aprendizaje afectivo basado en la Web 3.0 para aprender a programar en Java. Sus evaluaciones están enfocadas en analizar el impacto de la herramienta de software sobre el comportamiento de los estudiantes y en evaluar el aprendizaje

59


obtenido después de utilizar la herramienta. La base de datos utilizada en los trabajos antes mencionados de Zatarain es creada en Barrón-Estrada et al. (2016). Explican ampliamente el proceso de construcción de la base de datos, la depuración de esta y su evaluación en una aplicación para el reconocimiento de emociones. El trabajo de Arana-Llanes et al. (2017) propone diferentes actividades recomendadas para inducir un determinado estado mental y la respuesta del EEG para cada uno de ellos. Estas actividades están basadas en pruebas psicológicas que están dedicadas a medir el nivel de atención, concentración y otras funciones. En el proceso de clasificación utilizan k-means y clustering con una tasa total de concentración de 96% de 3592 instancias. En Botelho et al. (2017), intentan mejorar la detección de afecto libre de sensores a través de “aprendizaje profundo” con Redes Neuronales Recurrentes (RNNs). Codificadores humanos observaban a los estudiantes mientras hacen uso de la plataforma de aprendizaje en línea ASSISTments y etiquetan el afecto de los estudiantes en intervalos de 20 segundos. Las emociones etiquetadas fueron aburrido, frustrado, confundido, concentrado e imposible de codificar. Sus datos los obtuvieron de 646 alumnos de 6 escuelas diferentes. Usan las etiquetas y características en tres modelos de aprendizaje profundo: red neuronal recurrente tradicional (RNN), red neuronal de unidad recurrente cerrada (GRU) y red de memoria de término largo-corto (LSTM). Evalúan su modelo con tres estadísticas: área bajo la curva (AUC ROC/A’), Cohen’s kappa y Fleiss’ kappa con una validación cruzada de 5-folds. Los mejores resultados los obtienen para AUC= 0.78% con RNN, para Cohen’s kappa= 0.21% con LSTM y para Fleiss kappa= 0.27% con LSTM. En este trabajo lo que puede hacer imprecisos sus resultados es el etiquetado hecho por terceros, humanos que tienen la probabilidad de errar en el momento de juzgar el estado emotivo de los estudiantes y cuyas etiquetas son las que utilizan para validar la interacción del estudiante con el sistema. En los artículos de Bosch et al. (2016) y Bosch N. et al. (2016) utilizaron visión por computadora, análisis del aprendizaje y aprendizaje computacional para detectar el afecto de los estudiantes en un entorno real en el laboratorio de computación de una escuela con al menos treinta estudiantes. Los estudiantes se movían, gesticulaban y hablaban entre ellos, lo que dificultó la tarea. A pesar de estos desafíos, pudieron detectar el aburrimiento, la confusión, el deleite, la frustración y el interés. Utilizan 14 clasificadores diferentes, incluidos clasificadores bayesianos, regresión logística, clasificación mediante clustering (con k-means), árboles C4.5, etc., utilizando implementaciones estándar de la herramienta de aprendizaje computacional WEKA (Waikato Environment for Knowledge Analysis). Presentan la mejor tasa de reconocimiento por clasificador: aburrimiento 64% (k-means), confusión 74% (Bayes net), placer 83% (Naïve Bayes), interés 64% (Bayes net) y frustración 62% (Bayes net). En Monkaresi et al. (2016) usan técnicas de visión por computadora para detectar el interés de 22 alumnos mientras realizan actividades de escritura. Para la captura de datos utilizan el sensor del Kinect de Microsoft y graban las señales del electrocardiograma utilizando el sistema BIOPAC MP150, usando tres electrodos colocados en la cintura y en el tobillo de los estudiantes. Extraen tres conjuntos de características de videos, ritmo cardíaco y de las unidades de animación del rastreador de rostros del Kinect de Microsoft. Usan el patrón local binario en tres planos ortogonales para describir la apariencia y dinámica de los objetos faciales sobre las

60


imágenes de video. Detectan ojos y boca y sobre cada secuencia de video extraen 2304 características. Finalmente, siete características estadísticas fueron extraídas de la estimación del ritmo cardíaco para cada segmento de video. Sobre estas características aplicaron técnicas de selección de características y algoritmos de aprendizaje computacional como Naïve Bayes, Red Bayesiana, regresión logística, clusterización, bosque de rotación y ensamble de algoritmos de clasificación base diez. Obtienen con validación cruzada un área bajo la curva ROC de 0.758, para anotaciones concurrentes y 0.733 para anotaciones de retrospectiva. Este trabajo está enfocado en la detección de una única emoción, interesado.

4

Bases de datos de señales fisiológicas y de comportamiento

Las bases de datos de expresiones de emociones son una colección de imágenes, videos, voz y señales fisiológicas relacionadas con un amplio rango de emociones. Su contenido corresponde a expresiones de emociones relacionadas al contexto en donde fueron capturadas y en base al cual son etiquetadas, esto es esencial para el entrenamiento, prueba y validación de algoritmos para el desarrollo de sistemas de reconocimiento de expresiones (Krumhuber et al, 2020). Las bases de datos de expresiones de emociones en su mayoría están formadas solo por expresiones faciales y se clasifican en actuadas y espontáneas. En el caso de las expresiones actuadas, se les pide a los participantes que muestren diferentes expresiones emocionales, mientras que, en las bases de datos espontáneas las expresiones son naturales. Las expresiones espontáneas difieren de las actuadas notablemente en términos de intensidad, configuración y duración. En la mayoría de los casos, las expresiones actuadas son exageradas, mientras que las espontáneas son sutiles y difieren en apariencia. Además de esto, la síntesis de algunas UA apenas es alcanzable sin experimentar el estado emocional asociado por lo que no es posible capturar datos fisiológicos ya que estos no pueden ser controlados por las personas y por lo tanto no corresponden a la emoción actuada. A continuación, se muestra una recopilación de bases de datos de expresiones faciales la cual es el resultado del análisis de las investigaciones más recientes sobre reconocimiento de ECA descrito en el apartado 3. Aunque nuestro interés recae en bases de datos híbridas que contengan imágenes faciales y datos fisiológicos hasta el momento solo hemos encontrado disponible públicamente una base de datos de este tipo. La base de datos DEAP (Soleymani et al, 2012) contiene grabaciones fisiológicas (de EEG) y video facial de un experimento donde 32 voluntarios vieron un subconjunto de 40 videos musicales. En la Tabla 1 se muestran los detalles de bases de datos de expresiones faciales espontáneas. Estas corresponden a ECA que han sido capturadas mientras los estudiantes realizan alguna actividad de aprendizaje en un entorno natural. Algunas de ellas contienen datos fisiológicos, pero desafortunadamente no están disponibles al público, no proporcionan información sobre características de los datos, ni detalles del procesamiento que hacen con ellos. De estas bases de datos cuatro incluyen fisiológicos. De ellas la más completa es la mencionada en (Arroyo et al, 2009), en la que participan 67 estudiantes y utilizan tres sensores de datos fisiológicos

61


y una cámara de video. En general la mayoría de estas bases de datos han sido creadas con datos de muy pocos participantes. Tabla 1. Bases de datos de expresiones faciales de emociones centradas en el aprendizaje Base de Datos Base de datos propia de (Nye et al, 2017)

Expresión Facial

Base de datos propia de (BarrónEstrada et al, 2016) Base de datos propia de (Bosch et al, 2016)

Frustrado, confundido, enganchado e interesado Interesado, aburrido, frustrado, confundido, sorprendido, complacido, curioso, feliz y neutral Interesado, aburrido, frustrado y excitado Complacido, frustrado, confundido, interesado y aburrido

Base de datos propia de (Arroyo et al, 2009)

Interesado, excitado, confiado y frustrado

Base de datos propia de (Xiao, et al, 2017)

5

# de Participantes

Número de imágenes/videos

Tipo / Herramienta de Software

39 estudiantes

30 a 60 minutos de video por estudiante

Espontáneas/Sistema Tutor Inteligente

Imágenes 22 estudiantes universitarios

8 estudiantes 137 estudiantes Dos grupos de 38 y 29 estudiantes de preparatoria

Video and EEG (etiquetas del modelo discreto) Video y observación con el método BROMP (Para detector el estado afectivo de los estudiantes por observación) Sensores fisiológicos (video cámara, mouse, silla y pulsera)

Espontáneas/Sistema Administrador de aprendizaje

Espontáneas/Tutor Inteligente Espontáneas/Juego Educativo “Physics Playground” Espontáneas/Sistema tutorial adaptativo multimedia para geometría.

Conclusiones

La mayoría de los trabajos tratan de reconocer las principales emociones centradas en el aprendizaje: frustración, interés, aburrimiento, confusión, excitación y sorpresa. Los resultados que alcanzan en el reconocimiento de estas emociones son subjetivos, ya que en su mayoría están basados en un etiquetamiento humano sobre el que no dan detalles del entrenamiento de los etiquetadores o de sus estrategias para realizar el etiquetado. Aunque mencionan que reconocen varias ECA, en la mayoría de los casos lo hacen sobre bases de datos muy pequeñas y actuadas y considerando emociones básicas. Los algoritmos más utilizados para este propósito son: máquina de vectores de soporte (SVM), regresión lineal y ensambles de algoritmos. El porcentaje de exactitud de reconocimiento varía desde el 62% al 88%, dependiendo de las métricas utilizadas para evaluar sus resultados. En este sentido es importante considerar estrategias de aprendizaje profundo que probablemente ofrecerán mejores rangos de reconocimiento. Muchos de los trabajos revisados generan sus propias bases de datos con un número de alumnos que van desde 22 hasta 646 (en una investigación libre de sensores), algunos otros utilizan bases de datos actuadas y de expresiones genéricas como RAFD, JAFFEE o Grimace. Sobre la construcción de la base de datos es importante resaltar que ninguno de los trabajos revisados establece estrategias para una recolección formal de los datos como lo proponemos nosotros para dar una formalidad al uso de los datos y validez a la base de datos. Las tecnologías de adquisición de datos que predominan son las cámaras web y las diademas Emotiv, algunos otros trabajos hacen uso del Kinect de Windows, aplicación de detección del ritmo cardíaco, sensores de silla y pulseras

62


cardiovasculares. En cuanto a las tecnologías de captura de datos lo importante es poder relacionar los datos de cada dispositivo e integrarlos en un solo conjunto de características asociadas a una emoción específica, trabajo que seguramente debe hacerse en una etapa posterior al tratamiento individual de cada señal. De los trabajos que utilizan diferentes dispositivos para la captura de datos ninguno describe como es que los relaciona e integra para el reconocimiento de las emociones. Después de este análisis hemos identificado como un área de oportunidad de investigación la creación de una base de datos fisiológicos y de comportamiento respaldada por un protocolo formal para la captura de datos espontáneos en contextos educativos. La definición del protocolo debe permitir ejecutar un experimento controlado en un ambiente natural y que pueda replicarse el número de veces necesarias para crear una base de datos robusta que contribuya a mejorar las métricas de evaluación de los reconocedores automáticos de ECA en la etapa de clasificación.

Referencias 1. Arana-Llanes, J. Y., González-Serna, G., Pineda-Tapia, R., Olivares-Peregrino, V., RicarteTrives, J. J., & Latorre-Postigo, J. M. (2017). EEG lecture on recommended activities for the induction of attention and concentration men tal states on e-learning students. Journal of Intelligent & Fuzzy Systems. 2. Arroyo, I., Cooper, D. G., Burleson, W., Woolf, B. P., Muldner, K., & Christopherson, R. (2009). Emotion sensors go to school. Frontiers in Artificial Intelligence and Applications, 200(1), pp. 17–24. https://doi.org/10.3233/978-1-60750-028-5-17 3. Barrón-Estrada, M. L., Zatarain-Cabada, R., Aispuro-Medina, B. G., Valencia-Rodríguez, E. M., & Lara-Barrera, A. C. (2016). Building a Corpus of Facial Expressions for LearningCentered Emotions. In Research in Computing Science. (Vol. 129, pp. 45–52). México. 4. Berger, M. (2006). A panoramic view of riemannian geometry. The Mathematical Intelligencer, 28(2), 73–74. https://doi.org/10.1007/bf02987161 5. Bosch, N., D’Mello, S. K., Baker, R. S., Ocumpaugh, J., Shute, V., Ventura, M., … Zhao, W. (2016). Detecting student emotions in computer-enabled classrooms. IJCAI International Joint Conference on Artificial Intelligence, 2016-Janua, pp. 4125–4129. 6. Bosch, N., D’mello, S. K., Ocumpaugh, J., Baker, R. S., & Shute, V. (2016). Using Video to Automatically Detect Learner Affect in Computer-Enabled Classrooms. ACM Transactions on Interactive Intelligent Systems, 6(2), pp. 1–26. https://doi.org/10.1145/2946837 7. Botelho, A. F., Baker, R. S., & Heffernan, N. T. (2017). Improving Sensor-Free Affect Detection Using Deep Learning. Artificial Intelligence in Education. Springer, LNAI 10331(ISBN 978-3-319-61424-3), pp. 40,52. https://doi.org/10.1007/978-3-319-61425-0 8. Cornelius, R. R. (1996). The science of Emotion. (P. HAll, Ed.) (1996th ed.). Nueva Jersey EUA. 9. Cowie, R., Douglas - Cowie, E., Tsapatsoulis, N., Votis, G., Kollias, S., Fellenz, W., & Taylor, J. G. (2001). IEEE Signal Processing Magazine, 18(1) (January), pp. 32–80. https://doi.org/10.1109/79.911197 10.D’Mello, S., & Graesser, A. (2012). Dynamics of affective states during complex learning. Learning and Instruction, 22(2), pp. 145–157. https://doi.org/10.1016/j.learninstruc.2011.10.001 11.Darwin, C. (1890). the Expression of the Emotions in Man and Animals. (D. Francis, Ed.), The American Journal of the Medical Sciences (Second, Vol. 232). London: Cambridge University Press. https://doi.org/10.1097/00000441-195610000-00024

63


12.Ekman, P. (2003). Emotions Revealed. Recognizing Faces and Feelings to Improve Communication and Emotional Life. (T. Books, Ed.) (1st ed.). New York: Henrry Holt and Company. 13.González-Hernández, F., Zatarain-Cabada, R., Barrón-Estrada, M. L., & Rodríguez-Rangel, H. (2017). Recognition of learning-centered emotions using a convolutional neural network. Journal of Intelligent & Fuzzy Systems. 14.Gower, J. (1975). Generalized procrustes analysis. Psychometrika. 15.Hill, D. (2014). Emotionomics. (G. E. Patria, Ed.) (1st ed.). México. 16.Krumhuber, E. G., Küster, D., Namba, S., & Skora, L. (2020). Human and machine validation of 14 databases of dynamic facial expressions. Behavior Research Methods. https://doi.org/10.3758/s13428-020-01443-y 17.Lucey, P., Cohn, J. F., Kanade, T., Saragih, J., & Ambadar, Z. (2010). The extended CohnKanade dataset (CK+): a complete facial expression dataset for action unit and emotionspecified expression Conference on. In Computer Vision and Pattern Recognition Workshops (CVPRW), 2010 IEEE Computer Society Conference (pp. 94–101). Iain Matthews: IEEE Computer Society Conference. 18.Mehmood, R., & Lee, H. (2017). Towards Building a Computer Aided Education System for Special Students Using Wearable Sensor Technologies. Sensors, 17(317), pp. 1–22. https://doi.org/10.3390/s17020317 19.Mitchell, T. M. (2009). Machine learning. IJCAI International Joint Conference on Artificial Intelligence (1ra.). New York: McGraw-Hill Science/Engineering/Math. https://doi.org/10.1007/978-3-540-75488-6_2 20.Monkaresi, H., Bosch, N., Calvo, R. A., & D’Mello, S. K. (2016). Automated Detection of Engagement using Video-Based Estimation of Facial Expressions and Heart Rate. IEEE Transactions on Affective Computing, 1–14. https://doi.org/10.1109/TAFFC.2016.2515084 21.Nye, B., Karumbaiah, S., Tokel, S. T., Core, M. G., Stratou, G., Auerbach, D., & Georgila, K. (2017). Analyzing Learner Affect in a Scenario-Based Intelligent Tutoring System. Artificial Intelligence in Education. Springer, pp. 544–547. 22.Soleymani, M., Member, S., & Lee, J. (2012). DEAP: A Database for Emotion Analysis Using Physiological Signals, 3(1), pp. 18–31. 23.Xiao, X., Pham, P., & Wang, J. (2017). Dynamics of Affective States During MOOC Learning. Artificial Intelligence in Education. Springer, pp. 586–589. 24.Zatarain-Cabada, R., Barrón-Estrada, M. L., González-Hernández, F., Oramas-Bustillos, R., Alor-Hernández, G., & Reyes-García, C. A. (2017). Building a Corpus and a Local Binary Pattern Recognizer for Learning-Centered Emotions. Advances in Computational Intelligence, II, pp. 524–535. https://doi.org/10.1007/978-3-319-58088-3 25.Zatarain-Cabada, R., Barron-Estrada, M. L., González-Hernández, F., & Rodríguez-Rangel, H. (2017). Building a Face Expression Recognizer and a Face Expression Database for an Intelligent Tutoring System. Proceedings - IEEE 17th International Conference on Advanced Learning Technologies, ICALT 2017, (2161-377X/17), pp. 391–393. https://doi.org/10.1109/ICALT.2017.141 26.Zataraín, R., Barrón, M. L., González, F., & Reyes-García, C. A. (2017). An Affective and Web 3.0 Based Learning Environment for a Programming Language. Telematics and Informatics. https://doi.org/10.1016/j.tele.2017.03.005

64


Sección III Temas en General

65


Capítulo 7. Cinemática Inversa de un Robot de 18 Grados de Libertad Miguel Angel Ortega1, Amparo Dora Palomino2, José Fernando Reyes2 1

Facultad de Ciencias de la Computación, BUAP, Puebla, México 2 Facultad de Ciencias de la Electrónica, BUAP, Puebla, México 1 miguel.ortegap@alumno.buap.mx, 2{amparo.palomino, fernando.reyes}@correo.buap.mx

Resumen. El presente trabajo toma como propuesta de investigación el robot Bioloid Premium de 18gradosdelibertad.Elobjetivo es proponer una solución al modelo de su cinemática directa e inversa, empleando la convención de DenavitHartenberg y el método de desacoplamiento cinemático respectivamente. De esta manera, se aspira a que la investigación aquí desarrollada pueda ser utilizada para el desarrollo de nuevos métodos de solución de la cinemática inversa en otros robots bípedos para la implementación de un modelo de marcha. Las ecuaciones del modelo de cinemática inversa fueron validados correctamente a través de simulaciones realizadas en Matlab, mediante un modelo 3D del robot. Palabras Clave: Bioloid Premium,Cinemática Directa, Cinemática Inversa,

1

Introducción

En la actualidad existen diversos trabajos que emplean a los robots bípedos como objetivo de estudio, como el robot Nao (Ames, 2014) (Ogura et al., 2006), Lola (Wittmann et al., 2016; Wahrmann et al., 2017) y HRP (Kajita et al., 2017; Kajita et al., 2018), el objetivo principal de su estudio es la implementación de modelos de marcha controlados. Debido al alto número de grados de libertad de estos robots, se opta por emplear diferentes métodos para controlar sus articulaciones, tales como, redes neuronales (Hein et al., 2007), algoritmos genéticos (Meggiolaro et al., 2016) y aprendizaje por refuerzo (Tanwani, 2011). El robot Bioloid también ha sido usado por la comunidad científica en investigaciones para implementar estrategias de control de marcha bípeda, pero en general, la mayoría de los trabajos modelan solo la cinemática de las piernas (Cerritos-Jasso et al., 2013) (Arias et al., 2014) (Chiang y Tsai, 2011) (Bravo, 2016), sin tomar en cuenta el movimiento de los brazos. Debido a estas limitaciones se optó por encontrar la solución de la cinemática inversa y directa del robot completo, utilizando la convención de Denavit-Hartenberg y el método de desacoplamiento cinemático. Esta metodología servirá como punto de partida para desarrollar el modelo dinámico del robot e implementar control de posición en sus articulaciones. El resto de este documento se estructura de la siguiente forma: en la sección dos se presenta el modelo de cinemática directa, en la tercera sección el modelo de cinemática

66


inversa, la cuarta sección contiene los resultados obtenidos en simulación, empleando el software Matlab, y finalmente en la quinta sección las conclusiones.

2

Modelo Cinemático directo

Empleando el modelo físico del robot Bioloid Premium (RobotShopinc, 2020) se propusieron tres cadenas cinemáticas abiertas que corresponden a las piernas y brazos del robot. Para la descripción de la cadena cinemática de las piernas se asignaron sistemas de referencia a cada una de las articulaciones aplicando la convención de Denavit-Hartenberg. Se tomaron 2 casos para resolver la cinemática directa de las piernas, los cuales dependen del pie de soporte, similar a los modelos presentados por Cerritos-Jasso (2013), Arias (2014) y Bravo (2016). La Figura 1 (a) representa la cadena cinemática cuando el pie derecho es el de soporte y (b) corresponde cuando el pie izquierdo es el de soporte, los marcos se enumeran de manera consecutiva desde la articulación uno, asignado al pie de soporte (eslabón fijo), hasta la articulación doce, asignado al pie que se mueve.

(a)

(b)

Fig 1. (a) Cadena cinemática tomando el pie derecho de soporte. (b) Cadena cinemática tomando el pie izquierdo de soporte.

67


En la Tabla 1 se proporcionan los parámetros de Denavit-Hartenberg para la cadena cinemática que corresponde a las piernas del robot Bioloid. Tabla 1. Parámetros de Denavit-Hartenberg para las piernas del robot. Articulación 1 2 3 4 5 6 7 8 9 10 11 12

Servomotor 17 15 13 11 9 7 8 10 12 14 16 18

𝛼𝑖 -90° -90° 0° 0° 90° 90° 180° 90° 90° 0° 0° -90°

𝑙𝑖 0 0 𝐿1 𝐿2 0 0 𝜀𝑊 0 0 𝐿2 𝐿1 0

𝜃𝑖 𝜃17 𝜃15 𝜃13 𝜃11 𝜃9 𝜃7 − 45° 𝜃8 + 45° 𝜃10 𝜃12 𝜃14 𝜃16 𝜃18

𝑑𝑖 0 0 0 0 0 0 0 0 0 0 0 0

Para definir el valor de las variables, se emplearon las medidas reales del robot:𝐿1 = 𝐿2 = 7.5 𝑐𝑚, 𝜀 = 1 con pie izquierdo de soporte, 𝜀 = −1 con pie derecho de soporte, 𝑊 = 9.4 𝑐𝑚. Utilizando los parámetros de la Tabla 1 se obtienen las siguientes matrices de transformación para las 12 articulaciones que corresponden a la pierna derecha, se emplea la notación 𝑠𝑒𝑛(𝜃𝑖 ) = 𝑆𝑖 , 𝑐𝑜𝑠(𝜃𝑖 ) = 𝐶𝑖 , donde 𝑖 denota el número del servomotor del robot. 𝐻01 = (𝐶17 0 − 𝑆17 0 𝑆17 0 𝐶17 0 0 − 1 0 0 0 0 0 1 )𝐻12 = (𝐶15 0 − 𝑆15 0 𝑆15 0 𝐶15 0 0 − 1 0 0 0 0 0 1 )𝐻23 = (𝐶13 − 𝑆13 0 𝐿1 𝐶13 𝑆13 𝐶13 0 𝐿1 𝑆13 0 0 1 0 0 0 0 1 ) 𝐻34 = (𝐶11 − 𝑆11 0 𝐿2 𝐶11 𝑆11 𝐶11 0 𝐿2 𝑆11 0 0 1 0 0 0 0 1 )𝐻45 = (𝐶9 0 𝑆9 0 𝑆9 0 − 𝐶9 0 0 1 0 0 0 0 0 1 )𝐻56 = (𝐶7 0 𝑆7 0 𝑆7 0 − 𝐶7 0 0 1 0 0 0 0 0 1 ) 𝐻67 = (𝐶8 𝑆8 0 𝑊𝐶8 𝑆8 − 𝐶8 0 𝑊𝑆8 0 0 − 1 0 0 0 0 1 )𝐻78 = (𝐶10 0 𝑆10 0 𝑆10 0 − 𝐶10 0 0 1 0 0 0 0 0 1 )𝐻89 = (𝐶12 0 𝑆12 0 𝑆12 0 − 𝐶12 0 0 1 0 0 0 0 0 1 ) 11 𝐻910 = (𝐶14 − 𝑆14 0 𝐿2𝐶14 𝑆14 𝐶14 0 𝐿2𝑆14 0 0 1 0 0 0 0 1 )𝐻10 12 = (𝐶16 − 𝑆16 0 𝐿1 𝐶16 𝑆16 𝐶16 0 𝐿1 𝑆16 0 0 1 0 0 0 0 1 )𝐻11 = (𝐶18 0 − 𝑆18 0 𝑆18 0 𝐶18 0 0 − 1 0 0 0 0 0 1 )

La Figura 2 representa la cadena cinemática de ambos brazos, la Figura 2 (a) corresponde al brazo derecho y la Figura 2 (b) al brazo izquierdo. Los marcos de referencia se enumeran de manera consecutiva desde la articulación uno, asignado al hombro que se toma como soporte (eslabón fijo), hasta la articulación tres, asignado al codo.

68


(a)

(b)

Fig. 2. Cadena cinemática: (a) brazo derecho y (b) brazo izquierdo.

En la Tabla 2 y 3 se proporcionan los parámetros del brazo derecho e izquierdo respectivamente. Tabla 2. Parámetros para la cadena cinemática del brazo derecho. Articulación 1 2 3

Servomotor 1 3 5

𝛼𝑖 -90° -90° 0°

𝑙𝑖 0 𝐿4 𝐿3

𝜃𝑖 𝜃1 − 90° 𝜃3 + 90° 𝜃5

𝑑𝑖 0 0 0

Para definir el valor de las variables, se emplearon las medidas reales de las articulaciones de los brazos del robot: 𝐿3 = 6.8 𝑐𝑚, 𝐿4 = 1.7 𝑐𝑚. Utilizando los parámetros de la Tabla2 se obtienen las siguientes matrices de transformación para las 3 articulaciones del brazo derecho: 𝐻𝑑10 = (𝐶1 0 − 𝑆1 0 𝑆1 0 𝐶1 0 0 − 1 0 0 0 0 0 1 )𝐻𝑑12 = (𝐶3 0 − 𝑆3 𝐿4 𝐶3 𝑆3 0 𝐶3 𝐿4 𝑆3 0 − 1 0 0 0 0 0 1 )𝐻𝑑23 = (𝐶5 − 𝑆5 0 𝐿3 𝐶5 𝑆5 𝐶5 0 𝐿3 𝑆5 0 0 1 0 0 0 0 1 )

69


Tabla 3. Parámetros para la cadena cinemática del brazo izquierdo. Articulación 1 2 3

Servomotor 2 4 6

𝛼𝑖 90° 90° 0°

𝑙𝑖 0 𝐿4 𝐿3

𝜃𝑖 𝜃2 + 90° 𝜃4 − 90° 𝜃6

𝑑𝑖 0 0 0

A partir de la Tabla 3 se obtienen las siguientes matrices de transformación que corresponden al brazo izquierdo: 𝐻𝑖01 = (𝐶2 0 𝑆2 0 𝑆2 0 − 𝐶2 0 0 1 0 0 0 0 0 1 )𝐻𝑖12 = (𝐶4 0 𝑆4 𝐿4 𝐶4 𝑆4 0 − 𝐶4 𝐿4 𝑆4 0 1 0 0 0 0 0 1 )𝐻𝑖23 = (𝐶6 − 𝑆6 0 𝐿3𝐶6 𝑆6 𝐶6 0 𝐿3 𝑆6 0 0 1 0 0 0 0 1 )

3

Cinemática inversa

Para simplificar el modelo de cinemática inversa de las piernas del robot se empleó el método de desacoplamiento cinemático, presentados en los trabajos de Featherstone (1983), Granja Oramas (2014) y Franco (2018), el cual consiste en la separación de orientación y posición en robots de 6 grados de libertad. A partir de este método, primero se calcula 𝜃13 , 𝜃15 𝑦 𝜃17, y a continuación a partir de los datos de orientación y los ya calculados se obtienen los valores del resto de las variables articulares 𝜃7 , 𝜃9 𝑦 𝜃11. Es posible calcular los ángulos de las tres primeras articulaciones de la pierna tomando en cuenta las matrices 𝐻01 , 𝐻12 , 𝐻23 y la matriz 𝐻03 , la cual corresponde a la multiplicación de las 3 anteriores, tal como se muestra en la ecuación matricial (1): (𝐻01 )−1 𝐻03 = 𝐻12 𝐻23

(1)

(𝑛𝑥 𝐶17 + 𝑛𝑦 𝑆17 𝑜𝑥 𝐶17 + 𝑜𝑦 𝑆17 𝑎𝑥 𝐶17 + 𝑎𝑦 𝑆17 𝑝𝑥 𝐶17 + 𝑝𝑦 𝑆17 −𝑛𝑧 − 𝑜𝑧 − 𝑎𝑧 − 𝑝𝑧 𝑛𝑦 𝐶17 − 𝑛𝑥 𝑆17 𝑜𝑦 𝐶17 − 𝑜𝑥 𝑆1 𝑎𝑦 𝐶17 − 𝑎𝑥 𝑆17 𝑝𝑦 𝐶17 − 𝑝𝑥 𝑆17 0 0 0 1 ) = (𝐶13 𝐶15 −𝐶15 𝑆13 − 𝑆15 𝐿1 𝐶13 𝐶15 𝐶13 𝑆15 −𝑆13 𝑆15 𝐶15 𝐿1 𝐶13 𝑆15 −𝑆13 (2) − 𝐶13 0 − 𝐿1 𝑆13 0 0 0 1 ) Empleando la ecuación (2) se plantean 16 ecuaciones y se eligen las que sean más amigables para despejar las variables 𝜃13 , 𝜃15 𝑦 𝜃17, las cuales se muestran en la Tabla 4. Para encontrar las variables articulares 𝜃7, 𝜃9 y 𝜃11, se utiliza la ecuación matricial (3), en la que no es necesario utilizar los parámetros de traslación de las matrices homogéneas 𝐻34 , 𝐻45 , 𝐻56 debido a que no existe traslación entre ellas, por esta razón se pueden utilizar sólo las submatrices de rotación. Empleando los parámetros de Denavit-Hartenberg de la Tabla 1 se puede definir la matriz de rotación de 3 a 6 como se observa en la ecuación (3):

70


𝑅36 = 𝑅34 𝑅45 𝑅56

(3)

Por lo tanto: 𝑅36 = (𝐶7,9,11 − 𝐶7 𝑆9,11 𝐶9 𝑆11 + 𝐶11 𝑆9 𝑆7 𝐶9,11 − 𝑆7,9,11 𝐶7,9 𝑆11 + 𝐶7,11 𝑆9 𝑆9,11 − 𝐶9,11 𝑆7,11 𝐶9 + 𝑆7,9 𝐶11 𝑆7 0 − 𝐶7 )

(4)

La matriz de rotación de 0 a 3 se encuentra con los parámetros 𝛼, 𝜃 y 𝑙 de la Tabla 1. 𝑅03 = 𝑅01 𝑅12 𝑅23 Entonces la matriz inversa de 𝑅03 se calcula como sigue: (𝑅03 )−1 = (𝑅03 )𝑇 = = (𝑆13,17 + 𝐶13,15,17 𝐶13,15 𝑆17 − 𝐶17 𝑆13 − 𝐶13 𝑆15 𝐶13 𝑆17 − 𝐶15,17 𝑆13 − 𝐶13,17 − 𝐶15 𝑆13,17 𝑆13,15 − 𝐶17 𝑆15 − 𝑆15,17 − 𝐶15 )

(5)

Reemplazando las ecuaciones (4) y (5) y la matriz noa en la ecuación (7) se tiene:

𝑀𝑎𝑡𝑟𝑖𝑧 𝑛𝑜𝑎 = (𝑛𝑥 𝑜𝑥 𝑎𝑥 𝑛𝑦 𝑜𝑦 𝑎𝑦 𝑛𝑧 𝑜𝑧 𝑎𝑧 ) 𝑅36 = (𝑅03 )𝑇 𝑅06

(6) (7)

(𝐶7,9,11 − 𝐶7 𝑆9,11 𝐶9 𝑆11 + 𝐶11 𝑆9 𝑆7 𝐶9,11 − 𝑆7,9,11 𝐶7,9 𝑆11 + 𝐶7,11 𝑆9 𝑆9,11 − 𝐶9,11 𝑆7,11 𝐶9 + 𝑆7,9 𝐶11 𝑆7 0 − 𝐶7 ) = = (𝑆13,17 + 𝐶13,15,17 𝐶13,15 𝑆17 − 𝐶17 𝑆13 − 𝐶13 𝑆15 𝐶13 𝑆17 − 𝐶15,17 𝑆13 − 𝐶13,17 − 𝐶15 𝑆13,17 𝑆13,15 − 𝐶17 𝑆15 − 𝑆15,17 − 𝐶15 )(𝑛𝑥 𝑜𝑥 𝑎𝑥 𝑛𝑦 𝑜𝑦 𝑎𝑦 𝑛𝑧 𝑜𝑧 𝑎𝑧 )

(8)

A partir de la ecuación (8) se eligen los términos que generan una ecuación amigable para despejar las variables articulares 𝜃7, 𝜃9 y 𝜃11. Las ecuaciones resultantes de la cinemática inversa de las piernas del robot se muestran en la Tabla 4. Tabla 4. Parámetros para la cadena cinemática de la pierna derecha. Ecuación

𝜃17 = 𝑎𝑡𝑎𝑛2(𝑎𝑦 , 𝑎𝑥 ) 𝜃15 = 𝑎𝑟𝑐𝑠𝑒𝑛 (

−𝑃𝑧 ) 𝐿1𝑐𝑜𝑠(𝜃13)

Rango −180° ≤ 𝜃17 ≤ 180° −90° ≤ 𝜃15 ≤ 90°

71


𝑃𝑥 𝑠𝑒𝑛(𝜃17 ) − 𝑃𝑦 𝑐𝑜𝑠(𝜃17) ) 𝐿1 𝜃9 = 𝑎𝑟𝑐𝑐𝑜𝑠[−𝑜𝑥 (𝑐𝑜𝑠(𝜃13 )𝑠𝑒𝑛(𝜃17) − 𝑐𝑜𝑠(𝜃15 + 𝜃17 )𝑠𝑒𝑛(𝜃13)) + 𝑜𝑦 (𝑐𝑜𝑠(𝜃13 + 𝜃17 ) + 𝑐𝑜𝑠(𝜃15 )𝑠𝑒𝑛(𝜃13 + 𝜃17 ))] − 𝜃11 𝜃11 = 𝑎𝑟𝑐𝑠𝑒𝑛[𝑜𝑥 (𝑠𝑒𝑛(𝜃13 + 𝜃17 ) + 𝑐𝑜𝑠(𝜃13 + 𝜃15 + 𝜃17 )) − 𝑜𝑦 (𝑐𝑜𝑠(𝜃17)𝑠𝑒𝑛(𝜃13 ) − 𝑐𝑜𝑠(𝜃13 + 𝜃15)𝑠𝑒𝑛(𝜃17 ))] − 𝜃9

−90° ≤ 𝜃13 ≤ 90°

𝜃7 = 𝑎𝑟𝑐𝑐𝑜𝑠 (𝑎𝑥 𝑐𝑜𝑠(𝜃17 )𝑠𝑒𝑛(𝜃15) + 𝑎𝑦 𝑠𝑒𝑛(𝜃15 + 𝜃17 )

0° ≤ 𝜃7 ≤ 180°

𝜃13 = 𝑎𝑟𝑐𝑠𝑒𝑛 (

0° ≤ 𝜃9 ≤ 180°

−90° ≤ 𝜃11 ≤ 90°

+ 𝑎𝑧 𝑐𝑜𝑠(𝜃15))

Es importante mencionar que el proceso anterior es el mismo para calcular el valor de las posiciones articulares 𝜃8, 𝜃10 , 𝜃12 , 𝜃14 , 𝜃16 𝑦 𝜃18 de la pierna izquierda. Posteriormente se calculan los ángulos 𝜃1 , 𝜃3 , 𝜃5, que corresponden al brazo derecho, empleando el mismo método presentado en (1), dando como resultado la ecuación (9) (𝐻𝑑10 )−1 𝐻𝑑03 = 𝐻𝑑12 𝐻𝑑23

(9)

Las ecuaciones para encontrar los ángulos que corresponden a las articulaciones del brazo derecho se muestran en la Tabla 5. Tabla 5. Parámetros para la cadena cinemática del brazo derecho del robot. Ecuación

𝜃1 = 𝑎𝑡𝑎𝑛2(𝑎𝑑𝑦 , 𝑎𝑑𝑥 ) 𝜃3 = 𝑎𝑡𝑎𝑛2(−𝑝𝑑𝑧 , 𝑝𝑑𝑥 𝑐𝑜𝑠(𝜃1) + 𝑝𝑑𝑦 𝑠𝑒𝑛(𝜃1) 𝜃5 = 𝑎𝑟𝑐𝑐𝑜𝑠 (

−𝑝𝑑𝑧 − 𝐿4 𝑠𝑒𝑛(𝜃3) ) 𝐿3 𝑠𝑒𝑛(𝜃3)

Rango −180° ≤ 𝜃1 ≤ 180° −180° ≤ 𝜃3 ≤ 180° 0° ≤ 𝜃5 ≤ 180°

Para obtener la cinemática inversa del brazo izquierdo, se consideran las matrices 𝐻𝑖01 , 𝐻𝑖12 , 𝐻𝑖23 y 𝐻𝑖03 para definir la ecuación matricial (10): (𝐻𝑖01 )−1 𝐻𝑖03 = 𝐻𝑖12 𝐻𝑖23 (10) A partir de la ecuación (10) se calcula 𝜃2 , 𝜃4 , 𝜃6. Las ecuaciones para encontrar dichos ángulos se muestran en la Tabla 6.

72


Tabla 6. Parámetros de Denavit-Hartenberg para la cadena cinemática del brazo izquierdo del robot. Ecuación

𝜃2 = 𝑎𝑡𝑎𝑛2(𝑎𝑖𝑦 , 𝑎𝑖𝑥 ) 𝜃4 = 𝑎𝑡𝑎𝑛2 (𝑝𝑖𝑧 , 𝑝𝑖𝑥 𝑐𝑜𝑠(𝜃2 ) + 𝑝𝑖𝑦 𝑠𝑒𝑛(𝜃2) 𝜃6 = 𝑎𝑟𝑐𝑐𝑜𝑠 (

𝑝𝑖𝑧 − 𝐿4 𝑠𝑒𝑛(𝜃2) ) 𝐿3𝑠𝑒𝑛(𝜃2 )

Rango −180° ≤ 𝜃2 ≤ 180° −180° ≤ 𝜃4 ≤ 180° 0° ≤ 𝜃6 ≤ 180°

Realizando pruebas experimentales directamente con el robot, se calcularon los límites articulares (considerando la auto colisión) de los 18 motores del robot Bioloid se muestran en la Tabla 7. Tabla 7. Límites de las articulaciones del robot Bioloid Premium. Motor ID 01 03 05 07 09 11 13 15 17

4

Min. (°) -150 -90 -100 -85 -5 -130 -105 -100 -75

Max. (°) 150 110 100 10 75 5 5 30 75

Motor ID 02 04 06 08 10 12 14 16 18

Min. (°) -150 -110 -100 -10 -75 -5 -5 -30 -75

Max. (°) 150 90 100 85 5 130 105 100 75

Simulación de la cinemática inversa

Utilizando el “RoboticsToolbox” de Matlab desarrollado por Corke (2011), se realizó un modelo 3D a partir del modelo de cinemática directa. Primero se implementaron las ecuaciones de cinemática inversa de las piernas, para ello se propusieron 2 pruebas para ubicar las caderas del robot en 2 posiciones diferentes. En la Figura 3 se muestra la simulación de las pruebas realizadas en Matlab, empleando los parámetros propuestos en las Tablas 7 y 8. Es importante señalar que solamente se colocan los parámetros de la pierna derecha, ya que son los mismos que los de la pierna izquierda, con excepción de 𝜃8 que se mantiene constante en 45°.

73


(a)

(b)

Fig. 3. Simulación de las piernas en Matlab: (a) primera prueba, (b) segunda prueba. Tabla 8. Parámetros propuestos para la primera prueba de simulación Parámetros de la cinemática inversa (mm) 𝑎𝑦 = 0, 𝑎𝑥 = 0, 𝑜𝑥 = −1, 𝑜𝑦 = −1, 𝑝𝑥 = 0, 𝑝𝑦 = 50, 𝑝𝑧 = 0

Ángulos de los motores (grados)

𝜃7 = −45, 𝜃9 = 0, 𝜃11 = −48.18, 𝜃13 = −41.81, 𝜃15 = 0, 𝜃17 = 0

Tabla 9. Parámetros propuestos para la segunda prueba de simulación. Parámetros de la cinemática inversa (mm) 𝑎𝑦 = 0, 𝑎𝑥 = 0, 𝑜𝑥 = 0.8, 𝑜𝑦 = 1, 𝑝𝑥 = 0, 𝑝𝑦 = 70, 𝑝𝑧 = 0

Ángulos de los motores (grados)

𝜃7 = −45, 𝜃9 = 0, 𝜃11 = 28.28, 𝜃13 = −68.96, 𝜃15 = 0, 𝜃17 = 0

También se realizaron 2 pruebas para validar las ecuaciones de cinemática inversa que corresponden a los brazos del robot. En la primera prueba se emplearon los parámetros propuestos en las Tablas 10 y 11. Y en la segunda prueba se utilizaron los parámetros de las Tablas 12 y 13. Los resultados de la simulación se observan en la Figura 4. Tabla 10. Parámetros y resultados que corresponden al brazo derecho. Parámetros de la cinemática inversa (mm) 𝑎𝑑𝑦 = 10, 𝑎𝑑𝑥 = −40, 𝑝𝑑𝑥 = 0, 𝑝𝑑𝑦 = −40, 𝑝𝑑𝑧 = 30

Ángulos de los motores (grados) 𝜃𝐼𝐷1 = 75.96, 𝜃𝐼𝐷3 = −52.29, 𝜃𝐼𝐷5 = 72.08

Tabla 11. Parámetros y resultados que corresponden al brazo izquierdo. Parámetros de la cinemática inversa (mm) 𝑎𝑖𝑦 = −10, 𝑎𝑖𝑥 = −40, 𝑝𝑖𝑥 = 0, 𝑝𝑖𝑦 = 40, 𝑝𝑖𝑧 = 30

Ángulos de los motores (grados) 𝜃𝐼𝐷2 = −75.96, 𝜃𝐼𝐷4 = 52.29, 𝜃𝐼𝐷6 = 72.08

74


(a)

(b)

Fig. 4. Simulación de los brazos en Matlab: (a) primera prueba y (b) segunda prueba. Tabla 12. Parámetros propuestos y resultados de la cinemática inversa para el brazo derecho. Parámetros de la cinemática inversa (mm) 𝑎𝑑𝑦 = 40, 𝑎𝑑𝑥 = 10, 𝑝𝑑𝑥 = −50, 𝑝𝑑𝑦 = 20, 𝑝𝑑𝑧 = 30

Ángulos de los motores (grados)

𝜃𝐼𝐷1 = −14.03, 𝜃𝐼𝐷3 = −60.65 𝜃𝐼𝐷5 = 75.15

Tabla 13. Parámetros y resultados de la cinemática inversa del brazo izquierdo. Parámetros de la cinemática inversa (mm) 𝑎𝑖𝑦 = −40, 𝑎𝑖𝑥 = 10, 𝑝𝑖𝑥 = −50, 𝑝𝑖𝑦 = 20, 𝑝𝑖𝑧 = 30

5

Ángulos de los motores (grados) 𝜃𝐼𝐷2 = 14.03, 𝜃𝐼𝐷4 = 60.65 𝜃𝐼𝐷6 = 75.15

Discusión de resultados

Las ecuaciones de cinemática inversa del presente trabajo toman en cuenta las cuatro extremidades del robot, y el modelo que corresponde a las piernas, toma como sistema de referencia fijo el pie, mientras que el eslabón final es la cadera, tal como se hace en diferentes investigaciones que tienen el robot Bioloid como objeto de estudio. La diferencia con respecto a estos trabajos es que Chiang y Tsai (2011) solo realizan una prueba para comprobar sus resultados, empleando el modelo de 1 pierna, además la

75


mayoría de sus ecuaciones quedan en términos de los parámetros de la matriz noa. Por otra parte, Cerritos-Jasso et al. (2013) emplean el software Matlab para validar sus resultados con un modelo más simple de las piernas, realizando 2 pruebas de simulación, pero su propuesta de solución a la cinemática inversa es mediante un método geométrico, así como lo hacen Nunez et al. (2012).

6

Conclusiones

Las ecuaciones obtenidas en el modelo de cinemática directa e inversa fueron validadas correctamente a través de la simulación en Matlab. La función arctan(.) devuelve valores entre −𝜋/2 y 𝜋/2, por lo que el rango de movimiento de algunas articulaciones estaría limitado, por lo cual, para propósitos de programación, se empleó la función atan2(.) para tener un mayor rango de valores (rango de −𝜋 a 𝜋) y poder aplicarlo posteriormente en el robot de manera experimental. El modelo cinemático inverso tiene algunas restricciones de movimiento, debido a que algunos ángulos se resuelven a través de funciones arcsen(.) y arccos(.), pero también a causa de que el robot presenta limitaciones físicas debido a su estructura misma, que provocan colisiones entre sus eslabones. Además, se consideraron algunos ángulos fijos para simplificar el cálculo de las ecuaciones, tales como: 𝜃7 = −45°, 𝜃8 = 45°, 𝜃9 = 𝜃10 = 𝜃15 = 𝜃16 = 𝜃17 = 𝜃18 = 0°.Debido a estas restricciones, se limita el movimiento de las caderas y tobillos en 2 dimensiones, es decir, las piernas solo pueden generar movimientos en el eje x y z. Para trabajo a futuro, se propone la obtención del modelo dinámico y una ley de control, tomando en cuenta los aspectos relacionados con los criterios de estabilidad de Lyapunov. Se mejorará el modelo 3D del robot para poder exportarlo a la herramienta Simscape de Matlab, y así tener un modelo virtual del robot que servirá como plataforma experimental para validar el modelo dinámico.

Referencias 1. Ames, A. D. (2014). Human-inspired control of bipedal walking robots. IEEE Transactions on Automatic Control, 59(5), 1115-1130. 2. Arias,| L. E., Olvera, L. I., Pámanes, J. A., & Núñez, J. V. (2014). Patrón de marcha 3D de tipo cicloidal para humanoides y su aplicación al robot Bioloid. Revista Iberoamericana de Ingeniería Mecánica, 18(1), 3. 3. Bravo Montenegro, D. A. (2016). Generación de trayectorias para un robot bípedo basadas en captura de movimiento humano. 4. Cerritos-Jasso, J. R., Camarillo-Gómez, K. A., Monsiváis-Medina, J. A., Castillo-Alfaro, G., Pérez-Soto, G. I., &Pámanes-García, J. A. (2013). Kinematic Modeling of a Humanoid Soccer–Player: Applied to BIOLOID Premium Type A Robot. In FIRA RoboWorld Congress (pp. 49-63). Springer, Berlin, Heidelberg. 5. Chiang, H. D., & Tsai, C. S. (2011). Kinematics Analysis of a Biped Robot. In Proceeding of 2011 International Conference on Service and Interactive Robots National Chung Hsing University. 6. Corke, P., & Robotics, V. (2011). control: Fundamental algorithms in MATLAB.

76


7. Featherstone, R. (1983). Position and velocity transformations between robot end-effector coordinates and joint angles. The International Journal of Robotics Research, 2(2), 35-45. 8. Franco, E. H., & Guerrero, R. V. (2018). Diseño Mecánico y Análisis Cinemático del Robot Humanoide AXIS. Pistas Educativas, 35(108). 9. Granja Oramas, M. V. (2014). Modelación y análisis de la cinemática directa e inversa del manipulador Stanford de seis grados de libertad (Bachelor'sthesis, Quito, 2014). 10.Hein, D., Hild, M., & Berger, R. (2007). Evolution of biped walking using neural oscillators and physical simulation. In Robot Soccer World Cup (pp. 433-440). Springer, Berlin, Heidelberg. 11.Kajita, S., Benallegue, M., Cisneros, R., Sakaguchi, T., Nakaoka, S. I., Morisawa, M., ... &Kanehiro, F. (2017). Biped walking pattern generation based on spatially quantized dynamics. In 2017 IEEE-RAS 17th International Conference on Humanoid Robotics (Humanoids) (pp. 599-605). 12.Kajita, S., Benallegue, M., Cisneros, R., Sakaguchi, T., Nakaoka, S. I., Morisawa, M., ... &Kanehiro, F. (2018). Biped gait control based on spatially quantized dynamics. In 2018 IEEE-RAS 18th International Conference on Humanoid Robots (Humanoids) (pp. 75-81). IEEE. 13.Meggiolaro, M. A., Neto, M. S., & Figueroa, A. L. (2016). Modeling and Optimization with Genetic Algorithms of Quasi-Static Gait Patterns in Planar Biped Robots. In Congreso Internacional de Ingeniería Mecatrónica y Automatización (CIIMA 2016) (pp. 1-10). 14.Nunez, J. V., Briseno, A., Rodriguez, D. A., Ibarra, J. M., &Rodriguez, V. M. (2012). Explicitanal y tic solution for inverse kinematics of bioloid humanoid robot. In 2012 Brazilian Robotics Symposium and Latin American Robotics Symposium (pp. 33-38). IEEE. 15.Ogura, Y., Shimomura, K., Kondo, H., Morishima, A., Okubo, T., Momoki, S., ... &Takanishi, A. (2006). Human-like walking with knee stretched, heel-contact and toe-off motion by a humanoid robot. In 2006 IEEE/RSJ International Conference on Intelligent Robots and Systems (pp. 3976-3981). IEEE. 16.RobotShopinc (2020). Bioloid Premium Robot Kit. Recuperado de https://www.robotshop.com/us/es/bioloid-premium-robot-kit.html. 17.Tanwani, A. K. (2011). Optimizing walking of a humanoid robot using reinforcement learning (Doctoral dissertation, MS thesis, Warsaw University of Technology). 18.Wahrmann, D., Knopp, T., Wittmann, R., Hildebrandt, A. C., Sygulla, F., Seiwald, P., ... &Buschmann, T. (2017). Modifying the estimated ground height to mitigate error effects on bipedal robot walking. In Advanced Intelligent Mechatronics (AIM), 2017 IEEE International Conference on (pp. 1471-1476). IEEE. 19.Wittmann, R., Hildebrandt, A. C., Wahrmann, D., Sygulla, F., Rixen, D., &Buschmann, T. (2016). Model-based predictive bipedal walking stabilization. In 2016 IEEE-RAS 16th International Conference on Humanoid Robots (Humanoids) (pp. 718-724). IEEE.

77


Capítulo 8. Diseño de un Software para el Sistema de Monitoreo de Corriente Autoajustable para un Detector GEM Rabi Soto1, María A. Vargas2, Sergio Vergara2, Guy Paic3 1

Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación, Av. San Claudio y 14 Sur, Ciudad Universitaria,72570. Puebla, México 2 Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Electrónica, Av. San Claudio y 18 Sur, Ciudad Universitaria,72570. Puebla, México 3 Universidad Nacional Autónoma de México, Instituto de Ciencias Nucleares, Circuito Exterior s/n, Ciudad Universitaria, 04510, CDMX, México rabi87_soto22@hotmail.com, aurora.vargas@correo.buap.mx, sergio.vergara@correo.buap.mx,guypaic@nucleares.unam.mx

Resumen. En este trabajo se presenta el diseño del software para un sistema de medición de corriente en un rango de pico amperes a 10 micro amperes de un detector en base a Gas (Gas Electrón Multiplier, GEM), el cual tiene un aislamiento de alto voltaje de 5kV. El diseño consta de 3 amperímetros conectados en serie, cada uno con un rango de medición diferente para mejorar la resolución de medición, los tres funcionan de manera simultánea y el firmware desarrollado se encarga de la selección de la mejor escala para procesar la información y enviarla a una computadora para su visualización a través de un módulo wifly. El proceso de visualización de la información se realiza mediante el uso de LabView en donde la información recibida mediante la comunicación Wi-Fi es procesada para su posterior visualización en dos gráficas una con los datos crudos y otra mediante el alisado de la información. Palabras Clave: monitor de corriente autoescalable, sistema de adquisición de datos, procesamiento de datos.

1

Introducción

En la física de altas energías diversos detectores han jugado un papel muy importante para el avance en el estudio de las partículas que se pueden producir al colisionar los iones. Uno de estos detectores es el multiplicador de electrones en base a gas (GEM por sus siglas en inglés) (ALICE Collaboration, 2014), utilizado para la detección de partículas producidas. Cuando los detectores se encuentran en funcionamiento ocasionalmente se generan pequeñas descargas que pueden deteriorar el material. Estas descargas han sido mencionadas en algunos trabajos, por ejemplo, Deisting et al. (2019) mostraron el estudio de las descargas secundarias que ocurren en un detector GEM en funcionamiento normal, los autores mencionan que estas descargas ocurren a unos

78


microsegundos de las primarias debido a la ruptura de un espacio cerca de una lámina de GEM en una descarga primaria a través de ese GEM. Utrobicic et al. (2019) presentaron el estudio de descargas retrasadas ocurridas en un detector GEM debido al funcionamiento de este. Ya que se produce un deterioro en el material necesario en el monitoreo continuo del consumo de corriente en los detectores GEM con la finalidad de poder determinar su vida útil, para ello se requiere del diseño y fabricación de un sistema de monitoreo de corriente de lectura frecuente (del orden de 1kHz). Se encontraron algunos artículos donde se han realizado diseños de amperímetros. En Yu et al. (2015), presentaron el diseño de un picoamperímetro para su aplicación en mediciones de distribución de corriente de haz de partículas cargadas, este diseño está basado en la utilización de amplificadores de instrumentación, se construye un sistema picoamperímetro de 128 canales. Sauer et al. (2008) presentaron el diseño de un nanoamperímetro flotante para la medición de corrientes pequeñas en sistemas de alto voltaje y su sistema de comunicación basado en fibra óptica, se describe un circuito capaz de medir corrientes de nanoamperes. El circuito transmite su salida al potencial de tierra a través de una fibra óptica. Las técnicas de diseño y construcción permiten un funcionamiento robusto en presencia de picos y descargas de alta tensión. Utrobicic et al. (2015)describen un nanoamperímetro flotante utilizado para el monitoreo de micropatrones de descargas en detectores de gas (GEM), el cual consiste en 16 canales, un ADC de 16 bits y un readout de 1 kHz, su rango de operación es de 125 nA y tiene una resolución máxima de 6.5 pA, la tierra flotante se logra utilizando una batería de litio y utiliza un FPGA para el procesamiento de los datos provenientes de varios nanoamperímetros, la comunicación se realiza mediante fibra óptica, y el envío de datos a la computadora se realiza mediante USB 2.0. En estos trabajos el rango de medición se encuentra en picoamperes, pero tienen la peculiaridad que el alto voltaje se encuentra en un rango de hasta 1 kV. En este trabajo se presenta el diseño de un software para un sistema que permite monitorear la corriente escala ajustable en un rango de 0 a 10 µA con un aislamiento de alto voltaje de hasta 5 kV, este rango ajustable ofrece mediciones desde picoamperes hasta los 10 µA. Para realizar el diseño del software se utiliza el programa LabVIEW. LabVIEW es un software de ingeniería de sistemas para aplicaciones que requieren pruebas, medidas y control con acceso rápido a hardware e información de datos. Ofrece un enfoque de programación gráfica que le ayuda al usuario a visualizar cada aspecto de su aplicación, incluyendo configuración del hardware, datos de medidas y depuración. Esta visualización simplifica la integración del hardware de medidas de cualquier proveedor, representa una lógica compleja en el diagrama, desarrolla algoritmos de análisis de datos y diseña interfaces de usuario de ingeniería personalizadas. Se utilizó LabVIEW para este trabajo porque es posible construir una interfaz de usuario simultáneamente durante el desarrollo del programa. Aunque, igualmente, el programa se puede desarrollar en cualquier otro software. LabVIEW es un software comercial, pero tiene la ventaja de permitir compilar el programa y producir un archivo ejecutable (.exe) que se puede ejecutar en cualquier computadora sin la necesidad de tener instalado el software. Para la comunicación Wi-Fi se utiliza un módulo WiFly RN-171 el cual permite que la lectura de datos se transmita en tiempo real a la PC a través de Wi-Fi. Sin embargo, el módulo tiene la opción de enviar la lectura de datos en tiempo real a través de Internet para que se pueda almacenar en una nube o compartir con algún otro

79


dispositivo, aunque los datos se puedan visualizar en una aplicación para dispositivos móviles o en un sitio web. Para realizar el sistema autoajustable se tiene que de acuerdo a la corriente se elige la mejor escala de medición, de tal forma que para corrientes bajas se usa el amperímetro con la mejor resolución. Cada amperímetro usa una fuente de voltaje con una tierra flotante mediante un DC-DC convertidor MED-FS16U1512D, un ADC LTC2326-18 de 17 bits más 1 bit de signo, para hacer la lectura de datos a una tasa de 1 kHz; se utilizan 4 optoacopladores OPI1268S con un aislamiento de alto voltaje de hasta 20 kV. Este artículo se estructura de la siguiente manera: en la primera parte de este estudio se presenta la descripción del hardware del sistema de monitoreo de corriente, continuando con el desarrollo del firmware y software para la adquisición y procesamiento de los datos, para finalizar con las conclusiones.

1.

Sistema para de monitorear la corriente

El sistema para monitorear la corriente en el rango de 0 a 10 𝜇A, consiste de tres amperímetros conectados en serie, cada uno de diferente escala, esto con el fin de optimizar la resolución del instrumento en función de la corriente medida. Estos amperímetros presentan las siguientes escalas: 0 a 100nA, 0 a 1𝜇A y de 0 a 10𝜇A. Por lo anterior el monitor de corriente tiene dos conectores uno por donde entra la corriente y otro por donde sale. El monitor de corriente se conecta en serie entre la fuente de alto voltaje y el detector GEM. La lectura de corriente de cada amperímetro se logra usando un FPGA CYCLONE III EP3C10F256C. Dentro del FPGA hay 5 bloques de firmware; el primer bloque suministra las señales necesarias para adquirir la lectura del ADC del amperímetro requerido, el segundo bloque realiza la deserialización de los datos recibidos desde el ADC correspondiente y el tercer bloque recibe el dato del ADC y compara la corriente medida para determinar la escala adecuada. Lo anterior se consigue de la siguiente manera; se lee el valor de corriente del primer amperímetro, si la corriente medida se encuentra entre 0 y 90nA, entonces esta será la lectura de corriente adecuada, sin embargo, si la corriente medida es mayor a 90nA el primer amperímetro entra en saturación por lo que se realiza el cambio de escala y se lee el segundo amperímetro. Si la corriente medida es mayor a los 90nA y menor o igual a los 900nA, entonces esta lectura es adecuada. Si el valor es mayor a los 900nA se lleva a cabo la lectura del tercer amperímetro, esta lectura será la adecuada. Este bloque también lleva la cuenta del tiempo para suministrar una lectura adecuada cada milisegundo. La lectura adecuada se coloca en la entrada de un cuarto bloque en donde se le da un formato para ser enviado. La palabra de 32 bits resultante se coloca en la entrada del quinto bloque, donde se genera el protocolo correspondiente para enviar la información a una computadora vía el módulo WiFly Modelo RN-171. Cabe señalar que para alimentar los tres amperímetros se usa una sola fuente convencional de 10V, 1A, ver Figura 1.

80


Fig.1. Diagrama general del sistema para monitorear la corriente de 0 a 10µA.

Respecto a los tres amperímetros, los tres funcionan de la misma manera y se instrumentan individualmente usando el mismo diseño de tarjeta de circuito impreso. La escala depende del valor de una sola resistencia, cada amperímetro contiene un arreglo de cuatro resistencias, un Amplificador de Instrumentación AD8220, un filtro pasa bajas de 10kHz, un ADC LTC2326-18 de 17 bits + 1 bit de signo, 4 optoacopladores OPI1268S con aislamiento de 20kV, un convertidor DC-DC MEDFS16U que a partir de un voltaje de 10V de entrada, genera una salida simétrica de +/12V, este dispositivo presenta un aislamiento de 5kV. A partir de los +12V se tiene un circuito regulador de voltaje basado en un convertidor DC-DC TPS75501 que produce +5V, los +/- 12V y los +5V están referenciados a la misma tierra flotante, la cual se conecta a la tierra de la fuente de alto voltaje. Para llevar a cabo la lectura del ADC se requieren cuatro señales digitales que son conectadas al FPGA a través de 4 optoacopladores con el fin de aislar el FPGA del alto voltaje. Para proteger el amplificador de instrumentación y el ADC de una posible descarga se usa un arreglo resistivo, que consiste de una resistencia de escala 𝑅𝑥 en paralelo con 3 resistencias en serie de 100MΩ, el objetivo es que la corriente que se desea medir (𝐼𝑚 ) pase por la resistencia 𝑅𝑥 y produzca un voltaje 𝑉𝑥 =𝐼𝑚 *𝑅𝑥 , como esta caída de voltaje es la misma en las tres resistencias en serie de 100 MΩ entonces el voltaje que habrá a la entrada del amplificador de instrumentación será 𝑉𝑥 /3, el amplificador de instrumentación presenta una ganancia de 30, por lo que a la salida de este amplificador tenemos 10*𝑉𝑥 . Siendo el voltaje de entrada máximo del ADC de +/-10V, entonces el valor máximo de 𝑉𝑥 debe limitarse a 1V. Con esto el voltaje máximo en la resistencia de 100 MΩ conectada a la entrada del amplificador no sería mayor a 0.33V, este voltaje es menor al voltaje de polarización en directa de los diodos de protección durante un funcionamiento normal. (ver Figura 2)

81


Fig. 2. Arreglo de resistencias y diodos usado para proteger del alto voltaje a los amperímetros.

Si la corriente máxima medida es 𝐼𝑥𝑚𝑎𝑥 obtenemos: 𝑉 = 𝐼𝑥𝑚𝑎𝑥 ∗ 𝑅𝑥

(1)

donde: 𝐼𝑥𝑚𝑎𝑥 es la corriente máxima que se desea medir y 𝑅𝑥 es la resistencia de escala correspondiente. Como se determinó anteriormente el voltaje de entrada debe estar en el rango de 0 a 1V, por lo tanto, para obtener los valores de cada resistencia colocada en los amperímetros de acuerdo a su escala, se usa la Ec. 1, donde se obtiene que para una escala de 0 a 100nA se debe usar una resistencia 𝑅𝑥 =10 MΩ, para una escala de 0 a 1𝜇A implica una 𝑅𝑥 = 1 MΩ y para una escala de 0 a 10𝜇A la 𝑅𝑥 =100kΩ. El valor de la resolución teórica está en función del número de bits del ADC usado, en este caso 17, así tendremos una resolución teórica de 0.7 pA para la escala de 0 a 100 nA, de 7.7 pA para para la escala de 0 a 1 𝜇A y de 77.1 pA para la escala de 0 a 10 𝜇A.

2.

Firmware

Se desarrolló un firmware para el control y envío de los datos provenientes del ADC de 18 bits de cada uno de los amperímetros, esto se lleva a cabo en un FPGA, el programa se desarrolló en Quartus II, como se muestra en la siguiente figura.

Fig. 3. Diagrama a bloques firmware FPGA.

82


En la imagen se presenta un bosquejo del funcionamiento del firmware, el cual recibe los datos provenientes de los ADC, los deserializa, los procesa y los envía mediante comunicación Wi-Fi para su visualización en una computadora. El FPGA recibe los datos serializados enviados por los ADC de cada uno de los amperímetros para su deserialización y comparación. El ADC entrega dos señales, BUSY que indica que la conversión del dato analógico concluido y SDO que corresponde a el dato de 18 bits en forma serial. Las señales necesarias para la conversión del ADC son CVN, que indica el inicio de una conversión nueva y SCK que es el reloj con el cual el dato serial envía bit a bit, estas señales provienen del FPGA sincronizadas con el funcionamiento en base al diagrama de tiempos del ADC, este funcionamiento corresponde a la Figura 4.

Fig. 4. Diagrama de tiempos de funcionamiento del ADC.

El FPGA solicita la conversión de los datos provenientes de los 3 amperímetros a la etapa de Control Current Conversion mediante los bits de control de la etapa de data acquisition, se deserializan cada uno de los datos mediante la etapa de deserialización y se comparan para seleccionar el rango más adecuado de los amperímetros y así poder realizar el monitoreo autoajustable, para ello el FPGA analiza cada uno de los datos enviados por los ADC en data acquisition para seleccionar el valor óptimo de medición. El FPGA solicita los datos de los ADC a una tasa de 1 milisegundo, es decir cada milisegundo se tienen los 3 datos provenientes de los ADC para su análisis y selección, Aunque los ADC pueden proveer hasta 250 ksps en nuestro caso muestrear a 1ksps es suficiente debido a que las variaciones de corriente no ocurren de una manera tan rápida por las características de las fuentes de alto voltaje de corriente directa. Una vez elegido los datos adecuados para su envío se guardan en un registro de 18 bits en la etapa de data format para enviar esta información de manera inalámbrica por medio del Wi-Fi manager. El firmware de transmisión del Wi-Fi es en formato serial utilizando el protocolo UART. Se usan 10 bits: 1 bit de inicio + 8 bits de datos + 1 bit de paro. En la Figura 5, se puede observar el formato de la transmisión de bits.

Fig. 5. Formato de transmisión de datos UART

83


El formato de envío es de un byte (8 bits) en este caso se envían en paquetes de 3 bytes, con la finalidad de enviar los 18 bits del ADC, por lo que para identificar cada dato se codifican los 18 bits provenientes del ADC en paquetes de 3 bytes donde el byte 1 es la parte más baja de los 18 bits, el byte 2 es la parte central y el byte 3 es la parte más alta, cómo se muestra en la Tabla 1. Tabla 1. Identificación Bytes enviados

Byte Byte 1 Byte 2 Byte 3

3.

Identificación 01 10 11

Dato Dato[0..5] Dato[6..11] Dato[12..17]

Software

Se desarrolló un software para el sistema de monitoreo en LabVIEW® que pueda cubrir dicho propósito. En el desarrollo del software se toma en cuenta el envío de datos de 18 bits enviados por el ADC explicado en la sección anterior. El software realiza la apertura o petición de la comunicación Wi-Fi y la adquisición de los 3 bytes como se muestra en el diagrama a bloques de la siguiente figura.

Fig. 6. Diagrama a bloques software.

Cómo podemos observar el software recibe los datos, los selecciona, los concatena y finalmente los interpreta para su visualización en 2 gráficas, una con los datos en crudo y otra con un suavizado de los datos el cuál se realiza mediante un promedio de muestras. Se identifican cada uno de los bytes enviados por el firmware y se decodifican con la finalidad de obtener el byte más significativo, el segundo byte y el byte menos significativo, para realizar la decodificación, se realiza la lectura de la etiqueta de identificación del byte, una vez decodificada la recepción de datos, se concatenan para obtener la palabra de 18 bits del ADC. Se considera que se tiene un bit de signo, se revisa cuando se encuentre el bit que es el 18, para poder enviar el valor entero ya sea positivo o negativo. El software permite identificar cada uno de los bytes recibidos, en relación a los bits de identificación que se programaron en el firmware cómo se ve en la Figura 7.

84


Fig. 7. Diagrama de flujo decodificación bytes.

Aquí podemos apreciar cómo se identifican los bytes con la etiqueta que traen para su ordenamiento y visualización en pantalla. Una vez decodificada la recepción de datos, se concatenan para obtener la palabra de 18 bits del ADC, se considera que se tiene un bit de signo, se revisa cuando se encuentre el bit que es el 18, para poder enviar el valor entero ya sea positivo o negativo. Para graficar la información con el dato recuperado, en su parte negativa y en su parte positiva recuperada, se realiza la conversión del dato para interpretar la información en corriente y voltaje, de igual forma se genera un promedio de los datos recibidos de cuarenta muestras para poder visualizar la información. Se tiene una etapa de suavizado con 40 muestras con la intención de tener un despliegue de información para observar si las variaciones de corriente se ven más claras con la finalidad de disminuir el ruido, para ello se hace un registro de corrimiento de 40 muestras y se obtiene el promedio de estas, se realiza un corrimiento a la siguiente muestra y se vuelve a calcular el promedio como se muestra en la Figura 8.

85


Fig. 8. Obtención de promedio para suavizado.

Se toman 40 muestras y se obtiene el promedio, se hace un corrimiento y se repite el proceso, la visualización de estos datos se realiza en una gráfica aparte. En relación con la obtención del promedio, se tiene que la variación de cada uno de los datos obtenidos se ve reflejada en las 40 muestras siguientes, por lo que el resultado y cálculo es constante con cada una de las muestras obtenidas. La pantalla de visualización para el monitoreo de señales se muestra en la Figura 9. En la imagen tenemos la parte del graficado de nuestros datos en µA con respecto del tiempo en segundos y la gráfica del suavizado de muestras con la misma escala, así como un botón de inicio y un cuadro de para escribir el nombre de archivo para almacenar los datos en la computadora.

Fig. 9. Pantalla del monitor de corriente.

En la imagen podemos visualizar la pantalla para la visualización y almacenamiento de datos desarrollada en LabView, cómo podemos apreciar tenemos (1) un cuadro para almacenar los datos visualizados con el nombre que queramos (el nombre por default es datos). En (2) tenemos el botón de inicio y paro del software para la adquisición de los datos que se desean visualizar en las gráficas (3) y (4) que son los datos en crudo y los datos suavizados respectivamente.

86


4.

Conclusiones

Cómo se pudo apreciar en este trabajo se presentó el diseño de un software para un sistema de monitoreo de corriente autoescalable. Las aportaciones de este trabajo son: 1. Se presenta un sistema monitor de corriente que puede variar de escala automáticamente. 2. Se presenta el desarrollo de un software para la adquisición y procesamiento de datos y su visualización en una computadora. 3. Se presenta un arreglo de resistencias con el fin de proteger de descargas al amplificador y al ADC. El diseño del sistema se basa en tres amperímetros conectados en serie cada uno con un rango de medición distinto para cubrir el rango de picoamperes a 10 microamperes, el control, selección y envío de datos a una computadora para su visualización se logró mediante un Firmware el cual fue programado en un FPGA Cyclone III y se utilizó una interfaz de comunicación Wi-Fi para la transmisión de los datos a una computadora para su visualización, el Software desarrollado en LabVIEW se encarga de abrir la comunicación Wi-Fi, realizar la recepción de datos, la identificación y concatenación de los mismos para finalmente poder ser visualizados en 2 gráficas, una de los datos en crudo y otra donde se realiza un suavizado mediante el promedio de 40 muestras con la finalidad de tener una gráfica más estilizada. El arreglo de resistencias implementado junto con los diodos tiene la finalidad de servir como un método de protección contra descargas, es decir, si ocurre una descarga del alto voltaje del GEM, la parte de las resistencias y los diodos serían los primeros afectados y por consiguiente ocurriría un corto circuito, lo que evita que los demás componentes del sistema de monitoreo se dañen.

Referencias 1. ALICE Collaboration. (2014). Technical Design Report for the Upgrade of the ALICE Time Projection Chamber. https://cds.cern.ch/record/1622286/files/ALICE-TDR-016.pdf 2. Deisting, A., Garabatos, C., Gasik, P., Baitinger, D., Berdnikova, A., Blidaru, M. B., Datz, A., Dufter, F., Hassan, S., Klemenz, T., Lautner, L., Masciocchi, S., Mathis, A., Negrao De Oliveira, R. A., & Szabo, A. (2019). Secondary discharge studies in single- and multi-GEM structures. Nuclear Instruments and Methods in Physics Research, Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 937, 168–180. https://doi.org/10.1016/j.nima.2019.05.057 3. Sauer, B. E., Kara, D. M., Hudson, J. J., Tarbutt, M. R., & Hinds, E. A. (2008). A robust floating nanoammeter. Review of Scientific Instruments, 79(12), 126102. https://doi.org/10.1063/1.3036985 4. Utrobicic, A., Kovacic, M., Erhardt, F., Jercic, M., Poljak, N., & Planinic, M. (2019). Studies of the delayed discharge propagation in the Gas Electron Multiplier (GEM). Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 940, 262–273. https://doi.org/10.1016/j.nima.2019.06.018 5. Utrobicic, A., Kovacic, M., Erhardt, F., Poljak, N., & Planinic, M. (2015). A floating multichannel picoammeter for micropattern gaseous detector current monitoring. Nuclear

87


Instruments and Methods in Physics Research, Section A: Accelerators, Spectrometers, Detectors and Associated Equipment, 801. https://doi.org/10.1016/j.nima.2015.08.021 6. Yu, D., Liu, J., Xue, Y., Zhang, M., Cai, X., Hu, J., Dong, J., & Li, X. (2015). A 128-channel picoammeter system and its application on charged particle beam current distribution measurements. Review of Scientific Instruments, 86(11), 115102. https://doi.org/10.1063/1.4934849

88


Capítulo 9. Estado del Arte de Métodos de Descubrimiento de Tópicos Ana Laura Lezama Sánchez1, Mireya Tovar Vidal1, José Alejandro Reyes Ortiz2 1

Benemérita Universidad Autónoma de Puebla, Facultad de Ciencias de la Computación, Puebla, México. C.U. 14 sur y Av. San Claudio, Puebla, México 2 Universidad Autónoma Metropolitana Av. San Pablo Xalpa 180, 02200 Azcapotzalco 1 yumita1102@gmail.com, 1mtovar@cs.buap.mx, 2jaro@azc.uam.mx

Resumen. En el presente trabajo se realiza una revisión del estado del arte relacionado con enfoques para el descubrimiento de tópicos con la finalidad de conocer los diferentes métodos, algoritmos y herramientas utilizadas, por diversos autores en esta área de investigación. Cada autor citado realiza el descubrimiento de tópicos por medio de diferentes algoritmos y técnicas, como el Análisis Semántico Latente o el Análisis de Dirichlet Latente. El análisis realizado pone en evidencia que los métodos de descubrimiento de tópicos necesitan incorporar mecanismos enriquecidos semánticamente con la finalidad de proporcionar mejores resultados que los existentes hasta ahora en la literatura. Palabras Clave: Descubrimiento de Tópicos, Incrustación de Palabras, Métricas de Evaluación, Coherencia del Tópico.

1

Introducción

La narrativa en todo documento gira en torno a un tópico, es decir, estos representan la idea principal de una colección de documentos de texto. Para un ser humano es tarea sencilla, leer un documento e identificar el tópico que se expone sin invertir mucho tiempo, pero dado el crecimiento de la información disponible para un dominio es imposible que un humano obtenga de grandes cantidades de documentos los tópicos presentes en poco tiempo, ya que se traduciría en una tarea tediosa y difícil de concluir. Por esa razón existen métodos computacionales que son capaces de proporcionar en poco tiempo los tópicos presentes en volúmenes grandes de documentos, pero aún es importante contar con nuevos métodos computacionales capaces de reconocer información que el humano identificaría en el momento de leer un documento, esto con el propósito de que se proporcionen tópicos con alta coherencia. Este documento está estructurado de la siguiente manera, en la sección 2 se describen algunos de los trabajos encontrados en la literatura sobre el descubrimiento de tópicos, con la característica de que incorporan mecanismos adicionales que les proporcionaron mejores resultados a los autores, comparados con los resultados que otorga un método tradicional sin ningún proceso adicional. En la sección 3 se proporciona nuestro punto

89


de vista hacia los trabajos que se exponen y se detalla el trabajo en curso, y finalmente se presentan las referencias que respaldan la información reportada en este documento.

2

Enfoques para el descubrimiento de tópicos

En la literatura se encontraron enfoques para el descubrimiento de tópicos como el análisis semántico latente (LSA), análisis latente de Dirichlet (LDA), análisis semántico latente probabilístico (PLSA), etc., además se descubrió la existencia de trabajos que llevan a cabo la tarea de descubrimiento de tópicos por mencionar algunos, incorporando análisis lingüísticos, el muestreo de Gibbs y cadenas de Markov, además de trabajar con diferentes idiomas, pero principalmente se encontró la evidencia de trabajos en idioma inglés, un trabajo para persa, uno para el holandés, uno para el chino y sólo dos para el español, además de trabajar con textos cortos (redes sociales), noticias, dominio médico, finanzas, encuestas, etc. A continuación, se presentan trabajos relacionados que reportan el uso de los métodos tradicionales para el descubrimiento de tópicos, auxiliados de herramientas (módulos), que proporcionan mejoras en los resultados, o los que proponen nuevos métodos como en Beguerisse-Diaz et al. (2017) proponen un método de descubrimiento de tópicos basado en min-hashing. Los trabajos reportados se encuentran en diversas bases de datos, por mencionar algunas Hindawi, ELSEVIER, IEEEAccess, Scopus y Springer. Los autores de Ghenai y Mejora (2017) proporciona una herramienta para el rastreo de información errónea de enfermedades en Twitter, específicamente la enfermedad del zika. Los autores conformaron un corpus de más de 13 millones de tweets donde descubrieron un comportamiento explosivo de los tópicos relacionados con los rumores y mostraron que una vez que el tópico es detectado, es posible identificar los tweets que contienen rumores utilizando técnicas automatizadas. Su método emplea el descubrimiento de tópicos basado en LDA y un enfoque de recuperación de información de alta precisión dirigido por expertos para identificar los tweets relevantes. El método emplea externalización abierta de tareas (crowdsourcing) para distinguir entre rumores y tweets de aclaración, que posteriormente fueron usados para construir clasificadores automáticos, como árboles de decisión, Naïve Bayes, random forest entre otros. Los autores señalan que su trabajo aporta a la literatura una primera aplicación de las herramientas analíticas de medios sociales de última generación al problema del seguimiento de los rumores de salud. El método es evaluado con las métricas precisión, exhaustividad y medida-F. En Buenano-Fernandez et al. (2020) se propone un caso de estudio para la evaluación de la metodología genérica basada en el descubrimiento de tópicos y redes de texto, con el objetivo de permitir a investigadores recopilar información de encuestas que utilizan preguntas abiertas, como en el caso del resultado de una encuesta de autoevaluación docente en una universidad ecuatoriana. La metodología propuesta constó de 3 fases, las cuales fueron crear una base de datos, desarrollo de un algoritmo de descubrimiento de tópicos y la clasificación manual de los tópicos encontrados. Los autores hicieron uso de LDA para el descubrimiento de los tópicos, evaluaron por

90


medio de la medida de coherencia (CV) que se basa en una ventana deslizante donde los recuentos se utilizan para calcular la información mutua puntual de cada palabra superior a cada otra palabra superior. El trabajo presentado en Beguerisse-Diaz et al. (2017) expone un estudio de las conversaciones de Twitter, relacionado con la diabetes, incluyendo grupos temáticos como: información de salud, noticias, interacción social y comerciales, por medio de un análisis sistemático de 2.5 millones de tweets en inglés. Los tweets fueron agrupados en contenedores semanales por medio de un grafo de adyacencia, primero procesan el texto y posteriormente crean una red de co-ocurrencia de palabras. La probabilidad de que los tweets de cada contenedor pertenezcan a diferentes temas fue calculada utilizando técnicas de análisis textual y detección de comunidades para grafos. Los nodos fueron representados por palabras y los bordes por dos palabras que aparecieron conjuntamente en los tweets con mayor probabilidad. El grafo de co-ocurrencia lo analizaron por medio de la estabilidad de Markov para la extracción de comunidades, o grupos relevantes de palabras que aparecieron en los tweets de manera más consistente que con palabras externas. El descubrimiento de tópicos fue realizado con la implementación del LDA. En Sha et al. (2020) se presenta un modelo de descubrimiento de tópicos, sobre las narrativas de Twitter en torno a la toma de decisiones a nivel federal y estatal del gobierno de Estados Unidos sobre el manejo de la pandemia COVID-19. El modelo rastrea sub-tópicos en evolución en torno al riesgo, las pruebas y el tratamiento. Los autores realizan pruebas con el LDA y la red binomial de Hawkes, además construyen una red de influencia entre los funcionarios gubernamentales por medio de la causalidad de Granger y evalúan por medio de la métrica coherencia del tópico. Los autores de Satu et al. (2020) proponen una clasificación basada en grupos y un modelo de extracción de tópicos, que llamaron TClustVID. Su método fue capaz de proporcionar resultados mejorados en comparación con los clasificadores existentes en la literatura. La extracción de tópicos fue hecha con LDA. Con este enfoque lograron identificar las opiniones públicas relacionadas con COVID-19, así como actitudes hacia las estrategias de prevención de infecciones de personas de diferentes países con respecto a la situación pandémica actual. El conjunto de datos usado fue extraído del portal IEEE. El método fue evaluado por medio de precisión, área bajo la curva (AUC), medida-F, media-g, sensibilidad y especificidad, e implementaron los algoritmos de clasificación árbol de decisión, k-vecinos, regresión logística, Naïve Bayes, random forest y máquinas de soporte vectorial. El desarrollo de un método para el descubrimiento de tópicos, haciendo un análisis lingüístico y semántico se presenta en Karami et al. (2018). Los autores se apoyaron de la herramienta de análisis lingüístico LIWC (La Investigación Lingüística y el Conteo de Palabras) que es capaz de encontrar sentimientos, personalidad y motivaciones en un corpus, también incorporaron un diccionario relacionado con salud. Para explorar las opiniones en los tweets usaron LDA. Cada uno de los tópicos sobre dieta, ejercicio, obesidad y diabetes (DDEO) incluyó varios subtemas y dos términos tanto DDEO como no DDEO descubiertos por LDA. Los autores obtuvieron una colección de 4.5 millones de tweets de la red social Twitter y están relacionados con la dieta, el ejercicio, la obesidad y diabetes. El trabajo usa como recurso un lexicón para revelar la orientación semántica de las palabras en un tópico.

91


Los autores de Yang et al. (2019) muestran un método de descubrimiento de términos representativos de tópicos (TRTD) para la agrupación de textos cortos. El método descubre grupos de términos representativos de tópicos estrechamente vinculados al explotar la cercanía y el significado de los términos. La cercanía de los términos representativos del tópico fue evaluada por su co-ocurrencia interdependiente y la importancia fue medida por las ocurrencias de términos globales a lo largo de todo el corpus de texto breve. Los resultados experimentales en conjuntos de datos de palabras reales demostraron que el método logró resultados competitivos en la agrupación de texto corto que los presentes en la literatura. El método fue evaluado con las métricas índice aleatorio ajustado, información mutua ajustada e información mutua. El conjunto de datos usado para sus experimentos fue el proporcionado por TREC 2011, sobre eventos históricos. En Karandikar Anand (2010) se propone un análisis de los resultados proporcionados por el programa MALLET, que dado un corpus proporciona los tópicos y los grupos presentes en el corpus recibido. Para obtener los tópicos de un conjunto de datos no etiquetados, en este caso textos cortos (tweets), los autores proponen agrupar por medio de las distribuciones de tópicos. El método emplea el coeficiente de Jaccard y los centroides son elegidos aleatoriamente. Para el agrupamiento utilizan las distribuciones de tópicos en cada tweet. El método fue probado con 4 conjuntos de datos diferentes y evaluado con la métrica de exactitud. En Majdabadi (2020) se propone una versión modificada del algoritmo Rank-Clus, para extraer tendencias de tweets basado en un grafo heterogéneo. Los tweets los representan con 3 tipos de nodos: tweets, palabras y hashtags. Después emplean un algoritmo de agrupamiento basado en ranking para detectar nodos relevantes en el grafo que se consideran tendencias. El método encontró grupos de tweets que tuvieron algunas palabras y hashtags en común, además utilizó todos los tweets: con o sin hashtags. Los autores propusieron otro método de puntuación que evaluó cada grupo y proporcionó resultados consistentes y coherentes. Los algoritmos de k-means y LDA fueron implementados como parte del funcionamiento del método propuesto. Los autores de Wartena y Brussee (2008) exponen un método para el descubrimiento de tópicos. Para su representación forman grupos de palabras clave, y simplifican cada documento como una bolsa de palabras o términos. El método comenzó por extraer una lista de las palabras clave más informativas, e identificaron grupos definiendo un centroide que fue tomado como tópico. El método propuesto obtuvo resultados competitivos, fue probado con artículos de Wikipedia. El método comienza seleccionando dos elementos que tienen la mayor distancia, que son usados como semillas para dos grupos, después todos los demás elementos se asignan al grupo más cercano a una de las dos semillas, una vez asignados todos los elementos a un grupo, se calculan los centros de ambos grupos. Un método para el descubrimiento de tópicos basado en min-hashing, capaz de trabajar con corpus de texto masivo y no requiere que se predefina el número de tópicos que el método debe encontrar es presentado en Fuentes-Pineda y Meza-Ruiz (2019). El método consiste en múltiples particiones aleatorias del corpus para encontrar conjuntos de palabras recurrentes que posteriormente serán agrupadas para producir los tópicos finales. Los autores trabajaron con corpus pertenecientes al dominio de noticias, naturaleza y finanzas en inglés y en español, demostrando que el método propuesto es

92


capaz de descubrir tópicos significativos y coherentes a escala. La métrica de evaluación utilizada fue la coherencia del tópico. En Zhu y Yu (2014) se muestra un modelo de pre-reconocimiento para encontrar tópicos populares. El modelo aborda los conceptos de ciclo de vida del tópico, basándose en conceptos de mecánica, velocidad y aceleración para calcular el cambio de intensidad del tema, que tiene como objetivo descubrir tópicos populares antes de que aumenten y estallen. Los autores propusieron tres procesos para lograrlo, primero agrupar publicaciones originales para obtener los tópicos y su cantidad por medio de: filtrar las publicaciones originales para omitir las palabras detenidas e inútiles, hacer coincidir palabras pre-procesadas para obtener palabras clave, usando LDA y el modelo de asignación de pachinko (PAM) para la generación de tópicos y sus sub-tópicos, y el agrupamiento de temas similares utilizando el algoritmo k-vecinos. El modelo fue probado con corpus en el idioma chino y en el dominio de comida, crisis de la deuda europea y Siria. Los autores de Núñez-Reyes et al. (2016) proponen un método para identificar tópicos en tweets, por medio de una representación de cada documento en un vector con términos ponderados, empleando bolsa de palabras y los pesos los definen por medio del ponderado booleano, aplican la medida del coseno como métrica de proximidad, además hacen una representación de baja dimensionalidad mediante el método de punto de transición. El método hace uso del algoritmo de agrupamiento kmeans y estrella para tratar de eliminar las limitaciones de los esquemas tradicionales. Los autores realizaron pruebas con datos proporcionados por los organizadores del RepLab del 2013, en inglés y español con los dominios autos, bancos, universidades y música. El método fue evaluado usando el coeficiente de Silhouette obteniendo resultados competitivos. En la Tabla 1 se presenta un resumen de los trabajos revisados anteriormente. En la Tabla se observa el propósito del trabajo de cada autor, así como los algoritmos utilizados, el idioma y dominio del corpus que cada autor usó en sus experimentos y finalmente las métricas usadas para su evaluación. Tabla 1. Estado del arte de métodos para el descubrimiento de tópicos Autor (Ghenai & Mejora, 2017)

(Buenan o-Fernandez et al., 2020)

Propósito o tema Descubrimi ento de información errónea.

Evaluación de una metodología basada en el descubrimient o de tópicos.

Algorit mos LDA, Naïve Bayes, random forest, árboles de Decisión LDA, HAC, algoritmo de detección de borde intermedio

Idiom

Dominio

Métricas

Inglés

Zika

Precisión, exhaustividad, medida-F

Académic

Coherenci a del tópico

a

Españ ol

o

93


(Begueri sse-Diaz et al., 2017) (Sha et al., 2020)

Estudio de conversaciones en Twitter sobre diabetes. Descubrimi ento de tópicos en redes sociales.

(Satu et al., 2020)

Clasificació n basada en agrupamiento y un modelo de descubrimient o de tópicos

(Karami et al., 2018)

Método para el análisis de las opiniones públicas. Método de descubrimient o de tópicos.

(Yang et al., 2019)

(Karandi kar Anand, 2010)

Extracción de tópicos por medio del programa MALLET.

(Majdab adi, 2020)

Versión modificada de rank-clus para extraer tendencias de twitter. Método para el descubrimient o de tópicos en

(Wartena & Brussee, 2008)

LDA

Inglés

LDA, red binomial de Hawkes LDA, kmeans, árbol de decisión, kvecinos, regresión logística, Naïve Bayes, random forest, máquinas de soporte vectorial LDA

Inglés

Inglés

Diabetes, dieta, ejercicio, obesidad

Coherenci a del tópico

LDA

Inglés

Eventos históricos

Índice de rand ajustado, información mutua ajustada, información mutua normalizada Exactitud

Kmeans

LDA

Kmeans, enlace simple.

Diabetes

Hubauthority Scores

COVID19

Coherenci a del tópico

Inglés

COVID19

Precisión, área bajo la curva, medida-F, sensibilidad y especificid ad

Inglés

Noticias, desastres naturales, noticias, twitterdb

Inglés, persa

Twitter

Entropía, score (clúster)

Artículos de Wikipedia

Precisión, medida-F

Holan dés

94


(FuentesPineda & Meza-Ruiz, 2019)

(Zhu & Yu, 2014)

(NúñezReyes et al. 2016)

una colección de documentos. Método para el descubrimient o de tópicos.

Modelo para el descubrimient o de tendencias en twitter. Modelo para el descubrimient o de tópicos en textos cortos.

Método basado en minhashing, online LDA, agrupamie nto aglomerati vo. LDA, kvecinos

Kmeans, estrella

Inglés, españo

Noticias, finanzas, naturaleza

Informació n mutua de puntos normalizados

Chino

Comida, crisis de la deuda europea y Siria

Exhaustivi dad, precisión

Españ

Autos, banca, universida des y música

Coeficient e de Silhouette

l

ol, inglés

Los trabajos analizados proponen usar diferentes características para una misma tarea, es decir, el descubrimiento de tópicos en documentos de texto sin importar el idioma o dominio. A continuación, se exponen esas características de manera general.

● ● ● ● ● ●

Propósito: Descubrir los tópicos presentes en documentos de texto independiente de dominio e idioma. Algoritmo: Los algoritmos más usados son LDA, k-means, k-vecinos, entre otros. Recursos: Los recursos que presentan predominancia en la literatura son TF-IDF, similitud coseno, bolsa de palabras, similitud coseno, etc. Idioma: El idioma más usado es el inglés, sin embargo, se detectaron pocos trabajos para otros idiomas como el persa, español y holandés. Dominio: Se encontraron diferentes dominios de interés, por ejemplo: académico, finanzas, salud, noticias, desastres naturales, entre otros. Métricas de evaluación: Las métricas utilizadas son precisión, exhaustividad, recuerdo, información mutua de puntos normalizados, Índice de rand ajustado, información mutua ajustada, información mutua normalizada y coherencia del tópico.

Hasta ahora se han analizado enfoques para el descubrimiento de tópicos que usan los métodos tradicionales o basados en métodos tradicionales, pero sin agregar conocimiento semántico. Esos métodos obtienen buenos resultados para la resolución

95


de dicha tarea, pero se detecta que los métodos de descubrimiento de tópicos necesitan incorporar mecanismos enriquecidos semánticamente que proporcionen resultados competitivos, es decir incorporar mayor información semántica dotará a los métodos con información clave para el descubrimiento de tópicos.

3

Conclusiones

En este artículo se han revisado los diferentes trabajos de descubrimiento de tópicos de diversos autores, donde usan recursos como Wordnet, muestreo de Gibbs, LDA, kmeans, k-vecinos, MALLET entre otros. Además de dominios como salud, noticias, educación, finanzas, etc., en su mayoría cada autor lleva a cabo el descubrimiento de tópicos usando algoritmos tradicionales o alguna variante de ellos. Después de que se han revisado los trabajos que descubren tópicos con métodos tradicionales y los que proponen nuevos métodos hemos llegado a la conclusión de que el descubrimiento de tópicos mejora al incorporar recursos externos. Por ejemplo, algunos autores incorporaron el uso de diccionarios léxicos como Wordnet, es decir, es necesario proporcionar la semántica que el humano identificaría al leer un documento. Cómo trabajo a futuro se contempla, profundizar en la búsqueda del estado del arte, con el objetivo de conocer otros enfoques con técnicas como aprendizaje profundo y modelos de incrustación de palabras.

Referencias 1. Ghenai, A. y Mejova, Y. (2017). Catching zika fever: Application of crowdsourcing and machine learning for tracking health misinformation on twitter. Paper presented at the Proceedings - 2017 IEEE International Conference on Healthcare Informatics, ICHI 2017, 518-529. doi:10.1109/ICHI.2017.58 2. Buenano-Fernandez, D., Gonzalez, M., Gil, D. y Lujan-Mora, S. (2020). Text mining of open ended questions in self-assessment of university teachers. An LDA topic modeling approach. IEEE Access, 8, 35318-35330 doi:10.1109/ACCESS.2020.2974983 3. Beguerisse-Díaz, M., McLennan, A. K., Garduño Hernández, G., Barahona, M. y Ulijaszek, S. J.(2017). The ‘who’ and ‘what’ of #diabetes on twitter. Digital health, 3, 1-29. doi:10.1177/2055207616688841 journals.sagepub.com/home/dhj 4. Sha, H., Hasan, M. A., Mohler, G. y Brantingham, P. J. (2020). Dynamic topic modeling of the COVID-19 twitter narrative among U.S. governors and cabinet executives. arXiv preprint arXiv:2004.11692, 1-6. 5. Satu, M. S., Khan, M. I., Mahmud, M., Uddin, S., Summers, M. A., Quinn, J. M. y Moni, M. A. (2020). TCLUSTVID: A novel machine learning classification model to investigate topics and sentiment in COVID-19 tweets. MedRxiv 2020.08.04.20167973, 1-31. doi: https://doi.org/10.1101/2020.08.04.20167973 6. Karami, A., Dahl, A. A., Turner-McGrievy, G., Kharrazi, H., Shaw Jr, G. (2018). Characterizing diabetes, diet, exercise, and obesity comments on Twitter. International Journal of Information Management, 38 (1), 1-6. 7. Yang, S., Huang, G. y Cai, B. (2019). Discovering topic representative terms for short text clustering. IEEE Access, 7, 92037-92047.doi:10.1109/ACCESS.2019.2927345

96


8. Karandikar Anand (2010). Clustering short status messages: A topic model based approach. [Tesis de maestría, Universidad de Maryland]. https://ebiquity.umbc.edu/_file_directory_/papers/518.pdf 9. Majdabadi, Z., Sabeti, B., Golazizian, P., Asli, S. A. A. y Momenzadeh, O. (2020). Twitter Trend Extraction: A Graph-based Approach for Tweet and Hashtag Ranking, Utilizing NoHashtag Tweets. In Proceedings of the 12th Language Resources and Evaluation Conference, 6213-6219. 10.Wartena, C. y Brussee, R. (2008). Topic detection by clustering keywords. In 2008 19th International Workshop on Database and Expert Systems Applications, 54-58. doi: 10.1109/DEXA.2008.120 11.Fuentes-Pineda, G. y Meza-Ruiz, I. V. (2019). Topic discovery in massive text corpora based on min-hashing. Expert Systems with Applications, 136, 62-72. doi:10.1016/j.eswa.2019.06.024 12.Zhu, T. y Yu, J. (2014). A prerecognition model for hot topic discovery based on microblogging data. Scientific World Journal, 2014 doi:10.1155/2014/360934 13.Núñez-Reyes, A., Cuevas, E. M., Villatoro-Tello, E., Ramírez-de-la Rosa, G. y SánchezSánchez, C. (2016). Agrupamiento de textos cortos en dominios cruzados. Research in Computing Science, 115, 133-145.

97


Editores

Dr. Juan Manuel González Calleros Dra. Josefina Guerrero García Dra. Claudia Zepeda Cortés Dra. Darnes Vilariño Ayala

98


Avances de ingeniería del lenguaje, del conocimiento y la interacción humano máquina Volumen I

Coordinado por Dr. Juan Manuel González Calleros Dra. Josefina Guerrero García Dra. Claudia Zepeda Cortés Dra. Darnes Vilariño Ayala está disposición en la página https://issuu.com/uajournals/docs a partir de julio de 2021

99


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.