3 minute read

Predicci\u00F3n de la deserci\u00F3n universitaria usando Big Data y Machine Learning

Por: Jaime Reinoso, Director del Centro de Servicios Informáticos de la Pontificia Universidad Javeriana Cali

El Centro de Servicios Informáticos (CSI) de la Pontificia Universidad Javeriana Cali ha venido trabajando con tecnologías de BigData y Machine Learning para atender varios de los objetivos estratégicos de la institución, entre ellos ayudar a reducir la deserción universitaria. Uno de sus métodos es un sistema de alertas tempranas, que tiene entre sus componentes un modelo creado a partir de algoritmos de Big Data y Machine Learning (BD y ML), esto permite identificar, de forma oportuna y suficientemente acertada, qué estudiante va a desertar, cuándo lo hará y cuáles son las razones.

Advertisement

Se considera un acierto en proyectos de BD y ML, cuando el nivel de predicción del modelo es alto, tanto en cuanto a los estudiantes que van a desertar como en el caso de los que no lo van a hacer. En este caso, se han logrado resultados con aciertos de más del 90%.

Las fases para alcanzar dicho resultado incluyeron, como primera medida, determinar claramente el objetivo, en conjunto con los funcionales académicos del Comité de Permanencia Estudiantil, acordando la meta de tener una lista de los estudiantes en riesgo y entender cuáles eran sus razones, para así tomar acciones preventivas.

Dicho objetivo enmarcó el proyecto dentro de la característica de aprendizaje supervisado, pues se tendrían instancias tanto de estudiantes que desertaron como de los que no, para la generación de modelos de predicción. Así, se redujo a los algoritmos de Decision Tree Induction, Logistic Regression y Naïve Bayesian Networks, ya que sus resultado son fáciles de interpretar por parte de los humanos (se consideran blancos), y por tanto era posible precisar las causas. No ocurría lo mismo con Neural Networks, Gradient Boosted Trees o Deep Learning, por ejemplo, que se consideran oscuros por la dificultad de interpretación de los modelos obtenidos.

Luego, con los funcionales, se establecieron las posibles razones que explican el fenómeno, y en conjunto con el Centro de Servicios Informáticos, se determinaron las bases de datos pertinentes para validar estas hipótesis. Se procedió a la extracción, transformación y carga de los datos hasta obtener una tabla con la representación adecuada de los mismos, cuya escogencia fue clave en el éxito del proyecto. Precisamente, por este último punto aparecen muchas variables, a nivel general, que hacen de este un proyecto de Big Data. Por ejemplo, si se quiere incluir la evaluación docente en el análisis, entonces es necesario crear una columna por cada asignatura vista por cada estudiante, lo que fácilmente genera 300 columnas por semestre (asumiendo que las filas son los estudiantes). Si además se quiere analizar el nivel académico de los docentes que orientaron dichas asignaturas, aparecerán fácilmente otras 300 columnas, y así sucesivamente. En el caso de Javeriana Cali, no es extraño que los modelos con frecuencia pasen de 8.000 variables consideradas.

En ML, se considera un experimento a un algoritmo específico, una historia de datos particular, una parametrización específica del algoritmo y una forma de valoración de cada resultado. Por tanto, la etapa que sigue es definir cada experimento, generar modelos con cada uno, realizar predicciones con estos y verificar el nivel de exactitud de la predicción alcanzada, para así escoger aquel experimento que presente la mejor evaluación. Por supuesto, es muy importante involucrar a los funcionales para que verifiquen los modelos alcanzados y mejoren el proceso de predicción, hasta alcanzar un nivel adecuado.

El paso a producción consiste en tomar los datos de los estudiantes objetivo, usando el modelo escogido para generar predicciones de la probabilidad de deserción de cada uno, y enviar esta información a los directores de programa que se encargarán de retroalimentar el proceso y, en su momento, ejecutar acciones preventivas.

Con la aparición del Reglamento General de Protección de Datos, el marco de protección de Comunidad Económica Europea, se ha vuelto muy importante poder entregar explicaciones a los usuarios acerca de las decisiones que haya tomado una entidad. Esto ha motivado, durante el último año, el desarrollo de eXplainable Artificial Intelligence (XAI), mecanismos que permiten determinar cuáles son las variables que explican un modelo, incluso si se han utilizado algoritmos oscuros. Esto es un gran desarrollo, pues permite utilizar más y más algoritmos en los experimentos, y mejorar su resultado, al entender qué es lo que están haciendo. El siguiente paso que tomará el CSI es buscar algoritmos más precisos.

Dentro de los otros posibles proyectos que en este momento se encuentra desarrollando el CSI, está predecir la demanda que tendrá un curso particular, con el fin de afinar la cantidad de grupos a abrir, y así aprovechar eficientemente el conjunto de docentes y la planta física. También, está en proceso una iniciativa que busca pronosticar el rendimiento académico esperado de un estudiante en un grupo (al momento de la matrícula), con el fin de generar mapas de riesgo a los docentes encargados, para que estos empleen acciones que mejoren el rendimiento académico estudiantil. </>

This article is from: