MINERÍA DE FLUJOS DE TRABAJO CIENTÍFICOS PARA TRANSFERENCIAS DE DATOS ANÓMALOS Ciclo 2021-2 ESTADISTICA APLICADA A PROBLEMAS MINEROS ESTUDIANTES:
DOCENTE:
ARBOLEDA GUIVAR, Walter
M. Sc. Ing. Carmen Rosalía Matos Avalos
CORTEZ ORDOÑEZ, José MAMANI SIMEON, Dennis MATOS SILVA, Rubens PEÑA CORREA, Erick
INTRODUCCIÓN
Gestión y flujo de datos científicos La gestión eficaz de datos es un requisito para las grandes empresas de fabricación Los flujos de trabajo científicos han surgido como una representación flexible para expresar de manera declarativa aplicaciones tan complejas con datos y dependencias de control. Los sistemas de gestión del flujo de trabajo científico, como Pegasus, se utilizan a menudo para orquestar y ejecutar estas aplicaciones complejas en una infraestructura informática distribuida de alto rendimiento.
Desarrollan aplicaciones complejas que usan y analizan conjuntos de datos grandes que se emanan de sensores e instrumentos científicos
Organizar y gestionar los movimientos de datos para los flujos de trabajo científicos dentro y a través de este paisaje de infraestructura diversa es un desafío
El problema empieza…
Cuando existen fallas y anomalías que pueden abarcar todos los niveles de estas infraestructuras altamente distribuidas
Agregan gastos adicionales a los científicos que anticipan u obstruyen por completo sus esfuerzos de investigación o avances científicos.
• Hardware • Software • Middleware • Redes • Aplicaciones
Los flujos de trabajo científicos dependen en gran medida de transferencias de archivos de alto rendimiento con QoS estricta
• Ancho de banda garantizado • Sin pérdida de paquetes • Duplicación de datos
Detectar, diagnosticar y mitigar estas anomalías es esencial para la ejecución confiable del flujo de trabajo científico en infraestructuras complejas y distribuidas Se busca construir detectores de anomalías para explorar específicamente transferencias de archivos del Protocolo de control de transmisión (TCP)
Búsqueda de Soluciones Varios trabajos de investigación como han explorado el uso de Machine Learning (ML) para detectar anomalías en la red. Trabajos recientes de la literatura sugiere que existe un mejor estado de la tecnología con métodos para realizar la optimización de hiperparámetros con un costo computacional mínimo
No explora el ajuste sistemático de hiperparámetros de los propios modelos de ML.
• Un número abrumador de opciones • Convergencia lenta • Configuración predeterminada mal elegida
OBJETIVOS
OBJETIVOS GENERALES • Investigar el poder del ajuste de hiperparámetros para desarrollar detectores de anomalías para transferencias de red defectuosas basadas en TCP
OBJETIVO ESPECÍFICO
• Aplicar el software desarrollado XFLASH, en la transferencias de flujo de trabajo TCP defectuosas y datar los resultados.
BACKGROUND
FLUJOS DE TRABAJO CIENTIFICO
Se usan para mejorar la forma en que se lleva a cabo una investigación, a través de simulaciones a gran escala.
Flujos de trabajo de laboratorio
Flujos de trabajo computacional
Flujo de trabajo de análisis de datos
DETECCION DE ANOMALIAS EN FLUJOS DE TRABAJOS CIENTIFICOS Las anomalías pueden ser perjudiciales tanto para los científicos como para los proveedores de infraestructura en términos de productividad
Técnicas para la detección de anomalías
Machine Learning Redes Neuronales
Random Forest Naive bayes
OPTIMIZACION DEL MODELO El trabajo previo de detección de anomalías carece de: Optimización de modelo Un estudio de ajuste No se recomienda la minería de datos sin optimizador de parámetros La optimización puede mejorar drásticamente las puntuaciones de rendimiento
Cualquier conclusión de la minería de datos no optimizado puede cambiarse mediante nuevos resultados del algoritmo ajustado
ESTUDIO DE CASO DE TCP DEFECTUOSO
Protocolo de control de transmisión (Transmission Control Protocol)
Tiempo de ida y vuelta medida en la comunicación de tres vías de TCP
Anomalías de red comunes Perdida de paquetes
Reordenamiento de paquetes
Duplicación de paquetes
OPTIMIZACION DE LA CONFIGURACION DE UN SOFTWARE
PROBLEMA CENTRAL Podemos definir el problema de la siguiente manera:
Tenemos un minero de datos (data miner) con un número X de configuraciones. A su vez cada configuración xi dentro de X posee jesimas configuraciones
PROBLEMA CENTRAL Las configuraciones xi también son llamadas variables independientes.
En el entorno de configuración el costo de la técnica de optimización es el numero de iteraciones necesarias para encontrar la mejor configuración del software
Tienen asociadas a ellas una función desempeño yi (que tan buena es la configuración) llamada función dependiente. La función desempeño se puede expresar como y=f(x)
La idea del problema es encontrar una buena configuración x*, tal que f(x*) represente el menor costo de optimización (pocas iteraciones)
DESCRIPCION GENERAL Se podría usar Aprendizaje Evolutivo desarrollado por la Ingeniería de Software para resolver este problema
Es así que se ha investigado en otros formas de configurar software
Pero este suele ser demasiado lento y usa una gran cantidad de iteraciones
Sequential Model-Based Optimization (SMBO) Optimización secuencial basada en modelos ∈-Dominance
FLASH Es una mejora del SMBO Usa arboles de decisión CART que permiten una mejor elección de parámetros para la configuración Sustituye la evaluación de todas las configuraciones por una evaluación “adivinada” Aunque sea una configuración “adivinada” la clasificación es más rápida y eficaz que otro modelo
El SMBO usa modelos gaussianos para acercase iterar valores (configuraciones) e irse acercando a la función objetivo Los modelos gaussianos usan la probabilidad sobre funciones que se ajustan a un conjunto de puntos, usa la media y la varianza para indicar la confiabilidad de ajuste Pueden ser difíciles de usar porque son bastante sensibles para los parámetros de ajuste
EJECUCION DE FLASH 1.- Muestreo Inicial
De todo el conjunto de configuraciones se eligen algunas predefinidas y se evalúan. Las configuraciones evaluadas son eliminadas del grupo.
2.- Modelo sustituto
Las medidas de rendimiento de las configuraciones evaluadas se usan para construir modelos CART
3.- Modelado de la función de adquisición
Esta función, según el modelo CART elige una de las configuraciones no evaluadas para evaluar.
Función de adquisición: Es una función tiene en cuenta las medidas de desempeño. Para elegir la siguiente configuración, se elige aquella que maximiza función.
RESULTADOS DE FLASH El modelo CART que reemplaza a los GMP es más eficiente pues reduce el tiempo para encontrar una buena configuración
La función adquisición de FLASH usa la media máxima, esto también redujo el tiempo de ejecución.
DODGE y ∈-Dominance Este sistema propone particionar un espacio de salida en un optimizador de cuadrillas con lado ∈
Un conjunto de soluciones optimas dentro de la grilla no están dominadas por ningunas otras dentro de la Frontera de Pareto
Se dice que una solución domina a otras soluciones si y solo si es mejor que esta en al menos un objetivo
DODGE y ∈-Dominance La aplicación del ∈Dominance a algunas tareas de ingeniería de software tuvieron éxito
Su variante DODGE(∈) necesitaba solo algunas pruebas para poder elegir entre millones de opciones de configuración.
Metodología
Cortez Ordoñez José Pedro
¿Ingeniería de Software VS Detección de anomalías? Algoritmo DODGE(ε) y el algoritmo FLASH
Datos 1. Flujos de ratones y elefantes. 2. Transferencias de flujo de trabajo de 1000 genomas.
Flujo de ratones y elefantes • Ratones: 1000 SFTP – 80 MB 100MB • Elefantes: 300 SFTP – 1 GB 1.2 GB
Transferencias de flujo de trabajo de 1000 genomas
Números de flujo generados por las variantes TCP
Data Miners
CART Y RF
Predicción 1
XGBOOST ¿A qué persona le gustan los juegos de computadora?
XGBOOST ¿A qué persona le gustan los juegos de computadora?
Métricas de Evaluación
K – Validación Cruzada
La ventaja de este método sobre el submuestreo aleatorio repetido es que todas las observaciones se utilizan tanto para el entrenamiento como para las pruebas.