PRESENTACION - APLICACION DE ALGORITMOS PARA CONFIGURAR PROGRAMAS

Page 1

MINERÍA DE FLUJOS DE TRABAJO CIENTÍFICOS PARA TRANSFERENCIAS DE DATOS ANÓMALOS Ciclo 2021-2 ESTADISTICA APLICADA A PROBLEMAS MINEROS ESTUDIANTES:

DOCENTE:

ARBOLEDA GUIVAR, Walter

M. Sc. Ing. Carmen Rosalía Matos Avalos

CORTEZ ORDOÑEZ, José MAMANI SIMEON, Dennis MATOS SILVA, Rubens PEÑA CORREA, Erick


INTRODUCCIÓN


Gestión y flujo de datos científicos La gestión eficaz de datos es un requisito para las grandes empresas de fabricación Los flujos de trabajo científicos han surgido como una representación flexible para expresar de manera declarativa aplicaciones tan complejas con datos y dependencias de control. Los sistemas de gestión del flujo de trabajo científico, como Pegasus, se utilizan a menudo para orquestar y ejecutar estas aplicaciones complejas en una infraestructura informática distribuida de alto rendimiento.

Desarrollan aplicaciones complejas que usan y analizan conjuntos de datos grandes que se emanan de sensores e instrumentos científicos

Organizar y gestionar los movimientos de datos para los flujos de trabajo científicos dentro y a través de este paisaje de infraestructura diversa es un desafío


El problema empieza…

Cuando existen fallas y anomalías que pueden abarcar todos los niveles de estas infraestructuras altamente distribuidas

Agregan gastos adicionales a los científicos que anticipan u obstruyen por completo sus esfuerzos de investigación o avances científicos.

• Hardware • Software • Middleware • Redes • Aplicaciones


Los flujos de trabajo científicos dependen en gran medida de transferencias de archivos de alto rendimiento con QoS estricta

• Ancho de banda garantizado • Sin pérdida de paquetes • Duplicación de datos

Detectar, diagnosticar y mitigar estas anomalías es esencial para la ejecución confiable del flujo de trabajo científico en infraestructuras complejas y distribuidas Se busca construir detectores de anomalías para explorar específicamente transferencias de archivos del Protocolo de control de transmisión (TCP)


Búsqueda de Soluciones Varios trabajos de investigación como han explorado el uso de Machine Learning (ML) para detectar anomalías en la red. Trabajos recientes de la literatura sugiere que existe un mejor estado de la tecnología con métodos para realizar la optimización de hiperparámetros con un costo computacional mínimo

No explora el ajuste sistemático de hiperparámetros de los propios modelos de ML.

• Un número abrumador de opciones • Convergencia lenta • Configuración predeterminada mal elegida


OBJETIVOS


OBJETIVOS GENERALES • Investigar el poder del ajuste de hiperparámetros para desarrollar detectores de anomalías para transferencias de red defectuosas basadas en TCP


OBJETIVO ESPECÍFICO

• Aplicar el software desarrollado XFLASH, en la transferencias de flujo de trabajo TCP defectuosas y datar los resultados.


BACKGROUND


FLUJOS DE TRABAJO CIENTIFICO

Se usan para mejorar la forma en que se lleva a cabo una investigación, a través de simulaciones a gran escala.

Flujos de trabajo de laboratorio

Flujos de trabajo computacional

Flujo de trabajo de análisis de datos


DETECCION DE ANOMALIAS EN FLUJOS DE TRABAJOS CIENTIFICOS Las anomalías pueden ser perjudiciales tanto para los científicos como para los proveedores de infraestructura en términos de productividad

Técnicas para la detección de anomalías

Machine Learning Redes Neuronales

Random Forest Naive bayes


OPTIMIZACION DEL MODELO El trabajo previo de detección de anomalías carece de:  Optimización de modelo  Un estudio de ajuste No se recomienda la minería de datos sin optimizador de parámetros La optimización puede mejorar drásticamente las puntuaciones de rendimiento

Cualquier conclusión de la minería de datos no optimizado puede cambiarse mediante nuevos resultados del algoritmo ajustado


ESTUDIO DE CASO DE TCP DEFECTUOSO

Protocolo de control de transmisión (Transmission Control Protocol)

Tiempo de ida y vuelta medida en la comunicación de tres vías de TCP

Anomalías de red comunes Perdida de paquetes

Reordenamiento de paquetes

Duplicación de paquetes


OPTIMIZACION DE LA CONFIGURACION DE UN SOFTWARE


PROBLEMA CENTRAL Podemos definir el problema de la siguiente manera:

Tenemos un minero de datos (data miner) con un número X de configuraciones. A su vez cada configuración xi dentro de X posee jesimas configuraciones


PROBLEMA CENTRAL Las configuraciones xi también son llamadas variables independientes.

En el entorno de configuración el costo de la técnica de optimización es el numero de iteraciones necesarias para encontrar la mejor configuración del software

Tienen asociadas a ellas una función desempeño yi (que tan buena es la configuración) llamada función dependiente. La función desempeño se puede expresar como y=f(x)

La idea del problema es encontrar una buena configuración x*, tal que f(x*) represente el menor costo de optimización (pocas iteraciones)


DESCRIPCION GENERAL Se podría usar Aprendizaje Evolutivo desarrollado por la Ingeniería de Software para resolver este problema

Es así que se ha investigado en otros formas de configurar software

Pero este suele ser demasiado lento y usa una gran cantidad de iteraciones

Sequential Model-Based Optimization (SMBO) Optimización secuencial basada en modelos ∈-Dominance


FLASH Es una mejora del SMBO Usa arboles de decisión CART que permiten una mejor elección de parámetros para la configuración Sustituye la evaluación de todas las configuraciones por una evaluación “adivinada” Aunque sea una configuración “adivinada” la clasificación es más rápida y eficaz que otro modelo

El SMBO usa modelos gaussianos para acercase iterar valores (configuraciones) e irse acercando a la función objetivo Los modelos gaussianos usan la probabilidad sobre funciones que se ajustan a un conjunto de puntos, usa la media y la varianza para indicar la confiabilidad de ajuste Pueden ser difíciles de usar porque son bastante sensibles para los parámetros de ajuste


EJECUCION DE FLASH 1.- Muestreo Inicial

De todo el conjunto de configuraciones se eligen algunas predefinidas y se evalúan. Las configuraciones evaluadas son eliminadas del grupo.

2.- Modelo sustituto

Las medidas de rendimiento de las configuraciones evaluadas se usan para construir modelos CART

3.- Modelado de la función de adquisición

Esta función, según el modelo CART elige una de las configuraciones no evaluadas para evaluar.

Función de adquisición: Es una función tiene en cuenta las medidas de desempeño. Para elegir la siguiente configuración, se elige aquella que maximiza función.


RESULTADOS DE FLASH El modelo CART que reemplaza a los GMP es más eficiente pues reduce el tiempo para encontrar una buena configuración

La función adquisición de FLASH usa la media máxima, esto también redujo el tiempo de ejecución.


DODGE y ∈-Dominance Este sistema propone particionar un espacio de salida en un optimizador de cuadrillas con lado ∈

Un conjunto de soluciones optimas dentro de la grilla no están dominadas por ningunas otras dentro de la Frontera de Pareto

Se dice que una solución domina a otras soluciones si y solo si es mejor que esta en al menos un objetivo


DODGE y ∈-Dominance La aplicación del ∈Dominance a algunas tareas de ingeniería de software tuvieron éxito

Su variante DODGE(∈) necesitaba solo algunas pruebas para poder elegir entre millones de opciones de configuración.


Metodología

Cortez Ordoñez José Pedro


¿Ingeniería de Software VS Detección de anomalías? Algoritmo DODGE(ε) y el algoritmo FLASH


Datos 1. Flujos de ratones y elefantes. 2. Transferencias de flujo de trabajo de 1000 genomas.


Flujo de ratones y elefantes • Ratones: 1000 SFTP – 80 MB 100MB • Elefantes: 300 SFTP – 1 GB 1.2 GB


Transferencias de flujo de trabajo de 1000 genomas


Números de flujo generados por las variantes TCP


Data Miners


CART Y RF

Predicción 1


XGBOOST ¿A qué persona le gustan los juegos de computadora?


XGBOOST ¿A qué persona le gustan los juegos de computadora?


Métricas de Evaluación


K – Validación Cruzada

La ventaja de este método sobre el submuestreo aleatorio repetido es que todas las observaciones se utilizan tanto para el entrenamiento como para las pruebas.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.