INFORME DEL PAPER APLICACION DE ALGORITMOS PARA LA CONFIGURACION DE SOFTWARE

Page 1

Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

MINERÍA DE FLUJOS DE TRABAJO CIENTÍFICO PARA TRANSFERENCIAS DE DATOS ANÓMALOS ARBOLEDA GUIVAR WALTER; CORTEZ ORDOÑEZ JOSE; MAMANI SIMEON DENNIS; PEÑA CORREA ERICK; MATOS SILVA RUBENS

Abstract Anomalies and failures in the execution of the workflow cause a loss of scientific production and an inefficient use of the infrastructure. Therefore, detecting, diagnosing and mitigating these anomalies is immensely important for reliable and efficient scientific workflows. Since these workflows rely heavily on highperformance network transfers that require strict QoS restrictions, accurate detection of abnormal network performance is crucial to ensure reliable and efficient workflow execution. To address this challenge, XFLASH, a network anomaly detection tool for faulty TCP workflow transfers, has been developed. X-FLASH incorporates new approaches to data mining and hyperparameter tuning to improve the performance of machine learning algorithms to accurately classify anomalous TCP packets. X-FLASH leverages XGBoost as an ensemble model and combines XGBoost with a sequential optimizer, FLASH, borrowed from search-based software engineering to learn the optimal parameters of the model. As results X-FLASH found configurations that surpassed the existing approach by up to 28%, 29% and 40% relatively for the F measure, the G score and the recovery in less than 30 evaluations. From a great improvement and a simple fit, we recommend future research to have a further fit study as a new standard, at least in the area of detecting anomalies in the scientific workflow Keywords: Scientific workflow, TCP signatures, anomaly detection, hyperparameter tuning, sequential optimization Los sistemas de gestión del flujo de trabajo científico, se utilizan a menudo para orquestar y ejecutar estas aplicaciones complejas en una infraestructura informática distribuida de alto rendimiento.

1. INTRODUCCIÓN Como se sabe los flujos de trabajo científicos modernos se basan en datos y, a menudo, se ejecutan en infraestructuras informáticas distribuidas, heterogéneas y de alto rendimiento.

Organizar y gestionar los movimientos de datos para los flujos de trabajo científicos dentro y a través de este paisaje de infraestructura diversa es un desafío. El problema se ve agravado por diferentes tipos de fallas y anomalías que pueden abarcar todos los niveles de estas infraestructuras altamente distribuidas (infraestructura de hardware, software del sistema, middleware, redes, aplicaciones y flujos de trabajo). Tales fallas agregan gastos adicionales a los científicos que anticipan u obstruyen por completo

Hoy en día, la ciencia computacional se basa cada vez más en datos, lo que lleva al desarrollo de aplicaciones complejas con un uso intensivo de datos que acceden y analizan conjuntos de datos grandes y distribuidos que emanan de sensores e instrumentos científicos. Los flujos de trabajo científicos han surgido como una representación flexible para expresar de manera declarativa aplicaciones tan complejas con datos y dependencias de control. 1


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

sus esfuerzos de investigación o avances científicos. En particular, los flujos de trabajo científicos dependen en gran medida de transferencias de archivos de alto rendimiento con QoS estricta (Calidad de servicio: ancho de banda garantizado, sin pérdida de paquetes ni duplicación de datos, etc.). Por lo tanto detectar, diagnosticar y mitigar estas anomalías es esencial para la ejecución confiable del flujo de trabajo científico en infraestructuras complejas y distribuidas. Debido al papel de misión crítica de dicho trabajo, este documento busca formas de construir detectores de anomalías para explorar específicamente transferencias de archivos del Protocolo de control de transmisión (TCP) defectuosas Varios trabajos de investigación como han explorado el uso de Machine Learning (ML) para detectar anomalías en la red. Sin embargo, estos trabajos existentes han empleado principalmente modelos de aprendizaje automático "listos para usar", sin explorar el ajuste sistemático de hiperparámetros de los propios modelos de ML. Investigaciones anteriores sobre diversos problemas de Ingeniería de Software (SE) han demostrado que se puede lograr un mejor aprendizaje ajustando los parámetros de control de las herramientas ML Sin embargo, el ajuste tiene sus propias limitaciones:

El trabajo reciente de la literatura SE sugiere que existe un mejor estado de la tecnología con métodos para realizar la optimización de hiperparámetros con un costo computacional mínimo. En una investigación sobre el algoritmo FLASH, se informó que el método de optimización del modelo secuencial se puede utilizar para la configuración del software (y posiblemente el ajuste de hiperparámetros). Inspirándose en estos trabajos. Se ha diseñado un método de detección de anomalías en la red llamado X-FLASH, con un modelo de conjunto, XGBoost, y FLASH como optimizador secuencial (para conocer la configuración óptima para el modelo).

2. OBJETIVOS 2.1. Objetivos generales 

Investigar el poder del ajuste de hiperparametros para desarrollar detectores de anomalías para transferencias de red defectuosas basadas en TCP.

2.2. Objetivos específicos

 Aplicar

el software desarrollado XFLASH, en la transferencias de flujo de trabajo TCP defectuosas y datar los resultados

 Un número abrumador de

3. MARCO TEÓRICO

opciones  Convergencia lenta  Configuración predeterminada mal elegida

¿Por qué estudiar los flujos de trabajo científico? Los flujos de trabajo científico se utilizan para mejorar la forma en que se 2


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

lleva a cabo la investigación. Los tipos más comunes se centran en flujos de trabajo de laboratorio, flujos de trabajo computacionales y flujos de trabajo científico. Los flujos de trabajo a menudo están diseñados para trabajar en estudios específicos y pueden variar según la industria y el tipo de datos que deben recopilarse y analizarse.

apropiadas para abordar el problema de detección de anomalías porque pueden capturar las interacciones y relaciones entre características. Algunas investigaciones emplearon un clasificados Naive Bayes (NB) para predecir la probabilidad de falla de las tareas científicos en la nube, y descubrieron que este enfoque proporcionaba la máxima precisión, también descubrieron que en algunos casos un trabajo destinado a fallar puede potencialmente ejecutarse con éxito en un recurso diferente.

Los sistemas de flujo de trabajo científico aprovechan las redes de alto rendimiento y los sistemas en red para realizar varios tipos de transferencias de datos para datos de entrada, datos de salida y datos intermedios. Por lo tanto, el rendimiento y la confiabilidad de las redes es clave para lograr el rendimiento del flujo de trabajo.

Optimización del modelo El trabajo previo de detección de anomalías en el flujo de trabajo científico carece de optimización de modelo y un estudio de ajuste.

Por lo tanto, es esencial identificar y comprender estas anomalías de la red desde el principio para permitir que el administrador de la red responda a las anomalías y mitigue el problema.

Muchos estudios han advertido que no se recomienda el uso de minería de datos sin optimizador de parámetros porque: dicha optimización puede mejorar drásticamente las puntuaciones de rendimiento y cualquier conclusión del minero de datos no optimizado puede cambiarse mediante nuevos resultados del algoritmo ajustado.

Detección de anomalías en flujos de trabajo científico Los flujos de trabajo científicos pueden tardar mucho en completarse debido a su escala y complejidad, que comprenden un sinfín de pasos que incluyen la adquisición, transformación, preprocesamiento de datos y la simulación de modelos. Por lo tanto, las anomalías pueden ser perjudiciales tanto para los científicos como para los proveedores de infraestructura en términos de perdida de productividad cuando fallan los flujos de trabajo de larga duración. Se podrían utilizar varias técnicas para predecir y detectar anomalías en el flujo de trabajo. Sin embargo, varias técnicas para la detección de anomalías se basan a menudo en umbrales y estadísticas simples, que no logran comprender la relación entre características. Por lo tanto, las técnicas en ML son mas

Estudio de caso de TCP defectuoso El TCP (Transfer Control Protocol) es un acuerdo estandarizado sobre el que se realiza la transmisión de datos entre los participantes de una red informática. En este trabajo, se analizaron transferencias de red anomalías utilizando datos recopilados mediante estadísticas de TCP (TStat), que es una herramienta para recopilar trazas de TCP para transferencias. Aparte de la perdida de paquetes, hay un esfuerzo significativo para reconocer los búferes desbordados y las anomalías de red que ocurren comúnmente y 3


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

afectan seriamente la experiencia del usuario y también afectan el trabajo de los clientes de manera negativa.

configuración xi que representa la iesima configuración posee j-esimas configuraciones extras. Cabe resaltar que estas configuraciones son llamadas también variables independientes.

Las tres anomalías de red mas comunes a las que se dirige este estudio son:

Cada xi configuración tiene asociada a ella una función yi que representa su función desempeño que es la variable dependiente. Esta función desempeño evalúa que tan buena es esta configuración tomando como referencia configuraciones preestablecidas por el proveedor el programa.

La perdida de paquete: Ocurre cuando uno o mas paquetes no llegan a su destino. Esto pueden deberse a errores en la transmisión o demasiada congestión en el enlace. La duplicación de paquetes: Ocurre cuando el remitente retransmite paquetes, pensando que los paquetes anteriores no han llegado a su destino. El reordenamiento de paquetes: Ocurre cuando el orden de llegada de los paquetes o el número de secuencia está completamente desordenado.

En el entorno de encontrar una solución, el costo de la técnica u operación es el número de iteraciones necesarias para encontrar la mejor configuración. La idea central del problema es hallar una buena configuración x* tal que f(x*) represente el mejor costo de optimización.

TCP proporciona una entrega confiable y con verificación de errores de un flujo de datos entre remitentes y receptores. Los esfuerzos de investigación de han centrado en las extensiones de TCP como variantes para permitir la mejora de diversas anomalías de la red y permitir el control de la congestión.

Ideas planteadas para la solución Con el objetivo de encontrar una solución se plantan diferentes métodos.

Es por eso que se introducen variantes TCP para priorizar el rendimiento sobre la prevención de perdidas.

El aprendizaje evolutivo desarrollado por la ingeniería de software y que forma parte de la inteligencia artificial plantea la evolución continua de un algoritmo que permita la búsqueda de cada vez mejores configuraciones. Lamentablemente este método es desechado por los autores debido a que es demasiado lento y además usa una gran cantidad de iteraciones lo que hace que sea demasiado costoso como vimos en la sección anterior.

Optimización de la configuración de un Software La elección de configuración de un software para explotarlo a máxima capacidad de convierte en un problema cuando existen cientos, miles e incluso millones de posibles configuraciones posibles.

Por lo que ha optado por otros métodos que han sido investigados en la ultima década. Estos son el SMBO (Sequential Model Based Optimization) y el ∈Dominance.

Y como siempre para poder darle solución a un problema debemos plantearlo. Imaginemos que tenemos un programa con X número de configuraciones posibles. A su vez, cada 4


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

 SMBO Este algoritmo se basa en modelos gaussianos, toma como referencia una función objetivo y otra que se debe ajustar. Este algoritmo itera valores (configuraciones) usando probabilidades para acercarse cada vez más a la función objetivo. Este modelo usa valores como media y varianza para indicar la confiabilidad de ajuste, lamentablemente es bastante sensible a ajustes de parámetros.

El modelo CART que reemplaza a los GMP (modelos gaussianos) resulta ser mas eficiente pues reduce el tiempo y la cantidad de iteraciones para encontrar una solución a nuestro problema planteado.

 ∈ -Dominance El algoritmo Dominance propone particionar un espacio de salida en cuadrillas con lado ∈. Las configuraciones en este algoritmo con mostradas en esta cuadrilla forman un cúmulo de “puntos” los cuales están limitados por una frontera en la zona cercana a la intersección de los ejes. Esta frontera es llamada Frontera de Pareto y contiene a todas las soluciones optimas del sistema.

Para esto se plantea FLASH, el cual es una mejora del SMBO, este usa modelos CART (Arboles de decisión y regresión) para ir eligiendo entre configuraciones. Este algoritmo sustituye las iteraciones de probabilidad por iteraciones adivinadas, sin embargo, esto lo hace más eficaz que su predecesor SMBO. La ejecución de este algoritmo se explica a continuación: 1. Muestreo Inicial: De todo el conjunto X de configuraciones, se eligen algunas predefinidas y se evalúan, estas configuraciones evaluadas son eliminadas del grupo de las no evaluadas. 2. Modelo sustituto: Se aplica una función desempeño (establecida por el usuario) a cada configuración y se usa para construir un modelo CART.

Ilustración 1: Resultados de una ejecución del algoritmo En la Ilustración I, se puede observar una grilla en la que cada cuadrito tiene el un lado ∈=0.1. Y los puntos amarillos en este caso representan la frontera de Pareto.

3. Modelado de la función adquisición: Esta función usa la función desempeño para, en conjunto con el modelo CART elegir la siguiente configuración a evaluar.

DODGE(∈) nació como una variante de ∈-Dominance y solo necesitaba algunas pruebas para poder elegir entre millones de configuraciones posibles, el algoritmo funciona asignando pesos

Resultados de FLASH 5


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

(desempeño o confiabilidad) a las posibles soluciones

tamaño de transferencia entre 80 MB y 120 MB, el ancho de banda del enlace se establece en 1 Gbps entre todos los nodos. Los flujos de elefante estaban destinados a 300 transferencias SFTP con un tamaño de transferencia entre 1 y 1,2 GB, el ancho de banda del enlace se establece en 100 Mbps entre todos los nodos. 2) Transferencias de flujo de trabajo de 1000 genomas: Este flujo de trabajo científico está inspirado en el proyecto 1000 genomas que proporciona una referencia para la variación humana, habiendo reconstruido los genomas de 2.504 individuos en 26 poblaciones diferentes. La versión del flujo de trabajo 1000 Genoma utilizada (Figura 5) se compone de cinco tareas diferentes:

4. METODOLOGÍA Mientras que el algoritmo de DODGE (ε) y los algoritmos FLASH han demostrado que funcionan bien para tareas analíticas en ingeniería de software (por ejemplo, estimación del esfuerzo, ubicación de errores, etc.). Estos algoritmos no se han implementado con éxito fuera del ámbito de SE (Software engineering). En consecuencia, el resto de este documento prueba si DODGE (ε) y / o FLASH funcionan bien para la detección de anomalías en el Protocolo de control de transmisión defectuoso.

1. Individuos - busca y analiza la fase 3 del proyecto de 1000 genomas por cromosoma.

A. Datos Incluye dos conjuntos de datos de Mice & Elephant Flows y 1000 Genome Workflow donde cada conjunto incluye cuatro conjuntos de datos correspondientes a cuatro variantes de TCP (Hamilton, BBR, Reno y Cubic) normal o anómalo condiciones (pérdida, duplicación y reordenación). Un resumen de ambos conjuntos se captura en la Tabla III, que describe el número de flujos recopilados a través de tipos de anomalías y variantes de TCP.

2. Poblaciones - busca y analiza cinco superpoblaciones (africana, americana mixta, asiática oriental, europea y asiática meridional) y un conjunto de todos los individuos. 3. Sifiting calcula las puntuaciones SIFT de todas las variantes de SNP (polimorfismos de un solo nucleótido), calculadas por el Predictor de efecto de variante. 4. Pares de mutaciones superpuestas mide la superposición de mutaciones (SNP) entre pares de individuos.

Tabla III: Número de flujos generados en el nodo de datos a través de variantes de TCP

5. Mutaciones de superposición de frecuencia - calcula la frecuencia de mutaciones superpuestas en

1) Flujos de ratones y elefantes: Los flujos de ratones estaban destinados a 1000 transferencias SFTP con un 6


Estadística Aplicada a Problemas Mineros submuestras individuos.

de

Universidad Nacional de ingeniería

ciertos

determinan (digamos) una mayoría de votos en todos los árboles. De manera integral, la RF se basa en el ensacado (agregación bootstrap) que promedia los resultados sobre muchos árboles de decisión de submuestras (reduciendo la varianza). Ambos son populares en el campo del aprendizaje automático. Elegimos utilizar CART por su aplicabilidad y eficiencia. En el estudio anterior se utilizó RF para este mismo problema por sus ventajas de rendimiento. Sin embargo, mostraremos más adelante en este artículo que RF sin optimización no es suficiente.

Figura 5: Descripción general del flujo de trabajo del análisis de secuenciación del genoma 1000.

B. Minería de datos Los optimizadores de hiperparámetros (es decir, FLASH) ajustan la configuración de los mineros de datos. En esta sección se describen los candidatos de data miners que se deben sintonizar en este estudio. Los hiperparámetros son parámetros ajustables que permiten controlar el proceso de entrenamiento de un modelo. Por ejemplo, con redes neuronales, puede decidir el número de capas ocultas y el número de nodos de cada capa. El rendimiento de un modelo depende en gran medida de los hiperparámetros.

2) XGBoost: Es un modelo que nos da ventajas de reducir tanto la varianza de los datos. Es un modelo de conjunto que involucra: Los modelos individuales aquí no se basan en subconjuntos completamente aleatorios de datos y características, sino de manera secuencial, poniendo más peso en instancias con predicciones incorrectas y errores altos.

1) CARRITO y RF: Usamos CART para construir de forma recursiva árboles de decisión para encontrar las características que reducen la mayoría de entropía, donde una entropía más alta indica una menor capacidad para sacar conclusiones de los datos que se procesan. Usando CART como una subrutina, nuestro método Random Forest construye muchos árboles, cada vez con diferentes subconjuntos de las filas de datos R y columnas C. Luego, los datos de prueba se transfieren a todos los árboles y las conclusiones se

C. Métricas de evaluación El problema estudiado en este artículo es una tarea de clasificación multiclase con cuatro clases (1 clase normal y 3 clases anómalas). El rendimiento de dicho clasificador multiclase se puede evaluar mediante una matriz de confusión como se muestra en la Tabla IV. donde cada clase se denota como CI. Además, "falso" significa que el alumno se equivocó y "verdadero" significa que el alumno identificó 7


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

correctamente una clase positiva o negativa. Los cuatro recuentos incluyen verdaderos positivos (TP), falso positivo (FP), falso negativo (FN) y verdadero negativo (TN).

Una sola submuestra entre ellos se retiene para pruebas, y el resto k− 1 Las submuestras se utilizan para el ajuste y la validación con proporciones de 80% y 20% respectivamente. FLASH y DODGE (ε) se aplican en el conjunto de datos de ajuste y se validan en el conjunto de datos de validación antes de evaluarse en el conjunto de datos de prueba. Luego se repite el proceso de validación cruzada k veces. La ventaja de este método sobre el submuestreo aleatorio repetido es que todas las observaciones se utilizan tanto para el entrenamiento como para las pruebas.

Tabla IV: Matriz de resultados de clasificación multiclase

Debido a la naturaleza de detección de anomalías y multiclase sin que se observe ningún problema de clase desequilibrada, queremos asegurarnos de que todas las clases sean tratadas de manera justa. Se prefiere un macropromedio para calcular cada métrica de forma independiente para cada clase CI y luego tomar el promedio. Es difícil comparar dos modelos con baja precisión y alta recuperación o viceversa. Entonces, para hacerlos comparables usamos 3 medidas macro-promedio, es decir, recuperación, medida F (una media armónica de precisión y recuperación) y puntuación G (una media armónica de recuperación y tasa de falsas alarmas, o FAR) para evaluar a los alumnos que se calculan de la siguiente manera:

5. RESULTADOS RQ1: ¿Mejora el ajuste el rendimiento de la detección de anomalías? Para nuestro primer conjunto de resultados, los estudiantes predeterminados (RF y CART y XGBOOST) se comparan con los mineros de datos con optimización (FLASH y DODGE (ϵ)). La Tabla VI muestra esos resultados, incluida la clasificación estadística generada a partir de la prueba de Scott Knott para métricas de sensibilidad, medida F y puntuación G. En los 8 conjuntos de datos (HAMILTON, BBR, RENO y CUBIC para 1000 Genome Workflow y Mice & Elephant Flows), XFLASH tuvo el mejor rendimiento. X-FLASH mejoró hasta un 28%, 29% y 40% en relación con la medida F, la puntuación G y la memoria, respectivamente.

D. Pruebas Estadísticas Aplicamos k-validación cruzada, con k = 10 para dividir aleatoriamente los datos en k submuestras de igual tamaño.

Esto se puede explicar como se muestra en la Tabla V. Excepto el parámetro de número de estimadores 8


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería para cada métrica por columna. La columna #Best muestra la cantidad de proyectos en los que cada tratamiento se desempeña mejor.

(n estimadores), los valores de los otros tres parámetros, cuando se ajustan, están lejos de los valores predeterminados. Esto muestra que las configuraciones predeterminadas para un minero de datos no son iguales para todos en diferentes conjuntos de datos y dominios, por lo tanto, deberían quedar obsoletas. Con una tarea de misión crítica como la detección de anomalías, es esencial optimizar la solución específica para el dominio, el conjunto de datos y la métrica. Parameter max depth learning rate # estimators booster

Defa ut

Rec all

Fmeasure

Gscore

3 0.1

12 0.53

17 0.53

19 0.58

100 gbtre e

107 dart

105 gbtree

106 dart

RESULTADO: En términos de corrección, X-FLASH fue el mejor para detectar anomalías. RQ2: ¿Es la detección de anomalías de sintonía demasiado lenta? Para nuestra sorpresa, X-FLASH logró una mejora estadísticamente significativa en las puntuaciones de rendimiento de nuestros mineros de datos en menos de 30 evaluaciones. En este espacio, nuestra solución propuesta tomó la mayor parte del tiempo entre el optimizador predeterminado y de última generación DODGE (ϵ) (30 evaluaciones). Sin embargo, considerando la naturaleza de misión crítica del problema y aún toma menos de 11 minutos como máximo con hardware estándar (es decir, CPU) de la Tabla VII. Los incrementos de rendimiento son más que para compensar la CPU adicional requerida para X-FLASH. Las opciones modernas de hardware (por ejemplo, GPU) y la computación en paralelo se pueden configurar para mejorar el tiempo y ser más prácticos para la industria.

Tabla V : Configuraciones ajustadas por defecto y mediana de cuatro parámetros de XGBOOST al ajustar una métrica específica (recuperación, medida F y puntuación G) en ocho conjuntos de datos.

RESULTADO: En términos de rendimiento en tiempo de ejecución, X-FLASH fue el peor, pero aun así convergió en menos de 11 minutos como máximo. Por lo tanto, el costo de ejecutar XFLASH hace que valga la pena la mejora del rendimiento. TABLA VI: Los resultados de sensibilidad, medida F y puntuación G (cuanto más alto, mejor) se informan entre todos los métodos clasificados por las pruebas estadísticas de Scott-Knott. Las medianas y los IQR (delta entre el percentil 75 y el percentil 25, cuanto más bajo, mejor) se calculan para facilitar las comparaciones. El de mejor rendimiento se indica como una celda gris

9


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

TABLA VII: Rendimiento de tiempo ordenado (en Datasets Mice H & B Elep hant R Flow s C H B 1000 Gen ome Wor kFlo w

R C

DEFAULT s rtt avg, s ack cnt p c bytes uniq, s rtt avg s ack cnt p s rtt avg, s ack cnt p s last handshakeT, c rtt std, c pkts unfs, c ack cnt p c appdataT, s first ack, s win max, s rtt std c bytes retx, c first ack s first ack, c mss max s win max, c appdataT c pkts rto, c cwin max, s rtt min, c appdataT, s ack cnt p

Type Tuned by FLASH c ttl min, s rtt min c fin cnt, c firstXGBO ack c ttl min OST c first ack, s rttDODGE max (є)

Xs pkts retx, s pkts FLASH data, s fin cnt, s rtt cnt c pkts reor, c bytes retx, c win max, c pkts fs c pkts rto, c pkts retx, c pkts ooo, s win min, c pkts unk, c cwin max c pkts fs, s cwin min, c pkts unfs, c bytes retx c ack cnt p

segundos) en la mediana para los métodos de minería de datos estudiados en ocho conjuntos de datos, a través de variantes de TCP (H-Hamilton, B-BBR, R-Reno y C-Cubic) para Mice & Elephant Flows y 1000 Genome Workflow .

RQ3: ¿El ajuste cambia las conclusiones sobre qué factores son más importantes en la detección de anomalías?

Mice&Elephant Flows H B R

C

6

5

5

1 7 3 4 3 7

2 7 2 5 6 3

1 3 0 6 2 8

5 1 6 7 4 0 0

1000 Genome Workflow H B R 1 6 6 3

4

4 5 3

1 3 9

2 4

1 5 1 5 4 6 1 7

C 4 3 2 1 6 5

Curiosamente, las clasificaciones de los estudiantes también se modificaron ligeramente con el ajuste. El modelo CART predeterminado se desempeñó de manera similar o mejor que XGBoost predeterminado en 7 de 8 conjuntos de datos en la recuperación, la medida F y la puntuación G, respectivamente. Sin embargo, después de sintonizar FLASH, XGBoost siempre es mejor en 8 conjuntos de datos para cada métrica. TABLA VIII: Funciones no superpuestas seleccionadas de forma predeterminada XGBOOST versus después de ajustadas por FLASH en las variantes de TCP (HHamilton, B-BBR, R-Reno y C-Cubic) para Mice & Elephant Flows y 1000 Genome Workflow.

Es importante comprender qué atributo (s) se asocia más con las características diferenciadoras entre los diferentes tipos de anomalías y los flujos científicos normales. Los científicos y administradores de redes pueden inspeccionar los marcados con alta probabilidad de anomalías. De la Tabla VIII, entre las diez características más importantes (seleccionadas a partir de la función de importancia de características incorporada), el número medio de características es siete como factores decisivos comúnmente elegidos para los detectores de anomalías (mientras que el 30% restante de las diez principales las características no son las mismas, las características no superpuestas). Demostró cómo el estudio anterior y las conclusiones predeterminadas pueden ser poco fiables. No intentaron hacer el análisis de importancia de características de sus detectores de anomalías.

RESULTADOS: En términos de aplicabilidad en el mundo real, el ajuste ha demostrado cómo las características se consideran importantes de manera diferente con y sin él, lo que puede afectar negativamente al mundo real.

6. CONCLUSIONES En este artículo, mostramos que la utilización de herramientas de aprendizaje de anomalías generales para transferencias de archivos TCP defectuosas sin ajuste puede considerarse dañino y engañoso para la confiabilidad de las infraestructuras en red. Nuestra solución propuesta XFLASH combinó un modelo de conjunto (XGBoost) y un optimizador basado en modelos secuenciales (FLASH) de la literatura 10


Estadística Aplicada a Problemas Mineros

Universidad Nacional de ingeniería

de Ingeniería de software para detectar y clasificar la actividad maliciosa o los ataques correctos, antes de que contamine el proceso científico posterior: • El ajuste de aprendices predeterminados mejorará el rendimiento relativo hasta en un 28%, 29% y 40% para la medida F, la puntuación G y la sensibilidad (consulte la Tabla VI). • El ajuste cambia las conclusiones anteriores sobre qué factores son más influyentes en la detección de anomalías en un 30% (ver Tabla VIII).

7. Referencias Bibliográficas complementarias  https://github.com/msr202 1/ tuningworkflow / 

https://docs.microsoft.com/ es-es/azure/cognitiveservices/anomaly-detector/

https://www.researchgate.n et/publication/350341651_ Mining_Scientific_Workflo ws_for_Anomalous_Data_ Transfers

11


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.