Documento soporte de clase u1 tecnicas analisis datos

Page 1

Uso de Técnicas y Herramientas de Minería de Datos

Técnicas de Análisis de Datos — Uso de Técnicas y Herramientas de Minería de Datos

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

0


Uso de Técnicas y Herramientas de Minería de Datos

© Politécnico Indoamericano 2015

Tabla de Contenido

1. Técnicas de Minería de Datos 2. Herramientas de Minería de Datos

Objetivo 

Identificar las técnicas y herramientas empleadas por la minería de datos para buscar y extraer información valiosa en grandes volúmenes de datos

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

1


Uso de Técnicas y Herramientas de Minería de Datos

1. Técnicas de Minería de Datos Las técnicas de la minería de datos provienen de la Inteligencia Artificial y de la Estadística, dichas técnicas son algoritmos, con un nivel de complejidad determinado por la aplicación sobre un conjunto de datos para obtener unos resultados. Las principales técnicas empleadas por la minería de datos son: 

Redes Neuronales

Regresión Lineal

Arboles de Decisión

Modelos Estadísticos

Agrupamiento o Clustering

1.1 Redes Neuronales Son modelos predictivos no lineales que aprenden a través de la formación y se asemejan a redes neuronales biológicas en su estructura. Las características presentadas por este tipo de modelo son: 

Capaces de detectar y aprender patrones y características de datos

Una vez adiestradas las redes pueden hacer previsiones, clasificaciones y segmentación

Esto se realiza estructurando niveles o capas

Se tienen dos tipos de aprendizaje; supervisado y no supervisado

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

2


Uso de Técnicas y Herramientas de Minería de Datos

Figura 1. Proceso de una Red Neuronal Citado de: http://www.monografias.com/trabajos95/redes-neuronales-artificialesmetodologia-desarrollo-y-aplicaciones/redes-neuronales-artificiales-metodologiadesarrollo-y-aplicaciones.shtml

1.2 Regresión Lineal Existen varias maneras de calcular la regresión lineal que no requieren herramientas de minería de datos, la ventaja de utilizar el algoritmo de regresión lineal es que se calculan y se prueban automáticamente todas las posibles relaciones entre las variables. No tiene que seleccionar un método de cálculo, como por ejemplo para resolver los mínimos cuadrados. Sin embargo, la regresión lineal podría simplificar en exceso las relaciones en escenarios en los que varios factores afectan al resultado

Figura 2. Regresión Lineal Citado de: http://es.slideshare.net/oropezaa/regresion-lineal-37183010 1.3 Arboles de Decisión Estructuras en forma de árbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Métodos específicos de árboles de decisión incluyen Árboles de Clasificación y Regresión (CART) y Detección Automática de Interacción © Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

3


Uso de Técnicas y Herramientas de Minería de Datos

(Chi Cuadrado CHAID). CART y CHAID son técnicas de árboles de decisión para la clasificación de un conjunto de datos. Constituyen un conjunto de reglas que se pueden aplicar a un nuevo (sin clasificar) conjunto de datos para predecir cuáles registros tendrán un resultado determinado. CART segmenta un conjunto de datos mediante la creación de dos vías dividas, mientras que CHAID segmenta utilizando pruebas de chi cuadrado para crear divisiones en múltiples direcciones. CART normalmente requiere menos preparación de datos que CHAID

Figura 3. Arboles de Decisión Citado de: http://www.peruanalitica.com/2013/09/arboles-de-decision/ 1.4 Modelos Estadísticos Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. Sus principales características son: 

Técnica tradicional en el tratamiento de grandes volúmenes de datos

Los modelos más relevantes son: 

ANOVA (Análisis de Varianza): Contrasta con variables continuas

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

4


Uso de Técnicas y Herramientas de Minería de Datos

Ji Cuadrado: Contrasta con la independencia de variables

Componentes Principales: Permite reducir el número de variables

1.5 Agrupamiento o Clustering Agrupan datos dentro de un número de clases preestablecidas o no, partiendo de criterios de distancia o similitud, de manera que las clases sean similares entre sí y distintas con las otras clases. Su utilización ha proporcionado significativos resultados en lo que respecta a los clasificadores o reconocedores de patrones, como en el modelado de sistemas. Este método debido a su naturaleza flexible se puede combinar fácilmente con otro tipo de técnica de minería de datos, dando como resultado un sistema híbrido. Un problema relacionado con el análisis de cluster es la selección de factores en tareas de clasificación, debido a que no todas las variables tienen la misma importancia a la hora de agrupar los objetos. Otro problema de gran importancia y que actualmente despierta un gran interés es la fusión de conocimiento, ya que existen múltiples fuentes de información sobre un mismo tema, los cuales no utilizan una categorización homogénea de los objetos. Para poder solucionar estos inconvenientes es necesario fusionar la información a la hora de recopilar, comparar o resumir los datos

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

5


Uso de Técnicas y Herramientas de Minería de Datos

Figura 4. Clustering Citado de: http://www.ibm.com/developerworks/ssa/industry/library/bapredictive-analytics2/ 2. Herramientas de Minería de Datos Con el desarrollo de las tecnologías de información y del hardware de los dispositivos informáticos, almacenar los datos no es costoso para las organizaciones. Ahora es posible que todas las empresas puedan generar y almacenar los datos dentro de sus sistemas para que más adelante puedan utilizar la información. Sin embargo, muchas organizaciones no tienen claro cómo organizar la gran cantidad de datos y como explotarlas de tal forma que puedan extraer conclusiones importantes para el negocio. A menudo esto puede ser complicado si no se conocen las herramientas diseñadas para la misma. En todos estos casos es importante empezar utilizando las herramientas de Minería de Datos. Entre las principales herramientas para la minería de datos de código abierto podemos encontrar: 

Orange

RapidMiner

Weka

JhepWork

Knime

2.1 Orange Orange es una suite de software para minería de base de datos y aprendizaje automático basado en componentes que cuenta con un fácil y potente, rápido y versátil front-end de programación visual para el análisis exploratorio de datos y visualización, y librerias para Python y secuencias de comando. Contiene un completo juego de componentes para preprocesamiento de datos, característica de puntuación y filtrado, © Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

6


Uso de Técnicas y Herramientas de Minería de Datos

modelado, evaluación del modelo, y técnicas de exploración. Está escrito en C++ y Python, y su interfaz gráfica de usuario se basa en la plataforma cruzada del framework Qt.

Figura 5. Herramienta de código abierto Orange Citado de: http://blog.jmacoe.com/gestion_ti/base_de_datos/5-mejoressoftware-mineria-datos-codigo-libre-abierto/ 2.2 RapidMiner RapidMiner, antes llamado YALE (Sin embargo, otro ambiente de aprendizaje), es un ambiente de experimentos en aprendizaje automático y minería de datos que se utiliza para tareas de minería de datos tanto en investigación como en el mundo real. Permite a los experimentos componerse de un gran número de operadores anidables arbitrariamente, que se detallan en archivos XML y se hacen con la interfaz gráfica de usuario de RapidMiner. RapidMiner ofrece más de 500 operadores para todos los principales procedimientos de máquina de aprendizaje, y también combina esquemas de aprendizaje y evaluadores de atributos del entorno de aprendizaje Weka. Está disponible como una herramienta stand-alone para el análisis de datos y como motor para minería de datos que puede integrarse en tus propios productos.

Figura 6. Herramienta de código abierto RapidMiner Citado de: http://blog.jmacoe.com/gestion_ti/base_de_datos/5-mejoressoftware-mineria-datos-codigo-libre-abierto/ © Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

7


Uso de Técnicas y Herramientas de Minería de Datos

2.3 Weka Escrito en Java, Weka (Entorno Waikato para el Análisis del Conocimiento) es una conocida suite de software para máquinas de aprendizaje que soporta varias tareas típicas de minería de datos, especialmente pre procesamiento

de

datos,

agrupamiento,

clasificación,

regresión,

visualización y características de selección. Sus técnicas se basan en la hipótesis de que los datos están disponibles en un único archivo plano o relación, donde cada punto marcado es etiquetado por un número fijo de atributos. WEKA proporciona acceso a bases de datos SQL utilizando conectividad de bases de datos Java y puede procesar el resultado devuelto como una consulta de base de datos. Su interfaz de usuario principal es el Explorer, pero la misma funcionalidad puede ser accedida desde la línea de comandos o a través de la interfaz de flujo de conocimientos basada en componentes.

Figura 7. Herramienta de código abierto Weka Citado de: http://blog.jmacoe.com/gestion_ti/base_de_datos/5-mejoressoftware-mineria-datos-codigo-libre-abierto/ 2.4 JHepWork Diseñado para los científicos, ingenieros y estudiantes, jHepWork es un framework para análisis de datos libre y de código abierto que fue creado como un intento de hacer un entorno de análisis de datos usando paquetes de código abierto con una interfaz de usuario comprensible y para crear una herramienta competitiva a los programas comerciales. Esto se hace especialmente para las ploteos científicos interactivos en 2D y 3D y contiene bibliotecas científicas numéricas implementadas en Java para funciones matemáticas, números aleatorios, y otros algoritmos de minería de datos. jHepWork se basa en Jython un lenguaje de programación de

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

8


Uso de Técnicas y Herramientas de Minería de Datos

alto nivel, pero codificación en Java también puede ser usada para llamar librerías jHepWork numéricas y gráficas.

Figura 8. Herramienta de código abierto JHepWord Citado de: http://blog.jmacoe.com/gestion_ti/base_de_datos/5-mejoressoftware-mineria-datos-codigo-libre-abierto/ 2.5 Knime KNIME (Konstanz Information Miner) es una plataforma de código abierto de fácil uso y comprensible para integración de datos, procesamiento, análisis, y exploración. Ofrece a los usuarios la capacidad de crear de forma visual flujos o tuberías de datos, ejecutar selectivamente algunos o todos los pasos de análisis, y luego estudiar los resultados, modelos y vistas interactivas. KNIME está escrito en Java y está basado en Eclipse y hace

uso

de

sus

métodos

de

extensión

para

soportar

plugins

proporcionando así una funcionalidad adicional. A través de plugins, los usuarios pueden añadir módulos de texto, imagen, procesamiento de series de tiempo y la integración de varios proyectos de código abierto, tales como el lenguaje de programación R, WEKA, el kit de desarrollo de Química y LIBSVM.

Figura 9. Herramienta de código abierto Knime Citado de: http://blog.jmacoe.com/gestion_ti/base_de_datos/5-mejoressoftware-mineria-datos-codigo-libre-abierto/

Conclusiones © Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

9


Uso de Técnicas y Herramientas de Minería de Datos

Identificar las principales características que se encuentran en las técnicas de minería de datos por medio del desarrollo de algoritmos que responden a las necesidades de los usuarios

Reconocer los tipos de aplicaciones de software libre que son empleados como herramientas en la minería de datos, los cuales cumplen funciones de acuerdo con el volumen de información encontrada en cada empresa Referencias Bibliográficas 

Cesar Pérez López (2013). Minería de Datos. Redes Neuronales y Arboles de Decisión. Createspace

Cesar Pérez López (2014). Técnicas de Análisis Multivariante de Datos. Prentice Hall

Raúl Giráldez, José Riquelme. Jesús S. (2002). Tendencias de la Minería de Datos en España. Udima

Daniel Santin González, Cesar López (2007). Minería de Datos. Técnicas y Herramientas. Ediciones Paraninfo S.A

© Politécnico Indoamericano 2015 Nota Técnica preparada por el Politécnico Indoamericano. Este contenido es propiedad del Politécnico Indoamericano. Su difusión, reproducción o uso total o parcial para cualquier otro propósito queda prohibida. Todos los derechos reservados.

10


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.