多QUE ES EL DIANA DUQUE GIRALDO DATA MINING?
Diana Duque Giraldo
“BREVE HISTORIA DEL DATA MINING”
• (Minería de datos).En los 60′s, los estadísticos utilizaban términos como “Data Fishing” (Pesca de datos) o “Data Dredging” (Filtración de datos) para referirse a lo que consideraban la “mala práctica” de analizar datos sin una hipótesis a priori. • El término “Data Mining” apareció alrededor de 1990 en la comunidad de base de datos.
Frases cortas para ayudar a un data miner a definir “Data Mining”: Que es?
Descubrimiento de conocimiento en bases de datos”
“Extracción no trivial de información que reside de manera implícita en los datos”
“Torturar a los datos hasta que confiesen” Anónimo “Excavar montañas de datos y encontrar pepitas de oro (o diamantes)” La gente puede venir con estadísticas para probar cualquier cosa. Cuarenta por ciento de todas las personas lo saben”
EL DATA MINING ES… • Es una nueva tecnología de manejo y análisis de información que aprovecha la capacidad existente hoy día de procesamiento, almacenamiento y transmisión de datos a gran velocidad y bajo costo • Es un conjunto de técnicas que consisten en la extracción no trivial de información • que existe de manera implícita en grandes volúmenes de datos. • Es un conjunto de técnicas destinadas a la extracción de conocimiento procesable implícito en las bases de datos. • Es un conjunto de herramientas que sirven para descubir patrones y aplicar conocimiento a la toma de decisiones concretas y a diferentes dominios del conocimiento.
• Objetivo • Es extraer información interesante/útil a partir de datos. En muchos casos esta información tiene la forma de patrones no evidentes en los datos y, dependiendo de su complejidad, puede llegarse a hablar de conocimiento. • Proceso • Un proceso típico de minería de datos consta de los siguientes pasos generales: • Mas detalle de los procesos
LAS TÉCNICAS MÁS REPRESENTATIVAS SON: • Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. • Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables. • Árboles de decisión.- Es un modelo de predicción utilizado en el ámbito de lainteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas. • Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta. • Agrupamiento.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes.