Aprendiendo con valores no booleanos
El hombre bueno, del buen tesoro del coraz贸n saca buenas cosas; y el hombre malo, del mal tesoro saca malas cosas Jesucristo Mt.12.35
Espacio de atributos
Los atributos pueden ser mucho mas complejos Opciones frente a un conjunto discreto grande
Si el conjunto no es ordenado (por ejemplo 4 diferencias que tienen los carros), use atributos binarios para codificar los valores(1000, 0100, 0010, 0001) Si el conjunto es ordenado, trátelo como valores reales
Espacio de atributos
Los atributos pueden ser mucho mas complejos Opciones frente a un conjunto discreto grande
Si el conjunto no es ordenado (por ejemplo 4 diferencias que tienen los carros), use atributos binarios para codificar los valores(1000, 0100, 0010, 0001) Si el conjunto es ordenado, trátelo como valores reales
Valores reales: trate que las entradas cuyos atributos tiene valores “cercanos” vayan a tener salidas “cercanas”
Prediciendo la bancarrota L
R
B
3
0.2
No
1
0.3
No
4
0.5
No
2
0.7
No
0
1.0
No
1
1.2
No
1
1.7
No
6
0.2
Si
7
0.3
Si
6
0.7
Si
3
1.1
Si
2
1.5
Si
4
1.7
Si
2
1.9
Si
8 7 6 5 L 4 3 2 1 0
Si No
0
0.5
1 R
L: # de pagos tardíos / año R: gastos / ingresos
1.5
2
El querido vecino cercano Recuerde todos sus datos Cuando alguien hace una consulta
• Encuentre el viejo punto de datos mas cercano • Retorne la respuesta asociada con el
?
Qué significa el “más cercano”?
Se necesita una función de la distancia en las entradas Típicamente usamos distancia Euclidiana (longitud de una línea recta entre dos puntos) • D(xi, xk) = √Σ(xij,- xkj) j
Qué significa el “más cercano”?
Se necesita una función de la distancia en las entradas Típicamente usamos distancias Euclidianas (longitud de una línea recta entre dos puntos) • D(xi, xk) = √Σ(xij, xkj) • j
La distancia entre cadenas de caracteres podría ser el número de ediciones requeridas para cambiar el uno en otro (Ej. Cadenas de DNA).
Escalamiento
Que pasa si tratamos de predecir el kilometraje de combustible de un carro? • F1 = peso en libras • F2 = número de cilindros
Escalamiento
Que pasa si tratamos de predecir el consumo de combustible de un carro? • F1 = peso en libras (cientos) • F2 = numero de cilindros(4 y 8)
Cualquier efecto de F2 estará completamente perdido debido a la escala relativa.
Escalamiento
Que pasa si tratamos de predecir el consumo de combustible de un carro? • F1 = peso en libras • F2 = numero de cilindros
cualquier efecto de F2 estará completamente perdido debido a la escala relativa Por tanto re- escalamos las entradas
Escalamiento
Que pasa si tratamos de predecir el consumo de combustible de un carro? • F1 = peso en libras • F2 = numero de cilindros
Cualquier efecto de f2 estará completamente perdido debido a la escala relativa
Por tanto re- escalamos las entradas X’= (X – X) /
σX
PROMEDIO
DESVIACIÓN ESTANDARD
√varianza
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Prediciendo la bancarrota
R=0.3
8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
L=2 Y?
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Prediciendo la bancarrota 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li, Lk)2 + (5Ri - 5Rk) 2 j
la hipótesis? Es diferente porque no se esta construyendo
Hipótesis 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Hipótesis 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
2
D(xi, xk) = √Σ(Li - Lk)2 + (5Ri - 5Rk) 2 j
Tiempo y espacio
El aprendizaje es rápido
Solo hay que recordar
Tiempo y espacio
Aprendizaje es rápido Buscar toma cerca de m*n cálculos • M= cantidad de puntos en el conj de entrenamiento • N= cantidad de atributos
Almacenar datos en un ingenioso estructura de datos(árbol KD ) reduce esto en promedio a log(m)*n
Tiempo y espacio
Aprendizaje es rápido Buscar toma cerca de m*n cálculos Almacenar datos en un ingenioso estructura de datos(árbol KD ) reduce esto en promedio a log(m)*n Memoria pude saturarse con todos los datos
Tiempo y espacio
Aprendizaje es rápido Buscar toma cerca de m*n cálculos
Almacenar datos en un ingenioso estructura de datos(árbol KD ) reduce esto en promedio a log(m)*n
Memoria pude saturarse con todos los datos
Borre los puntos que están lejos de las fronteras
Ruido 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
Al menos dos formas de tratar con esta situaci贸n
2
Ruido 8 7 6 5 L 4 3 2 1 00
consulta
Si No
0.5
1 R
1.5
2
Ruido 8 7 6 5 L 4 3 2 1 00
consulta
Si No
0.5
1 R
1.5
2
Ruido 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
Cambiando el algoritmo a k vecinos mรกs cercanos. Encontrando los k puntos mas cercanos
2
Ruido 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
Encontrando los k puntos mas cercanos Prediciendo la salida de acuerdo a la mayorĂa
2
Ruido 8 7 6 5 L 4 3 2 1 00
Si No
0.5
1 R
1.5
Encontrando los k puntos mas cercanos Prediciendo la salida de acuerdo a la mayor铆a Escoja k con validaci贸n cruzada
2
Curso de dimensionalidad ď Ž ď Ž
El vecino mĂĄs cercano trabaja bien con dimensiones bajas (cerca de 6) Cuando n se incrementa, las cosas se ponen raras:
Curso de dimensionalidad
El vecino mas cercano trabaja bien en dimensiones bajas (cerca de 6) y espacios con valores reales.
Cuando n se incrementa, las cosas se ponen raras:
En la alta dimensión, casi todos los puntos están lejos uno de otro. Ellos casi siempre están cerca de la frontera.
Curso de dimensionalidad
El vecino mas cercano es mayor en dimensiones bajas (cerca de 6) Cuando n se incrementa, las cosas se ponen raras:
En la alta dimensión, casi todos los puntos están lejos uno de otro. Ellos casi siempre están cerca de la frontera.
Imagine los puntos datos dispersos uniformemente en un cubo de 10 dimensiones Para capturar 10% de los puntos, necesitará un cubo con lados .63! Remedio: seleccione los atributos o los modelos más globales.
Evaluación del domino
Enfermedades cardíacas: predecir si una persona tiene una limitación significativa en las arterias, basada en los exámenes
26 atributos 297 puntos datos
Evaluación del domino
Enfermedades cardíacas: predecir si una persona tiene una limitación significativa en las arterias, basada en los exámenes
26 atributos 297 puntos dato
Carro MPG: predecir si un auto hace mas de 22 millas por galón, basado en atributos del carro
12 atributos 385 puntos dato
Enfermedad cardiaca
Relativamente insensible a k 1 0.8
Exactitud de
0.6
clasificación 0.4 0.2 0
0
20 K
40
Exactitud de la validación cruzada del vecino mas cercano sobre datos de enfermedades cardiacas.
Afectación del corazón
Relativamente insensible a k Importancia de la normalización
1 0.8
Normalizada
0.6 0.4 0.2 0
0
20 k
40
Carro MPG
Relativamente insensible a k Normalización no importa mucho
1 0.8 0.6 0.4 0.2 0
0
20 k
40
Carro MPG
Ahora la normalización importa mucho Observe la escala de sus grafos
0.95 0.93
Normalizada
0.91 0.89 0.87 0.85
0
20 K
40
ď Ž
Tomado del Instituto TecnolĂłgico de Massachusetts www.owc.mit.edu 6.034 Artificial Intelligence 2004 Archivo: ch6-mach2.pdf
Ejercicios
1.- Este problema trata con datos de entrada que tienen un solo atributo “x”. La salida es de dos clases, dada por los valores “y”. Se presenta la siguiente tabla de valores.
a.
b.
Responda: Cuál sería la salida cuando x=9? Con el K-Vecino más cercano (K-VC), cuando k=1? Y Cuándo K-VC=5?
x
y
1
0
2
1
3
1
4
0
6
1
7
1
10
0
11
1
2.- Represente los siguientes datos en un plano cartesiano: Negativos: (-1, 0), (2, 1), (2, -2) Positivos(0, 0), (1, 0) a) Dibuje la línea divisoria para 1- Vecino más Cercano. b) Cómo se predeciría con 1-VC este nuevo punto: (1, -1.01). Explique por qué?