Variables aleatorias bidimensionales

Page 1

EstadĂ­stica Variables aleatorias Bidimensionales

OpenUepc.com 1.1.5.5

Ver 01:03/02/2010



NOTA La clasificación decimal de todos los temas de este manual tienen implícito el comienzo 1.1.5.5 correspondiente a 1

SCIENCE

1.1

MATHEMATICS

1.1.5

STATISTICS

1.1.5.5

VARIABLES ALEATORIAS BIDIMENSIONALES

COPYLEFT Este material así como los applets, powerpoints, videos y archivos de sonido asociados, puede ser distribuido bajo los términos y condiciones definidos en Open Publication License versión 1.0 o posterior (La versión más reciente está disponible en http://www.opencontent.org/openpub/). El contenido está sujeto a constantes cambios sin previo aviso. Su fin es didáctico y solo pretende la universalización de la cultura. Está escrito en base a la colaboración de las miles de personas que componen nuestra comunidad OpenUepc. Se ha exigido a los autores que referencien todas las fuentes utilizadas y figuran al final del texto. Cualquier distribución del mismo debe mencionar a OpenUepc como fuente. Miguel Pérez Fontenla miguelperez@edu.xunta.es INDICE AUTORES

Iniciado por: Miguel Pérez Fontenla

22/11/2009




+

INTRODUCCIÓN Vamos ahora a estudiar simultáneamente dos características de un mismo elemento de una población, por ejemplo altura y peso de una población, o edad y tensión arterial de los pacientes de un médico, o notas de un alumno en Física y en Matemáticas) Relación entre Variables Muy a menudo en la práctica se encuentra que existe más relación entre dos o más variables. Por ejemplo, los pesos de hombres adultos dependen en cierto modo de sus alturas. Las circunferencias de los dependen de los radios. La presión de una masa dada de gas depende de su temperatura. Frecuentemente se necesita expresar una relación mediante una ecuación matemática que ligue las variables.

Historia

| INTRODUCCIÓN 1


+

CONCEPTOS BÁSICOS Definición: Variable estadistioca bidimensional Si se estudian acerca de una misma población las dos variables X e Y y se miden por las mismas unidades estadísticas, se obtienen series estadísticas de las variables X e Y conjuntas y se denominan una variable estadística bidimensional y se representan por pares de datos (x1, y1), (x2, y2), ..., (xn, yn) Satillana (pag 244) Citar ejemplo

Definición: Frecuencias conjunta y marginal Satillana (pag 244) Citar ejemplo

Tablas de doble entrada o de contingencia. Sea una población estudiada simultaneamente según dos caracteres X e Y; que representaremos genéricamente como (xi; yj ; nij), donde xi; yj, son dos valores cualesquiera y nij es la frecuencia absoluta conjunta del valor i-ésimo de X con el i-ésimo de Y. Una forma de disponer estos resultados es la conocida como tabla de doble entrada o tabla de contingencia, la cual podemos representar como sigue: X\Y

y1

y2

…..

yj

….

yk

ni .

x1 x2 . . . Xi . . . xh

n11

n12

n1j

n22

. .

. .

n1 n2 . . .

ni1

ni2

. . .

. . .

nh1

nh2

nhj

….. ….. . …. . ….. . …. . …..

n1k

n21

….. ….. . …. . ….. . …. . …..

nhk

ni . . . . nh .

n. j

n. 1

n. 2

…..

n. j

…..

n. k

N

n2j

. . nij

. . .

n2k

. . nik

. . .

En este caso, n11 nos indica el número de veces que aparece x1 conjuntamente con y1; n12, nos indica la frecuencia conjunta de x1 con y2, etc. Ejemplo de Tabla de Santillana pg 245

| CONCEPTOS BÁSICOS 2


+

Diagrama de dispersión o nube de puntos Por ejemplo, supongamos que x e y representan la altura y el peso de hombres adultos. Una muestra de N individuos daría x1, x2, ... xn alturas y los pesos correspondientes serían y1, y2, ..yn. El paso siguiente es representar los puntos correspondientes a cada elemento de la muestra (x1, y1); (x2, y2) ... (xn, yn) en un sistema de coordenadas cartesianas. Este sistema de puntos resultante se denomina “Diagrama de Dispersión”. Representamos en ejes coordenados, una de las dos variables en el eje X, y la otra en el eje Y. Para indicar el número de coincidencias, o bien ponemos símbolos diferentes, o bien indicamos entre paréntesis, el número nii.

Nube de puntos

Pesos (kg.)

82 77 72 67 62 57 150

155

160

165

170

175

180

Alturas (cm.) (sustituirla por otra de Geogebra y añadir ejemplo Santillana, pag 247)

Curva de Ajuste Para llegar a encontrar la ecuación que relaciona las variables, el primer paso es la recolección de datos que muestran los valores correspondientes de las variables. Teniendo el diagrama de dispersión es posible encontrar una curva que se aproxima a los datos. Esta curva recibe el nombre de “Curva de Aproximación”. A los datos se aproximan a una línea recta, se dice que entre las variables existe una relación lineal. Si entre las variables existe una relación que no es lineal (que no se puede aproximar por una recta sino por una curva). Se dice que entre las variables hay una “relación no lineal”. El problema general de e4ncontrar ecuaciones de curvas e aproximación que se ajusten al conjunto de datos se denomina buscar la “curva de ajuste”. | CONCEPTOS BÁSICOS 3


+

Las curvas de ajuste pueden ser varias y de diversos tipos. Desde lineas hasta polinomos de grados altos o funciones transcendentes

Definición: Distribuciones marginales Dada la distribución bidimensional (xi ; yj ; nij), se llaman distribuciones marginales a cada una de las dos distribuciones unidimensionales que se pueden obtener, de forma que en cada una de ellas no se tenga en cuenta la otra, es decir, dada la siguiente distribución bidimensional; X\Y y1

y2

y3

y4

ni.

x1 x2 x3 x4

n11 n21 n31 n41

n12 n22 n32 n42

n13 n23 n33 n43

n14 n24 n34 n34

n1 . n2 . n3 . n4 .

n.j

n.1

n.2

n.3

n.4

n

podemos obtener las siguientes distribuciones marginales X

Y

xi

ni.

Yj

n.j

x1 x2 x3 x4

n1 . n2 . n3 . n4 . n

y1 y2 y3 y4

n.1 n.2 n.3 n.4 n

Por tanto, podemos decir:

n

N

i =1

j =1

∑ n j. = ∑ n. j = ∑∑ nij = n

Distribuciones Condicionadas Cuando se establece una restricción o condición a una de las dos variables, tenemos las distribuciones condicionadas. Se las suele representar como: X/Y , para X condicionado por Y Y/X , para Y condicionado por X

| CONCEPTOS BÁSICOS 4


+

Independencia estadística Dadas dos variables X e Y se dice que son independientes estadísticamente cuando la frecuencia relativa conjunta es igual al producto de las frecuencias relativas marginales en todos los casos, es decir:

nij n

=

n j . n. j ⋅ n n

∀i, j

Si esto no se cumple para todos los valores se dice que hay dependencia estadística.

| CONCEPTOS BÁSICOS 5


+

COVARIANZA Gráficamente, en el diagrama de dispersión podemos determinar si las dos variables X e Y que componen una variable estadística bidimensional tienen algún tipo de relación más o menos fuerte. Vamos a establecer ahora una medida estadística matemática para cuantificar la relación que existe entre las dos variables X e Y que forman parte de una variable bidimensional. Esta medida se denomina covarianza y viene dada por n

n

k

σ xy = ∑∑

( xi − x )( y j − y ) nij

i =1 j =1

n

∑x ⋅y i

=

i =1

n

i

− x⋅ y

Si σxy >0 hay dependencia directa (positiva), es decir a grandes valores de x corresponden grandes valores de y. Si σxy = 0 las variables están incorreladas, es decir no hay relación lineal. Si σxy < 0 hay dependencia inversa o negativa, es decir a grandes valores de x corresponden grandes valores de y.

(Geogebra) Gráficamente, indicaría la Covarianza, que los datos, se ajustan a una recta, en los siguientes casos:

σxy >0

σxy<0

Propiedades de la covarianza: 1.- Si a todos los valores de la variable X, les sumamos una constante k y a todos los valores de la variable Y les sumamos una constante k’, la covarianza no varía. 2.- Si a todos los valores de una variable X los multiplicamos por una constante k y a todos los valores de la variable Y los multiplicamos por una constante k’, su covarianza queda multiplicada por el producto de las constantes. | COVARIANZA 6


+

3.- Como consecuencia de las anteriores: si tenemos dos variables X, Y con la covarianza σxy, y transformaciones lineales de las variables de la forma z = ax + b, y t = cy + d, la nueva covarianza se relaciona con la anterior de la forma: σzt = ac σxy. n

∑x ⋅y i

4.- Otra forma de calcular la Covarianza sería: σ xy =

i

− x ⋅ y y que será la que n utilizaremos en la práctica por la simplificación de cálculos que nos ofrece. i =1

| COVARIANZA 7


+

CORRELACIÓN El inconveniente de la covarianza, como medida de asociación es su dependencia de las unidades. Habrá que definir una nueva medida, que no está afectada por los cambios en las unidades de medida. Esta medida es la siguiente: Definición coeficiente de correlación lineal El coeficiente de correlación rxy es una medida de la variable (X,Y), que cuantifica el grado de dependencia lineal entre las dos variables X e Y de una variable estadística bidimensional. Viene dado por la siguiente expresión: rxy =

σ xy σ xσ y

siendo σx y σy las desviaciones típicas de X e Y. Este coeficiente es adimensional y siempre estará entre –1 y 1. • • •

Si hay relación lineal positiva, rxy > 0 y próximo a 1 (a partir de 0.75). Si hay relación lineal negativa rxy < 0 y próximo a –1 (a partor de -0.75) Si no hay relación lineal rxy será próximo a 0 (entre -0.25 y +0.25).

Cuando las variables x e y son independientes, σxy = 0, y por tanto rxy = 0. Es decir, si dos variables son independientes su covarianza vale cero. No podemos asegurar lo mismo en sentido contrario. Si dos variables tienen covarianza cero, no podemos decir que son independientes. Sabemos que linealmente no tienen relación, pero podrían tener otro tipo de relación y no ser independientes. Ejemplo 1 Nubes de puntos con geogebra como en la página 248 Santillana Ejemplo 2 Calcular la Covarianza y el coeficiente de correlación de una variable bidimensional (X,Y) cuyos datos viene dados por la tabla: X: Altura 175 180 162 157 180 173 171 168 165 165 Y: Peso

80

82

57

63

78

65

66

67

62

58

Solución Hacemos los siguientes cálculos previos: x = 169.6 σ x = 7.2139 y = 67.8

σ y = 8.7567

De donde: 175 − 80 + 180 − 82 + 162 − 57 + .... σ xy = − 169.6 − 67.8 = 52.32 10

| CORRELACIÓN 8


+

Calculamos ahora el coeficiente de correlación lineal rxy 52.32 rxy = = 0.8282 7.2139 ⋅ 8.7567 Como es mayor de 0.75, nos indica que las variables están fuertemente relacionadas. Incluir problema de

http://centros.edu.xunta.es/iesramoncabanillas/cuadmat/trabaj/omblig1.pdf Sobre hombre de Vitrubio

| CORRELACIÓN 9


+

RECTA DE REGRESION http://fce.ufm.edu/catedraticos/jhcole/Nociones.doc. Julio H. Cole. Profesor de Economía. Universidad Francisco Maroquín

El objeto de un análisis de regresión es investigar la relación estadística que existe entre una variable dependiente Y y otras variable independientes X1, X2,... , Xn. Ahora, vamos a ver únicamente el caso de una sola variable independiente X, por lo que el análisis de regresión queda simplificado a una línea recta y de ahí que también se le denomine Regresión Lineal ó recta de regresión donde la relación viene dada por

Yˆ = mX + b donde los coeficientes b y m son parámetros que definen b el punto de corte con el eje Y de ordenadas y m la pendiente de la recta. (Nótese que hemos usado el símbolo especial Yˆ ya que se suele emplear esta notación en estadística cuando un valor es estimado. Como veremos, el valor real de Y rara vez coincide exactamente con el valor estimado, por lo que es importante hacer esta distinción.) El parámetro b nos indica el valor de corte de la gráfica con el eje Y, es decir el valor de Y cuando X = 0. El parámetro m nos indica cuánto aumenta Y por cada aumento de una unidad en X. Nuestro problema consiste en obtener estimaciones de estos coeficientes a partir de una muestra de observaciones sobre las variables Y y X.

Estimación de la Recta de Regresión. Para ajustar la recta de regresión que corresponde a un diagrama de dispersión, podemos considerar dos casos posibles,

(

)

(

)

la recta de Y sobre X, dada por y − y =

σ xy x−x y σ x2

la recta de X sobre Y, dada por x − x =

σ xy y− y . σ y2

Ejemplos Santillana pag 250 y 251

Posiciones relativas de dos rectas de regresión Con Geogebra hacer las nubes de puntos de la página 251 | RECTA DE REGRESION 10


+

Estimación de la Recta de Regresión. Método de los mínimos cuadrados En el análisis de regresión, las estimaciones que hemos mencionado previamente se obtienen por medio del método de mínimos cuadrados. Para estimar los coeficientes por medio de mínimos cuadrados, se utilizan las siguientes En la práctica los coeficientes b y m de la recta de regresión se estiman mediante las fórmulas

m=

∑ XY − y ∑ X y b = y − mx de donde, la recta de regresión viene dada por ∑X2 −x∑X

 ∑ XY − y ∑ X Yˆ =  2 ∑X −x∑X

  X + ( y − mx ) 

Ejemplo Como ejemplo, consideremos las cifras del Cuadro 1, Cuadro 1. Operaciones Mensuales en una Empresa de Transporte de Pasajeros. Mes Nº

Costos Totales (miles) Y

Millas Vehículo (Miles) X

Mes Nº

Costos Totales (miles) Y

Millas Vehículo (miles) X

1 213.9 3147 18 213.2 3338 2 212.6 3160 19 219.5 3492 3 215.3 3197 20 243.7 4019 4 215.3 3173 21 262.3 4394 5 215.4 3292 22 252.3 4251 6 228.2 3561 23 224.4 3844 7 245.6 4013 24 215.3 3276 8 259.9 4244 25 202.5 3184 9 250.9 4159 26 200.7 3037 10 234.5 3776 27 201.8 3142 11 205.9 3232 28 202.1 3159 12 202.7 3141 29 200.4 3139 13 198.5 2928 30 209.3 3203 14 195.6 3063 31 213.9 3307 15 200.4 3096 32 227.0 3585 16 200.1 3096 33 246.4 4073 17 201.5 3158 Fuente: J. Johnston, Análisis Estadístico de los Costes (Barcelona: Sagitario, S. A., 1966), p. 118.

que muestra datos mensuales de producción y costos de operación para una empresa británica de transporte de pasajeros por carretera durante los años 1949-52 (la producción se mide en términos de miles de millas-vehículo recorridas por mes, y los costos se miden en términos de miles de libras por mes). Para poder visualizar el grado de relación que existe entre las variables, como primer paso en el análisis es conveniente elaborar un diagrama de dispersión, que es una representación en un sistema de coordenadas cartesianas de los datos numéricos observados. En el | RECTA DE REGRESION 11


+

diagrama resultante, en el eje X se miden las millas-vehículo recorridas, y en el eje Y se mide el costo de operación mensual. Cada punto en el diagrama muestra la pareja de datos (millas-vehículo y costos de operación) que corresponde a un mes determinado. 280

COSTOS

260

240

220

200

180 2500

3000

3500

4000

4500

MILLAS

Como era de esperarse, existe una relación positiva entre estas variables: una mayor cantidad de millas-vehículo recorridas corresponde un mayor nivel de costos de operación. Por otro lado, también se aprecia por qué este gráfico se denomina un diagrama de “dispersión”: no existe una relación matemáticamente exacta entre las variables, ya que no toda la variación en el costo de operación puede ser explicada por la variación en las millas-vehículo. Si entre estas variables existiera una relación lineal perfecta, entonces todos los puntos caerían a lo largo de la recta de regresión, que también ha sido trazada y que muestra la relación “promedio” que existe entre las dos variables. En la práctica, se observa que la mayoría de los puntos no caen directamente sobre la recta, sino que están “dispersos” en torno a ella. Esta dispersión representa la variación en Y que no puede atribuirse a la variación en X. Aplicando estas fórmulas del ajuste mínimo cuadrático tenemos: 25,216,020.3 – 219.1242(113,879)

m = —————————————— = 0.044674 398,855,769 – 3,450.879(113,879)

b = 219.1242 – 0.044674(3,450.879) = 64.96 Expresando los resultados en términos de la recta de regresión, tenemos: Y$ = 64.96 + 0.044674 X Podemos concluir que por cada milla adicional recorrida, los costos de operación aumentan en aproximadamente 4.5 centavos—esto podría interpretarse como el “costo marginal” para la empresa de recorrer una milla adicional—mientras que el coeficiente b0 nos estaría indicando la parte del costo mensual que no varía | RECTA DE REGRESION 12


+

directamente con la cantidad de millas recorridas (aproximadamente 64,960 libras mensuales).

Coeficiente de Determinación ( R 2 ). Una pregunta importante que se plantea en el análisis de regresión es la siguiente: ¿Qué porcentaje de la variación total en Y se debe a la variación en X? En otras palabras, ¿cuál es la proporción de la variación total en Y que puede ser “explicada” por la variación en X? El estadístico que mide esta proporción o porcentaje se denomina coeficiente de determinación:

R2 = 1 −

∑ e2 ∑(Y − y ) 2

En este caso, al hacer los cálculos respectivos, se obtiene un valor de 0.946. Esto significa que la variación en las millas recorridas explica 94.6 % de la variación en el gasto de operación mensual.

Estimación Pag 252 de Santillana

Mirar lo que se puede añadir del texto doc [Estadistica] Regresion Parece bueno

| RECTA DE REGRESION 13


+

| RECTA DE REGRESION 14


+

10.8 Ejemplos de Aplicación 1) – La tabla siguiente, muestra las alturas con aproximación de una pulgada y los pesos con aproximación de una libra, de una muestra de 12 estudiantes extraídos al azar entre los estudiantes de primer año de un colegio. A – A partir de una recta de mínimos cuadrados siendo x la variable independiente. B – Siendo y la variable independiente.

Altura

70

63

72

155

150

180

60

66

70

74

65

62

67

65

65

156

168

178

160

132

145

139

152

X Peso

135

Y

Solución A – El trabajo necesario para el cálculo de las sumas se puede ordenar en una tabla, como la siguiente:

Altura X

Peso Y

70

155

3,2

0,8

2,56

10,24

0,64

63

150

- 3,8

- 4,2

15,96

14,44

17,64

72

180

5,2

25,8

134,16

27,04

665,64

60

135

- 6,8

- 19,2

130,56

46,24

368,64

66

156

- 0,8

1,8

- 1144

0,64

3,24

70

168

3,2

13,8

44,16

10,24

190,44

74

178

7,2

23,8

171,36

51,84

566,44

65

160

- 1,8

5,8

- 10,44

3,24

33,64

62

132

- 4,8

- 22,2

106,56

23,04

492,84

67

145

0,2

- 9,2

- 184

0,04

84,64

65

139

- 1,8

- 15,2

27,36

3,24

231,04

68

152

1,2

- 2,2

- 1,64

1144

4,84

Luego la recta de mínimos cuadrados pedida es:

| RECTA DE REGRESION 15


+

O sea

Que puede escribirse también:

Esta ecuación de la recta, encontrada por el método de mínimos cuadrados se llama “recta de regresión” y y sobre x, y se utiliza para estimar los valores de y a partir de valores dados de x. B – Si la variable independiente es x, la recta pedida será:

Que puede escribirse:

Que se4 denomina recta de regresión de x sobre y, y se usa para estimar valores de x a partir de valores dados de y. a)

| RECTA DE REGRESION 16


+

a) Primer Método Se utiliza la ecuación

donde

. El trabajo puede

ordenarse en una tabla.

Año 1946

0

66,6

-5

- 28,4

25

142,0

1947

1

84,9

-4

- 10,1

16

40,4

1948

2

88.6

-3

- 6,4

9

19,2

1949

3

78,0

-2

- 17,0

4

34,0

1950

4

96,8

-1

1,8

1

- 1,8

1951

5

105,2

0

10,2

0

0

1952

6

93,2

1

- 1,8

1

- 1,8

1953

7

111,6

2

16,5

4

33,2

1954

8

88,3

3

- 6,7

9

- 20,1

1955

9

117,0

4

22,0

16

88,0

1956

10

115,2

5

20,2

25

101,0

La ecuación planteada queda como sigue: Que puede escribirse también como: Donde el origen x = 0 es el año 1946 y las unidades de x son 1 año. El gráfico de esa recta se llama a veces, recta de tendencia y aparece a trazos en la figura. La ecuación se llama a menudo “ecuación de tendencia”, y los valores de y calculados para diferentes valores de x se llaman valores de tendencia.

b) Segundo Método Si se asignan valores de x a los años 1946 – 1956, la ecuación de la recta de mínimos cuadrados puede escribirse: En los datos y cálculos realizados en el ejemplo 1, representar graficamente ambas rectas y estimar: A – El peso de un estudiante cuya altura es de 63 pulgadas.

| RECTA DE REGRESION 17


+

B – La altura de un estudiante cuyo peso es de 168 libras.

Solución A – Para estimar y de x se emplea la recta de regresión de y sobre x. Y = 3,22 x – 60,9, Entonces si x = 63

Y = 3,22 . 63 – 60,9 = 142

B – Para estimar x de y se emplea la recta de regresión de x sobre y. X = 31,0 + 0,232 y Luego para Y = 168,06 la altura X = 31,0 + 0,232 . 168 = 70,0 pulgadas 3 – Ejemplo de Aplicación a Series de Tiempo La producción de acero en los EEUU en mill de toneladas cortas (1 tonelada corta = 2000 libras), durante los años 1946 a 1956 se muestra en la tabla. A – Representar los datos. B – Hallar la ecuación de la recta de mínimos cuadrados que se ajuste a los datos. C – Estimar la producción de acero para los años 1957 y 1958 y comparar con los valores 112,7 y 89,6 mill. D – Estimar la producción de acero durante los años 1945 y 1944 y comparar con los valores reales de 79,6 y 89,6 mill de toneladas cortas.

Año

Producción Acero

1946

66,6

1947

84,9

1948

88,6

| RECTA DE REGRESION 18


+

1949

78,0

1950

96,8

1951

195,2

1952

93,2

1953

111,6

1954

88,3

1955

117,0

1956

115,2

Trabajo Práctico

5 – Hallar: a) b) c) d) e)

la desviación típica de x la desviación típica de y la varianza de x la varianza de y la covarianza de x e y para los datos del problema 4.

6 – Comprobar la fórmula r = Sxy/SxSy para los datos del problema 4. 7 – La siguiente tabla muestra la edad x y la presión sanguínea y de 12 mujeres. a) hallar el coeficiente de correlación entre x e y. b) Determinar la ecuación de regresión de mínimos cuadrados de y sobre x. c) Estimar la presión sanguínea de una mujer de 45 años con el 99 % de confianza. Edad

56

42

72

36

63

47

55

49

38

42

68

60

147

145

160

118

149

128

150

145

115

140

152

155

(X) Presió n (Y)

8 – Hallar el coeficiente de correlación entre los valores de alturas y los pesos de 300 hombres de EEUU, dados en la siguiente tabla de frecuencias.

90 – 109

59 - 62

63 - 66

2

1

67 - 70

71 - 74

75 – 78

110 – 129

7

8

4

2

130 – 149

5

15

22

7

1

150 – 169

2

12

63

19

5

| RECTA DE REGRESION 19


+

170 – 189

7

28

32

12

190 – 209

2

10

20

7

1

4

2

210 - 229

9 – a) Hallar la ecuación de regresión de mínimos cuadrados de y sobre x para los datos del problema anterior. b) Estimar los pesos de dos hombres cuyas alturas sean 64 y 72 pulgadas respectivamente. d) Estimar con el 95 % de confianza los pesos indicados en b. Trabajo Práctico 1 – La producción de cigarros puros en EEUU durante los años 1945 – 1954 aparece en la tabla. a) Representar los datos. b) Hallar la ecuación de la recta de mínimos cuadrados que ajuste los datos. c) Estimar la producción de cigarro en el año 1955. Año

1945

1946

1947

1948

1949

1950

1951

1952

1953

1954

Cigarros

98,2

92,3

80,0

89,1

83,5

68,9

69,2

67,1

58,3

61,2

mill

2 – Ajuste una recta de mínimos cuadrados a los datos de la tabla adjunta tomando: a) x como variable independiente, b) y como variable independiente. Representar los datos y las rectas de mínimos cuadrados en el mismo sistema de ejes, coordenads.

X

3

5

6

8

9

11

Y

2

3

4

6

5

8

3 – El tiempo total para detener un automóvil después de percibir un peligro se compone del tiempo de reacción, más el tiempo de frenada. La tabla adjunta muestra las de parada en pies D que marcha a la velocidad V (mmillas por hora), desde el instate en que se observa el peligro. a) Representar los datos b) Ajustar una parábola de mínimos cuadrados de la forma D = c) Estimar D cuando V = 45 mill/hs y 80 mill/hs V

20

30

40

50

60

70

| RECTA DE REGRESION 20


+

D

54

90

138

206

292

396

4 – Hallar el coeficiente de correlación lineal entre las variables x e y presentadas en la tabla siguiente

EJERCICIOS Ejercicio 1 ¿Cuánto vale el coeficiente de correlación cuando la correlación es máxima y positiva?

Solución: r=1

Ejercicio 2 Los alumnos de una clase de 4º de ESO han obtenido las siguientes calificaciones en Matemáticas (x) y en Lengua (y): Matemáticas (x) Lengua (y)

2

3

4

4

5

6

4

5

6

7

8

6

3

6

2

5

6

1

5

9

2

4

3

5

2

4

6

7

5

6

5

8

5

7

4

5

6

4

6

8

Halla con la calculadora el coeficiente de correlación y contesta si puedes hacer estimaciones fiables.

Solución: r = 0,58

por lo tanto la correlación no es muy fuerte y no es muy fiable hacer estimaciones.

Ejercicio 3 Obtén la nube de puntos correspondiente a los valores de la tabla siguiente: x y

2 7

3 6

4 5

4 6

5 3

5 4

6 4

7 2

8 2

8 1

¿De qué signo es la correlación?

Solución:

| EJERCICIOS 21


+

La correlación es negativa

Ejercicio 4

En una distribución bidimensional (x, y) se sabe que el coeficiente de correlación es 0,94 y la recta de regresión y = 0,87 x − 2,65 ¿Se puede estimar el valor de y para cuando x = 5 ?¿Es fiable esta estimación?¿Por qué?

Solución: La estimación es muy fiable porque la correlación es muy fuerte. El valor de y correspondiente es y = 7

Ejercicio 5 En un bar se hace un estudio para ver los refrescos que se venden en función de la temperatura que hace. Se han elegido 10 días del año al azar, y se han obtenido los siguientes resultados: Temperatura (x) Cantidad de refrescos (y)

12 23

28 64

11 20

32 70

35 79

9 14

25 61

16 25

7 12

23 58

Halla con la calculadora el coeficiente de correlación, la recta de regresión, y contesta si se puede predecir cuántos refrescos se venderán un día que haga 30º de temperatura.

Solución: Coeficiente de correlación: r = 0,986

Se pueden hacer estimaciones fiables, porque la correlación es muy fuerte. Recta de regresión: y = −7,6 + 2,5 x

Para x = 30 se obtiene y = 68 | EJERCICIOS 22


+

Se esperan vender 68 refrescos.

Ejercicio 6 ¿Qué significa que la correlación entre dos variables sea nula?

Solución: Que no existe ninguna relación entre esas dos variables.

Ejercicio 7 Dos conjuntos de datos bidimensionales tienen como coeficiente de correlación r1 = −0,89 y r2 = 0,27 . ¿En cuál de los dos conjuntos es más fiable hacer estimaciones mediante la recta de regresión? ¿Por qué?

Solución: En el conjunto de datos que tiene coeficiente de correlación r1 = −0,89 porque la correlación es más fuerte.

Ejercicio 8 Los resultados de una encuesta realizada a un grupo de alumnos sobre el número de horas que se estudia al día y el número de suspensos obtenidos en una evaluación, se reflejan en la siguiente tabla: Nº horas (x) Nº suspensos (y)

2

0

1

0,5

1

2

3

1,5

2,5

2

1

1,5

0,5

2

1,5

0

0,5

1,5

1

3

1

6

3

4

2

0

0

1

0

3

1

0

3

2

2

5

5

3

2

0

Representar mediante una nube de puntos estos resultados.

Ejercicio 9 Dibuja la nube de puntos de la siguiente distribución bidimensional: x y

2 5

3 4

5 7

7 6

4 2

8 8

2 1

9 8

6 7

3 2

| EJERCICIOS 23


+

Solución:

Ejercicio 10 Los resultados de una encuesta realizada a un grupo de alumnos sobre el número de horas que se estudia al día y el número de suspensos obtenidos en una evaluación, se reflejan en la siguiente tabla: Nº horas (x) Nº suspensos (y)

2

0

1

0,5

1

2

3

1,5

2,5

2

1

1,5

0,5

2

1,5

0

0,5

1,5

1

3

1

6

3

4

2

0

0

1

0

3

1

0

3

2

2

5

5

3

2

0

Halla con la calculadora el coeficiente de correlación. ¿Qué significa que el coeficiente de correlación sea negativo?

Solución: r = −0,8

Significa que cuando crece una variable la otra decrece, es decir, cuando aumenta el número de horas de estudio, el número de suspensos disminuye.

Ejercicio 11 En una distribución bidimensional (x, y) se sabe que el coeficiente de correlación es 0,28 y la recta de regresión y = 2 x + 3 ¿Es fiable la estimación de y para x = 10 ?

Solución: No es fiable hacer estimaciones porque la correlación es débil.

Ejercicio 12 En un estudio estadístico hemos comprobado que las notas de Matemáticas (X) y Tecnología (Y) en un grupo de 4º de ESO tienen un coeficiente de correlación r = 0,88 y la recta de regresión es Y = 1,2 X − 0,4 ¿Qué nota tendrá en Tecnología un alumno que ha sacado un 7 en Matemáticas? | EJERCICIOS 24


+

Solución: Y = 1,2 X − 0,4 = 1,2 ⋅ 7 − 0,4 = 8

Obtendrá un 8

Ejercicio 13 A un enfermo que tiene mucha fiebre se le administra un medicamento para que ésta descienda. Se observa al paciente controlándole la temperatura cada 30 minutos, durante 6 horas. Apuntamos los datos en una variable bidimensional en la cual: X = Tiempo transcurrido desde la administración del medicamento Y = Temperatura del paciente Si el medicamento ha sido efectivo, ¿qué tipo de correlación existe entre estas dos variables, positiva o negativa?.

Solución: La correlación es negativa, porque al aumentar la variable tiempo (X), disminuye la temperatura (Y).

Ejercicio 14 Dos conjuntos de datos bidimensionales tienen como coeficiente de correlación r1 = −0,89 y r2 = 0,27 . ¿En cuál de los dos conjuntos es más fiable hacer estimaciones mediante la recta de regresión? ¿Por qué?

Solución: En el conjunto de datos que tiene coeficiente de correlación r1 = −0,89 porque la correlación es más fuerte.

Ejercicio15 Halla con la calculadora el coeficiente de correlación y la recta de regresión para los datos que aparecen en la siguiente tabla: x y

2 7

3 6

4 5

4 6

5 3

5 4

6 4

7 2

8 2

8 1

Solución: r = −0,95

y = 8,8 − 0,9 x

Ejercicio 16

| EJERCICIOS 25


+

Halla con la calculadora la recta de regresión y = A + Bx correspondiente a los datos siguientes: x y

1 3

2 4

3 3

4 5

5 2

6 4

¿Puedes estimar con fiabilidad cuánto valdrá y para x = 7?

Solución: y = 3,4 + 0,03 x

No se pueden hacer estimaciones con fiabilidad porque el coeficiente de correlación vale r = 0,05 (la correlación es muy débil)

Ejercicio 17 En un bar se hace un estudio para ver los refrescos que se venden en función de la temperatura que hace. Se han elegido 10 días del año al azar, y se han obtenido los siguientes resultados: Temperatura (x) Cantidad de refrescos (y)

12 23

28 64

11 20

32 70

35 79

9 14

25 61

16 25

7 12

23 58

Halla con la calculadora el coeficiente de correlación, la recta de regresión, y contesta si se puede predecir cuántos refrescos se venderán un día que haga 30º de temperatura.

Solución: Coeficiente de correlación: r = 0,986

Se pueden hacer estimaciones fiables, porque la correlación es muy fuerte. Recta de regresión: y = −7,6 + 2,5 x

Para x = 30 se obtiene y = 68 Se esperan vender 68 refrescos.

Ejercicio 18

Dada la siguiente distribución: X 2

2

2

4

7

7

10 10 | EJERCICIOS 26


+

Y 3 4 5 5 4 5 3 5 n 5 10 17 19 20 16 9 4 Determina la recta de regresión de Y sobre X. Estudia el grado de dependencia lineal entre las variables.

Ejercicio 19 Dada la siguiente distribución bidimensional, obtén la recta de regresión de Y/X. X/Y

2

4

6

3

2

3

5

4

0

1

0

5

3

1

1

Ejercicio 20 En el servicio central de turismo de un país se ha observado que el número de plazas hoteleras ocupadas es diferente según sea el precio de la habitación. Sobre el total de plazas ocupadas en un año se tiene:

(Hacer tabla) Precio (ptas./noche) 250

650

1000 1400 2100

Nº habitaciones ocupadas

4725 2610 1872 943

450

a) Representa gráficamente para comprobar que existe cierta dependencia lineal entre las variables. b) Halla la ecuación de la recta de regresión. ¿Cuántas habitaciones se llenarían a 1500 ptas.? c) En qué medida podemos considerar que el nivel de ocupación depende de la estructura de precios?

Ejercicio 21 La siguiente tabla muestra las distribuciones de frecuencias de las puntuaciones finales de 100 estudiantes en matemáticas y física: Física

Matemáticas 40-49

90-99

50-59 60-69 70-79 80-89 90-99 2

4

4

| EJERCICIOS 27


+

80-89

1

4

6

5

70-79

5

10

8

1

2

60-69

1

4

9

5

50-59

3

6

6

2

40-49

3

5

4

a) Número de alumnos que recibieron puntuación entre 70 y 79 en matemáticas y entre 80 y 89 en física. b) Porcentaje de estudiantes con puntuación en matemáticas inferior a 70. c) Porcentaje de que un estudiante obtenga 70 ó más puntos en física y menos de 80 en matemáticas. d) Porcentaje de estudiantes que aprobó al menos una de las dos asignaturas, suponiendo 60 la puntuación mínima para aprobar. e) Porcentaje de que un estudiante tenga aprobadas las dos asignaturas. f) Porcentaje de que un estudiante, que sabemos que tiene aprobada las matemáticas, tenga aprobada también física. g) Porcentaje de estudiantes que tienen aprobada matemáticas de entre los que tienen aprobada física. h) Sobre qué puntuación en física tendrá un estudiante del que sabemos que ha obtenido 86 puntos en matemáticas. i) Da una medida de la exactitud del resultado obtenido en h).

Ejercicio 22 Una empresa del sector cerámico realiza un estudio sobre los metros cuadrados vendidos de sus productos por agentes de ventas en plantilla y la antigüedad en la empresa de los mismos: Miles de Años de antigüedad m2 1 2 3 4 5 6 11-13

1

2

13-15

5

4

3

3

5

1

3

5

6

6

2

2

4

15-17 17-19

| EJERCICIOS 28


+

a) Se gratifica con 200.000 ptas. al agente que sobrepase 15.000 m2 vendidos en el año. Calcula los siguientes porcentajes: • • •

Agentes con gratificación y más de 4 años de antigüedad. Agentes con gratificación de entre los de más de 4 años. Agentes con más de 4 años de entre los gratificados.

b) Un agente tiene una antigüedad de 4 años 6 meses. Determina la cantidad que se espera que venda al año. c) Determina y comenta la fiabilidad del resultado anterior. d) Representación aproximada de las dos rectas de regresión (sin hacer nuevos cálculos). Justifica dicha representación. e) El sueldo base anual de un agente es de 900.000 ptas. fijas más 100 ptas. por m2 vendido. ¿Cuál es la media y la desviación típica del sueldo base? f) La paga extra es de 300.000 ptas., más 25.000 ptas. por año de antigüedad. ¿Cuál es la covarianza y el coeficiente de correlación entre “sueldo base” y “paga extra”? g) Recorrido intercuartílico de la variable “m2 vendidos”.

Ejercicio 23 6) Dados los siguientes datos: (Hacer tabla) xi

-2

-1

0

1

2

yi

4

1

0

1

4

Estudia si procede o no un ajuste lineal, de dos formas: gráficamente y mediante alguna medida descriptiva.

Ejercicio 24 Un determinado partido político se plantea el problema de hasta qué punto le pueden compensar los gastos de la campaña de propaganda para las futuras elecciones. En las últimas elecciones, los gastos de publicidad y el número de diputados elegidos han sido:

(Hacer tabla) Gastos en publicidad Diputados elegidos (en millones de ptas.) 1500

3

1750

4

3250

4

4000

6 | EJERCICIOS 29


+

5000

8

La comisión electoral está estudiando la posibilidad de un presupuesto de propaganda de diez millones de pesetas. a) ¿Cuál será el número de diputados que serían elegidos de ese partido de acuerdo con ese presupuesto, si la imagen del partido no varía respecto a las elecciones anteriores? b) ¿Con qué confianza se puede esperar ese resultado? c) ¿Cuál sería el porcentaje de causas diferentes a la publicidad que influirían en las elecciones?

Ejercicio 25 El volumen de ahorro y la renta del sector familias en billones de ptas. constantes de 1.977, para el período 77-86 fueron:

(Hacer tabla) Año

Ahorro Renta

77

1.9

20.5

78

1.8

20.8

79

2.0

21.2

80

2.1

21.7

81

1.9

22.1

82

2.0

22.3

83

2.2

22.2

84

2.3

22.6

85

2.7

23.1

86

3.0

23.5

a) Recta de regresión del ahorro sobre la renta. b) Recta de regresión de la renta sobre el ahorro. c) Para el año 87 se supone una renta de 24.1 billones de ptas. ¿Cuál será el ahorro esperado para el año 87? d) Estudia la fiabilidad de la predicción del apartado anterior.

Ejercicio 26 Estudia en cuáles de los siguientes casos los resultados ofrecidos son compatibles entre sí: | EJERCICIOS 30


+

a)

rxy = -0.3; y = 4x + 5

b)

σxy = 100; σy2 = 400; σx = 5; rxy = 1

c)

y = 9x - 4; rxy = 3

d)

y = 5x + 8; x = 5 y = -45; rxy = 0.2

e)

x = 2y - 8; x = y + 4; x = 16; y = 12

f) La recta de regresión de y sobre x es: y = 4x + 5, y que el coeficiente de correlación: rxy = -0.3 g)

σxy = 100; σx = 10; R2 = 1; σy2 = 400.

h) Se calculan las rectas de regresión (de y sobre x, y de x sobre y) y aunque no sabemos cuál es cuál tenemos: y = 5x + 8; y = (1/5)x + 9; rxy = 0.2 i) La recta de regresión y = 2x + 5 se ha calculado para estudiar la relación entre dos variables que cumplen: σxy = -1; σx2 = -0.5; x =1; y =7

Ejercicio 27 Sea una distribución bidimensional cuyas rectas de regresión son x + 4y = 1; x + 5y = 2. Obtén el coeficiente de determinación y comenta su significado.

Ejercicio 28 Un grupo de 10 amigos se ha presentado a una prueba de oposición. Anotaron el número de horas que dedicaron a estudiar la semana antes del examen y la nota obtenida en la prueba. La información se recoge en la siguiente tabla:

Representa los datos mediante una nube de puntos e indica cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,92; −0,44; −0,92; 0,44.

Ejercicio 29 Se ha realizado una encuesta preguntando por el número de personas que habitan el hogar familiar y el número de habitaciones que tiene la casa. La tabla siguiente recoge la información obtenida:

Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables? | EJERCICIOS 31


+

Ejercicio 30 Se ha analizado en distintos modelos de impresoras cuál es el coste por página (en céntimos de euro) en blanco y negro y cuál es el coste por página si esta es en color. La siguiente tabla nos da los seis primeros pares de datos obtenidos:

a) Halla la recta de regresión de Y sobre X. b) ¿Cuánto nos costaría imprimir una página en color en una impresora en la que el coste por página en blanco y negro fuera de 12 céntimos de euro? ¿Es fiable la estimación? (Sabemos que r = 0,97).

Ejercicio 31 La estatura, en centímetros, de seis chicos de la misma edad y la de sus padres viene recogida en la siguiente tabla:

a) Halla las dos rectas de regresión y represéntalas. b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 32 Se ha medido el número medio de horas de entrenamiento a la semana de un grupo de 10 atletas y el tiempo, en minutos, que han hecho en una carrera, obteniendo los siguientes resultados:

Representa los datos mediante una nube de puntos y di cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,71; −0,71; 0,45; −0,32.

Ejercicio 33 En seis modelos de zapatillas deportivas se ha estudiado el peso, en gramos, que tiene (para el número 42) y su precio, en euros. La información obtenida se recoge en esta tabla:

| EJERCICIOS 32


+

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Ejercicio 34 En seis institutos de la misma zona se ha estudiado la nota media de los estudiantes de 1º de bachillerato en Matemáticas y en Inglés, obteniéndose la información que se recoge en la siguiente tabla:

a) Halla la recta de regresión de Y sobre X. b) Calcula $y (5.5)¿Es fiable esta estimación sabiendo que r = 0.87?

Ejercicio 35 En una academia para aprender a conducir se han estudiado las semanas de asistencia a clase de sus alumnos y las semanas que tardan en aprobar el examen teórico (desde que se apuntaron a la autoescuela). Los datos correspondientes a seis alumnos son:

a) Halla las dos rectas de regresión y represéntalas. b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 36 Las notas de 10 alumnos y alumnas de una clase en Matemáticas y en Física han sido las siguientes:

Representa los datos mediante una nube de puntos y di cuál de estos valores te parece más apropiado para el coeficiente de correlación: 0,23; 0,94; −0,37; −0,94.

Ejercicio 37 Se ha medido la potencia (en kW) y el consumo (litros/100 km) de 6 modelos distintos de coches, obteniéndose los siguientes resultados:

| EJERCICIOS 33


+

Halla la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Ejercicio 38 Se ha medido el peso, en kilogramos, y el volumen, en litros, de distintos tipos de maletas, obteniendo los resultados que se recogen en esta tabla:

a) Halla la recta de regresión de Y sobre X. b) Calcula $y (solución 120) ¿Es fiable esta estimación sabiendo que r = 0.79?

Ejercicio 39 Un grupo de seis atletas ha realizado pruebas de salto de longitud y de altura. Las dos se han puntuado en una escala de 0 a 5. Los resultados obtenidos han sido los siguientes:

a) Halla las dos rectas de regresión y represéntalas. b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 40 Se han realizado unas pruebas de habilidad (puntúan de 0 a 5) en un grupo de alumnos. Las siguientes puntuaciones corresponden a las obtenidas por seis alumnos en dos de ellas:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las variables?

Ejercicio 41 Se ha estudiado en distintas marcas de yogures naturales el porcentaje de grasa que contenían, así como las kilocalorías por envase. Estos son los resultados obtenidos en seis de ellos:

a) Halla la recta de regresión de Y sobre X. | EJERCICIOS 34


+

b) Calcula $y (2.5) e $y (10) ¿Es fiable esta estimación sabiendo que r = 0.85?

Ejercicio 42 Se ha preguntado en seis familias por el número de hijos y el número medio de días que suelen ir al cine cada mes. Las respuestas han sido las siguientes:

a) Halla las dos rectas de regresión y represéntalas. b) Observando el grado de proximidad entre las dos rectas, ¿cómo crees que será la correlación entre las dos variables?

Ejercicio 43 En un reconocimiento médico a los niños de un colegio, se les ha pesado, en kilogramos, y se les ha medido, en centímetros. Aquí tienes los datos de los primeros seis niños:

Calcula la covarianza y el coeficiente de correlación. ¿Cómo es la relación entre las dos variables?

Ejercicio 44 En distintos modelos de aspiradores se ha medido el peso, en kilogramos, y la capacidad útil de la bolsa, en litros, obteniendo los siguientes resultados:

a) Halla la recta de regresión de Y sobre X. b) Calcula $y (6) ¿Es fiable esta estimación sabiendo que r = 0.85?

| EJERCICIOS 35


+

U⌀ℕℤℚ∊ℝℂℙℐΩ⇐⇒⇔⇏∊∉∈∅⇾≈≔⇎⇝≡ℤ≤≥≲≳≴≵≮≯∀⇒∊≠∅⊂⟇·∊∃ A⨯Bεαβηθλµξσφφδπεε

·∅U∩∪∼∿⊂⊃⊆⊇⊄⋂⋃⊅∧∨U⤳≮≠|∂∆√±∞ǀǁƟƩǃξχ∘6⊕⊗⊛⋅♫♯ ⨁⨂✘✔×

| EJERCICIOS 36


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.