Definición del área temática
Población y Muestra
Construcción del problema
Diseño de la investigación
Recolección de datos
Es la estrategia usada por el investigador para estudiar y formular el modelo que permita concretar el objetivo planeado. El proceso conlleva la estructuración de cualquier actividad, propósito, meta que impulse al investigador, un planteamiento concreto de toda la secuencia de etapas consideradas anteriormente dentro de un proceso racional de indagación.
Procesamiento de Datos
CIENTIFICO
Establecimiento de Objetivos
Formulación de la Teoría del problema
Análisis de datos
Síntesis y Conclusiones
INTUITIVO Inmediato
EMPÍRICO Basado en la experiencia
Proceso que busca la producción y comprobación del conocimiento mediante el “Método científico”.
El método científico es el conjunto de procedimientos racionales sistemáticos encaminados a encontrar una solución a un
problema. Implica aplicación de técnicas e instrumentos, válidos y confiables según el tipo de investigación y la ciencia o ciencias:
CATEGORÍAS
CARACTERÍSTICAS
• Enfoque: Cualitativo y Cuantitativo • Tipo de investigación: Descriptiva, experimental, histórica,correlacional. • Técnica: operaciones, procedimientos, métodos. • Instrumental: Materiales, herramientas y aparatos
• • • • •
Basado en hechos reales Regido por reglas metodológicas Depende de la verificación Empírica Auto correctivo y progresivo Conclusiones de tipo general
La recopilación y el análisis de datos es fundamental. Analizar los datos recopilados en experimentos implica elaborar un plan detallado que nos lleve a reunir información con un propósito específico.
Los métodos estadísticos están basados en la idea de analizar una muestra tomada de una población.
Ayudan a:
La manera como hemos operado el manejo de las variables es crucial para determinar el método para medirlas, resultando fundamental en las inferencias de los datos.
• Descubrir los principios que gobiernan el mundo físico y se aprende cómo diseñar nuevos productos y procesos importantes. • Describir procesos y fenómenos.
Los mejores métodos del muestreo implican el MUESTREO ALEATORIO.
• Dan validez y confiabilidad a los métodos experimentales. Una dificultad muy importante es que los datos se encuentran sujetos a variaciones aleatorias o incertidumbre.
Área de la cual son extraídos los datos. Representa la colección completa de elementos o resultados de la información buscada. También se puede llamar universo.
LA ESTADÍSTICA
se dedica a la recopilación, el análisis y la interpretación de datos con incertidumbre. Tipos: Descriptiva e Inferencial. La
idea
básica es inferir respecto de una población por medio del estudio de una muestra relativamente pequeña elegida.
Subconjunto de la población o universo que contiene elementos que realmente se observan, seleccionada de acuerdo a reglas o plan de muestreo. De forma general pueden ser Probabilísticas (Selección aleatoria) ó No probabilística (Selección intencional o definida por un criterio preestablecido)
Procedimiento por el cual se pueden obtener las características más evidentes de una muestra.
MUESTRA 1 En la estación de medición Solar en la Unidad de Posgrado UNAM se mide Radiación Global en la fachada Sur, se muestran 60 registros del día 3 de Diciembre 2016 con intervalo de medición de 15 minutos.
HORA N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
5:15:00 AM 5:30:00 AM 5:45:00 AM 6:00:00 AM 6:15:00 AM 6:30:00 AM 6:45:00 AM 7:00:00 AM 7:15:00 AM 7:30:00 AM 7:45:00 AM 8:00:00 AM 8:15:00 AM 8:30:00 AM 8:45:00 AM 9:00:00 AM 9:15:00 AM 9:30:00 AM 9:45:00 AM 10:00:00 AM 10:15:00 AM 10:30:00 AM 10:45:00 AM 11:00:00 AM 11:15:00 AM 11:30:00 AM 11:45:00 AM 12:00:00 PM 12:15:00 PM 12:30:00 PM
RADIACIÓN FACHADA SUR (W/m2) 0 0 0 0 0 0 1 5 107 185 253 305 350 386 426 462 489 514 534 553 577 589 604 621 634 648 668 666 677 675
HORA N° 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
12:45:00 PM 1:00:00 PM 1:15:00 PM 1:30:00 PM 1:45:00 PM 2:00:00 PM 2:15:00 PM 2:30:00 PM 2:45:00 PM 3:00:00 PM 3:15:00 PM 3:30:00 PM 3:45:00 PM 4:00:00 PM 4:15:00 PM 4:30:00 PM 4:45:00 PM 5:00:00 PM 5:15:00 PM 5:30:00 PM 5:45:00 PM 6:00:00 PM 6:15:00 PM 6:30:00 PM 6:45:00 PM 7:00:00 PM 7:15:00 PM 7:30:00 PM 7:45:00 PM 8:00:00 PM
RADIACIÓN FACHADA SUR (W/m2) 683 696 686 681 682 685 386 644 645 648 631 601 581 342 125 332 440 317 163 219 4 0 0 0 0 0 0 0 0 0
(MEDIA ARITMÉTICA O PROMEDIO) Suma de todos los números dividido entre la cantidad total de números
(6*0)+1+5+107+185+253+305+350+386+426+462+ 489+514+534+553+577+589+604+621+634+648+6 68+666+677+675+683+696+686+681+682+685+38 6+644+645+648+631+601+581+342+125+332+440 +317+163+219+4+(9*0) / 60
352
Cantidad que mide el grado de dispersión de una muestra. Cuando la dispersión es grande, los valores de la muestra tenderán a alejarse de su media. Cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.
Cálculo: 1.Calcular las distancias de cada valor de la muestra a la media de la muestra. Se trabajan con valores positivos, por lo que los datos se elevan al cuadrado para Eliminar números negativos. 2.Con los datos elevados al cuadrado se calcula la
varianza muestral:
Son los puntos más grandes o más pequeños que el resto contenido en una muestra. Siempre se deben examinar, encontrarlos es un error a corregir o eliminar.
No todos los datos atípicos son errores. No se deben eliminar, a menos que se tenga la seguridad de ser
1 6 0 + 1 + 5 + 107 59 + 253 + 305 + 350 + 386 + ⋯ + 332 + 440 + 317 + 219
+ 4
+9 0
+ 185
resultado de un error, sólo de esta manera se justifica su eliminación, de lo contrario se conservan. Si realmente existen datos atípicos y son eliminados, esta última no caracterizará correctamente la población.
+ 426 + 163
Atípico
60(352 )
(11943872 -7431422)/59
76482
Representa una medida de tendencia central de los datos.
La mediana es el número de en medio.
3. Sacar la raíz cuadrada de la varianza para obtener la
Desviación Estándar
Se usa también con frecuencia para muestras que contienen datos atípicos. Para calcularla¨: 1.Ordene los valores del más pequeño al más grande. 2.Encuentre la posición del número de en medio:
Para muestras (n)
76482
276.55
pares
(n +1)/2
Para muestras (n)
impares
n /2
N°
RADIACIÓN FACHADA SUR (W/m2)
1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
10
0
11
0
12
0
13
0
14
0
15
0
16
1
17
4
18
5
19
107
20
125
21
163
22
185
23
219
24
253
25
305
26
317
27
332
28
342
29
350
30
386
31
386
32
426
33
440
34
462
35
489
36
514
37
534
38
553
39
577
40
581
41
589
42
601
43
604
44
621
45
631
46
634
47
644
48
645
49
648
50
648
51
666
52
668
53
675
54
677
55
681
56
682
57
683
58
685
59
686
60
696
Posición=(n +1)/2
=(60 +1)/2 =30.5
Medida de tendencia central para que no se vea afectada por datos atípicos Se calcula: 1.Ordenar los valores de la muestra en orden. 2. “Recortar”/descartar un número igual de datos en cada extremo de la muestra. 3. Calcular la media de los restantes. Si los datos recortados se hacen con un porcentaje específico, la media recortada resultante se nombra: “media recortada un (valor de porcentaje)%”
3.Si la posición no da número entero, sacar el promedio de los Valores adyacentes: (386 +386)/2 Mediana=
386
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
RADIACIÓN FACHADA SUR (W/m2) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 4 5 107 125
N° 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
RADIACIÓN FACHADA SUR (W/m2) 163 185 219 253 305 317 332 342 350 386 386 426 440 462 489 514 534 553 577 581
N° 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
RADIACIÓN FACHADA SUR (W/m2) 589 601 604 621 631 634 644 645 648 648 666 668 675 677 681 682 683 685 686 696
Recortada un 11.6% =(8*0)+1+4+5+107+125+163+185+219+253… …+648+648+666+668+675/46= 355
El valor que mayor número de veces se repite en la muestra (Frecuencia). Si algunos valores tienen la misma frecuencia, cada uno representa una moda.
0 RADIACIÓN FACHADA SUR RADIACIÓN FACHADA SUR RADIACIÓN FACHADA SUR (W/m2) (W/m2) (W/m2)
Diferencia entre los valores más grandes y más pequeños de una muestra.
696-0=696 Dividen la muestra en cuartos: ¼, 2/4 y ¾
.
0
577
631
0
589
601
Primer cuartil
0
604
581
0
621
342
0.25(n +1)
0
634
125
0
648
332
1
668
440
5
666
317
107
677
163
185
675
219
253
683
4
305
696
0
350
686
0
386
681
0
426
682
0
462
685
0
489
386
0
514
644
0
534
645
0
553
648
0
0.25(60+1)= 15.25
Posición de las cantidades
Cuando es entero, el valor de la muestra en esa posición es el primer cuartil. Si no, se toma la posición resultante más el valor de la siguiente posición y se saca su promedio.
Segundo Cuartil (Idéntico a la Mediana)
0.5(n +1) 0.5(60+1)= 30.50 Tercer Cuartil
0.75(n +1) 0.75(60+1)= 45.75
N°
RADIACIÓN FACHADA SUR (W/m2)
1
0
2
0
3
0
4
0
5
0
6
0
7
0
8
0
9
0
10
0
11
0
12
0
13
0
14
0
15
0
16
1
17
4
18
5
19
107
20
125
21
163
22
185
23
219
24
253
25
305
26
317
27
332
28
342
29
350
30
386
31
386
32
426
33
440
34
462
35
489
36
514
37
534
38
553
39
577
40
581
41
589
42
601
43
604
44
621
45
631
46
634
47
644
48
645
49
648
50
648
51
666
52
668
53
675
54
677
55
681
56
682
57
683
58
685
59
686
60
696
Dividen la muestra tanto como sea posible entre 0 y 100. Se usan con frecuencia para interpretar puntajes de exámenes estandarizados.
Primer Cuartil
Posición 15.25 (0+1)/2=0.5
Valor del percentil (n+1)
n= 60, Se encuentra el 60vo percentil
(0.60)(60+1)= 36.6
Posición de las cantidades
Segundo Cuartil
Posición 30.50 (386+386)/2=386
60vo Percentil
Posición 36.6 (514+534)/2=524
Tercer Cuartil
Posición 45.75 (631+634)/2=632.5
A cada elemento de la muestra se le asigna una categoría en lugar de un valor numérico. Es necesario trabajar con datos categóricos y resúmenes numéricos. Las dos más comunes son
Frecuencias. Para cada categoría dada, es sólo el número de elementos de la muestra que cae dentro de esa categoría.
Proporciones Muestrales (Frecuencias relativas). Es la frecuencia dividida entre el tamaño de la muestra.
•
Muestra=60 Datos
• Categorías Valores Altos (465-696) Valores Medios (233-464) Valores Mínimos (0-232) • Frecuencias Valores Altos= 26 elementos Valores Medios= 11 elementos Valores Mínimos=23 elementos • Proporciones muestrales 26/60=0.433 11/60=0.183 23/60=0.383
Cada uno de los estadísticos de una muestra tiene una contraparte en la población. Cualquier resumen numérico que se usa para una muestra se puede usar para una población finita, con sólo aplicar los métodos de cálculo a los valores de la población en lugar de los valores de la muestra.
Los resúmenes numéricos de una muestra se llaman estadísticos. Los resúmenes numéricos de una población se llaman parámetros. En la práctica, nunca se observa toda la población por lo que los parámetros de la población no se pueden calcular directamente. En cambio, los estadísticos de la muestra se usan para calcular los valores de los parámetros de la población.
También puede ser obtenido mediante programas como Excel y Past 3
Permiten la visualización de datos y presentar información cuantitativa, siendo una herramienta para el análisis de datos. Se utilizan para el análisis general del comportamiento de la muestra, mostrando posibles tendencias y explicaciones iniciales.
MUESTRA 1
ordenada de forma ascendente
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 4 5 7 107 125 163 185 219 253 305 317 332 342 350 386 386 426 440 462 489 514 534 553 577 581 589 601 604 621 631 634 644 645 648 648 666 668 675 677 681 682 683 685 686 696
TALLO
La Gráfica de tallo y hojas constituye una forma simple de resumir un conjunto de datos., tiene la cualidad de exhibir todos los valores de la muestra. Se divide en dos partes:
0
HOJAS 000000000000000
1 4
1. Tallo, que consta de uno o dos dígitos que están en el extremo izquierdo. 2. Hoja, que constan del siguiente digito significativo. Exhiben todos los valores de la muestra.
5
El orden en el cual se muestrearon los elementos no se puede determinar
100
7 25 63 85
200
19 53
300
5 17 32 42 50 86 86
400
26 40 62 89
500
14 34 53 77 81 89
600
1 4 21 31 34 44 45 48 48 66 68 75 77 81 82 83 85 86 96
Gráfico que se puede usar para tener una impresión aproximada de la forma de una muestra. Útil cuando el tamaño de la muestra no es demasiado grande y cuando contiene valores repetidos. Da buena indicación de dónde se concentran los valores de una muestra y separaciones. Rara vez se presentan en presentaciones formales.
0
100
200
300
400
500
600
700
Gráfico que da una idea de la forma de una muestra, indicando puntos de concentración y escases de datos. Existen diferentes tipos. Para realizarlo: 1. Elija puntos límite de intervalos de clase 2. Calcular frecuencias (número de veces que aparece un valor) y frecuencias relativas (Es el cociente entre la frecuencia y el tamaño de la muestra). 3. Calcular densidad para cada clase. :
= 4. Dibuje un rectángulo para cada clase, cuya altura sea igual a la densidad. Los histogramas pueden ser simétricos, datos distribuidos igualmente a la derecha e izquierda ó sesgados , cuando tienen cierta tendencia, pueden ser positivos o negativos. Bimodales y multimodales Cuando las modas se repiten más frecuente en la muestra. Cómo obtenerlo en el programa Past3
Gráfica que incluye la mediana, el primer y tercer cuartil, y cualquier dato atípico que se presente en una muestra. Es útil par identificar la proporción de los datos de la muestra, visualiza los datos atípicos presentes y la concentración de datos entre los cuartiles. El IQR representa la distancia necesaria para atravesar la mitad de los datos de en medio (primer y tercer cuartil).
Representan gráficamente a datos bivariados o multivariados (datos para cada elemento que constan de dos o más variables respectivamente). Muestra gráficamente la correlación de variables mostrando los comportamientos entre ellas. La relación puede ser directa o inversamente proporcional cuando son lineales. Puntos más dispersos, menor correlación de variables. Útiles en la generación de modelos de predicción de comportamiento.
Radiación Total Fachada Sur (W/m2)
Cualquier punto que está a más de 1.5 IQR por arriba del tercer cuartil o por debajo del primer cuartil, se considera un dato atípico.
350 300 250 200 150 100 50 0 0
200
400
600
800
Radiación Global Horizontal (w/m2)
Obteción de Gráfico en Excel realizada con muestras de Julio 2016 (muestra 2)
1000
Son una descripción aproximada de los sistemas y fenómenos. Ayudan a explicación o predicción del comportamiento de los mismos. La generación de modelos tiene los siguientes procesos: • Observación: Observar un fenómeno de la realidad, identificar las variables que intervienen.
•
Las propiedades de los modelos son semejantes a los del mundo real, pero ninguno podrá ser un réplica exacta de su contraparte real.
No hay modelos ciertos o falsos, correctos o verdaderos, en su caso pueden ser: Consistentes, correspondientes, concordantes, compatibles.
Mediciones para describir el fenómeno de manera cuantitativa.
• Correlación. Relacionar las variables observadas de los fenómenos. Se utiliza para explicar la influencia que puede tener una variable con otra. • Calibración. Comparar varias muestras entre sí o realizar muestreos más exactos para darle más precisión a un modelo u obtención de nuevos. • Selección del modelo. Evaluación de los modelos para seleccionar el más útil en la predicción de determinado fenómeno. La selección está en la validez, bondad del modelo y comparación entre modelos que describen el mismo comportamiento en las mismas condiciones. Se pueden dividir en: • Según su comportamiento de las relaciones de las variables: lineales, cuadráticos, regresión múltiple, logarítmicos,etc. • Número de variables que contienen: Dos variables o multivareados.
Procedimiento para determinar la naturaleza de la relación entre dos variables. Útil cuando los experimentos generan datos bivariados o cuando se quiere establecer algún tipo de relación entre dos variables. Al graficar los pares ordenados que se generan en un experimento científico, se encontrarán aproximadamente a lo largo de una línea recta.
( ) Este valor se refiere al nivel de variables.
correlación existente entre dos
Los valores de r siempre estarán entre -1 y 1. Mientras más cerca de estos dos valores, mejor correlación. Si los valores resultan positivos, indica que la recta tiene pendiente positiva (inclinada a la derecha) y las variables son directamente proporcionales (si una aumenta o , la otra también lo hace).
Cuando los valores son negativos, la pendiente de la recta es negativa (inclinada a la izquierda)y sus valores son inversamente proporcionales.
El coeficiente de correlación permite establecer correlaciones aún cuando las unidades de las variables son diferentes. El coeficiente R sólo es utilizable cuando la relación entre “x “ y “y” es lineal. En relaciones cuadráticas este coeficiente no funciona.
Pueden distorsionar el coeficiente R enormemente, especialmente en conjunto de datos pequeños. La corrección o eliminación de datos atípicos debe estar justificada adecuadamente. A si mismo, interpretar muestras con datos atípicos puede ser difícil, pues hay pocas reglas fáciles de seguir.
MUESTRA 2
Las muestras de Radiación Solar Global Horizontal y Radiación Solar Global Vertical en fachada Sur, registrados en la Unidad de Posgrado UNAM; servirán para el desarrollo de un modelo que estime la radiación en la fachada Sur a partir de la Radiación Horizontal. Los datos (465) fueron registrados el mes de Julio del año 2016 y presentados en formato horario en un rango de 5:00 a.m.-8:00p.m.
N°
Radiación Global Horizontal
Radiación Total Fachada Sur
N°
Radiación Global Horizontal
1
0
0
94
207
2
0
0
95
331
3
9
6
96
447
4
68
41
97
522
5
167
111
98
6
172
121
7
288
8
Radiación Total Fachada Sur
N°
Radiación Global Horizontal
Radiación Total Fachada Sur
N°
Radiación Global Horizontal
Radiación Total Fachada Sur
N°
Radiación Global Horizontal
Radiación Total Fachada Sur
75
187
559
168
280
93
188
580
191
281
128
189
529
220
282
80
64
373
156
75
180 85
115
374
29
35
57
375
0
149
190
587
217
283
0
19
16
376
0
572
158
191
172
99
284
22
14
377
0
99
605
184
192
116
0
73
285
2
1
378
60
38
127
100
164
126
193
104
74
286
0
0
379
166
94
0
593
173
101
121
95
194
61
50
287
0
0
380
372
157
9
633
213
102
124
81
195
0
0
288
71
39
381
421
157
10
31
25
103
164
88
196
0
0
289
83
70
382
543
159
11
130
110
104
42
31
197
0
0
290
91
81
383
567
184
12
140
68
105
2
0
198
57
48
291
251
175
384
594
200
13
11
8
106
0
0
199
223
123
292
580
189
385
604
211
14
6
5
107
0
1
200
196
105
293
676
173
386
248
151
15
0
0
108
86
43
201
398
213
294
765
254
387
345
163
16
0
0
109
212
72
202
306
180
295
178
120
388
112
86
17
1
1
110
327
97
203
188
157
296
30
24
389
21
39
18
93
48
111
442
124
204
431
249
297
64
51
390
1
0
19
100
71
112
537
146
205
244
190
298
14
14
391
0
20
375
120
113
582
160
206
374
187
299
2
0
392
0
0
21
475
150
114
639
182
207
116
106
300
0
0
393
24
21
22
559
195
115
542
195
208
34
47
301
0
0
394
200
92
23
231
191
116
113
102
209
22
15
302
0
0
395
346
113
24
376
226
117
148
104
210
0
1
303
26
21
396
471
168
25
641
204
118
46
30
211
0
0
304
91
73
397
541
219
26
575
190
119
6
10
212
0
0
305
113
84
398
267
178
27
419
159
120
2
3
213
29
28
306
491
190
399
204
179
28
74
55
121
0
0
214
239
117
307
579
223
400
493
244
29
27
23
122
0
1
215
341
106
308
451
227
401
131
92
30
2
0
123
62
41
216
429
126
309
157
153
402
22
12
31
0
0
124
232
95
217
538
160
310
744
302
403
13
12
32
0
1
125
207
101
218
480
172
311
161
101
404
17
11
33
93
39
126
505
164
219
521
172
312
76
94
405
2
3
34
219
72
127
592
173
220
636
254
313
25
19
406
0
35
370
112
128
614
180
221
173
128
314
21
11
407
0
1
36
506
167
129
650
193
222
60
52
315
3
2
408
20
17
37
422
174
130
616
172
223
209
113
316
0
0
409
202
72
38
318
168
131
585
173
224
66
41
317
0
0
410
347
113
39
572
166
132
414
153
225
5
5
318
57
48
411
446
143
40
622
191
133
68
54
226
0
0
319
72
59
412
519
183
41
546
199
134
19
24
227
0
0
320
167
124
413
366
204
42
131
81
135
5
5
228
72
47
321
204
165
414
657
261
43
86
61
136
0
0
229
66
41
322
603
197
415
86
62
44
2
1
137
3
3
230
344
139
323
187
146
416
42
53
45
1
0
138
64
42
231
459
136
324
626
193
417
54
44
46
0
0
139
208
86
232
531
159
325
662
236
418
32
26
0
0
47
1
1
140
321
120
233
273
141
326
123
121
419
35
32
48
63
39
141
488
202
234
212
154
327
31
25
420
6
5
49
136
79
142
410
207
235
204
154
328
14
21
421
0
50
331
105
143
587
233
236
416
173
329
5
5
422
0
0
51
410
150
144
573
242
237
206
127
330
4
3
423
23
21
52
397
155
145
479
227
238
3
5
331
0
0
424
194
67
53
519
160
146
426
207
239
4
0
332
0
425
334
96
54
517
166
147
163
121
240
0
0
333
76
41
426
455
119
55
516
216
148
77
72
241
0
0
334
207
68
427
584
152
56
132
97
149
61
62
242
1
335
346
106
428
606
148
57
56
39
150
0
0
243
24
23
336
610
226
429
101
88
58
21
17
151
0
0
244
112
66
337
158
122
430
622
212
59
38
30
152
0
0
245
339
99
338
330
191
431
521
178
60
1
3
153
30
28
246
460
151
339
283
172
432
127
95
61
0
0
154
142
93
247
577
205
340
275
154
433
69
78
62
1
1
155
476
207
248
241
168
341
503
164
434
4
6
63
28
19
156
504
213
249
225
184
342
392
138
435
0
0
64
111
49
157
58
41
250
134
97
343
312
125
436
0
65
389
130
158
71
65
251
91
82
344
85
50
437
0
0
66
468
135
159
112
57
252
383
154
345
4
3
438
50
32
67
562
139
160
68
55
253
38
43
346
0
0
439
46
43
68
589
145
161
142
110
254
1
1
347
0
440
328
126
69
648
176
162
100
79
255
2
3
348
62
38
441
468
198
70
84
93
163
94
66
256
0
0
349
200
69
442
556
223
71
96
73
164
39
28
257
0
1
350
332
95
443
662
239
72
424
144
165
3
3
258
20
16
351
442
122
444
729
268
73
124
76
166
0
0
259
73
51
352
543
146
445
220
176
74
11
5
167
0
0
260
321
87
353
579
171
446
214
151
75
0
0
168
18
14
261
458
113
354
643
207
447
594
245
76
0
0
169
69
50
262
557
162
355
150
135
448
180
102
77
1
1
170
160
111
263
601
169
356
142
131
449
3
0
78
41
29
171
152
97
264
635
184
357
45
28
450
0
0
79
216
70
172
162
132
265
606
214
358
37
32
451
0
80
381
116
173
219
147
266
512
197
359
36
20
452
0
0
81
457
130
174
329
224
267
414
155
360
2
1
453
47
36
82
588
189
175
297
198
268
14
33
361
0
0
454
197
86
83
672
198
176
621
221
269
4
6
362
0
455
86
86
84
387
187
177
197
131
270
0
1
363
12
11
456
237
180
85
110
102
178
73
56
271
0
0
364
181
99
457
586
290
86
32
14
179
44
35
272
0
365
237
133
458
492
290
87
17
32
180
0
0
273
47
37
366
513
202
459
511
282
88
40
39
181
0
0
274
214
117
367
506
180
460
87
73
89
22
17
182
0
0
275
101
94
368
221
124
461
152
108
90
1
2
183
74
45
276
203
140
369
652
235
462
193
104
91
0
0
0
0
0
0
0
0
0
0
184
81
59
277
592
184
370
243
141
463
12
3
92
1
2
185
103
86
278
262
178
371
508
201
464
27
15
93
75
44
186
229
152
279
118
99
372
139
84
465
3
1
Cálculo de
R:
MUESTRA 2 FECHA
N°
HORA
Radiación Global Horizontal
Radiación Total Fachada Sur
7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 … 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16
1 2 3 4 5 6 7 … 458 459 460 461 462 463 464 465
5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM 11:59:00 AM … 12:59:00 PM 1:59:00 PM 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
0 0 9 68 167 172 288 … 492 511 87 152 193 12 27 3
0 0 6 41 111 121 127 … 290 282 73 108 104 3 15 1
213.033951 219.094442
-0.9723 -0.9723 -0.9322 -0.6638 -0.2094 -0.1854 0.3409 … 1.2747 1.3601 -0.5732 -0.2798 -0.0927 -0.9179 -0.8491 -0.9571
-1.1859 -1.1859 -1.1084 -0.6563 0.2480 0.3771 0.4547 … 2.5603 2.4569 -0.2429 0.2092 0.1575 -1.1472 -0.9922 -1.1730
1.1531 1.1531 1.0333 0.4356 -0.0519 -0.0699 0.1550 … 3.2636 3.3417 0.1392 -0.0585 -0.0146 1.0530 0.8425 1.1226
91.8043011
Sumatoria
422.2710
77.4116458
R= 422.2710/464
0.9101
y = 0.3215x + 23.303
Puede pronosticar el comportamiento de la variable dependiente (en caso de no contar con valores medios mediante la experimentación). Establece conexiones sobre el comportamiento de la relación entre ambas variables.
350 Radiación Total Fachada Sur (W/m2)
Establece el grado de relación existente entre las variables. Define el nivel de influencia de la variable dependiente sobre la independiente.
300 250 200 150 100 50 0 0
200
400
600
800
1000
Radiación Global Horizontal (w/m2)
Cuando las variables tienen una relación lineal, el diagrama de dispersión se agrupa alrededor de una línea recta de minimos cuadrados denominado como MODELO LINEAL. Modelos lineales con sólo una variable independiente , se les llama MODELOS DE REGRESIÓN LINEAL SIMPLE.
VARIABLE DEPENDENTE
COEFICIENTES DE REGRESIÓN O MINIMOS CUADRADOS
VARIABLE INDEPENDENTE
ERROR
Si no hubiera error en la medición, los puntos se encontrarían en una línea recta con pendiente e intercepto . Debido al error, estos se pueden estimar al calcular la recta de los mínimos cuadrados nombrándose y .
MUESTRA 2 FECHA
N°
HORA
Radiación Global Horizontal
7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 … 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16
1 2 3 4 5 6 … 459 460 461 462 463 464 465
5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 1:59:00 PM 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
0 0 9 68 167 172 … 511 87 152 193 12 27 3
0 0 6 41 111 121 … 282 73 108 104 3 15 1
213
92
MODELO A JUSTADO
Radiación Total Fachada Sur
Y= 23.303+0.3215 x
-213 -213 -204 -145 -46 -41 … 298 -126 -61 -20 -201 -186 -210
-92 -92 -86 -51 19 29 … 190 -19 16 12 -89 -77 -91
Sumatoria
19557.433 19557.433 17525.385 7388.267 -880.810 -1185.668 … 56677.517 2361.344 -993.009 -247.646 17859.090 14288.812 19040.380
45383.464 45383.464 41717.377 21148.728 2105.509 1649.257 … 88801.48781 15769.0052 3759.300624 412.3327112 40443.68052 34611.56074 43968.16979
7161911.036
22273101.87
7161911.036/22273101.87
0.3215
92(0.3215*213)
23.303
Cuando se tiene más de un modelo para un mismo fenómeno o prueba se realiza un proceso de comparación de la “bondad” y ajuste del modelo a los valores observados o medidos. OBSERVACIÓN EXPERIMENTO
MODELO 1
COMPARACIÓN
MODELO 2
VALIDACIÓN
MUESTRAS
Es el grado de “precisión” del modelo respecto al sistema de observación, es decir, qué tan bien el modelo obtenido se ajusta a los datos de los cuales fue creado. Para ello se utiliza el
ELECCIÓN
Es el coeficiente de correlación elevado al cuadrado.
La elección depende si el modelo es lo suficientemente “bueno” (preciso) para los propósitos de la investigación y el nivel que se busca.
MUESTRA 2 Retomando los valores del modelo ajustado
N° 1 2 3 4 5 … 461 462 463 464 465
Radiación Global Radiación Total Horizontal Fachada Sur (
0 0 9 68 167 … 152 193 12 27 3
COEFICIENTE DE DETERMINACIÓN
0 0 6 41 111 … 108 104 3 15 1
0.3215 0.3215 0.3215 0.3215 0.3215 … 0.3215 0.3215 0.3215 0.3215 0.3215
23.303 23.303 23.303 23.303 23.303 … 23.303 23.303 23.303 23.303 23.303
Valor de Y ajustado = 23.303+0.3215
)
23.303 23.303 26.128 45.043 77.050 … 72.089 85.275 27.139 31.983 24.380
8428.030 8428.030 7362.378 2581.077 368.475 … 262.301 148.735 7886.204 5898.901 8245.421
543.043 543.043 405.148 16.343 1152.621 … 1289.594 350.629 582.675 288.408 546.617
Sumatoria
2780549.191
477638.264
(2780549.191-477638.264)/2780549.191
0.828
N°
Radiación Global Horizontal
1 2 3 4 5 6 … 459 460 461 462 463 464 465
0 0 9 68 167 172 … 511 87 152 193 12 27 3
Raíz del promedio de las diferencias cuadráticas entre los valores
Radiación Valor de Y Residuo Total F. Sur ajustado
Residuo al Cuadrado
modelados y los valores reales (observados) divididos entre la media de los valores observados expresado como porcentaje.
El residuo representa la diferencia entre el valor observado en los datos y el valor ajustado pronosticado por la recta de mínimos cuadrados. Éste es la distancia vertical del punto a la recta.
0 0 6 41 111 121 … 282 73 108 104 3 15 1
23.303 23.303 26.128 45.043 77.050 78.746 … 187.625 51.426 72.089 85.275 27.139 31.983 24.380
-23 -23 -20 -4 34 42 … 94 22 36 19 -24 -17 -23
Media Raíz de la Media
REMC
543.043 543.043 405.148 16.343 1152.621 1785.415 8906.682 465.447 1289.594 350.629 582.675 288.408 546.617 1027.179 32.050
34.911
(GRÁFICA DE RESIDUOS) Diagnóstico para la regresión de los mínimos cuadrados donde se grafican los residuos contra los valores ajustados. En esta gráfica la media de los residuos y la correlación entre los residuos y los valores ajustados es 0. Por tanto, la recta de mínimos cuadrados es horizontal, pasando a través del 0 sobre el eje vertical.
. El modelo lineal es adecuado cuando presenta un Diagrama de dispersión HOMOSCEDÁSTICO: • • •
No existe un patrón importante No existe una curva en la gráfica La dispersión vertical no varía demasiado de la dispersión horizontal, excepto quizá cerca de los bordes.
El modelo es inadecuado, cuando presenta un Diagrama de dispersion HETEROSCEDÁSTICO: Defecto serio.
MODELO 1 (Y= 23.303+0.3215 x) (TRANSFORMACIÓN DE POTENCIA) Si el modelo lineal tuvo una gráfica de residuos HETEROSCEDÁSTICA, o presenta una tendencia o patrón, a veces se puede arreglar elevando X, Y o ambos a una potencia.
La gráfica de dispersión del Modelo 1 es Heroscedástica. Se procede a transformar sus potencias para intentar mejorarlo.
1 2 3 4 5 6 … 460 461 462 463 464 465
HORA 5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
Y Radiación Total Fachada Sur 0 0 6 41 111 121 … 73 108 104 3 15 1
X-Y 350
Radiación Total Fachada Sur
N°
X Radiación Global Horizontal 0 0 9 68 167 172 … 87 152 193 12 27 3
y = 0.3215x + 23.303 R² = 0.8282 REMC=34.91
300 250 200 150 100 50 0 0
200
400
600
Radiación Global Horizontal
800
1000
Elevando Y al cuadrado
1 2 3 4 5 6 … 460 461 462 463 464 465
HORA 5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
Y Radiación Total Fachada Sur 0 0 36 1681 12321 14641 … 5329 11664 10816 9 225 1
X-Y2 Radiación Total Fachada Sur
N°
X Radiación Global Horizontal 0 0 9 68 167 172 … 87 152 193 12 27 3
100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0
y = 69.372x - 370.95 R² = 0.758 REMC=59.542
0
200
400
600
800
1000
Radiación Global Horizontal
Elevando X al cuadrado
N° 1 2 3 4 5 6 … 460 461 462 463 464 465
HORA 5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
Radiación Global Horizontal 0 0 81 4624 27889 29584 … 7569 23104 37249 144 729 9
Y Radiación Total Fachada Sur 0 0 6 41 111 121 … 73 108 104 3 15 1
X2-Y Radiación Total Fachada Sur
X
350 300 250 200 150
y = 0.0005x + 47.66 R² = 0.6676 REMC=48.562
100 50 0 0
100000
200000 300000 400000 500000
Radiación Global Horizontal
600000 700000
Residuos de elevar Y al cuadrado N°
HORA
Valor Ajustado Y
1 2 3 4 5 6 … 460 461 462 463 464 465
5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
-370.95 -370.95 238.53 4319.15 11224.45 11590.37 … 5696.27 10154.23 12998.97 456.51 1501.55 -138.69
Residuo Y 370.95 370.95 -202.53 -2638.15 1096.55 3050.63 -367.27 1509.77 -2182.97 -447.51 -1276.55 139.69
Residuos de elevar X al cuadrado N°
HORA
1 2 3 4 5 6 … 460 461 462 463 464 465
5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM
Valor Ajustado -36246.00 -36246.00 78036.90 49.97 61.60 62.45 … 51.44 59.21 66.28 47.73 48.02 47.66
Residuo 36246.00 36246.00 -78030.90 -8.97 49.40 58.55 … 21.56 48.79 37.72 -44.73 -33.02 -46.66
La Gráfica de Residuos , el valor de R2 y REMC siguen siendo mejores en el modelo inicial. Cuando elevar potencias no funciona y las gráficas siguen mostrando tendencias, puede deberse a la influencia de una variable no considerada, por lo que se puede probar una regresión múltiple.
Usado cuando un fenómeno está definido por más de dos variables que interactúan en conjunto. Se tiene una muestra de n elementos, y para cada uno se ha medido una variable dependiente y y p variables independientes X1,…Xp.
N°
Radiación Radiación Global Total Fachada Horizontal Sur (GHI) (SUR)
Radiación Difusa Horizontal (DHI)
Radiación Directa Horizontal (DNI)
Angulo de Incidencia en Fachada Sur (AOIS)
Parámetro Brillantes de Cielo (FS)
Aproximación a Difusa de Cielo (YS)
1
0
0
0
0
117.53
0
0
2
0
0
1
0
112.55
0
2
3
9
6
88
17
107.74
0
15
4 5
68
41
97
6
103.30
0
81
167
111
295
113
99.49
0
126
6
172
121
359
135
96.52
0
155
…
…
…
…
…
…
…
…
87
73
190
8
90.69
0
92
461
152
108
104
0
93.33
0
139
462
193
104
159
15
96.89
0
36
463
12
3
9
0
101.17
0
6
464
27
15
10
0
105.91
0
12
465
3
1
0
0
110.82
0
0
Utilizando el programa Minitab
Para la MUESTRA 2 se han agregado los siguientes 5 variables/parámetros para generar un modelo de regresión múltiple
REMC=22.806%
El desempeño del modelo de regresión múltiple mostró mejores resultados que los modelos generados anteriormente, por lo que se puede establecer como el más compatible con las mediciones reales.
Las variables independientes son potencias de una sola variable.
La ecuación de regresión polinomial expresa de manera más certera el comportamiento de los datos comparado con la ecuación lineal.
60 50
Resistencia
MUESTRA 3
y = -0.0202x2 + 2.2063x - 13.349 R² = 0.9702
CARBON
RESISTENCIA
CARBON
RESISTENCIA
40
10
3
30
36
12
8
35
37
30
14
12
40
40
15
18
45
44
20
18
25
50
45
22
28
55
46
25
30
60
49
28
32
Ecuación Modelo Lineal y = 0.8323x + 4.7313 R² = 0.8756
10 0 0
10
20
30
40
50
60
70
Carbón
(MODELO CUADRÁTICO)
Los modelos también se pueden hacer con potencias de diversas variables. En este caso: en dos variables X1 y X2
Los diagnosticos utilizados en la regresión lineal simple también son útiles para la regresión lineal múltiple: Gráfica de residuos vs valores ajustados Las de probabilidad normal de residuos
Las de residuos contra el orden de observaciones. Gráficas de residuos vs cada una de las variables independientes.
El procedimiento para la obtención del análisis estadístico presentado puede realizarse de forma más rápida, sobre todo si se trabajan con grandes cantidades de datos, mediante diferentes programas especializados. Entre los que se pueden encontrar:
Trabaja con hojas de cálculo, estableciendo relaciones entre las variables y un menú para distintos tipos de gráficos.
La diferencia de Past3 y Minitab con Excel, es que los datos ya tienen que estar previamente trabajados y depurados. De estos programas, en Excel se puede calcular el REMC de modelos.