Manual estadística

Page 1


Definición del área temática

Población y Muestra

Construcción del problema

Diseño de la investigación

Recolección de datos

Es la estrategia usada por el investigador para estudiar y formular el modelo que permita concretar el objetivo planeado. El proceso conlleva la estructuración de cualquier actividad, propósito, meta que impulse al investigador, un planteamiento concreto de toda la secuencia de etapas consideradas anteriormente dentro de un proceso racional de indagación.

Procesamiento de Datos

CIENTIFICO

Establecimiento de Objetivos

Formulación de la Teoría del problema

Análisis de datos

Síntesis y Conclusiones

INTUITIVO Inmediato

EMPÍRICO Basado en la experiencia

Proceso que busca la producción y comprobación del conocimiento mediante el “Método científico”.

El método científico es el conjunto de procedimientos racionales sistemáticos encaminados a encontrar una solución a un

problema. Implica aplicación de técnicas e instrumentos, válidos y confiables según el tipo de investigación y la ciencia o ciencias:

CATEGORÍAS

CARACTERÍSTICAS

• Enfoque: Cualitativo y Cuantitativo • Tipo de investigación: Descriptiva, experimental, histórica,correlacional. • Técnica: operaciones, procedimientos, métodos. • Instrumental: Materiales, herramientas y aparatos

• • • • •

Basado en hechos reales Regido por reglas metodológicas Depende de la verificación Empírica Auto correctivo y progresivo Conclusiones de tipo general


La recopilación y el análisis de datos es fundamental. Analizar los datos recopilados en experimentos implica elaborar un plan detallado que nos lleve a reunir información con un propósito específico.

Los métodos estadísticos están basados en la idea de analizar una muestra tomada de una población.

Ayudan a:

La manera como hemos operado el manejo de las variables es crucial para determinar el método para medirlas, resultando fundamental en las inferencias de los datos.

• Descubrir los principios que gobiernan el mundo físico y se aprende cómo diseñar nuevos productos y procesos importantes. • Describir procesos y fenómenos.

Los mejores métodos del muestreo implican el MUESTREO ALEATORIO.

• Dan validez y confiabilidad a los métodos experimentales. Una dificultad muy importante es que los datos se encuentran sujetos a variaciones aleatorias o incertidumbre.

Área de la cual son extraídos los datos. Representa la colección completa de elementos o resultados de la información buscada. También se puede llamar universo.

LA ESTADÍSTICA

se dedica a la recopilación, el análisis y la interpretación de datos con incertidumbre. Tipos: Descriptiva e Inferencial. La

idea

básica es inferir respecto de una población por medio del estudio de una muestra relativamente pequeña elegida.

Subconjunto de la población o universo que contiene elementos que realmente se observan, seleccionada de acuerdo a reglas o plan de muestreo. De forma general pueden ser Probabilísticas (Selección aleatoria) ó No probabilística (Selección intencional o definida por un criterio preestablecido)


Procedimiento por el cual se pueden obtener las características más evidentes de una muestra.

MUESTRA 1 En la estación de medición Solar en la Unidad de Posgrado UNAM se mide Radiación Global en la fachada Sur, se muestran 60 registros del día 3 de Diciembre 2016 con intervalo de medición de 15 minutos.

HORA N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

5:15:00 AM 5:30:00 AM 5:45:00 AM 6:00:00 AM 6:15:00 AM 6:30:00 AM 6:45:00 AM 7:00:00 AM 7:15:00 AM 7:30:00 AM 7:45:00 AM 8:00:00 AM 8:15:00 AM 8:30:00 AM 8:45:00 AM 9:00:00 AM 9:15:00 AM 9:30:00 AM 9:45:00 AM 10:00:00 AM 10:15:00 AM 10:30:00 AM 10:45:00 AM 11:00:00 AM 11:15:00 AM 11:30:00 AM 11:45:00 AM 12:00:00 PM 12:15:00 PM 12:30:00 PM

RADIACIÓN FACHADA SUR (W/m2) 0 0 0 0 0 0 1 5 107 185 253 305 350 386 426 462 489 514 534 553 577 589 604 621 634 648 668 666 677 675

HORA N° 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

12:45:00 PM 1:00:00 PM 1:15:00 PM 1:30:00 PM 1:45:00 PM 2:00:00 PM 2:15:00 PM 2:30:00 PM 2:45:00 PM 3:00:00 PM 3:15:00 PM 3:30:00 PM 3:45:00 PM 4:00:00 PM 4:15:00 PM 4:30:00 PM 4:45:00 PM 5:00:00 PM 5:15:00 PM 5:30:00 PM 5:45:00 PM 6:00:00 PM 6:15:00 PM 6:30:00 PM 6:45:00 PM 7:00:00 PM 7:15:00 PM 7:30:00 PM 7:45:00 PM 8:00:00 PM

RADIACIÓN FACHADA SUR (W/m2) 683 696 686 681 682 685 386 644 645 648 631 601 581 342 125 332 440 317 163 219 4 0 0 0 0 0 0 0 0 0

(MEDIA ARITMÉTICA O PROMEDIO) Suma de todos los números dividido entre la cantidad total de números

(6*0)+1+5+107+185+253+305+350+386+426+462+ 489+514+534+553+577+589+604+621+634+648+6 68+666+677+675+683+696+686+681+682+685+38 6+644+645+648+631+601+581+342+125+332+440 +317+163+219+4+(9*0) / 60

352

Cantidad que mide el grado de dispersión de una muestra. Cuando la dispersión es grande, los valores de la muestra tenderán a alejarse de su media. Cuando la dispersión es pequeña, los valores tenderán a acercarse a su media.


Cálculo: 1.Calcular las distancias de cada valor de la muestra a la media de la muestra. Se trabajan con valores positivos, por lo que los datos se elevan al cuadrado para Eliminar números negativos. 2.Con los datos elevados al cuadrado se calcula la

varianza muestral:

Son los puntos más grandes o más pequeños que el resto contenido en una muestra. Siempre se deben examinar, encontrarlos es un error a corregir o eliminar.

No todos los datos atípicos son errores. No se deben eliminar, a menos que se tenga la seguridad de ser

1 6 0 + 1 + 5 + 107 59 + 253 + 305 + 350 + 386 + ⋯ + 332 + 440 + 317 + 219

+ 4

+9 0

+ 185

resultado de un error, sólo de esta manera se justifica su eliminación, de lo contrario se conservan. Si realmente existen datos atípicos y son eliminados, esta última no caracterizará correctamente la población.

+ 426 + 163

Atípico

60(352 )

(11943872 -7431422)/59

76482

Representa una medida de tendencia central de los datos.

La mediana es el número de en medio.

3. Sacar la raíz cuadrada de la varianza para obtener la

Desviación Estándar

Se usa también con frecuencia para muestras que contienen datos atípicos. Para calcularla¨: 1.Ordene los valores del más pequeño al más grande. 2.Encuentre la posición del número de en medio:

Para muestras (n)

76482

276.55

pares

(n +1)/2

Para muestras (n)

impares

n /2


RADIACIÓN FACHADA SUR (W/m2)

1

0

2

0

3

0

4

0

5

0

6

0

7

0

8

0

9

0

10

0

11

0

12

0

13

0

14

0

15

0

16

1

17

4

18

5

19

107

20

125

21

163

22

185

23

219

24

253

25

305

26

317

27

332

28

342

29

350

30

386

31

386

32

426

33

440

34

462

35

489

36

514

37

534

38

553

39

577

40

581

41

589

42

601

43

604

44

621

45

631

46

634

47

644

48

645

49

648

50

648

51

666

52

668

53

675

54

677

55

681

56

682

57

683

58

685

59

686

60

696

Posición=(n +1)/2

=(60 +1)/2 =30.5

Medida de tendencia central para que no se vea afectada por datos atípicos Se calcula: 1.Ordenar los valores de la muestra en orden. 2. “Recortar”/descartar un número igual de datos en cada extremo de la muestra. 3. Calcular la media de los restantes. Si los datos recortados se hacen con un porcentaje específico, la media recortada resultante se nombra: “media recortada un (valor de porcentaje)%”

3.Si la posición no da número entero, sacar el promedio de los Valores adyacentes: (386 +386)/2 Mediana=

386

N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

RADIACIÓN FACHADA SUR (W/m2) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 4 5 107 125

N° 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

RADIACIÓN FACHADA SUR (W/m2) 163 185 219 253 305 317 332 342 350 386 386 426 440 462 489 514 534 553 577 581

N° 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60

RADIACIÓN FACHADA SUR (W/m2) 589 601 604 621 631 634 644 645 648 648 666 668 675 677 681 682 683 685 686 696

Recortada un 11.6% =(8*0)+1+4+5+107+125+163+185+219+253… …+648+648+666+668+675/46= 355


El valor que mayor número de veces se repite en la muestra (Frecuencia). Si algunos valores tienen la misma frecuencia, cada uno representa una moda.

0 RADIACIÓN FACHADA SUR RADIACIÓN FACHADA SUR RADIACIÓN FACHADA SUR (W/m2) (W/m2) (W/m2)

Diferencia entre los valores más grandes y más pequeños de una muestra.

696-0=696 Dividen la muestra en cuartos: ¼, 2/4 y ¾

.

0

577

631

0

589

601

Primer cuartil

0

604

581

0

621

342

0.25(n +1)

0

634

125

0

648

332

1

668

440

5

666

317

107

677

163

185

675

219

253

683

4

305

696

0

350

686

0

386

681

0

426

682

0

462

685

0

489

386

0

514

644

0

534

645

0

553

648

0

0.25(60+1)= 15.25

Posición de las cantidades

Cuando es entero, el valor de la muestra en esa posición es el primer cuartil. Si no, se toma la posición resultante más el valor de la siguiente posición y se saca su promedio.

Segundo Cuartil (Idéntico a la Mediana)

0.5(n +1) 0.5(60+1)= 30.50 Tercer Cuartil

0.75(n +1) 0.75(60+1)= 45.75


RADIACIÓN FACHADA SUR (W/m2)

1

0

2

0

3

0

4

0

5

0

6

0

7

0

8

0

9

0

10

0

11

0

12

0

13

0

14

0

15

0

16

1

17

4

18

5

19

107

20

125

21

163

22

185

23

219

24

253

25

305

26

317

27

332

28

342

29

350

30

386

31

386

32

426

33

440

34

462

35

489

36

514

37

534

38

553

39

577

40

581

41

589

42

601

43

604

44

621

45

631

46

634

47

644

48

645

49

648

50

648

51

666

52

668

53

675

54

677

55

681

56

682

57

683

58

685

59

686

60

696

Dividen la muestra tanto como sea posible entre 0 y 100. Se usan con frecuencia para interpretar puntajes de exámenes estandarizados.

Primer Cuartil

Posición 15.25 (0+1)/2=0.5

Valor del percentil (n+1)

n= 60, Se encuentra el 60vo percentil

(0.60)(60+1)= 36.6

Posición de las cantidades

Segundo Cuartil

Posición 30.50 (386+386)/2=386

60vo Percentil

Posición 36.6 (514+534)/2=524

Tercer Cuartil

Posición 45.75 (631+634)/2=632.5

A cada elemento de la muestra se le asigna una categoría en lugar de un valor numérico. Es necesario trabajar con datos categóricos y resúmenes numéricos. Las dos más comunes son

Frecuencias. Para cada categoría dada, es sólo el número de elementos de la muestra que cae dentro de esa categoría.

Proporciones Muestrales (Frecuencias relativas). Es la frecuencia dividida entre el tamaño de la muestra.


Muestra=60 Datos

• Categorías Valores Altos (465-696) Valores Medios (233-464) Valores Mínimos (0-232) • Frecuencias Valores Altos= 26 elementos Valores Medios= 11 elementos Valores Mínimos=23 elementos • Proporciones muestrales 26/60=0.433 11/60=0.183 23/60=0.383

Cada uno de los estadísticos de una muestra tiene una contraparte en la población. Cualquier resumen numérico que se usa para una muestra se puede usar para una población finita, con sólo aplicar los métodos de cálculo a los valores de la población en lugar de los valores de la muestra.

Los resúmenes numéricos de una muestra se llaman estadísticos. Los resúmenes numéricos de una población se llaman parámetros. En la práctica, nunca se observa toda la población por lo que los parámetros de la población no se pueden calcular directamente. En cambio, los estadísticos de la muestra se usan para calcular los valores de los parámetros de la población.

También puede ser obtenido mediante programas como Excel y Past 3


Permiten la visualización de datos y presentar información cuantitativa, siendo una herramienta para el análisis de datos. Se utilizan para el análisis general del comportamiento de la muestra, mostrando posibles tendencias y explicaciones iniciales.

MUESTRA 1

ordenada de forma ascendente

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 4 5 7 107 125 163 185 219 253 305 317 332 342 350 386 386 426 440 462 489 514 534 553 577 581 589 601 604 621 631 634 644 645 648 648 666 668 675 677 681 682 683 685 686 696

TALLO

La Gráfica de tallo y hojas constituye una forma simple de resumir un conjunto de datos., tiene la cualidad de exhibir todos los valores de la muestra. Se divide en dos partes:

0

HOJAS 000000000000000

1 4

1. Tallo, que consta de uno o dos dígitos que están en el extremo izquierdo. 2. Hoja, que constan del siguiente digito significativo. Exhiben todos los valores de la muestra.

5

El orden en el cual se muestrearon los elementos no se puede determinar

100

7 25 63 85

200

19 53

300

5 17 32 42 50 86 86

400

26 40 62 89

500

14 34 53 77 81 89

600

1 4 21 31 34 44 45 48 48 66 68 75 77 81 82 83 85 86 96

Gráfico que se puede usar para tener una impresión aproximada de la forma de una muestra. Útil cuando el tamaño de la muestra no es demasiado grande y cuando contiene valores repetidos. Da buena indicación de dónde se concentran los valores de una muestra y separaciones. Rara vez se presentan en presentaciones formales.

0

100

200

300

400

500

600

700


Gráfico que da una idea de la forma de una muestra, indicando puntos de concentración y escases de datos. Existen diferentes tipos. Para realizarlo: 1. Elija puntos límite de intervalos de clase 2. Calcular frecuencias (número de veces que aparece un valor) y frecuencias relativas (Es el cociente entre la frecuencia y el tamaño de la muestra). 3. Calcular densidad para cada clase. :

= 4. Dibuje un rectángulo para cada clase, cuya altura sea igual a la densidad. Los histogramas pueden ser simétricos, datos distribuidos igualmente a la derecha e izquierda ó sesgados , cuando tienen cierta tendencia, pueden ser positivos o negativos. Bimodales y multimodales Cuando las modas se repiten más frecuente en la muestra. Cómo obtenerlo en el programa Past3


Gráfica que incluye la mediana, el primer y tercer cuartil, y cualquier dato atípico que se presente en una muestra. Es útil par identificar la proporción de los datos de la muestra, visualiza los datos atípicos presentes y la concentración de datos entre los cuartiles. El IQR representa la distancia necesaria para atravesar la mitad de los datos de en medio (primer y tercer cuartil).

Representan gráficamente a datos bivariados o multivariados (datos para cada elemento que constan de dos o más variables respectivamente). Muestra gráficamente la correlación de variables mostrando los comportamientos entre ellas. La relación puede ser directa o inversamente proporcional cuando son lineales. Puntos más dispersos, menor correlación de variables. Útiles en la generación de modelos de predicción de comportamiento.

Radiación Total Fachada Sur (W/m2)

Cualquier punto que está a más de 1.5 IQR por arriba del tercer cuartil o por debajo del primer cuartil, se considera un dato atípico.

350 300 250 200 150 100 50 0 0

200

400

600

800

Radiación Global Horizontal (w/m2)

Obteción de Gráfico en Excel realizada con muestras de Julio 2016 (muestra 2)

1000


Son una descripción aproximada de los sistemas y fenómenos. Ayudan a explicación o predicción del comportamiento de los mismos. La generación de modelos tiene los siguientes procesos: • Observación: Observar un fenómeno de la realidad, identificar las variables que intervienen.

Las propiedades de los modelos son semejantes a los del mundo real, pero ninguno podrá ser un réplica exacta de su contraparte real.

No hay modelos ciertos o falsos, correctos o verdaderos, en su caso pueden ser: Consistentes, correspondientes, concordantes, compatibles.

Mediciones para describir el fenómeno de manera cuantitativa.

• Correlación. Relacionar las variables observadas de los fenómenos. Se utiliza para explicar la influencia que puede tener una variable con otra. • Calibración. Comparar varias muestras entre sí o realizar muestreos más exactos para darle más precisión a un modelo u obtención de nuevos. • Selección del modelo. Evaluación de los modelos para seleccionar el más útil en la predicción de determinado fenómeno. La selección está en la validez, bondad del modelo y comparación entre modelos que describen el mismo comportamiento en las mismas condiciones. Se pueden dividir en: • Según su comportamiento de las relaciones de las variables: lineales, cuadráticos, regresión múltiple, logarítmicos,etc. • Número de variables que contienen: Dos variables o multivareados.

Procedimiento para determinar la naturaleza de la relación entre dos variables. Útil cuando los experimentos generan datos bivariados o cuando se quiere establecer algún tipo de relación entre dos variables. Al graficar los pares ordenados que se generan en un experimento científico, se encontrarán aproximadamente a lo largo de una línea recta.

( ) Este valor se refiere al nivel de variables.

correlación existente entre dos

Los valores de r siempre estarán entre -1 y 1. Mientras más cerca de estos dos valores, mejor correlación. Si los valores resultan positivos, indica que la recta tiene pendiente positiva (inclinada a la derecha) y las variables son directamente proporcionales (si una aumenta o , la otra también lo hace).


Cuando los valores son negativos, la pendiente de la recta es negativa (inclinada a la izquierda)y sus valores son inversamente proporcionales.

El coeficiente de correlación permite establecer correlaciones aún cuando las unidades de las variables son diferentes. El coeficiente R sólo es utilizable cuando la relación entre “x “ y “y” es lineal. En relaciones cuadráticas este coeficiente no funciona.

Pueden distorsionar el coeficiente R enormemente, especialmente en conjunto de datos pequeños. La corrección o eliminación de datos atípicos debe estar justificada adecuadamente. A si mismo, interpretar muestras con datos atípicos puede ser difícil, pues hay pocas reglas fáciles de seguir.

MUESTRA 2

Las muestras de Radiación Solar Global Horizontal y Radiación Solar Global Vertical en fachada Sur, registrados en la Unidad de Posgrado UNAM; servirán para el desarrollo de un modelo que estime la radiación en la fachada Sur a partir de la Radiación Horizontal. Los datos (465) fueron registrados el mes de Julio del año 2016 y presentados en formato horario en un rango de 5:00 a.m.-8:00p.m.

Radiación Global Horizontal

Radiación Total Fachada Sur

Radiación Global Horizontal

1

0

0

94

207

2

0

0

95

331

3

9

6

96

447

4

68

41

97

522

5

167

111

98

6

172

121

7

288

8

Radiación Total Fachada Sur

Radiación Global Horizontal

Radiación Total Fachada Sur

Radiación Global Horizontal

Radiación Total Fachada Sur

Radiación Global Horizontal

Radiación Total Fachada Sur

75

187

559

168

280

93

188

580

191

281

128

189

529

220

282

80

64

373

156

75

180 85

115

374

29

35

57

375

0

149

190

587

217

283

0

19

16

376

0

572

158

191

172

99

284

22

14

377

0

99

605

184

192

116

0

73

285

2

1

378

60

38

127

100

164

126

193

104

74

286

0

0

379

166

94

0

593

173

101

121

95

194

61

50

287

0

0

380

372

157

9

633

213

102

124

81

195

0

0

288

71

39

381

421

157

10

31

25

103

164

88

196

0

0

289

83

70

382

543

159

11

130

110

104

42

31

197

0

0

290

91

81

383

567

184

12

140

68

105

2

0

198

57

48

291

251

175

384

594

200

13

11

8

106

0

0

199

223

123

292

580

189

385

604

211

14

6

5

107

0

1

200

196

105

293

676

173

386

248

151

15

0

0

108

86

43

201

398

213

294

765

254

387

345

163

16

0

0

109

212

72

202

306

180

295

178

120

388

112

86

17

1

1

110

327

97

203

188

157

296

30

24

389

21

39

18

93

48

111

442

124

204

431

249

297

64

51

390

1

0

19

100

71

112

537

146

205

244

190

298

14

14

391

0

20

375

120

113

582

160

206

374

187

299

2

0

392

0

0

21

475

150

114

639

182

207

116

106

300

0

0

393

24

21

22

559

195

115

542

195

208

34

47

301

0

0

394

200

92

23

231

191

116

113

102

209

22

15

302

0

0

395

346

113

24

376

226

117

148

104

210

0

1

303

26

21

396

471

168

25

641

204

118

46

30

211

0

0

304

91

73

397

541

219

26

575

190

119

6

10

212

0

0

305

113

84

398

267

178

27

419

159

120

2

3

213

29

28

306

491

190

399

204

179

28

74

55

121

0

0

214

239

117

307

579

223

400

493

244

29

27

23

122

0

1

215

341

106

308

451

227

401

131

92

30

2

0

123

62

41

216

429

126

309

157

153

402

22

12

31

0

0

124

232

95

217

538

160

310

744

302

403

13

12

32

0

1

125

207

101

218

480

172

311

161

101

404

17

11

33

93

39

126

505

164

219

521

172

312

76

94

405

2

3

34

219

72

127

592

173

220

636

254

313

25

19

406

0

35

370

112

128

614

180

221

173

128

314

21

11

407

0

1

36

506

167

129

650

193

222

60

52

315

3

2

408

20

17

37

422

174

130

616

172

223

209

113

316

0

0

409

202

72

38

318

168

131

585

173

224

66

41

317

0

0

410

347

113

39

572

166

132

414

153

225

5

5

318

57

48

411

446

143

40

622

191

133

68

54

226

0

0

319

72

59

412

519

183

41

546

199

134

19

24

227

0

0

320

167

124

413

366

204

42

131

81

135

5

5

228

72

47

321

204

165

414

657

261

43

86

61

136

0

0

229

66

41

322

603

197

415

86

62

44

2

1

137

3

3

230

344

139

323

187

146

416

42

53

45

1

0

138

64

42

231

459

136

324

626

193

417

54

44

46

0

0

139

208

86

232

531

159

325

662

236

418

32

26

0

0

47

1

1

140

321

120

233

273

141

326

123

121

419

35

32

48

63

39

141

488

202

234

212

154

327

31

25

420

6

5

49

136

79

142

410

207

235

204

154

328

14

21

421

0

50

331

105

143

587

233

236

416

173

329

5

5

422

0

0

51

410

150

144

573

242

237

206

127

330

4

3

423

23

21

52

397

155

145

479

227

238

3

5

331

0

0

424

194

67

53

519

160

146

426

207

239

4

0

332

0

425

334

96

54

517

166

147

163

121

240

0

0

333

76

41

426

455

119

55

516

216

148

77

72

241

0

0

334

207

68

427

584

152

56

132

97

149

61

62

242

1

335

346

106

428

606

148

57

56

39

150

0

0

243

24

23

336

610

226

429

101

88

58

21

17

151

0

0

244

112

66

337

158

122

430

622

212

59

38

30

152

0

0

245

339

99

338

330

191

431

521

178

60

1

3

153

30

28

246

460

151

339

283

172

432

127

95

61

0

0

154

142

93

247

577

205

340

275

154

433

69

78

62

1

1

155

476

207

248

241

168

341

503

164

434

4

6

63

28

19

156

504

213

249

225

184

342

392

138

435

0

0

64

111

49

157

58

41

250

134

97

343

312

125

436

0

65

389

130

158

71

65

251

91

82

344

85

50

437

0

0

66

468

135

159

112

57

252

383

154

345

4

3

438

50

32

67

562

139

160

68

55

253

38

43

346

0

0

439

46

43

68

589

145

161

142

110

254

1

1

347

0

440

328

126

69

648

176

162

100

79

255

2

3

348

62

38

441

468

198

70

84

93

163

94

66

256

0

0

349

200

69

442

556

223

71

96

73

164

39

28

257

0

1

350

332

95

443

662

239

72

424

144

165

3

3

258

20

16

351

442

122

444

729

268

73

124

76

166

0

0

259

73

51

352

543

146

445

220

176

74

11

5

167

0

0

260

321

87

353

579

171

446

214

151

75

0

0

168

18

14

261

458

113

354

643

207

447

594

245

76

0

0

169

69

50

262

557

162

355

150

135

448

180

102

77

1

1

170

160

111

263

601

169

356

142

131

449

3

0

78

41

29

171

152

97

264

635

184

357

45

28

450

0

0

79

216

70

172

162

132

265

606

214

358

37

32

451

0

80

381

116

173

219

147

266

512

197

359

36

20

452

0

0

81

457

130

174

329

224

267

414

155

360

2

1

453

47

36

82

588

189

175

297

198

268

14

33

361

0

0

454

197

86

83

672

198

176

621

221

269

4

6

362

0

455

86

86

84

387

187

177

197

131

270

0

1

363

12

11

456

237

180

85

110

102

178

73

56

271

0

0

364

181

99

457

586

290

86

32

14

179

44

35

272

0

365

237

133

458

492

290

87

17

32

180

0

0

273

47

37

366

513

202

459

511

282

88

40

39

181

0

0

274

214

117

367

506

180

460

87

73

89

22

17

182

0

0

275

101

94

368

221

124

461

152

108

90

1

2

183

74

45

276

203

140

369

652

235

462

193

104

91

0

0

0

0

0

0

0

0

0

0

184

81

59

277

592

184

370

243

141

463

12

3

92

1

2

185

103

86

278

262

178

371

508

201

464

27

15

93

75

44

186

229

152

279

118

99

372

139

84

465

3

1


Cálculo de

R:

MUESTRA 2 FECHA

HORA

Radiación Global Horizontal

Radiación Total Fachada Sur

7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 … 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16

1 2 3 4 5 6 7 … 458 459 460 461 462 463 464 465

5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM 11:59:00 AM … 12:59:00 PM 1:59:00 PM 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

0 0 9 68 167 172 288 … 492 511 87 152 193 12 27 3

0 0 6 41 111 121 127 … 290 282 73 108 104 3 15 1

213.033951 219.094442

-0.9723 -0.9723 -0.9322 -0.6638 -0.2094 -0.1854 0.3409 … 1.2747 1.3601 -0.5732 -0.2798 -0.0927 -0.9179 -0.8491 -0.9571

-1.1859 -1.1859 -1.1084 -0.6563 0.2480 0.3771 0.4547 … 2.5603 2.4569 -0.2429 0.2092 0.1575 -1.1472 -0.9922 -1.1730

1.1531 1.1531 1.0333 0.4356 -0.0519 -0.0699 0.1550 … 3.2636 3.3417 0.1392 -0.0585 -0.0146 1.0530 0.8425 1.1226

91.8043011

Sumatoria

422.2710

77.4116458

R= 422.2710/464

0.9101


y = 0.3215x + 23.303

Puede pronosticar el comportamiento de la variable dependiente (en caso de no contar con valores medios mediante la experimentación). Establece conexiones sobre el comportamiento de la relación entre ambas variables.

350 Radiación Total Fachada Sur (W/m2)

Establece el grado de relación existente entre las variables. Define el nivel de influencia de la variable dependiente sobre la independiente.

300 250 200 150 100 50 0 0

200

400

600

800

1000

Radiación Global Horizontal (w/m2)

Cuando las variables tienen una relación lineal, el diagrama de dispersión se agrupa alrededor de una línea recta de minimos cuadrados denominado como MODELO LINEAL. Modelos lineales con sólo una variable independiente , se les llama MODELOS DE REGRESIÓN LINEAL SIMPLE.

VARIABLE DEPENDENTE

COEFICIENTES DE REGRESIÓN O MINIMOS CUADRADOS

VARIABLE INDEPENDENTE

ERROR


Si no hubiera error en la medición, los puntos se encontrarían en una línea recta con pendiente e intercepto . Debido al error, estos se pueden estimar al calcular la recta de los mínimos cuadrados nombrándose y .

MUESTRA 2 FECHA

HORA

Radiación Global Horizontal

7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 7/1/16 … 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16 7/31/16

1 2 3 4 5 6 … 459 460 461 462 463 464 465

5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 1:59:00 PM 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

0 0 9 68 167 172 … 511 87 152 193 12 27 3

0 0 6 41 111 121 … 282 73 108 104 3 15 1

213

92

MODELO A JUSTADO

Radiación Total Fachada Sur

Y= 23.303+0.3215 x

-213 -213 -204 -145 -46 -41 … 298 -126 -61 -20 -201 -186 -210

-92 -92 -86 -51 19 29 … 190 -19 16 12 -89 -77 -91

Sumatoria

19557.433 19557.433 17525.385 7388.267 -880.810 -1185.668 … 56677.517 2361.344 -993.009 -247.646 17859.090 14288.812 19040.380

45383.464 45383.464 41717.377 21148.728 2105.509 1649.257 … 88801.48781 15769.0052 3759.300624 412.3327112 40443.68052 34611.56074 43968.16979

7161911.036

22273101.87

7161911.036/22273101.87

0.3215

92(0.3215*213)

23.303


Cuando se tiene más de un modelo para un mismo fenómeno o prueba se realiza un proceso de comparación de la “bondad” y ajuste del modelo a los valores observados o medidos. OBSERVACIÓN EXPERIMENTO

MODELO 1

COMPARACIÓN

MODELO 2

VALIDACIÓN

MUESTRAS

Es el grado de “precisión” del modelo respecto al sistema de observación, es decir, qué tan bien el modelo obtenido se ajusta a los datos de los cuales fue creado. Para ello se utiliza el

ELECCIÓN

Es el coeficiente de correlación elevado al cuadrado.

La elección depende si el modelo es lo suficientemente “bueno” (preciso) para los propósitos de la investigación y el nivel que se busca.

MUESTRA 2 Retomando los valores del modelo ajustado

N° 1 2 3 4 5 … 461 462 463 464 465

Radiación Global Radiación Total Horizontal Fachada Sur (

0 0 9 68 167 … 152 193 12 27 3

COEFICIENTE DE DETERMINACIÓN

0 0 6 41 111 … 108 104 3 15 1

0.3215 0.3215 0.3215 0.3215 0.3215 … 0.3215 0.3215 0.3215 0.3215 0.3215

23.303 23.303 23.303 23.303 23.303 … 23.303 23.303 23.303 23.303 23.303

Valor de Y ajustado = 23.303+0.3215

)

23.303 23.303 26.128 45.043 77.050 … 72.089 85.275 27.139 31.983 24.380

8428.030 8428.030 7362.378 2581.077 368.475 … 262.301 148.735 7886.204 5898.901 8245.421

543.043 543.043 405.148 16.343 1152.621 … 1289.594 350.629 582.675 288.408 546.617

Sumatoria

2780549.191

477638.264

(2780549.191-477638.264)/2780549.191

0.828


Radiación Global Horizontal

1 2 3 4 5 6 … 459 460 461 462 463 464 465

0 0 9 68 167 172 … 511 87 152 193 12 27 3

Raíz del promedio de las diferencias cuadráticas entre los valores

Radiación Valor de Y Residuo Total F. Sur ajustado

Residuo al Cuadrado

modelados y los valores reales (observados) divididos entre la media de los valores observados expresado como porcentaje.

El residuo representa la diferencia entre el valor observado en los datos y el valor ajustado pronosticado por la recta de mínimos cuadrados. Éste es la distancia vertical del punto a la recta.

0 0 6 41 111 121 … 282 73 108 104 3 15 1

23.303 23.303 26.128 45.043 77.050 78.746 … 187.625 51.426 72.089 85.275 27.139 31.983 24.380

-23 -23 -20 -4 34 42 … 94 22 36 19 -24 -17 -23

Media Raíz de la Media

REMC

543.043 543.043 405.148 16.343 1152.621 1785.415 8906.682 465.447 1289.594 350.629 582.675 288.408 546.617 1027.179 32.050

34.911


(GRÁFICA DE RESIDUOS) Diagnóstico para la regresión de los mínimos cuadrados donde se grafican los residuos contra los valores ajustados. En esta gráfica la media de los residuos y la correlación entre los residuos y los valores ajustados es 0. Por tanto, la recta de mínimos cuadrados es horizontal, pasando a través del 0 sobre el eje vertical.

. El modelo lineal es adecuado cuando presenta un Diagrama de dispersión HOMOSCEDÁSTICO: • • •

No existe un patrón importante No existe una curva en la gráfica La dispersión vertical no varía demasiado de la dispersión horizontal, excepto quizá cerca de los bordes.

El modelo es inadecuado, cuando presenta un Diagrama de dispersion HETEROSCEDÁSTICO: Defecto serio.


MODELO 1 (Y= 23.303+0.3215 x) (TRANSFORMACIÓN DE POTENCIA) Si el modelo lineal tuvo una gráfica de residuos HETEROSCEDÁSTICA, o presenta una tendencia o patrón, a veces se puede arreglar elevando X, Y o ambos a una potencia.

La gráfica de dispersión del Modelo 1 es Heroscedástica. Se procede a transformar sus potencias para intentar mejorarlo.

1 2 3 4 5 6 … 460 461 462 463 464 465

HORA 5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

Y Radiación Total Fachada Sur 0 0 6 41 111 121 … 73 108 104 3 15 1

X-Y 350

Radiación Total Fachada Sur

X Radiación Global Horizontal 0 0 9 68 167 172 … 87 152 193 12 27 3

y = 0.3215x + 23.303 R² = 0.8282 REMC=34.91

300 250 200 150 100 50 0 0

200

400

600

Radiación Global Horizontal

800

1000


Elevando Y al cuadrado

1 2 3 4 5 6 … 460 461 462 463 464 465

HORA 5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

Y Radiación Total Fachada Sur 0 0 36 1681 12321 14641 … 5329 11664 10816 9 225 1

X-Y2 Radiación Total Fachada Sur

X Radiación Global Horizontal 0 0 9 68 167 172 … 87 152 193 12 27 3

100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0

y = 69.372x - 370.95 R² = 0.758 REMC=59.542

0

200

400

600

800

1000

Radiación Global Horizontal

Elevando X al cuadrado

N° 1 2 3 4 5 6 … 460 461 462 463 464 465

HORA 5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

Radiación Global Horizontal 0 0 81 4624 27889 29584 … 7569 23104 37249 144 729 9

Y Radiación Total Fachada Sur 0 0 6 41 111 121 … 73 108 104 3 15 1

X2-Y Radiación Total Fachada Sur

X

350 300 250 200 150

y = 0.0005x + 47.66 R² = 0.6676 REMC=48.562

100 50 0 0

100000

200000 300000 400000 500000

Radiación Global Horizontal

600000 700000


Residuos de elevar Y al cuadrado N°

HORA

Valor Ajustado Y

1 2 3 4 5 6 … 460 461 462 463 464 465

5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

-370.95 -370.95 238.53 4319.15 11224.45 11590.37 … 5696.27 10154.23 12998.97 456.51 1501.55 -138.69

Residuo Y 370.95 370.95 -202.53 -2638.15 1096.55 3050.63 -367.27 1509.77 -2182.97 -447.51 -1276.55 139.69

Residuos de elevar X al cuadrado N°

HORA

1 2 3 4 5 6 … 460 461 462 463 464 465

5:59:00 AM 6:59:00 AM 7:59:00 AM 8:59:00 AM 9:59:00 AM 10:59:00 AM … 2:59:00 PM 3:59:00 PM 4:59:00 PM 5:59:00 PM 6:59:00 PM 7:59:00 PM

Valor Ajustado -36246.00 -36246.00 78036.90 49.97 61.60 62.45 … 51.44 59.21 66.28 47.73 48.02 47.66

Residuo 36246.00 36246.00 -78030.90 -8.97 49.40 58.55 … 21.56 48.79 37.72 -44.73 -33.02 -46.66

La Gráfica de Residuos , el valor de R2 y REMC siguen siendo mejores en el modelo inicial. Cuando elevar potencias no funciona y las gráficas siguen mostrando tendencias, puede deberse a la influencia de una variable no considerada, por lo que se puede probar una regresión múltiple.


Usado cuando un fenómeno está definido por más de dos variables que interactúan en conjunto. Se tiene una muestra de n elementos, y para cada uno se ha medido una variable dependiente y y p variables independientes X1,…Xp.

Radiación Radiación Global Total Fachada Horizontal Sur (GHI) (SUR)

Radiación Difusa Horizontal (DHI)

Radiación Directa Horizontal (DNI)

Angulo de Incidencia en Fachada Sur (AOIS)

Parámetro Brillantes de Cielo (FS)

Aproximación a Difusa de Cielo (YS)

1

0

0

0

0

117.53

0

0

2

0

0

1

0

112.55

0

2

3

9

6

88

17

107.74

0

15

4 5

68

41

97

6

103.30

0

81

167

111

295

113

99.49

0

126

6

172

121

359

135

96.52

0

155

87

73

190

8

90.69

0

92

461

152

108

104

0

93.33

0

139

462

193

104

159

15

96.89

0

36

463

12

3

9

0

101.17

0

6

464

27

15

10

0

105.91

0

12

465

3

1

0

0

110.82

0

0

Utilizando el programa Minitab

Para la MUESTRA 2 se han agregado los siguientes 5 variables/parámetros para generar un modelo de regresión múltiple


REMC=22.806%

El desempeño del modelo de regresión múltiple mostró mejores resultados que los modelos generados anteriormente, por lo que se puede establecer como el más compatible con las mediciones reales.


Las variables independientes son potencias de una sola variable.

La ecuación de regresión polinomial expresa de manera más certera el comportamiento de los datos comparado con la ecuación lineal.

60 50

Resistencia

MUESTRA 3

y = -0.0202x2 + 2.2063x - 13.349 R² = 0.9702

CARBON

RESISTENCIA

CARBON

RESISTENCIA

40

10

3

30

36

12

8

35

37

30

14

12

40

40

15

18

45

44

20

18

25

50

45

22

28

55

46

25

30

60

49

28

32

Ecuación Modelo Lineal y = 0.8323x + 4.7313 R² = 0.8756

10 0 0

10

20

30

40

50

60

70

Carbón

(MODELO CUADRÁTICO)

Los modelos también se pueden hacer con potencias de diversas variables. En este caso: en dos variables X1 y X2

Los diagnosticos utilizados en la regresión lineal simple también son útiles para la regresión lineal múltiple:  Gráfica de residuos vs valores ajustados  Las de probabilidad normal de residuos

 Las de residuos contra el orden de observaciones.  Gráficas de residuos vs cada una de las variables independientes.


El procedimiento para la obtención del análisis estadístico presentado puede realizarse de forma más rápida, sobre todo si se trabajan con grandes cantidades de datos, mediante diferentes programas especializados. Entre los que se pueden encontrar:

Trabaja con hojas de cálculo, estableciendo relaciones entre las variables y un menú para distintos tipos de gráficos.

La diferencia de Past3 y Minitab con Excel, es que los datos ya tienen que estar previamente trabajados y depurados. De estos programas, en Excel se puede calcular el REMC de modelos.



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.