Revista Comunicaciones en Estadística Vol. 6 No. 2

Page 1

τ Editorial

JORGE IVÁN VÉLEZ & JUAN CARLOS CORREA Una prueba de independencia completa basada en la FDR Vol. 6, N.o 2, julio-diciembre de 2013

CRISTIAN FERNANDO TÉLLEZ & VÍCTOR IGNACIO LÓPEZ RÍOS Propuesta para aumentar los puntos experimentales en diseños D-óptimos bayesianos DANNA LESLEY CRUZ REYES Cópulas en geoestadística o lo que se puede hacer con coordenadas y estructuras de dependencia LILIANA VANESSA PACHECO & JUAN CARLOS CORREA Comparación de intervalos de confianza para el coeficiente de correlación JUAN FELIPE DÍAZ & JUAN CARLOS CORREA Comparación entre árboles de regresión CART y regresión lineal LUIS CARLOS SILVA En defensa de la racionalidad bayesiana: a propósito de Mario Bunge y su “Filosofía para médicos” Comentarios sobre el artículo de Luis Carlos Silva ANDRÉS GUTIÉRREZ ROJAS Acerca de la defensa de la racionalidad bayesiana y la obra de Mario Bunge JAIRO FÚQUENE El caso de la estadística bayesiana objetiva como una posibilidad en ensayos clínicos JORGE ORTIZ PINILLA Mario Bunge y la estadística bayesiana Réplica de Luis Carlos Silva LUIS CARLOS SILVA La larga vida científica que le espera a Thomas Bayes

FACULTAD DE ESTADÍSTICA

Certificado SC 4289-1

τ Comunicaciones en Estadística

Bogotá, D. C. Colombia

Vol. 6, N.o 2

τ

pp. 99-242

Julio-diciembre

2013

ISSN: 2027-3335


Universidad Santo Tomás Facultad de Estadística Centro de Investigaciones y Estudios Estadísticos (CIEES)

Revista Comunicaciones en Estadística ISSN: 2027-3335 (impresa) ISSN: 2339-3076 (online) Julio-diciembre 2013 Vol. 6, N.° 2

Bogotá, D. C., Colombia

Indexada en IBN Publindex (categoría C)


REVISTA COMUNICACIONES EN ESTADÍSTICA Directora Hanwen Zhang, M. Sc. COMITÉ EDITORIAL Jorge Eduardo Ortiz, Ph. D. Universidad Santo Tomás

Heivar Yesid Rodríguez, M. Sc. Universidad Santo Tomás

Elkin Castaño, M. Sc. Universidad Nacional de Colombia

Cristiano Ferraz, Ph. D. Universidad Federal de Pernambuco

Andrés Gutiérrez, M. Sc. Universidad Santo Tomás

Amparo Vallejo Arboleda, Ph. D. Universidad de Antioquia

Liliam Cardeño Acero, Ph. D. Universidad de Antioquia

Sander Rangel, M. Sc. Universidad Santo Tomás

COMITÉ CIENTÍFICO Juan Carlos Salazar, Ph. D. Universidad Nacional de Colombia

José Domingo Restrepo, Ph. D. Universidad de Antioquia

Luis Francisco Rincón Suárez, M. Sc. Universidad Santo Tomás

Daniel Andrés Díaz Pachón, Ph. D. University of Miami

Brenda Betancourt, M. Sc. University of California, Santa Cruz

Isabel García Arboleda, M. Sc. CIMAT, México

CONSEJO EDITORIAL PARTICULAR Fr. Carlos Mario Alzate Montes, O. P. Rector General

Dr. Henry Borja Orozco Director Unidad de Investigación

Fr. Eduardo González Gil, O. P. Vicerrector Académico General

Fr. Javier Antonio Hincapié Ardila Director Ediciones USTA

Fr. Jaime Monsalve Trujillo, O. P. Vicerrector Administrativo y Financiero General

Fr. Érico Juan Macchi Céspedes, O. P. Vicerrector General de Universidad Abierta y a Distancia (VUAD)

Eduardo Franco Martínez Coordinador editorial

Hecho el depósito que establece la ley ISSN: 2027-3335 (impresa) ISSN: 2339-3076 (online) © Derechos reservados Universidad Santo Tomás Bogotá, D. C., Colombia

UNIVERSIDAD SANTO TOMÁS Ediciones USTA Carrera 13 No. 54-39, Bogotá, Colombia Teléfonos: 235 1975-249 71 21 http://www.usta.edu.co editorial@usantotomas.edu.co

Publicación del Centro de Investigaciones y Estudios Estadísticos (CIEES)


Revista Comunicaciones en Estad´ıstica

Contenido Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105-108 ´ VELEZ ´ JORGE IVAN & JUAN CARLOS CORREA Una prueba de independencia completa basada en la FDR . . . . . . . . . . . . . . 109-120 ´ ˜ CRISTIAN FERNANDO TELLEZ PINEREZ & V´ ICTOR IGNACIO ´ LOPEZ R´ IOS Propuesta para aumentar los puntos experimentales en dise˜ nos D-´ optimos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .121-137 DANNA LESLEY CRUZ REYES C´opulas en geoestad´ıstica o lo que se puede hacer con coordenadas y estructuras de dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139-156 LILIANA VANESSA PACHECO & JUAN CARLOS CORREA Comparaci´on de intervalos de confianza para el coeficiente de correlaci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157-174 JUAN FELIPE D´ IAZ & JUAN CARLOS CORREA Comparaci´on entre ´arboles de regresi´on CART y regresi´ on lineal . . . . . . . . 175-195 LUIS CARLOS SILVA En defensa de la racionalidad bayesiana: a prop´ osito de Mario Bunge y su “Filosof´ıa para m´edicos” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197-212 Comentarios sobre el art´ıculo de Luis Carlos Silva ´ GUTIERREZ ´ ANDRES ROJAS Acerca de la defensa de la racionalidad bayesiana y la obra de Mario Bunge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213-220 ´ JAIRO FUQUENE El caso de la estad´ıstica bayesiana objetiva como una posibilidad en ensayos cl´ınicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .221-224 JORGE ORTIZ PINILLA Mario Bunge y la estad´ıstica bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . 225-229 R´ eplica de Luis Carlos Silva LUIS CARLOS SILVA La larga vida cient´ıfica que le espera a Thomas Bayes . . . . . . . . . . . . 231-235



Revista Comunicaciones en Estad´ıstica

Content Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105-108 ´ VELEZ ´ JORGE IVAN & JUAN CARLOS CORREA A test for complete Independence based on FDR . . . . . . . . . . . . . . . . . . . . . . . 109-120 ´ ˜ CRISTIAN FERNANDO TELLEZ PINEREZ & V´ ICTOR IGNACIO ´ ´ LOPEZ RIOS Proposal to increase experimental points in Bayesian D-optimal design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121-137 DANNA LESLEY CRUZ REYES Copulas in geostatistic or what can be done with coordinates and dependency structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139-156 LILIANA VANESSA PACHECO & JUAN CARLOS CORREA Comparison of confidence intervals for the correlation coefficient . . . . . . . . . 157-174 JUAN FELIPE D´ IAZ & JUAN CARLOS CORREA Comparison between CART regression trees and linear regression . . . . . . . 175-195 LUIS CARLOS SILVA In defense of Bayesian rationality: about Mario Bunge and his “Philosophy for physicians” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197-212 Comments on article by Luis Carlos Silva ´ GUTIERREZ ´ ANDRES ROJAS About the defense of Bayesian rationality and work of Mario Bunge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213-220 ´ JAIRO FUQUENE The case for objective Bayesian statistics as a possibility in clinical trials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221-224 JORGE ORTIZ PINILLA Mario Bunge and the bayesian statistics . . . . . . . . . . . . . . . . . . . . . . . . . .225-229 Rejoinder by Luis Carlos Silva LUIS CARLOS SILVA The long scientific life that waits for Thomas Bayes . . . . . . . . . . . . . 231-235



Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 105–108

Editorial

Hanwen Zhanga hanwenzhang@usantotomas.edu.co

En el n´ umero 11 de la revista Comunicaciones en Estad´ıstica queremos, por medio de esta editorial, compartir con nuestros lectores la buena noticia de la categorizaci´on de la Revista en la II actualizaci´on Publindex de Colciencias del 2012, la categor´ıa otorgada por Colciencias es C, y esperamos mantenernos en esta categor´ıa en la I actualizaci´on Publindex del 2013, que se encuentra en proceso en este momento, en busca de mejorar la categor´ıa en futuras actualizaciones de Colciencias. Queremos expresar nuestros m´as sinceros agradecimientos a los miembros del Comit´e Editorial y Cient´ıfico, los autores que nos confiaron sus resultados de investigaci´on, los ´arbitros que nos ayudaron a mantener la calidad de la Revista, y obviamente a los lectores que son nuestra motivaci´ on; por otro lado, queremos reconocer el apoyo que hemos recibido en el proceso editorial por parte de Ediciones USTA, la Unidad de Investigaci´on y la decanatura de la Facultad de Estad´ıstica de la Universidad Santo Tom´as. En el primer art´ıculo de este n´ umero los profesores V´elez y Correa nos traen una nueva prueba de independencia completa en el contexto del an´ alisis multivariado, la cual est´a basada en la tasa de falsos descubrimientos. Los estudios de simulaci´ on muestran que esta nueva prueba tiene mayor robustez frente al n´ umero de variables y al tama˜ no muestral, comparado con otras pruebas existentes en la literatura. Los profesores T´ellez y L´opez nos comparten su propuesta para mejorar los dise˜ nos D-´optimos bayesianos, aumentando el n´ umero de puntos de soporte tal que la aplicaci´on de las pruebas de bondad de ajuste resulten factibles. En el campo de la geoestad´ıstica, Cruz nos presenta el uso de las funciones c´ opula mostrando tres m´etodos: el indicador y el kriging disyuntivo, el kriging simple y la generalizaci´on del kriging trans-gaussiano. El cuarto art´ıculo de este n´ umero lo traen Pacheco y Correa desde Medell´ın, y nos presentan una revisi´on de diferentes intervalos existentes para el coeficiente de correlaci´on en una distribuci´on normal bivariada. Adicionalmente, en un estudio de simulaci´on, los autores comparan estos intervalos en t´erminos de la probabilidad de cobertura y la longitud, proporcionando conclusiones que pueden ser u ´tiles para la comunidad. a Editora.

Revista Comunicaciones en Estad´ıstica. Universidad Santo Tom´ as.

105


106

Hanwen Zhang

El quinto art´ıculo nos ilustra el uso de los ´arboles de regresi´ on CART, los autores D´ıaz y Correa consideran la comparaci´on en el nivel predictivo de estos modelos frente a los conocidos modelos de regresi´on lineal, y encontraron que en el momento en que se dispone de una muestra grande de datos, los ´ arboles de regresi´ on arrojan un menor error de predicci´on cuando el modelo ajustado es err´ oneo. Este n´ umero de la Revista finaliza con cinco art´ıculos de discusi´ on acerca de la filosof´ıa de la estad´ıstica bayesiana. La iniciativa la dio el renombrado investigador Luis Carlos Silva desde Cuba, a ra´ız de la reciente publicaci´ on del libro Filosof´ıa para m´edicos del ilustre fil´osofo argentino Mario Bunge. Silva hace reflexiones sobre las fuertes cr´ıticas de Bunge hacia la estad´ıstica bayesiana y revela las falencias del razonamiento de Bunge. Posteriormente, Guti´errez, F´ uquene y Ortiz responden a la discusi´on de Silva desde diferentes puntos de vista, y, finalmente, Silva concluye el foro de discusi´on replicando estas reflexiones. Esperamos que este n´ umero sea de utilidad para nuestros lectores, y poder contar con sus valiosos comentarios y cr´ıticas constructivas.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


107

Editorial

Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 105–108

Editorial

In issue 11 of the journal Communications in Statistics we wish, through this Editorial, to share with our readers the good news of the categorization of the Journal in the II update of Publindex Colciencias 2012, the category granted by Colciencias is C, and we expect to maintain this category in the I update of Publindex 2013, currently in process, in search of improving the category in future Colciencias updates. We want to express out most sincere thanks to the members of the Editorial and Scientific Committee, the authors who trusted their research results, the peer reviewers who helped us keep the Journal’s quality, and of course our readers who are our motivation; also, we want to acknowledge the support we have received in the editorial process by USTA Editions, the Research Unit and dean’s office of the Faculty of Statistics of Universidad Santo Tom´ as. In the first article of this issue professors V´elez and Correa bring us new evidence of complete independence in the context of multivariate analysis which is based on the false discovery rates. Simulation studies show that this new evidence is more robust with regards to the number of variables and sample size, compared with other existing evidence in literature. Professors T´ellez and L´opez share their proposal to improve the Bayesian Doptimal designs, increasing the number of support points so that the application of the goodness of fit tests results feasible. In the geostatistics field, Cruz presents us the use of copula functions showing three methods: indicator and disjunctive kriging, simple kriging and generalization of the trans-Gaussian kriging. The fourth article of this issue is brought by Pacheco and Correa from Medellin, and presents us a review of various existing intervals for the correlation coefficient in a bivariate normal distribution. Additionally, in a simulation study, authors compare these intervals in terms of coverage and longitude probability, providing conclusions that might be useful for the community. The fifth article illustrated us the use of CART regression trees, authors Diaz and Correa consider the comparison at predictive level of these models with regards to known models of linear regression, and found that when there is a large sample of data, the regression trees show a lower prediction error when the adjusted model is erroneous. This issue of the Journal ends with five articles of discussion on the philosophy of Bayesian statistics. The initiative was given by renowned researcher Luis Carlos Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


108

Hanwen Zhang

Silva from Cuba, following recent publication of the book Philosophy for physicians by illustrious Argentinean philosopher Mario Bunge. Silva reflects on Bunge’s strong criticism towards Bayesian statistics and reveals the flaws of Bunge’s reasoning. Afterwards, Guti´errez, F´ uquene and Ortiz reply to Silva’s discussion from several points of view, and, finally, Silva concludes the discussion forum replying to these reflections. We hope this issue is useful to our readers, and to have their valuable comments and constructive criticism.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 109–120

Una prueba de independencia completa basada en la FDR A test for complete Independence based on FDR Jorge Iv´an V´eleza

Juan Carlos Correab

jorgeivanvelez@gmail.com

jccorrea@unal.edu.co

Resumen El an´alisis e interpretaci´on de datos multivariados se facilita enormemente si las variables son independientes. En la pr´actica, este supuesto se verifica a trav´es de una prueba de independencia completa. Proponemos una nueva prueba de independencia completa basada en la tasa de falsos descubrimientos (FDR, en ingl´es), y reportamos los resultados de un estudio de simulaci´ on en el que se comparan los niveles de significancia real de esta propuesta y otras pruebas com´ unmente utilizadas. Encontramos que el nivel de significancia real solo se mantiene por debajo del te´ orico para la prueba basada en la FDR, y que este es independiente del tama˜ no de muestra y el n´ umero de variables. Finalmente, ilustramos nuestra propuesta con dos ejemplos. Palabras clave: independencia completa, tasa de falsos descubrimientos, matriz de correlaci´on. Abstract Analysis and interpretation of multivariate data is largely facilitated if the variables are independent. In the practice, this supposition is verified through a test for complete independence. We propose a new test for complete independence based on the false discovery rate (FDR), and report the results of a simulation study which compares the real significance levels of this proposal and other tests generally used. We found that the real significance level only remains under the theoretical one for the test based on FDR, and that this is regardless the size of the sample and number of variables. Finally, we illustrate our proposal with two examples. Keywords: complete independence, false discovery rate, correlation matrix. a Translational Genomics Group, Genome Biology Department, John Curtin School of Medical Research, The Australian National University, Canberra, ACT, Australia. Grupo de Neurociencias de Antioquia, Universidad de Antioquia, Colombia. Grupo de Investigaci´ on en Estad´ıstica, Universidad Nacional de Colombia, sede Medell´ın, Colombia. b Grupo de Investigaci´ on en Estad´ıstica, Universidad Nacional de Colombia, sede Medell´ın, Colombia. Profesor asociado, Escuela de Estad´ıstica, Universidad Nacional de Colombia, sede Medell´ın, Colombia.

109


110

Jorge Iv´ an V´ elez & Juan Carlos Correa

1. Introducci´ on Desarrollos relativamente recientes en gen´etica y procesamiento de im´ agenes han dado lugar a experimentos y aplicaciones cuyos resultados corresponden a grandes conjuntos de datos. En la actualidad, una de las ´ areas m´ as importantes en el campo de la investigaci´on m´edica es el estudio de niveles de expresi´ on de m genes en n1 casos y n2 controles utilizando microarreglos (Nguyen et al. 2002, Dudoit et al. 2002). Por lo general, en este tipo de estudios el inter´es se centra en determinar aquellos genes para los que sus niveles de expresi´on difieren significativamente entre ambos grupos, o aquellos pares de genes para los cuales su correlaci´ on es estad´ısticamente significativa para alguna probabilidad de error tipo I α predeterminada. En el primer caso, la detecci´on de diferencias significativas permite determinar qu´e genes se encuentran alterados en los casos y no en los controles (Dudoit et al. 2002), mientras en el segundo el coeficiente de correlaci´ on corresponde a un proxy que cuantifica una potencial interacci´on entre un par de genes. Dado un conjunto de datos con p variables num´ericas, independencia completa se refiere a probar H0 : Σ = D(σ12 , σ22 , . . . , σp2 )

(1)

donde Σ es la matriz de varianzas-covarianzas, D(·) corresponde a una matriz diagonal cuyas componentes son σ12 , σ22 , . . . , σp2 , con σi2 la varianza de la i-´esima variable, i = 1, 2, . . . , p. Si P es la matriz de correlaci´ on, lo anterior se reduce a probar H0 : P = Ip , con Ip una matriz diagonal de orden p. Si se rechaza H0 para alg´ un nivel de significancia α, esto indica que por lo menos una de las correlaciones entre pares de variables es estad´ısticamente diferente de cero. En el caso de estudios con microarreglos, rechazar la hip´otesis de independencia completa indicar´ıa que existe al menos un par de genes que interact´ uan. En la literatura, se encuentran disponibles la prueba basada en la raz´ on de verosimilitud (LRT, en ingl´es) (Wilks 1935, Morrison 2005), y las aproximaciones seg´ un Box (1949), Bartlett (1954) y Schott (2005) para probar H0 . El rechazo o no de H0 en (1) puede contextualizarse de diferentes maneras, por ejemplo, en regresi´ on lineal, es deseable que las covariables del modelo sean ortogonales, i.e., no exista multicolinealidad (no se rechace H0 ). Sin embargo, la existencia de correlaci´ on es deseable en an´alisis de componentes principales y an´ alisis factorial. En el primer caso, permite reducir la dimensionalidad del problema; en el segundo, las pruebas de independencia completa se utilizan para determinar si es recomendable realizar este tipo de an´alisis. En este trabajo proponemos una metodolog´ıa basada en la tasa de falsos descubrimientos (FDR, en ingl´es) y comparamos su desempe˜ no con los m´etodos mencionados previamente. Finalmente, ilustramos nuestra propuesta con dos conjuntos de datos, uno relacionado con un experimento taxon´ omico (Anderson 1935) y otro sobre medidas de los pies (Correa 2006). Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Una prueba de independencia completa basada en la FDR

111

2. Pruebas de independencia completa Supongamos que se tiene una matriz de datos (continuos) Xn×p donde n corresponde al n´ umero de observaciones y p al n´ umero de variables. La matriz de correlaci´ on muestral R est´a dada por 

  R= 

1 r21 .. .

r12 1 .. .

rp1

rp2

· · · r1p · · · r2p .. .. . . ··· 1

donde rij = sij (sii sjj )−1/2 , sij = (n − 1)−1

n �

    

(2)

(xki − x ¯i )(xkj − x ¯j ) y sii =

k=1

var(x � i ), i, j = 1, 2, . . . , p.

o que Bajo normalidad multivariada, esto es, si X ∼ Np (µ, Σp ), Wilks (1935) mostr´ para probar (1) el estad´ıstico de prueba es Λ = |R|n/2

(3)

La distribuci´on de Λ es a´ un motivo de extensa investigaci´ on (Mudholkar et al. 1982).

2.1. Raz´ on de verosimilitud (LRT) La prueba LRT (Morrison 2005, Secci´on 1.9) considera el estad´ıstico de prueba

G = −[n − (2p + 5)/6] log |R|

(4)

Bajo H0 , G tiene una distribuci´on χ2 con p(p − 1)/2 grados de libertad. Schott (2005) mostr´o que G tiene un pobre desempe˜ no cuando p → ∞ debido a que |R| → 0.

2.2. Aproximaci´ on de Box De acuerdo con Box (1949), la distribuci´on de Λ en (3) puede aproximarse como:

P [C ≤ z]

≈ P {χ2w ≤ z} � γ2 � P {χ2w+4 ≤ z} − P {χ2w ≤ z} + O(m−3 ) + m2

(5)

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


112

Jorge Iv´ an V´ elez & Juan Carlos Correa

con C = −n log |R|, γ2 = p(p − 1)(2p2 − 2p − 13)/288, m = n − (2p + 11)/6, w = p(p − 1)/2 y χ2w una variable χ2 con w grados de libertad.

2.3. Aproximaci´ on de Bartlett Morrison (1976) menciona que Bartlett (1954) propuso aproximar el estad´ıstico

Q = −[n − (2p + 11)/6] log |R|

(6)

utilizando una χ2p(p−1)/2 . El estad´ıstico Q, adem´ as de ser mucho m´ as simple de calcular que la aproximaci´on de Box, no utiliza la expansi´ on de Taylor de tercer orden, lo cual garantiza esta converja mucho m´ as r´ apido a la distribuci´ on l´ımite. Mudholkar et al. (1982) mostraron que el estad´ıstico Q tiene un mejor desempe˜ no que la aproximaci´on en (5).

2.4. Aproximaci´ on de Schott Schott (2005) propone una prueba de independencia completa basada en probar las hip´otesis H0 : ρi,j = 0 vs. H1 : ρi,j �= 0

i>j

(7)

on P . El estad´ıstico donde ρi,j es el (i, j)-´esimo elemento de la matriz de correlaci´ de prueba est´a dado por Z = tn,p /σtn,p donde tn,p =

p i−1

(8)

2 ri,j − 2p(p − 1)/n,

i=2 j=1

−2

−1

σtn,p = n (n+2) p(p−1)(n−1) y ri,j es el estimador de ρi,j . Bajo independencia completa, Z ∼ N (0, 1). Para p > n, esta prueba mostr´ o tener un mejor desempe˜ no que la prueba LRT (Schott 2005).

2.5. Propuesta basada en FDR La tasa de falsos descubrimientos (FDR, en ingl´es) est´ a definida como la proporci´on de hip´otesis nulas verdaderas que resultan ser rechazadas dentro del total de hip´otesis rechazadas (Benjamini & Hochberg 1995). Para una revisi´ on sobre este y otros m´etodos, ver Schaffer (1995) y Correa (2011). Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Una prueba de independencia completa basada en la FDR

113

Tabla 1: Posibles resultados cuando se prueban m hip´ otesis. T : cierto; F : falso, D: descubrimiento (rechazo de H0 ); N : no descubrimiento. Fuente: modificado de Benjamini & Hochberg (1995) Acepto H0 Rechazo H0 Total H0 Verdadera NT DF m0 H0 Falsa NF DT m1 Total N D m

En la Tabla 1 presentamos los posibles resultados cuando se realizan m pruebas de hip´ otesis independientes. A partir de esta informaci´ on, la FDR se define formalmente como (Benjamini & Hochberg 1995)

FDR = E

DF D > 0 P (D > 0) D

(9)

y el procedimiento FDR (Benjamini & Hochberg 1995) se reduce a: 1. Probar m hip´otesis independientes H0,1 , H0,2 , . . . , H0,m a partir de las cuales se obtienen los estad´Ĺsticos de prueba T0,1 , T0,2 , . . . , T0,m y los valores p p0,1 , . . . , p0,m , respectivamente. 2. Calcular κ como

Îş ˆ = m´ax i : p(i)

i ≤ ι m

(10)

para alg´ un nivel de significancia Îą ∈ (0, 1). ˆ , ninguna hip´ otesis nula 3. Rechazar H0,1 , H0,2 , . . . , H0,ˆκ . Si no existe tal Îş podr´a ser rechazada. Nuestra propuesta para realizar la prueba de independencia completa implica probar (7) para la l-´esima componente de la matriz de correlaci´ on R en (2) y aplicar el procedimiento FDR descrito anteriormente, de tal manera que para una matriz de datos (continuos) XnĂ—p deben calcularse p(p − 1)/2 coeficientes de correlaci´ on, estad´Ĺsticos de prueba y valores p. Una vez calculado el l-´esimo coeficiente de correlaci´on muestral rl , el estad´Ĺstico de prueba es tl = rl (n − 2)1/2 (1 − rl2 )−1/2 y el valor−p puede calcularse como pl = P (tl > tn−2 ), l = 1, 2, . . . , p(p − 1)/2. Rechazaremos H0 en (1) si Îş ˆ ≼ 1. En el Ap´endice A presentamos una implementaci´ on de nuestra propuesta en R (R Core Team 2013). Comunicaciones en Estad´Ĺstica, diciembre 2013, Vol. 6, No. 2


114

Jorge Iv´ an V´ elez & Juan Carlos Correa

3. Estudio de simulaci´ on y resultados 3.1. Estudio de simulaci´ on El desempe˜ no de nuestra propuesta y las aproximaciones antes mencionadas se evalu´o a trav´es de un estudio de simulaci´on. Para ello, implementamos un algor´ıtmo en R que funciona de la siguiente manera1 : 1. Generaci´ on de datos. Defina la tripleta (n, p, ρ) y genere una muestra aleatoria de tama˜ no n de una distribuci´ on normal p-variada con matriz de correlaci´on P = (1 − ρ) Ip + ρ 1p 1′ p . Se utilizaron 10 ≤ n ≤ 200, p = {2, 5, 10, 30, 50, 100}. 2. Aproximaciones LRT, Box, Bartlett y Schott. Estime la matriz de correlaci´ on muestral R y determine si se rechaza H0 en (1) con las aproximaciones LRT, Bartlett, Box y Schott. 3. Prueba basada en la FDR. A partir de la matriz de correlaci´ on R, determine el valor de κ ˆ como se describe en la secci´ on 2.5. Rechace H0 en (1) si κ ˆ ≥ 1. 4. Tasa de rechazos. Repita los pasos 1–3, B veces. Calcule la tasa de rechazos (TdRs) para cada m´etodo como la proporci´ on de veces que se rechaza H0 en las B muestras. Con el prop´osito de estimar el de cada una de las pruebas, se determin´ o su desempe˜ no bajo H0 , es decir, con P = Ip (equivalente a ρ = 0). En total se evaluaron 240 escenarios de simulaci´on. En todos ellos, la probabilidad de error tipo I fue α = 0.05 y B = 10000.

3.2. Resultados Los resultados obtenidos se presentan en la Figura 1. A diferencia de las dem´ as pruebas para independencia completa, nuestra propuesta basada en la FDR mantiene niveles de significancia reales cercanos al 5 % independiente del tama˜ no de muestra n y el n´ umero de variables p. Las pruebas tradicionales presentan TdRs cercanos al 5 % solo para n > 100 y p ≤ 10 (panel superior, Figura 1). Sin embargo, la prueba de Schott para p = 2 y la de Box para p = 5 y p = 10, son claras excepciones. Para p > 2, la prueba LRT presenta las TdRs m´ as altas independiente del tama˜ no de muestra.

1 El

programa en R se encuentra disponible a petici´ on del lector.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2 140

170

200

80

110

140

170

Tamaño de muestra (n)

110

200

0

0

0

50

20

20

20

20

40

80

200

40

50

170

40

20

140

60

p=50 (e)

110

60

200

80

60

170

50

80

140

20

80

p=30 (d)

110

80

80

0

10

20

30

40

100

50

FDR Box Bartlett Schott LRT

100

20

5

10

15

p=5 (b)

100

4

5

6

7

20

25

9

8

30

p=2 (a)

20

20

50

50

80

80

110

p=100 (f)

110

p=10 (c)

140

140

170

170

200

200

Figura 1: Nivel de significancia real de las aproximaciones LRT, Box, Bartlett, Schott y nuestra propuesta basada en la FDR como funci´ on del tama˜ no de muestra n y el n´ umero de variables p. Fuente: elaboraci´ on propia.

Tasa de Rechazos (%)

10

Una prueba de independencia completa basada en la FDR

115


116

Jorge Iv´ an V´ elez & Juan Carlos Correa

Cuando p ≥ 30, las TdRs de las pruebas cl´ asicas son superiores al nivel de significancia nominal del 5 % en muchos ´ordenes de magnitud. A excepci´ on de la prueba de Box, las TdRs son cercanas al nivel nominal cuando p = 30 y n > 120. Sin embargo, para p = 50 y p = 100 este comportamiento es menos evidente y las TdRs var´ıan considerablemente. Para p ≥ 30 (panel inferior, Figura 1) las u ´nicas pruebas evaluadas con resultados consistentes, i.e., que igualan o tienden r´ apidamente al nivel nominal cuando n aumenta, son nuestra propuesta y la prueba de Schott.

4. Ejemplos 4.1. Datos taxon´ omicos Anderson (1935) presenta un conjunto de datos, ahora cl´ asicos, correspondiente a medidas (en cent´ımetros) del ancho y la longitud del s´epalo y los p´etalos en 150 flores iris de tres especies diferentes (setosa, versicolor y virginica, Figura 2)2 . Los datos, disponibles en R, corresponden a mediciones de estas cuatro caracter´ısticas en 50 flores de cada especie. Setosa

Versicolor

Virginica

Figura 2: Especies setosa, versicolor y virginica de la variedad de flores iris. Fuente: ver nota de pie.

Para ilustrar el uso de nuestra propuesta se hicieron dos tipos de an´ alisis. En el primero, se analiz´o el conjunto de datos sin dividir por especie; en el segundo, se realiz´ o dicha divisi´on. En el primer caso, todas las pruebas de independencia rechazaron H0 en (1), excepto la prueba de Box (LRT: G = 711.77, p = 1.75 × 10−150 ; Bartlett: Q = 706.96, p = 1.92 × 10−149 ; Schott: Z = 115.79, p < 10−150 ). Resultados similares se obtienen al realizar el an´ alisis de independencia completa por especie. 2 Im´ agenes tomadas de www.alaska-in-pictures.com/data/media/10/wild-iris_8865.jpg, http://goo.gl/nEGwEr y http://goo.gl/7PRWSf

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


117

Una prueba de independencia completa basada en la FDR

4.2. Medidas de pies Correa (2006) presenta datos3 correspondientes a mediciones de la longitud (x1 ) y la amplitud (x2 ) m´axima del pie, la amplitud m´ axima del tal´ on (x3 ), la longitud m´axima del dedo grande (x4 ) y la amplitud m´ axima del dedo grande (x5 ) en n = 10 personas. La matriz de correlaci´on muestral (diagonal inferior) y los respectivos valores p (diagonal superior) al probar (7) son 

x1  x2 D= x3  x4 x5

x1 x2 x3 x4 − 0.0018 0.5881 0.1413 0.8507 − 0.7924 0.3767 0.1956 −0.0958 − 0.9448 0.4998 0.3141 0.0253 − 0.7600 0.4814 0.4461 0.4438

 x5 0.0107  0.1589 , 0.1963  0.1989 −

de tal manera que rx1 ,x2 = 0.8507 y el correspondiente valor p es 0.0018. La hip´ otesis de independencia completa es rechazada al utilizar nuestra propuesta basada en la FDR. Este resultado es equivalente al obtenido con cualquiera de las aproximaciones cl´asicas (LRT: G = 24.45, p = 6.48 × 10−3 ; Box: C = 32.61, p = 4.48 × 10−4 ; Bartlett: Q = 21.19, p = 1.97 × 10−2 ; Schott: Z = 3.42, p = 3.10 × 10−4 ).

5. Discusi´ on El an´ alisis multivariado de datos se simplifica en gran medida si se asume que las p variables disponibles son independientes. La principal ventaja de tener datos con estas caracter´ısticas radica en que cada una de las variables podr´ıa analizarse utilizando m´etodos univariados. Ahora, si el supuesto de independencia completa no se cumple y a´ un as´ı este se asume, podr´ıan obtenerse resultados alejados de la realidad, especialmente cuando el estudio de relaciones entre variables, como en experimentos con microarreglos, es de gran importancia. En este art´ıculo hemos presentado una nueva prueba de independencia completa, basada en la FDR, que consiste en realizar p(p−1)/2 pruebas de hip´ otesis independientes sobre igual n´ umero de coeficientes de correlaci´ on de una matriz de datos (continuos) Xn×p , y que ofrece una alternativa f´ acil de implementar en cualquier programa de an´alisis estad´ıstico (ver Ap´endice A para nuestra implementaci´ on en R). A diferencia de otras pruebas de independencia completa tambi´en evaluadas, el nivel de significancia real de esta nueva alternativa es comparable con el nivel te´orico nominal (en este caso del 5 %) y no depende del n´ umero de variables p ni del tama˜ no de muestra n. En la pr´actica, estas tres propiedades son deseables. Por 3 Disponibles

bajo solicitud expresa del lector.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


118

Jorge Iv´ an V´ elez & Juan Carlos Correa

otro lado, la potencia de nuestra propuesta basada en la FDR es comparable o superior a las obtenidas con las dem´as aqu´ı mencionadas4 . Este resultado garantiza, en cierta medida, que nuestra propuesta representa una mejor alternativa a las ya existentes. Tabla 2: Tiempos de ejecuci´ on (en segundos) de la prueba de independencia completa basada en la FDR para combinaciones de n y p. Fuente: elaboraci´ on propia n|p 100 200 500 1000 1500 2000 3000 5000 500 0.007 0.029 0.199 0.960 2.549 5.219 13.256 42.116 1000 0.011 0.043 0.283 1.239 3.298 6.572 16.253 50.630 2000 0.017 0.071 0.456 1.919 4.787 9.017 22.076 67.222 3000 0.024 0.097 0.643 2.688 6.321 11.701 28.206 84.214 5000 0.038 0.158 0.960 3.930 9.424 17.226 39.996 117.902 Uno de los problemas que podr´ıan presentarse en la implementaci´ on y aplicaci´ on de esta prueba es el costo computacional (e.g., tiempo de ejecuci´ on). Por ejemplo, para p = 5000 e independiente del tama˜ no de muestra, es necesario calcular 12,497,500 coeficientes de correlaci´on, probar igual n´ umero de hip´ otesis y computar los respectivos valores−p. Sin embargo, los tiempos de ejecuci´ on en R (ver Tabla 2) son relativamente cortos; el procedimiento tarda menos de 120 segundos5 para p = n = 5000. Posibles direcciones de investigaci´on podr´ıan estar enfocadas a la evaluaci´ on de nuestra propuesta en presencia de datos faltantes. Puesto que la prueba FDR se basa en el c´alculo de coeficientes de correlaci´ on y la determinaci´ on de si al menos uno es significativo, el problema se reduce a escoger diferentes m´etodos para el c´ alculo de estos (e.g., usando toda la informaci´ on, solo la informaci´ on completa, o solo la informaci´on completa por pares de variables) y calcular el nivel de significancia real de la prueba.

Agradecimientos Los autores agradecen los comentarios y sugerencias de un revisor an´ onimo, quien ayud´ o a mejorar sustancialmente la versi´on previa de este documento. El trabajo de JIV fue financiado parcialmente por The Eccles Scholarship in Medical Sciences, The Fenner Merit Scholarship y The Australian National University (ANU) High Degree Research Scholarship. JIV agradece el apoyo del dr. Mauricio Arcos-Burgos de ANU. Recibido: 10 de abril de 2013 Aceptado: 14 de mayo de 2013 4 Los

resultados se encuentran disponibles a petici´ on del lector. utiliz´ o R versi´ on 3.0.0 Patched (2013-04-08 r62531) en un MacBook Pro con 8GB de RAM y procesador 2.3 GHz Intel Core i7. 5 Se

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Una prueba de independencia completa basada en la FDR

119

Referencias Anderson, E. (1935), ‘The irises of the Gaspe peninsula’, Bulletin of the American Iris Society 59, 2–5. Bartlett, M. (1954), ‘A note on multiplying factors for various χ2 approximations’, Journal of the Royal Statistical Society, Ser. B (Methodological) 16, 296–298. Benjamini, Y. & Hochberg, Y. (1995), ‘Controlling the false discovery rate: A practical and powerful approach to multiple testing’, Journal of the Royal Statistial Society, Series B (Methodological) 57(1), 389–400. Box, G. (1949), ‘A general distribution theory for a class of likelihood criteria’, Biometrika 36, 317–346. Correa, J. C. (2006), Control de la proporci´ on de hip´ otesis rechazadas equivocadamente, Curso de Estad´ıstica Gen´etica, Universidad de Antioquia. Correa, J. C. (2011), ‘Diagn´osticos de regresi´ on usando la FDR (Tasa de Descubrimientos Falsos)’, Comunicaciones en Estad´ıstica 3(2), 109–118. Dudoit, S., Yang, Y.-H., Callow, M. J. & Speed, T. P. (2002), ‘Statistical methods for identifying differentially expressed genes in replicated cDNA experiments’, Statistica Sinica 12, 111–139. Morrison, D. F. (1976), Multivariate statistical methods, 2 edn, New York: McGraw-Hill. Morrison, D. F. (2005), Multivariate statistical methods, 4 edn, Belmont, CA: Brooks/Cole. Mudholkar, G. S., Trivedi, M. C. & Lin, T. (1982), ‘An approximation to the distribution of the likelihood ratio statistic for testing complete independence’, Technometrics 24(2), 139–143. Nguyen, D. V., Bulak Apart, A., Wang, N. & Carrol, R. J. (2002), ‘DNA microarray experiments: biological and technological aspects’, Biometrics 58, 701–717. R Core Team (2013), R: A language and environment for statistical computing, R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. *http://www.R-project.org/ Schaffer, J. P. (1995), ‘Multiple hypothesis testing: A review’, Annu. Rev. Psychol. 46, 561–84. Schott, J. R. (2005), ‘Testing for complete independence in high dimensions’, Biometrika 92(4), 951–956. Wilks, S. S. (1935), ‘On the independence of k sets of normally distributed statistical variables’, Econometrika 3, 309–26. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


120

Jorge Iv´ an V´ elez & Juan Carlos Correa

A. Ap´ endice. Programa en R para la prueba de independencia completa basada en la FDR ## C´ alculo del valor p para los coef. de correlacion de una matriz X cor.pvalue <- function(X, method = "pearson", use = "complete") { dfr <- nrow(X) - 2 R <- cor(X, method = method, use = use) above <- row(R) < col(R) r2 <- R[above]^2 Fstat <- r2 * dfr/(1 - r2) R[above] <- 1 - pf(Fstat, 1, dfr) R[above] } ## Prueba de independencia completa basada en la FDR fdrci <- function(x, alpha = 0.05) { p <- cor.pvalue(x) p <- p.adjust(p, method = "fdr") ifelse(any(p <= alpha), "Rechace H0", "No rechace H0") } ## Ejemplo con una normal 5-variada independiente, n = 100 set.seed(1) X <- matrix(rnorm(100 * 5), ncol = 5) fdrci(X) ## [1] "No rechace H0"

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 121–137

Propuesta para aumentar los puntos experimentales en dise˜ nos D-´ optimos bayesianos Proposal to increase experimental points in Bayesian D-optimal design Cristian Fernando T´ellez Pi˜ nereza

V´ıctor Ignacio L´ opez R´ıosb

cftellezp@unal.edu.co

vilopez@unal.edu.co

Resumen Uno de los criterios de uso m´as frecuente para la obtenci´ on de dise˜ nos ´ optimos es el D-optimalidad, el cual proporciona los puntos experimentales donde se minimiza el volumen del elipsoide de confianza asociado al vector de par´ ametros en el modelo propuesto. A diferencia del dise˜ no D-´ optimo cl´ asico, el dise˜ no D-´ optimo bayesiano no necesariamente tiene tantos puntos de soporte como par´ ametros tiene el modelo. En este art´ıculo se considera el caso en donde el dise˜ no D-´ optimo promediado por una a priori particular tiene tantos puntos de soporte como el n´ umero de par´ametros del modelo. Esta situaci´ on puede no ser tan favorable cuando el modelo no se tiene especificado con total certeza, dado que no ser´ıa posible realizar pruebas de falta de ajuste para el modelo. En este art´ıculo se propone una metodolog´ıa que permite aumentar el n´ umero de puntos de soporte del dise˜ no con el fin de que, con el dise˜ no resultante, se pueda aplicar la prueba de bondad de ajuste. Finalmente, se ejemplifica la metodolog´ıa con un modelo exponencial. Palabras clave: D-optimalidad bayesiano, bondad de ajuste, D-eficiencia, incremento puntos experimentales, dise˜ nos ´optimos. Abstract One of the most frequent used criteria to obtain optimal designs is D-optimality designs, which provides experimental points where the volume of confidence ellipsoid associated to the vector of parameters in the proposed model is minimized. Unlike the classical D-optimal design, the Bayesian D-optimal design does not necessarily have as many support points as the model parameters. This article considers the case where D-optimal design averaged by a specific a priori has as many support points as the number of parameters of the model. This situation a Docente b Profesor

tiempo completo. Fundaci´ on Universitaria Los Libertadores, Colombia. Asociado. Universidad Nacional de Colombia, sede Medell´ın, Colombia.

121


122

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

may not be as favorable when the model is not specified with complete certainty, since it would not be possible to conduct tests due to lack of fitness for the model. This article proposes a methodology that allows increasing the number of support points of the design in order that, with the resulting design, goodness of fitness test can be applied. Finally, the methodology is exemplified with an exponential model. Keywords: Bayesian D-optimality, goodness of fit, D-efficiency, increase in experimental points, optimal designs.

1. Introducci´ on En trabajos de investigaci´on, usualmente se tiene el inter´es de modelar el comportamiento de una variable de inter´es Y a trav´es de un conjunto de k−variables explicativas x = (x1 , x2 , ..., xk ), por medio de un modelo estad´ıstico que describa esta posible relaci´on. Este modelo puede tener la forma: Y (x) = η(x; θ) + ǫ,

(1)

donde η(x; θ) es una funci´on del vector de par´ ametros desconocido θ ∈ Rp , x toma valores en un espacio de dise˜ no χ y ǫ, el error aleatorio, se asume que tiene media cero y varianza constante σ 2 . En este art´ıculo se analizar´a un modelo no lineal, en donde la matriz de informaci´ on depende de θ. La teor´ıa de los dise˜ nos ´optimos en el contexto de la estad´ıstica bayesiana presenta algunos resultados o criterios de optimalidad, que son u ´tiles para determinar las condiciones experimentales o niveles de las covariables donde se debe experimentar para obtener estimaciones ´optimas de los par´ ametros del modelo bajo estudio. Por ejemplo, Argumedo-Galvan & L´ opez (2011) realizan una generalizaci´on de la metodolog´ıa propuesta por O’Brien (1995) para el aumento del n´ umero de puntos de soporte en un dise˜ no D-´optimo local. Cardona et al. (2012) realizaron una caracterizaci´on de los dise˜ nos ´optimos obtenidos a trav´es de dos funciones de utilidad asociados al D-optimalidad bayesiano para estimar en forma ´optima los par´ametros de dos modelos no lineales, entre otras. Este art´ıculo propone e implementa una estrategia que busca el aumento del n´ umero de puntos experimentales del dise˜ no D-´optimo obtenido a partir de una distribuci´on apriori. Para ello se adapta la propuesta de O’Brien (1995) y de Cardona et al. (2012). Se deduce expl´ıcitamente la expresi´ on para la funci´ on de sensibilidad asociada al criterio en t´erminos de una constante de ponderaci´ on (δ), la eficiencia que se quiere alcanzar con el nuevo dise˜ no y el n´ umero de par´ ametros del modelo. Se determina la mejor elecci´on para δ, al maximizar la potencia de la prueba de falta de ajuste del modelo en estudio. Finalmente, se evalu´ a la bondad de la metodolog´ıa en el modelo exponencial, v´ıa simulaci´ on. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Propuesta para aumentar los puntos experimentales

123

2. DiseËœ no ´ optimo bayesiano A continuaci´on se ilustran algunos conceptos b´ asicos de la teor´Ĺa cl´ asica de diseËœ nos ´optimos para modelos no lineales, y se dan resultados importantes del enfoque bayesiano asociados con algunos criterios de optimalidad.

2.1. DiseËœ no exacto Sean x1 , ..., xd una sucesi´on de d puntos distintos, y ri el n´ umero de repeticiones del punto xi , entonces se define un diseËœ no exacto como una medida de probabilidad discreta ΞN , en el espacio de diseËœ no χ, representado por: x1 ¡ ¡ ¡ xd Ξ = , (2) r1 ¡ ¡ ¡ rNd N d umero total de corridas experimentales. La donde i=1 ri = N , siendo N el n´ primera fila denota los puntos del espacio de diseËœ no, χ, donde toman las mediciones ri de la variable respuesta y la segunda fila contiene los pesos wi = Ξ(xi ) = N , indicando la proporci´on de mediciones para ser tomadas en cada punto.

2.2. DiseËœ no continuo A diferencia del diseËœ no exacto, los pesos wi pueden ser cualquier n´ umero entre cero y uno, no se exige que sean n´ umeros racionales. Aunque en la pr´ actica todos los diseËœ nos son exactos, desde el punto de vista de la obtenci´ on de estos es recomendable usar los diseËœ nos aproximados por las ventajas que ofrece el usar el an´ alisis convexo.

2.3. Matriz de informaci´ on Para cada diseËœ no Ξ se define la matriz de informaci´ on: M (Ξ; θ) = f (x; θ)f T (x; θ)dΞ(x),

(3)

χ

y como el diseËœ no es una medida discreta con soporte finito, entonces (3) es equivalente a: d M (Ξ; θ) = f (xi ; θ)f T (xi ; θ)wi , (4) i=1

on depende del vector donde f (x; θ) = ∂Ρ(x;θ) ∂θ . En este caso la matriz de informaci´ de par´ametros, θ. Comunicaciones en Estad´Ĺstica, diciembre 2013, Vol. 6, No. 2


124

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

2.4. Criterios de optimalidad La teor´ıa de dise˜ nos ´optimos, Kiefer (1959), est´ a relacionada con la selecci´ on de un dise˜ no ξ que maximiza alg´ un funcional de la matriz de informaci´ on. As´ı, los criterios de optimalidad (L´opez & Ramos 2007) son definidos como juicios que maximizan alg´ un funcional real (con un significado estad´ıstico) de la matriz de informaci´on sobre la clase de todos los dise˜ nos aproximados definidos en χ. El criterio D-optimalidad se define como el siguiente funcional: ψ (ξ)

:= =

ψ (M (ξ)) |M −1 (ξ; θ) |.

(5)

Busca aquel dise˜ no que minimiza un funcional escalar de la varianza generalizada asint´otica asociada a los estimadores de m´ axima verosimilitud del vector de par´ametros dada por: det M −1 (ξ) ,

donde det(A) denota la funci´on determinante de la matriz A. Seg´ un lo expuesto en Atkinson et al. (2007), es m´ as conveniente el uso de una funci´ on convexa dada por el logaritmo natural, puesto que se facilitan los c´alculos y adem´as la funci´on logaritmo natural del determinante es convexa, as´ı un dise˜ no ξD se dice que es D-´optimo si minimiza − log(|M (ξ)|) o equivalentemente maximiza log(|M (ξ)|).

El criterio G-optimalidad, propuesto por Kiefer (1959), consiste en encontrar el dise˜ no que minimiza la varianza de la respuesta predicha m´ as grande. Es decir, un dise˜ no ξ ∗ es G-´optimo si minimiza el m´ aximo de la funci´ on d (x; ξ, θ) sobre todo los x ∈ χ. Es decir, m´ın m´ ax d (x; ξ, θ) ξ

x∈χ

=

m´ ax d (x; ξ ∗ , θ) x∈χ

(6)

on de varianza donde d(x; ξ, θ) = f T (x; θ)M −1 (ξ; θ)f (x; θ) representa la funci´ de la respuesta predicha estandarizada. Existen otros criterios de optimalidad que no se exploran en este art´ıculo, para ello se pueden consultar los trabajos de L´ opez & Ramos (2007), Atkinson et al. (2007).

2.5. Teorema de equivalencia para un dise˜ no D-´ optimo Kiefer & Wolfowitz (1959) mostraron la equivalencia entre el criterio D-optimalidad y G-optimalidad, el cual se puede enunciar de la siguiente manera: Un dise˜ no ξ ∗ con matriz de momentos M (ξ ∗ ), definida positiva, es D-´ optimo s´ı y solo si es G-´optimo s´ı y solo si: Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


125

Propuesta para aumentar los puntos experimentales

m´ax d(x; ξ ∗ ) = p. xǫχ

Donde p es el n´ umero de par´ametros del modelo. El m´aximo de la funci´on de varianza de la respuesta predicha se obtiene en los puntos de soporte del dise˜ no D-´optimo y es igual al n´ umero de par´ ametros del modelo, en caso de D-optimalidad, el peso de cada punto de soporte es inversamente proporcional a p, ωi = p1 .

2.6. Eficiencia de un dise˜ no Una forma de medir la eficiencia de un dise˜ no, ξ, con respecto al dise˜ no Dπ (ξ)o´ptimo, ξ ∗ , es a partir del cociente del criterio de optimalidad evaluado tanto en ξ, como ξ ∗ , es decir,

efDπ (ξ)

=

Dπ (ξ) , Dπ (ξ ∗ )

(7)

de donde 0 < efDπ (ξ) ≤ 1. Un dise˜ no ξ es comparable con un dise˜ no Dπ −´ optimo en la medida que su eficiencia sea cercana a uno, (ver L´ opez (2008)).

efD (ξ)

=

|M (ξ; θ)| |M (ξ ∗ ; θ)|

1/p

.

(8)

Al tomar la p-´esima ra´ız cuadrada se obtiene una medida de eficiencia que tiene las dimensiones de una raz´on de varianza. La efD (ξ) permite determinar la capacidad del dise˜ no ξ para estimar de manera eficiente los par´ ametros del modelo ∗ en comparaci´on con el dise˜ no D-´optimo, ξD . La D-eficiencia se puede interpretar como el n´ umero de r´eplicas requeridas del dise˜ no para que sea tan eficiente como el dise˜ no D-´optimo (Atkinson et al. 2007).

2.7. Criterio D-optimalidad bayesiano Los dise˜ nos D-´optimos locales maximizan log|M (ξ; θ0 ) |, donde θ0 representa un valor apriori de θ. Si adem´as es posible tener una distribuci´ on apriori π(θ) para el vector de par´ametros θ, el dise˜ no D-´optimo promediado π(θ) puede ser obtenido al maximizar: Dπ (ξ) = log|M (ξ; θ)|π(θ)dθ, (9) Θ

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


126

Cristian Fernando T´ ellez PiËœ nerez & V´Ĺctor Ignacio L´ opez R´Ĺos

donde Θ es el soporte de la distribuci´on Ď€(θ). Para este criterio, se define la funci´ on de sensibilidad para un diseËœ no Ξ, d(x; Ξ), como: d(x; Ξ) = d(x; Ξ, θ)Ď€(θ)dθ, (10) Θ

no que maximice la funci´ on donde d(x; Ξ, θ) = f T (x; θ)M −1 (Ξ; θ)f (x; θ). Un diseËœ dada en (9) se denomina diseËœ no ΨĎ€ -´optimo. La matriz de informaci´on para un diseËœ no D-´ optimo bayesiano, la cual depende de un vector de par´ametros θ. est´a dada por:

M (Ξ; θ)

=

f (x; θ) f T (x; θ) Ξ (dx) ,

χ

=

=

f (x; θ)f T (x; θ)Ξ(x),

(11)

x∈Soporte(Ξ)

Para este caso el teorema de equivalencia asociado es: un diseËœ no Ξ âˆ— es DĎ€ - ´ optimo T −1 ∗ si φ(x; Ξ) = p − Θ tr[f (x; θ)M (Ξ : θ)f (x; θ)]Ď€(θ) ≤ 0 y la igualdad se cumple en los puntos de soporte del diseËœ no. La funci´on φ(x; Ξ) se conoce como la derivada direccional asociada al criterio de optimalidad y var´Ĺa dependiendo del criterio utilizado (Atkinson et al. 2007). En la Tabla 1 se muestra la derivada direccional asociada a diferentes versiones del criterio de optimalidad bayesiano. Tabla 1: Versiones del criterio de optimalidad bayesianos junto con su respectiva derivada direccional asociada. Fuente: elaboraci´ on propia. Criterio Ψ {M (Ξ; θ)} Derivada direccional φ (x; Ξ) I Eθ log |M −1 | Eθ trM −1 M (Ξx ; θ) p −−1 −1 −1 | II log Eθ |M | p − Eθ |M |trM −1 M (Ξ x ; θ) /Eθ |M p − Eθ trM −1 Eθ M −1 M −1 M (Ξx ; θ) III log |Eθ M −1 | −1 p − Eθ |M |trM −1 M Ξ; θ /Eθ |M | IV log[Eθ (|M |)] −1 −1 p − tr (Eθ (M )) M (Ξx ; θ) V log[|Eθ (M ) |] donde M −1 = M −1 (Ξ; θ) . En este art´Ĺculo se utiliza la versi´ on I.

3. El problema de la falta de ajuste en el diseËœ no D-´ optimo La estrategia para obtener diseËœ nos con puntos extras ha sido trabajada por O’Brien (1992), O’Brien (1995), Chaloner & Larntz (1989), entre otros. O’Brien (1995) Comunicaciones en Estad´Ĺstica, diciembre 2013, Vol. 6, No. 2


127

Propuesta para aumentar los puntos experimentales

recomienda la siguiente estrategia para obtener dise˜ nos con puntos de soporte extras:

3.1. Algoritmo 1. Encontrar el diseËœ no D-´optimo local, ΞD . Este diseËœ no tendr´ a p puntos de soporte (Gaffke 1987). 2. Construir el diseËœ no: ΞN

1 p ΞD + Ξx , p+1 p+1

=

(12)

no D-´optimo local encontrado (1) y Ξx es un diseËœ no con donde ΞD es el diseËœ un solo punto, es decir, tiene concentrado todo su peso en el punto x. 3. Fijar un valor m´Ĺnimo para la eficiencia que se desea alcanzar con el nuevo diseËœ no, denotado por de, valor entre 0 y 1, y encontrar los t valores de x tal que: p p+1 d x; ΞD , θ0 de − 1 . = p (13) p 4. Por u ´ ltimo, tomar como diseËœ no seudo-´ optimo aquel diseËœ no que tenga r1 r´eplicas en los p puntos de soporte del diseËœ no D-´ optimo ΞD , y r2 r´eplicas en los t puntos de soporte obtenidos en el paso anterior. La propuesta de O’Brien (1995) da igual peso a cada punto de soporte del nuevo diseËœ no, ΞN , con lo cual surgen los siguientes interrogantes: ÂżQu´e ocurre si la ponderaci´on dada a los nuevos puntos es δ y a los puntos del diseËœ no ΨĎ€ -´ optimo es 1 − δ? ÂżQu´e estrategias se pueden proponer para la escogencia del valor de δ? La respuesta a ambos interrogantes ser´a el objetivo de las siguientes secciones.

4. Generalizaci´ on Se propone construir el nuevo diseËœ no a partir de:

ΞN

=

=

(1 − δ)ΞD + δΞx ,

(14)

o de forma expl´Ĺcita

ΞN

x1

1−δ p

¡¡¡ ¡¡¡

xp

1−δ p

x δ

.

(15)

Comunicaciones en Estad´Ĺstica, diciembre 2013, Vol. 6, No. 2


128

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

Donde ξD es el dise˜ no Dπ -´optimo asumiendo que este tiene p puntos de soporte, la constante δ determina el peso en el dise˜ no ξx , dise˜ no que tiene su peso concentrado en el punto x. Una expresi´on equivalente para la funci´on de sensibilidad del dise˜ no Dπ usando el nuevo dise˜ no ξN = (1 − δ) ξD + δξx y asumiendo la D-eficiencia del dise˜ no ξN fija se puede escribir como:

d(x; ξD ) =

(|M (ξD ; θ) |m − 1)

1−δ π(θ)dθ. δ

(16)

con m = εpfξ (ξN ) − 1, εfξD (ξN ) la Dπ eficiencia del dise˜ no ξN y p el n´ umero de D par´ametros del modelo. Con los x’s que satisfacen la ecuaci´on (16) y los puntos de soporte del dise˜ no Dπ ´optimo, se forma el nuevo dise˜ no ξN el cual tendr´ a los p puntos del dise˜ no Dπ y los s nuevos puntos adicionales, es decir, tendr´ a p + s puntos de soporte. A continuaci´on se muestra un algoritmo para la escogencia del δ.

4.1. Escogencia del δ A partir del dise˜ no Dπ -´optimo, el n´ umero de corridas experimentales (N ), la eficiencia del dise˜ no ξN y una rejilla fija para δ, se encuentra el dise˜ no ξiN dado por (1 − δi ) ξD + δi ξx para un δi fijo en la rejilla. El dise˜ no ξN es transformado a un dise˜ no exacto de tama˜ no N mediante la metodolog´ıa de Fedorov & Hackl (1997). Dado los dise˜ nos exactos asociados a cada δ en la rejilla, se define una estrategia para determinar el peso δ (lo cual implica escoger uno o varios dise˜ nos) de tal forma que el dise˜ no resultante maximice la potencia de la prueba de falta de ajuste del modelo propuesto. El algoritmo para calcular la potencia de la prueba de falta de ajuste se desarrolla en dos pasos. En el primer paso se encuentra una distribuci´ on emp´ırica para el estad´ıstico −2log (Λ) para muestras peque˜ nas, donde Λ es la raz´on de verosimilitud entre el modelo que se asume es correcto (modelo bajo H0 ) y un modelo distinto al considerado, en el cu´ al el conjunto de par´ ametros sea subconjunto del modelo anterior (modelo bajo H1 ). En el segundo paso se calcula la potencia de la prueba. Es decir, I. Distribuci´ on del estad´ıstico −2log (Λ) en muestras peque˜ nas 1. Fijar un n´ umero de simulaciones Nsim . 2. Para el dise˜ no exacto se calculan las medias; estas se calculan evaluando los puntos de soporte del dise˜ no exacto y usando como estimaci´ on de θ su valor local, es decir, µi

=

η (xi , θ0 ) ,

(17)

no. donde xi son los puntos de soporte del dise˜ Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Propuesta para aumentar los puntos experimentales

129

3. Para el dise˜ no exacto, se simulan observaciones de la variable respuesta seg´ un el modelo para trabajar (Modelo bajo H0 cierta en la prueba de falta de ajuste), para el que se asume que el t´ermino del error es normal con media cero, varianza constante e independientes y tomando como varianza para el error la obtenida en un estudio previo. 4. Para las observaciones de la variable respuesta generada en el paso 3 y los puntos de soporte del dise˜ no exacto, se hace el ajuste del modelo propuesto mediante m´ınimos cuadrados no lineales (ajuste bajo H0 cierta). 5. Para el ajuste en el paso 4, se calcula el estad´ıstico: χo

=

−2log (Λ) ,

(18)

donde Λ es la raz´on de verosimilitudes entre el modelo bajo H0 (modelo propuesto) y el modelo bajo H1 (modelo general) en la prueba de falta de ajuste. 6. Para el n´ umero de simulaciones fijo Nsim se computa un vector de cuantiles al 1, 5 y 10 % de la distribuci´ on emp´ırica −2log (Λ) (QempA ), luego se incrementa ese n´ umero de simulaciones, por ejemplo el doble y se computa otro vector de cuantiles al 1,5 y 10 % (QempB ) y fijando un error se calcula la norma euclidiana: ||QempA − QempB || < ǫ,

(19)

Si la diferencia en la ecuaci´on (19) es peque˜ na, el n´ umero de simulaciones Nsim para la distribuci´on emp´ırica de −2log (Λ) es aquella con la que se obtuvo QempA , de lo contrario se incrementa y as´ı sucesivamente hasta que se cumpla la ecuaci´on (19). 7. Se repiten los pasos 5 y 6 un n´ umero Nsim de veces y se encuentra la distribuci´on emp´ırica del estad´ıstico −2log (Λ) para muestras peque˜ nas. II. C´ alculo de la potencia de la prueba de falta de ajuste del modelo 1. Se perturban las medias obtenidas en el paso 2 de la estimaci´ on de la distribuci´on emp´ırica con un γ fijo; siendo γ el factor de perturbaci´ on de las medias; adicionalmente, se toma el cuadrado medio del error (MSE) obtenido en un estudio previo como varianza para el error. Para el dise˜ no exacto, se simulan observaciones de la variable respuesta conforme el modelo para trabajar, donde se asume que el t´ermino del error es normal con media cero, varianza constante y adem´ as independiente (modelo bajo H1 cierto), es decir, Yip

=

µip + ǫi ,

(20)

on fija. Las medias perdonde µip = µi ± γj , con γj una perturbaci´ turbadas para el dise˜ no exacto, ǫi ∼ N (0, M SE) y Yip las respuestas simuladas bajo H1 para el dise˜ no. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


130

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

2. Para el dise˜ no exacto, con cada perturbaci´ on de las medias, se hace el ajuste del modelo propuesto mediante m´ınimos cuadrados no lineales (ajuste bajo H0 falsa), es decir, se tienen tantos ajustes como perturbaciones hayan considerado. 3. Para cada ajuste en el paso 2, se calcula el estad´ıstico χ0 dado en la ecuaci´on (18). 4. Se repiten los pasos del 1 al 3 Nsim veces y a partir de esto se obtiene la potencia de la prueba de falta de ajuste para los niveles de significancia del 1, 5 y 10 % para el dise˜ no exacto mediante:

Potencia de la prueba = = =

P (rechazar H0 |H0 falsa) P (χ0 > QEmpi ) # de rechazos de la prueba Nsim

Donde QEmpi es el vector de cuantiles calculado de la distribuci´ on emp´ırica al 1, 5 y 10 %. Se tendr´ a por cada nivel de significancia tantas potencias como perturbaciones haya. 5. Se promedian las potencias obtenidas en el paso 2 por cada nivel de significancia y se toman estas como valor representativo. Los procedimientos I y II deben ser repetidos para cada uno de los δ’s de la rejilla.

5. Aplicaci´ on de la metodolog´ıa Como una aplicaci´on para evidenciar los resultados obtenidos en este art´ıculo, se utiliza un modelo de decrecimiento exponencial en un estudio que investiga la acci´on conjunta de mezclas de ´acidos fen´olicos en la inhibici´ on del crecimiento de las ra´ıces del tipo de hierba perennial ryegrass (Lolium perenne L.) y su significado en investigaci´on alelop´atica, datos tomados de Inderjit & Olofsdotter (2002). El t´ermino alelop´atica se refiere a los efectos perjudiciales o ben´eficos que son directa o indirectamente el resultado de la acci´on de compuestos qu´ımicos que, liberados por una planta, ejercen su acci´on en otra. La idea es entonces, obtener dise˜ nos que maximicen la prueba de falta de ajuste para el modelo de decrecimiento exponencial. Para obtener estos dise˜ nos se tom´o como distribuci´on apriori, una distribuci´ on uniforme discreta alrededor de los valores locales ΘT = [θ0 , θ1 ], con el fin de incorporar informaci´ on asociada al desconocimiento de estos par´ametros. A continuaci´ on se muestra el procedimiento para encontrar dichos dise˜ nos. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


131

Propuesta para aumentar los puntos experimentales

5.1. Modelo y estimaci´ on del modelo Los datos correspondientes al estudio de la toxicidad del ´ acido fer´ ulico son presentados en la Figura 1, donde se observa la tendencia exponencial de la longitud de la ra´ız en funci´on de la concentraci´on.

Figura 1: Dispersi´ on de los datos de longitud de la ra´ız en t´erminos de la concentraci´ on de ´ acido fer´ ulico. Fuente: elaboraci´ on propia. La parte determin´ıstica del modelo propuesto para explicar la relaci´ on entre estas dos variables es la siguiente: x η (x, θ0 , θ1 ) = θ0 exp − , θ1

(21)

donde x es la concentraci´on de ´acido en la planta y la respuesta del modelo es la longitud de la ra´ız. En el modelo anterior la funci´ on que relaciona la variable explicativa con la variable respuesta es no lineal en los par´ ametros, los valores ajustados de θ0 y θ1 se obtuvieron con la funci´ on nls de la librer´ıa nlstools del paquete R, estos se muestran en la Tabla 2 y el modelo ajustado se muestra en la Figura 2.

Tabla 2: Par´ ametros estimados por m´ınimos cuadrados no lineales para el modelo de decrecimiento exponencial. Fuente: elaboraci´ on propia. θ0 θ1

Estimaci´on 9.2 4.1

Error est´andar 0.65 0.58

Valor t 13.98 7.03

Pr(> |t|) 0.00 0.00

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


132

4 0

2

Crecimiento

6

8

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

0

5

10

15

20

25

30

Concentración

Figura 2: Curva ajustada para modelo de decrecimiento exponencial. Fuente: elaboraci´ on propia.

5.2. Dise˜ no Dπ -´ optimo para el modelo de decrecimiento exponencial A continuaci´on se mostrar´a el procedimiento para hallar un dise˜ no Dπ -´ optimo cuando la distribuci´on π es una distribuci´ on uniforme discreta. En este caso el dise˜ no Dπ -´optimo ser´a aquel que minimice la siguiente funci´ on:

ψ (ξ)

=

− log |M (ξ, θ)|dπ(θ) =

Θ

d

1 − log |M (ξ, θi )| , d i=1

(22)

donde d es el n´ umero de puntos de la distribuci´ on uniforme considerada. Los datos de la distribuci´on uniforme considerada son mostrados en la Tabla 3: Tabla 3: Observaciones de la distribuci´ on uniforme. Fuente: elaboraci´ on propia θ0 9.44667 10.49630 13.64519 9.44667 10.49630 13.64519 9.44667 10.49630 13.64519

θ1 3.6234 3.6234 3.6234 3.2940 3.2940 3.2940 2.3058 2.3058 2.3058

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


133

Propuesta para aumentar los puntos experimentales

Para obtener la matriz de informaci´on se requiere calcular las derivadas de la funci´on η con respecto a cada par´ametro, dichas derivadas son mostradas en el siguiente vector:

f (x; θ0 , θ1 ) =

� T � � θ xexp − x � 0 θ1 exp − x ,  . θ1 θ12 

(23)

Para minimizar la funci´on dada en la ecuaci´ on (22), se utiliz´ o la funci´on nlminb de la librer´ıa DEoptim del paquete estad´ıstico R Development Core Team. Se verific´o que la funci´on de sensibilidad asociada alcanzaba su m´ aximo en p = 2, n´ umero de par´ametros del modelo y el m´aximo se alcanza en los puntos de soporte del dise˜ no dado en la ecuaci´on (24):

ξD

=

0.94 3.827 0.5 0.5

(24)

Figura 3: Gr´ afico de la funci´ on de sensibilidad d (t, ξD , θ0 ) modelo de decrecimiento exponencial. Fuente: elaboraci´ on propia.

5.3. Dise˜ nos seudo´ optimos utilizando la metodolog´ıa propuesta El dise˜ no Dπ -´optimo, dado en la ecuaci´on (24) solo tiene dos puntos de soporte, con los cuales no es posible realizar pruebas de bondad de ajuste. A continuaci´ on se mostrar´a el procedimiento para aumentar dicho n´ umero a partir de la metodolog´ıa propuesta en la secci´on 4.1. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


134

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

En la Tabla 4 se muestran los dise˜ nos seudo-´ optimos donde se incorpora el nuevo punto que satisface la ecuaci´on (16) donde δ ∈ (0.285, 0.5) con incrementos de 0.05, N = 20 corridas experimentales y EfξDπ (ξN ) = 0.95. Los l´ımites del intervalo para δ se escogieron de tal forma que existiera soluci´ on para la ecuaci´ on (16) y con la condici´on de que el nuevo dise˜ no otorgara al menos el 50 % al dise˜ no D-´ optimo. Tabla 4: Dise˜ nos seudo-´ optimos con tres puntos de soporte. Fuente: elaboraci´ on propia δ ξN 0.94 3.827 6.822 0.285 ξN1 = 0.3 0.35 0.35 0.94 3.827 7.63 0.335 ξN2 = 0.35 0.35 0.3 0.94 3.827 8.314 0.385 ξN3 = 0.3 0.4 0.3 0.94 3.827 8.93 0.435 ξN4 = 0.27 0.27 0.46 0.94 3.827 9.50 0.485 ξN5 = 0.25 0.25 0.5

5.4. Distribuci´ on emp´ırica del estad´ıstico −2Log(Λ) y c´ alculo de potencia de los dise˜ nos seudo´ optimos La metodolog´ıa consiste en escoger los dise˜ nos que maximicen la prueba de falta de ajuste del modelo. Siguiendo el algoritmo mostrado en la secci´ on 4.1. En la Tabla 5 se muestra el n´ umero de simulaciones y la diferencia, en norma, de los cuantiles calculados con las distribuciones emp´ıricas. De acuerdo con los resultados de la Tabla 5 y con un ǫ = 0.05, el n´ umero de simulaciones apropiado para encontrar la distribuci´ on emp´ırica del estad´ıstico −2Log(Λ) es Nsim = 10000 para los dise˜ nos ξN1 hasta ξN4 y para el dise˜ no ξN5 es de Nsim = 5000. Tabla 5: Normas de las diferencias de los cuantiles para distintos Nempi . Fuente: elaboraci´ on propia Nempi 500 1000 2000 5000 10000

||QempA,(1−α) − QempD,(1−α) || ξN1 ξN2 ξN3 ξN4 ξN5 0.26 0.36 0.231 0.31 0.16 0.20 0.27 0.20 0.24 0.09 0.11 0.14 0.128 0.16 0.07 0.08 0.09 0.11 0.07 0.028 0.03 0.012 0.02 0.019 0.0152

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


135

Propuesta para aumentar los puntos experimentales

Para determinar la mejor elecci´on de la constante de ponderaci´ on δ, se realiza un estudio de simulaci´on descrito en la secci´ on 4.1, de tal forma que el dise˜ no para escoger ser´a aquel que maximice la potencia de la prueba de falta de ajuste. Despu´es de realizar el proceso de simulaci´ on propuesto se halla el gr´ afico de las potencias para los cinco dise˜ nos seudo-´optimos con diferentes valores de α, ver Figura 4. Se observa que el dise˜ no seudo-´ optimo que presenta la mayor potencia de la prueba de falta de ajuste es el dise˜ no ξN1 el cual es:

ξN1

=

0.94 3.827 6.822 0.35 0.35 0.3

,

(25)

Figura 4: Potencia de la prueba de falta de ajuste con N = 20. Fuente: elaboraci´ on propia. Este dise˜ no permite validar el supuesto de falta de ajuste del modelo, lo cual como ya se mencion´o, es muy u ´ til cuando no se tiene certeza del modelo. Tambi´en, se interpreta de la siguiente manera: de las 20 corridas experimentales, siete se deben realizar con una concentraci´on de 0.94 mM, otras siete con una concentraci´ on de 3.827 mM y las 6 restantes se har´an con una concentraci´ on 6.822 mM. En la Figura 5 se muestra el gr´afico de dispersi´ on con los puntos de soporte del dise˜ no (25).

6. Conclusi´ on y discusi´ on A partir del estudio realizado en este art´ıculo, con el fin de aumentar el n´ umero de puntos de soporte en un dise˜ no Dπ -´optimo se puede concluir lo siguiente: Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


136

Cristian Fernando T´ ellez Pi˜ nerez & V´ıctor Ignacio L´ opez R´ıos

10

Crecimiento

8

6

4

2

0 0

5

10

15

20

25

30

Concentración(mM)

Figura 5: Puntos de soportes del dise˜ no seudo-´ optimo. Fuente: elaboraci´ on propia. Se realiz´o una generalizaci´on de la metodolog´ıa de O’Brien (1995) para adicionar puntos de soporte a los dise˜ nos D-´ optimos, desde el punto de vista de on para la funci´ on de sensibilos dise˜ nos Dπ -´optimo, se encontr´o una expresi´ lidad en t´erminos del n´ umero de par´ ametros p, la constante de ponderaci´ on δ, y la eficiencia del dise˜ no ξN . Esta expresi´ on fue utilizada para encontrar los dise˜ nos seudo-´optimos con m´as de p puntos de soporte, que permitan validar el supuesto de falta de ajuste del modelo. Para el modelo de decrecimiento exponencial se encontr´ o que, utilizando la metodolog´ıa, todos los dise˜ nos resultantes tienen potencias altas. Es indispensable seguir investigando con otras alternativas para el aumento del n´ umero de puntos de soporte del dise˜ no ´ optimo y proponer otras metodolog´ıas para otros criterios de optimalidad, como por ejemplo, c-optimalidad, entre otros. Recibido: 18 de abril de 2013 Aceptado: 1 de agosto de 2013

Referencias Argumedo-Galvan, S. & L´opez, V. (2011), ‘Estrategia de adici´ on de puntos de soporte para un dise˜ no D-´optimo’, VIII Coloquio Internacional de Estad´ıstica M´etodos Estad´ısticos Aplicados a Finanzas y Gesti´ on de Riesgo pp. 1–17. Atkinson, A., Donev, A. & R., T. (2007), Optimum experimental designs with SAS, Oxford University Press, New York. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Propuesta para aumentar los puntos experimentales

137

Cardona, J., L´opez, V. I. & Correa, J. C. (2012), ‘Dise˜ nos ´ optimos bayesianos para estimaci´on de par´ametros en farmacocin´etica’, Comunicaciones en Estad´ıstica 5(1), 97–112. Chaloner, K. & Larntz (1989), ‘Optimal bayesian design applied to logistic regression experiments’, Journal of Statistical 1, 191–208. Fedorov, V. & Hackl, P. (1997), ‘Model oriented design of experiments.’, Lecture Notes in Statistics . Gaffke, N. (1987), ‘On D-optimality of exact linear regression designs with minimum support’, Journal of Statistical Planning and Inference 15, 189–204. Inderjit, J. C. & Olofsdotter, M. (2002), ‘Joint action of phenolic acid mixtures and its significance in allelopathy research’, Physiologia Plantarum 114, 422–428. Kiefer, J. (1959), ‘Optimum experimental designs’, Journal of the Royal Statistical Society 21, 272–319. Kiefer, J. & Wolfowitz, J. (1959), ‘Optimum designs in regression problems’, Annals of Mathematical Statistics 30(2), 271–294. L´opez, V. I. (2008), Dise˜ nos ´optimos para discriminaci´ on y estimaci´ on en modelos no lineales, PhD thesis, Centro de Investigaci´ on en Matem´ aticas, A.C, Guanajuato, M´exico. L´opez, V. I. & Ramos, R. (2007), ‘Una introducci´ on a los dise˜ nos ´ optimos’, Revista Colombiana de Estad´ıstica 30(1), 37–51. O’Brien, T. (1992), ‘A note on quadratic designs for nonlinear regression models’, Biometrika 79, 847–859. O’Brien, T. (1995), ‘Optimal design and lack of fit in nonlinear regression models’, Statistical modelling, Lecture Notes in Statistics 104, 201–206.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2



Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 139–156

C´ opulas en geoestad´ıstica o lo que se puede hacer con coordenadas y estructuras de dependencia Copulas in geostatistic or what can be done with coordinates and dependency structures Danna Lesley Cruz Reyesa dlcruzr@unal.edu.co

Resumen Es com´ un en geoestad´ıstica utilizar m´etodos como el variograma o el coeficiente de correlaci´ on para describir la dependencia espacial, y kriging para realizar interpolaci´ on y predicci´ on, pero estos m´etodos son sensibles a valores extremos y est´an fuertemente influenciados por la distribuci´on marginal del campo aleatorio. Por tanto, pueden conducir a resultados poco fiables. Como alternativa a los modelos tradicionales de geoestad´ıstica se considera el uso de las funciones c´opula. La c´ opula es ampliamente usada en el campo de las finanzas y ciencias actuariales y debido a sus resultados satisfactorios empezaron a ser consideradas en otras ´areas de aplicaci´ on de las ciencias estad´ısticas. En este trabajo se muestra el efecto de las c´ opulas como una herramienta que presenta un an´alisis geoestad´ıstico bajo todo el rango de cuantiles y una estructura de dependencia completa, considerando modelos de tendencia espacial, distribuciones marginales continuas y discretas y funciones de covarianza. Se presentan tres m´etodos de interpolaci´on espacial: el primero corresponde al indicador kriging y kriging disyuntivo, el segundo m´etodo se conoce como el kriging simple y el tercer m´etodo es una predicci´on plug-in y la generalizaci´on del kriging trans-gaussiano. Estos m´etodos son utilizados con base en la funci´ on c´ opula debido a la relaci´ on que existe entre las c´opulas bivariadas y los indicadores de covarianzas. Se presentan resultados obtenidos para un conjunto de datos reales de la ciudad de Gomel que contiene mediciones de is´otopos radioactivos, consecuencia del accidente nuclear de Chern´obil. Finalmente, se estudian las c´ opulas discretas y se aplican a un conjunto de datos simulados, esto permite realizar una extensi´ on a los trabajos usuales de c´opulas en geoestad´ıstica. Palabras clave: c´ opulas, geoestad´ıstica, estad´ıstica espacial, estad´ıstica computacional, tendencia. a Investigadora Semillero IPREA. Departamento de Matematicas. Universidad Distrital Francisco Jos´ e de Caldas. Colombia

139


140

Danna Lesley Cruz Reyes

Abstract It is common in geostatistics to use methods such as the variogram or the correlation coefficient to describe spatial dependence, and kriging to make interpolation and predictions, but these methods are sensitive to extreme values and are strongly influenced by marginal distribution of the random field. Hence they can lead to unreliable results. As an alternative to traditional models in geostatistics are considered the use of the copula functions. Copula is widely used in the finance and actuary fields and due to satisfactory results they started to be considered in other areas of application of statistical sciences. This work shows the effect of copulas as a tool that presents a geostatistical analysis under the range of quantiles and a dependence structure, considering models of spatial tendency, continuous and discrete marginal distributions and covariance functions. Three interpolation methods are shown: the first is the kriging indicator and disjunctive kriging, the second method is known as the simple kriging and the third method is a plug-in prediction and the generalization of the trans-Gaussian kriging, these methods are used based on the copula function due to the existing relationship between bivariate copulas and covariance indicators. Results are presented for a set of actual data in the city of Gomel that contains measurements of radioactive isotopes, consequence of the Chernobyl nuclear accident. Finally, discrete copulas are studied and applied to a set of simulated data, this allows an extension of the usual works of copulas in Geostatistics. Keywords: copulas, geostatistics, spatial statistics, computational statistics, trend.

1. Introducci´ on Las c´ opulas describen la estructura de dependencia entre variables aleatorias, no es extra˜ no que la palabra c´ opula insin´ ua v´ınculo o uni´on, proviene del lat´ın y su significado es conexi´ on o lazo que une dos cosas distintas, fue utilizada por primera vez por Sklar en su c´elebre teorema en 1959, para describir funciones de distribuci´on multivariadas definidas sobre el cubo unidad [0, 1]n enlazando variables aleatorias con funciones de distribuci´ on de una sola dimensi´on (Ayyad et al. 2008). En geoestad´ıstica se analizan las realizaciones de un campo aleatorio {Z(s) : s ∈ D} donde D ⊂ Rn , cuya realizaci´ on, z(s) representa el valor de inter´es registrado en la medici´ on con respecto a cierto sistema de referencia s. En la actualidad existen herramientas para modelar la variabilidad espacial. La primera fue usada en principios de los cincuenta por Danie G. Krige, en Sud´africa, para ampliar t´ecnicas estad´ısticas para la estimaci´on de las reservas de minerales (B´ ardossy & Li 2008). En los a˜ nos sesenta el trabajo de Krige fue formalizado por el matem´ atico Georges Matheron, desde entonces ha sido ampliamente utilizado en ´ areas como la miner´ıa, la industria petrolera, hidrolog´ıa, meteorolog´ıa, oceanograf´ıa, el control del medio ambiente, la ecolog´ıa del paisaje y la agricultura. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


C´ opulas en geoestad´ıstica

141

A pesar de estos desarrollos, el modelado espacial a menudo se basa en hip´otesis gaussianas, que muchas veces no se consideran realistas para los tipos de datos y se reportan datos at´ıpicos que causan problemas en las investigaciones (B´ardossy & Li 2008). B´ ardossy en el a˜ no 2006 fue el pionero en proponer el uso de c´opulas para describir variabilidad espacial, B´ ardossy & Li (2008) realizan modelaci´on de campos aleatorios continuos, Kazianka & Pilz (2010) adoptan la metodolog´ıa de B´ardossy y realiza una extensi´ on considerando modelos de tendencia y campos aleatorios discretos, Kazianka & Pilz (2011) muestran c´omo se incorporan en un marco bayesiano mediante la asignaci´ on de probabilidades apriori de todos los par´ametros del modelo, en este trabajo se propone una extensi´on a estos modelos incluyendo las c´ opulas radialmente asim´etricas que resultan m´as eficientes que las hasta ahora usadas. Con el fin de describir la estructura de dependencia en un campo aleatorio en el area de geoestad´ıstica, se enfoca en los m´etodos cl´asicos como propiedades de sua´ vizamiento de los campos aleatorios, la funci´on de autocorrelaci´on, variogramas y t´ecnicas para la interpolaci´ on espacial, kriging simple, kriging universal, cokriging, kriging disyuntivo, kriging bayesiano entre otros (Diggle & Ribeiro 2007). En este trabajo se presenta el an´ alisis de estructura de dependencia a trav´es de c´opulas proponiendo una familia de c´ opulas radialmente asim´etricas. B´ ardossy & Li (2008) proponen una familia de distribuciones que se obtienen a trav´es de una transformaci´ on no-monot´ onica de la c´opula gaussiana multivariante, llamada c´ opula V−transformada. En este trabajo se proponen dos extensiones de esta metodolog´ıa: la primera es la inclusi´on de tendencia y la segunda es el m´etodo de indicador kriging e interpolaci´ on usando c´opulas que se presentar´an m´ as adelante. El trabajo se organiza de la siguiente manera. La secci´on 2, describe c´omo las c´ opulas ser´an implementas en los campos aleatorios, en la secci´on 3, se presenta un m´etodo de exploraci´ on de datos utilizando las funciones c´opula. La secci´on 4 se refiere a la c´opula gaussiana mientras que la Secci´on 5 se presenta la familia de las c´ opulas no gaussianas. Los resultados de la estimaci´on y la c´opula son presentados en la Secci´ on 6, para analizar el conjunto de datos llamados Gomel, en la Secci´on 7 se presentan c´ opulas discretas y finalmente, en la u ´ ltima secci´on se presentan las conclusiones.

2. Descripci´ on del campo aleatorio usando c´ opulas Bardossy (B´ ardossy & Li 2008) present´ o un m´etodo diferente a los m´etodos cl´asicos mencionados en la introducci´ on para el modelado de dependencia espacial por medio de c´ opulas, se pretende describir todas las distribuciones multivariadas necesarias del campo aleatorio por medio de c´opulas. Se asume un campo aleatorio estacionario {Z(x)|x ∈ D}, donde D ∈ R2 es el Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


142

Danna Lesley Cruz Reyes

area de inter´es. Se nota h el vector de separaci´on entre dos puntos. Sea FZ la ´ distribuci´ on univariante del proceso espacial, debido a que el campo aleatorio es estacionario FZ es la misma para cada localizaci´on x ∈ D. Con el teorema de Sklar, se puede establecer un modelo multivariante del campo tomando FZ = F1 = F2 = · · · = Fn tal que, su destituci´on conjunta H(x1 , . . . , xn ) de las variables x1 , . . . , xn , H(x1 , . . . , xn ) = C(F1 , F2 , . . . , Fn ),

(1)

Entonces, la relaci´ on entre dos localizaciones separadas por el vector h esta caracterizada por la distribuci´ on bivariante:

P (Z(x) ≤ z1 , Z(x + h) ≤ z2 ) = Ch (FZ (z1 ), FZ (z2 )), Por tanto, la estructura de dependencia quedar´ıa descrita por la funci´on c´opula Ch en funci´on del vector h, esto implica que la c´opula podr´ıa describir la estructura completa de dependencia a diferencia de los variogramas que solo describen con respecto a la media. Por otro lado, la elecci´on de la c´opula C ser´a determinada aplicando varias familias de c´ opulas al modelo y comparando los diferentes resultados. Es de esperarse que no todas las familias de c´opulas continuas sean apropiadas para este modelo, de manera natural se puede suponer una c´opula sim´etrica, debido a que la dependencia entre dos localizaciones x1 y x2 es la misma que x2 y x1 , de manera general se tiene que:

Ch (u1 , . . . , un ) = Ch (uπ(1) , . . . , uπ(1) ),

(2)

para una permutaci´ on arbitraria π. Adem´ as, se deben a˜ nadir las siguientes restricciones: Cuando �h� → ∞ entonces, Ch (u) → Πn (x), ya que se quiere independencia sobre localizaciones muy alejadas entre s´ı, Cuando �h� → 0 entonces, Ch (u) → M n (x) o equivalentemente, en localizaciones muy pr´ oximas entre s´ı, se quiere dependencia muy fuerte. Donde, la Πn (x) representa la c´ opula de independencia y M n (x) la c´opula m´ınima. Estas condiciones son fundamentales para la construcci´on de la c´opula, permite realizar un filtro de las c´ opulas que se podr´ıan proponer, por ejemplo, la familia Farlie-Gumbel-Morgenstern, no son u ´tiles. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


C´ opulas en geoestad´ıstica

143

3. C´ opulas emp´ıricas bivariadas Las c´ opulas emp´ıricas son usadas por primera vez en el ´area de geoestad´ıstica, por Haussler quien implement´ o las c´ opulas bivariadas emp´ıricas, describiendo la estructura de dependencia entre variables aleatorias. En este art´ıculo se consideran este tipo de c´ opulas como una metodolog´ıa de exploraci´on de datos, de tal forma que se pueda considerar la forma de la distribuci´on que puedan tener, para esto el campo aleatorio debe cumplir la condici´on de estacionariedad fuerte y como consecuencia se pueden obtener las siguientes ventajas (Haslauer et al. 2010): La distribuci´ on marginal, que podr´ıa distorsionar la estructura de dependencia, se filtra usando c´ opulas. As´ı, quedar´ıa definida u ´ nicamente por los datos. La c´ opula permiten una mejora en la cuantificaci´on de la incertidumbre en la interpolaci´ on. Un modelo estoc´ astico completo es la columna vertebral para el an´alisis geoestad´ıstico.

3.1. Algoritmo para la aplicaci´ on de las c´ opulas emp´ıricas bivariadas Las c´ opulas son usadas para explorar la estructura de dependencia entre dos variables aleatorias sin considerar las distribuciones marginales de cada variable. Las c´ opulas emp´ıricas son el caso m´ as simple de construcci´on, pero no es computacionalmente ´ optimo, aun as´ı, estas c´ opulas se pueden evaluar en diferentes direcciones y´ angulos para cada par de puntos y generar una idea de la forma de la estructura de dependencia del campo aleatorio. Seg´ un Haslauer (Haslauer et al. 2010) se debe considerar el campo aleatorio estacionario, la construcci´ on de la c´ opula correspondiente se puede realizar con el siguiente algoritmo: 1. Se calcula la c´ opula emp´ırica marginal FZ (z) de las observaciones. 2. Para alg´ un vector h dado, se calcula el conjunto S(h): S(h) = {(FZ (z(si )), FZ (z(sj )))||si − sj | ≈ h}

(3)

3. Debido a que S(h) es un conjunto de pares de puntos definidos en el cuadrado unidad, se puede calcular la funci´ on de densidad de la c´opula emp´ırica dado un vector h usando la siguiente ecuaci´on: 2i − 1 2j − 1 ∗ gi,j = c , 2k 2k 2 k ; (u, v) ∈ S(h)| = |S(h)| Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


144

Danna Lesley Cruz Reyes j i j−1 donde i−1 umero de parejas que k < u < k , k < v < k , y |S(h)| denota el n´ tienen como vector de separaci´ on h.

4. C´ opula gaussiana Debido a que los campos aleatorios m´ as importantes son los gaussianos, es de esperarse que las c´ opulas tambi´en lo sean, la c´ opula gaussiana definida en la ecuaci´on 4 con marginal FZ = Φµ,σ2 , donde µ y σ denota la media y varianza respectivamente, es muy utilizada en campos aleatorios, CΣG = Φ0,Σ (Φ−1 (u1 ), . . . , Φ−1 (un )).

(4)

Las ventajas de trabajar con estas c´ opulas es que son invariantes bajo transformaciones estrictamente crecientes de las variables aleatorias, adem´as de cumplir con las condiciones anteriormente dadas para campos aleatorios. La c´opula gaussiana se convierte en una funci´ on de h, suponiendo que la funci´on de correlaci´on sigue uno de los modelos param´etricos conocidos, por ejemplo, el modelo Matern. La c´ opula gaussiana toma la forma:

C(u1 , u2 ; θ)

= ΦG (Φ−1 (u1 ), Φ−1 (u2 )),

donde Φ es la funci´ on de distribuci´ on normal est´andar y ΦG (u1 , u2 ) es la distribuci´ on normal bivariada con par´ ametro de correlaci´on θ restringido al intervalo (−1, 1). La c´ opula normal permite por igual, grados de dependencia positiva o negativa, y por esto que es una de las m´ as utilizadas. Pero a pesar de esto, esta c´opula es sim´etrica y en muchos casos, los datos reales no cumplen esta propiedad; para solucionar este problema se utiliza una nueva familia de c´opulas que permiten asimetr´ıa en los datos y se presenta en la siguiente secci´on.

5. Familia de c´ opulas no gaussianas En este cap´ıtulo se presenta una familia de c´opulas asim´etricas multivariadas no gaussianas, debido a la necesidad que surge en geoestad´ıstica para solucionar la asimetr´ıa por naturaleza de este tipo de datos, la c´opula gaussiana no solo expresa simetr´ıa, sino tambi´en dependencia de simetr´ıa radial, tal que los cuantiles altos y bajos de la distribuci´ on tienen propiedades iguales de dependencia. Este supuesto pocas veces se cumple con datos reales. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


145

C´ opulas en geoestad´ıstica

La construcci´ on de una familia de c´ opulas no es trivial, actualmente existen numerosas c´ opulas, pero no cumplen las condiciones necesarias para ser utilizadas en geoestad´ıstica, y en otros casos la construcci´on es imposible debido a problemas computacionales. Por tanto, se presenta la siguiente definici´on de c´opula V-transformada: Sea Y ∼ N (0, Γ) una variable aleatoria n− dimensional con media 0T = (0, . . . , 0) y matriz de correlaci´ on Γ. Todas las marginales se suponen con varianza unitaria. Sea X definida para cada coordenada j = 1, . . . , n de tal forma:

Xj =

k(Yj − m)α m − Yj

Yj ≥ m, Yj < m,

donde k es una constante positiva y α y m n´ umeros reales arbitrarios, a manera de ejemplo, en la Figura 1, se presentan algunas transformaciones, se puede observar que la c´ opula recibe este nombre debido a la forma de V en la gr´afica.

3.5

m=0, k=1, alpha=1 m=0.5, k=2.5, alpha =0.5 m=0.5, k=2, alpha =0.5

3

Normal tranformada

2.5

2

1.5

1

0.5

0 −2.5

−2

−1.5

−1

−0.5

0 0.5 Variable Normal

1

1.5

2

2.5

Figura 1: Transformaciones V -normal. Fuente: elaboraci´ on propia.

La funci´ on de distribuci´ on marginal de X es: H(x)

= = =

P (X ≤ x) x α1 + m) + P (Y > x − m) P (Y < k x α1 + m) − Φ(−x + m) Φ( k

y la funci´ on de densidad: Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


146

Danna Lesley Cruz Reyes

h(x)

=

1 x α1 −1 kα k x α1 φ( + m) + φ(−x + m) k

tal que Φ(.) y φ(.) son las funciones de distribuci´on y densidad de la normal est´ andar, respectivamente. La consecuencia m´ as importante es que para valores menores que m, los cuales son los valores menores en el espacio original, se convierten, en el nuevo espacio en los valores mayores; tal que el valor m se convierte en el valor m´as peque˜ no para el nuevo espacio, en cuanto a los valores mayores que m en el espacio original, la transformaci´ on produce un concentramiento o una divisi´on dependiendo de la configuraci´ on de k y α. Este efecto produce que la dependencia asociada con los valores cercanos o iguales a m influya en la dependencia de los valores bajos en el nuevo espacio (Jing 2010). El efecto de la transformaci´ on tambi´en puede explicarse por el cambio en la distribuci´ on marginal. La Figura 2 muestra c´ omo la densidad en la distribuci´on cambia despu´es de la transformaci´ on. Se pueden notar las siguientes caracter´ısticas: Por lo general, los datos se dispersan despu´es de la transformaci´on. Si los valores de k y α son invariables, pero el valor de m incrementa, la densidad est´ a m´ as concentrada a la mediana y la distribuci´on es m´as sim´etrica. Si k = 1, α = 1 la transformada V −normal se aproxima a la distribuci´on χ2 con un grado de libertad. La Figura 3 muestra la densidad de algunas c´opulas bivariadas, en todos los casos ρ = 0.8 pero m va aumentando, tal que m = 0, 1.3, 15 y 50. Se puede notar que las c´ opulas son asim´etricas y similares a los resultados de la distribuci´on emp´ırica. Adem´ as, cada vez que incrementa m la distribuci´on es m´as sim´etrica, as´ı que se puede concluir que si m → ∞ la c´ opula converge a la c´opula gaussiana (Jing 2010). Para m = 0, k = 1 y α = 1 la c´ opula que se genera es la c´opula χ2 , en la figura se ubica en la esquina superior derecha.

6. Cat´ astrofe en Chern´ obil En abril de 1986, ocurri´ o el peor accidente nuclear en Chern´obil en la antigua Uni´ on Sovi´etica (ahora Ucrania). La central nuclear de Chern´obil, situada a 100 kil´ ometros al norte de Kiev, ten´ıa 4 reactores. En un d´ıa de abril a las 1:23 a.m. la reacci´ on en cadena en un reactor perdi´o el control, la creaci´on de explosiones y una bola de fuego vol´ o el acero pesado del reactor y la tapa de concreto. El Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


C´ opulas en geoestad´ıstica

147

Figura 2: Transformaciones V -Normal con par´ ametros: m = 0, k = 1 y α = 1 (esquina superior izquierda), m = 0, k = 3 y α = 1 (esquina superior derecha), m = 0, k = 2.5 y α = 0.5 (esquina inferior izquierda) y m = 1, k = 2.5 y α = 0.5 (esquina inferior izquierda). Fuente: elaboraci´ on propia.

Figura 3: C´ opula V −transformada normal. Fuente: elaboraci´ on propia. desastre destruy´ o el reactor Chern´ obil-4 y mat´o a 30 personas, entre ellas 28 por exposici´ on a la radiaci´ on, 209 m´ as fueron tratadas por envenenamiento agudo por radiaci´ on y entre estos, 134 casos fueron confirmados. Grandes ´areas de Bielorrusia, Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


148

Danna Lesley Cruz Reyes

Ucrania, Rusia y m´ as all´ a estaban contaminadas en diversos grados. El desastre de Chern´ obil fue un evento u ´nico y el u ´nico accidente en la historia de la energ´ıa nuclear comercial. Ahora, 26 a˜ nos despu´es del accidente todav´ıa m´as de 3 millones de ni˜ nos sufren de estos efectos, la zona alrededor del reactor todav´ıa est´a muy contaminada, la naturaleza est´ a muerta y no hay vida silvestre. En la regi´on de Gomel el gobierno ruso construy´ o una red donde se estudia la concentraci´on de la cantidad de radiactividad. El conjunto de datos que se utiliza son mediciones de Cs137, un is´otopo radiactivo. Se analiza el conjunto de datos que corresponde a 148 localizaciones xi = (x1i , x2i )T , i = 1, . . . , 148 en la regi´ on de Gomel. Los datos son observados diez a˜ nos despu´es del accidente de Chern´ obil. En la Figura 4 se muestran las realizaciones donde se encontr´ o el is´ otopo radiactivo (cruces rojas), se puede ver que la mayor´ıa de los valores son peque˜ nos, sin embargo, en la parte noreste, noroeste y sur de la regi´on algunos valores relativamente grandes se producen. El an´ alisis de datos en c´ opulas bivariadas permite la predicci´on, en la Figura 4 se muestran las localizaciones observadas marcadas con una x roja, y los puntos azules la grilla de interpolaci´ on, donde se realizar´an las respectivas predicciones. 150

100

50

0

−50

−100

−150 −150

−100

−50

0

50

100

150

Figura 4: Observaciones y datos interpolados de los datos de Gomel. Fuente: elaboraci´ on propia. Para encontrar una marginal univariada apropiada, se prueban las distribuciones univariadas normal, gamma, transformaci´ on box-cox, el valor generalizado extremo (GEV) y la distribuci´ on de log-normal, para todas ellas se calculan las estimaciones de m´ axima verosimilitud, asumiendo que las observaciones son independientes. De esta forma, la elecci´ on que se toma ser´ a de la distribuci´on marginal box-cox con par´ ametro γ = 0.0032. La selecci´ on de una c´ opula gaussiana se puede justificar por medio del ajuste de bondad que se presenta en Genest (Genest & R´emillard 2008), es recomendable realizar un n´ umero grande de simulaciones, pero en este caso es casi imposible, ya Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


149

C´ opulas en geoestad´ıstica

que la complejidad computacional es muy alta, por tanto, seg´ un Genest (Genest & R´emillard 2008) se pueden realizar 150 simulaciones, los resultados de la prueba muestran que: Tabla 1: Valor p para el estad´ıstico de elecci´ on de la c´ opula gaussiana. Fuente: elaboraci´ on propia Resultado p−valor con 95 % h 0 − 10 10 − 20 90 − 100 Tn 0.33 0.999 0.99 Sn 0.99 0.99 0.999

lag=10

Los valores de la prueba de Kolmogorov−Smirnov parecen ser menores que los valores de p para el de Cramer−von Mises prueba puesto que la prueba de Kolmogorov− Smirnov es insensible a valores extremos. Adem´as, no existe un p− valor significantemente peque˜ no, por tanto, se puede asumir que el modelo propuesto se ajusta a los datos. A pesar de esto, se puede comparar en la Figura 5 la c´opula emp´ırica con la te´ orica, mostrando de manera gr´ afica que el modelo no puede ser sim´etrico. 1

1

0.5

0.5

lag=40

lag=20

0

0.2

0.4

0.6

0.8

1

0

1

1

0.5

0.5

0

0

20 10 0

0.5

1

0 20 15 10 5

0

0.2

0.4

0.6

0.8

1

1

1

0.5

0.5

0

lag=60

0

30

0

0.2

0.4

0.6

0.8

1

0

1

1

0.5

0.5

0

0

0.2

0.4

0.6

0.8

1

0

0

0.5

1 14 12 10 8 6 4 2

0

0.5

1 10 8 6 4 2

0

0.5

1

Figura 5: Gr´ afico de dispersi´ on de los pares de datos de rango transformados, es decir, densidad de la c´ opula emp´ırica bivariado (columna de la izquierda), c´ opula te´ orica bivariada gaussiana (columna de la derecha). Fuente: elaboraci´ on propia. Aun as´ı, se realiza la estimaci´ on de los par´ ametros, se utiliza el modelo de correlaci´ on Mat´ern incluyendo un t´ermino efecto de pepita, con los valores de ν1 ∈ [0, ∞] que corresponde al par´ ametro de rango, ν2 ∈ [0, 1] el par´ametro del efecto pepita y κ es el par´ ametro de suavizamiento. Entonces, se deben calcular cinco par´ametros, los par´ ametros correspondientes a la transformaci´on Box−cox, γ, y los par´ametros de la funci´ on de correlaci´ on θ = (ν1 , ν2 , κ). Los resultados son: γˆ = 0, 090, νˆ1 = 61.92, νˆ2 = 0.0539 y κ ˆ = 0.8650. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


150

Danna Lesley Cruz Reyes

Para la c´ opula no gaussiana se estudiar´ a la c´opula V −transformada, se selecciona la distribuci´ on marginal log Normal, con esto se pretende tomar en cuenta la propiedad fundamental de las c´ opula que permite a la estructura de dependencia no ser influenciada con las distribuciones marginales. De la misma forma que en la anterior secci´ on, la selecci´ on de la c´ opula V se puede justificar por medio del ajuste de bondad de Genest (Genest & R´emillard 2008), los resultados de la prueba muestran que: Tabla 2: Valor p para el estad´ıstico de elecci´ on de la c´ opula V - Normal. Fuente: elaboraci´ on propia h 0 − 10 10 − 20 90 − 100 Tn 0.99 0.999 0.99 Sn 0.99 0.99 0.99

Al realizar una comparaci´ on con los valores p de la c´opula gaussiana, se puede notar que son m´ as bajos que los de la c´ opula V − transformada. Por tanto, se puede asumir que el modelo propuesto se ajusta a los datos. Se puede comparar en las Figura 7) y 8 la c´ opula emp´ırica con la te´orica, mostrando un mejor ajuste que la c´ opula gaussiana de la 5.

1

1

0.5

0.5

25

lag=20

20 15 10 5

lag=40

0

0

0.2

0.4

0.6

0.8

1

0

1

1

0.5

0.5

0

0

0.2

0.4

0.6

0.8

1

1

0

0

0.5

1 15 10 5

0

0.5

1

1

lag=60

6 0.5

0.5

0

0

4 2

0

0.2

0.4

0.6

0.8

1

0

0.5

1

Figura 6: Gr´ afico de dispersi´ on de los pares de datos de rango transformados, es decir, densidad de la c´ opula emp´ırica bivariado (columna de la izquierda), c´ opula te´ orica bivariada χ2 -c´ opula (columna de la derecha). Fuente: elaboraci´ on propia.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


151

C´ opulas en geoestad´ıstica

En este caso, se debe calcular 6 par´ ametros, los par´ametros correspondientes a la marginal Log Normal µ y σ 2 , a la funci´on de correlaci´on, que en este caso se usar´ a Matern θ = (ν1 , ν2 , κ) y el par´ ametro correspondiente a la c´opula V , m = 1, 27, k = 1 y α = 1. Los resultados son: µ ˆ = 0, 595, σ ˆ = 1, 37, νˆ1 = 100, 023, νˆ2 = 0, 0576 y κ ˆ = 10. En ausencia de datos de prueba, que se utiliza para realizar una adecuada validaci´ on cruzada como un m´etodo cuantitativo para evaluar el desempe˜ no del modelo, se utiliza el valor de M SE y las respectivas predicciones para cada modelo se pueden observar en la Figura 7. Tabla 3: Valores de M SE para modelos de dependencia. Fuente: elaboraci´ on propia V −transformada 16.835

gaussiana 17.9995

100 25

80 60

20

40 20

15

0 −20

10

−40 −60

5

−80 −100 −100

−50

0

50

100

Figura 7: Datos Gomel: Predicci´ on de la media para modelos gaussianos. Fuente: elaboraci´ on propia. El valor de M SE = 16, 835 resulta menor para la c´opula no gaussiana, esto demuestra un mejor desempe˜ no del modelo. Adem´as en la Figura 8 se observa que los intervalos de confianza son mucho m´ as cortos para los modelos basados en la c´ opula V − transformada, un hecho que tambi´en se refleja en las predicciones de Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


152

Danna Lesley Cruz Reyes

20

100

18

80 60

16

40

14

20

12

0

10

−20

8

−40

6

−60

4

−80

2

−100 −100

−50

0

50

100

Figura 8: Datos Gomel: Predicci´ on de la desviaci´ on est´ andar para modelos gaussianos. Fuente: elaboraci´ on propia.

las desviaciones est´ andar.

7. C´ opula discreta En las secciones anteriores se ha descrito la forma como se utilizan las c´opulas para construir estructuras de dependencia, pero u ´nicamente se consideran variables aleatorias con distribuciones marginales continuas y en algunos casos se puede presentar la necesidad de implementar otro tipo de c´opulas. En algunos casos geoestad´ısticos, se pueden tener variables aleatorias cuyas realizaciones pertenezcan al conjunto de los n´ umeros naturales, de tal forma que, lo m´ as conveniente es utilizar distribuciones discretas. En el marco de este art´ıculo, donde el principal objetivo es utilizar c´ opulas para datos geoestad´ısticos y siguiendo el teorema de Sklar (1) el cual garantiza la existencia de la c´opula para una funci´ on de distribuci´ on conjunta H(X, Y ) de las variables aleatorias X e Y , se propone una extensi´ on a este teorema considerando X y Y variables aleatorias discretas. Kazianka (Kazianka & Pilz 2010) introduce c´opulas en geoestad´ıstica para marginales discretas, con base en este u ´ltimo art´ıculo se realiza este cap´ıtulo, sin embargo, se considera por una metodolog´ıa diferente para realizar la inferencia y estimaci´ on de par´ ametros, ya que la complejidad computacional de Kazianka es alta. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


C´ opulas en geoestad´ıstica

153

7.1. Inferencia para c´ opulas con marginales discretas en geoestad´ıstica Las c´ opulas con marginales discretas no difieren demasiado para el caso continuo, se deben tener en cuenta los anteriores resultados, pero se aplican de la misma forma. La estructura de dependencia esta caracterizada por las familias de c´opulas param´etricas, por ejemplo, la c´ opula gaussiana definida como: Cµ,Σ (u, v) = ΦΣ (φ−1 (u), φ−1 (v))

(5)

Por tanto, es posible realizar una estimaci´ on de m´axima verosimilitud, considerando un modelo generativo donde los marginales uniformes se generan a partir de la densidad de la c´ opula, y a su vez, se utilizan para generar las variables discretas con el uso de la distribuci´ on inversa de la marginal de las funciones de distribuci´ on. Esta marginal puede ser de cualquier familia parametrizada de distribuciones univariantes discretas. A manera de ejemplo, se utiliza la simulaci´on realizada por Diggle (Diggle & Ribeiro 2007) con respuestas Poisson y un proceso gaussiano en el programa R. Se consider´o un proceso gaussiano para simular las localizaciones con µ = 0.5m σ 2 = 3 y funci´ on de correlaci´ on Mat´ern con κ = 1.5 y φ = 0.2. Las realizaciones son exponenciales con media Poisson, µi = exp(0.5+z(xi )). EL resultado y el computo de la c´ opula se realiza en MATLAB. En la Figura 9 se muestra la simulaci´on realizada. De la misma forma que procedi´ o anteriormente, se realiza una exploraci´on de datos de la estructura de dependencia utilizando la c´opula emp´ırica, en la Figura 10 se muestra la estructura de dependencia para lags = 0.15, 0.19, 0.198, 0.21, se puede notar una clara simetr´ıa en los puntos lo que puede indicar una c´opula gaussiana. Esta c´ opula se presenta en la Figura 11. Los resultados muestran que es posible construir una estructura de dependencia para c´ opulas con marginales discretas, para el caso bivariado y que adem´as resulta flexible para la estructura de dependencia, sin embargo, matem´aticamente, la generalizaci´ on de este m´etodo no es una tarea trivial debido a la complejidad computacional que se puede presentar para un caso multivariado (n > 2).

8. Conclusi´ on Si la estructura de dependencia entre una poblaci´on es relativamente homog´enea, entonces, las c´ opulas pueden ser u ´tiles, en el sentido de que se puede estimar a partir de una muestra mucho menor que la necesaria, por ejemplo, para una matriz de covarianza completa. Por otra parte, si las dependencias dentro de una poblaci´ on var´ıan notablemente para diferentes pares de datos, la c´opula gaussiana carece de la flexibilidad para capturar las dependencias extremas. En tales casos, Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


154

Danna Lesley Cruz Reyes

1

14

0.9 12

0.8 0.7

10

0.6

8

0.5

6

0.4 0.3

4

0.2 2

0.1 0

0

0.2

0.4

0.6

0.8

0

1

Figura 9: Simulaci´ on proceso gaussiano con marginales Poisson. Fuente: elaboraci´ on propia. 1 0.9 0.8

lag=0.15

0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Figura 10: C´ opula emp´ırica para simulaci´ on proceso gaussiano con marginales Poisson, h = 0.15. Fuente: elaboraci´ on propia.

se puede aplicar otra c´ opula de la familia el´ıptica, ya que est´a parametrizada por la misma matriz de covarianza de la c´ opula gaussiana. Sin embargo, la c´opula gaussiana se proh´ıbe para dimensiones altas, ya que la evaluaci´on de la probabilidad requiere un n´ umero exponencial de evaluaciones de la gaussiana multivariada, que se debe calcular num´ericamente convirtiendo el an´alisis en una labor imposible. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


155

C´ opulas en geoestad´ıstica

1

1

0.9 100

0.8 0.7

80

lag=0.2

0.6 0.5

60

0.5

0.4 40

0.3 0.2

20

0.1 0

0

0.2

0.4

0.6

0.8

1

0

0

0.5

1

0

Figura 11: C´ opula gaussiana con marginales Poisson. Fuente: elaboraci´ on propia. Este art´ıculo es producto de la tesis de maestr´ıa dirigida por el profesor Edilberto Cepeda de la Universidad Nacional de Colombia. Recibido: 04 de junio de 2013 Aceptado: 20 de septiembre de 2013

Referencias Ayyad, C., Mateu, J. & Porcu, E. (2008), Inferencia y modelizaci´ on mediante c´ opulas, Universidad Jaume. B´ ardossy, A. & Li, J. (2008), ‘Geostatistical interpolation using copulas’, Water Resources Research 44(7). Diggle, P. & Ribeiro, P. (2007), Model-based Geostatistics, Springer Series in Statistics, Springer. Genest, C. & R´emillard, B. (2008), ‘Validity of the parametric bootstrap for goodness-of-fit testing in semiparametric models’, Annales de I’institut Henri Poincar´e (B) Probabilit´es et Statistiques 44(6), 1096–1127. Haslauer, C., Li, J. & B´ ardossy, A. (2010), ‘Application of copulas in geostatistics’, geoENV VII Geostatistics for Environmental Applications. Quantitative Geology and Geostatistics 16, 395–404. Jing, L. (2010), Application of copulas as a new geostatistical tool, PhD thesis, Universit¨ at Stuttgart, Holzgartenstr. 16, 70174 Stuttgart. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


156

Danna Lesley Cruz Reyes

Kazianka, H. & Pilz, J. (2010), ‘Copula based geostatistical modeling of continuous and discrete data including covariates’, Stochastic environmental research and risk assessment 24(5), 661–673. Kazianka, H. & Pilz, J. (2011), ‘Bayesian spatial modeling and interpolation using copulas’, Computers & Geosciences 37(3), 310–319.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 157–174

Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on Comparison of confidence intervals for the correlation coefficient Liliana Vanessa Pachecoa

Juan Carlos Correab

liliana.pacheco24@gmail.com

jccorreamorales@gmail.com

Resumen La construcci´on de intervalos de confianza para la estimaci´ on de la correlaci´ on en la distribuci´on normal bivariable y multivariable, ρ, es un problema importante en el trabajo estad´ıstico aplicado. Uno de los prop´ ositos principales de este trabajo es hacer una revisi´on de los diferentes procedimientos para su construcci´ on. Se realiz´o adem´as, un estudio de simulaci´ on para analizar el comportamiento de los niveles de confianza reales y compararlos con los te´ oricos, analizar el comportamiento de las longitudes de los intervalos de confianza logrados por los nueve m´etodos considerados y determinar cu´al metodolog´ıa provee los intervalos m´ as cortos. As´ı como tambi´en se obtuvo un indicador que resume de manera m´ as efectiva la calidad del intervalo analizado. Palabras clave: coeficiente de correlaci´on, estimaci´ on, intervalo de confianza. Abstract The construction of confidence intervals to estimate the correlation in the normal bivariate and multivariate distribution, ρ, is an important problem in applied statistical work. One of the main purposes of this work is to make a review of the different procedures for their construction. In addition, a simulation study was conducted to analyze the behavior of real confidence levels and compare them to theoretical ones, analyze the behavior of the lengths of the confidence intervals achieved by the nine methods considered and determine which methodology provides the shortest intervals. Likewise an indicator that summarizes more effectively the quality of the analyzed interval was also obtained. Keywords: correlation coefficient, estimation, confidence interval. a Universidad b Universidad

Nacional de Colombia, sede Medell´ın. Escuela de Estad´ıstica. Colombia. Nacional de Colombia, sede Medell´ın. Escuela de Estad´ıstica. Colombia.

157


158

Liliana Vanessa Pacheco & Juan Carlos Correa

1. Introducci´ on El coeficiente de correlaci´on es una de las medidas estad´ısticas m´ as usadas dentro del trabajo aplicado. Algunas de sus propiedades fueron estudiadas por Zheng & Matis (1994), donde presentan y demuestran las que consideron las m´ as destacadas: 1. |R| ≤ 1. 2. Si |R| = 1 entonces los pares (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) yacen en una l´ınea recta. 3. Rec´ıprocamente, si los (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) yacen en una l´ınea recta, entonces |R| = 1. Debido a su amplia utilizaci´on, varias son sus interpretaciones. Falk & Well (1997) sustentan que el coeficiente de correlaci´on de Pearson, ρ, es ampliamente usado en campos como la educaci´on, psicolog´ıa, y todas las ciencias sociales, y el concepto es empleado en diversas metodolog´ıas de tipo estad´ıstico. La estimaci´on del coeficiente de correlaci´on por medio de intervalos es importante, y para ello se disponen de diversos m´etodos. La metodolog´ıa quiz´ a m´ as conocida es la propuesta originalmente por Fisher en la cual se realiza una transformaci´ on del coeficiente de correlaci´on muestral, r, y asumiendo normalidad asint´ otica, se desarrolla un intervalo para el coeficiente de correlaci´ on poblacional ρ (Krishnamoorthy & Xia 2007). Tambi´en se conocen transformaciones adicionales hechas por Hotelling (1953) a la propuesta inicial de Fisher. El problema para el analista es la carencia de reglas sobre cu´ al f´ ormula es preferible. Para esto se pretende realizar un estudio de simulaci´ on que permita analizar el comportamiento de los niveles de confianza reales y compararlos con los te´ oricos para los diversos intervalos disponibles. As´ı como tambi´en, hacer una comparaci´ on de las longitudes del intervalo obtenido por las diferentes metodolog´ıas y la implementaci´on de un indicador que permita relacionar los dos criterios de evaluaci´ on anteriormente mencionados. Algunas de las metodolog´ıas empleadas para la construcci´ on de los intervalos de confianza pueden encontrarse en Fisher (1921), Hotelling (1953), Pawitan (2001), Efron (1979) y Krishnamoorthy & Xia (2007). Adem´as, en Krishnamoorthy & Xia (2007) se pueden encontrar los resultados de estudios comparativos realizados previamente para tres m´etodos de construcci´ on de intervalos, en los cuales la metodolog´ıa consisti´ o en la obtenci´ on de l´ımites superiores para ρ bajo diferentes escenarios: Tama˜ nos de muestra peque˜ nos (n=5, n=10, n=20 y n=30) y valores de r positivos; y el c´ alculo de la probabilidad P (R ≤ r|n, ρU ). Estos estudios mostraron que, en particular, el mejor m´etodo para construir intervalos unilaterales para ρ en muestras peque˜ nas es el de pivote generalizado. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

159

2. Intervalos de confianza 2.1. M´ etodo I: basado en la transformaci´ on Arcotangente Este intervalo puede considerarse el intervalo cl´ asico para este par´ ametro y fue propuesto por Fisher (1921). Debido a que la distribuci´ on del coeficiente de correlaci´on muestral no es centrada y/o sim´etrica, el c´ alculo de intervalos de confianza a partir de los cuantiles de la distribuci´on no se hace sencillo. Por tanto, Fisher propone la transformaci´on arcotangente hiperb´ olico: r = tanh(z) ⇔

z=

1 1+r log 2 1−r

(1)

y demostr´o que z tiene una distribuci´on aproximadamente normal cuando el tama˜ no muestral on normal se caracteriza por una media es grande. Dicha distribuci´ 1+ρ 1 ξ = 12 log 1−ρ y varianza n−3 . El intervalo hallado a partir de la transformaci´ on Arcotangente hiperb´olico tiene la siguiente forma: zα/2 zα/2 tanh arctanh(r) − √ , tanh arctanh(r) + √ (2) n−3 n−3 donde z α2 es el percentil superior α/2 de la distribuci´ on normal est´ andar. 2.1.1. Modificaciones a la transformaci´ on Arcotangente Teniendo en cuenta el hecho de que la transformaci´ on propuesta por Fisher funciona adecuadamente siempre y cuando los tama˜ nos muestrales sean grandes, se hizo necesario encontrar la manera de reducir el error al trabajar esta transformaci´on en muestras peque˜ nas. Hotelling (1953) estudi´ o esta situaci´ on y propuso 4 transformaciones zi con i = 1, . . . , 4, para la transformaci´ on z original de Fisher, las cuales tambi´en, asint´oticamente tienen una distribuci´ on Normal con media ξi 1 y varianza n−1 : 7z + r 7ξ + ρ ξ1 = ξ − (3) z1 = z − 8(n − 1) 8(n − 1)

z2 = z −

119z + 57r + 3r2 7z + r − 8(n − 1) 384(n − 1)2

ξ2 = ξ −

3z + r 4(n − 1)

ξ3 = ξ −

z3 = z −

z4 = z −

23z + 33r − 5r2 3z + r − 4(n − 1) 96(n − 1)2

ξ4 = ξ −

119ξ + 57ρ + 3ρ2 7ξ + ρ − 8(n − 1) 384(n − 1)2 (4) 3ξ + ρ 4(n − 1)

(5)

23ξ + 33ρ − 5ρ2 3ξ + ρ − (6) 4(n − 1) 96(n − 1)2

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


160

Liliana Vanessa Pacheco & Juan Carlos Correa

2.2. M´ etodo II: Intervalo de la raz´ on de verosimilitud Kalbfleish (1985) y Pawitan (2001) presentan la metodolog´Ĺa para construir intervalos de verosimilitud. Un intervalo de la raz´ on de verosimilitud para θ es definido como el conjunto de valores parametrales con valores altamente veros´Ĺmiles: L(θ) θ, >c (7) ˆ L(θ) para un valor c ∈ (0, 1) y donde θˆ es el estimador muestral del par´ ametro θ ˆ d L(θ) → χ21 , la probabilidad de cubrimiento aproximada para L(θ) este tipo de intervalos est´a dada por: ˆ L(θ) L(θ) < −2 log c (8) P >c = P 2 log ˆ L(θ) L(θ) ≈ P χ21 < −2 log c . (9) Sabiendo que 2 log

Luego, para cualquier valor 0 < Îą < 1 el punto de corte c es: 1 c = exp − χ21,1âˆ’Îą 2

(10)

donde χ21,1âˆ’Îą es el 100(1 − Îą) percentil de una χ21 . Por tanto: L(θ) > c = P χ21 < χ21,1âˆ’Îą = 1 − Îą. P ˆ L(θ)

(11)

Si L(Ď ) es la funci´on de verosimilitud, se define la funci´ on de verosimilitud relativa como: L(Ď ) (12) R(Ď ) = L(r) El conjunto de valores de Ď para los cuales R(Ď ) > c es llamado intervalo de 100 Ă— c % de verosimilitud para Ď . Los intervalos del 14.7 % y del 3.6 % de verosimilitud corresponden a intervalos de confianza de niveles del 95 % y 99 % aproximadamente. Lo que se debe hacer entonces es hallar las ra´Ĺces que nos dan los l´Ĺmites del intervalo. Para el caso del par´ametro Ď tenemos que un intervalo de confianza del 95 % se halla encontrando el par de ra´Ĺces tal que

R(Ď ) =

=

L(Ď ) L(r)

(13)

1âˆ’Ď 1 − r2

2

(n−1) 2

∞

(cosh w − Ď r)−(n−1) dw

0

≼ K(k, ι)

∞

(14)

(cosh w − r2 )−(n−1) dw

0

Comunicaciones en Estad´Ĺstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

161

donde K(k, α) es el valor cr´ıtico m´ınimo con el cual aseguramos una confianza deseada, ya sea del 95 % o 99 %, por ejemplo.

2.3. M´ etodo III: Bootstrap La primera aplicaci´on del m´etodo bootstrap fue en la determinaci´on del intervalo de confianza del coeficiente de correlaci´on en el art´ıculo seminal de Efron (1979). A partir de la muestra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) se calculan las estimaciones de m´axima verosimilitud del vector de medias y de la matriz de varianzas y covarianzas de la distribuci´on normal bivariable. Se generan M muestras de tama˜ no n de una distribuci´ on normal bivariable ˆ Y para cada una de estas muestras se estima el con par´ametros µ ˆ y Σ. par´ametro ρ, por ejemplo, para la muestra j el valor del estimador para el coeficiente de correlaci´on es rj . Para los rj , j = 1, . . . , M , se construye un histograma y se calculan los {0.025} {0.975} percentiles 0.025 y 0.975 los cuales se denotar´ an: ri . y ri {0.025}

Y el intervalo de Bootstrap para ρ est´a dado por ri inferior y superior respectivamente.

{0.975}

y ri

como l´ımite

2.4. M´ etodo IV: Intervalo de Jeyaratnam Jeyaratnam propone un intervalo para el coeficiente de correlaci´on de la distribuci´on normal bivariada y este tiene la siguiente forma (Krishnamoorthy & Xia 2007): donde

r−w r+w , 1 − rw 1 + rw

tn−2,1−α/2 √ n−2

w= 1+

(tn−2,1−α/2 )2 n−2

(15)

(16)

y tm,p denota el p-´esimo cuantil de la distribuci´ on t-Student con m grados de libertad.

2.5. M´ etodo V: Test generalizado para ρ Seg´ un el art´ıculo publicado por Krishnamoorthy & Xia (2007), los autores citados proponen un algoritmo para construir un intervalo de confianza para ρ a partir de Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


162

Liliana Vanessa Pacheco & Juan Carlos Correa

la distribuci´ on del pivote generalizado para el coeficiente de correlaci´ on:

Gρij = i

j

bik bjk

k=1

2 k=1 bik

j

(17)

2 k=1 bjk

para i > j. Que en el caso bivariado lo anterior se expresa de la siguiente forma: b21 Gρ21 = 2 b21 + b222

(18)

Y simplificando la expresi´on anterior, se tiene:

r∗ V22 − V21 Gρ21 = 2 (r∗ V22 − V21 )2 + V11

(19)

r Donde r∗ = √ y V es una matriz triangular inferior, las Vij ’s son indepen1 − r2 2 2 dientes con Vii ∼ χn−i para i = 1, . . . , p y Vij ∼ N (0, 1) para i < j. Para mayor detalle, se sugiere remitirse al desarrollo completo para la obtenci´ on de los Gρij y la matriz V , que se encuentra en Krishnamoorthy & Xia (2007). Entonces, seg´ un los autores, para un r dado la distribuci´ on de Gρ no depende de alg´ un par´ametro que sea desconocido, y el intervalo se calcula empleando el siguiente algoritmo: Algoritmo 1 Generar valores del pivote Gρij Requiere Un n y ρ fijo Calcular: r∗ = ρ/ 1 − ρ2 Para: i = 1 hasta m Haga Generar: Z0 ∼ N (0, 1). Generar: U 1 ∼ χ2n−1 . Generar: U 2 ∼ χ2n−2 . √ r ∗ U 2 − Z0 Calcular: Qi = √ (r∗ U 2 − Z0 )2 + U 1 Fin del ciclo. Luego, los percentiles α2 y (1 − α2 ) de los valores calculados para el pivote Gρij mediante el mencionado algoritmo conforman los l´ımites del intervalo de confianza al 100(1 − α) % para ρ.

3. Resultados de la simulaci´ on Para comparar los nueve m´etodos de construcci´ on de intervalos de confianza en este caso se realiz´o una simulaci´on en R en la cual se consideraron combinaciones Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

163

de (Ď , n) con valores de Ď = 0.0, 0.1, 0.2, . . . , 0.9 y de n = 5, 10, 20, 50, 100; un 1 1 Ď vector de medias Âľ = y = . 1 Ď 1

Para cada pareja se realizaron 1000 r´eplicas y se calcularon las f´ ormulas previas a un nivel de confianza del 95 % (Este es conocido como el nivel nominal). Para cada m´etodo y combinaci´on se calcul´o la mediana de la longitud de los 1000 intervalos calculados y la proporci´on de intervalos que cubren el verdadero valor de Ď , esto es lo que se llama el nivel de confianza real. Los resultados se encuentran en las tablas 1 al 5 y en las Figuras 1 y 2.

De las gr´aficas y las tablas observamos que las longitudes m´ as amplias en los intervalos se encuentran en los tamaËœ nos de muestra m´ as pequeËœ nos, siendo el caso de n = 5 donde los nueve tipos de intervalo alcanzan las mayores longitudes para el respectivo valor de Ď . Adem´as, vemos que a medida que se ampl´Ĺa el valor de Ď para un tamaËœ no de muestra particular, las longitudes son cada vez menores, lo que sugiere que los intervalos de confianza alcanzan menores longitudes cuando el valor verdadero de Ď se va acercando a 1. Con respecto al nivel real alcanzado por cada intervalo se observa que cada uno de los m´etodos cuando el tamaËœ no muestral es bastante pequeËœ no, por ejemplo, n = 5, tienen una probabilidad de cobertura diferente a la deseada 95 %, y no es homog´enea en cada valor de Ď , es decir, que en cada m´etodo se observa que algunas veces el nivel real supera al nominal y a veces es al contrario, conforme se var´Ĺa el valor de Ď . Los m´as cercanos a 95 % de nivel real, cuando n = 5 son ArcTanh, Jeyaratnam y P.G; y el que se comporta peor es Bootstrap. A medida que aumenta el tamaËœ no de muestra se nota una tendencia en todos los intervalos a estar cerca del nivel nominal deseado, 95 %.

3.1. ´Indice de res´ umenes A manera de resumen se presenta un ´Ĺndice que seËœ nala la calidad de las metodolog´Ĺas anteriormente mencionadas. Este ´Ĺndice busca favorecer a aquellos m´etodos que presenten longitudes de intervalo pequeËœ nos y niveles reales de confianza cercanos o mayores al 95 %: I = (2 − LI)

NR NN

(20)

donde: LI: Mediana de la longitud del intervalo. NR: Promedio del nivel real del intervalo. NN: Nivel nominal de los intervalos, que en este caso es 0.95.

Comunicaciones en Estad´Ĺstica, diciembre 2013, Vol. 6, No. 2


Tabla 1: Longitud y nivel de confianza de los intervalos. Tama˜ no de muestra 5. Fuente: elaboraci´ on n=5 ρ Bootstrap Arctanh L.R Jeyaratnam Z1 Z2 Z3 Z4 Longitud 1.6233 1.6864 1.4864 1.6766 1.6056 1.6267 1.5718 1.5880 0.0 Nivel 0.9010 0.9530 0.9270 0.9500 0.9290 0.9360 0.9190 0.9240 Longitud 1.6392 1.6903 1.4905 1.6806 1.6102 1.6311 1.5770 1.5928 0.1 Nivel 0.9130 0.9470 0.9330 0.9460 0.9340 0.9380 0.9260 0.9310 Longitud 1.6221 1.6848 1.4848 1.6750 1.6038 1.6249 1.5699 1.5861 0.2 Nivel 0.9120 0.9610 0.9440 0.9590 0.9490 0.9520 0.9380 0.9450 Longitud 1.6003 1.6678 1.4671 1.6576 1.5837 1.6056 1.5487 1.5654 0.3 Nivel 0.8920 0.9390 0.9140 0.9340 0.9120 0.9220 0.9040 0.9080 Longitud 1.5846 1.6597 1.4588 1.6492 1.5741 1.5964 1.5386 1.5556 0.4 Nivel 0.9130 0.9470 0.9360 0.9450 0.9370 0.9400 0.9280 0.9310 Longitud 1.5141 1.6095 1.4081 1.5979 1.5157 1.5399 1.4772 1.4955 0.5 Nivel 0.8940 0.9550 0.9290 0.9540 0.9290 0.9370 0.9180 0.9240 Longitud 1.2966 1.4664 1.2712 1.4522 1.3534 1.3821 1.3086 1.3298 0.6 Nivel 0.9170 0.9590 0.9410 0.9570 0.9390 0.9450 0.9330 0.9340 Longitud 1.1093 1.3313 1.1492 1.3153 1.2061 1.2374 1.1578 1.1806 0.7 Nivel 0.8760 0.9350 0.9140 0.9330 0.9170 0.9200 0.9010 0.9130 Longitud 0.8765 1.1527 0.9949 1.1353 1.0195 1.0521 0.9698 0.9931 0.8 Nivel 0.8970 0.9510 0.9270 0.9490 0.9360 0.9410 0.9250 0.9310 Longitud 0.4787 0.7521 0.6612 0.7355 0.6314 0.6598 0.5896 0.6090 0.9 Nivel 0.8960 0.9550 0.9170 0.9510 0.9330 0.9390 0.9240 0.9290

P.G 1.5498 0.9430 1.5346 0.9440 1.5360 0.9490 1.5235 0.9420 1.4994 0.9600 1.4397 0.9420 1.3934 0.9540 1.2438 0.9590 1.0838 0.9520 0.7449 0.9460

propia

164 Liliana Vanessa Pacheco & Juan Carlos Correa

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Tabla 2: Longitud y nivel de confianza de los intervalos. Tama˜ no de muestra 10. Fuente: elaboraci´ on propia n = 10 ρ Bootstrap Arctanh L.R Jeyaratnam Z1 Z2 Z3 Z4 P.G Longitud 1.1964 1.2101 1.1349 1.2146 1.1890 1.1928 1.1753 1.1782 1.1521 0.0 Nivel 0.9460 0.9560 0.9510 0.9570 0.9510 0.9520 0.9490 0.9500 0.9570 Longitud 1.1960 1.2102 1.1350 1.2147 1.1891 1.1930 1.1754 1.1783 1.1456 0.1 Nivel 0.9360 0.9470 0.9410 0.9490 0.9430 0.9440 0.9390 0.9400 0.9470 Longitud 1.1841 1.1956 1.1220 1.2002 1.1745 1.1784 1.1608 1.1637 1.1393 0.2 Nivel 0.9270 0.9500 0.9410 0.9500 0.9430 0.9440 0.9390 0.9400 0.9460 Longitud 1.1494 1.1667 1.0968 1.1713 1.1460 1.1494 1.1318 1.1347 1.1105 0.3 Nivel 0.9160 0.9310 0.9250 0.9340 0.9260 0.9260 0.9210 0.9220 0.9570 Longitud 1.0879 1.1161 1.0523 1.1207 1.0949 1.0988 1.0812 1.0841 1.0698 0.4 Nivel 0.9460 0.9660 0.9600 0.9660 0.9630 0.9630 0.9580 0.9590 0.9520 Longitud 0.9960 1.0308 0.9770 1.0354 1.0097 1.0135 0.9961 0.9990 0.9997 0.5 Nivel 0.9350 0.9550 0.9460 0.9560 0.9450 0.9450 0.9440 0.9440 0.9590 Longitud 0.8717 0.9138 0.8731 0.9183 0.8934 0.8971 0.8802 0.8830 0.8713 0.6 Nivel 0.9300 0.9460 0.9370 0.9480 0.9370 0.9380 0.9340 0.9340 0.9620 Longitud 0.7072 0.7581 0.7331 0.7623 0.7392 0.7426 0.7271 0.7296 0.7578 0.7 Nivel 0.9280 0.9460 0.9420 0.9470 0.9410 0.9420 0.9390 0.9400 0.9440 Longitud 0.4859 0.5427 0.5349 0.5461 0.5272 0.5299 0.5173 0.5194 0.5887 0.8 Nivel 0.9250 0.9420 0.9390 0.9430 0.9410 0.9410 0.9390 0.9390 0.9580 Longitud 0.2707 0.3157 0.3186 0.3180 0.3055 0.3073 0.2991 0.3004 0.3340 0.9 Nivel 0.9420 0.9600 0.9480 0.9600 0.9570 0.9570 0.9510 0.9530 0.9450

Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

165

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Tabla 3: Longitud y nivel de confianza de los intervalos. Tama˜ no de muestra 20. Fuente: elaboraci´ on propia n = 20 ρ Bootstrap Arctanh L.R Jeyaratnam Z1 Z2 Z3 Z4 P.G Longitud 0.8571 0.8696 0.8408 0.8720 0.8632 0.8639 0.8580 0.8585 0.8395 0.0 Nivel 0.9500 0.9630 0.9560 0.9630 0.9580 0.9590 0.9560 0.9560 0.9570 Longitud 0.8524 0.8631 0.8348 0.8655 0.8567 0.8574 0.8515 0.8520 0.8351 0.1 Nivel 0.9330 0.9330 0.9260 0.9360 0.9280 0.9280 0.9260 0.9260 0.9450 Longitud 0.8416 0.8492 0.8221 0.8516 0.8429 0.8436 0.8378 0.8383 0.8209 0.2 Nivel 0.9310 0.9400 0.9370 0.9400 0.9390 0.9390 0.9370 0.9370 0.9490 Longitud 0.8101 0.8173 0.7927 0.8197 0.8112 0.8118 0.8062 0.8067 0.7870 0.3 Nivel 0.9320 0.9420 0.9440 0.9430 0.9420 0.9420 0.9410 0.9410 0.9520 Longitud 0.7551 0.7659 0.7451 0.7682 0.7599 0.7606 0.7551 0.7556 0.7500 0.4 Nivel 0.9390 0.9480 0.9430 0.9490 0.9460 0.9460 0.9460 0.9460 0.9440 Longitud 0.6815 0.6900 0.6744 0.6921 0.6844 0.6850 0.6800 0.6804 0.6877 0.5 Nivel 0.9370 0.9440 0.9380 0.9440 0.9420 0.9420 0.9410 0.9410 0.9510 Longitud 0.5814 0.5936 0.5837 0.5955 0.5886 0.5891 0.5845 0.5849 0.5870 0.6 Nivel 0.9400 0.9480 0.9440 0.9480 0.9460 0.9460 0.9440 0.9440 0.9440 Longitud 0.4691 0.4850 0.4804 0.4866 0.4806 0.4811 0.4772 0.4775 0.4810 0.7 Nivel 0.9540 0.9600 0.9530 0.9610 0.9590 0.9590 0.9580 0.9580 0.9490 Longitud 0.3391 0.3565 0.3563 0.3577 0.3531 0.3535 0.3504 0.3507 0.3549 0.8 Nivel 0.9370 0.9450 0.9440 0.9450 0.9430 0.9430 0.9420 0.9420 0.9510 Longitud 0.1823 0.1935 0.1958 0.1942 0.1915 0.1917 0.1899 0.1901 0.1931 0.9 Nivel 0.9430 0.9480 0.9430 0.9480 0.9470 0.9470 0.9470 0.9470 0.9450

166 Liliana Vanessa Pacheco & Juan Carlos Correa

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Tabla 4: Longitud y nivel de confianza de los intervalos. Tama˜ no de muestra 50. Fuente: elaboraci´ on propia n = 50 ρ Bootstrap Arctanh L.R Jeyaratnam Z1 Z2 Z3 Z4 P.G Longitud 0.5461 0.5519 0.5441 0.5526 0.5504 0.5505 0.5491 0.5491 0.5408 0.0 Nivel 0.9530 0.9530 0.9510 0.9530 0.9520 0.9520 0.9510 0.9510 0.9480 Longitud 0.5421 0.5483 0.5406 0.5490 0.5468 0.5469 0.5455 0.5455 0.5389 0.1 Nivel 0.9470 0.9540 0.9540 0.9540 0.9540 0.9540 0.9540 0.9540 0.9530 Longitud 0.5295 0.5343 0.5272 0.5350 0.5329 0.5330 0.5316 0.5316 0.5271 0.2 Nivel 0.9570 0.9580 0.9580 0.9580 0.9580 0.9580 0.9570 0.9570 0.9370 Longitud 0.5075 0.5114 0.5050 0.5120 0.5100 0.5100 0.5087 0.5087 0.5010 0.3 Nivel 0.9420 0.9490 0.9490 0.9500 0.9490 0.9490 0.9490 0.9490 0.9340 Longitud 0.4660 0.4696 0.4646 0.4702 0.4683 0.4683 0.4671 0.4672 0.4686 0.4 Nivel 0.9400 0.9410 0.9380 0.9410 0.9390 0.9390 0.9390 0.9390 0.9390 Longitud 0.4211 0.4240 0.4203 0.4245 0.4228 0.4229 0.4217 0.4218 0.4187 0.5 Nivel 0.9370 0.9430 0.9430 0.9430 0.9420 0.9420 0.9410 0.9410 0.9350 Longitud 0.3576 0.3623 0.3601 0.3627 0.3612 0.3613 0.3603 0.3603 0.3594 0.6 Nivel 0.9510 0.9570 0.9580 0.9570 0.9560 0.9560 0.9560 0.9560 0.9530 Longitud 0.2819 0.2869 0.2862 0.2873 0.2861 0.2861 0.2853 0.2854 0.2942 0.7 Nivel 0.9370 0.9500 0.9500 0.9500 0.9500 0.9500 0.9490 0.9500 0.9550 Longitud 0.2046 0.2096 0.2098 0.2099 0.2090 0.2090 0.2084 0.2085 0.2076 0.8 Nivel 0.9420 0.9470 0.9430 0.9470 0.9470 0.9470 0.9460 0.9460 0.9400 Longitud 0.1095 0.1126 0.1132 0.1127 0.1122 0.1123 0.1119 0.1119 0.1126 0.9 Nivel 0.9520 0.9550 0.9530 0.9550 0.9550 0.9550 0.9530 0.9530 0.9500

Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

167

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Tabla 5: Longitud y nivel de confianza de los intervalos. Tama˜ no de muestra 100. n = 100 ρ Bootstrap Arctanh L.R Jeyaratnam Z1 Z2 Longitud 0.3874 0.3912 0.3882 0.3914 0.3907 0.3907 0.0 Nivel 0.9470 0.9530 0.9510 0.9530 0.9530 0.9530 Longitud 0.3846 0.3887 0.3858 0.3890 0.3882 0.3882 0.1 Nivel 0.9510 0.9530 0.9510 0.9530 0.9520 0.9520 Longitud 0.3763 0.3788 0.3760 0.3790 0.3783 0.3783 0.2 Nivel 0.9470 0.9510 0.9500 0.9510 0.9500 0.9500 Longitud 0.3558 0.3595 0.3571 0.3597 0.3590 0.3590 0.3 Nivel 0.9420 0.9450 0.9440 0.9450 0.9430 0.9430 Longitud 0.3297 0.3314 0.3295 0.3316 0.3309 0.3310 0.4 Nivel 0.9490 0.9490 0.9480 0.9490 0.9490 0.9490 Longitud 0.2952 0.2970 0.2956 0.2972 0.2966 0.2966 0.5 Nivel 0.9500 0.9560 0.9540 0.9560 0.9560 0.9560 Longitud 0.2530 0.2552 0.2544 0.2554 0.2549 0.2549 0.6 Nivel 0.9480 0.9530 0.9530 0.9530 0.9510 0.9510 Longitud 0.2018 0.2041 0.2037 0.2042 0.2038 0.2038 0.7 Nivel 0.9420 0.9510 0.9490 0.9510 0.9510 0.9510 Longitud 0.1420 0.1440 0.1441 0.1441 0.1438 0.1438 0.8 Nivel 0.9350 0.9380 0.9410 0.9390 0.9380 0.9380 Longitud 0.0750 0.0761 0.0763 0.0762 0.0760 0.0760 0.9 Nivel 0.9380 0.9420 0.9420 0.9420 0.9410 0.9410 Z3 0.3902 0.9520 0.3877 0.9520 0.3778 0.9490 0.3586 0.9430 0.3305 0.9490 0.2962 0.9560 0.2546 0.9510 0.2036 0.9510 0.1436 0.9380 0.0759 0.9410

Z4 0.3902 0.9520 0.3877 0.9520 0.3778 0.9500 0.3586 0.9430 0.3305 0.9490 0.2962 0.9560 0.2546 0.9510 0.2036 0.9510 0.1436 0.9380 0.0759 0.9410

P.G 0.3858 0.9330 0.3824 0.9460 0.3735 0.9320 0.3554 0.9430 0.3291 0.9450 0.2943 0.9560 0.2518 0.9500 0.2023 0.95500 0.1441 0.9530 0.0772 0.9460

Fuente: elaboraci´ on propia

168 Liliana Vanessa Pacheco & Juan Carlos Correa

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


169

Figura 1: Amplitud por cada intervalo. Fuente: elaboraci´ on propia.

Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Liliana Vanessa Pacheco & Juan Carlos Correa

Figura 2: Nivel real alcanzado por cada intervalo. Fuente: elaboraci´ on propia.

170

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

171

Y adem´as, cabe aclarar que el ´ındice est´a limitado a 2 porque el rango parametral de ρ es desde -1 hasta 1, es decir, una longitud equivalente a dos unidades. Y por lo anterior el c´odigo de la simulaci´on que se emple´ o en este estudio est´ a restringido para no tener en cuenta posibles resultados para ρ mayores que 1, o en su defecto, menores que -1. El rango de este ´ındice corresponde a (0, 2.1052) dado que si el nivel real, NR, se acerca al 100 % y/o la longitud m´axima es lo m´ as peque˜ na posible, entonces I ser´a cercano a 2.1052; o si la longitud o el nivel real del intervalo es cercana a cero entonces el I = 0. Luego, a valores mayores del ´ındice propuesto, mejor el intervalo obtenido. Las siguientes tablas muestran los resultados a partir del ´ındice propuesto, donde se resalta por cada valor de ρ el mejor m´etodo: Tabla 6: ´ Indice de resumen: Tama˜ no de muestra 5. Fuente: elaboraci´ on propia ρ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Bootstrap 0.3572 0.3467 0.3626 0.3752 0.3991 0.4572 0.6789 0.8212 1.0607 1.4347

ArcTanh 0.3145 0.3087 0.3187 0.3282 0.3391 0.3925 0.5386 0.6580 0.8481 1.2544

LR 0.5011 0.5003 0.5119 0.5126 0.5332 0.5787 0.7218 0.8185 0.9807 1.2922

n=5 Jayaratnam 0.3234 0.3180 0.3280 0.3366 0.3488 0.4037 0.5517 0.6723 0.8637 1.2657

Z1 0.3856 0.3832 0.3957 0.3996 0.4199 0.4735 0.6390 0.7662 0.9660 1.3440

Z2 0.3677 0.3642 0.3758 0.3827 0.3993 0.4537 0.6146 0.7384 0.9388 1.3246

Z3 0.4142 0.4123 0.4246 0.4294 0.4506 0.5051 0.6790 0.7987 1.0030 1.3717

Z4 0.4007 0.3990 0.4117 0.4153 0.4355 0.4906 0.6588 0.7874 0.9866 1.3601

P.G 0.4468 0.4624 0.4635 0.4724 0.5058 0.5555 0.6091 0.7632 0.9180 1.2497

Tabla 7: ´ Indice de resumen: Tama˜ no de muestra 10. Fuente: elaboraci´ on propia ρ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Bootstrap 0.8002 0.7921 0.7961 0.8201 0.9082 0.9881 1.1045 1.2628 1.4741 1.7147

ArcTanh 0.7948 0.7873 0.8044 0.8166 0.8987 0.9743 1.0816 1.2366 1.4450 1.7019

LR 0.8660 0.8568 0.8696 0.8794 0.9576 1.0186 1.1114 1.2562 1.4480 1.6778

n = 10 Jayaratnam 0.7911 0.7844 0.7998 0.8147 0.8941 0.9706 1.0794 1.2337 1.4431 1.6996

Z1 0.8118 0.8049 0.8194 0.8324 0.9174 0.9850 1.0914 1.2488 1.4588 1.7069

Z2 0.8088 0.8019 0.8164 0.8291 0.9135 0.9813 1.0889 1.2467 1.4560 1.7050

Z3 0.8238 0.8150 0.8294 0.8416 0.9265 0.9975 1.1009 1.2581 1.4654 1.7026

Z4 0.8218 0.8130 0.8274 0.8397 0.9245 0.9946 1.0981 1.2569 1.4634 1.7048

P.G 0.8541 0.8517 0.8570 0.8960 0.9321 1.0097 1.1429 1.2342 1.4231 1.6571

De las anteriores tablas se observa que, seg´ un el criterio establecido para concluir con el ´ındice de resumen propuesto, en tama˜ nos de muestra peque˜ nos y para correlaciones menores que 0.7 (dentro de las empleadas en este estudio), el mejor m´etodo para la construcci´on de intervalos de confianza para el coeficiente de correlaci´on agrupando las caracter´ısticas deseadas (longitud del intervalo corta y mayor porcentaje de cobertura) es el de la raz´ on de verosimilitud. Le sigue el m´etodo Bootstrap en calidad. El m´etodo menos eficiente es el de la Trasformaci´on de Fisher. Esto es apenas l´ogico de esperar ya que establece que z tiene una Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


172

Liliana Vanessa Pacheco & Juan Carlos Correa

Tabla 8: ´ Indice de resumen: Tama˜ no de muestra 20. Fuente: elaboraci´ on propia ρ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Bootstrap 1.1429 1.1270 1.1352 1.1673 1.2304 1.3004 1.4036 1.5373 1.6381 1.8042

ArcTanh 1.1458 1.1165 1.1386 1.1727 1.2315 1.3017 1.4034 1.5309 1.6348 1.8026

LR 1.1665 1.1357 1.1617 1.1996 1.2456 1.3088 1.4073 1.5243 1.6332 1.7909

n = 20 Jayaratnam 1.1434 1.1177 1.1363 1.1716 1.2305 1.2996 1.4015 1.5309 1.6335 1.8019

Z1 1.1463 1.1168 1.1437 1.1787 1.2348 1.3045 1.4054 1.5337 1.6347 1.8027

Z2 1.1468 1.1161 1.1430 1.1781 1.2341 1.3039 1.4049 1.5332 1.6343 1.8025

Z3 1.1492 1.1194 1.1462 1.1824 1.2396 1.3074 1.4065 1.5356 1.6356 1.8042

Z4 1.1487 1.1189 1.1458 1.1819 1.239160 1.3070 1.406163 1.535321 1.6353 1.8041

P.G 1.1690 1.1587 1.1778 1.2155 1.2421 1.3136 1.4040 1.5174 1.6468 1.7973

Tabla 9: ´ Indice de resumen: Tama˜ no de muestra 50. Fuente: elaboraci´ on propia ρ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Bootstrap 1.4584 1.4532 1.4813 1.4799 1.5178 1.5572 1.6441 1.6945 1.7801 1.8944

ArcTanh 1.4526 1.4578 1.4780 1.4870 1.5159 1.5643 1.6497 1.7131 1.7847 1.8973

LR 1.4574 1.4655 1.4852 1.4934 1.5160 1.5680 1.6537 1.7138 1.7769 1.8927

n = 50 Jayaratnam 1.4519 1.4571 1.4773 1.4880 1.5153 1.5638 1.6493 1.7127 1.7844 1.8971

Z1 1.4526 1.4593 1.4794 1.4884 1.5139 1.5639 1.6491 1.7139 1.7853 1.8976

Z2 1.4525 1.4592 1.4793 1.4884 1.5139 1.5638 1.6490 1.7139 1.7853 1.8976

Z3 1.4524 1.4606 1.4792 1.4897 1.5151 1.5633 1.6500 1.7128 1.7840 1.8939

Z4 1.4524 1.4606 1.4792 1.4897 1.5150 1.5632 1.6500 1.7146 1.7839 1.8939

P.G 1.4561 1.4657 1.4527 1.4737 1.5136 1.5563 1.6457 1.7147 1.7734 1.8873

Tabla 10: ´ Indice de resumen: Tama˜ no de muestra 100. Fuente: elaboraci´ on propia ρ 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

Bootstrap 1.6075 1.6171 1.6185 1.6303 1.6685 1.7048 1.7433 1.7830 1.8286 1.9006

ArcTanh 1.6138 1.6163 1.6229 1.6318 1.6668 1.7137 1.7503 1.7977 1.8325 1.9076

LR 1.6134 1.6158 1.6240 1.6325 1.6669 1.7115 1.7511 1.7944 1.8383 1.9074

n = 100 Jayaratnam Z1 1.6136 1.6143 1.6161 1.6151 1.6227 1.6217 1.6317 1.6289 1.6666 1.6673 1.7135 1.7141 1.7501 1.7469 1.7976 1.7981 1.8343 1.8327 1.9075 1.9057

Z2 1.6143 1.6151 1.6217 1.6289 1.6672 1.7141 1.7469 1.7980 1.8327 1.9057

Z3 1.6131 1.6156 1.6204 1.6293 1.6677 1.7145 1.7472 1.7982 1.8329 1.9058

Z4 1.6131 1.6156 1.6222 1.6293 1.6677 1.7145 1.7472 1.7982 1.8329 1.9058

P.G 1.5853 1.6107 1.5956 1.6324 1.6621 1.7164 1.7482 1.8071 1.8616 1.9146

distribuci´on aproximadamente normal cuando el tama˜ no muestral es grande. Este comportamiento cambia cuando se comienza a aumentar el tama˜ no de muestra, ya que cuando este es igual a 20, en correlaciones peque˜ nas (de 0 a 0.4), el mejor m´etodo para construir los intervalos es el que parte del pivote generalizado. Se observa que en el resto de las correlaciones algunos de los m´etodos tambi´en muy eficientes son el de la raz´on de verosimilitud, Bootstrap y la Transformaci´ on de Fisher modificada Z3. En este caso resulta complicado afirmar cu´ al m´etodo es el Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on de intervalos de confianza para el coeficiente de correlaci´ on

173

menos efectivo, ya que las diferencias en el ´ındice de resumen para el resto de los m´etodos son m´ınimas, y por tanto no muy significativas. El m´etodo de la raz´on de verosimilitud en tama˜ nos de muestra iguales a 50 dan los mejores resultados para estos intervalos de confianza y en menor medida el del pivote generalizado y la transformaci´on de Fisher modificada Z1. Cabe aclarar que, las diferencias que hicieron que cada uno de estos m´etodos sobresaliese en el respectivo caso, fueron m´ınimas, es decir, con tama˜ nos de muestra grandes, todos los m´etodos ofrecen ´ındices de resumen casi iguales y por tanto, decidir cu´ al es mejor se hace indiferente.

4. Conclusiones Los procedimientos que se tuvieron en cuenta para la construcci´ on de intervalos de confianza para el coeficiente de correlaci´on en una distribuci´ on normal bivariada, ρ, difieren en calidad dependiendo del tama˜ no de muestra empleado para ello. Se pudo observar que, en el caso de muestras peque˜ nas (n = 5 y n = 10), los que mejor desempe˜ no tuvieron fueron los de raz´on de verosimilitud y Bootstrap. El m´etodo de raz´on de verosimilitud ofrece longitudes cortas de intervalo y nivel de confianza real m´as cercano al nivel nominal establecido en este estudio de simulaci´ on, 95 % para correlaciones desde 0 hasta 0.7. En los casos restantes, es decir, correlaciones de 0.8 y 0.9, el m´etodo Bootstrap supera al anterior. Cuando n = 20, el m´etodo que se comporta mejor en la gran mayor´ıa de las correlaciones consideradas es el de pivote generalizado. Le sigue en orden de calidad de intervalo obtenido por el m´etodo de raz´ on de verosimilitud. Cuando n = 50 y n = 100, todos los m´etodos tienen un comportamiento casi igual. Las longitudes de intervalo para cada uno de estos dos casos (n = 50 y n = 100) disminuyen considerablemente a lo observado en el caso anterior, es decir, en comparaci´ on con n = 20, como se puede evidenciar en las tablas. En la mayor´ıa de los casos, el m´etodo de Bootstrap ofrece niveles de confianza reales menores que los de los dem´as m´etodos. Se observa un detalle muy particular con respecto a esta caracter´ıstica y todos los m´etodos a excepci´ on del pivote generalizado: los niveles de confianza reales son muy parecidos entre s´ı cuando el tama˜ no de muestra es muy grande (n=100). Recibido: 5 de mayo de 2013 Aceptado: 14 de agosto de 2013

Referencias Efron, B. (1979), ‘Computers and theory of statistics: Thinking the unthinkable’, SIAM Review 21(4), 460–480. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


174

Liliana Vanessa Pacheco & Juan Carlos Correa

Falk, R. & Well, A. (1997), ‘Many faces of the correlation coefficient’, Journal of Statistics Education 5(3). Fisher, R. (1921), ‘On the “probable error” of a coefficient of correlation deduced from a small sample’, Metron 1, 3–32. Hotelling, H. (1953), ‘New light on the correlation coefficient and its transforms’, Journal of the Royal Statistical Society 15(2), 193–232. Kalbfleish, J. (1985), Probability and statistical inference, Springer-Verlag: New York. Krishnamoorthy, I. & Xia, Y. (2007), ‘Inferences on correlation coefficients: Onesample, independent and correlated cases’, Journal of Statistical Planning and Inference 137(7), 2362–2379. Pawitan, Y. (2001), In all likelihood, Clarendon Press: Oxford. Zheng, Q. & Matis, J. (1994), ‘Correlation coefficient revisited’, The American Statistician 48(3), 240–241.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 175–195

Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal Comparison between CART regression trees and linear regression Juan Felipe D´ıaza

Juan Carlos Correab

jfdiazs0@unal.edu.co

jccorrea@unal.edu.co

Resumen La regresi´ on lineal es el m´etodo m´ as usado en estad´ıstica para predecir valores de variables continuas debido a su f´ acil interpretaci´on, pero en muchas situaciones los supuestos para aplicar el modelo no se cumplen y algunos usuarios tienden a forzarlos llevando a conclusiones err´ oneas. Los ´arboles de regresi´on CART son una alternativa de regresi´ on que no requiere supuestos sobre los datos por analizar y es un m´etodo de f´ acil interpretaci´ on de los resultados. En este trabajo se comparan a nivel predictivo la regresi´ on lineal con CART mediante simulaci´on. En general, se encontr´ o que cuando se ajusta el modelo de regresi´on lineal correcto a los datos, el error de predicci´ on de regresi´ on lineal siempre es menor que el de CART. Tambi´en se encontr´ o que cuando se ajusta err´ oneamente un modelo de regresi´on lineal a los datos, el error de predicci´ on de CART es menor que el de regresi´on lineal solo cuando se tiene una cantidad de datos suficientemente grande. Palabras clave: simulaci´ on, error de predicci´on, regresi´on lineal, ´arboles de clasificaci´ on y regresi´ on CART. Abstract Linear regression is the most widely used method in statistics to predict values of continuous variables due to its easy interpretation, but in many situations the suppositions to apply the model are not met and some users tend to force them leading them to erroneous conclusions. CART regression trees is a regression alternative that does not require suppositions on the data to be analyzed and is a method of easy interpretation of results. This work compares predictive levels of linear regression with CART through simulation. In general, it was found that when the correct linear regression model is adjusted to the data, the prediction a Maestr´ ıa en Ciencias - Estad´ıstica. Universidad Nacional de Colombia, sede Medell´ın, Colombia. b Profesor Asociado. Universidad Nacional de Colombia, sede Medell´ ın, Colombia.

175


176

Juan Felipe D´ıaz & Juan Carlos Correa

error of linear regression is always lower than that of CART. It was also found that when linear regression model is erroneously adjusted to the data, the prediction error of CART is lower than that of linear regression only when it has a sufficiently large amount of data. Keywords: simulation, prediction error, linear regression, CART classification and regression trees.

1. Introducci´ on El modelo lineal cl´ asico ha sido utilizado extensivamente y con mucho ´exito en m´ ultiples situaciones. Tiene ventajas que lo hacen muy u ´ til para el usuario, debido a que es f´ acil de interpretar, f´ acil de estimar y poco costoso. La facilidad de interpretaci´ on de este modelo lo ha popularizado bastante y no es raro ver su ajuste en situaciones inapropiadas, por ejemplo, en respuestas que son discretas o sesgadas; y el desespero por parte de los usuarios por aproximarse a ´el, por ejemplo, mediante transformaciones de los datos, sin considerar los cambios en la estructura del error. Por lo anterior, es necesario un modelo que tenga similares ventajas y que no sea tan r´ıgido con los supuestos, para que el usuario final lo pueda aplicar tranquilamente. Los ´ arboles de clasificaci´ on y regresi´ on (CART) es un m´etodo que utiliza datos hist´ oricos para construir ´ arboles de clasificaci´on o de regresi´on, los cuales son usados para clasificar o predecir nuevos datos. Estos ´arboles CART pueden manipular f´ acilmente variables num´ericas y categ´ oricas. Entre otras ventajas est´a su robustez a outliers, la invarianza en la estructura de sus ´arboles de clasificaci´on o de regresi´ on a transformaciones mon´ otonas de las variables independientes, y sobre todo, su interpretabilidad. Desde el planteamiento de los ´ arboles de clasificaci´on y regresi´on CART por Leo Breiman y otros en 1984 (Breiman et al. 1984), se present´o gran inter´es en la utilizaci´ on de esta metodolog´ıa por parte de la comunidad cient´ıfica debido a su f´ acil implementaci´ on en todo tipo de problemas y su clara interpretaci´on de los resultados. Muchos investigadores despu´es de la publicaci´on del libro de Breiman (Breiman et al. 1984) han planteado variaciones del m´etodo en sus distintas etapas, pero en muchos casos la idea inicial del particionamiento recursivo es la misma, otros han aplicado CART y sus variaciones en distintos campos como la medicina, la biolog´ıa y el aprendizaje de m´ aquinas. Algunos investigadores han comparado esta metodolog´ıa con otras t´ecnicas de modelamiento como Tamminen, Laurinen y Roning (Tamminen et al. 1999) quienes en 1999, debido a que el sistema f´ısico de los humanos es altamente no lineal y la regresi´on lineal tradicional no puede ser usada como modelo de aproximaci´ on, compararon los ´arboles de regresi´on con las redes neuronales en un conjunto de datos obtenidos por un m´etodo de medici´on de aptitud aer´ obica, concluyendo que las redes neuronales son una potente herraComunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

177

mienta de aproximaci´ on, pero se dificulta la interpretaci´on del modelo, mientras que los ´ arboles de regresi´ on son f´ aciles de visualizar y su estructura es m´as comprensible. Ankarali, Canan, Akkus, Bugdayci y Ali Sungur (Ankarali et al. 2007) en 2007 compararon los m´etodos de ´ arboles de clasificaci´on y regresi´on log´ıstica en la determinaci´ on de factores de riesgo sociodemogr´aficos que influyen en el estado de depresi´ on de 1447 mujeres en periodos separados de posparto, y concluyeron que los ´ arboles de clasificaci´ on dan informaci´on m´as detallada sobre el diagn´ostico mediante la evaluaci´ on conjunta de una gran cantidad de factores de riesgo que el modelo de regresi´ on log´ıstica. El problema central es comparar por medio de un estudio de simulaci´on, a nivel predictivo, el m´etodo no param´etrico CART con el m´etodo param´etrico Regresi´on lineal, dos t´ecnicas que tienen similares ventajas en cuanto a la simplicidad de sus modelos y su f´ acil interpretaci´ on de los resultados. En la secci´on 2 se presenta el m´etodo CART: particionamiento recursivo, ´arboles de clasificaci´on y ´arboles de regresi´ on. En la secci´ on 3 se describe el estudio de simulaci´on: errores de predicci´on y pasos. En las secciones 4 y 5 se simulan conjuntos de datos cuyo verdadero modelo es un modelo de regresi´ on lineal y se ajusta a estos datos tanto los modelos de regresi´ on correctos como modelos de regresi´on incorrectos, para comparar luego sus errores de predicci´ on con los errores de predicci´on de ´arboles de regresi´on ajustados a los mismos datos. En las secciones 6 y 7 se dan las conclusiones y agradecimientos.

2. CART 2.1. Particionamiento recursivo El algoritmo conocido como particionamiento recursivo es el proceso paso a paso para construir un ´ arbol de decisi´ on y es la clave para el m´etodo estad´ıstico no param´etrico CART (Izenman 2008). Sea Y una variable respuesta y sean p variables predictoras x1 , x2 , . . . , xp , donde las x´s son tomadas fijas y Y es una variable aleatoria. El problema estad´ıstico es establecer una relaci´ on entre Y y las x´s de tal forma que sea posible predecir Y basado en los valores de las x´s. Matem´aticamente, se quiere estimar la probabilidad condicional de la variable aleatoria Y , P [Y = y|x1 , x2 , . . . , xp ] cuando la variable Y es discreta, o un funcional de su probabilidad tal como la esperanza condicional E[Y |x1 , x2 , . . . , xp ]. cuando la variable Y es continua. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


178

Juan Felipe D´ıaz & Juan Carlos Correa

2.1.1. Elementos de la construcci´ on del ´ arbol Seg´ un Zhang & Singer (2010) para ilustrar las ideas b´asicas considere el diagrama de la Figura 1.

Figura 1: Ejemplo ´ arbol. Fuente: modificado de Zhang & Singer 2010. El ´ arbol tiene tres niveles de nodos. El primer nivel tiene un u ´ nico nodo en la cima (el c´ırculo) llamado nodo ra´ız. Un nodo interno (el c´ırculo) en el segundo nivel, y tres nodos terminales (las cajas) que est´ an respectivamente en el segundo y tercer nivel. El nodo ra´ız y el nodo interno son particionados cada uno en dos nodos en el siguiente nivel, los cuales son llamados nodos hijos izquierdo y derecho. El nodo ra´ız contiene una muestra de sujetos desde la cual se aumenta el ´arbol, es decir, desde donde se desprenden los dem´as nodos. Estos sujetos constituyen lo que se llama una muestra de aprendizaje, la cual puede ser la muestra total en estudio o una parte de esta. El objetivo del particionamiento recursivo es acabar en nodos terminales que sean homog´eneos en el sentido de que ellos contengan solo puntos o c´ırculos Figura 1b. Una medida cuantitativa de la homogeneidad de un nodo es la noci´on de impureza, para la cual se define el siguiente indicador:

Impureza del nodo =

# sujetos que cumplen la caracter´ıstica en el nodo . # total de sujetos en el nodo

(1)

En la Figura 1, si la caracter´ıstica es ser c´ırculo, el nodo hijo izquierdo del nodo ra´ız tiene impureza igual a 1, debido a que en este nodo solo hay c´ırculos, pero, si la caracter´ıstica es ser punto, la impureza es igual a 0, debido a que no hay ning´ un punto en este nodo. N´ otese que en el nodo hijo derecho del nodo ra´ız el n´ umero de c´ırculos es aproximadamente igual al n´ umero de puntos, teniendo este nodo una medida de la impureza de aproximadamente 0.5 independientemente de si la caracter´ıstica sea ser c´ırculo o punto. Mientras m´as homog´eneo sea el nodo el l´ımite del cociente en la ecuaci´ on (1) es 0 o 1. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

179

2.1.2. Divisi´ on de un nodo Para dividir el nodo ra´ız en dos nodos homog´eneos, se debe seleccionar entre los rangos de todas las variables predictoras el valor de la divisi´on que m´as lleve al l´ımite de 0 o 1 el cociente en la ecuaci´ on (1) para cada nodo hijo. En la Figura 1 a) se seleccion´ o como divisi´ on el valor c2 entre el rango de la variable x3 . El proceso continua para los dos nodos hijos, teniendo en cuenta para cada nodo el rango resultante de la variable con la que se dividi´o el nodo padre y el rango de las dem´ as variables involucradas. Antes de seleccionar la mejor divisi´ on, se debe definir la bondad de una divisi´on. Se busca una divisi´ on que resulte en dos nodos hijos puros (u homog´eneos). Sin embargo, en la realidad los nodos hijos son usual y parcialmente puros. Adem´as, la bondad de una divisi´ on debe poner en una balanza la homogeneidad (o la impureza) de los dos nodos hijos simult´ aneamente.

2.1.3. Nodos terminales El proceso de particionamiento recursivo contin´ ua hasta que el ´arbol sea saturado en el sentido de que los sujetos en los nodos descendientes no se pueden partir en una divisi´ on adicional. Esto sucede, por ejemplo, cuando en un nodo queda solo un sujeto. El n´ umero total de divisiones permitidas para un nodo disminuye cuando aumentan los niveles del ´ arbol. Cualquier nodo que no pueda o no sea dividido es un nodo terminal. El ´ arbol saturado generalmente es bastante grande para utilizarse, porque los nodos terminales son tan peque˜ nos que no se puede hacer inferencia estad´ıstica razonable, debido a que los datos quedan ”sobre-ajustados”, es decir, el ´ arbol alcanza un ajuste tan fiel a la muestra de aprendizaje que cuando en la pr´ actica se aplique el modelo obtenido a nuevos datos los resultados pueden ser muy malos, y por tanto, no es necesario esperar hasta que el ´arbol sea saturado. En lugar de esto, se escoge un tama˜ no m´ınimo de nodo apriori. Se detiene la divisi´ on cuando el tama˜ no del nodo es menor que el m´ınimo. La escogencia del tama˜ no m´ınimo depende del tama˜ no de muestra (uno por ciento) o se puede tomar simplemente como cinco sujetos (los resultados generalmente no son significativos con menos de cinco sujetos). Breiman et al. (1984) argumentan que dependiendo del l´ımite de parada, el particionamiento tiende a terminar muy pronto o muy tarde. En consecuencia, ellos hacen un cambio fundamental introduciendo un segundo paso llamado “poda”. La poda consiste en encontrar un sub´ arbol del ´arbol saturado que sea el m´as “predictivo” de los resultados y menos vulnerable al ruido en los datos. Los sub´arboles se obtienen podando el ´ arbol saturado desde el u ´ltimo nivel hacia arriba. Por ejemplo, el ´arbol de la Figura 2a es un sub´arbol del ´arbol de la Figura 2b. Los pasos de particionamiento y poda se pueden ver como variantes de los procesos paso a paso forward y backward en regresi´ on lineal. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


180

Juan Felipe D´ıaz & Juan Carlos Correa

Figura 2: El nodo 1 se divide en los nodos 2 y 3, luego, el nodo 2 se divide en los nodos 3 y 4. Fuente: modificado de Zhang & Singer 2010.

´ 2.2. Arboles de clasificaci´ on Los ´ arboles de clasificaci´ on y regresi´ on (CART) fueron desarrollados en los a˜ nos ochenta por Breiman, Freidman, Olshen y Stone en el libro Classification and regression trees (Breiman et al. 1984). La metodolog´ıa CART utiliza datos hist´ oricos para construir ´arboles de clasificaci´ on o de regresi´ on, los cuales son usados para clasificar o predecir nuevos datos. Estos ´ arboles CART pueden manipular f´ acilmente como variable respuesta variables num´ericas y categ´ oricas. Entre otras ventajas est´a su robustez a outliers, la invarianza en la estructura de sus ´ arboles de clasificaci´on o de regresi´on a transformaciones mon´ otonas de las variables independientes, y sobre todo, su interpretabilidad. Esta metodolog´ıa consiste de tres pasos: Construcci´ on del ´ arbol saturado. Escogencia del tama˜ no correcto del ´ arbol. Clasificaci´ on de nuevos datos usando el ´arbol construido. La construcci´ on del ´ arbol saturado se hace con particionamiento recursivo. La diferencia en la construcci´ on de los ´ arboles de clasificaci´on y los ´arboles de regresi´on es el criterio de divisi´ on de los nodos, es decir, la medida de impureza y la bondad de una divisi´ on es diferente para los ´ arboles de clasificaci´on y de regresi´on. En esta secci´ on se considera primero la construcci´ on de ´arboles de clasificaci´on. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

181

2.2.1. Determinaci´ on de la divisi´ on de un nodo Sea Y una variable dicot´ omica con valores 0 y 1, y sea τ un nodo. Para construir el ´ arbol saturado, en el proceso de particionamiento recursivo se tiene que, si τ es el nodo menos impuro la impureza es 0 y debe tener como resultado P [Y = 1|τ ] = 0 o P [Y = 1|τ ] = 1. El nodo τ es m´as impuro cuando su impureza es 1 con P [Y = 1|τ ] = 12 . Por tanto, la funci´ on impureza tiene una forma c´oncava y se puede definir formalmente como i(τ ) = φ(P [Y = 1|τ ]),

(2)

donde φ tiene las siguientes propiedades, (i) φ ≥ 0 y (ii) para cualquier p ∈ (0, 1), φ(p) = φ(1 − p) y φ(0) = φ(1) < φ(p). Las escogencias m´ as comunes de funciones de impureza para la construcci´on de arboles de clasificaci´ ´ on son: φ(p) = min(p, 1 − p), (m´ınimo error o error de Bayes) φ(p) = −p log(p) − (1 − p) log(1 − p), (entrop´ıa) φ(p) = p(1 − p), (´ındice Gini) donde, se define 0 log(0) := 0. Adem´ as, se define la bondad de una divisi´ on s como ∆I(τ ) = i(τ ) − P [τL ]i(τL ) − P [τR ]i(τR ),

(3)

donde τ es el nodo padre del nodo izquierdo τL y del nodo derecho τR , y P [τL ] y P [τR ] son respectivamente las probabilidades de que un sujeto caiga dentro de los nodos τL y τR . La ecuaci´ on (3) mide el grado de reducci´ on de la impureza cuando se pasa del nodo padre a los nodos hijos. Se selecciona s tal que ∆I(τ ) sea m´axima. 2.2.2. Determinaci´ on de los nodos terminales Una vez se tiene construido el ´ arbol saturado se inicia la etapa de poda. La poda consiste en encontrar el sub´ arbol del a´rbol saturado con la mejor calidad en cuanto a que sea lo m´ as predictivo posible y lo menos sensible al ruido de los datos. Es decir, se debe definir una medida de calidad de un ´arbol. Para esto se debe recordar que el objetivo de los ´ arboles de clasificaci´on es el mismo que el Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


182

Juan Felipe D´ıaz & Juan Carlos Correa

del particionamiento recursivo: extraer subgrupos homog´eneos de la poblaci´on o muestra en estudio. Para alcanzar este objetivo se debe tener certeza de que los nodos terminales son homog´eneos, es decir, la calidad de un ´arbol es simplemente la calidad de sus nodos terminales. Por tanto, para un ´arbol T se define

R(T ) =

P[τ ]r(τ ),

(4)

τ ∈T˜

donde T˜ es el conjunto de nodos terminales de T , P[τ ] es la probabilidad de que un sujeto pertenezca al nodo τ y r(τ ), es una medida de calidad del nodo τ la cual es similar a la suma de cuadrados de los residuales en regresi´on lineal. El prop´ osito de la poda es seleccionar el mejor sub´arbol, T ∗ , de un ´arbol saturado inicialmente, T0 , tal que R(T ∗ ) sea m´ınimo. Una escogencia obvia para r(τ ) es la medida de impureza del nodo τ , aunque en ge l neral se toma como el costo de mala clasificaci´on, es decir, r(τ ) = i=1 {c(j|i)P[Y = i|τ ]}, donde c(i|j) es el costo de mala clasificaci´on de que un sujeto de la clase j sea clasificado en la clase i, con i, j = 1, . . . , l. Cuando i = j, se tiene la clasificaci´on correcta y el costo deber´ıa ser cero, es decir, c(i|i) = 0. Generalmente, es dif´ıcil en la pr´ actica medir el costo relativo c(j|i) para i �= j, y por tanto, no se puede asignar el costo de mala clasificaci´on de cada nodo antes de aumentar cualquier ´ arbol, incluso cuando se conoce el perfil del ´arbol. Por otra parte, existe suficiente evidencia emp´ırica en la literatura que demuestra que el uso de una funci´ on de impureza como la entrop´ıa usualmente lleva a ´arboles u ´ tiles con tama˜ nos de muestra razonables. Estimaci´ on del costo de mala clasificaci´ on Sea Rs (τ ) la proporci´ on de elementos mal clasificados del nodo τ , tambi´en conocida como estimaci´ on por resustituci´ on del costo de mala clasificaci´ on para el nodo τ . Se define la estimaci´ on por resustituci´ on del costo de mala clasificaci´ on para el arbol T como, ´

Rs (T ) =

Rs (τ ).

(5)

τ ∈T˜

Zhang & Singer (2010) afirman que esta estimaci´on por resustituci´on generalmente subestima el costo. Adem´ as, Breiman et al. (1984) prueban que a medida que aumentan los nodos en el ´ arbol disminuye la estimaci´on por resustituci´on (5), y como consecuencia, este estimador tiene el problema de seleccionar ´arboles sobreajustados. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

183

2.2.3. Costo-complejidad El tama˜ no del ´ arbol es importante a la hora de dar conclusiones sobre la muestra o poblaci´ on en estudio, debido a que un ´ arbol con una gran cantidad de nodos puede tener problemas de sobreajuste. Una medida de la calidad de un ´arbol debe tener en cuenta tanto la calidad de los nodos terminales como el tama˜ no del ´arbol (n´ umero de nodos del ´ arbol), y tener en cuenta solo el costo de mala clasificaci´on puede llevar a ´ arboles muy grandes. Se define el costo-complejidad del ´ arbol T como Rα (T ) = R(T ) + α|T˜ |,

(6)

donde α (≥ 0) es el par´ ametro de complejidad y |T˜ | es el n´ umero de nodos terminales en T llamado complejidad del ´ arbol T . La diferencia entre R(T ) y Rα (T ) como una medida de la calidad del ´ arbol reside en que Rα (T ) penaliza un gran arbol. ´ Aunque se dijo anteriormente que la aproximaci´on por resustituci´on tiene sus problemas al estimar el costo de mala clasificaci´on para un nodo, es muy u ´til al estimar el costo-complejidad. El uso del costo-complejidad permite construir una secuencia de sub´ arboles ´ optimos anidados (ver Zhang & Singer 2010) desde cualquier ´arbol T dado. La idea es construir una secuencia de sub´ arboles anidados para un ´arbol saturado T , minimizando el costo-complejidad Rα (T ), y seleccionar como sub´arbol final el que tenga el m´ as peque˜ no costo de mala clasificaci´on de estos sub´arboles. Cuando se tiene una muestra de prueba, estimar R(T ) es sencillo para cualquier sub´ arbol T , porque solo se necesita aplicar los sub´arboles a la muestra de prueba y luego se escoge el mejor valor de α, pero, si no se tiene una muestra de prueba, se pueden crear muestras artificiales utilizando el proceso de validaci´ on cruzada (ver Zhang & Singer 2010) para estimar R(T ) y as´ı escoger el mejor valor de α.

´ 2.3. Arboles de regresi´ on En la construcci´ on de ´ arboles de clasificaci´on se indic´o que es necesario una medida de impureza dentro de un nodo, es decir, un criterio de divisi´on de nodo para construir un gran ´ arbol y luego un criterio de costo-complejidad para podarlo. Estas directrices generales se aplican cada vez que se intenta desarrollar m´etodos basados en ´ arboles. Para la construcci´ on de ´arboles de clasificaci´on la variable respuesta debe ser categ´ orica, mientras que para la construcci´on de ´arboles de regresi´ on la variable respuesta debe ser continua. En general, la metodolog´ıa para construir ´ arboles de clasificaci´ on y ´ arboles de regresi´on es la misma, por tanto, los pasos vistos anteriormente para construir a´rboles de clasificaci´on son aplicables en la construcci´ on de ´ arboles de regresi´ on. La diferencia radica en la escogencia de la funci´ on impureza para dividir un nodo y en la estimaci´on del costo-complejidad Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


184

Juan Felipe D´ıaz & Juan Carlos Correa

para podar el ´ arbol. Para una respuesta continua, una escogencia natural de la impureza para un nodo τ es la varianza de la respuesta dentro del nodo: i(τ ) =

(Yi − Y¯ (τ ))2 ,

(7)

sujeto i∈τ donde Y¯ (τ ) es el promedio de Yi ´s dentro del nodo τ . Para dividir un nodo τ en dos nodos hijos, τL y τR , se define la bondad de una divisi´on s como ∆I(τ ) = i(τ ) − i(τL ) − i(τR ).

(8)

A diferencia de la ecuaci´ on (3), la ecuaci´ on (8) no necesita pesos. Adem´as, se puede hacer uso de i(τ ) para definir el costo del a´rbol como R(T ) =

i(τ ),

(9)

τ ∈T˜

y luego sustituirlo en la ecuaci´ on (6) para formar el costo-complejidad.

3. Descripci´ on del estudio de simulaci´ on 3.1. Medidas del error de predicci´ on Suponga que se tiene un conjunto de datos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) que sigue un modelo de regresi´ on lineal:

yi = β0 + β1 xi1 + . . . + βp xip + εi , donde εi ∼ N (0, σ 2 ), i = 1, . . . , n.

(10)

De lo anterior se sabe que yverd i = E(yi ) = β0 + β1 xi1 + . . . + βp xip , i = 1, . . . , n. Se ajusta un modelo de regresi´ on lineal a los datos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), luego, los valores predichos son de la forma: yreg i = β 0 + β 1 xi1 + . . . + β p xip , i = 1, . . . , n,

donde, β 0 , β 1 , . . . , β p son las estimaciones por m´ınimos cuadrados de los par´ametros β0 , β1 , . . . , βp . Por tanto, el error de predicci´ on por regresi´on lineal se calcula como Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

EP RL =

�n

i=1 (yreg i

− yverd i )2

n

.

185

(11)

Adem´ as, se ajusta un ´ arbol de regresi´ on a los datos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), obteniendo un ´ arbol de l nodos terminales. Sean C1 , C2 , . . . , Cl las clases correspondientes a los l nodos terminales, luego, los valores predichos por el ´arbol de regresi´ on son de la forma:

ycart i = donde, rk =

  rk 

0

si

xi ∈ Ck ; k = 1, . . . , l

si

en otro caso

{yi |xi ∈ Ck , i = 1, . . . , n} ; #({yi |xi ∈ Ck , i = 1, . . . , n})

k = 1, . . . , l.

Por tanto, el error de predicci´ on por CART se calcula como EP CART =

�n

i=1 (ycart i

− yverd i )2

n

.

(12)

3.2. Pasos del estudio de simulaci´ on Los conjuntos de datos simulados en este trabajo se generan de modelos de regresi´ on lineal de la forma: Yi = F (xi1 , xi2 , . . . , xip ) + εi , donde εi ∼ N (0, σ 2 ), i = 1, . . . , n

(13)

donde

E[Yi ] = F (xi1 , xi2 , . . . , xip ) = β0 +

p � j=1

βj xij = β0 +

p �

βj gj (xi ) = f (xi ), i = 1, . . . , n

j=1

(14) mediante los siguientes pasos: 1. Se especifican las funciones g1 (x), . . . , gp (x) y valores de los par´ametros β0 , β1 , . . . , βp en la ecuaci´ on (14). 2. Se genera una secuencia de n n´ umeros x1 , x2 , . . . , xn igualmente espaciados del conjunto (soporte) X = [1, 100]. 3. Se generan aleatoriamente n n´ umeros ε1 , ε2 , . . . , εn de la distribuci´on N (0, σ 2 ). Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


186

Juan Felipe D´ıaz & Juan Carlos Correa

4. Se calculan los valores yi = f (xi ) + εi para todo i = 1, . . . , n. 5. Se estandarizan los datos y1 , y2 , . . . , yn obteniendo y1∗ , y2∗ , . . . , yn∗ , donde, yi∗ =

yi − y¯ sy

(15)

6. Se toma como muestra de aprendizaje L = {(x1 , y1∗ ), (x2 , y2∗ ), . . . , (xn , yn∗ )} la cual sigue el modelo de regresi´ on lineal descrito por la ecuaci´on (13). 7. Para la muestra de aprendizaje L se ajusta un modelo de regresi´on lineal utilizando la librer´ıa MASS y se ajusta un ´arbol de regresi´on utilizando la librer´ıa rpart del paquete estad´ıstico R. 8. Se estiman los errores de predicci´ on para el modelo de regresi´on lineal ajustado y para el ´ arbol de regresi´ on ajustado, los cuales se definen respectivamente en las ecuaciones (11) y (12). 9. Se repiten los pasos 3 a 8 para obtener 1000 errores de predicci´on por regresi´ on lineal EP RL1 , EP RL2 ,..., EP RL1000 y 1000 errores de predicci´on por arboles de clasificaci´ ´ on EP CART1 , EP CART2 ,..., EP CART1000 . 10. Se calcula el promedio de los 1000 errores de predicci´on para regresi´on lineal y el promedio de los 1000 errores de predicci´ on para ´arboles de regre 1000 EP RL si´ on, los cuales son respectivamente EP RL = k=11000 k y EP CART = 1000 k=1

EP CARTk . 1000

11. Se calcula la diferencia de logaritmos de los errores de predicci´on, DIF LOG = Log(EP CART ) − Log(EP RL), la cual es una medida de proximidad de los dos errores. A medida que DIF LOG → 0, los dos errores de predicci´on se van acercando entre ellos. Si DIF LOG > 0 entonces EP CART > EP RL y la regresi´ on lineal predice mejor los datos que los ´arboles de regresi´on, pero, si DIF LOG < 0 entonces EP CART < EP RL y los ´arboles de regresi´on predicen mejor los datos que la regresi´on lineal. Si DIF LOG = 0 entonces EP CART = EP RL y ambos modelos predicen igual.

4. Comparaci´ on de las predicciones cuando el modelo lineal ajustado es el correcto En esta secci´ on se supone que los datos siguen un modelo de regresi´on lineal espec´ıfico. Se ajusta un ´ arbol de regresi´ on CART y el modelo correcto a los datos para predecir la respuesta. El objetivo es comparar las magnitudes de los errores de predicci´ on de CART y de regresi´ on lineal, cambiando el tama˜ no y la varianza de los errores de los datos. A continuaci´ on, se simular´an conjuntos de datos para cinco modelos de regresi´ on lineal, dos modelos cuadr´aticos y tres trigonom´etricos, variando el n´ umero de datos y la desviaci´ on est´andar de los errores. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

187

4.1. Predicci´ on de modelos de regresi´ on lineal cuadr´ aticos Suponga que se tiene un conjunto de datos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) que sigue un modelo de regresi´ on cuadr´ atico de la forma: yi = β0 + β1 xi + β2 x2i + εi , donde εi ∼ N (0, σ 2 ), i = 1, . . . , n.

(16)

De lo anterior, se sabe que yverd i = E(yi ) = β0 + β1 xi + β2 x2i , i = 1, . . . , n.

(17)

Para simular los conjuntos de datos se siguen los pasos descritos en la secci´on 1.5. En el paso 1, se toma p = 2 y se especifican las funciones g1 (x) = x, g2 (x) = x2 .

(18)

El primer modelo por analizar se obtiene al sustituir β0 = 1, β1 = 2, β2 = 3 en la ecuaci´ on (16) y se llamar´ a modelo cuadr´ atico 1. El segundo modelo por analizar se obtiene al sustituir β0 = 680, β1 = −22, β2 = 0.25 en la ecuaci´on (16) y se llamar´ a modelo cuadr´ atico 2. En la Tabla 1 se puede observar para los modelos cuadr´aticos 1 y 2, que para cualquier valor de n fijo, al aumentar la desviaci´on est´andar σ, los errores de predicci´ on de la regresi´ on lineal y de CART se aproximan entre s´ı, siendo en todos los casos menor el error de predicci´ on de la regresi´on lineal. En los gr´ aficos de los modelos cuadr´ aticos de la Tabla 2, se puede ver c´omo las predicciones de CART describen la forma del verdadero modelo de los datos simulados para n = 100 y n = 1000.

4.2. Predicci´ on de modelos de regresi´ on lineal trigonom´ etricos Suponga que se tiene un conjunto de datos (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) que sigue un modelo trigonom´etrico de la forma: yi = a sin(bxi + c) + d + εi , donde εi ∼ N (0, σ 2 ), i = 1, . . . , n

(19)

donde el valor de b es conocido. De lo anterior se tiene que yverd i = E(yi ) = a sin(bxi + c) + d, i = 1, . . . , n.

(20)

El modelo (19) se puede reescribir como

a sin(bxi +c)+d+εi = a sin(c) cos(bxi )+a cos(c) sin(bxi )+d+εi , i = 1, . . . , n. (21) Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


188

Juan Felipe D´ıaz & Juan Carlos Correa

Tabla 1: Comparaci´ on de los errores de predicci´ on para los modelos cuadr´ aticos. Fuente: elaboraci´ on propia Cuadr´ atico 1 Cuadr´ atico 2 n σ DIF LOG n σ DIF LOG 1 8.8029 1 5.4355 10 6.7680 5 4.0401 50 100 4.7744 50 10 3.4510 500 3.3271 25 2.5974 1000 2.6916 50 1.8948 2000 1.9102 100 1.1250 1 8.6704 1 5.7342 10 6.6368 5 4.2644 100 100 4.5679 100 10 3.5766 500 3.0888 25 2.6834 1000 2.3725 50 1.8463 2000 1.5971 100 0.9506 1 9.1452 1 6.0454 10 7.0944 5 4.5622 500 100 5.0816 500 10 3.9003 500 3.5544 25 2.7633 1000 2.6974 50 1.7254 2000 1.6999 100 0.7671 1 9.4044 1 6.3086 10 7.4077 5 4.8416 1000 100 5.3838 1000 10 4.0910 500 3.7601 25 2.8315 1000 2.7961 50 1.7460 2000 1.7307 100 0.7736 1 10.1050 1 7.0107 10 8.1027 5 5.3742 5000 100 6.0591 5000 10 4.3912 500 3.9929 25 2.9208 1000 2.8959 50 1.7731 2000 1.7763 100 0.7815

Para simular los conjuntos de datos se siguen los pasos descritos en la secci´on 1.5. En el paso 1, se toma p = 2, se especifican las funciones g1 (x) = cos(bx), g2 (x) = sin(bx),

(22)

y se especifican los valores de los par´ ametros β0 = d, β1 = a sin(c) y β2 = a cos(c). Para encontrar a, c y d en t´erminos de β0 , β1 y β2 , se resuelven las ecuaciones a = ± (β12 + β22 ), c = arctan(β1 /β2 ), d = β0 .

(23)

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


189

Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

30000 20000

Y Cuadrática

0

10000

Datos simulados Regresión lineal CART

10000

20000

Datos simulados Regresión lineal CART

0

Y Cuadrática

30000

Tabla 2: Gr´ aficos de las predicciones para los modelos cuadr´ aticos. Fuente: elaboraci´ on propia Cuadr´ atico 1 Cuadr´atico 1

0

20

40

60

80

100

0

20

40

x

100

80

100

600

Cuadr´atico 2

400

Y Cuadrática

200 −200

−200

0

Datos simulados Regresión lineal CART

200

Datos simulados Regresión lineal CART

400

80

0

600

Cuadr´ atico 2

Y Cuadrática

60 x

0

20

40

60 x

80

100

0

20

40

60 x

El tercer modelo por analizar se obtiene al sustituir a = 10, b = 0.1, c = 1, d = 12 en la ecuaci´on (19) y se llamar´ a modelo trigonom´etrico 1. El cuarto modelo por analizar se obtiene al sustituir a = 10, b = 0.5, c = 1, d = 12 en la ecuaci´on (19) y se llamar´ a modelo trigonom´etrico 2. El quinto y u ´ltimo modelo por analizar se obtiene de sustituir a = 10, b = 1, c = 1, d = 12 en la ecuaci´on (19) y se llamar´ a modelo trigonom´etrico 3. De igual manera que para los modelos cuadr´aticos, en la Tabla 3 se puede observar para los modelos trigonom´etricos 1, 2 y 3, que para cualquier valor de n fijo, al aumentar la desviaci´ on est´ andar σ, los errores de predicci´on de la regresi´on lineal y de CART se aproximan entre s´ı, siendo en todos los casos menor el error de predicci´ on de la regresi´ on lineal.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


190

Juan Felipe D´ıaz & Juan Carlos Correa

Tabla 3: Comparaci´ on de los errores de predicci´ on para los modelos trigonom´etricos. Fuente: elaboraci´ on propia Trigonom´etrico 1 Trigonom´etrico 2 Trigonom´etrico 3 n σ DIF LOG n σ DIF LOG n σ DIF LOG 0.1 4.6871 0.1 5.3747 0.1 5.4009 0.3 3.7664 0.3 4.3779 0.3 4.4733 50 0.5 3.3019 50 0.5 3.9477 50 0.5 3.9775 0.8 2.9084 0.8 3.5096 0.8 3.5627 1 2.6753 1 3.3064 1 3.3305 2 1.9181 2 2.5195 2 2.5511 0.1 4.6585 0.1 5.5911 0.1 5.6893 0.3 3.7042 0.3 4.5872 0.3 4.7109 100 0.5 3.1851 100 0.5 4.1200 100 0.5 4.2248 0.8 2.7160 0.8 3.6437 0.8 3.8107 1 2.4882 1 3.4060 1 3.5492 2 1.6586 2 2.5312 2 2.6679 0.1 5.1325 0.1 5.4799 0.1 5.8220 0.3 4.1113 0.3 4.4435 0.3 4.8207 500 0.5 3.5220 500 0.5 3.9073 500 0.5 4.2554 0.8 2.9345 0.8 3.3196 0.8 3.6504 1 2.6243 1 3.0206 1 3.3276 2 1.5876 2 2.0048 2 2.2863 0.1 5.4128 0.1 5.7053 0.1 6.1348 0.3 4.3312 0.3 4.6271 0.3 5.0262 1000 0.5 3.7003 1000 0.5 4.0429 1000 0.5 4.3948 0.8 3.0333 0.8 3.3894 0.8 3.7299 1 2.6955 1 3.0631 1 3.3895 2 1.6081 2 2.0030 2 2.2809 0.1 6.0474 0.1 6.3035 0.1 6.7301 0.3 4.7021 0.3 4.9564 0.3 5.3738 5000 0.5 3.9106 5000 0.5 4.1899 5000 0.5 4.5899 0.8 3.1304 0.8 3.4461 0.8 3.8144 1 2.7607 1 3.0925 1 3.4445 2 1.6242 2 2.0165 2 2.2933

En los gr´ aficos de los modelos trigonom´etricos 1 y 2 de la Tabla 4 se puede ver c´omo las predicciones de CART describen la forma del verdadero modelo de los datos simulados para n = 100 y n = 1000. En los gr´aficos del modelo trigonom´etrico 3 de la Tabla 4 se ve que las predicciones de CART no describen la forma verdadera de los datos con n = 100, pero, si la describen con n = 1000. N´otese que este modelo de regresi´ on tiene una forma m´ as compleja que los modelos anteriores en cuanto al n´ umero de m´ aximos y m´ınimos locales que tiene su gr´afica. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


191

Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

Tabla 4: Gr´ aficos de las predicciones para los modelos trigonom´etricos. Fuente: elaboraci´ on propia Trigonom´etrico 1 Trigonom´etrico 1

15

20

25

Datos simulados Regresión lineal CART

5

10

Y Trigonométrica

20 15 10 0

0

5

Y Trigonométrica

25

Datos simulados Regresión lineal CART

0

20

40

60

80

100

0

20

40

x

60

80

100

x

Trigonom´etrico 2 30

Trigonom´etrico 2

15

20

25

Datos simulados Regresión lineal CART

5

10

Y Trigonométrica

20 15 10 0

0

5

Y Trigonométrica

25

Datos simulados Regresión lineal CART

0

20

40

60

80

100

0

20

40

x

60

80

100

x

Trigonom´etrico 3 30

Trigonom´etrico 3

20 15 10 0

5

5

10

15

20

Y Trigonométrica

25

Datos simulados Regresión lineal CART

0

Y Trigonométrica

25

Datos simulados Regresión lineal CART

0

20

40

60 x

80

100

0

20

40

60

80

100

x

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


192

Juan Felipe D´ıaz & Juan Carlos Correa

5. Comparaci´ on de las predicciones cuando el modelo lineal ajustado es incorrecto A continuaci´ on se tomar´ an tres modelos de regresi´on lineal de los descritos en la secci´ on 3 para generar conjuntos de datos, a los cuales se ajustan rectas de regresi´on lineal como modelo equivocado para comparar estas predicciones con las de CART. Se escogieron estos modelos porque hay casos en el estudio de simulaci´on en que la recta de regresi´ on predice mejor los datos que los ´arboles de regresi´on cuando el tama˜ no muestral es peque˜ no. El objetivo es ver como CART toma ventaja del aumento del tama˜ no muestral para predecir mejor los datos que la recta de regresi´ on en estos modelos. En la Tabla 5 se puede observar para el modelo cuadr´atico 1, que en general CART predice mejor la respuesta que la recta de regresi´on, exceptuando para n = 50, donde los errores de predicci´ on de la recta de regresi´on son m´as peque˜ nos que los de CART. En los gr´ aficos del modelo cuadr´atico 1 de la Tabla 6, se puede ver c´ omo las predicciones de CART se adaptan a la forma del verdadero modelo de los datos simulados. En la Tabla 5 se observa para el modelo trigonom´etrico 2, que CART es m´as preciso que la recta de regresi´ on, es decir, el error de predicci´on de CART es menor que el error de la recta de regresi´ on para cualquier valor de n y cualquier valor de σ. En los gr´ aficos de la Tabla 6 para el modelo trigonom´etrico 2, se puede observar c´omo las predicciones de CART con n = 50 descubren patrones en los datos que pueden no notarse a simple vista. Aunque se puede decir para n = 50 y n = 100 que las predicciones de CART se adaptan a la forma del verdadero modelo de los datos simulados, es claro que con n = 50 es m´ as dif´ıcil describir la verdadera forma del modelo por su cantidad de m´ aximos y m´ınimos relativos. Para n = 100 es m´as clara la verdadera forma del modelo debido a que se tienen m´as cantidad de datos para describirlo. En la Tabla 5 se observa para el modelo trigonom´etrico 3, que el error de predicci´on de CART es mayor que el de la recta de regresi´on para n = 50 cuando σ = 0.1, 0.3, 0.5, 0.8, y para n = 100 cuando σ = 0.1, 0.3, 0.5, pero, en los otros casos, el error de predicci´ on de CART es menor. En los gr´aficos de la Tabla 6 para el modelo trigonom´etrico 3, se observa que las predicciones de CART aparentemente forman una recta, es decir, CART carece de capacidad de captar la verdadera forma del modelo con n = 100 datos, al igual que con n = 50. Se puede decir, para este modelo, que con n = 50 y n = 100 es m´as dif´ıcil describir la verdadera forma del modelo por su cantidad de m´ aximos y m´ınimos relativos. Se observa que con n = 500 las predicciones de CART se adaptan a la verdadera forma del modelo debido a que se tiene m´ as cantidad de datos para describirlo. Si bien no existe evidencia para todos los modelos que el aumento de n implica un aumento en la precisi´ on de las predicciones de CART con respecto a la recta de regresi´on (disminuci´ on de la diferencia de logaritmos de los errores en la tabla), se puede observar globalmente que esta precisi´ on para n = 50 y n = 100 es notablemente menor que para n = 500, n = 1000 y n = 5000. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

193

En general se puede concluir que a medida que aumenta el n´ umero de m´aximos y m´ınimos relativos en el modelo trigonom´etrico los ´arboles de regresi´on tienen m´ as problemas en describir la forma del verdadero modelo de los datos cuando el n´ umero de datos no es suficiente. Tabla 5: Comparaci´ on de los errores de predicci´ on con modelos lineales incorrectos. Fuente: elaboraci´ on propia n

50

100

500

1000

5000

Cuadr´ atico 1 σ DIF LOG 1 0.3610 10 0.3574 100 0.3499 500 0.3344 1000 0.2969 2000 0.2600 1 -0.0528 10 -0.0528 100 -0.1328 500 -0.1891 1000 -0.2038 2000 -0.1915 1 -0.2721 10 -0.2722 100 -0.2993 500 -0.2933 1000 -0.2883 2000 -0.2611 1 -0.2709 10 -0.2713 100 -0.2929 500 -0.2972 1000 -0.2830 2000 -0.2588 1 -0.2705 10 -0.2705 100 -0.2761 500 -0.2927 1000 -0.2804 2000 -0.2414

Trigonom´ etrico 2 n σ DIF LOG 0.1 -0.0278 0.3 -0.0277 50 0.5 -0.0273 0.8 -0.0256 1 -0.0239 2 -0.0175 0.1 -0.1268 0.3 -0.1305 100 0.5 -0.1338 0.8 -0.1363 1 -0.1379 2 -0.1397 0.1 -0.9144 0.3 -0.9007 500 0.5 -0.8847 0.8 -0.8636 1 -0.8492 2 -0.7981 0.1 -0.9292 0.3 -0.9292 1000 0.5 -0.9090 0.8 -0.8765 1 -0.8642 2 -0.8119 0.1 -0.9817 0.3 -0.9646 5000 0.5 -0.9465 0.8 -0.9136 1 -0.8941 2 -0.8179

Trigonom´ etrico 3 n σ DIF LOG 0.1 0.0001 0.3 0.0001 50 0.5 0.0001 0.8 0.0000 1 -0.0001 2 0.0000 0.1 0.0001 0.3 0.0001 100 0.5 0.0001 0.8 -0.0003 1 -0.0009 2 -0.0086 0.1 -0.5408 0.3 -0.5430 500 0.5 -0.5414 0.8 -0.5369 1 -0.5336 2 -0.5127 0.1 -0.5459 0.3 -0.5459 1000 0.5 -0.5455 0.8 -0.5436 1 -0.5426 2 -0.5364 0.1 -0.5494 0.3 -0.5490 5000 0.5 -0.5485 0.8 -0.5478 1 -0.5470 2 -0.5415

6. Conclusiones Del estudio de simulaci´ on se concluye que, cuando se comparan las predicciones de los ´ arboles de regresi´ on y las de regresi´on lineal al predecir la respuesta de cualquier modelo de regresi´ on analizado, sea cuadr´atico o trigonom´etrico, el error de predicci´ on de la regresi´ on lineal siempre es menor que el de CART. Aunque el aumento de la varianza de los errores de los datos hace que el error de predicci´on de la regresi´on lineal se aproxime al de CART, el estudio de simulaci´on no muestra ning´ un caso en que este error supere al de CART. Al comparar las predicciones de los ´ arboles de regresi´on y las de la recta de regresi´ on al predecir la respuesta del modelo cuadr´atico 1 y de los modelos trigonom´etricos 2 y 3, se observa que siempre que se tenga la cantidad de datos suficiente para Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


194

Juan Felipe D´ıaz & Juan Carlos Correa

40

60

80

15000 5000

Y Cuadrática 20

−5000

15000 0

Datos simulados Recta de regresión CART

25000

Datos simulados Recta de regresión CART

5000 −5000

Y Cuadrática

25000

Tabla 6: Gr´ aficos de los modelos lineales ajustados incorrectamente. Fuente: elaboraci´ on propia Cuadr´ atico 1 Cuadr´atico 1

100

0

20

40

x

Trigonom´etrico 2

100

15

20

25

Datos simulados Recta de regresión CART

0

0

5

10

Y Trigonométrica

25 20 15 10 5

Y Trigonométrica

80

Trigonom´etrico 2

Datos simulados Recta de regresión CART

0

20

40

60

80

100

0

20

40

x

80

100

Trigonom´etrico 3

Datos simulados Recta de regresión CART

0

20 15 10 0

5

5

10

15

20

Y Trigonométrica

25

Datos simulados Recta de regresión CART

25

60 x

Trigonom´etrico 3

Y Trigonométrica

60 x

0

20

40

60 x

80

100

0

20

40

60

80

100

x

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comparaci´ on entre ´ arboles de regresi´ on CART y regresi´ on lineal

195

describir la forma funcional de la media de los datos, el error de predicci´on de CART es menor que el de la recta de regresi´on. De lo anterior se puede concluir que, el modelo CART es una alternativa que prueba ser una buena opci´ on cuando el usuario desconoce la forma funcional verdadera del modelo, lo cual es com´ un en investigaciones reales, y puede utilizarse como una primera etapa en la parte exploratoria en modelaci´on. Si el usuario est´a seguro de cu´ al es la forma funcional de su modelo, entonces CART no es una opci´on viable.

7. Agradecimientos A los profesores V´ıctor Ignacio L´ opez R´ıos y Ren´e Iral Palomino por sus invaluables comentarios y sugerencias. A Diana Guzm´ an Aguilar, Jorge Iv´an V´elez y en general a la Escuela de Estad´ıstica y la Facultad de Ciencias de la Universidad Nacional de Colombia, sede Medell´ın por haber propiciado un ambiente id´oneo para la realizaci´ on de este trabajo. Recibido: 27 de mayo de 2013 Aceptado: 20 de septiembre de 2013

Referencias Ankarali, H., Canan, A., Akkus, Z., Bugdayci, R. & Ali Sungur, M. (2007), ‘Comparison of logistic regression model and classification tree: An application to postpartum depression data’, Expert Systems with Applications 32, 987–994. Breiman, L., Friedman, J., Olshen, R. & Stone, C. (1984), Classification And Regression Trees, CHAPMAN & HALL/CRC, Boca Raton. Izenman, A. (2008), Modern Multivariate Statistical Techniques, Springer, New York. Tamminen, S., Laurinen, P. & Roning, J. (1999), ‘Comparing regression trees with neural networks in aerobic fitness approximation’. Zhang, H. & Singer, B. (2010), Recursive Partitioning and Applications, Springer, New York.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2



Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 197–212

En defensa de la racionalidad bayesiana: a prop´ osito de Mario Bunge y su “Filosof´ıa para m´ edicos” In defense of bayesian rationality: about Mario Bunge and his “Philosophy for physicians” Luis Carlos Silvaa lcsilva@infomed.sld.cu

Resumen Se valoran cr´ıticamente los juicios generales que se hacen sobre la teor´ıa de probabilidades y su aplicaci´on en el campo de la salud en el libro Filosof´ıa para m´edicos, del f´ısico y epistem´ologo argentino Mario Bunge. La obra contiene varias imprecisiones y desaciertos en esta materia, los cuales son objeto de an´ alisis en el presente art´ıculo. Al manejar los conceptos propios de la inferencia bayesiana, en particular en relaci´on con la aplicaci´on del teorema de Bayes, el libro incluye errores y falacias que tambi´en se discuten e ilustran pormenorizadamente. Palabras clave: inferencia, probabilidades subjetivas, frecuentismo, estad´ıstica bayesiana, medicina. Abstract General judgments on the probability theory and its application on the field of health are critically assessed in the book Philosophy for physicians, by the Argentinean physicist and epistemologist Mario Bunge. The work contains several inaccuracies and mistakes in this subject, which are analyzed in this article. When handling concepts of Bayesian inference, particularly in relation to the application of Bayes’ theorem, the book includes errors and fallacies that are also discussed and illustrated in detail. Keywords: inference, subjective probabilities, frecuentist, Bayesian statistics, medicine. a Investigador

titular de la Escuela Nacional de Salud P´ ublica. La Habana, Cuba.

197


198

Luis Carlos Silva

1. Introducci´ on El f´ısico y fil´osofo de la ciencia, argentino, Mario Bunge public´ o recientemente el libro Filosof´ıa para m´edicos (2012) dedicado a examinar problemas relacionados con la pr´actica m´edica desde una perspectiva filos´ ofica y epistemol´ ogica. Se abordan en ´el temas de muy diversa ´ındole, lo cual ha motivado un art´ıculo (Silva 2013), que intenta repasar cr´ıticamente su contenido en t´erminos generales. El material de Bunge incluye algunos asuntos estad´ısticos, y muy en particular, varias ideas relacionadas con el pensamiento bayesiano, que merecen a mi juicio un tratamiento espec´ıfico, motivo de la presente contribuci´ on. En esta ´ area, el texto tiene varias imprecisiones, frases difusas o sin sentido, premisas equivocadas y respuestas err´oneas. La presente nota procura discutir y fundamentar con cierto detalle estos puntos de vista. Me detendr´e en diversas cuestiones terminol´ ogicas, conceptuales y pr´ acticas ubicadas en el entorno del Teorema de Bayes, con especial ´enfasis en el desmontaje de un ejemplo, donde el autor “demuestra”que, seg´ un los bayesianos, tener el VIH no incrementa la probabilidad de padecer sida y explica que, para ser consecuentes, los bayesianos han de creer en la resurrecci´ on.

2. Subjetividad y arbitrariedad El error fundamental de Bunge –que atraviesa toda su pr´edica antibayesiana– reside en no comprender que arbitrariedad y subjetividad son dos conceptos totalmente diferentes. “Por ser subjetivas, las probabilidades bayesianas son arbitrarias”afirma textualmente (p´agina 99). Si bien la arbitrariedad y el capricho distorsionan cualquier discurso cient´ıfico, la subjetividad es inevitable en la ciencia, como ha sido de sobra constatado (Press & Tanur 2001, Silva & Benav´ıdes 2003). A partir de ese equ´ıvoco, atribuye a los estad´ısticos bayesianos una conducta antojadiza: El bayesiano asigna las probabilidades que se le antoje y no le molesta el que otros asignen valores diferentes: las probabilidades son tan subjetivas como las preferencias est´eticas . . . Los conceptos de azar (o desorden) objetivo y de verdad objetiva o impersonal no intervienen en la interpretaci´on bayesiana (p. 99). Poco m´as abajo (p. 100), reafirma la idea: Contrariamente a lo que suponen los bayesianos (y los partidarios de las teor´ıas de la elecci´on racional), no es leg´ıtimo asignar una probabilidad a todo hecho. Solo los hechos al azar y los escogidos al azar tienen probabilidades. Y un par de p´aginas m´as adelante, Bunge va m´ as lejos y asevera que no cabe siquiera “hablar de probabilidades en medicina”; estas solo podr´ıan ser aplicadas Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


En defensa de la racionalidad bayesiana

199

en procesos intr´ınsecamente aleatorios, tales como cuando se lanza un dado o cuando nos ocupamos de la meiosis que, seg´ un comunica (p. 102), es “el u ´nico proceso bi´otico aut´enticamente aleatorio”. La idea presente en la interpretaci´on de la probabilidad como un atributo subjetivo es que, ante un fen´omeno aleatorio o concebido como tal para resolver determinado problema (en el sentido de que puede verificarse o no y que resulta imposible conocer de antemano cu´al de esos desenlaces se producir´ a), se asigna, de forma impl´ıcita o expl´ıcita, una probabilidad que representa el grado de confianza o creencia que se tiene en la ocurrencia de ese hecho. Da igual si se trata de que “salga ✭✭cara✮✮ cuando se lance una moneda ligeramente doblada con un alicate”, de que “obtenga Obama la reelecci´on” o de que “Brasil empate con Corea del Norte en un partido pr´oximo a celebrarse en el mundial de f´ utbol”. Las diferencias esenciales con la interpretaci´ on frecuentista radican en que la asignaci´on de valores, aunque condicionada por la informaci´ on de que se disponga, es propia de cada observador particular, sin que las opiniones de varios analistas tengan que coincidir y en que estos valores pueden atribuirse tambi´en a hechos singulares o irrepetibles. En la concepci´on frecuentista, sin embargo, la probabilidad de cierto suceso es un n´ umero u ´ nico e ideal (concretamente, el l´ımite de la raz´on entre el n´ umero de veces que dicho suceso ocurre y el n´ umero de veces en que se lleva adelante el proceso que pudiera producirlo, cuando este u ´ltimo n´ umero tiende a infinito), y lo que puede variar son las estimaciones que hacemos de ella. Cuando se dice que la probabilidad de que Brasil gane a Corea del Norte en un partido que disputar´an en el campeonato mundial es 0.95, la de que empate 0.04 y la de que pierda es 0.01, no se han elegido esos n´ umeros de una tabla de n´ umeros aleatorios ni a ra´ız de preferencias est´eticas. Se han fijado sobre una base subjetiva –el desempe˜ no de sus delanteros en partidos recientes, el n´ umero de jugadores que ya tienen una tarjeta amarilla, el valor de los porteros en el mercado, los resultados obtenidos en partidos recientes y la calidad de los contrincantes en dichos partidos, etc.–, pero no arbitraria1. Obviamente, para que esta interpretaci´on pueda ser aplicada con ´exito en un marco operativo, es menester que quienes se acogen a ella mantengan un cierto grado de racionalidad en la asignaci´on de probabilidades. Si se quiere hacer inferencias v´alidas, los valores que se determinen no pueden ser fruto del capricho o del “antojo”de quien los fija. Una vez asignados por esa v´ıa los grados de confianza que se tengan en la ocurrencia de los sucesos, si los valores correspondientes satisfacen los axiomas de Kolmogorov (ver Anexo), ya se opera con esas probabilidades como con cualquier otra manera de definirlas que tambi´en cumpla aquellos axiomas. “Solo los hechos al azar y los escogidos al azar tienen probabilidades”, sostiene Bunge. Sin embargo, es dif´ıcil o imposible interpretar el concepto de que un hecho “tenga”probabilidades. Los eventos no tienen probabilidades; se les atribuyen probabilidades de ocurrencia, sea subjetivamente o a partir de informaci´ on emp´ırica, 1 Dicho sea de paso, esos dos equipos no se hab´ ıan enfrentado jam´ as antes, de modo que ser´ıa imposible realizar una estimaci´ on frecuentista.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


200

Luis Carlos Silva

si se considera que ello puede ser fructuoso. No es un detalle balad´ı sino medular: mientras lo primero apunta a un rasgo que ser´ıa presuntamente intr´ınseco a determinados “hechos”, lo segundo es una convenci´ on que por lo general se adopta con fines operativos. Finalmente, llamo la atenci´on sobre la afirmaci´ on de Bunge (p. 101) de que la interpretaci´on bayesiana no se adecua a las ciencias de la salud, ya que en ellas no prima la diversidad de opiniones. Los pacientes y los m´edicos, seg´ un ´el, afortunadamente saben que si hay diferencias de opini´on acerca de un tratamiento o una diagnosis, suele recabarse la opini´on de un tercero o de un panel de expertos, de quienes se espera no solo opini´on sino tambi´en argumentos fundados en las ciencias biom´edicas. Lo que no capta Bunge es que, en cualquier caso, hablamos de una opini´ on, en la cual participar´a inexorablemente cierto grado de subjetividad, a veces muy grande, a veces menor. No puede ser de otro modo debido a que las ciencias biom´edicas est´an plagadas no solo de incertidumbres, verdades provisionales, controversias y dudas, sino que con mucha frecuencia, como demuestra Ioannidis (2005), dan por cierto aquello que no lo es. Y finalmente, los “argumentos fundados”no son privativos de las ciencias biom´edicas; tambi´en comparecen en la asignaci´ on de probabilidades, y tal asignaci´on puede adoptarse asimismo tras la consulta con otro especialista o con un panel de expertos.

3. Causalidad y casualidad El autor objeta que “se ha supuesto que tanto el tener VIH como el tener sida son hechos al azar”, cuando en realidad estos dos acontecimientos, afirma, “no son casuales sino causales”. Establece as´ı una falsa dicotom´ıa. Aparentemente, Bunge quiere decir con ello que se trata de un hecho cuya ocurrencia obedece a una causa, a diferencia de los sucesos a los que ´el llama “casuales”, los cuales estar´ıan exclusivamente determinados por el azar. Sin embargo, nada proh´ıbe que, aunque un acontecimiento tenga una causa, cuando a´ un no conocemos el desenlace del proceso que podr´ıa producirlo, le atribuyamos una probabilidad de ocurrencia, incluso si conoci´eramos cabalmente el mecanismo causal que subyace (algo que suele no ocurrir). En el sentido que lo maneja Bunge, la muerte de un individuo es “causal”, ya que siempre hay una causa para la muerte; pero es evidente que tambi´en es “casual”, en el sentido de que es imposible saber ni cu´ ando ni d´onde ocurrir´a, de modo que es completamente natural que se maneje la probabilidad de que tal hecho se consume antes de que transcurra cierto lapso prefijado. La u ´ nica regla que hay que cumplir es que tales asignaciones no transgredan los axiomas de Kolmogorov.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


En defensa de la racionalidad bayesiana

201

Ahora bien, el meollo de este debate reside en lo siguiente: ¿sobre qu´e bases se puede aceptar o no un enfoque metodol´ogico dado en el contexto de la soluci´ on de un problema? En el marco que nos ocupa, esto se traduce en la pregunta ¿cu´ al pudiera ser el ´arbitro que concede o no validez a la asignaci´ on de probabilidades a los eventos no aleatorios en el sentido objetivo de la probabilidad?, lo cual se discute en la siguiente secci´on.

4. La legitimidad de los modelos probabil´ısticos Examinemos m´as detenidamente la afirmaci´ on seg´ un la cual “No es leg´ıtimo asignar una probabilidad a todo hecho. Solo los hechos al azar y los escogidos al azar tienen probabilidades”. M´as all´a de que no se sabe qu´e es que un hecho “tenga”probabilidad, la pregunta cuya repuesta tiene inter´es aqu´ı es esta: ¿qu´e rasgos otorgan o quitan “legitimidad” a un modelo probabil´ıstico, entendido como una idealizaci´ on o representaci´ on de la realidad que procura simplificarla para poder examinarla mejor y para luego aplicar sus derivaciones con vistas a resolver cualquier otro problema pr´ actico concreto en el contexto del marco de incertidumbre que le dio vida? Un modelo en general –pero especialmente, estad´ıstico o predictivo– solo puede deslegitimarse (al igual que ocurre con un modo de conducirse con vistas a resolver un problema, siempre que no incorporemos la dimensi´on ´etica en su valoraci´ on) es que dicho modelo (o dicha conducta) no contribuya a resolver el problema que ha llevado a concebirlo (o a desplegar esa conducta). Como se explica en el Anexo, una probabilidad es una funci´ on que otorga un valor entre 0 y 1 a cualquier suceso (subconjunto) de un conjunto universo (un espacio muestral) a la que se exige el cumplimiento de ciertos axiomas. ¿C´omo se define la funci´on P sobre dicho espacio? Obviamente, depender´ a del empleo que uno quiera hacer de ella en t´erminos reales o pr´ acticos. Es importante recordar que “los n´ umeros no saben de d´onde vienen”(Lord 1953, Silva 1997). De modo que, ante un espacio muestral concreto, el analista puede en principio definir dicha funci´ on como crea m´as oportuno y, si cumple los axiomas mencionados, estaremos ante una funci´on de probabilidad. Son esas probabilidades subjetivamente determinadas las que, por ejemplo, emplean las casas de apuestas para fijar, mediante sus inversos, los odds que a su vez sirven para establecer cu´anto se paga por un acierto. Si fueran “arbitrarias”, tales empresas quebrar´ıan, como veremos m´ as abajo. Sin embargo, lo que hacen es ganar sumas millonarias. Acaso no haya mejor ejemplo del absurdo de decir que no se pueden manejar probabilidades en relaci´ on con eventos que son “causales”. Obviamente, si Brasil vence es por una causa (porque hace m´ as goles que Corea del Norte); y si Obama gana las elecciones ser´ a por una causa evidente: porque obtiene m´as votos que su contrincante. El desenlace es debido a una causa; pero el proceso que lo determina permite manejar dicho desenlace como un suceso aleatorio debido a que no existe manera alguna de identificarlo con certeza de antemano, Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


202

Luis Carlos Silva

aunque conozcamos el valor de muchas de las variables que pudieran influir en ´el. Y por si fuera poco, en procesos totalmente determin´ısticos, gobernados por reglas precisas, el manejo de probabilidades para hacer el ejercicio de ingenier´ıa inversa que conduzca a desentra˜ narlas, a partir de los datos, puede ser extraordinariamente fructuoso. El ejemplo m´as elocuente, desde mi punto de vista, es el del gran matem´atico brit´anico Alan Turing quien, empleando recursos bayesianos, consigui´o desencriptar el llamado c´odigo generado por la m´ aquina Enigma usado por los alemanes durante la Segunda Guerra Mundial (el cual no solo era “causal”, sino algor´ıtmico), conquista que result´o esencial para acelerar la victoria de los aliados en esa contienda (ver Good (1979) y http://blogs.elpais.com/turing/2012/12/alanturing-y-la-estadistica-bayesiana.html). En t´erminos generales, si el manejo que se haga de un espacio de probabilidad bien definido es fructuoso o no, tal y como ocurre con cualquier modelo, es harina de otro costal. Pudiera no serlo, pero con much´ısima frecuencia lo es, como en los ejemplos arriba mencionados. Por poner otro m´ as, f´ acilmente comprensible, consideremos el siguiente. A las casas de apuestas tal proceder les resulta obviamente redituable. No es una casualidad, por cierto, que todas ellas otorguen m´ as o menos los mismos premios. Si sus decisiones fueran “arbitrarias”, una casa pagar´ıa, por ejemplo, 3.70 euros a quien haya apostado un euro por la victoria de Brasil en caso de que esta se produzca, otra desembolsar´ıa 212.51 euros y otra pagar´ıa 1.03 euros. Pero como no son arbitrarias, y como todas las empresas usan los mismos m´etodos para determinar racionalmente esas probabilidades (la llamada “elicitation”de las probabilidades (ver Garthwaite et al. (2005)), el monto de los premios es similar entre una empresa y otra (por ejemplo, 1.31, 1.29, 1.35....), como puede comprobarse f´ acilmente consultando varios sitios web dedicados a manejar apuestas en la v´ıspera de un partido crucial. Para que se comprenda esto m´as claramente, imaginemos que antes de un partido se puede apostar por el desenlace “el n´ umero de goles ser´ a par”, o su complementario, “el n´ umero de goles ser´a impar”. Cuando se ofrece esa posibilidad, las casas de apuestas pagan 1.95 euros a quien haya apostado un euro y haya acertado. Puesto que evidentemente (considerando que un empate a cero arroja un resultado par) se trata de dos desenlaces que pueden considerarse equiprobables, lo “justo”ser´ıa pagar 2 euros, en caso de acierto, en lugar de 1.95 (que es el 97.5 % de 2) por cada euro apostado. La disminuci´on la establecen los organizadores de la apuesta, en lo sucesivo “la banca”, para garantizarse una ganancia (de lo contrario, ella solo servir´ıa como intermediaria para que el dinero pasara de unos apostadores a otros). Bunge afirmar´ıa que el car´acter par o impar del n´ umero de goles no es aleatorio sino causal (ya que depende de c´omo se hayan desempe˜ nado los equipos y no responde a un experimento o una selecci´ on regidos por el azar) y que por tanto los usuarios de las probabilidades subjetivas act´ uan a su antojo. Imaginemos que la banca, en efecto, se conduce tal y como lo har´ıa un individuo cuando emite juicios est´eticos sobre un poema o elige el color de su ropa. Supongamos que otorgan una probabilidad a priori de 0.2 a que el n´ umero de goles sea Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


En defensa de la racionalidad bayesiana

203

par y 0.8 a que sea impar. Eso les obligar´ıa a pagar el 97.5 % de 5 euros (inverso de 0.2) por cada euro apostado a esta posibilidad en caso de que se produzca, y el 97.5 % de 1.25 euros (inverso de 0.8) en el otro caso2 (es decir, 4.88 y 1.22 euros, respectivamente). Puesto que cualquier apostador racional intuye que un n´ umero par de goles es tan probable como uno impar, la inmensa mayor´ıa aprovechar´ıa el car´acter irracional de esta oferta y apostar´ıa por la opci´ on de que dicho n´ umero sea par, con la consiguiente ruina para la banca. Obviamente, la banca no elige probabilidades arbitrariamente, u ´ nica explicaci´ on para que, en lugar de ser un estruendoso fracaso, su negocio sea extraordinariamente pr´ ospero. El proceso, en suma, para atribuir probabilidades a sucesos no intr´ınsecamente aleatorios, dista de ser “arbitrario”. Puede ser parcial o totalmente subjetivo, pero es racional; y puede ser, desde luego, muy u ´til. Bunge reniega del empleo de la teor´ıa de probabilidades incluso en situaciones donde ni siquiera interviene la subjetividad para su definici´ on. Llega a decir que llamar “probabilidades”a las frecuencias relativas que manejan los epidemi´ ologos “es doblemente errado (p. 102): porque las frecuencias son propiedades colectivas y porque el uso de probabilidades solo se justifica con referencia a procesos aleatorios”, dado que los procesos subyacentes tienen ra´ıces causales. Y en la p´ agina 143 vuelve sobre el tema al considerar que: Es verdad que se habla a menudo de la ✭✭probabilidad✮✮ de que tal tratamiento cure tal mal, pero este uso del concepto de probabilidad es incorrecto, porque el concepto en cuesti´ on es te´ orico, no emp´ırico. Las probabilidades de que se habla en medicina y en epidemiolog´ıa son en realidad frecuencias relativas, y estas no est´ an necesariamente (l´ogicamente) relacionadas con el azar. De aqu´ı concluye que “los m´edicos ... har´an bien en limitarse a manejar frecuencias estad´ısticas”sin considerarlas probabilidades. La esperanza de vida, que es un par´ametro capital de la salud p´ ublica contempor´anea, se estima, sin embargo, a trav´es de la teor´ıa de probabilidades. Las compa˜ n´ıas de seguro, por poner otro ejemplo, ganan sumas enormes aplicando una teor´ıa que, seg´ un Bunge, no es leg´ıtimo emplear. Nuevamente: para estas, lo metodol´ogicamente leg´ıtimo es un modelo que sirva a sus intereses. Puesto que solo extienden p´olizas a sujetos que est´an vivos, se manejan con las probabilidades de que mueran dentro de lapsos espec´ıficos. Ning´ un ucase metodol´ogico los persuadir´a de no usar probabilidades. Lo que saben es, por ejemplo, que la misma p´ oliza no debe costar igual (ni dar las mismas recompensas) en Baltimore que en Nairobi, simplemente porque las probabilidades de morir antes de cumplir N + 1 a˜ nos no son iguales para sujetos de edad N en uno y otro enclave. An´alogamente, los modelos empleados para los vaticinios electorales suelen ser 2 El 97.5 % se debe a que las casas pagan siempre un porcentaje inferior a 100 para garantizar una ganancia. T´ıpicamente, en situaciones menos obvias, el porcentaje es bastante menor (entre un 90 y un 92 %)

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


204

Luis Carlos Silva

fallidos en Espa˜ na (Mora 2012) y otros sitios (donde usan recursos frecuentistas cl´asicos), pero pueden ser virtualmente perfectos, como ocurri´ o en las dos u ´ ltimas elecciones presidenciales en Estados Unidos con los realizados por Nate Silver con el auxilio de t´ecnicas bayesianas (Garicano 2012, Silver 2012). Sus resultados han sido tan notables que en varios foros de internet se ha considerado que el verdadero ganador de las u ´ ltimas elecciones fue el reverendo Thomas Bayes, y no Barak Obama. En el campo propiamente de la toma de decisiones m´edicas, como demuestra el profesor de la Oregon Health and Science University, Denis Mazur, el recorrido hist´orico de recursos empleados conduce al punto actual en que los procedimientos bayesianos –empleando probabilidades provenientes tanto del marco frecuentista como del subjetivo– ocupan ya un lugar irreversible (Mazur 2012). Si se quieren ver algunas decenas de ejemplos adicionales, se pueden hallar en el apasionante y aclamado libro de McGrayne (2011), que versa sobre la extraordinaria historia de las aplicaciones bayesianas.

5. Examinando el ejemplo central de Bunge 5.1. Portar el VIH no incrementa la probabilidad de padecer sida La transcripci´on textual del ejemplo central de Bunge (p. 100) es la siguiente: Es sabido que el virus VIH es una causa necesaria del sida. O sea, el estar sidado implica el tener VIH, aunque no a la inversa. Supongamos que se haya probado que cierto individuo tiene el virus VIH. Un bayesiano preguntar´a cu´al es la probabilidad de que, adem´ as, el individuo tenga o pronto adquiera el sida. Para contestar la pregunta empezar´a por suponer que se le aplica el teorema de Bayes, que en este caso reza P (V IH|sida)P (sida) P (sida|V IH) = P (V IH) donde la expresi´on P (A) significa la probabilidad absoluta (o antecedente) de A, mientras que P (A|B) se lee ✭✭la probabilidad condicional de A dado (o suponiendo) que B✮✮. Puesto que el an´alisis de laboratorio muestra que el individuo en cuesti´on lleva el virus, el bayesiano pondr´ a P (V IH) = 1. Ahora, puesto que todos llevan el virus, tambi´en se pondr´ a P (V IH|sida) = 1. Reemplazando estos valores en la f´ormula de Bayes, ´esta se reduce a P (sida|V IH) = P (sida). Pero esto es falso: hay personas con VIH que no han desarrollado sida. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


En defensa de la racionalidad bayesiana

205

5.2. Algunas precisiones terminol´ ogicas y conceptuales

Salta a la vista que, en rigor, no es lo mismo la probabilidad de que “cierto individuo tenga sida”, a la de que “adquiera sida en el futuro”. Lo primero es algo que se puede valorar mediante la determinaci´on del nivel de linfocitos y la presencia de determinadas dolencias (tales como sarcoma de Kaposi o neumon´ıas recurrentes). Lo segundo, sin embargo, es algo que puede o no ocurrir dentro de cierto lapso, y que, mientras este no transcurra, se halla en una zona de incertidumbre, circunstancia que permite hablar de la probabilidad de que ese desenlace acaezca, como se hace a diario con los posibles resultados de muchos procesos morbosos. La argumentaci´on falaz comienza cuando Bunge, enredado en la naturaleza difusa de las categor´ıas que emplea, habla de que “se le aplica el teorema de Bayes”a “cierto individuo”. Eso no tiene sentido alguno. Si alguien quiere saber si Juan P´erez tiene sida, lo que hace no es aplicar el teorema al sujeto –lo cual en s´ı mismo no tiene sentido– sino aplicar las t´ecnicas de diagn´ ostico de dicha enfermedad a Juan. Se atribuye al bayesiano algo que no hace. Bayesiano o no, nadie aplica la teor´ıa de probabilidades cuando el desenlace ya se ha consumado y puede conocerse por alguna v´ıa cu´al fue. El teorema de Bayes es un recurso para calcular la probabilidad de las causas –que ya pasaron o que ya ejercieron su efecto– a partir de ciertos indicios. Lo que hace el bayesiano, o cualquiera que opere con probabilidades, es aplicar estos recursos en el contexto de un “espacio de probabilidad”. Por ejemplo, los trascendentes trabajos de Cornfield (1962), a partir del c´elebre estudio de Framingham (O’Donnell & Elosua 2008), permitieron construir tablas mediante la aplicaci´on de la regresi´on log´ıstica (cuya finalidad es justamente estimar probabilidades en funci´on de diversas variables) combinada con la teor´ıa bayesiana, en las que se consignan las probabilidades de enfermedad cardiovascular y muerte dentro de cierto lapso que tienen sujetos gen´ericos con determinada edad y sexo, con cierto grado de tabaquismo, de colesterolemia, etc´etera). Luego, para un sujeto concreto, puede conocerse la probabilidad que le asigna el modelo de morir antes de que transcurra el susodicho lapso (Wilson 2010). Y al aplicar tales recursos en el ´ambito de la salud p´ ublica, se consigui´ o lo que ha sido calificado como “uno de los m´as notables resultados en materia de salud p´ ublica del Siglo XX”debido a que en las tres d´ecadas siguientes “las tasas de mortalidad por enfermedades cardiovasculares se redujeron en un 60 %, con lo cual pudieron prevenirse 621 mil muertes”(Mazur, 2012). Obviamente, no se aplica la regresi´on log´ıstica a un individuo, ni a nadie se le ocurre hacerlo (caso de que fuera posible) para saber si est´ a muerto o no. Se construye un modelo usando una muestra en el contexto de un espacio de probabilidad, y se aplica luego, si se desea, a un sujeto que pudiera o no morir antes, por ejemplo, de que pasen diez a˜ nos. La diferencia es crucial, porque lo primero carece de sentido y lo segundo es una pr´actica habitual y sumamente u ´til para la cl´ınica, la salud p´ ublica y la prevenci´on. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


206

Luis Carlos Silva

5.3. La aplicaci´ on correcta del teorema de Bayes Es bien conocida la m´axima que advierte que establecer claramente el espacio de probabilidad ser´ a el primer paso imprescindible para estudiar una experiencia o situaci´ on en t´erminos probabil´ısticos. Muchas de las dificultades que surgen en la pr´ actica y en el an´alisis estad´ıstico de investigaciones cl´ınicas, tienen que ver con el establecimiento impl´ıcito y defectuoso de este espacio (´enfasis a˜ nadido por el autor, LCSA). como puede leerse, por ejemplo, en el sitio Web del Hospital Ram´ on y Cajal de Madrid (http://www.hrc.es/bioest/Probabilidad_13.html). De la inobservancia de esta sutil premisa, nace la falacia en que incurre el sr. Bunge. Veamos. La regla de Bayes establece que para cualquier par de sucesos A y B, se cumple que P (B|A)P (A) P (A|B) = P (B) Traducido a los t´erminos de su ejemplo, se trata de la relaci´ on: P (sida|V IH) =

P (V IH|sida)P (sida) P (V IH)

Sin embargo, el c´alculo de sus componentes no se puede realizar mientras no se fije un espacio de probabilidad (Ω, P ). Si fijamos que Ω es el conjunto de todas las personas que tienen VIH (supongamos que tiene tama˜ no V ) y consideramos que A es el conjunto de quienes tienen sida (de tama˜ no S), gr´ aficamente, la situaci´ on es la que se registra en la Figura 1.

Figura 1: Representaci´ on del espacio muestral conformado por todos los que portan el VIH (tama˜ no V ) y subconjunto de aquellos que padecen sida (tama˜ no S). Fuente: elaboraci´ on propia. Esto equivale a asumir que solo interesa ahora el conjunto de aquellos sujetos que tienen VIH. Si definimos ahora como B al propio conjunto de quienes tienen VIH, Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


207

En defensa de la racionalidad bayesiana

pueden calcularse los componentes de la parte derecha de la ecuaci´ on: P (sida) =

V S S , P (V IH) = , y P (V IH|sida) = V V S

de modo que, haciendo las sustituciones correspondientes, se tendr´ a que: P (V IH|sida)P (sida) = P (V IH)

S S SV V V

=

S V

Si bien hemos llegado a que la probabilidad de tener sida dado que se porta el virus (parte izquierda de la ecuaci´on) es S/V , y por ende igual a la probabilidad incondicional de tener sida, no hay ninguna contradicci´ on, ya que, bajo la restricci´on que se ha impuesto (en ese espacio muestral donde no hay sujetos sin el VIH), la probabilidad de tener sida es necesariamente igual a la de tenerlo supuesto que se trata de un sujeto de tal espacio, un sujeto que tiene VIH . Dicho de otro modo: la probabilidad de A condicionada a que este sea un subconjunto de Ω es lo mismo que no condicionarla; estamos hablando, simplemente, de la probabilidad de A. Esto pasa siempre que el espacio muestral sea una condici´ on necesaria para que se produzca A (por ejemplo, la probabilidad de que, tras una relaci´ on sexual, una mujer quede embarazada es igual a la probabilidad de que quede embarazada supuesto que es una mujer). Ahora bien, si el espacio muestral es, por ejemplo, el de todos los seres humanos en una poblaci´on de referencia dada, tenemos gr´ aficamente la situaci´ on que se muestra en la Figura 2. Llamando N V al tama˜ no del conjunto de sujetos sin VIH, definamos N = V + N V y consideremos la relaci´on P (sida|V IH) =

P (V IH|sida)P (sida) P (V IH)

El t´ermino de la derecha ser´a: P (V IH|sida)P (sida) = P (V IH)

S S S N V N

=

S V

coherentemente con lo que nos dar´ıa si sustituimos en el t´ermino izquierdo los tama˜ nos debidos. Es decir, ya no se cumple que la probabilidad de tener sida (S/N ) sea igual a la de tenerlo dado que se tiene VIH (S/V ). Bunge incurre en el dislate de atribuir al bayesiano la absurda conducta de aplicar el Teorema de Bayes a “cierto sujeto”, de quien sabemos que porta el VIH. A partir de ello, lo que hace es ce˜ nirse al espacio muestral Ω = V IH, en el cual, obviamente, P (V IH) = P (V IH|sida) = 1. Pero estas relaciones no se cumplen cuando queremos conocer gen´ericamente (no para un sujeto espec´ıfico) el valor de P (sida|V IH). Habi´endolo hecho, ya podemos aplicar el resultado para un portador Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


208

Luis Carlos Silva

Figura 2: Representaci´ on del espacio muestral conformado por todos los seres humanos de una poblaci´ on de referencia (tama˜ no N ), los subconjuntos de aquellos que portan y no portan el VIH (V y NV respectivamente) y el subconjunto, entre los primeros, que padecen sida (tama˜ no S). Fuente: elaboraci´ on propia. del VIH. lo cual exige que operemos en el espacio Ω conformado por una poblaci´ on de referencia, que contiene individuos tanto con VIH como sin ´el. Por ejemplo, si suponemos que en cierto espacio la tasa de prevalencia de sida asciende al 3 % mientras que los portadores del VIH constituyen el 2 % entre aquellos que no tienen sida, se tendr´a que: P (V IH|sida)P (sida) P (V IH) P (V IH|sida)P (sida) = P (V IH|sida)P (sida) + P (V IH|sidac )P (sidac ) (1)(0.03) = 0.61 = (1)(0.03) + (0.02)(0.97)

P (sida|V IH) =

Es decir, la probabilidad inicial de 0.03 pasa a ser 20 veces mayor (0.61) cuando se condiciona a que el sujeto tenga VIH.

6. Bunge riza el rizo El grado en que Bunge sacrifica el rigor con tal de ridiculizar al pensamiento bayesiano se pone de manifiesto en el segmento donde afirma que, para ser consecuentes, tendr´ıamos que creer en la resurrecci´on. Textualmente, escribe (p. 101): Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


En defensa de la racionalidad bayesiana

209

Y si los m´edicos fuesen consecuentes al aceptar la f´ ormula de Bayes, tendr´ıan que admitir la posibilidad de la resurrecci´ on, ya que dicha f´ormula permite calcular la probabilidad de P (V |M ) de estar vivo habiendo muerto, a partir de la probabilidad inversa de P (M |V ) y de las probabilidades absolutas de estar vivo y de estar muerto. Su razonamiento tiene como base de que, como –seg´ un ´el– podemos calcular las probabilidades incondicionales de “estar vivo”, la de “estar muerto”, y la de “estar muerto dado que se est´a vivo”, entonces se podr´ıa calcular, por medio del teorema, la de estar vivo dado que se est´a muerto. Este galimat´ıas solo puede producirse porque se habla de las tres probabilidades iniciales sin especificar los espacios de probabilidad correspondientes. Si se introduce un conjunto de t´erminos sin sentido alguno (o, como m´ınimo, sin sentido claro) en una ecuaci´ on, se obtendr´ a inexorablemente algo sin sentido alguno (o sin sentido claro). En este caso, por ejemplo, Bunge afirma que se podr´ıan calcular las probabilidades de estar vivo y la de estar muerto; la pregunta es, ¿respecto de qu´e conjunto de personas se calcular´ıan estas probabilidades complementarias? La primera, por ejemplo, ser´ıa 1 si hablamos de los obreros que laboran una f´ abrica, ser´ıa 0 si el espacio muestral es el de quienes yacen en el cementerio, ascender´ıa a 0.8 cuando dicho espacio es el de todos los seres humanos que se encuentran hoy en la morgue de la ciudad, y ser´ıa 1 entre miles de millones si fuera el conjunto de todos los humanos que han existido. Y para rematar, hace ol´ımpicamente una afirmaci´ on descabellada: que se puede calcular la probabilidad de que alguien est´e muerto dado que est´a vivo. Siendo as´ı, seg´ un ´el, el dislate reside en aplicar el Teorema de Bayes, no en la pretensi´on de que este se pueda aplicar usando un componente que no tiene el menor sentido. En fin, todo esto no es m´ as que un amasijo de vaguedades y contrasentidos, que parecen surgir m´as como producto de una emoci´ on que de un pensamiento medianamente racional.

7. Consideraciones finales Ya en su libro C´ apsulas, Bunge (2003) ven´ıa insistiendo en consideraciones desatinadas en relaci´on con estos temas. Por poner un solo ejemplo, all´ı afirma lo siguiente: Tambi´en es falsa la opini´on de que tenemos derecho a atribuirle una probabilidad a todo acontecimiento. En efecto, solo podemos adjudicar probabilidades a acontecimientos aleatorios. Este es el caso del resultado de ✭✭revolear✮✮ una moneda honesta. En cambio, si la moneda ha sido fabricada por un tah´ ur, no corresponde hablar de probabilidades. En un libro destinado a discutir diversos problemas que aquejan a la investigaci´ on biom´edica (Silva 2009), discut´ı varias ideas de las expresadas por Bunge en este material, en particular la que he acabo de citar. All´ı escrib´ı: Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


210

Luis Carlos Silva

Me resulta curioso que el gran epistem´ ologo argentino no capte que la situaci´on es exactamente la opuesta: decir de antemano que una moneda es ✭✭honesta✮✮ equivale a atribuirle (subjetivamente) una probabilidad de 0.5 a cada lado. Por otra parte, si se parte de calificarla como ✭✭honesta✮✮, entonces ponerse a ✭✭revolearla✮✮ ya carece de sentido. Finalmente, si hubiera sido ✭✭fabricada por un tah´ ur✮✮, esa ser´ıa exactamente la situaci´on en que m´as claramente proceder´ıa ✭✭hablar de probabilidad✮✮, ya sea con vistas a estimar la que corresponda a cada posible desenlace bajo la definici´on frecuentista, ya sea subjetivamente –usando nuestro conocimiento, si lo tuvi´eramos, sobre las ✭✭ma˜ nas✮✮ habituales del tah´ ur– o incluso combinando ambos enfoques mediante el teorema de Bayes. En s´ıntesis, la visi´on que transmite Bunge en su obra sobre las probabilidades y en especial sobre el teorema de Bayes, especialmente en la que motiva la presente nota, no solo es poco rigurosa y a la postre equivocada, sino que es tendenciosa y no parece responder a reflexiones racionales susceptibles de ser desarrolladas tanto desde el conocimiento de la teor´ıa de probabilidades como a partir de la experiencia emp´ırica al respecto. Recibido: 9 de abril de 2013 Aceptado: 9 de mayo de 2013

Referencias Bunge, M. (2003), C´ apsulas, Gedisa, Barcelona. Cornfield, G. (1962), ‘Joint dependence of risk of coronary heart disease on serum cholesterol and systolic bold pressure: A discriminant function analysis’, Federation Proceedings 21(4), 58–61. Garicano, L. (2012), Son las matem´aticas, est´ upido. El Pa´ıs (Espa˜ na), noviembre 13. Garthwaite, P., Kadane, J. & O’Hagan, A. (2005), ‘Statistical methods for eliciting probability distributions’, Journal of the American Statisticians Associaton 100, 680–701. Good, I. J. (1979), ‘Studies in the history of probability and statistics. XXXVII A. M. Turing’s statistical work in the World War II’, Biometrika 66(2), 393–396. Ioannidis, J. (2005), ‘Why most published research findings are false?’, PLoS Medicine 2(8), e124. doi:10.1371/journal.pmed.0020124. Lord, F. M. (1953), ‘On the statistical treatment of football numbers.’, American Psychologist 8, 750–751. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


En defensa de la racionalidad bayesiana

211

Mazur, D. J. (2012), ‘A history of evidence in medical decisions from the diagnostic sign to bayesian inference.’, Medical Decision Making 32, 227–231. McGrayne, S. B. (2011), The theory that would not die: how bayes rule cracked the enigma code, hunted down Russian submarines, and emerged triumphant from two centuries of controversy, New Haven: Yale University Press. Mora, J. G. (2012), Elecciones catalanas 2012: Todas las encuestas fallan. ABC, noviembre 26, (Espa˜ na). O’Donnell, C. J. & Elosua, R. (2008), ‘Cardiovascular risk factors. insights from framingham heart study’, Revista Espa˜ nola de Cardiolog´ıa 61(3), 299–310. Press, S. J. & Tanur, J. M. (2001), The subjectivity of scientists and the Bayesian approach, Wiley and Sons, New York. Silva, L. C. (1997), Cultura estad´ıstica e investigaci´ on cient´ıfica en el campo de la salud: Una mirada cr´ıtica, D´ıaz de Santos, Madrid. Silva, L. C. (2009), Los laberintos de la investigaci´ on biom´edica. En defensa de la racionalidad para la ciencia del Siglo XXI, D´ıaz de Santos, Madrid. Silva, L. C. (2013), ‘Reflexiones a ra´ız de Filosof´ıa para m´edicos, un texto de Mario Bunge’, Salud Colectiva 9(1), 115–128. Silva, L. C. & Benav´ıdes, A. (2003), ‘Apuntes sobre subjetividad y estad´ıstica en la investigaci´on’, Revista Cubana de Salud P´ ublica 29(2), 170–173. Silver, N. (2012), The signal and the noise why so many predictions fail - but some don’t, The Penguin Press, New York. Wilson, P. W. F. (2010), ‘Estimation of cardiovascular risk in an individual patient without known cardiovascular disease. UpToDate. Basow, DS (Ed).’, Massachusetts Medical Society and Wolters Kluwer publishers. The Netherlands .

A. Definici´ on axiom´ atica de probabilidades de Kolmogorov Sea Ω un conjunto que se denomina espacio muestral y S el conjunto de todos los subconjuntos de Ω, a los que se denomina sucesos. Consideremos una funci´on P cuyo dominio sea S y su codominio el conjunto de los n´ umeros reales (P : S −→ R). Es decir, P es una regla bien definida por la que se asigna a cada suceso un, y un solo un, n´ umero real). Se le llama funci´ on de probabilidad a dicha aplicaci´on si cumple los tres axiomas siguientes: (1) P (A) ≥ 0 cualquiera sea A tal que A ∈ S Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


212

Luis Carlos Silva

k k (2) P ( i=1 Ai ) = i=1 P (Ai ) siempre que Ai ∩ Aj = ∅ para i �= j (3) P (Ω) = 1

A la estructura (Ω, S, P ) se le denomina espacio de probabilidad.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 213–220

Acerca de la defensa de la racionalidad bayesiana y la obra de Mario Bunge About the defense of bayesian rationality and the work of Mario Bunge Andr´es Guti´errez Rojasa hugogutierrez@usantotomas.edu.co

La cr´ıtica de Silva a la obra de Mario Bunge est´ a sustentada en la ligereza de Bunge al momento de utilizar el teorema de Bayes, con el cual descalifica abiertamente el uso del paradigma bayesiano en las ciencias. En este documento se comenta la definici´on correcta de los espacios muestrales al usar probabilidades y se recalca que el uso de los m´etodos bayesianos y de la estad´ıstica en general, no deben estar supeditados a un razonamiento puramente filos´ ofico.

1. Sobre la probabilidad condicional y los espacios muestrales Al leer la introducci´on que Mario Bunge hace al problema de calcular la probabilidad de que una persona con VIH tenga sida, es posible advertir que el autor hace una escala por un problema de probabilidad aplicada en donde se dice que un evento causa a otro. En estos t´erminos, el autor concluye que ‘si C y E son dos suceso aleatorios y C causa a E, entonces P (E|C) ≤ P (E)”. Es aqu´ı en donde creo que el susodicho autor deber´ıa haber razonado un poco m´ as acerca de cu´ ando se tiene la igualdad en esta regla de probabilidades, puesto que en el ejemplo que suscita esta discusi´on, en el que el suceso tener V IH causa al suceso desarrollar sida, Bunge concluye que P (sida|V IH) = P (sida) y sin ninguna precauci´ on concluye que las probabilidades bayesianas son arbitrarias y no tienen cabida en la ciencia aut´entica. Desarrollando el anterior planteamiento, al suponer que C causa a E, n´ otese que P (E|C) =

P (E ∩ C) P (E) = ≥ P (E) P (C) P (C)

(1)

con igualdad si y solamente si P (C) = 1. En el ejemplo que nos ata˜ ne sobre el hallazgo de Bunge, lo anterior redundar´ıa en que P (V IH) = 1, que significar´ıa a Decano,

Facultad de Estad´ıstica, Universidad Santo Tom´ as (Colombia). Colombia.

213


214

Andr´ es Guti´ errez Rojas

que la probabilidad de que ese cierto individuo, seleccionado al azar, tenga VIH es la unidad y eso solo ser´ıa posible si, como Silva muy bien lo explica, el espacio muestral estuviese definido por las personas que tienen V IH, puesto que en este ejemplo el evento VIH causa al evento sida. No quiero desarrollar m´ as este punto, pues el autor del art´ıculo hace muy bien en develar estos detalles, pero s´ı quiero recurrir al siguiente teorema que examina las implicaciones de la igualdad en la expresi´on (1). Teorema 1. Siendo (Ω, F, P ) un espacio de probabilidad en donde los elementos de la sigma-´ algebra F se denotan como A1 , A2 , . . . y son tales que P (Ai ) �= 0 para todo Ai �= ∅, entonces P (Ak ) = 1, para alg´ un Ak ∈ F, si y s´ olo si Ak = Ω. Demostraci´ on. La implicaci´on se prueba por contradicci´ on al asumir que P (Ak ) = 1. Al suponer que Ak �= Ω, entonces naturalmente Ack �= ∅. Por tanto, acudiendo al enunciado del teorema, se tendr´ıa que P (Ack ) > 0, y si tenemos en cuenta que Ak ∪ Ack = Ω, entonces P (Ω) = P (Ack ) + P (Ak ) > 1 Lo cual implica una contradicci´on a los axiomas b´ asicos de probabilidad. Por otra parte, la demostraci´on de la conversa es trivial. El anterior teorema se puede aplicar al ejemplo de Bunge en donde solo hay dos eventos de inter´es V IH y sida, cada uno con probabilidad no nula, y adem´ as, P (V IH) = 1, por tanto, el espacio muestral al cual Bunge se refiere en su ejemplo es sin duda el condicionado a V IH.

2. Razonamiento antibayesiano En t´erminos pragm´aticos, y teniendo en cuenta los grandes avances que han surgido de la estad´ıstica bayesiana, ning´ un cient´ıfico contempor´ aneo deber´ıa negar las bondades de este tipo de pensamiento. Desde las ciencias de la administraci´ on y el mercadeo, pasando por la teor´ıa actuarial y ensayos cl´ınicos, hasta las ciencias de la computaci´on y la epidemiolog´ıa, la estad´ıstica bayesiana ha jugado y jugar´ a un papel fundamental en el intento humano de extracci´ on de informaci´ on con base en un conjunto de datos. Sin embargo, como se evidencia en la obra de Bunge, hay todav´ıa pensadores que van en contra del paradigma bayesiano. Entre los argumento de Bunge, se encuentran frases como las siguientes Por ser subjetivas las probabilidades bayesianas son arbitrarias y no deber´ıan ser usadas en la ciencia... Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Acerca de la defensa de la racionalidad bayesiana y la obra de Mario Bunge

215

Basado en lo anterior, cabr´ıa recordar que, todas las ciencias, y en particular la estad´ıstica, est´an compuestas de procedimientos subjetivos que gu´ıan a resultados medibles objetivamente (Bernardo 2008, Kadane 2008). Sin embargo, el uso del teorema de Bayes, que afirma que la distribuci´ on posterior de los par´ ametros condicionada a los datos observados es proporcional al producto de la verosimilitud con la distribuci´on previa de los par´ametros de inter´es, no debe ser usado a la ligera como una f´ormula autom´atica que brinda inferencias r´ apidas. En estos t´erminos, la asignaci´on de las probabilidades previas no puede ser arbitraria. La anterior afirmaci´on parecer´ıa un punto a favor de los argumentos de Bunge, pero cualquier estad´ıstico, cl´asico o bayesiano, con experiencia en la creaci´ on de modelos estoc´asticos sabr´a que la realidad de la profesi´ on consiste en la asignaci´ on de diferentes modelos de probabilidad a los datos observados y en la respectiva escogencia del mejor modelo. Esta tarea debe ser concienzuda y responsable. Ya sea que el estad´ıstico opte por un enfoque cl´ asico o bayesiano, se debe notar que la asignaci´on o la escogencia de las probabilidades (o distribuciones de probabilidad) no est´a sujeta a ning´ un principio objetivo: desde el punto de vista bayesiano, es menester asignar una distribuci´on de probabilidad previa a los par´ ametros de inter´es y esta tarea es exactamente la misma que el estad´ıstico cl´ asico enfrenta al asignar una verosimilitud a sus datos. En la estad´ıstica aplicada, la asignaci´ on de verosimilitudes y distribuciones previas est´ a determinada por la escogencia de un modelo que represente bien la realidad de los datos observados. En estos t´erminos, el estad´ıstico cl´asico podr´a optar por un modelo o por otro y, de la misma manera, el estad´ıstico bayesiano podr´a seleccionar una distribuci´ on previa u otra. Esta libertad de escogencia, que ocurre bajo los dos paradigamas, no induce ninguna arbitrariedad. De hecho, como lo mencionan Andrews & Baguley (2013), las distribuciones previas son supuestos en el modelo bayesiano y como todos los supuestos, pueden ser buenos o malos, pueden extenderse, revisarse o posiblemente abandonarse al no ser id´oneos con los datos observados. Con base en lo anteriormente mencionado, el estad´ıstico cl´ asico podr´ a escoger un nuevo modelo a medida que tenga un conocimiento m´ as profundo de la realidad a la cual intenta acercarse. De hecho, desde mi punto de vista, considero que esa escogencia ha definido la historia de la estad´ıstica hasta hoy. Por ejemplo, es posible desviarse de un modelo param´etrico Gausiano y preferir un modelo no param´etrico, el cual si bien podr´ıa ser m´as complejo en su formulaci´ on matem´ atica, tiene mejores propiedades en algunos contextos. De la misma manera, el estad´ıstico bayesiano deber´a escoger distribuciones previas plausibles. Esto, en t´erminos pr´acticos, implica que si la distribuci´on posterior se desv´ıa significativamente de la distribuci´on previa, entonces el estad´ıstico deber´ a reconsiderar y revaluar la escogencia de la distribuci´on previa. De esta forma, es posible afirmar que la escogencia de distribuciones previas es tan objetiva como la escogencia de verosimilitudes en la estad´ıstica cl´asica. En esta discusi´on es posible que afloren otro tipo de razonamientos filos´ oficos; por ejemplo que los par´ametros de una distribuci´ on de probabilidad son fijos y no aleatorios. Salsburg (2001) afirma que, tal como lo mostr´ o Pearson, el prop´ osito de

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


216

Andr´ es Guti´ errez Rojas

la investigaci´on estad´ıstica es estimar los par´ ametros (fijos pero desconocidos) de las distribuciones de probabilidad cuyos valores definen dicha distribuci´ on. Por lo anterior, si los par´ametros se consideraran aleatorios, el enfoque de la investigaci´ on cient´ıfica se desviar´ıa de su prop´osito. Sin embargo, muchos autores bayesianos han fallado en argumentar que, lo que se considera aleatorio no es el par´ ametro en s´ı, sino la incertidumbre que se genera ante el desconocimiento del par´ ametro y es eso exactamente lo que deber´ıa ser modelado, por medio de una distribuci´ on previa.

3. Argumentos de ambas partes A simple vista, es posible evidenciar que Bunge y Silva, y los comentaristas invitados en este n´ umero de esta Revista hacemos parte de las animadas, pero interesantes y necesarias, discusiones que durante siglos han caracterizado el desarrollo de la estad´ıstica y sus diferentes paradigmas, entre ellos el bayesiano y el cl´ asico. Los estad´ısticos bayesianos acuden a una vieja contradicci´ on, basada en el principio de verosimilitud, para impulsar el abandono de los m´etodos cl´ asicos en pro del paradigma bayesiano y, a su vez, los estad´ısticos cl´ asicos han utilizado un problema atribuido a Laplace para ridiculizar el punto de vista bayesiano. Deteng´ amonos en estos ejemplos por un instante. El ejemplo del principio de verosimilitud sugerido por Lindley & Philips (1976) reza de la siguiente forma: Suponga que se realizan 12 lanzamientos independientes de una moneda y se observan 9 caras y 3 sellos. Adem´ as, se desea cotejar el siguiente conjunto de hip´otesis H0 : θ = 0.5

vs.

Ha : θ > 0.5

En donde θ representa la probabilidad de obtener una cara. Si solamente tuvi´esemos acceso a esta informaci´ on, surgir´ıan dos opciones de verosimilitud que podr´ıan ser candidatas para realizar el cotejo de las hip´otesis de inter´es. En primer lugar la distribuci´ on binomial, que asume que X es la variable aleatoria que determina el n´ umero de caras en los 12 lanzamientos, se tiene que

α1 = PH0 (X ≥ 9) =

12 12 x θ (1 − θ)12−x = 0.075 x x=9

Y la otra verosimilitud candidata ser´ıa la distribuci´ on Binomial Negativa, que supone que X representa el n´ umero de caras necesarias para lograr 3 sellos, para lo cual se tiene que Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Acerca de la defensa de la racionalidad bayesiana y la obra de Mario Bunge

217

∞ 2+x x θ (1 − θ)3 = 0.0325 α2 = PH0 (X ≥ 9) = x x=9 De esta forma, asumiendo un nivel de significaci´ on del 5 %, el estad´ıstico rechazar´a la hip´otesis nula si la variable aleatoria X tuviese distribuci´on binomial negativa y no la rechazar´ıa si X tuviese distribuci´ on Binomial. Lo anterior constituye una violaci´ on al principio de verosimilitud (Birnbaum 1962) que afirma que, si los datos han sido observados, la funci´on de verosimilitud debe contener toda la informaci´ on experimental relevante acerca de los par´ametros de inter´es. N´ otese que estas dos verosimilitudes son proporcionales entre s´ı como funciones de θ, pero aunque gu´ıan al mismo estimador de m´ axima verosimilitud, esta equivalencia lleva a dos conclusiones diferentes en t´erminos del sistema de hip´otesis de inter´es. El segundo ejemplo, atribuido a Laplace y con el cual los estad´ısticos cl´ asicos se mofan de los bayesianos es el siguiente: Teniendo en cuenta que el sol ha salido n veces consecutivas en los pasados n d´ıas. Cabe cuestionarse acerca de ¿cu´ al es la probabilidad de que el sol salga ma˜ nana, dado que ha salido en los pasados n d´ıas? Para resolver esta pregunta, Laplace utiliz´ o la regla de la sucesi´ on (Wikipedia 2013) para demostrar que, siendo p la probabilidad de que n+1 el sol salga ma˜ nana, la esperanza posterior de p es . Esta conn+2 jetura se logra al asumir que la distribuci´ on previa de p es uniforme continua, como una opci´on probabilista de la total incertidumbre sobre este par´ametro, y una verosimilitud binomial, describiendo el n´ umero de ´exitos en n ensayos. Lo anterior, siguiendo la regla de Bayes, redunda en una distribuci´on posterior con kernel Beta de par´ ametros (α = n + 1, β = 1). Algunos autores (Popper 1957, Schay 2007, Gorroochurn 2011) han ridiculizado la escogencia de la distribuci´ on previa en el anterior problema, utilizando sus argumentos para desvirtuar el uso de la estad´ıstica bayesiana. En particular cabr´ıa preguntarse ¿por qu´e se justifica la asignaci´on de una distribuci´on uniforme continua a la probabilidad previa de que el sol salga? Esta escogencia implica que el conocimiento previo de que se tiene del problema le otorga la misma densidad a cualquier valor en el intervalo (0, 1) y este supuesto no es cient´ıficamente razonable. Los anteriores dos ejemplos son una muestra de una gran cantidad de argumentaciones que intentan desvirtuar los enfoques cl´ asico y bayesiano y que, en mi apreciaci´on, alimentan el desarrollo mismo de la estad´ıstica. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


218

Andr´ es Guti´ errez Rojas

Sin embargo, en defensa del estad´ıstico cl´ asico se puede afirmar que el dise˜ no del experimento deber´ıa ser incluido en el contraste de las hip´ otesis, porque en t´erminos experimentales, no es lo mismo lanzar una moneda hasta obtener cierto n´ umero de caras, que lanzarla un n´ umero predefinido de veces y, por consiguiente, la manera como se llev´o a cabo el experimento1 es informaci´ on relevante (Carlin & Louis 2009). Por otro lado, en defensa del estad´ıstico bayesiano, podr´ıa argumentarse que el ejemplo est´a desenfocado y que el problema de Laplace no consiste en la asignaci´on de la distribuci´on previa sino en la asignaci´ on de la verosimilitud como una distribuci´on binomial, que considera eventos independientes, a un problema que, a todas luces, no deber´ıa asumir una probabilidad de ´exito constante cada d´ıa, ni tampoco que los d´ıas en los cuales el sol ha salido son eventos independientes unos de otros (Gelman & Robert 2013). Por u ´ltimo, en mi interpretaci´on de la pr´actica estad´ıstica y del ejercicio de modelaci´on que se realiza en esta profesi´on, suscribo completamente la frase de Gelman & Cosma (2013) cuando afirman que un m´etodo estad´ıstico puede ser u ´til a´ un cuando sea filos´oficamente errado.

4. Conclusi´ on A pesar de que en esta discusi´on se ha demostrado que las conclusiones de Bunge son, por lo menos, desviadas de las reglas de probabilidad y por tanto no cient´ıficas, es de suponer que sin importar la falsedad de sus argumentos, el potencial de malinterpretaci´on en una obra escrita difundida de forma masiva es grande. M´ axime cuando un gremio, como el de los m´edicos, no tiene porqu´e conocer los axiomas fundamentales de la probabilidad. Por tanto, creo yo que este tipo de literatura desvirt´ ua el quehacer del estad´ıstico, cl´asico o bayesiano, y crea en el profesional de la medicina una gran barrera hacia el uso de nuevas t´ecnicas estad´ısticas. Como bien lo afirman Cox & Donnelly (2011), no todos los an´ alisis estad´ısticos que utilicen la regla de Bayes deber´ıan ser llamados bayesianos. En este sentido se deber´ıa garantizar por lo menos que: 1) la distribuci´ on previa represente una evidencia del conocimiento previo del problema; 2) esta evidencia debe ser consistente con los datos observados; 3) realizar un an´ alisis de sensibilidad2 sobre las distribuciones previas candidatas cuando hay total incertidumbre del problema (Gustafson et al. 2010). Con estas indicaciones en mente, es posible concluir que el ejercicio de probabilidades de Bunge, solamente constituye un esfuerzo filos´ ofico mal planteado en contra de una corriente de an´alisis estad´ıstico posicionada en el mundo cient´ıfico, en donde m´as de la mitad de los art´ıculos cient´ıficos publicados en las m´ as impor1 El dise˜ no en la recolecci´ on de los datos es informativo (y no ignorable), no solo en dise˜ no experimental, sino en el an´ alisis de encuestas probabil´ısticas, para las cuales las propiedades de los estimadores est´ an supeditadas a la medida de probabilidad discreta inducida por el dise˜ no muestral (Guti´ errez 2009). 2 En el planteamiento de ensayos cl´ ınicos, este enfoque ha sido estudiado por Carlin & Louis (1996) y recientemente por F´ uquene et al. (2009) y Cook et al. (2011).

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Acerca de la defensa de la racionalidad bayesiana y la obra de Mario Bunge

219

tantes revistas estad´ısticas utilizan m´etodos bayesianos (Andrews & Baguley 2013, Figura 1). Parafraseando a Gelman (2008) mi conclusi´ on final sobre esta interesante discusi´ on redunda en que hoy en d´ıa es posible ser no bayesiano –al utilizar en la pr´ actica m´etodolog´ıas cl´asicas– pero ser antibayesiano –al desconocer el desarrollo cient´ıfico que la estad´ıstica bayesiana ha tra´ıdo consigo– ya no es una opci´ on. Recibido: 23 de julio de 2013 Aceptado: 14 de agosto de 2013

Referencias Andrews, M. & Baguley, T. (2013), ‘Prior approval: the growth of Bayesian methods in psychology’, British Journal of Mathematical and Statistical Psychology 66, 1–7. Bernardo, J. M. (2008), ‘Comment on article by gelman’, Bayesian Analysis 3(3), 443–658. Birnbaum, A. (1962), ‘On the foundations of statistical inference’, Journal of American Statististical Association 57, 269–326. Carlin, B. P. & Louis, T. (1996), Identifying prior distributions that produce specific decisions, with application to monitoring clinical trials, Wiley, chapter Bayesian Analisys in Statistics and Econometrics: Essays in Honor of Arnold Zellner. Carlin, B. P. & Louis, T. A. (2009), Bayesian methods for data analysis, 3 edn, CRC. Cook, J., F´ uquene, J. & Pericchi, L. (2011), ‘Skeptical and optimistic robust priors for clinical trials’, Revista Colombiana de Estad´ıstica 34, 333–345. Cox, D. & Donnelly, C. (2011), Principles of applied statistics, Cambridge University Press. F´ uquene, J., Cook, J. & Pericchi, L. (2009), ‘A case for robust bayesian priors with applications to clinical trials’, Bayesian Analysis 4, 817–846. Gelman, A. (2008), ‘Objections to bayesian statistics’, Bayesian Analysis 3(3), 445–450. Gelman, A. & Cosma, R. (2013), ‘Philosophy and the practice of bayesian statistics’, British Journal of Mathematical and Statistical Psychology 66, 8–38. Gelman, A. & Robert, C. P. (2013), ‘Not only defended but also applied”: The perceived absurdity of bayesian inference’, The American Statistician 67, 1–5. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


220

Andr´ es Guti´ errez Rojas

Gorroochurn, P. (2011), ‘Errors of probability in historical context’, American Statistician 65, 246–254. Gustafson, P., McCandless, L., Levy, A. & Richardson, S. (2010), ‘Simplified bayesian sensitivity analysis for mismeasured and unobserved confounders’, Biometrics 66, 1129–1137. Guti´errez, A. (2009), Estrategias de muestreo: dise˜ no de encuestas y estimaci´ on de par´ ametros, Editorial de la Universidad Santo Tom´ as. Kadane, J. (2008), ‘Comment on article by Gelman’, Bayesian Analysis 3(3), 455– 458. Lindley, D. & Philips, L. (1976), ‘Inference from a Bernoulli process (a bayesian view)’, Journal of American Statististical Association 30, 112–119. Popper, K. (1957), ‘Probability magic or knowledge out of ignorance’, Dialectica 11(354 - 374). Salsburg, D. (2001), The lady tasting tea, Henry Hold and Company. Schay, G. (2007), Introduction to probability with statistical applications, Birkhauser. Wikipedia (2013), ‘Rule of succession’. Fecha de acceso: 17 de julio de 2013. *http://en.wikipedia.org/wiki/Rule of succession

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 221–224

El caso de la estad´ıstica bayesiana objetiva como una posibilidad en ensayos cl´ınicos The case of objective bayesian statistics as a possibility in clinical trials Jairo F´ uquenea jfuquene@soe.ucsc.edu

1. Introducci´ on En primer lugar, el autor de esta discusi´on agradece al Comit´e Editorial por invitarlo a realizar una discusi´on del art´ıculo de Silva (2013), el cual presenta una perspectiva muy interesante con ejemplos bastante claros sobre el uso del teorema de Bayes. Al ser este el a˜ no internacional de la estad´ıstica y tambi´en el aniversario 250 del teorema de Bayes la discusi´on resulta a´ un m´ as interesante. En particular, la defensa que el autor hace sobre la subjetividad en la informaci´ on previa ha sido tema de discusi´on por los bayesianos en a˜ nos recientes. Por tanto, con el objetivo de complementar algunas de las discusiones de Silva (2013), en este art´ıculo se presenta una discusi´on corta de los m´etodos bayesianos objetivos como una alternativa a los m´etodos bayesianos subjetivos en ensayos cl´ınicos.

2. Una aplicaci´ on de los m´ etodos bayesianos objetivos en ensayos cl´ınicos Los m´etodos bayesianos objetivos (ver Berger (2012)) en ensayos cl´ınicos nacen entre otras cosas como una alternativa a la cr´ıtica de los frecuentistas a los bayesianos que afirman lo siguiente: “Cambiando la distribuci´ on previa en un an´ alisis bayesiano dos m´edicos pueden obtener resultados diferentes” por esta raz´ on tanto previas por “default” as´ı como previas robustas han sido propuestas en el an´ alisis bayesiano de ensayos cl´ınicos. Entre los trabajos m´ as recientes podemos encontrar F´ uquene et al. (2009) y Hobbs et al. (2011). Sin llegar a t´erminos te´ oricos y con el objetivo de ejemplificar el uso de previas robustas se presenta el siguiente ejemplo. a University

of Warwick. Department of Statistics. Reino Unido.

221


222

Jairo F´ uquene

2.1. Ejemplo Supongamos que se realiza un ensayo cl´ınico en donde el 80 % de 20 pacientes tienen VIH dado que tienen sida y de acuerdo con informaci´ on previa entre el 0 % y 40 % de los pacientes en la poblaci´on de estudio tienen sida. El objetivo es determinar la distribuci´on posterior de pacientes que tienen sida dado que tienen VIH. La informaci´on previa en este caso nos indica que probablemente el 20 % de la poblaci´on de estudio podr´ıa tener sida dado que tiene VIH. Sin embargo, es importante resaltar que la discrepancia entre los datos previos y actuales es considerable. Varias preguntas naturales surgen en este ensayo cl´ınico: 1) Es racional utilizar una metodolog´ıa bayesiana para obtener conclusiones finales? 2) S´ı es racional utilizar dicha metodolog´ıa, ¿resulta adecuado utilizar distribuciones de probabilidad “conjugadas” para modelar los datos previos? 3) ¿Cu´al es la mejor escogencia para modelar los datos previos? Todas estas preguntas son relevantes para la escogencia de la distribuci´ on que modela los datos previos. En el an´alisis bayesiano es com´ un utilizar distribuciones previas conjugadas debido a que en la pr´ actica son relativamente f´ aciles de aplicar, ver Spiegelhalter et al. (2004). Sin embargo, dichas distribuciones conjugadas influyen en los resultados, dando mucho peso a la informaci´ on previa, cuando datos previos y actuales difieren considerablemente. Como una alternativa se pueden utilizar en la fase II del ensayo cl´ınico distribuciones previas robustas. Continuando con el ejemplo, la informaci´on previa se puede elicitar de tal manera que las previas conduzcan a un an´alisis conjugado, donde los datos previos se modelan utilizando una distribuci´on Beta y los datos actuales utilizando una verosimilitud Binomial. El modelo beta/binomial es uno de los m´ as populares en ensayos cl´ınicos bayesianos. Sin embargo, nace otra alternativa pr´ actica y robusta, el modelo Cauchy/Binomial en la escala del Log-Odds (ver F´ uquene et al. (2009)). Los resultados de los dos an´alisis utilizando el paquete en R (ver F´ uquene (2009)) llamado Clinical Robust Priors se muestran en la Figura 1. Como se puede observar en la Figura 1, el modelo Cauchy/Binomial es mucho m´ as similar a la distribuci´ on de los datos en comparaci´on con el modelo beta/binomial. En otras palabras, la informaci´on previa es descontada cuando datos previos y actuales son relativamente diferentes conduciendo a resultados pr´acticos mucho m´ as coherentes. En conclusi´on, en promedio utilizando una distribuci´ on previa robusta como la distribuci´ on Cauchy, el 77 % de los pacientes tienen sida dado que tienen VIH. Los resultados son coherentes y similares al caso frecuentista el cu´ al solo considera la distribuci´ on Binomial para modelar los datos. La objetividad en este an´alisis se basa en la escogencia de las previas y no en la probabilidad de tener los datos previos o actuales. Tambi´en dicha objetividad descarta la aseveraci´on que algunos estad´ısticos hacen: “Cambiando la informaci´ on previa el bayesiano puede obtener los resultados que desea”. Las previas robustas descuentan el peso de la informaci´on previa cuando la informaci´ on previa y los datos en la muestra o actuales est´an en conflicto o en otras palabras son muy diferentes. Por tanto esta propuesta se presenta como una opci´on por “default”para los practicantes o expertos en el ´area de ensayos cl´ınicos que deseen utilizar m´etoComunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


El caso de la estad´ıstica bayesiana objetiva como una posibilidad en ensayos cl´ınicos223

Figura 1: Resultados del ejemplo modelos: beta/binomial y cauchy/binomial en la escala del Log-Odds. Fuente: elaboraci´ on propia.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


224

Jairo F´ uquene

dos bayesianos. Tambi´en el escepticismo de utilizar m´etodos bayesianos queda a un lado debido a que si dos m´edicos utilizan dichas previas por “default”, independiente de la informaci´on previa, ambos podr´ıan llegar a resultados similares siempre y cuando los resultados en la muestra tambi´en sean iguales.

3. Conclusi´ on Finalmente, esta discusi´on ratifica no en t´erminos te´ oricos pero s´ı pr´ acticos lo mostrado por Silva (2013) en su cr´ıtica al ejemplo de Bunge (2012), y tambi´en sirve como una contradicci´on al punto de vista Frecuentista. Por tanto, desde el punto de vista del autor de este art´ıculo, la discusi´ on de Silva (2013) es supremamente coherente y ratifica lo que ha sucedido en los u ´ltimos a˜ nos con el impacto que ha tenido el uso de la estad´ıstica bayesiana en campos como bioestad´ıstica, medicina, bioinform´atica, neurolog´ıa y gen´etica. Recibido: 9 de julio de 2013 Aceptado: 23 de julio de 2013

Referencias Berger, J. O. (2012), ‘The case for objective bayesian analysis’, Bayesian Analysis 1(3), 385–402. F´ uquene, J. (2009), ‘Robust bayesian priors in clinical trials: an R package for practititoners’, Biometric Brazilian Journal 27(4), 637–643. F´ uquene, J., Cook, J. & L.R., P. (2009), ‘A case for robust bayesian priors with applications to clinical trials’, Bayesian Analysis 4(4), 817–846. Hobbs, B. P., Carlin, B. P., Mandrekar, S. J. & Sargent, D. J. (2011), ‘Hierarquical commensurate and power prior models for adaptative incorporation of historical information in clinical trials’, Biometrics 67(3), 1047–1056. Spiegelhalter, D. J., Abrams, K. R. & Myles, J. P. (2004), Bayesian approaches to clinical trials and health-care evaluation, Wiley, London.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 225–229

Mario Bunge y la estad´ıstica bayesiana Mario Bunge and Bayesian statistics Jorge Ortiz Pinillaa jeortizp@gmail.com

1. Introducci´ on Despu´es de leer el art´ıculo de Silva (2013), no quedan dudas sobre los errores t´ecnicos y te´oricos de Bunge (2003) cuando “demuestra” las contradicciones a las que se llega mediante el uso del teorema de Bayes. Tal vez, por su preparaci´ on matem´atica como f´ısico, el fil´osofo no vio la necesidad de acudir a la revisi´ on por parte de un probabilista o de un estad´ıstico. La ingenuidad de sus errores y su lenguaje casi pasional deslucen la obra de un autor que se declara enemigo de la subjetividad. Por otra parte, no se necesitan grandes teor´ıas para deducir que es mejor saber algo que nada y que, cuando se conoce algo, es mejor aprovecharlo que no hacerlo. La f´ormula de Bayes y todo lo que ha llevado a los desarrollos actuales de la estad´ıstica bayesiana simplemente ofrecen m´etodos para aprovechar el conocimiento adquirido. La sola presentaci´on de los m´etodos deber´ıa bastar para convencer que lo hace bien; adem´as, se dispone de una enorme y creciente cantidad de ejemplos de aplicaciones exitosas. En lo que sigue, prefiero leer y tratar de interpretar al fil´ osofo, sin la pretensi´ on (a priori) de encontrar con ello motivaci´on por el estudio de la estad´ıstica bayesiana.

2. Probabilidades y proporciones El manejo y la interpretaci´on de las probabilidades son realmente muy complejos. En eventos o experiencias repetibles, hace m´ as de 300 a˜ nos, Jacob Bernoulli encontr´o que la relaci´on de la cantidad de ´exitos sobre la de experiencias tiende a un valor igual al de la relaci´on de casos favorables sobre casos posibles. La repetibilidad (en condiciones id´enticas) abre un camino para acercarse al conocimiento de una relaci´on p inicialmente desconocida, pero fija. a Facultad

de Estad´ıstica, Universidad Santo Tom´ as (Colombia).

225


226

Jorge Ortiz Pinilla

¿Qu´e pasa si, como plantea Bunge (2012, p. 100), ya se ha probado que un cierto individuo e tiene VIH y se pregunta por la probabilidad de que tenga sida? Para manejar el tema en un contexto de probabilidad, se necesita admitir que el individuo ya ha sido seleccionado de alguna manera que posibilita el uso de las probabilidades. Admitamos entonces que el espacio de probabilidad para la selecci´on de los individuos est´a bien definido, que el evento {e} forma parte de la σ-´algebra respectiva y que su probabilidad es un valor entre 0 y 1. Supongamos ahora que el evento {e} ha ocurrido y adem´ as ya se sabe que e tiene VIH. Llamemos SEL al conjunto de seleccionados que, en este caso, consta de una sola persona. Como e ya ha sido seleccionado y tiene V IH, entonces el evento SEL ∩ V IH = {e} ya ha sido observado. No hay riesgo de que su probabilidad sea cero. Entonces, la pregunta de Bunge se traduce en buscar P (e ∈ sida | {e}). Por la definici´on de probabilidad condicional, P r(e ∈ sida | {e}) =

P (e ∈ sida ∩ {e}) P ({e})

(1)

Si e tiene sida, el numerador en (1) es igual al denominador y la probabilidad buscada ser´a igual a 1; en caso contrario, ser´a cero. Como puede verse, este resultado es in´ util, pues exige el conocimiento de la condici´ on que precisamente se desconoce. El c´alculo de probabilidades no da respuestas u ´tiles para casos individuales ya determinados. Sin embargo, para el individuo e del ejemplo, puede ser u ´til saber que de las personas que est´an en las mismas condiciones (los que tienen VIH), una proporci´on de 0.61 (61 %) han desarrollado el sida. Para ´el espec´ıficamente, no corresponde a una probabilidad formal sino a una frecuencia relativa calculada con datos de otras personas. Para su caso, nadie est´ a interesado en extraer aleatoriamente una persona con VIH para ver si tiene sida. Pero la frecuencia relativa resume el aprendizaje a partir de experiencias ajenas, que tambi´en es valioso. Un ejemplo famoso es el de la tragedia del Challenger. Los documentos hist´ oricos muestran que al menos uno de los investigadores ten´ıa conciencia de que el riesgo era real, que dio a conocer su preocupaci´on, pero que la interpretaci´ on que se dio a los estudios de probabilidad determin´o que los resultados no eran concluyentes y que, por votaci´on, se autoriz´o el lanzamiento. Si la tragedia no hubiera ocurrido, seguramente le hubieran dicho que sus dudas eran infundadas y los ejemplos de hoy dir´ıan que el lanzamiento fue exitoso a pesar de los altos riesgos se˜ nalados por las probabilidades que ahora se calculan. Realmente, lo m´ as probable es que el p´ ublico ni siquiera tendr´ıa ni el problema ni los datos para “resolver” la tragedia a posteriori. Este ejemplo es muy interesante, porque para su an´ alisis siempre se han considerado factores que ten´ıan relaciones causales directas con el desenlace y no con informaci´on de experiencias ajenas al caso estudiado. Se trataba de una probabilidad propia (objetiva) de un evento irrepetible. En el momento se hicieron c´ alculos que fueron considerados por unos como suficientemente preocupantes, pero no concluyentes por la mayor´ıa. Posteriormente se hicieron otros c´ alculos mediante modelos lineales generalizados que no dejar´ıan dudas al respecto. Tambi´en se hicieron otros Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


Mario Bunge y la estad´ıstica bayesiana

227

c´alculos basados en modelos bayesianos que dejar´ıan en rid´ıculo a quien quisiera manifestar alguna duda. Sin embargo, los c´ alculos posteriores a la tragedia son puramente acad´emicos o, si se quiere, especulativos, porque en el momento real, cuando se tomaron las decisiones, no se ten´ıa esa informaci´ on sobre la mesa. Lo u ´nico que nos dicen realmente, es que hoy disponemos de mejores herramientas de an´alisis. En el momento hist´orico, lo disponible era un resultado que dejaba un margen demasiado grande para la subjetividad. Uno de los ingenieros prefiri´o advertir, por su experiencia y conocimiento personales, es decir, subjetivamente, que el riesgo era suficientemente grande como para aplazar el lanzamiento. Los dem´ as consideraron, tambi´en subjetivamente, que los resultados no eran concluyentes y votaron por el lanzamiento. Fue una lucha entre subjetividades donde gan´ o la equivocada. A la luz de los resultados, hoy podemos decir que la mejor herramienta para el caso es la bayesiana. Pero, ¿qu´e nos garantiza que la probabilidad calculada es la correcta? Como el resultado se conoce, entonces podr´ıamos decir que el m´etodo que arroje el resultado m´as cercano de 1 es el mejor. Pero si la tragedia no hubiera ocurrido ¿habr´ıa sido considerado como el peor? Para los eventos irrepetibles, es posible que los mejores c´ alculos sean los m´ as extremos, es decir, los m´as cercanos de 0 o de 1, pues as´ı nos dejan con menor margen de incertidumbre. Es claro que no determinan el resultado, pero es ah´ı donde adquieren el significado de probabilidades. El concepto de entrop´ıa permitir´ıa generalizar el criterio cuando los resultados no sean dicot´ omicos. Una experiencia familiar ayuda a ilustrar algo m´ as nuestro tema: un peque˜ no sobrino, gravemente desnutrido y desidratado, fue diagnosticado de estenosis pil´ orica. El m´edico advirti´o la necesidad urgente de una cirug´ıa. Al preguntarle por los riesgos de muerte durante la operaci´on, respondi´ o que en la cl´ınica hab´ıan practicado no menos de 10000 cirug´ıas de este tipo y que no m´ as de 5 ni˜ nos hab´ıan fallecido. Formalmente, la proporci´on 0.0005 no era una probabilidad de muerte para el ni˜ no; pero para el equipo m´edico s´ı era un indicador de que sab´ıan hacer las cosas bien. Igual que la probabilidad, este indicador fue un factor determinante para tomar la decisi´on de autorizar la cirug´ıa. Mi sobrino sobrevivi´ o y hoy ya tiene m´ as de 22 a˜ nos. ¿Fu´e la probabilidad la que lo salv´ o? ¿C´ omo estar´ıa interpretando las cosas si hubiera muerto? ¿Cu´al decisi´on hubiera tomado si alguien se me acerca y me dice “cuidado, este m´edico solo ha practicado 5 cirug´ıas y todos los ni˜ nos se le han muerto”? Personalmente, no tengo el af´an de interpretar cada fracci´ on entre 0 y 1 como una probabilidad, a menos que tenga los contextos que me convenzan de hacerlo. En muchos casos se dispone de datos acerca de proporciones que se pueden tomar como indicadores de alg´ un tipo de riesgo, pero que en esencia no son probabilidades. En particular, los hechos cumplidos tienen probabilidad 1 de haber ocurrido. Todo c´alculo que d´e otro valor solo tiene validez en un mundo especulativo.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


228

Jorge Ortiz Pinilla

3. Bunge y la subjetividad Bunge (2012) destaca que, a lo largo de la historia, el estancamiento de la medicina se ha relacionado con el dominio de criterios atribuidos a dones o a poderes personales adquiridos por artes m´agicas o directamente de divinidades. Su desarrollo aut´entico solo se ha dado cuando se han logrado identificar relaciones de las enfermedades con alteraciones f´ısicas en determinadas partes del cuerpo. Los avances se aceleraron cuando se logr´o entender que las actividades f´ısicas, emocionales o intelectuales del hombre estaban estrechamente relacionadas con uno o varios de sus ´organos. En la medida en que estas relaciones se han podido comprobar, ha mejorado la capacidad de diagn´ostico y se han promovido mejores opciones de tratamientos y de cuidados preventivos. La medicina ha avanzado en la medida en que se ha dejado de lado el uso de criterios subjetivos y se lo ha reemplazado por el del conocimiento de relaciones objetivas y comprobables. Podr´ıamos agregar que estos progresos tambi´en se han dado en la medida en que los conocimientos adquiridos se han podido ense˜ nar y compartir con un esp´ıritu abierto a la cr´ıtica. Del escrito de Bunge entiendo lo importante que es distinguir el uso del conocimiento previo objetivo del manejo de supuestos caprichosos e infundados y de los elaborados a conveniencia de resultados intencionales. Caer en estos u ´ ltimos equivale a regresar a los dict´amenes de “neochamanes” con toda la credibilidad que les dar´ıa la utilizaci´on ingenua o incluso c´omplice de procedimientos estad´ısticos de cualquier ´ındole. No siempre el respaldo de datos como fuente de informaci´ on previa es sin´ onimo de objetividad. La misma relaci´on con los datos es fr´ agil, tal como lo muestra con el ejemplo de Durkheim (p. 96) sobre las menores tasas de suicidio en los cat´olicos. El investigador debe analizar cuidadosamente la calidad de los datos y los entornos que rodearon su creaci´on antes de utilizarlos como base o respaldo para sus estudios. Desgraciadamente, muchas veces se descubren sus problemas solo cuando han generado controversia. Bunge ataca decididamente la subjetividad y arremete furiosamente contra los bayesianos cuando observa que le abren la puerta. Ve inminente el regreso a las decisiones fuertemente influenciadas por opiniones no comprobables de personas que han ganado alg´ un reconocimiento, pero que no corresponden a la realidad. Lo ve como una amenaza al progreso de la ciencia y especialmente de la medicina. Adem´as, agravada por el respaldo de una disciplina que gana vertiginosamente credibilidad en la sociedad cient´ıfica. ¿Qui´en de nosotros no ha visto publicaciones o al menos comunicados de prensa donde se anuncia el ´exito de una dieta o de un tratamiento para combatir una enfermedad, descalificado pocos meses despu´es porque se encuentra que el u ´nico respaldo del estudio eran unos resultados estad´ısticos donde el 80 % de las personas que manifestaban haberse recuperado recordaban haber consumido alguna fruta? Ning´ un estudio sobre la relaci´on entre los componentes de la fruta y la enfermedad. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


229

Mario Bunge y la estad´ıstica bayesiana

Ning´ un estudio realmente m´edico. Solo una intuici´ on personal “respaldada” por unos resultados num´ericos obtenidos con m´etodos estad´ısticos tambi´en oscuros o provenientes de una “miner´ıa de datos” mal entendida. El te´orico demuestra que los m´etodos est´an bien dise˜ nados y desarrollados y en su ataque se equivoca Bunge. Pero es en las aplicaciones en las que la condici´ on humana le da la raz´on al fil´osofo. Ya el ejemplo del Challenger pone en evidencia que hasta en esferas de alta calidad cient´ıfica la subjetividad o incluso determinados intereses pueden cegar la raz´on.

4. Interpretaci´ on de un mensaje filos´ ofico A mi modo de ver, el clamor de Mario Bunge es por la responsabilidad social del m´edico. Seguramente en la atenci´on particular a sus pacientes se ver´ a con frecuencia en la necesidad de acudir a su experiencia personal o a la de sus colegas para proponer diagn´osticos o soluciones. Pero para generar y divulgar conocimiento, deber´a desterrar la subjetividad y buscar explicaciones objetivas que lo acerquen a la realidad de la naturaleza de las enfermedades, de su diagn´ ostico, de su tratamiento, de sus causas y de su posible prevenci´ on. Estoy de acuerdo con Bunge en que “la estad´ıstica es indispensable para estudiar y manipular poblaciones de todo tipo [...]. Pero no suministra conocimiento sustantivo. Ni puede hacerlo, porque no se ocupa de las cosas mismas sino de datos acerca de ellas”. Tambi´en es un llamado a la responsabilidad social del estad´ıstico, cualquiera sea su orientaci´on metodol´ogica. Todos sabemos de la importancia de la estad´ıstica para la toma de decisiones y para el desarrollo de casi todas las disciplinas; que su aplicaci´on cuidadosa ofrece una ventana de transparencia y de rigor cient´ıfico dif´ıcil de reemplazar. En medio del ataque de Bunge, percibo una defensa de mayor dimensi´on: proteger a la estad´ıstica, bayesiana o no, del uso irracional o intencionado de la subjetividad. Recibido: 17 de agosto de 2013 Aceptado: 30 de agosto de 2013

Referencias Bunge, M. (2003), C´ apsulas, Gedisa, Barcelona. Bunge, M. (2012), Filosof´ıa para m´edicos, Gedisa, Barcelona.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2



Comunicaciones en Estad´ıstica Diciembre 2013, Vol. 6, No. 2, pp. 231–235

R´ eplica: La larga vida cient´ıfica que le espera a Thomas Bayes Rejoinder: The long scientific life that awaits Thomas Bayes Luis Carlos Silvaa lcsilva@infomed.sld.cu

En primer lugar, me corresponde agradecer a Comunicaciones en Estad´ıstica la deferencia de someter mi trabajo en defensa del pensamiento bayesiano al juicio cr´ıtico no solo de sus lectores, sino tambi´en de tres destacados colegas. Sus criterios coinciden en respaldar mi convicci´ on de que el razonamiento que conduce al profesor Bunge a descalificar en bloque el enfoque bayesiano resulta inaceptable. Los ejemplos creados por el afamado fil´ osofo y que le autorizar´ıan a tal descalificaci´on, no es que tengan dudosa validez, sino que contienen, simplemente, gruesos errores. Sigo convencido, por tanto, de que no hay que admitir la absurda conclusi´on de que la probabilidad de padecer sida es igual a la de padecerlo supuesto que se es portador de VIH, ni mucho menos creer en la resurrecci´ on, para mantener en alta estima a la inferencia bayesiana. No ser´ an enemigos como Bunge quienes pongan en peligro la larga vida cient´ıfica que le espera a Thomas Bayes. Sin embargo, el art´ıculo que motiv´o estos generosos comentarios va m´ as all´ a que la simple denuncia de los sofismas puntuales en que incurre Bunge en los ejemplos de su libro “Filosof´ıa para m´edicos”. Se orientaba tambi´en a subrayar otras aseveraciones, acaso menos burdas, pero sumamente controvertibles, en especial aquellas relacionadas con el papel de la subjetividad. Estos desaciertos se inscriben en un estilo de corte doctrinal, presente en buena parte del libro, que los propicia y que en parte los explica. Un juicio m´as global sobre este problema fue desarrollado en un art´ıculo independiente, publicado en una revista de aliento salubrista y no de estad´ıstica (Silva 2013), como corresponde al hecho de que tal estilo no se relacionaba exclusivamente con esta u ´ ltima disciplina. Poco tengo para discrepar con los tres comentaristas. Me ce˜ nir´e por tanto a resaltar, y ocasionalmente complementar brevemente, algunas de sus observaciones en torno a la problem´atica general en que se inscribe la inferencia bayesiana, alentadas por las ideas de Bunge, pero que entra˜ nan aportes relativamente independientes de ellas. Ser´an simples pinceladas relacionadas con asuntos que me llamaron la atenci´on. a Investigador

titular. Escuela Nacional de Salud P´ ublica. La Habana, Cuba.

231


232

Luis Carlos Silva

La l´ ucida contribuci´on del profesor Andr´es Guti´errez, enfatiza que “la asignaci´ on de las probabilidades previas no puede ser arbitraria” y agrega que “esta tarea debe ser concienzuda y responsable”. Desde luego, comparto el esp´ıritu de esta opini´ on; pero me gustar´ıa insertar una matizaci´on. Desde una perspectiva estricta, yo dir´ıa que s´ı “puede” ser arbitraria (siempre que cumpla con los axiomas de Kolmogorov). Lo que ocurre, y creo que es lo que en esencia quiere se˜ nalar mi colega, es que en tal caso se corre un riesgo nada desde˜ nable de que dicha asignaci´ on no sea fruct´ıfera. Es por ello que ha de ser concienzuda. Asumo el riesgo de parecer descontextualizado y pongo un ejemplo, en apariencia totalmente ajeno a las probabilidades, pero harto elocuente. A mediados de la d´ecada de los sesenta del siglo pasado surgi´ o un atleta del salto alto que empleaba un estilo totalmente heterodoxo. Dick Fosbury no acomet´ıa el list´on corriendo de manera oblicua a ´el y colocando el cuerpo bocabajo tras la carrera, tal y como hac´ıan todos. As´ı hab´ıa conseguido, por ejemplo, el sovi´etico Valery Brumel la marca mundial entonces vigente de 228 cm. Fosbury corr´ıa hacia el list´on siguiendo una trayectoria curva; una vez frente a la varilla, giraba y se elevaba de espaldas a ella con el brazo m´ as pr´ oximo extendido. Con esa t´ecnica Fosbury obtuvo una plaza para representar a Estados Unidos en los Juegos Ol´ımpicos de M´exico, en 1968. Antes del certamen, su m´etodo fue objeto de cr´ıticas y hasta de burlas, por ser considerado esnobista, rocambolesco y poco natural. Sin embargo, no solo gan´o la medalla dorada en M´exico con la mejor marca de la historia de dichos juegos (225 cm) sino que su procedimiento, desde entonces conocido como el “estilo Fosbury”, ha sido el empleado por todos los saltadores posteriores. Resulta expresivo que Dick Fosbury jam´ as pudo superar la marca de Brumel pero, usando su invenci´on, esta no demor´ o en caer una y otra vez hasta llegar a la plusmarca mundial vigente, que ostenta el cubano Javier Sotomayor (245 cm)1 . Es decir, el ´exito del norteamericano no se debi´ o a que fuera un atleta superior al resto, sino a que usaba un m´etodo m´ as eficiente. La moraleja es muy clara: a la hora de valorar un m´etodo, ninguna consideraci´ on te´orica, ninguna tradici´on, ning´ un presupuesto filos´ ofico puede ser m´ as persuasivo que las corroboraciones pr´acticas de que por su conducto se consigue aquello que se quiere alcanzar. Llevado a nuestro debate, si el manejo de la teor´ıa bayesiana –empleada de una manera sensata y racional– produce resultados palmarios, como efectivamente ocurre, queda poco margen para las objeciones doctrinarias. El profesor Guti´errez introduce e ilustra la violaci´ on del “principio de verosimilitud” en la que se incurren las t´ecnicas inferenciales cl´ asicas. Expresado de manera laxa (para profundizar en el tema, v´ease Royall (1997)) dicho principio establece que las inferencias estad´ısticas deber´ıan realizarse a partir y solo a partir de los datos observados. Siendo, como es, una regla dif´ıcilmente objetable, siempre me ha resultado fascinante que hayamos convivido durante casi un siglo con tal violaci´on, presente en el n´ ucleo de los ubicuos “valores p”. Quiz´ as la exposici´ on m´as f´acilmente comprensible de esta inconsecuencia es la debida Berger & Berry (1988). Guti´errez adiciona que: ✭✭El dise˜ no en la recolecci´ on de los datos es in1 Al final, perm´ ıtaseme este gui˜ no, los saltadores optaron por el estilo Fosbury no porque les garantizar´ıa el ´ exito, sino porque aumentar´ıa la probabilidad de tenerlo.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


R´ eplica: La larga vida cient´ıfica que le espera a Thomas Bayes

233

formativo (y no ignorable), no solo en dise˜ no experimental, sino en el an´ alisis de encuestas probabil´ısticas, para las cuales las propiedades de los estimadores est´ an supeditadas a la medida de probabilidad discreta inducida por el dise˜ no muestral✮✮. Dicho en t´erminos algo m´as simples, se resalta un hecho real: cuando se realiza una inferencia, por ejemplo al calcular un intervalo de confianza a partir de datos obtenidos a trav´es de una muestra probabil´ıstica, las f´ ormulas correctas no solo han de contemplar los datos propiamente dichos, sino tambi´en el dise˜ no muestral empleado. Sin embargo, estimo que hay un matiz que distingue ambas situaciones y que merece ser tenido en cuenta: en el c´ alculo de un “valor p” interviene, por definici´on, el dise˜ no del estudio, pues dicho c´ alculo exige tener en cuenta lo que “podr´ıa” haberse observado y no solo lo que objetivamente se observ´ o. Siendo as´ı, dos analistas podr´ıan llegar a diferentes valores p en virtud del plan seg´ un el cual cada uno se condujo, no obstante haber obtenido los mismos resultados con el mismo modus operandi. Sin embargo, para el c´ omputo del intervalo de confianza con datos procedentes de una muestra probabil´ıstica, si bien se tiene en cuenta algo m´as que los meros datos, ese algo no depende de lo que el investigador ten´ıa en mente realizar sino de lo que objetivamente hizo. Dos analistas diferentes que conozcan lo que se hizo (el dise˜ no muestral aplicado, en este caso) llegar´ an al mismo resultado2 . Aparte de resaltar el vuelo de su discurso, vertebrado en torno a muy actualizadas referencias bibliogr´aficas, destaco la idea final de Guti´errez (✭✭desconocer el desarrollo cient´ıfico que la estad´ıstica bayesiana ha tra´ıdo consigo, ya no es una opci´on✮✮), tan lapidaria como atinada. El profesor Jairo F´ uquene ofrece un ejemplo complementario para desembocar en la constataci´on, acaso m´as persuasiva que cualquier disquisici´ on te´ orica, del impacto que ha tenido el uso de la estad´ıstica bayesiana en diversos terrenos (bioestad´ıstica, medicina, bioinform´atica, neurolog´ıa y gen´etica, para citar solo las disciplinas que ´el menciona). Me permito volver a sugerir en este contexto la lectura de un libro excepcional, que ya mencion´e en mi contribuci´ on inicial, pero que en el ´ınterin ha sido traducido y publicado en castellano con el t´ıtulo La teor´ıa que nunca muri´ o (McGrayne 2012). ✭✭No siempre el respaldo de datos como fuente de informaci´ on previa es sin´ onimo de objetividad✮✮ nos dice el profesor Jorge Ortiz. Excelente acotaci´ on. Y luego sintetiza elegantemente la pr´edica bungeana cuando recuerda que el fil´ osofo ✭✭ataca decididamente la subjetividad y arremete furiosamente contra los bayesianos cuando observa que le abren la puerta?✮✮. Bunge aprecia el impetuoso desarrollo del pensamiento bayesiano, se˜ nala Ortiz, ✭✭como una amenaza al progreso de la ciencia y especialmente de la medicina✮✮. La objetividad es una aspiraci´on leg´ıtima del pensamiento cient´ıfico, pero conse2 El asunto es sutil, y no es f´ acil de exponer en pocas l´ıneas. En otro sitio (Silva 2009) desarroll´ o un sencillo ejemplo que muestra que una persona que est´ e al tanto de lo que un investigador hizo –desde el comienzo hasta el final de su experimento– as´ı como de los datos obtenidos, no sabr´ıa c´ omo calcular el valor p hasta que dicho investigador no le comunique cu´ al era el plan experimental al que respond´ıa eso que hizo, el cual solo se halla en su cabeza.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


234

Luis Carlos Silva

guirla en estado puro es una quimera. Contribuir a alcanzarla es (casi) la raz´ on de ser de la estad´ıstica. Pero garantizarla por su conducto es imposible. Consecuentemente, desde una ´optica fundamentalista, toda la estad´ıstica inferencial, y no solo la bayesiana, deber´ıa ser erradicada, ya que lo que pudi´eramos llamar la estad´ıstica cl´asica” est´a plagada de subjetivismo. El ejemplo m´ as inmediato es el umbral empleado en las pruebas de hip´otesis para declarar “significaci´ on”: el ubicuo α = 0.05 es intr´ınsecamente subjetivo. Las propias pruebas de significaci´on utilizadas pueden ser param´etricas o no param´etricas, de una o de dos colas, desarrollarse con o sin correcciones (de Yates o de Bonferroni, por ejemplo), sin que exista un criterio indiscutible para elegir unas u otras. La elecci´ on del tama˜ no muestral adecuado para un estudio inexorablemente demanda del concurso de la subjetividad; una detallada demostraci´on del car´acter hondamente subjetivo de tal determinaci´ on puede hallarse en Silva (2000) o en Schulz & Grimes (2005). Igualmente subjetiva es la decisi´on de cu´ales son las variables iniciales de un modelo de regresi´ on m´ ultiple antes de aplicar una selecci´on “paso a paso”, o la de aplicar dicha selecci´ on hacia adelante o hacia atr´as. Otro tanto ocurre con la valoraci´ on de si cierto valor se debe o no considerar “aberrante” (un outlier ), o con la decisi´ on de cu´ ales trabajos han de incluirse en un metan´alisis. La lista podr´ıa continuarse, pero se trata de una verdad tan obvia que no vale la pena extenderse. No casualmente, Berger & Berry (1988) en el contexto de la contribuci´ on ya citada, escrib´ıan hace 25 a˜ nos: ✭✭el uso com´ un de la estad´ıstica parece haberse fosilizado, principalmente debido a la visi´on de que la estad´ıstica cl´asica es la forma objetiva de analizar datos✮✮. El profesor Ortiz resume su intervenci´on diciendo que ✭✭En medio del ataque de Bunge, percibo una defensa de mayor dimensi´ on: proteger a la estad´ıstica, bayesiana o no, del uso irracional o intencionado de la subjetividad✮✮. Puede ser que tan loable prop´osito haya estado en el ´animo de Bunge. Me parece generosa la buena voluntad del profesor Ortiz al hacer esa lectura; pero me resulta dif´ıcil admitir que se quiera proteger a la estad´ıstica bayesiana del uso irracional de la subjetividad mediante el recurso de embestir contra ella usando argumentos irracionales. Recibido: 1 de septiembre de 2013 Aceptado: 7 de octubre de 2013

Referencias Berger, J. O. & Berry, D. A. (1988), ‘Statistical analysis and the illusion of objectivity’, The American Scientist 76, 159–165. McGrayne, S. B. (2012), La teor´ıa que nunca muri´ o: de c´ omo la Regla de Bayes permiti´ o descifrar el c´ odigo Enigma, perseguir los submarinos rusos y emerger triunfante de dos siglos de controversia, Grupo Planeta. Royall, R. M. (1997), Statistical evidence: a likelihood paradigm, Chapman & Hall/CRC, Boca Rat´on. Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2


R´ eplica: La larga vida cient´ıfica que le espera a Thomas Bayes

235

Schulz, K. F. & Grimes, D. A. (2005), ‘Sample size calculations in randomised trials: mandatory and mystical’, The Lancet 365, 1348–1353. Silva, L. C. (2000), Dise˜ no razonado de muestras y captaci´ on de datos para la investigaci´ on sanitaria, D´ıaz de Santos, Madrid. Silva, L. C. (2009), Los laberintos de la investigaci´ on biom´edica. En defensa de la racionalidad para la ciencia del Siglo XXI, D´ıaz de Santos, Madrid. Silva, L. C. (2013), ‘Reflexiones a ra´ız de Filosof´ıa para m´edicos, un texto de Mario Bunge’, Salud Colectiva 9(1), 115–128.

Comunicaciones en Estad´ıstica, diciembre 2013, Vol. 6, No. 2



Revista Comunicaciones en Estad´ıstica

Informaci´ on para los autores La revista Comunicaciones en Estad´ıstica es una publicaci´ on del Centro de Investigaciones y Estudios Estad´ısticos (CIEES) adscrito a la Facultad de Estad´ıstica de la Universidad Santo Tom´as. La periodicidad de esta revista es semestral, el primer n´ umero se publica en junio y el segundo en diciembre, de cada a˜ no. El objetivo de esta publicaci´on es divulgar art´ıculos originales e in´editos en cualquier tem´atica de la estad´ıstica te´orica y aplicada. La finalidad de esta revista es motivar la cultura de la investigaci´on estad´ıstica, y por ende, su p´ ublico objetivo est´a en todos aquellos investigadores que utilicen cualquier m´etodo estad´ıstico en el desarrollo de sus proyectos. La revista Comunicaciones en Estad´ıstica publica art´ıculos originales te´ oricos, aplicaciones de t´ecnicas estad´ısticas en cualquier rama del saber que conlleven a publicaciones in´editas as´ı como tambi´en, cartas al editor surgidas de la discusi´ on de art´ıculos ya publicados en esta Revista. A continuaci´ on se presentan algunas de las caracter´ısticas principales del proceso editorial en esta publicaci´ on. Sumisi´ on de art´ıculos El Comit´e Editorial de la revista Comunicaciones en Estad´ıstica sugiere que el formato de los art´ıculos sometidos sea PDF y preferiblemente en tama˜ no carta. Los autores deben enviar una versi´on ciega del manuscrito, sin ninguna informaci´ on de la identidad o afiliaci´on de estos, usando la plantilla disponible en la p´ agina webhttp://comunicacionesenestadistica.usta.edu.co/ de la revista. Los art´ıculos deber´an ser adjuntados y enviados a la direcci´ on de correo electr´ onico1 oficial de la revista y ser´an socializados por el Editor en el Comit´e Editorial. Contenido La revista Comunicaciones en Estad´ıstica publica la siguiente clase de art´ıculos: Aplicaciones y estudios de caso que presenten an´ alisis estad´ısticos innovadores o implementen ejercicios emp´ıricos para evaluar t´ecnicas estad´ısticas en situaciones particulares reales o simuladas. Nuevas contribuciones te´ oricas o metodol´ ogicas que conlleven al desarrollo de procedimientos, algoritmos y metodolog´ıas in´editas desde el punto de vista te´orico. Tambi´en se incluyen procedimientos computacionales y gr´ aficos ilustrados mediante una aplicaci´on pr´ actica en el caso en que hubiese lugar para tal implementaci´on. 1 revistaestadistica@usantotomas.edu.co


Revisi´ on exhaustiva de tem´ aticas estad´ısticas en ´ areas de aplicaci´ on pr´ actica o en campos espec´ıficos de m´etodos y teor´ıa estad´ıstica. Cartas al editor y correcciones mediante escritos directos y concisos acerca de la discusi´on o correcci´on de alg´ un art´ıculo publicado con antelaci´ on en esta revista. T´ıtulo y resumen El t´ıtulo del art´ıculo debe ser espec´ıfico, asimismo, cada art´ıculo sometido debe contener un resumen de no m´as de 400 palabras y no se deben citar ninguna clase de referencias bibliogr´aficas en el resumen. Inmediatamente despu´es del resumen deben aparecer las palabras clave del art´ıculo, que deber´ an describir el contenido de este. Por pol´ıticas de la revista Comunicaciones en Estad´ıstica, el idioma principal de esta publicaci´on es el espa˜ nol, aunque tambi´en se publicar´ an art´ıculos en el idioma ingl´es. Cada art´ıculo sometido deber´a contar con el t´ıtulo en el idioma principal del art´ıculo y con su respectiva traducci´on al idioma secundario. Lo mismo se debe hace con el resumen y con las palabras clave. Por ejemplo, si el idioma principal del art´ıculo es el espa˜ nol, este deber´a contener el t´ıtulo principal en espa˜ nol y su respectiva traducci´on al ingl´es. Adem´as, el resumen principal deber´ a estar escrito en espa˜ nol y tambi´en deber´a ser traducido al ingl´es junto con las palabras clave. Figuras y tablas Al igual que las figuras, las tablas deben ser rotuladas con n´ umeros ar´ abigos. Cada uno de estos objetos debe contener un t´ıtulo que lo describa con detalle y tienen que ser citados dentro del texto del art´ıculo. Se sugiere a los autores que las im´agenes sean enviadas por aparte en cualquier formato gr´ afico (eps, ps, tif, jpg o bmp) de alta resoluci´on, en color y en escala de grises. La versi´ on impresa de la revista contendr´a solo im´agenes en escala de grises; sin embargo, la edici´ on virtual de la revista contendr´a las im´agenes a color. Ap´ endices y referencias bibliogr´ aficas Los ap´endices del manuscrito deben estar ubicados al final de art´ıculo, despu´es de las referencias bibliogr´aficas. Se sugiere que los ap´endices correspondan a desarrollos te´oricos extensos, material suplementario y algoritmos computacionales. Por otro lado, el sistema de referencia bibliogr´afica que se utiliza en esta publicaci´ on es el formato autor-a˜ no conocido tambi´en como formato Harvard. Todas las referencias bibliogr´aficas que aparezcan en el art´ıculo deben estar contenidas y citadas en el texto general o cuerpo del manuscrito. De esta manera, si la referencia forma parte de una frase, se deben citar los apellidos, colocando en un par´entesis el a˜ no de la publicaci´on; si la referencia no forma parte de una frase, se deben citar entre par´entesis los apellidos seguidos del a˜ no de publicaci´ on. Responsabilidad legal El Comit´e Editorial de la revista Comunicaciones en Estad´ıstica asume que los art´ıculos sometidos no est´an publicados por ning´ un otro medio impreso o virtual.


Asimismo, se asume que el art´ıculo es in´edito, original y que no se encuentra en proceso de revisi´on, arbitraje o publicaci´ on en alguna otra revista, magaz´ın o cualquier sitio virtual. Al momento de recibir un art´ıculo para revisi´ on, los autores adquieren toda responsabilidad legal acerca de gr´ aficas, tablas, datos y texto. De la misma manera, los autores liberan a la revista Comunicaciones en Estad´ıstica de cualquier acci´on penal emprendida por un tercero por delitos a derechos de autor o cualquier otra afrenta. Por otro lado, si el Comit´e Editorial decide a favor la publicaci´on de un art´ıculo, los autores deber´ an firmar y aceptar el traspaso de los derechos de autor del art´ıculo a la revista. Sin embargo, los autores podr´ an adjuntar a su sitio web una versi´on del documento final. La revista Comunicaciones en Estad´ıstica se reserva los derechos de autor o difusi´ on de los contenidos. Proceso de arbitraje Los art´ıculos sometidos a la revista Comunicaciones en Estad´ıstica ser´ an evaluados en un primer dictamen por el Comit´e Editorial y luego ser´ an sometidos a arbitraje t´ecnico por profesionales especializados en la tem´ atica del manuscrito. El proceso de arbitraje ser´a doblemente ciego; es decir, los autores no conocer´ an la identidad ni afiliaci´on de los ´arbitros y a su vez, los ´ arbitros no conocer´ an la identidad ni afiliaci´on de los autores. De otro lado, la identidad del editor en curso ser´a conocida tanto por los autores como por los ´ arbitros. Para facilitar el proceso de revisi´on, se les pide a los autores someter dos versiones del manuscrito; la primera omitiendo las identidades y afiliaciones de los autores y la segunda conteniendo tanto las identificaciones como las afiliaciones institucionales. Se asignan dos ´arbitros por cada manuscrito y los posibles dictamenes son: aceptar, rechazar o solicitar modificaciones para una nueva revisi´ on. En caso de presentar dictamenes opuestos por parte de los ´arbitros se asignar´ a un tercero.


Information for authors The journal Communications in Statistics is published by the Center for Research and Statistical Studies (CIEES acronym in Spanish) assigned to the Faculty of Statistics of Universidad Santo Tom´as. The periodicity of this Journal is biannual, the first issue is published in June and the second in December, of every year. The intention of this publication is to disseminate original and unpublished articles on any topic of theoretical and applied statistics. The purpose of this Journal is to promote a culture of statistical research, and hence, its target audience is in all those researchers who use any statistical method in the development of their projects. The journal Communications in Statistics is publishes original theoretical articles, applications of statistical techniques in any branch of knowledge that lead to unpublished articles as well as, letters to the editor that arise from the discussion of articles already published by this Journal. Following are some key features of the editorial process of this publication. Submission of articles The Editorial Committee of the journal Communications in Statistics suggests the articles be submitted in PDF format and preferably in letter size. Authors must send a blind copy of the manuscript, without any information of their identity or affiliation, using the format available in the Journal’s web page2 . The articles must be attached and sent to the Journal’s official e-mail address3 and will be socialized by the Editor in the Editorial Committee. Content The Journal Communications in Statistics publishes the following types of articles: Applications and case studies that present innovative statistical analysis or implement empirical exercises to assess statistic techniques in real or simulated specific situations. New theoretical or methodological contributions that lead to the development of procedures, algorithms and unpublished methodologies from the theoretical point of view. It also includes computational procedures and illustrated graphs by a practical application in the event there is space for such implementation. Exhaustive review of statistical topics in areas of practical application or specific fields of statistic methods and theory. Letters to the editor and corrections through direct and concise writings 2 http://comunicacionesenestadistica.usta.edu.co/ 3 revistaestadistica@usantotomas.edu.co


about the discussion or correction of any article previously published in this Journal. Title and abstract The title of the article must be specific, likewise, each article submitted must have an abstract of no more than 400 words and no type of type of bibliographic references should be cited in the abstract. Immediately after the abstract must appear the article’s keywords, which should describe its content. By policies of the journal Communications in Statistics, the main language of this publication is Spanish, although some articles will also be published in English. Each article submitted shall also have a title in the article’s main language with its translation to the secondary language. The same must be done with the abstract and keywords. For instance, if the main language of the article is Spanish, it should have the main title in Spanish with its translation into English. Moreover, the main abstract should be written in Spanish and must also be translated into English along with the keywords. Figures and charts Like the figures, charts should be labeled in Arabic numerals. Each one of these objects must have a title that describes it in detail and have to be cited inside the text of the article. It is suggested to authors they send images separately in any graphic format (eps, ps, tif, jpg or bmp), with high resolution, color and gray scale. The Journal’s printed version will only contain images in grey scale; however, the virtual edition of the Journal will have color images. Appendix and bibliographic references Appendixes of the manuscript must be located at the end of the article, after the bibliographic references. It is suggested that appendixes refer to extensive theoretical developments, supplement material and computational algorithms. On the other hand, the bibliographic reference system used in this publication is the author-year format also known as the Harvard format. All bibliographic references that appear in the article should be contained and cited in the general text or body of the manuscript. Thus, if the reference is part of a phrase, surnames should be cited, with the year of publication between brackets; if the reference is not part of a phrase, the surnames followed by the year of publication must be cited between brackets. Legal liability The Editorial Committee of the journal Communications in Statistics assumes that the articles submitted are not published by any other printed or virtual media. Likewise, it is assumed that the article is unpublished, original and is not under review, peer review or publication in any other journal, magazine or any virtual site. Upon receipt of an article for review, authors acquire all legal liability on graphs, charts, data and texts. Likewise, authors release from liability the journal Communications in Statistics in any criminal action brought by a third party,


for crimes related with copyrights or any other offense. On the other hand, if the Editorial Committee decides in favor of publishing an article, authors must sign and accept to transfer copyrights of the article to the Journal. However, authors may attach to their website a version of the final document. The journal Communications in Statistics reserves copyrights or rights to circulate the contents. Peer review proceeding Articles submitted to the journal Communications in Statistics will be assessed on a first opinion by the Editorial Committee and will then be subject to a technical peer review by professionals specialized on the topic of the manuscript. The peer review proceeding will be doubly blind, that is, authors will not know the identity nor affiliation of peer reviewers and in turn, peer reviewers will not know the identity nor affiliation of the authors. On the other hand, the identity of the current editor will be known by both authors and peer reviewers. To facilitate the review process, authors are requested to present two versions of the manuscript: the first one omitting the identities and affiliations of the author and the second containing the identity and as well as institutional affiliations. Two peer reviewers are assigned for each manuscript and the possible opinions are: accept, reject or request changes for a new review. In the event of opposite opinions by peer reviewers a third one will be designated.


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.