JORGE IVAN VELEZ & JUAN CARLOS CORREA ¿Debemos pensar en un estimador diferente para la mediana? LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CASTILLO CARRENO Relaci´on entre los procesos de reservas que se generan con dos reclamaciones relacionadas en el tiempo CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO & MARIO PACHECO Inferencia Bootstrap bayesiana para una proporción en muestreo con probabilidades desiguales
Vol. 7, N.o 1, Enero-Junio de 2014
Editorial
ALVARO JOSÉ FLÓREZ & JAVIER OLAYA Estudio de simulación para comparar varios estimadores de varianza en el marco de la regresión no paramédica HÉCTOR HORTÚA & ALEX J. ZAMBRANO Una aplicación estadística de los métodos de clasificación en astronomía JORGE ORTIZ PINILLA & DIANA GIL Transformaciones logarítmicas en regresión simple
FACULTAD DE ESTADÍSTICA
Certificado SC 4289-1
Comunicaciones en Estadística
Bogotá, D. C. Colombia
Vol. 7, N.o 1
pp. 1-104
Enero-Junio
2014
ISSN: 2027-3335
Universidad Santo Tomás Facultad de Estadística Centro de Investigaciones y Estudios Estadísticos (CIEES)
Revista Comunicaciones en Estadística ISSN: 2027-3335 (impresa) ISSN: 2339-3076 (online) Enero-junio 2014 Vol. 7, N.° 1
Bogotá, D. C., Colombia Indexada en IBN Publindex (categoría C)
REVISTA COMUNICACIONES EN ESTADÍSTICA Directora Hanwen Zhang, Ph. D. COMITÉ EDITORIAL Jorge Eduardo Ortiz, Ph. D. Universidad Santo Tomás
Emmanuel Viennet, Ph. D. Université Paris 13
Elkin Castaño, M. Sc. Universidad Nacional de Colombia
Cristiano Ferraz, Ph. D. Universidad Federal de Pernambuco
Andrés Gutiérrez, Ph. D. Universidad Santo Tomás
Amparo Vallejo Arboleda, Ph. D. Universidad de Antioquia
Liliam Cardeño Acero, Ph. D. Universidad de Antioquia
Santiago Velasco-Forero, Ph. D. National University of Singapore
COMITÉ CIENTÍFICO Juan Carlos Salazar, Ph. D. Universidad Nacional de Colombia
José Domingo Restrepo, Ph. D. Universidad de Antioquia
Jorge I. Vélez, Ph. D. (c) The Australian National University
Daniel Andrés Díaz Pachón, Ph. D. University of Miami
Brenda Betancourt, M. Sc. University of California, Santa Cruz
Isabel García Arboleda, M. Sc. CIMAT, México
CONSEJO EDITORIAL PARTICULAR Fr. Carlos Mario Alzate Montes, O. P. Rector General
Dr. Henry Borja Orozco Director Unidad de Investigación
Fr. Eduardo González Gil, O. P. Vicerrector Académico General
Daniel Mauricio Blanco Betancourt Director Ediciones USTA
Fr. Jaime Monsalve Trujillo, O. P. Vicerrector Administrativo y Financiero General
Fr. Érico Juan Macchi Céspedes, O. P. Vicerrector General de Universidad Abierta y a Distancia (VUAD)
María Carolina Suárez Sandoval Coordinadora Revistas Científicas
Hecho el depósito que establece la ley ISSN: 2027-3335 (impresa) ISSN: 2339-3076 (online)
© Derechos reservados Universidad Santo Tomás Bogotá, D. C., Colombia
Jenny Jiménez Medina Corrección de estilo
UNIVERSIDAD SANTO TOMÁS Ediciones USTA Carrera 13 No. 54-39, Bogotá, Colombia Teléfonos: 235 1975-249 71 21 http://www.usta.edu.co editorial@usantotomas.edu.co
Panamericana Formas e Impresos S.A Impresión
Publicación del Centro de Investigaciones y Estudios Estadísticos (CIEES)
Revista Comunicaciones en Estad´ıstica
Contenido Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10 ´ VELEZ ´ JORGE IVAN & JUAN CARLOS CORREA ¿Debemos pensar en un estimador diferente para la mediana? . . . . . . . . . . . . . 11-16 ´ LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CAS˜ TILLO CARRENO Relaci´on entre los procesos de reservas que se generan con dos reclamaciones relacionadas en el tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19-30 ´ CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO & MARIO PACHECO Inferencia Bootstrap bayesiana para una proporci´on en muestreo con probabilidades desiguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31-48 ´ ´ FLOREZ ´ ALVARO JOSE & JAVIER OLAYA Estudio de simulaci´ on para comparar varios estimadores de varianza en el marco de la regresi´on no param´etrica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49-66 ´ ´ & ALEX J. ZAMBRANO HECTOR HORTUA Una aplicaci´ on estad´ıstica de los m´etodos de clasificaci´ on en astronom´ıa . . .67-87 JORGE ORTIZ PINILLA & DIANA GIL Transformaciones logar´ıtmicas en regresi´ on simple. . . . . . . . . . . . . . . . . . . . . . . . . 89-98
Revista Comunicaciones en Estad´ıstica
Content Editorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7-10 ´ VELEZ ´ JORGE IVAN & JUAN CARLOS CORREA Should we think of a different median estimator? . . . . . . . . . . . . . . . . . . . . . . . . . .11-17 ´ LUIS ALEJANDRO MASMELA CAITA & EDWIN JAVIER CAS˜ TILLO CARRENO Relationship between booking processes generated two related claims in time 19-30 ´ CRISTIAN FERNADO TELLEZ, STALYN YASID GUERRERO & MARIO PACHECO Bootstrap Bayesian inference for a proportion in unequal probabilities sampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31-48 ´ ´ FLOREZ ´ ALVARO JOSE & JAVIER OLAYA A simulation study for the comparison of several variance estimators in the nonparametric regression framework. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49-66 ´ ´ & ALEX J. ZAMBRANO HECTOR HORTUA A statistical application of classification methods in astronomy . . . . . . . . . . . . 67-87 JORGE ORTIZ PINILLA & DIANA GIL Logarithmic transformations in simple regression analysis. . . . . . . . . . . . . . . . . 89-98
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 7–9
Editorial
Hanwen Zhanga hanwenzhang@usantotomas.edu.co
Me es grato presentar el n´ umero 1 del volumen 7 de la revista Comunicaciones en Estad´ıtica; por primera vez en la revista, tenemos un art´ıculo escrito en ingl´es. Si bien la revista se centra en la divulgaci´ on de art´ıculos escritos por la comunidad de habla hispana, tambi´en son bienvenidos los escritos en ingl´es. En este n´ umero, los art´ıculos abarcan la estad´ıstica multivariada, muestreo, t´ecnicas no par´ametricas, entre otras tem´aticas. Los investigadores V´elez y Correa cuestionan el popular estimador cl´asico de la mediana recomendado por la mayor´ıa de los textos de ense˜ nanza estad´ıstica. Por medio de simulaciones recomiendan el uso del estimador de Harrell & Davis que tiene mejores propiedades. El segundo art´ıculo de este n´ umero, escrito por M´ asmela y Castillo aborda el problema de dos reclamaciones relacionadas con el tiempo del proceso de reserva para compa˜ n´ıas aseguradoras dentro del ´ambito de la estad´ıstica actuarial. De la rama del muestreo, T´ellez, Guerrero & Pacheco proponen la estimaci´ on de una proporci´on en muestreo con probabilidades desiguales v´ıa bootstrap bayesiano. Los autores encuentran que el estimador resultante tiene un sesgo despreciable y una varianza menor comparado con el π-estimador cl´ asico y el estimador BPSP. El cuarto art´ıculo lo traen Fl´ orez y Olaya desde Cali, donde comparan diferentes estimadores de varianza en una regresi´on no param´etrica v´ıa simulaciones. Los resultados obtenidos pueden ser de gran inter´es en la ense˜ nanza de estas t´ecnicas no param´etricas. Como una aplicaci´on interesante de la estad´ıstica multivariada a la astroestad´ıstica, Hort´ ua y Zambrano realizan una clasificaci´ on a las estrellas del c´ umulo de las Hyades. Las interesantes conclusiones obtenidas no s´olo pueden ser interesantes para los astr´onomos sino tambi´en son un ejemplo bello de la gran utilidad de las t´ecnicas multivariadas. Finalmente, Ortiz y Gil analizan una situaci´ on com´ un y obviada en una de las t´ecnicas estad´ıstica m´ as comunes en la pr´ acticas: regresi´ on lineal. Los autores a Editora.
Revista Comunicaciones en Estad´ıstica. Universidad Santo Tom´ as.
7
8
Hanwen Zhang
muestran que se debe tener mayor cuidado a la hora de transformar las variables en una regresi´on, ya que los estimadores de los par´ametros pierden muchas propiedades deseadas. Espero que estos art´ıculos sean de utilidad en la ense˜ nanza o la pr´actica profesional de la comunidad estad´ıstica. Un abrazo y un saludo desde la oficina de la revista Comunicaciones en Estad´ıstica a todos nuestros autores y lectores.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
9
Editorial
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 7–9
Editorial
I am proud to present number 1 volume 7 of the journal Comunicaciones en Estad´ıstica (Communications in Statistics); for the first time in the journal, we have an article written in English. Although the journal is focused in publishing articles written by the Spanish-speaking community, articles written in other languages as English are also welcome. In this number, articles cover multivariate statistics, sampling, nonparametric techniques, among other topics. Researchers V´elez and Correa question the popular classical estimator of the mean, recommended by most statistics textbooks. Through simulations they recommend using the Harrell & Davis estimator which has better properties. The second article of this number, written by M´ asmela and Castillo, addresses the issue of two claims related to the time of the reserves process for insurance companies, within the field of actuarial statistic. From the sampling branch, Tell´ez, Guerrero & Pachecho propose the estimation of a proportion in sampling with unequal probabilities via Bayesian Boostrapping. Authors find that the resulting estimator has an insignificant bias and a lower variance compared to the classical π-estimator and the BPSP estimator The fourth article is brought by Fl´orez and Olaya from Cali, where they compare different variance estimators in a nonparametric regression via simulations. Results obtained can be of great interest in teaching these nonparametric techniques. As an interesting application of multivariate statistics in astrostatistics, Hort´ ua and Zambrano make a classification of the stars in the Hyades cluster. The interesting conclusions obtained are not only interesting for astronomers, they are also a beautiful example of the great usefulness of multivariate techniques. Finally, Ortiz and Gil analyze a common and avoided situation in one of the most common statistics technique in the practice: linear regression. Authors show the greater care that must be taken when transforming variables in a regression, since the estimators of parameters lose many desired properties. I hope these articles will be useful in teaching or in professional practicing of the statistical community. A hug and greetings from the office of our journal Comunicaciones en Estad´ısitica to all our authors and readers.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 11–17
Should we think of a different median estimator? ¿Debemos pensar en un estimator diferente para la mediana? Jorge Iv´an V´eleza
Juan Carlos Correab
jorgeivanvelez@gmail.com
jccorrea@unal.edu.co
Resumen La mediana, una de las medidas de tendencia central m´as populares y utilizadas en la pr´ actica, es el valor num´erico que separa los datos en dos partes iguales. A pesar de su popularidad y aplicaciones, muchos desconocen la existencia de diferentes expresiones para calcular este par´ametro. A continuaci´on se presentan los resultados de un estudio de simulaci´on en el que se comparan el estimador cl´asico y el propuesto por Harrell & Davis (1982). Mostramos que, comparado con el estimador de Harrell–Davis, el estimador cl´ asico no tiene un buen desempe˜ no para tama˜ nos de muestra peque˜ nos. Basados en los resultados obtenidos, se sugiere promover la utilizaci´ on de un mejor estimador para la mediana. Palabras clave: mediana, cuantiles, estimador Harrell-Davis, simulaci´on estad´ıstica. Abstract The median, one of the most popular measures of central tendency widely-used in the statistical practice, is often described as the numerical value separating the higher half of the sample from the lower half. Despite its popularity and applications, many people are not aware of the existence of several formulas to estimate this parameter. We present the results of a simulation study comparing the classic and the Harrell-Davis (Harrell & Davis 1982) estimators of the median for eight continuous statistical distributions. It is shown that, relatively to the latter, the classic estimator performs poorly when the sample size is small. Based on these results, we strongly believe that the use of a better estimator of the median must be promoted. Keywords: median, quantiles, Harrell–Davis estimator, statistical simulation. a Translational Genomics Group, Genome Biology Department, John Curtin School of Medical Research, The Australian National University, Canberra, ACT, Australia. Grupo de Neurociencias de Antioquia, Universidad de Antioquia, Colombia. Grupo de Investigaci´ on en Estad´ıstica, Universidad Nacional de Colombia, sede Medell´ın. b Grupo de Investigaci´ on en Estad´ıstica, Universidad Nacional de Colombia, sede Medell´ın. Profesor Asociado, Escuela de Estad´ıstica, Universidad Nacional de Colombia, sede Medell´ın.
11
12
Jorge Iv´ an V´ elez & Juan Carlos Correa
1. Introduction Let X1 , X2 , . . . , Xn be a random sample of size n from a population with absolutely continuous distribution function F , and let X(i) be the ith order statistic (i = 1, 2, . . . , n), e.g., X(1) < X(2) < · · · < X(n) . Denote θ as the true median (a ˆ The most common estimator of the median parameter) and any estimator of θ as θ. is θˆ1 =
X (n+1)/2 if n is odd, 1 X if n is even. + X (n/2) (n/2)+1 2
(1)
Harrell & Davis (1982) proposed a new distribution-free estimator of the pth percentile, denoted as Qp . For the median, the estimator is given by:
θˆ2 = Q1/2 =
n
Wn,i X(i)
(2)
i=1
with
Wn,i
Γ (n + 1) = 2 Γ n+1 2
i/n
(i−1)/n
(n−1)/2
[z (1 − z)]
dz.
Other estimators for the median have also been proposed in the literature, but their complexity and dependence on arbitrary constants make them less appealing and difficult to implement (see Ekblom, 1973). Comparative studies have been performed to evaluate the equivalency and asymptotic properties of θˆ1 and θˆ2 , with the work by Yoshizawa (1984) being the first of them. The author showed that both estimators are asymptotically equivalent, and gave regularity conditions to guarantee the asymptotic normality of each of them. On the other hand, Bassett (1991) showed that the traditional estimator of the median is the only equivariant and monotonic with 50 % breakdown, and Zielinski (1995) concluded the θˆ1 is not a good estimator under asymmetric distributions. In this paper we compare the performance of θˆ1 and θˆ2 for several continuous distributions when the sample size n is small, and by considering the skewness as the main factor (measure) to control. As explained further below, this measure represents the relative efficiency of one of the estimators when B samples of size n are draw from a specific distribution F . Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
13
¿Debemos pensar en un estimator diferente para la mediana?
2. Simulation Study and Results 2.1. Simulation set up In order to compare the performance of θˆ1 and θˆ2 , we carried out a simulation study in which eight continuous distributions were considered (see Table 1). These distributions represent those most frequently encountered in the statistical practice. For each of these distributions, a total of B = 5000 samples of size n = {5, 10, 15, . . . , 200} were generated. The choice of theses sample sizes was driven because of what is often seen in real-world applications. Tabla 1: Probability distributions considered in this study. Source: compiled by authors. ˙ Distribution F (·) Parameters Median (θ) 1 a+b Uniform a, b b−a 2 Normal Laplace Cauchy t−Student Exponential Gamma Weibull
(x−μ)2
√ 1 e− 2σ2 2πσ 1 − |x−μ| τ 2τ e 1 2 π(1+x )
− ν+1 2 2 1 + xν λe−λx x 1 α−1 − β e Γ(α)β α x x β β β−1 −( α ) x e
Γ( ν+1 2√) Γ(ν/2) νπ
αβ
μ, σ
μ
μ, τ –
μ 0
ν λ α, β
0 λ log(2) No closed form
α, β
α(log(2)) β
1
We compare the performance of θˆ1 and θˆ2 using the following measure of relative efficiency γ= with MSEj =
MSE1 MSE2
(3)
B 1 ˆ ˙ 2 (θij − θ) B i=1
the mean squared error (MSE) for the jth estimator (j = 1, 2), θ˙ the true median, and B the number of samples of size n that are draw from a specific distribution function F (see Table 1). Note that the lower the MSE, the better the estimator. Here, γ = 1 indicates that both estimators perform equally well; γ < 1 indicates that θˆ1 outperforms θˆ2 ; and γ > 1 indicates that θˆ2 outperforms θˆ1 . In general, it is possible to derive closed-form expressions for calculating θ˙ provided F . However, when this is not the case, the use of computational routines is required. In our case, the qgamma() function in R (R Core Team 2013) was utilised for estimating θ˙ for the Gamma(α, β) distribution. For our simulation study, we implemented the following algorithm in R: Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
14
Jorge Iv´ an V´ elez & Juan Carlos Correa
Figura 1: γ as a function of the sample size when (a) n ≤ 50 and (b) n > 50 for the first six distributions in Table 1. Here, the dotted horizontal line represents a comparable performance between the classic and the Harrell–Davis estimators. Note that all probability distributions but the Exponential are symmetric. Source: elaborated by authors. 1. Generate a sample of size n from F (see Table 1 for details). 2. Calculate θˆ1 as in (1), and θˆ2 as in (2). 3. Repeat 1–2, B times, calculate the MSE for each estimator and then the ratio of the resulting quantities.
2.2. Results The results of our simulation study are presented in figures 1 and 2. Figure 1 depicts the value of γ as a function of the sample size n for the first six continuous distributions in Table 1. Figure 2 shows, for fixed n, a 3D representation of γ as a function of α and β, for the Gamma(α, β) and Weibull(α, β) distributions. As shown in figure 1, γ is always greater than one except for the t2 distribution when n < 10, and the t3 distribution when n < 25. Another interesting finding is that, regardless of n, the highest values of γ were obtained for the U (0, 1) followed by the N (0, 1) and the Laplace distributions. It is intriguing that, despite not being a symmetric distribution, the values of γ for the exponential distribution with parameter λ = 1 were the forth highest. In addition, note that γ → 1 as n → ∞, which is consistent with the assymptotic equivalency of both estimators described by Yoshizawa (1984). In figure 2 we present the results for the Gamma(α, β) and Weibull(α, β) distributions for different values of α and β for n is fixed. These results suggest that, regardless of n, the Harrell–Davis estimator outperforms the classic estimator, e.g., γ > 1. On the other hand, the higher γ values were obtained when n = 5, and the lowest when n = 200, supporting the assymptotic equivalency of both estimators Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
15
¿Debemos pensar en un estimator diferente para la mediana?
Figura 2: γ as a function of n and the parameters (α, β) for the Gamma(α, β) and Weibull(α, β) distributions. Note that γ > 1 regardless of n, α and β, showing that the Harrell–Davis estimator of the median outperforms the traditional estimator. Source: elaborated by authors. (Yoshizawa 1984).
3. Conclusions We have shown under a large number of scenarios that the Harrell–Davis estimator of the median behaves better than the traditional estimator in terms of the MSE. In particular, it is found that, for small sample sizes, the MSE of the Harrell– Davis estimator of the median is lower than that of the traditional estimator for most of the continuous statistical distributions considered in this study, and often Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
16
Jorge Iv´ an V´ elez & Juan Carlos Correa
seen by data analysts. Despite the use and popularity of the traditional estimator of the median, and the fact that it is taught in most of statistics textbooks, we strongly believe that, with the current computational capability, the use of a better estimator must be promoted. In Appendix A we provide R code to facilitate this process.
4. Acknowledgments We thank Dr. Freddy Hern´ andez Barajas for critical reading of this manuscript, and one anonymous reviewer for his useful comments and suggestions. JIV was supported by the Eccles Scholarship in Medical Sciences, the Fenner Merit Scholarship and the Australian National University High Degree Research Scholarship. JIV thanks Dr. Mauricio Arcos-Burgos for his support. Recibido: 5 de julio de 2013 Aceptado: 9 de septiembre de 2013
Referencias Bassett, J. G. W. (1991), ‘Equivariant, monotonic, 50 % breakdown estimators’, The American Statistician 45(2), 135–137. Harrell, F. E. & Davis, C. E. (1982), ‘A new distribution-free quantile estimator’, Biometrika 69(3), 635–640. R Core Team (2013), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. *http://www.R-project.org/ Yoshizawa, C. N. (1984), Some Symmetry Tests, Institute of Statistics, Mimeo Series No. 1460. University of North Carolina, Chapel Hill, USA. Zielinski, R. (1995), ‘Estimating median and other quantiles in nonparametric models’, Applicationes Mathematicae 23(3), 363–370.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
¿Debemos pensar en un estimator diferente para la mediana?
17
A. Harrell–Davis estimator in R A generalisation of the Harrell–Davis estimator for any quantile p ∈ (0, 1) can be found in the Hmisc package (Harrell, 2012). Our implementation, as follows, deals only with the case p = 1/2.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 19–30
Relaci´ on entre los procesos de reservas que se generan con dos reclamaciones relacionadas en el tiempo Relationship between booking processes generated two related claims in time Luis Alejandro M´ asmela Caitaa
Edwin Javier Castillo Carre˜ nob
lmasmela@udistrital.edu.co
edjcastilloca@unal.edu.co
Resumen El proceso de reservas es para las compa˜ n´ıas aseguradoras una base fundamental para el control de las carteras que se tienen contratadas; a fin de facilitar la manipulaci´on del modelo matem´ atico y probabil´ıstico en ocasiones se discretiza el modelo, de manera que los resultados aproximen a la soluci´on real en el continuo, en este caso se utiliza el modelo binomial compuesto para dicho prop´ osito. En la mayor´ıa de contextos se parte del supuesto de independencia, el caso que aqu´ı se considera se supone de dependencia entre dos tipos de reclamaciones denominadas: la reclamaci´on principal y la sobre-reclamaci´on o reclamaci´ on subsecuente, esta u ´ ltima estar´a asociada siempre que exista una reclamaci´ on principal. El tipo de modelo con reclamaciones relacionadas en el tiempo genera dos procesos de reservas, uno para cuando la reclamaci´on subsecuente no es retrasada a un siguiente periodo de tiempo y otro donde se cubre el total reclamado, tanto por la reclamaci´on principal como por la subsecuente. Ya que manipular dichos procesos por separado es innecesario y poco pr´actico, se genera a partir de las probabilidades de supervivencia de ambos procesos y la manipulaci´ on de funciones generadoras de probabilidad, una ecuaci´on que recopila la informaci´on de los dos procesos de reservas. Palabras clave: procesos de reservas, funciones generadoras de probabilidad, probabilidad de ruina, reclamaciones relacionadas en el tiempo, binomial compuesto. Abstract For insurance companies the reservation process is the fundamental basis for controlling portfolios contracted to facilitate the manipulation of mathematical and a Profesor asistente. Facultad de Ciencias y Educaci´ on. Universidad Distrital Francisco Jos´ e de Caldas. Colombia. b Estudiante. Maestria en Ciencias Estad´ ıstica. Universidad Nacional de Colombia. Colombia.
19
20
Luis Alejandro M´ asmela Caita & Edwin Javier Castillo Carre˜ no
probabilistic model. Sometimes the model is discretized so that the results approximate the real solution in the continuum, in this case the compound binomial model is used for this purpose. In most contexts the assumption of independence is assumed, in this article we consider dependence between two types of complaints referred to the principal claim and over-claim or subsequent claim, the latter will be involved whenever there is a claim principal. The type of model with timerelated claims process generates two reserves, one for when the subsequent claim is not delayed to a next time and another where it covers the total claimed by both the principal and by the subsequent claim. Since manipulate these processes separately is unnecessary and impractical, we generate from the survival probabilities of both processes and manipulate the probability generating functions, an equation that collects information from the two processes of reserves. Keywords: booking processes, probability generating functions, probability of ruin, claims related in time compound binomial.
1. Introducci´ on Las compa˜ n´ıas de seguros utilizan el proceso de reservas para hacer predicciones sobre el comportamiento de los portafolios que se manejan, su principal aplicaci´on es el c´alculo de la probabilidad de ruina.Ya que la probabilidad de ruina para un proceso de super´avit en tiempo continuo puede requerir un manejo matem´atico dispendioso, algunos autores como Shiu (1989) y Dickson (1994) plantean la discretizaci´ on del modelo para conseguir resultados aproximados de manera m´ as sencilla. Uno de los modelos discretos m´as utilizados es el modelo binomial compuesto, propuesto por Gerber (1988), debido a que desde este se puede hacer un paso al modelo en tiempo continuo utilizando un l´ımite al infinito. A medida que el tiempo ha avanzado y las compa˜ n´ıas aseguradoras han presentado distintos tipos de inconvenientes, donde los modelos cl´asicos no brindan una soluci´ on, se ha hecho necesario implementar nuevos modelos matem´ aticos y probabil´ısticos; sobre todo, para distintos tipos de situaciones donde existe dependencia entre las reclamaciones que se encuentran en un portafolio. Un modelo donde existe dependencia es el planteado por Guo & Yuen (2001) y estudiado en detalle por Castillo (2013); en dicho estudio aparecen la relaci´on entre los procesos de reservas o super´avit que se presentan cuando existe una reclamaci´ on principal y una sobrereclamaci´ on o reclamaci´ on subsecuente. La ecuaci´ on de relaci´on entre procesos de reservas es utilizada tambi´en por Guo & Yuen (2001), con el prop´osito de plantear f´ ormulas recursivas que permiten calcular la probabilidad de ruina en tiempo finito para este tipo de modelo con reclamaciones relacionadas en el tiempo. El documento que se desarrolla a continuaci´ on presenta en la Secci´on 2 las generalidades del modelo binomial compuesto introducido por Gerber (1988) y tratado por Rinc´ on (2012) y Kaas et al. (2005). La Secci´ on 3 presenta los supuestos necesarios y algunas caracter´ısticas del modelo binomial compuesto con reclamaciones relacionadas en el tiempo. En la Secci´ on 4 se presenta el m´etodo para la obtenComunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
21
Relaci´ on entre los procesos de reservas
ci´on de la ecuaci´ on que relaciona los procesos de reservas que surgen al estudiar el modelo planteado en la Secci´ on 3.
2. Modelo binomial En la literatura que trata sobre riesgo actuarial los autores presentan el modelo de Poisson compuesto, dicho modelo es bastante pr´actico ya que la distribuci´on de Poisson depende de un u ´ nico par´ ametro λ, as´ı mismo es com´ un que los montos de reclamaciones se supongan distribuidos de manera exponencial, esto para facilitar la estimaci´on de par´ ametros de una muestra; en este caso se presenta el modelo binomial compuesto que, aunque evidencia mayor dificultad en modelos pr´acticos, es mucho m´ as sencillo para la manipulaci´on te´ orica y, adem´ as, desde este se puede encontrar una relaci´on con el proceso de Poisson. Es por ello que se presenta este modelo que es introducido por Gerber (1988) y mencionado en extensi´ on por Rinc´ on (2012) y Alfredo (2000). Se dice que si en la funci´ on de riesgo colectivo S=
N
Yi
i=1
donde N es la v.a del n´ umero de siniestros y/o reclamaciones en un intervalo de tiempo [0, T ] y Yi es el monto de la i-´esima reclamaci´on. Si la v.a N se distribuye de manera binomial, es decir N ∼ bin(n, p), se dice que la funci´ on de riesgo S sigue una distribuci´on binomial compuesta, que se nota S ∼ bincomp(n, p, G); en donde G es la funci´ on de distribuci´on de cada monto. Algunas de las caracter´ısticas m´ as importantes para este modelo son las siguientes: Si S se distribuye de manera binomial compuesta se tiene que: E(S) = npE(Y ) V ar(S) = np((E(Y ))2 − p(E(Y ))2 ) Ms (t) = (1 − p + pMY (t))n
3. Modelo binomial compuesto con reclamaciones relacionadas en el tiempo Se considera un modelo a tiempo discreto que involucra dos tipos de reclamaciones de seguros, las cuales son la reclamaci´ on principal y la sobre-reclamaci´ on o reclamaci´ on subsecuente sobre las unidades de tiempo t = 1, 2, 3 . . ., se supone que cada reclamaci´on principal induce una reclamaci´on subsecuente. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
22
Luis Alejandro M´ asmela Caita & Edwin Javier Castillo Carre˜ no
En cualquier periodo de tiempo la probabilidad de tener una reclamaci´on principal ser´ a p, 0 < p < 1, y de no tenerla es q = 1 − p, la ocurrencia de las reclamaciones principales en diferentes periodos de tiempo son independientes, es decir la ocurrencia de una reclamaci´on en el periodo k no depende de la ocurrencia en los periodos de tiempo anteriores a k; as´ı mismo est´ a reclamaci´ on no influir´ a en la ocurrencia de una reclamaci´on en los periodos de tiempo siguientes a k. La sobrereclamaci´ on que est´a asociada a una reclamaci´on principal ocurre en el mismo periodo de tiempo con probabilidad θ o puede ser retrasada al siguiente periodo de tiempo con probabilidad δ = 1 − θ; es ac´a donde se presenta el tipo de relaci´on que existe entre la reclamaci´ on principal y la sobre-reclamaci´on. Los montos de reclamaci´ on son independientes entre si y son enteros positivos, los montos de reclamaciones principales X1 , X2 , X3 . . . son independientes e id´enticamente distribuidos con funci´ on de probabilidad com´ un f (m) = fm = P r(X = m) para m = 1, 2, 3 . . ., con su correspondiente funci´ on generadora de probabilidad dada por ∞ f¯(z) = fm z m m=1
y con media
∞
μX =
mfm .
m=1
Sean Y1 , Y2 , Y3 . . . variables id´enticamente distribuidas e independientes que representa los montos para las sobre-reclamaciones, con funci´ on de probabilidad com´ un g(n) = gn = P r(Y = n) Para n = 1, 2, 3 . . ., con su correspondiente funci´ on generadora de probabilidad dada por ∞ g¯(z) = gn z n n=1
Y con media μY =
∞
nfn .
n=1
As´ umase que la prima por periodo de tiempo es de valor 1, que el super´ avit inicial es u ∈ Z+ y su proceso de super´ avit es S(t) = u + t − UX − UY
(1)
donde UtX y UtY es la suma de montos de las reclamaciones principales y sobrereclamaciones en los primeros t periodos de tiempo respectivamente, es decir UkX =
n i=1
Xi
y
UkY =
n
Yj .
j=1
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Relaci´ on entre los procesos de reservas
23
La probabilidad de Ruina en tiempo finito es ψ(u, k) = P r(S(t) ≤ 0; t = 1, 2, 3 . . . , k)
(2)
Y con esto la probabilidad de supervivencia ser´a φ(u, k) = 1 − ψ(u, k) Este modelo supone el caso donde la ruina ocurre, ya que los fondos de la aseguradora son negativos. Sea Uk la suma de UkX y UkY , entonces para el periodo de tiempo t = 1 se tiene que E(U1 ) = E(U1X + U1Y ) = E(U1X ) + E(U1Y ) Y utilizando el teorema de la probabilidad total y el hecho de independencia entre los montos de los dos tipos de reclamaciones se obtiene = pμX + pθμY Pueden existir tres escenarios en los cuales se presenten las reclamaciones relacionadas en cualquier periodo de tiempo, dichos escenarios deben tenerse en cuenta en el momento de querer planificar sobre ellos y estos se enumeran a continuaci´ on. 1. La reclamaci´on principal. 2. La reclamaci´ on inicial y la reclamaci´on subsecuente inducida por la reclamaci´on inicial. 3. La reclamaci´ on subsecuente inducida por la reclamaci´on inicial ocurrida previamente. Bajo los posibles tipos de reclamaci´on ya mencionados, la esperanza matem´ atica de la suma de los montos de reclamaciones para un periodo cualquiera viene dada por
E(Un+1 ) = E(Un ) + pμX + pθμY + p(1 − θ)μY = E(Un ) + pμX + pθμY + pδμY = E(Un−1 ) + pμX + pθμY + pδμY + E(U1 ) = E(Un−1 ) + 2(pμX + pθμY + pδμY ) donde por inducci´on = (n + 1)p0oμX + pθμY + npδμY = np(μX + μY ) + pμX + pθμY Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
24
Luis Alejandro M´ asmela Caita & Edwin Javier Castillo Carre˜ no
Por u ´ltimo, en el planteamiento del modelo se asegura que la tasa de la prima excede la tasa de reclamaciones netas y por lo tanto la carga de aseguramiento es positiva, en t´erminos de la esperanza de la suma de montos reclamados. p(μX + μY ) < 1
(3)
Ya que para algunos lectores puede parecer extra˜ no plantear este modelo a un escenario real, se ponen en consideraci´on las siguientes situaciones donde se puede presentar este tipo de reclamaciones relacionadas en el tiempo; si se considera que para una cat´ astrofe, como un terremoto o una tormenta, puede ser muy probable que ocurran reclamaciones de seguros despu´es de los hechos inmediatos, o tambi´en se puede considerar el caso en que un seguro de accidente tenga despu´es de cobrada la reclamaci´ on el agravante posterior del suceso de muerte. Otra posible interpretaci´ on del modelo puede ser que la reclamaci´on subsecuente sea tomada como una porci´ on aleatoria del total de reclamaciones, tomando algunas unidades de tiempo para ser resuelto.
4. Ecuaci´ on de relaci´ on entre los procesos de reservas que modelan dos reclamaciones relacionadas en el tiempo Cuando se presentan reclamaciones que se pueden enmarcar en el modelo mencionado en la secci´on 2, a su vez se manifiestan dos escenarios en los cuales difieren los procesos de reservas, es por ello que a partir de los escenarios que se mencionan a continuaci´ on se genera una ecuaci´ on que relaciona estos dos procesos. El primero de los escenarios consiste en que si una reclamaci´on principal ocurre en un periodo de tiempo determinado la reclamaci´on subsecuente tambi´en ocurrir´ a en el mismo periodo, por lo tanto no existir´ an reclamaciones para el pr´ oximo periodo de tiempo y de esta manera el proceso de super´avit se renueva; en este caso el proceso de reservas o super´ avit que modela dicha situaci´on se presenta en la ecuaci´on (2.1). El segundo escenario es el evento complementario, que se mencion´o anteriormente, es decir si existe una reclamaci´on principal sobre su reclamaci´ on se producir´ a en el siguiente periodo de tiempo. Ahora, si la reclamaci´on principal se produce en el periodo anterior y su reclamaci´on subsecuente asociada se produce al final del periodo de tiempo actual, se tiene el siguiente proceso de super´avit condicionado al segundo escenario S1 (t) = u + t − UtX − UtY − Y
(4)
para t = 1, 2, 3 . . . y con S1 (0) = u. Se nota adem´ as la probabilidad de supervivencia al proceso condicional en el periodo k como φ1 (u, k) y con esto se obtiene Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
25
Relaci´ on entre los procesos de reservas
por medio del teorema de la probabilidad total que
φ(u − 1, k) = qφ(u, k − 1) + pθ
φ(u − m − n, k − 1)fm gn
m+n≤u
+ p(1 − θ) = qφ(u, k − 1) + pθ
φ1 (u − m, k − 1)fm
m≤u u
φ(u − m − n, k − 1)fm gn +
m+n=1
pδ
u
φ1 (u − m, k − 1)fm
(5)
m=1
donde cada uno de los sumandos de la ecuaci´ on anterior representa cada posibilidad en las que se pueden presentar las reclamaciones en el periodo t = k, es decir 1. El primer sumando representa la probabilidad de que no exista reclamaci´on principal en el periodo t = k, por la probabilidad de supervivencia del periodo anterior. 2. El segundo sumando representa la probabilidad de que exista reclamaci´on principal y reclamaci´on subsecuente en el periodo t = k, por la probabilidad de supervivencia del periodo anterior. 3. El tercer sumando representa la probabilidad de que exista reclamaci´on principal en el periodo t = k y que la reclamaci´on principal sea retrasada al periodo k + 1, por la probabilidad de supervivencia del periodo anterior; es de notar que en esta oportunidad se usa el proceso de super´avit definido para esta situaci´ on en la ecuaci´on (3.1). Adem´as φ1 (u − 1, k) = q
φ(u − n, k − 1)gn + pθ
n≤u
φ(u − m − n − l, k − 1)fm gn gl
m+n+l≤u
+ p(1 − θ)
φ1 (u − m − n, k − 1)fm gn
m+n≤u
φ1 (u − 1, k) = q
u
φ(u − n, k − 1)gn + pθ
n=1
+ pδ
u m+n+l=1 u
φ(u − (m+ n+ l), k − 1)fm gn gl
φ1 (u − (m + n), k − 1)fm gn
(6)
m+n=1
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
26
Luis Alejandro M´ asmela Caita & Edwin Javier Castillo Carre˜ no
para u ≥ 1 y k ≥ 1. Es claro que φ(u, 0) = φ1 (u, 0) = 1 para todo u ≥ 0. Se define la funci´ on generadora as´ı ¯ k) = φ(z,
∞
φ(u, k)z u
φ¯1 (z, k) =
y
u=0
∞
φ1 (u, k)z u
u=0
Para manipular las ecuaciones (5) y (6) mediante las funciones generadoras de probabilidad es necesario hacer un trabajo previo; para empezar se multiplicar´a la ecuaci´on (3.2) por z u , de donde se tiene
zz u−1 φ(u − 1, k) = z u qφ(u, k − 1) + z u pθ
u
φ(u − m − n, k − 1)fm gn
m+n=1
+ z u pδ
u
φ1 (u − m, k − 1)fm
m=1
zz u−1 φ(u−1, k) = q(z u φ(u, k−1))+pθ(
u
z u−(m+n) φ(u−m−n, k−1)z mfm z n gn )
m+n=1
+ pδ(
u
z u−m φ1 (u − m, k − 1)z m fm )
m=1
ahora, si a esta u ´ ltima ecuaci´on la sumamos a cada lado de 1 a infinito sobre u
z
∞
z u−1 φ(u − 1, k) = q(
u=1
+ pθ(
u ∞
∞
z u φ(u, k − 1))
u=1
z u−(m+n) φ(u − m − n, k − 1)z m fm z n gn )
u=1 m+n=1
+ pδ(
∞ u
z u−m φ1 (u − m, k − 1)z m fm )
u=1 m=1
esto es por definici´on de las funciones generadoras de probabilidad
¯ ¯ k) = q(φ(z, ¯ k−1)−φ(0, k−1))+pθφ(z, ¯ k−1)f(z)¯ ¯ g (z)+pδ φ¯1 (z, k−1)f(z) (7) z φ(z, utilizando los mismos argumentos sobre (3.3) se obtiene ¯ k − 1)¯ ¯ k − 1)f¯z¯ z φ¯1 (z, k) = q φ(z, g (z) + pθφ(z, g 2 (z) + pδ φ¯1 (z, k − 1)f¯(z)¯ g (z) (8) Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
27
Relaci´ on entre los procesos de reservas
Ahora, teniendo en cuenta las funciones generadoras bivariadas ¯ t) = φ(z,
∞
¯ k)tk , φ(z,
φ¯1 (z, t) =
k=0
∞
φ¯1 (z, k)tk ,
y
φ¯0 (t) =
k=0
∞
¯ k)tk φ(0,
k=0
y aplicando el mismo m´etodo que se utiliz´ o para conseguir (3.4) y (3.5) se tiene
z
∞
∞ ∞ k−1 ¯ k)tk = qt( ¯ k−1)−φ(0, k−1))+ptθ ¯ k−1)f(z)t ¯ φ(z, φ(z, tk−1 φ(z, g¯(z)
k=1
k=1
k=1
+ ptδ
∞
φ¯1 (z, k − 1)f¯(z)tk−1
k=1
∞ ∞ ¯ t) − φ(z, ¯ 0)) = qt( ¯ k) − φ(0, k)) + ptθ ¯ k)f¯(z)tk g¯(z) z(φ(z, tk φ(z, φ(z, k=0
k=0
+ ptδ
∞
φ¯1 (z, k)f¯(z)tk
k=0
¯ t) − φ(z, ¯ 0)) = qt(φ(z, ¯ t) − φ¯0 (t)) + pθtf¯(z)¯ ¯ t) + pδtf¯(z)φ¯1 (z, t) (9) z(φ(z, g (z)φ(z,
¯ t) + pθtf¯(z)¯ ¯ t) + pδtf¯(z)¯ g (z)φ(z, g 2 (z)φ(z, g(z)φ¯1 (z, t) z(φ¯1 (z, t) − φ¯1 (z, 0)) = qt¯ ¯ t) + pθtf¯(z)¯ ¯ t) + p(1 − θ)tf¯(z)φ¯1 (z, t)). = g¯(z)(qtφ(z, g (z)φ(z, (10) ¯ 0), donde por definici´ Es de notar que φ¯1 (z, 0) = φ(z, on y por propiedades de la serie geom´etrica se obtiene ¯ 0) = φ¯1 (z, 0) = φ(z,
∞
φ(u, 0)z u =
u=0
∞ u=0
zu =
1 1−z
y con esto (3.6) y (3.7) pueden escribirse como
¯ t) − z φ(z,
z ¯ t)) + p(1 − θ)tf¯(z)(φ¯1 (z, t) − qt(φ¯0 (t)) = (qt + pθtf¯(z)¯ g (z))(φ(z, 1−z z φ¯1 (z, t) −
z ¯ t) − z + qt(φ¯0 (t)). = g¯(z)(z φ(z, 1−z 1−z
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
28
Luis Alejandro M´ asmela Caita & Edwin Javier Castillo Carre˜ no
Para combinar las dos ecuaciones anteriores, primero se tiene despejando de la segunda ecuaci´on φ¯1 (z, t)
φ¯1 (z, t) =
g (z) 1 ¯ t) − g¯(z) + qtφ0 (t)¯ + g¯(z)φ(z, 1−z 1−z z
y por lo tanto ¯ tf¯(z)p(1 − θ) g (z) ¯ t)− tf (z)p(1 − θ)¯ φ¯1 (z, t)tf¯(z)p(1−θ) = +¯ g (z)tf¯(z)p(1−θ)φ(z, 1−z 1−z g (z) tf¯(z)p(1 − θ)qtφ0 (t)¯ + z y al reemplazar este valor en la primera ecuaci´ on
¯ t)− z φ(z,
¯ z ¯ t)+ tf (z)p(1 − θ) +¯ ¯ t) = (qt+pθtf¯(z)¯ g (z))φ(z, g (z)tf¯(z)p(1−θ)φ(z, 1−z 1−z g (z) tf¯(z)p(1 − θ)¯ g (z) tf¯(z)p(1 − θ)qtφ0 (t)¯ + − qt(φ¯0 (t)) − 1−z z
donde agrupando t´erminos semejantes la ecuaci´ on queda escrita como
¯ t)[z − t(q + pf¯(z)¯ φ(z, g (z))] =
p(1 − θ)f¯(z) z + t(1 − g¯(z)) 1−z 1−z
f¯(z)¯ g (z) . (11) − qtφ¯0 (t) 1 − p(1 − θ)t z
Sea UkW el monto total de reclamaciones en los primeros k periodos en el modelo binomial compuesto, con monto individual de reclamaciones W = X+Y . Entonces, ¯ k) para encontrar la funci´ on generadora de probabilidad de UkW notada como h(z, se procede de la siguiente manera: Para un periodo de tiempo cualquiera se tiene desde el teorema de la probabilidad total aplicado al modelo binomial compuesto que P r(X + Y = k) = pθP r(X + Y = k) + p(1 − θ)P r(X + Y = k) si se desea expresar lo anterior mediante la funci´on generadora de probabilidad entonces se tiene Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
29
Relaci´ on entre los procesos de reservas
¯ h(z) =
∞
P r(X + Y = k)tk
k=0
= qt0 +
∞
[pθP r(X + Y = k) + p(1 − θ)P r(X + Y = k)] tk
k=1
= q + pf¯(z)¯ g (z)
Usando la hip´otesis de independencia de los montos de reclamaciones para cada periodo se tiene que para los primeros k periodos la funci´ on generadora de probabi¯ k) = [q + pf¯(z)¯ lidad h(z, g (z)]k . Adem´as se notar´ an las funciones de densidad y de distribuci´ on de UkW como h(i, k) y H(i, k) respectivamente. Con esto, si se divide ¯ 1) es decir se multiplica por (z − th(z, ¯ 1))−1 , a ambos lados de (3.8) por z − th(z, cuya expresi´on se puede ver como serie de potencias de la variable t de la siguiente manera
¯ 1))−1 = (z − th(z, =
1 ¯ z − th(z, 1) ∞ k ¯ t (h(z, 1))k k=0
z k+1
.
S´ı se multiplica cada t´ermino de (3.8) por el resultado anterior, se toma la suma ∞ un tk y se multiplica a ambos k=0 para todos los sumandos, se toma factor com´ k lados de la ecuaci´on la expresi´on z , se obtiene que para k = 1, 2, 3 . . .
¯ k) = z k φ(z,
k−1 ¯ k) h(z, ¯ k−1) p(1 − θ) −q ¯ j)z k−1−j +f¯(z)(1−¯ g (z))h(z, φ(0, k−1−j)h(z, 1−z 1−z j=0
+ pq(1 − θ)f¯(z)¯ g (z)
k−2
¯ j)z k−2−j . φ(0, k − 2 − j)h(z,
(12)
j=0
La ecuaci´on (3.9) presenta la informaci´on que brindan los dos procesos de reservas expresados bajo funciones generadoras de probabilidad, de las reclamaciones principales y sobre-reclamaciones y en terminos de la probabilidad de supervivencia. Guo & Yuen (2001) hace uso de esta relaci´on para presentar f´ormulas recursivas para el c´ alculo de la probabilidad de ruina, cuando se tienen reclamaciones relacionadas en el tiempo bajo el supuesto de el modelo binomial compuesto. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
30
Luis Alejandro M´ asmela Caita & Edwin Javier Castillo Carre˜ no
5. Conclusiones Los supuestos de un modelo binomial compuesto permiten la manipulaci´ on de diferentes modelos en el a´rea actuarial de manera menos dispendiosa o dif´ıcil, el caso donde se intentan modelar dos reclamaciones relacionadas en el tiempo no es at´ıpico a este hecho. En este escrito se puede evidenciar que desde el trabajo sobre dicho supuesto y la introducci´on de las funciones generadoras de probabilidad de los montos de reclamaciones, tanto principales como de las sobre-reclamaciones, es posible encontrar una f´ormula en t´erminos de la probabilidad de supervivencia y la funci´ on generadora de probabilidad com´ un que recopila los datos de ambos tipos de reclamaci´ on. Con la ecuaci´ on presentada se puede generar un estudio, bien sea sobre el comportamiento de la probabilidad de ruina o de supervivencia, o de las funciones generadoras de probabilidad y por lo tanto de sus momentos factoriales o sus valores puntuales de probabilidad. Recibido: 2 de agosto de 2013 Aceptado: 19 de diciembre de 2013
Referencias Alfredo, D. E. (2000), The compound binomial model revisited, Technical report, Universidad T´ecnica de Lisboa, Lisboa. Castillo, E. J. (2013), Probabilidad de ruina en el modelo binomial compuesto para reclamaciones no convencionales, Technical report, Universidad Distrital Francisco Jose de Caldas. Dickson, D. C. M. (1994), ‘Some comments on the compound binomial model’, ASTIN Bulletin 24, 33–45. Gerber, H. U. (1988), ‘Mathematical fun with the compound poisson process’, ASTIN Bulletin 18, 161–168. Guo, Y. & Yuen, C. (2001), ‘Ruin Probabilities for Time-Correlated Claims in the Compound Binomial Model’, Insurance: Mathematics and Economics 29, 47– 57. Kaas, R., Goovaerts, M. & Denuit, M. (2005), Actuarial Theory for Dependent Risks, Wiley and Sons, Chichester. Rinc´ on, L. (2012), Introducci´ on a la Teor´ıa de Riesgo, Ciudad universitaria UNAM, Mexico D.F. Shiu, E. (1989), ‘The probability of eventual ruin in a compound binomial model’, ASTIN Bulletin 19, 179–190.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 31–48
Inferencia Bootstrap bayesiana para una proporci´ on en muestreo con probabilidades desiguales Bootstrap Bayesian inference for a proportion in unequal probabilities sampling Cristian Fernando Telleza
Stalyn Yasid Guerrerob
cftellezp@libertadores.edu.co
syguerrero@correro.unicordoba.edu.co
Mario Pachecoc mariopachecolopez@gmail.com
Resumen En este art´ıculo se propone el m´etodo bootstrap bayesiano para realizar inferencias sobre una proporci´on ρ en una poblaci´ on finita a partir de una muestra con probabilidades desiguales. V´ıa simulaci´on se determin´ o que, a partir de una adecuada elecci´on de la distribuci´ on a priori de ρ, la metodolog´ıa propuesta obtiene estimaciones con sesgos tan peque˜ nos como los obtenidos mediante el π-estimador cl´ asico. Adicional a esto, se obtuvo menor varianza e intervalos de confianza con niveles de confianza m´ as altos y de menor longitud en comparaci´on con el π-estimador cl´ asico y el estimador BPSP propuesto por Chen et al. (2010). Finalmente se ejemplifica la implementaci´ on de la metodolog´ıa. Palabras clave: muestreo probabil´ıstico, Bootstrap bayesiano, estimaci´ on de una proporci´on, estimador BPSP. Abstract This paper describe Bayesian bootstrap method, it is to realize inferences for finite population proportion ρ based on unequal probability sampling. Through Simulation we found that based on an appropriate a priori distribution to ρ with the proposed methodology it is possible to get estimate less-biased like that obtain by the clasic π-estimator. Also, we get less-variance and confidence intervals with highest confidence levels and it has fewer length when we compared it with the a Docente
Tiempo completo, Fundaci´ on Universitaria los Libertadores, Colombia. Universidad de C´ odoba, Colombia. c Docente Ocasional Universidad de C´ odoba, Colombia.
b Egresado
31
32
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
classic π-estimator and BPSP estimator that was proposed by Chen et al. (2010). Lastly, an example is performed using the development methodology. Keywords: probability sampling, Bayesian Bootstrap, proportion estimation.
1. Introducci´ on Un par´ametro de inter´es considerado en muchos estudios estad´ısticos (investigaciones sociales, econ´omicas, estudios de mercadeo, entre otros) es la proporci´on. La teor´ıa de muestreo probabil´ıstico cl´ asica asociada a la estimaci´ on de dicho par´ ametro, se basa en funciones no lineales de otros par´ ametros (como el total poblacional y el total de un dominio), mientras que el enfoque bayesiano lo considera como una variable aleatoria que se puede modelar usando distribuciones de probabilidad de variables aleatorias en el espacio (0 , 1), como la distribuci´on uniforme (0 , 1) o la distribuci´ on beta (α,β), entre otras. En la literatura especializada es poco lo que se encuentra acerca de la integraci´on entre el muestreo probabil´ıstico y la teor´ıa bayesiana, de igual forma, lo que se halla solo lo hace de manera parcial para el muestreo aleatorio simple o muestreo aleatorio simple estratificado. Por ejemplo, Chen et al. (2010) proponen un estimador spline penalizado predictivo bayesiano (BPSP, por sus siglas en ingl´es) para una proporci´on en poblaciones finitas bajo muestreo con probabilidades desiguales. De otro lado, Pfeffermann & Royall (1982), en su trabajo centran toda la atenci´on en los supuestos necesarios para la robustez de los procedimientos estad´ısticos y as´ı poder predecir el total de la caracter´ıstica de inter´es a la poblaci´on. La finalidad de este art´ıculo es mostrar una herramienta para la estimaci´on de proporciones que integre las teor´ıas de estad´ıstica bayesiana y el muestreo probabil´ıstico. La herramienta seleccionada es el m´etodo bootstrap bayesiano, puesto que una caracter´ıstica distintiva de la estad´ıstica bayesiana es la forma expl´ıcita de tener en cuenta la informaci´on previa; sin embargo, uno de sus problemas que se encuentra en la necesidad de asumir la forma param´etrica de la distribuci´ on que genera los datos. Mediante la t´ecnica bootstrap bayesiano es posible evitar este supuesto.
2. Inferencia Bootstrap bayesiana para una proporci´ on Considere U = {u1 , u2 , ..., uk , ..., uN }, una poblaci´ on finita de tama˜ no N , en donde cada unidad ui (i = 1, 2, ..., N ) tiene asociada una variable dic´ otoma yi , que toma el valor 0 cuando la observaci´on no posee la caracter´ıstica de inter´es y 1 cuando la posee. Una muestra aleatoria s es seleccionada de U , de acuerdo con un dise˜ no de muestreo probabil´ıstico. En la muestra, la variable de inter´es y es observada para todos los elementos seleccionados. El inter´es consiste en estimar la distribuci´on de Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporci´ on
33
probabilidad posterior para el par´ ametro ρy definido como ρy = i∈k yNi , haciendo uso de los valores de la muestra y de las probabilidades de inclusi´ on inducidas por el dise˜ no muestral. La metodolog´ıa bootstrap bayesiana considera que el par´ametro ρy est´a en funci´ on de la distribuci´ on acumulada de la que proviene la muestra aleatoria s, la cual ha sido seleccionada con un dise˜ no muestral particular y con la que se ha estimado ρy , haciendo uso del estimador de Horvitz-Thompson definido como: ρˆyπ = ˆ = con N
i∈s
1 ˆ N
yi /πi
i∈s
1 πi y πi = P r (i ∈ s)
Supongamos entonces que la distribuci´ on de probabilidad condicional ξ(y | ρy ) de y existe; esta es, a su vez, la verosimilitud de y en funci´ on de ρy . Sea ξ(ρy ) la densidad a priori del par´ ametro ρy . Por el teorema de bayes se tiene: ξ(ρy | y) ∝ ξ(y | ρy )ξ(ρy )
(1)
donde ξ (ρy | y) es la distribuci´on posterior de ρy dada la observaci´on de y en la muestra. Al observar la forma de la distribuci´on posterior de ρy se debe pensar en la escogencia de una distribuci´on a priori para ρy , y en un supuesto distribucional para y condicionado al par´ametro ρy . En cuanto a la distribuci´on a priori para ρy existe una gama de posibilidades entre distribuciones previas informativas y no informativas, tales como la distribuci´on uniforme y la distribuci´on beta o cualquier distribuci´ on que tenga como soporte el intervalo (0, 1). En cuanto al supuesto distribucional para y condicionado al par´ ametro ρy se debe tener en cuenta que en la teor´ıa de muestreo no se hacen dichos supuestos, por lo que se dice que son de libre distribuci´ on. Es por esto u ´ ltimo que la metodolog´ıa bootstrap bayesiana juega un papel fundamental en la metodolog´ıa propuesta, la cual consiste en realizar una obtenci´on de ξ(y | ρy ) y ξ(ρy | y) de forma emp´ırica.
2.1. Distribuci´ on posterior de ρ con a priori informativa Seg´ un Shao & Tu (1995), el m´etodo bootstrap bayesiano evita asumir una forma param´etrica de la distribuci´ on que genera los datos. Si se est´ a interesado en el par´ ametro ρy y la informaci´ on a priori sobre ρy est´a resumida en ξ(ρy ) y si y1 , y2 , ..., yn representan las observaciones de la variable de inter´es en la muestra con densidad desconocida ξ, entonces es posible aproximar a ξ utilizando un estiˆ | ρy ) y hallar un estimador de la distribuci´on mador de densidades, por ejemplo, ξ(y posterior como: ˆ 1 , ..., yn | ρy ) ξ(ρy | y) α ξ(ρy )L(y (2) Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
34
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
ˆ 1 , ..., yn | ρy ) representa la estimaci´on bootstrap de la funci´ donde L(y on de veˆ A continuaci´on se presenta la secuencia de pasos rosimilitud, proporcional a ξ. ˆ necesarios para determinar L: 1. Usando los datos muestrales y1 , y2,...,yn , se construye una poblaci´ on artificial U ∗ . Una forma de construir dicha poblaci´on consiste en replicar los yi tantas veces como su factor de expansi´ on ( π1i ), siguiendo el principio de representatividad. 2. Seleccionar una serie de muestras bootstrap de U ∗ denotadas por s∗ con un dise˜ no id´entico al usado para seleccionar la muestra original s de U . Repetir B veces para cada muestra bootstrap s∗b (b = 1, 2, ..., B), calcular el π estimador ρ∗yπb : ρˆ∗yπb
=
1 ∗ ∗ yib /πib . ˆ∗ N ∗ i∈s
ˆ ∗ = ∗ 1∗ , π ∗ es la probabilidad de inclusi´on de los elementos Donde N i i∈s πi ∗ en la muestra bootstrap y yib es el i-´esimo elemento de la b-´esima muestra bootstrap. 3. Con los anteriores estimadores ρ∗yπ1 , ..., ρ∗yπB calcular el estimador de densidad kernel definido como:
B u − (ˆ ρ∗yπb − ρˆyπ ) 1 fB (u) = (3) K BhB hB b=1
Donde la funci´on K es llamada funci´ on n´ ucleo (kernell), y en general, es una funci´ on de densidad continua, unimodal y sim´etrica alrededor de 0. El par´ ametro hb se conoce como par´ametro suavizador. ρ − ρy ) es una estimaci´on de Haciendo u = ρˆ − ρy en la ecuaci´on anterior, fˆB (ˆ la densidad muestral de ρˆyπ dado ρy . Evalu´ andola en x = ρˆyπ resulta como funci´ on de ρy para ser usada como verosimilitud ˆ B (ˆ ρyπ | ρy ) = L
B 2ρˆyπ − ρ − ρˆ∗yπb 1 K BhB hB
(4)
b=1
4. La distribuci´ on posterior resultante ξ(ˆ ρyπ | ρy ) es entonces proporcional a ˆ ρyπ | ρy ) y la constante de normalizaci´on se puede hallar mediante ξ(ρy )L((ˆ integraci´ on num´erica. De esta forma es posible construir un estimador bayesiano de la distribuci´on posterior de ρy como: ˆ 1 , ..., yn | ρy ) ξ(ρy | y) = c(y) × ξ(ρy ) × L(y Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
35
Inferencia Bootstrap bayesiana para una Proporci´ on
donde c(y) se puede obtener por integraci´ on num´erica como c(y) =
1 ˆ ξ(ρy ) × L(y1 , ..., yn | ρy )dρy
La funci´ on K se llama funci´ on n´ ucleo (o kernel ) y, en general, es una funci´ on de densidad continua, unimodal y sim´etrica alrededor de 0. El par´ametro hB se conoce como par´ametro de suavizamiento. Hollander & Wolfe (1999) muestra las densidades Kernel m´ as usadas. En este art´ıculo no se consider´o la metodolog´ıa bootstrap con a priori no informativa dado que sus resultados son muy similares al m´etodo bootstrap cl´asico Shao & Tu (1995).
2.2. Inferencia bayesiana sobre la proporci´ on Para realizar estimaciones de un par´ ametro mediante inferencia bayesiana, se requiere de una muestra aleatoria obtenida a partir de una distribuci´on posterior dada. En este caso, se genera una muestra aleatoria ρ1y , ρ2y , ..., ρm es de la y a trav´ distribuci´ on posterior ξ (ρy | y) de la siguiente manera 1 : on con soporte (0, 1), 1. Generar p1 , p2 , ..., pm valores a partir de una distribuci´ sin p´erdida de generalidad, la distribuci´on uniforme (0, 1). 2. Evaluar cada pi en ξ (ρy | y), con i = 1, 2, ..., m, obteniendo as´ı, la probabilidad de selecci´ on de cada valor. 3. Por u ´ ltimo, la muestra requerida ρ1y , ρ2y , ..., ρm y se obtiene tomando una muestra con reemplazo de p1 , p2 , ..., pm con probabilidad de selecci´on ξ (pi | y) para i = 1, 2, ..., m. Las funciones com´ unmente utilizadas para minimizar dichos errores son: la funci´ on de p´erdida cuadr´ atica, funci´ on de p´erdida en error absoluto y la funci´ on escalonada Box & Tiao (1973).
2.2.1. Funci´ on de p´ erdida cuadr´ atica para la proporci´ on 2
Se considera una cierta funci´ on L (ρy ρc ) = (ρc − ρy ) la cual se denotar´a como funci´ on de p´erdida cuadr´ atica asociada al par´ametro ρy , y sea ρc la estimaci´on considerada para ρy . Sean ρ1y , ρ2y , ..., ρm no m geney una muestra aleatoria de tama˜ rada a trav´es de la distribuci´ on posterior ξ (ρy | y) mediante el m´etodo Metropolis - Hastings. La diferencia entre ρc y el valor real de ρy se hace m´ınima si pc se 1 Con dicha muestra, lo que se pretende es estimar el par´ ametro ρy que considera un error de estimaci´ on el cual debe ser minimizado. Para lograr lo anterior, se debe disponer de una funci´ on que relacione la estimaci´ on del par´ ametro ρy con el valor real de este.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
36
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
estima empleando la siguiente expresi´on: Ď c = E (Ď y | y) =
+â&#x2C6;&#x17E;
â&#x2C6;&#x2019;â&#x2C6;&#x17E;
Ď y Ξ (Ď y | y) dĎ y
(5)
on emp´ĹriEsta integral se calcula n´ umericamente puesto que Ξ (Ď y | y) es una funci´ ca. Por otro lado, la estimac´Ĺ´on v´Ĺa Monte Carlo de la media posterior es m Ď c = Ď y =
j=1
Ď jy
m
(6)
y un error est´andar estimado es:
seĎ c =
2 m j j=1 Ď y â&#x2C6;&#x2019; Ď c (m â&#x2C6;&#x2019; 1) m
(7)
En consecuencia, Ď c es el estimador puntual de Ď y cuando tomamos como funci´on de p´erdida la funci´ on de p´erdida cuadr´ atica.
3. Estudio de simulaci´ on Los escenarios de simulaci´ on se dispusieron similares a los realizado en el trabajo de Chen et al. (2010) para as´Ĺ poder comparar los resultados entre las estimaciones v´Ĺa m´etodo cl´ asico, el estimador BPSP y las estimaciones hechas por la metodolog´Ĺa propuesta en este trabajo.
3.1. DiseË&#x153; no de la simulaci´ on El estudio de simulaci´on pretende evaluar el comportamiento de la metodolog´Ĺa propuesta y compararla con el procedimiento cl´ asico y el estimador BPSP en la estimaci´ on de una proporci´on en muestreo probabil´Ĺstico. El procedimiento consiste en simular dos poblaciones artiďŹ ciales de tamaË&#x153; no 2000, tambi´en se genera una medida de tamaË&#x153; no X para implementar un diseË&#x153; no de muestreo con probabilidad proporcional al tamaË&#x153; no. Los valores que toma esta variable son los enteros consecutivos 71, 72, 73, ..., 2070. Por otro lado, las probabilidades de inclusi´on en la poblaci´ on son calculadas proporcionales a la variable tamaË&#x153; no, Ď&#x20AC;i = n Ă&#x2014; xi / xi , con xi = 71, 71, ..., 2070.. Luego de esto, son generados datos Z de una distribuci´on normal con estructura de media f (Ď&#x20AC;) y varianza constante igual a 0.04. Para el proceso de simularon se tomaron dos estructuras de medias: una funci´on de incremento lineal f (Ď&#x20AC;i ) = 3Ď&#x20AC;i y una funci´ on exponencial f (Ď&#x20AC;i ) = exp(â&#x2C6;&#x2019;4, 64 + 26Ď&#x20AC;i ). En la ďŹ gura 1 se muestran las distribuciones normales con las dos estructuras de medias. Comunicaciones en Estad´Ĺstica, junio 2014, Vol. 7, No. 1
37
Inferencia Bootstrap bayesiana para una Proporci´ on
exp(â&#x2C6;&#x2019; 4.64 + 26Ď&#x20AC;)
Z â&#x2C6;&#x2019;0.1
â&#x2C6;&#x2019;0.1
0.0
0.0
0.1
Z
0.2
0.1
0.3
0.2
0.4
3Ď&#x20AC;i
0.00
0.04
0.08
0.00
Ď&#x20AC;i
0.04
0.08 Ď&#x20AC;i
Figura 1: Distribuci´ on normal con estructuras de medias lineal y exponencial. Fuente: elaboraci´ on propia. De otra parte, las variables respuesta binarias Y1 , Y2 , Y3 son generadas como sigue: Y1 es igual a 1 si Z es menor o igual a su percentil 10 y 0 en otro caso. Similarmente, se gener´ an las respuestas Y2 y Y3 usando los percentiles 50 y 90. El objetivo inferencial aqu´Ĺ es la proporci´ on poblacional para Y igual a 1. En cada simulaci´ on, se genera una poblaci´ on ďŹ nita y se calcula la verdadera proporci´ on poblacional, para Y igual a 1. Luego se seleccionan muestras aleatorias, de tamaË&#x153; nos n = 30, 50, 100 , 200 y 500 con probabilidades proporcionales al tamaË&#x153; no (Ď&#x20AC;PT) de cada poblaci´ on y se calcula la proporci´ on estimada Ď Ë&#x2020; cl´ asica y bootstrap bayesiana basada en la funci´ on de p´erdida cuadr´ atica (media posterior). El anterior proceso se repite 1000 veces y se calcula: el sesgo emp´Ĺrico (B), la ra´Ĺz del error cuadr´atico medio (RMSE), las longitudes de los intervalos de credibilidad y de conďŹ anza y las coberturas de los mismos. Sea Ď Ë&#x2020;j una estimaci´on de Ď j basada en la muestra j-´esima, el sesgo emp´Ĺrico y la ra´Ĺz del error cuadr´atico medio son: 1000
B
RM SE
1 (Ë&#x2020; Ď j â&#x2C6;&#x2019; Ď ) 1000 j=1 1 1000 (Ë&#x2020; Ď j â&#x2C6;&#x2019; Ď )2 = 1000 j=1 =
(8)
(9)
Como distribuci´on a priori se tom´ o una distribuci´on beta(ι, β) donde ι toma los valores de ι = 25, 50, 100 y para la obtenci´ on de los valores del par´ ametro β, lo Comunicaciones en Estad´Ĺstica, junio 2014, Vol. 7, No. 1
38
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
40
Aprioris beta
20 0
10
Beta(α,β)
30
β(25, 217) β(50, 442) β(100, 892)
0.05
0.10
0.15
0.20
0.25
ρ
Figura 2: Distribuciones a priori para ρ = 0.1. Fuente: elaboraci´ on propia. que se realiza es: 1. Fijar α. 2. Igualar la expresi´on de la media de una distribuci´on beta (α , β) con los valores α−1 , donde ρy = 0.1 , 0.5 , 0.9. reales de ρy , es decir, ρy = α+β−2 3. Para cada valor de ρy despejar el valor de β. Los valores de α permiten que la distribuci´on beta se concentre en intervalos gradualmente m´ as peque˜ nos, y eso a su vez permita obtener mejores estimaciones de ρy .
3.2. Resultado de la simulaci´ on En este apartado se muestran las tablas que contienen los resultados del proceso de simulaci´on antes descrito, con el fin de comparar la metolog´ıa cl´asica para la estimaci´ on de la proporci´ on, el estimador BPSP y la metodolog´ıa aqu´ı propuesta. El programa de simulaci´ on se desarroll´o en el paquete estad´ıstico R versi´ on 2.13.0 (R Core Team 2013). En la Tabla 1 se compara el sesgo, la RMSE, las longitudes de los intervalos y sus coberturas para las metodolog´ıa de estimaci´on cl´asica y la bootstrap bayesiana Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporci´ on
39
Tabla 1: Sesgo, RMSE, cobertura ( %) y nivel de confianza con una estructura de media lineal. Fuente: elaboraci´ on propia. n ρ M´etodo A priori Sesgo REMC Cobertura Amplitud 30 0.1 B.B. Beta (25, 225) -0.00663 0.00025 87.0 0.06541 Beta (50, 450) -0.00540 0.00020 89.2 0.04777 Beta (100, 900) -0.00338 0.00009 91.8 0.03490 Cl´asico 0.00894 0.00494 83.0 0.20805 0.5 Beta (25, 25) 0.00019 0.00048 99.0 0.25094 Beta (50, 50) 0.00010 0.00014 99.0 0.18586 Beta (100, 100) 0.00015 0.00004 99.0 0.13440 Cl´asico 0.00260 0.01263 87.0 0.35525 0.9 Beta (225, 25) 0.00193 0.00003 99.4 0.06957 Beta (450, 50) 0.00152 0.00002 99.8 0.05038 Beta (900, 100) 0.00080 0.00001 99.0 0.03621 Cl´asico -0.00320 0.00394 81.4 0.18358 50 0.1 B.B. Beta (25, 225) -0.00604 0.00021 92.0 0.06558 Beta (50, 450) -0.00385 0.00012 94.0 0.04859 Beta (100, 900) -0.00230 0.00006 95.6 0.03530 Cl´asico 0.00625 0.00414 81.2 0.17462 0.5 Beta (25, 25) -0.00134 0.00052 99.0 0.24102 Beta (50, 50) 0.00123 0.00018 99.0 0.18132 Beta (100, 100) 0.00044 0.00004 99.0 0.13301 Cl´asico 0.00575 0.00782 87.8 0.28739 0.9 Beta (225, 25) 0.00277 0.00005 98.0 0.06791 Beta (450, 50) 0.00153 0.00002 99.0 0.05001 Beta (900, 100) 0.00094 0.00001 99.2 0.03605 Cl´asico 0.00011 0.00236 83.0 0.14124 100 0.1 B.B. Beta (25, 225) -0.00381 0.00012 96.4 0.06708 Beta (50, 450) -0.00225 0.00005 97.6 0.04954 Beta (100, 900) -0.00164 0.00003 97.0 0.03567 Cl´asico 0.00162 0.00231 79.6 0.14307 BPSP 0.00800 0.04720 91.0 0.5 Beta (25, 25) 0.00146 0.00059 99.0 0.22306 Beta (50, 50) -0.00080 0.00021 99.0 0.17336 Beta (100, 100) 0.00044 0.00007 99.0 0.12949 Cl´asico 0.00302 0.00470 85.6 0.20770 BPSP -0.00520 0.04770 95.6 0.9 Beta (225, 25) 0.00226 0.00003 99.4 0.06598 Beta (450, 50) 0.00083 0.00001 99.0 0.04939 Beta (900, 100) 0.00072 0.00001 99.8 0.03576 Cl´asico 0.00231 0.00088 84.0 0.09108 BPSP -0.00290 0.02350 94.5 -
en tama˜ nos de muestra n = 30 y 50, cuando el tama˜ no de muestra aumenta a Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
40
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
100 se incluye la metodolog´ıa BPSP en la comparaci´ on. En forma an´aloga, en la Tabla 2 se realizan las comparaciones, pero esta vez con tama˜ nos de muestras n = 200 y 500. En ambas tablas se maneja una estructura de media lineal y para cada escenario se var´ıan los par´ametros de la distribuci´on beta (la cual hace el papel de la distribuci´ on a priori). Tabla 2: Sesgo, RSME, cobertura ( %) y nivel de confianza con una estructura de media lineal. Fuente: elaboraci´ on propia. n ρ M´etodo A priori Sesgo REMC Cobertura Amplitud 200 0.1 B.B. Beta (25, 225) -0.00220 0.00005 98.4 0.06726 Beta (50, 450) -0.00151 0.00003 98.4 0.04966 Beta (100, 900) -0.00080 0.00001 99.4 0.03599 Cl´asico 0.00111 0.00153 83.6 0.11949 BPSP 0.00510 0.03200 93.8 0.5 Beta (25, 25) 0.00392 0.00061 99.0 0.19618 Beta (50, 50) 0.00302 0.00026 99.0 0.16006 Beta (100, 100) 0.00033 0.00009 99.0 0.12351 Cl´asico 0.00076 0.00217 88.4 0.14852 BPSP -0.00170 0.03280 94.9 0.9 Beta (225, 25) 0.00167 0.00003 99.0 0.06088 Beta (450, 50) 0.00117 0.00001 99.0 0.04683 Beta (900, 100) 0.00063 0.00000 99.0 0.03489 Cl´asico 0.00279 0.00029 89.0 0.05728 BPSP -0.00120 0.01550 95.3 500 0.1 B.B. Beta (25, 225) 0.00041 0.00002 99.6 0.06756 Beta (50, 450) -0.00011 0.00001 99.6 0.04960 Beta (100, 900) 0.00005 0.00001 99.0 0.03617 Cl´asico 0.00873 0.00085 86.8 0.09098 0.5 Beta (25, 25) 0.02158 0.00085 99.4 0.14945 Beta (50, 50) 0.01690 0.00051 99.8 0.13109 Beta (100, 100) 0.01221 0.00026 99.0 0.10813 Cl´asico 0.03117 0.00171 70.0 0.08885 0.9 Beta (225, 25) 0.00627 0.00006 99.8 0.04736 Beta (450, 50) 0.00444 0.00003 99.0 0.03947 Beta (900, 100) 0.00270 0.00001 99.0 0.03145 Cl´asico 0.00986 0.00017 66.0 0.02844 En general, las estimaciones de ρ obtenidas mediante la metodolog´ıa bootstrap bayesiana son superiores en las dos tablas en cuanto a un menor RECM, mayor cobertura, una menor amplitud, un sesgo peque˜ no en comparaci´on con el estimador BPSP y tan peque˜ no como los obtenidos con el π-estimador cl´ asico. Cabe resaltar que algunos escenarios la amplitud de los intervalos bayesianos fueron ligeramente m´ as grandes que la amplitud de los intervalos cl´ asicos, pero eso es algo menor en comparaci´on con la ganancia en cobertura, sesgos y RMSE. En las Tablas 3 y 4 se presentan de forma similar las comparaciones realizadas en Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporci´ on
41
Tabla 3: Sesgo, RSME, cobertura ( %) y nivel de confianza con una estructura de media exponencial. Fuente: elaboraci´ on propia. n ρ M´etodo A priori Sesgo REMC Cobertura Amplitud 30 0.1 B.B. Beta (25, 225) -0.00627 0.00024 90.1 0.06571 Beta (50, 450) -0.00459 0.00015 90.9 0.04830 Beta (100, 900) -0.00475 0.00016 91.0 0.04811 Cl´asico 0.00336 0.00443 81.2 0.18997 0.5 Beta (25, 25) -0.00014 0.00048 99.8 0.25077 Beta (50, 50) 0.00061 0.00016 99.9 0.18540 Beta (100, 100) 0.00013 0,00005 99.0 0.13452 Cl´asico 0.00631 0.01285 85.7 0.35371 0.9 Beta (225, 25) 0.00297 0,00005 99.0 0.06862 Beta (450, 50) 0.00161 0,00002 99.4 0.05037 Beta (900, 100) 0.00101 0,00001 99.7 0.03612 Cl´asico -0.00521 0.00453 81.0 0.19195 50 0.1 B.B. Beta (25, 225) -0.00586 0.00021 92.2 0.06538 Beta (50, 450) -0.00337 0.00010 95.4 0.04882 Beta (100, 900) -0.00244 0.00007 96.2 0.03533 Cl´asico -0.00309 0.00252 80.8 0.14826 0.5 Beta (25, 25) 0.00015 0.00047 99.0 0.24136 Beta (50, 50) 0.00066 0.00019 99.0 0.18110 Beta (100, 100) 0.00010 0.00004 99.0 0.13299 Cl´asico 0.00066 0.00712 89.0 0.28565 0.9 Beta (225, 25) 0.00312 0.00007 96.6 0.06810 Beta (450, 50) 0.00191 0.00003 98.4 0.04986 Beta (900, 100) 0.00118 0.00001 99.2 0.03595 Cl´asico 0.00130 0.00316 77.2 0.15125 100 0.1 B.B. Beta (25, 225) -0.00270 0.00006 98.0 0.06711 Beta (50, 450) -0.00166 0.00003 98.6 0.04948 Beta (100, 900) -0.00087 0.00001 99.2 0.03582 Cl´asico 0.00172 0.00168 82.0 0.11960 BPSP 0.01700 0.05180 90.8 0.5 Beta (25, 25) 0.00214 0.00054 99.0 0.22242 Beta (50, 50) 0.00094 0.00020 99.0 0.17359 Beta (100, 100) -0.00028 0.00007 99.0 0.12962 Cl´asico 0.00462 0.00412 89.4 0.20613 BPSP -0.00140 0.04700 91.1 0.9 Beta (225, 25) 0.00242 0.00004 99.0 0.06664 Beta (450, 50) 0.00175 0.00002 99.6 0.04914 Beta (900, 100) 0.00078 0.00001 99.6 0.03585 Cl´asico -0.00039 0.00143 83.6 0.10910 BPSP -0.00100 0.01230 93.0 -
las tablas anteriores, solo que, en este caso, la estructura de media es exponencial. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
42
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
Los resultados obtenidos son muy similares a los anteriores, lo que implica que el cambio de estructura de media no los afecta en gran forma. Tabla 4: Sesgo, RSME, cobertura ( %) y nivel de confianza con una estructura de media exponencial. Fuente: elaboraci´ on propia. n ρ M´etodo A priori Sesgo REMC Cobertura Amplitud 200 0.1 B.B. Beta (25, 225) -0.00178 0.00004 99.0 0.06722 Beta (50, 450) -0.00071 0.00001 99.8 0.04995 Beta (100, 900) -0.00059 0.00001 99.8 0.03592 Cl´asico 0.00246 0.00124 85.6 0.10729 BPSP 0.01340 0.03600 92.5 0.5 Beta (25, 25) 0.00382 0.00051 99.0 0.19689 Beta (50, 50) 0.00377 0.00022 99.0 0.15959 Beta (100, 100) 0.00108 0.00010 99.0 0.12383 Cl´asico 0.00403 0.00232 85.4 0.14884 BPSP 0.00001 0.03210 93.8 0.9 Beta (225, 25) 0.00247 0.00004 99.0 0.05921 Beta (450, 50) 0.00141 0.00002 99.0 0.04610 Beta (900, 100) 0.00076 0.00001 99.0 0.03457 Cl´asico 0.00343 0.00028 86.2 0.05222 BPSP -0.00007 0.00800 94.5 500 0.1 B.B. Beta (25, 225) -0.00007 0.00003 99.8 0.06744 Beta (50, 450) 0.00008 0.00001 99.8 0.04970 Beta (100, 900) 0.00013 0.00001 99.9 0.03618 Cl´asico 0.01173 0.00101 87.8 0.09510 0.5 Beta (25, 25) 0.02444 0.00093 99.4 0.14864 Beta (50, 50) 0.01741 0.00054 99.6 0.13042 Beta (100, 100) 0.01304 0.00028 99.0 0.10834 Cl´asico 0.03306 0.00182 63.8 0.08829 0.9 Beta (225, 25) 0.00728 0.00008 99.4 0.04629 Beta (450, 50) 0.00534 0.00004 99.8 0.03858 Beta (900, 100) 0.00309 0.00001 99.8 0.03114 Cl´asico 0.01094 0.00018 59.4 0.02700
4. Ejemplo de la metodolog´ıa Con el fin de ilustrar la implementaci´ on de la metodolog´ıa aqu´ı propuesta se examin´ o la base de calif que est´ a disponible en la librer´ıa pps (Gambino 2012) del software estad´ıstico R Core Team (2013), la cual contiene el registro de 1077 observaciones y 6 variables (condado, poblaci´ on, blanco, amerindio, hispano y estrato). El inter´es consiste en estimar mediante el π-estimador y la metodolog´ıa bayesiana la proporci´on de blanco (Y ), que superan el lumbral de 148. El valor real, dada la base de datos, equivale al 5.1067 %. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
43
Inferencia Bootstrap bayesiana para una Proporci´ on
Se realiz´o la extracci´ on de una muestra probabil´ıstica s con un dise˜ no de muestreo probabil´ıstico proporcional al tama˜ no de la variable auxiliar (dise˜ no πP T ) por estrato (o grupos). Como informaci´ on auxiliar se utiliz´o el logaritmo de la variable poblaci´ on (Log pob), donde las probabilidades de inclusi´ on de primer y segundo orden fueron calculadas como en S¨ arndal et al. (1992). Se decide dividir las observaciones en 2 grupos (o estratos) de acuerdo a Log pob, para lo cual se c´alculo la matriz de distancias y se implement´o la funci´on dist de R con el m´etodo de ‘‘euclidean’’. Los resultados obtenidos de la clasificaci´ on indican que estos grupos tienen los tama˜ nos de 900 y 177, los cuales denotaremos como G1 y G2 respectivamente. El tama˜ no de la muestra considerado es de n = 30 observaciones que equivalen a aproximadamente el 2.78 % de la poblaci´ on. Para la obtenci´ on de la muestra se realiz´o una asignaci´on proporcional al tama˜ no de cada grupo, obteni´endose 25 y 5 observaciones para los G1 y G2 respectivamente. Finalmente, a fin de realizar la seleci´on de las muestras se emplea la funci´ on S.piPS del paquete TeachingSampling (Guti´errez 2012). Para la muestra seleccionada se estima la proporci´ on mediante el π-estimador; siendo este ρˆ = 0.0669 (6.69 %), con un intervalo de confianza (0 , 0.1725). Por otro lado, para estimar la proporci´ on mediante la t´ecnica bootstrap bayesiana, se toman 500 muestras con reemplazo de la muestra original s, cada muestra de ∗ tama˜ no 30, esto es, s∗b = (y1∗ , y2∗ , . . . , y30 ), con b = 1, 2, ..., 500 (muestra bootstrap) ∗ ∗ y con estas muestras calcular ρˆ1 , ρˆ2 , ..., ρˆ∗500 . (v´ease la figura (3)).
0.15 0.10
ρb*
0.20
0.25
^ * Estimación de ρ b
0
100
200
300
400
500
b
Figura 3: Proporciones estimadas en las bootstrap. Fuente: elaboraci´ on propia. Ahora bien, con los 500 valores estimados se calcula la verosimilitud bootstrap 500
ˆ B (ρ | ρˆ) = L
1 K 500 (0.0047) b=1
2 (0.0669) − ρ − ρˆ∗b 0.0047
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
44
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
y para el c´alculo de la distribuci´on posterior de ρ, sin p´erdida de generalidad, α−1 fijemos α = 25; entonces al resolver ρ = α+β−2 se obtiene que β = 457 por tanto se toma como distribuci´on a priori la distribuci´ on beta (25 , 457), la cual es: ξ (ρ) ≡
beta(25 , 457) ∝ ρ24 (1 − ρ)456
Utilizando un Kernel Gausiano la distribuci´on posterior de ρ es el producto de la verosimilitud y la distribuci´on a priori, siendo esto: ˆ B (ρ | ρˆ) · ρ24 (1 − ρ) ξ (ρ | y) ∝ L
456
De forma gr´afica podemos ver esta distribuciones en la figura (4)
0
30
Apriori Beta(25,457)
0.05
0.10
0.15
0.20
0.25
ρ
0
200
Posteriori ξ(ρ y)
0.05
0.10
0.15
0.20
0.25
ρ
Figura 4: Distribuciones a priori y a posteriori. Fuente: elaboraci´ on propia. Como es claro, la distribuci´on porterior no se tiene de manera expl´ıcita (dado que la verosimilitud fue aproximada v´ıa Kernel), por tanto, la media posterior, el intervalo de credibilidad y su longitud son calculados de manera emp´ırica, siendo estos respectivamente: 0.0514, (0.032 , 0.071) y 0.038. A manera de conclusi´ on se puede observar que el intervalo de credibilidad tiene una menor longitud en comparaci´ on con el intervalo de confianza. Por otro lado, la estimaci´on puntual de ρ utilizando la funci´ on de p´erdida cuadr´ atica esta mucho m´ as cercana al verdadero valor en comparaci´ on con el π-estimador. Ahora bien, dado que en las simulaci´on se pudo observar que el π-estimador no dio buenos resultados en muestras peque˜ nas, se decide aumentar el tama˜ no de Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
45
Inferencia Bootstrap bayesiana para una Proporci´ on
muestra a 200 y poner a prueba las dos metodolog´ıas. Los resultados se muestran en la Tabla (5).
π−estimador B.B
ρˆ 0.026 0.046
Intervalo (0.0269, 0.0270) (0.0307, 0.0630)
Longitud 0.0001 0.0322
Tabla 5: Estimaci´ on para una muestra de 200 observaciones. Fuente: elaboraci´ on propia. Se puede observar que el intervalo de credibilidad tiene una mayor longitud en comparaci´ on con el intervalo de confianza, sin embargo este u ´ltimo no contiene al par´ ametro. As´ı mismo podemos observar la estimaci´on puntual de ρ utilizando el πestimador evidenciando que est´a mucho m´ as alejada del valor real que la estimaci´on realizada mediante la metodolog´ıa propuesta, lo que implica nuevamente que las estimaciones realizadas por el m´etodo bootstrap bayesiano son mejores.
5. Conclusiones y recomendaciones El principal hallazgo consiste en que la estimaci´on de la proporci´on, usando teor´ıa bootstrap bayesiana, en todos los escenarios probados es mejor en cuanto a: el sesgo, RMSE, longitud del intervalo y cobertura, frente a la estimaci´ on hecha mediante teor´ıa cl´asica y el estimador BPSP. Esto quiere decir, que con una adecuada elecci´on de la distribuci´ on a priori se pueden encontrar sesgos tan peque˜ no como los obtenidos mediante el π-estimador, y frente al BPSP es mucho menor. Adicional a esto, se tienen menor RMSE, menor longitud y una mayor cobertura frente a las estimaci´ on hecha con la metodolog´ıa cl´asica y mediante el estimador BPSP, aunque se cuenten con tama˜ nos de muestras peque˜ nos. Cabe resaltar que esta t´ecnica no es dif´ıcil de emplear, puesto que el u ´ nico supuesto que requiere es tener informaci´on previa del par´ametro (distribuci´on a priori) para su uso, y el conocimiento previo de una proporci´on a sido bastante estudiado y se han propuesto diferentes metodolog´ıas para la elicitaci´ on de este. Un paso a seguir a este trabajo ser´ıa el caso en el cual se tengan encuestas multiprop´osito y se desee estimar m´ as de una proporci´on a la vez. Adicional a esto, se puede estudiar el comportamiento de la metodolog´ıa propuesta cuando se tienen variables auxiliares en el estudio. Tambi´en se puede implementar esta metodolog´ıa en par´ ametros diferentes a la proporci´on.
Recibido: 21 de enero de 2014 Aceptado: 16 de abril de 2014 Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
46
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
Referencias Box, G. E. P. & Tiao, G. C. (1973), Bayesian Inference in Statistical Analysis, Addison-Wesley, Reading, Massachusetts. Chen, Q., Elliott, M. R. & Little, R. J. (2010), ‘Bayesian penalized spline modelbased inference for finite population proportion in unequal probability sampling’, Survey Methodology 36(1), 23–34. Gambino, J. G. (2012), pps: Functions for PPS sampling. R package version 0.94. *http://cran.r-project.org/package=pps Guti´errez, H. A. (2012), TeachingSampling: Sampling designs and parameter estimation in finite population. R package version 2.0.1. *http://cran.r-project.org/package=TeachingSampling Hollander, M. & Wolfe, D. A. (1999), Nonparametric Statistical Methods, Cambridge: University Press, Unite State of America. Pfeffermann, D. & Royall, R. M. (1982), ‘Balanced samples and robust Bayesian inference in finite population sampling’, Biometrika 69, 401–409. R Core Team (2013), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. *http://www.r-project.org S¨ arndal, C. E., Swensson, B. & Wretman, J. (1992), Model Assisted Survey Sampling, Springer - Verlag, New York. Shao, J. & Tu, D. (1995), The jackknife and Bootstrap, Springer, New York.
A. C´ odigos del ejemplo en R require(MASS); require(hdrcde) ;require(cubature) require(pps) ; require(TeachingSampling) data(calif); head(calif) Y1=ifelse(calif$white<=148,1,0);table(Y1)/1077 Log_pob=log(calif$population) # Variable auxiliar d=dist(Log_pob, method="e",) # distance matrix fit=hclust(d, method="mcquitty") groups=cutree(fit, k=2) groups=factor(groups) levels(groups)=c("G1","G2") table(groups) Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Inferencia Bootstrap bayesiana para una Proporci´ on
47
Y=Y[order(groups)] # Estimaci´ on cuando n=30 n=30 round(table(groups)*n/1077,0) # asignaci´ on proporcional al tama~ noo del grupo groups=groups[order(groups)] pii<-c(Log_pob[groups=="G1"]*25/sum(Log_pob[groups=="G1"]), # Calculo de pi por grupo Log_pob[groups=="G2"]*5/sum(Log_pob[groups=="G2"]))
Y=cbind(Grupos=groups,pii,Y) # Poblaci´ on ordenada seg´ un grupos head(Y) MG1=S.piPS(25,pii[groups=="G1"])# Selecci´ on de la muestra por grupo MG2=S.piPS(5,pii[groups=="G2"]) # muestra obtenida Ym=rbind(Y[MG1[,1],],Y[MG2[,1],]) # estimaci´ on clasica Nest=sum(1/Ym[,2]) num=sum(Ym[,3]/Ym[,2]) pest1=num/Nest Li=pest1-qnorm(0.95)*sqrt(varp(n,Ym[,2],Ym[,3],pii,pest1)) Ls=pest1+qnorm(0.95)*sqrt(varp(n,Ym[,2],Ym[,3],pii,pest1)) # Construcci´ on de la a priori # # # #
alpha=25 beta=(24/0.05)-23 a priori beta(25,457) Estimaci´ on de rho mediante boot
h=Boot(Ym[,c(3,2)],n,pest1,rho=0.1,alpha1=25,betta1=457) c(Li=Li,Ls=Ls,lonc=Ls-Li,pest=pest1,Boot=h) # Estimaci´ on cuando n=200 # repetir secuencia anterior con n=200
# Varianza de la proporcion varp=function(n,pks,ys,pii,pest)\{ # n n´ umero de observaciones
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
48
Cristian Fernando Tellez, Stalyn Yasid Guerrero & Mario Pacheco
# ys= de submuestreo # pii= Probabilidades de inclusi´ on # pest= proporci´ on estimada pij=((n-1)/n)*(pks%*%t(pks))+((n-1)/n^2)*(pks%*%t(pks^2)+ (pks^2%*%t(pks)))-((n-1)/n^3)*pks%*%t(pks)*sum(pii^2) pipj = pks%*%t(pks) Vp = 0 for(i in 1:(n-1)){ for(j in (i+1):n){ Vp = Vp + ((pipj[i,j]-pij[i,j])/pij[i,j])*((ys[i]-pest)/pks[i](ys[j]-pest)/pks[j])^2}} Vp = (sum(1/pks))^(-2)*Vp } # p estimado mediante boot Boot<-function(y,n,pest,alpha1,betta1,rho=0.1,B=500){ booT<-function(y,n){ pos1=sample(1:n,n,replace=T) y1bos=y[pos1,] while(length(which(y1bos[,1]==0))==n){pos1=sample(1:n,n) y1bos=y[pos1,]} Nestbos1=sum(1/y1bos[,2]) numbos1=sum(y1bos[,1]/y1bos[,2]) numbos1/Nestbos1 } pestboot=replicate(B,expr=booT(y,n)) h1=bandwidth.nrd(pestboot) rejilla=seq(0.01,0.99,length=B) poste=0 for(i in 1:B){ x<-(2*pest-rejilla[i]-pestboot)/h1 kernelx=dnorm(x) poste[i]<-1/(h1*B)*sum(kernelx) } apriori=dbeta(rejilla,alpha1,betta1) posteriori=poste*apriori phi1<-approxfun(rejilla,posteriori) consta1<-adaptIntegrate(phi1,0.01,0.99)$integral posteriori1<-(1/consta1)*phi1(rejilla) muesb=sample(rejilla,1000, prob=posteriori1, replace=T) p.est=mean(muesb) # estimacion boot proporcion intcre1=hdr(muesb,95) # intervalo de credibilidad cont<-ifelse(rho>intcre1$hdr[1] & rho<intcre1$hdr[2],1,0) Lon.IC=(intcre1$hdr[2]-intcre1$hdr[1]) c(p.est=p.est,Conteo=cont,LonICboot=Lon.IC) }
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 49–66
Estudio de simulaci´ on para comparar varios estimadores de varianza en el marco de la regresi´ on no param´ etrica A simulation study for the comparison of several variance estimators in the nonparametric regression framework Alvaro Jos´e Fl´ oreza
Javier Olayab
alvaro.florez@correounivalle.edu.co
avier.olaya@correounivalle.edu.co
Resumen En el presente trabajo se prueban varios estimadores de varianza basados en diferencias, en el marco de la regresi´on no param´etrica. Dichos estimadores tienen la principal ventaja de no depender de los par´ametros de suavizaci´on, adem´ as de que son poco exigentes en t´erminos computacionales. Se usan principalmente estimadores basados en diferencias ordinarias y basados en las diferencias o´ptimas de Hall. Se crean escenarios utilizando diferentes funciones de regresi´ on, tama˜ nos de muestra y distribuciones de los errores y se introduce el uso de la distribuci´ on semi-normal para probar los estimadores de varianza, en casos de distribuciones asim´etricas de los errores. Los resultados parecen apoyar la idea de que los estimadores basados en diferencias o´ptimas de Hall no son mejores en todos los escenarios planteados. Palabras clave: estimadores basados en diferencias, diferencias ordinarias, diferencias o´ptimas, distribuci´ on semi-normal. Abstract We test several difference-based variance estimators in the nonparametric regression model. These estimators have the main advantage of not depending on the smoothing parameters. Furthermore, they also show low computational demand. We mainly use estimators based on ordinary differences, along with estimators based on Hall’s optimal differences. We set scenarios using some regression functions, some sample sizes, and some error distributions. In particular we bring in the use of the half-normal distribution to test the variance estimators under some a Profesor
b Profesor
auxiliar. Escuela de Estad´ıstica, Universidad del Valle, Colombia. titular. Escuela de Estad´ıstica, Universidad del Valle, Colombia.
49
50
Alvaro Jos´ e Fl´ orez & Javier Olaya
asymmetric error distributions. Results seem to support the idea that the Hall’s optimal differences estimators not perform better than the others on all sets of scenarios. Keywords: Difference-based estimators, ordinary differences, optimal differences, half-normal distribution.
1. Introducci´ on La estimaci´on de una funci´ on f poblacional por medio de modelos de regresi´on ha sido ampliamente estudiada durante mucho tiempo y presenta una gran variedad de herramientas estad´ısticas, de las cuales la modelaci´ on param´etrica es la que m´as ha sido desarrollada y entendida (Draper & Smith 1966, Draper & Smith 1998). Sin embargo, hay muchos casos donde estos tipos de modelos no son recomendables, ya sea por el incumplimiento de uno o m´ as de los supuestos, o por la falta de informaci´on que se tenga sobre la relaci´on funcional de los datos. Lo anterior hace que la utilizaci´on de m´etodos de regresi´on no param´etrica sean una buena opci´ on para la estimaci´ on de la funci´ on f , puesto que estos m´etodos son menos exigentes, especialmente en los supuestos, que su contraparte param´etrica (Eubank 1998, Altman 1992, Cleveland 1979). Dentro del estudio de la regresi´ on no param´etrica se han presentado grandes avances en las u ´ ltimas d´ecadas, debido principalmente a los enormes progresos tecnol´ogicos que han cubierto la gran demanda computacional que dichos m´etodos exigen, donde se han propuesto una variedad de herramientas y t´ecnicas para el modelamiento de f , as´ı como tambi´en un n´ umero considerable de estimadores de varianza. Puesto que este par´ametro no puede ser estimado de la misma forma como se hace en la regresi´on param´etrica, debido a que las t´ecnicas de suavizaci´on producen estimaciones sesgadas de las respuestas, pues lo anterior llevar´ıa a una sobreestimaci´on de la varianza (Hall et al. 1990, Hall & Marron 1990, Gasser et al. 1986, Dette et al. 1998, Seifert & Gasser 1993, Buckley et al. 1988). Dada la importancia de la estimaci´on la varianza de los errores, este trabajo busca documentar algunos de los estimadores de varianza que se han desarrollado, y que se usan con m´as frecuencia, para los modelos de regresi´ on no param´etrica. Tambi´en se pretende mostrar el comportamiento que presentan los estimadores estudiados bajo situaciones diferentes, y as´ı poder identificar en qu´e casos es m´as conveniente el uso un estimador sobre los dem´ as. As´ı, los escenarios donde se ponen a prueba los estimadores resultan de combinar distintas funciones de regresi´on con diferentes distribuciones de los errores y diferentes tama˜ nos de muestra. De otro lado, los autores que proponen los estimadores han conducido sus propias simulaciones para comparar los que est´ an proponiendo con los dem´ as. Sin embargo, persisten diferencias de opini´ on sobre cu´ales son mejores y en qu´e casos. Este estudio se propone como meta conducir un estudio de simulaci´on en el cual los investigadores (Gasser et al. 1986, Hall et al. 1990, Carter & Eagleson 1992, Brown & Levine 2007) que han propuesto los estimadores que se comparan no intervienen Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
51
en la construcci´on de los escenarios de simulaci´on, ni en la formulaci´on de las conclusiones. Se trata entonces de un estudio independiente que busca nuevas luces sobre el uso de los estimadores bajo diferentes escenarios.
2. Antecedentes Siempre que se hace una propuesta para un estimador de varianza, en el modelo de regresi´on no param´etrico, es natural pensar que es necesario ponerlo a prueba de alguna forma para que se puedan ver sus ventajas y desventajas frente a los otros estimadores que han sido previamente desarrollados. Este tipo de comparaciones se conducen generalmente estudiando las propiedades te´ oricas de los estimadores y evalu´andolas por simulaci´on. A continuaci´on se presentan algunos art´ıculos donde se ha hecho alg´ un tipo de comparaci´ on, ya sea te´ orica o pr´actica, de los estimadores que se utilizaron en este estudio: el estimador de Rice (Rice 1984) y los estimadores basados en diferencias ordinarias y en diferencias o´ptimas de Hall, Kay y Titterington (Hall et al. 1990). La primera comparaci´ on de los estimadores basados en diferencias fue hecha en la presentaci´ on del estimador de Gasser, Sroka y Jennen-Steinmetz (estimador GSJS) (Gasser et al. 1986), quienes compararon el estimador de Rice con un estimador propuesto por Wahba (1978) y con el estimador GSJS. Dicha comparaci´on fue hecha por medio de simulaciones, teniendo en cuenta cambios en la funci´ on poblacional, el tama˜ no de muestra y la varianza de los errores; all´ı se encontr´o que el sesgo en todos los casos es siempre positivo y es proporcionalmente m´as grande para tama˜ nos de muestra y varianza peque˜ nos. Adem´ as, de acuerdo con sus autores, el sesgo del estimador GSJS es mucho m´as peque˜ no que el de los otros dos estimadores. Hall et al. (1990) presentan el estimador de varianza basado en diferencias en forma general y adem´ as se hace referencia a tres m´etodos de asignaci´on para las diferencias, llamados asignaci´on ordinaria, spike y ´optima de Hall, siendo estas dos u ´ ltimas propuestas por Hall et al. (1990). A fin de hacer las comparaciones Hall propone un Error Cuadr´atico Medio (ECM) asint´otico para cada uno de estos estimadores, el cual solo depende del factor de la varianza, mientras que el componente del sesgo se considera insignificante. En consecuencia el ECM asint´otico es independiente de la funci´ on de regresi´ on f . Luego de encontrar el ECM de cada uno, se procedi´ o a calcular la eficiencia te´orica de estos estimadores, de orden 2 al 5. Se encontr´ o que los estimadores basados en diferencias o´ptimas de Hall y los basados en diferencias spike presentaban incrementos en la eficiencia al aumentar el orden de los estimadores. Ocurri´ o lo contrario con el estimador basado en diferencias ordinarias, siendo el primero de estos estimadores el que presentaba la mayor eficiencia en todos los casos (Hall et al. 1990, p. 525). Dette et al. (1998) redefinen el ECM de estos estimadores y muestran que el ECM depende no solamente del componente de la varianza, sino tambi´en de la compoComunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
52
Alvaro Jos´ e Fl´ orez & Javier Olaya
nente del sesgo. En esta investigaci´ on se hizo una comparaci´on bajo simulaciones de los ECM te´ oricos de los estimadores basados en diferencias ordinarias y ´optimas de Hall bajo funciones de regresi´on distintas (Dette et al. 1998, p.759-763). De acuerdo con Dette et al. (1998), en pocos casos los estimadores basados en diferencias o´ptimas de Hall presentaban ECM inferiores a los de los estimadores basados en diferencias ordinarias, conclusiones que contradicen las formuladas en Hall et al. (1990).
3. Modelo de regresi´ on no param´ etrico Un modelo de regresi´on, sea param´etrico o no param´etrico, pretende estimar una funci´ on poblacional tomando informaci´ on de n pares de observaciones de una variable Y y de una variable X (en nuestro caso ambas continuas), entre las cuales se presume la existencia de cierta relaci´ on, tal como se expresa en la ecuaci´on (1). yi = f (xi ) + εi ,
i = 1, 2, · · · , n
(1)
Donde Y se conoce como variable respuesta y X como variable predictora, explicativa o covariable. Los pares (xi , yi ) son un conjunto de n observaciones de X y Y . Al conjunto de valores de X se le conoce habitualmente como puntos del dise˜ no. f es la funci´ on de regresi´ on o curva de regresi´on y los εi son los llamados errores, que son variables aleatorias no observables que se asumen independientes y que satisfacen que E(εi ) = 0 y V (εi ) = σ 2 < ∞. Este art´ıculo se refiere a la estimaci´on de σ 2 , en el caso en que la funci´ on de regresi´ on f se estime por m´etodos de suavizaci´on. La principal diferencia que existe entre la regresi´on param´etrica y la no param´etrica, radica en que en la regresi´on param´etrica, el investigador debe suponer la forma de la funci´ on de regresi´ on y solamente desconoce los valores de los par´ ametros que componen la funci´on. Mientras que, en el a´mbito no param´etrico, no se supone a priori, un comportamiento de la funci´on de regresi´ on f poblacional. En cambio, la forma de la funci´on estimada se crea a partir del comportamiento de los mismos datos. Por lo tanto, la regresi´ on no param´etrica se considera como una colecci´on de t´ecnicas para ajustar curvas donde se tiene poco conocimiento a priori de su forma de f . Dentro de la teor´ıa de la regresi´on no param´etrica, se debe asumir que f es suave, lo que quiere decir, que si se desea estimar la funci´ on f en un punto x, se espera que las observaciones yi asociadas a los xi cercanos a x, posean informaci´on de f en x. Lo cual indica que es posible promediar de alguna forma las respuestas yi m´ as cercanas al punto donde se estime f (x). En el marco de la regresi´ on no param´etrica esto es presentado por Eubank (1998) como suavizaci´on. Formalmente, se asume que f es una funci´ on cuadrado integrable que tiene dos derivadas continuas. Si se denota W22 al espacio de todas las funciones que satisfacen estas condiciones, se dice que f es suave si pertenece a W22 . Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
53
Para la estimaci´ on de f se encuentran muchos m´etodos de regresi´on no param´etrica en la literatura, donde los suavizadores usados com´ unmente son los estimadores lineales para regresiones simples, es decir con una sola covariable. Los estimadores del tipo lineal de f tienen la forma dada por la ecuaci´on (2). fˆ(xi ) =
n
K(x, xi ; λ)yi
i = 1, 2, · · · , n
(2)
i=1
no Donde K(x, xi ; λ) es una colecci´on de pesos que dependen de los puntos del dise˜ xi y de un λ > 0, el cual es denominado par´ ametro de suavizaci´ on o ancho de banda, y determina el grado de suavizaci´on a los datos, el cual es definido por el usuario (Eubank 1998, Levine 2006, Olaya 2012). Se consideran lineales porque para un λ dado, los estimadores resultan ser funciones lineales de las respuestas yi . Dentro de los m´etodos de suavizaci´on en modelos de regresi´on con una sola variable de predicci´on se encuentran: la suavizaci´ on kernel, la regresi´ on LOESS y la suavizaci´on por splines.
4. Estimaci´ on de la varianza en un modelo de regresi´ on no param´ etrico En un modelo lineal la suma de cuadrados de los errores brinda las bases para la estimaci´on de la varianza de los errores, por lo cual en un enfoque no param´etrico se puede pensar que la estimaci´ on se podr´ıa hacer de forma an´aloga. No obstante, realizar la estimaci´on de esta forma no es v´ alido debido a la presencia del sesgo de fˆ (Bowman & Azzalini 1997), el cual tendr´ a el efecto de aumentar el valor de la suma de cuadrados de los errores y por lo tanto sobreestimar el par´ametro de varianza. Por esta raz´ on, dentro del contexto de la regresi´on no param´etrica existe un n´ umero considerable de estimadores de σ 2 , los cuales pueden ser considerados por separado en dos grupos. En el primer grupo se encuentran los estimadores que dependen del par´ ametro de suavizaci´ on, los cuales realizan la estimaci´on de la varianza bas´andose en la suma de cuadrados de los errores de un ajuste no param´etrico de f , por medio de un m´etodo de suavizaci´on como Kernel o Splines. Algunos de estos estimadores son el estimador de Hall & Marron (1990), que est´ a basado en suavizaci´on Kernel, y los estimadores de Wahba (1978) y de Buckley et al. (1988) que est´an basados en suavizaci´on Spline. El segundo grupo est´a conformado por los estimadores basados en diferencias, los cuales se apoyan en las respuestas yi asociadas a una vecindad predeterminada de x, estos estimadores tienen la ventaja de no depender expl´ıcitamente del par´ ametro de suavizaci´on. En este tipo de estimadores se asume el modelo de regresi´on de la ecuaci´on 1, donde f es una funci´ on desconocida y los errores εi se asumen independientes e id´enticamente distribuidos con media 0 y varianza σ 2 . Adem´ as, el dise˜ no se encuentra ordenado de la siguiente forma 0 ≤ x1 ≤ x2 ≤ · · · ≤ xn ≤ 1. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
54
Alvaro Jos´ e Fl´ orez & Javier Olaya
Este tipo de estimadores no requieren ning´ un par´ametro de suavizaci´ on. El orden de los estimadores de diferencias viene dado por el n´ umero de observaciones que se relacionan para calcular el residual local. El m´ as simple de estos estimadores fue propuesto por Rice (3) en 1984. Dicho estimador puede presentar algunos problemas debido a que la diferencia (yi ?yi−1 ) puede ser influenciada por las fluctuaciones bruscas que puede presentar la funci´on de regresi´on f , y por lo tanto la estimaci´on de la varianza puede inflarse. 2 σ ˆR =
n
1 (yi − yi−1 )2 2(n − 1) i=2
(3)
Gasser et al. (1986) proponen el estimador GSJS, basado en interpolaci´ on lineal, el cual contrarrestar´ıa el problema del estimador de Rice. Con este prop´osito los autores proponen unos seudo-residuales, los cuales se obtienen tomando una tripleta consecutiva de puntos de dise˜ no xi−1 , xi , xi+1 , a fin de calcular la diferencia que hay entre la l´ınea recta que une las observaciones l´ımites (xi−1 , yi−1 ) y (xi+1 , yi+1 ) y la observaci´ on central (xi , yi ), de la siguiente manera: xi+1 − xi xi − xi−1 yi−1 + yi+1 − yi xi+1 − xi−1 xi+1 − xi−1 = ai yi−1 + bi yi+1 − yi
ε˜i =
(4)
El estimador GSJS est´a definido de la siguiente forma: 2 σGSJ =
n
1 2 2 c ε˜ n − 2 i=3 i i
donde c2i = (a2i + b2i + 1)−1
(5)
Hall et al. (1990) introdujeron los estimadores basados en diferencias en forma general. Una diferencia se define como una sucesi´on de n´ umeros que cumplen con las siguientes condiciones: di = 0, d2j = 1, donde dj = 0 (6) Se asume que dj = 0 para j < −m1 y j > m2 , donde los valores m1 , m2 ≥ 0 y d−m1 dm2 = 0 . El orden de la sucesi´on viene dado por m = m1 + m2 . Por conveniencia en los c´ alculos se toma m1 = 0 y m2 = m. Entonces el estimador de σ 2 basado en estas diferencias tiene la forma dada por la ecuaci´on (7): ⎞2 ⎛ n−m m2 2 1 2 ⎝ = dj yj+k ⎠ (7) σHKT n−m j=0 k=m1 +1
Para la diferencia de primer orden, solamente se tiene un resultado v´ alido para (d0 , d1 ) el cual es d0 = √12 y d1 = −d0 , que se define como la primera diferencia
Y =
yi −yi−1 √ 2
, cuyo estimador coincide con el estimador de Rice (3). Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
55
Cuando se tienen diferencias de o´rdenes superiores, se obtiene m´ as de una soluci´ on para cada orden, por lo cual se tendr´an infinitos estimadores de varianza de la forma (7) por cada orden. Por lo cual determinar el orden m del estimador, as´ı como la escogencia de las diferencias es de gran importancia. Una forma de realizar dicha asignaci´on, es por medio de una diferencia ordinaria que se usa com´ unmente: −1/2 2m m j para 0 ≤ j ≤ m, m j (−1) dj = (8) 0 en otro caso El estimador de la ecuaci´ on (7) con la asignaci´on de la ecuaci´ on (8) se conoce como estimador de diferencias ordinarias. Cuando se obtiene dicho estimador con una diferencia de segundo orden, este coincide con el estimador GSJS (ver ecuaci´on (5)), cuando se tiene un dise˜ no equidistante, los valores de xi se encuentran igualmente espaciados. Hall et al. (1990) proponen una asignaci´on distinta, a la cual denominan diferencias ´optimas de Hall, la cual est´a basada en una definici´on que se propone del ECM de este estimador y la varianza asint´otica (descripci´on formal del teorema en Hall et al. (1990, ap´endice 1)), los cuales son ambos iguales a n−1 τ 2 , donde τ 2 se define en la ecuaci´on (9), en la que kx— denota la kurtosis de ε/σ. ⎛ ⎛ ⎞2 ⎛ ⎞2 ⎞ ⎜ ⎟ ⎝ ⎝ dj dj+k ⎠ ⎠ (9) τ 2 = var(ε2 ) + 2σ 4 dj dj+k ⎠ = σ 4 ⎝k + 2 k =0
j
k
j
Teniendo en cuenta la definici´ on del ECM del estimador de Hall, se observa que este valor solamente depende de los valores de dj , adem´as de la distribuci´on de los errores. En esta definici´on se asume que la funci´ on f tiene un efecto insignificante sobre el error cuadr´ atico medio, ya que la funci´ on f se considera suave y los puntos de dise˜ no xi adyacentes se encuentran cada vez m´as juntos, a medida que el tama˜ no de la muestra aumenta. Se sigue que la asignaci´on o´ptima de los dj se obtiene minimizando la siguiente expresi´on: ⎛ ⎞2 ⎝ dj dj+k ⎠ (10) δ= k =0
j
Para el m-´esimo orden la diferenciaci´ on sucesiva o´ptima y con δ, se tiene que δ = (2m)−1 , por lo tanto: m
dj dj+k = −(2m)−1
(1 ≤ |k| ≤ m)
(11)
j=1
Por lo cual la varianza asint´ otica m´ınima que se puede obtener utilizando una diferencia sucesiva de m-´esimo orden es de n−1 τ 2 , donde: τ 2 = var(ε2 ) + m−1 σ 4
(12)
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
56
Alvaro Jos´ e Fl´ orez & Javier Olaya
En Hall et al. (1990, ap´endice 3), se plantea el siguiente c´ alculo para encontrar las diferencias o´ptimas: Para un m, se observa que: D(d0 , · · · , dm ) =
m 1
2
k=1
⎛ ⎞2 k ⎝ dj dj+k ⎠
(13)
j=0
D(d0 , · · · , dm ) = (d0 dm )2 + (d0 dm−1 + d1 dm ) + · · · + (d0 d1 + · · · + dm−1 dm )2 (14) 1
Adem´as se asume que: s1 = −(d0 + dm ), s22 = 1 − (d20 + d2m ), t1 = ( 12 − 14 s21 − 12 s22 ) 2 . Por lo tanto, d0 = − 12 s1 +t1 , dm = − 12 s1 −t1 . Usando estas f´ormulas para d0 y dm , adem´as de tomar s1 = d1 + · · · + dm−1 y s22 = d21 + · · · + d2m−1 y sustituyendo d0 y dm en la ecuaci´on (14), se obtiene una funci´on que involucra solamente los valores d1 , · · · , dm . A estas expresiones se les incorpora las restricciones de las diferencias (ver ecuaci´on (6)) y se puede obtener los valores que minimizan la ecuaci´on (13) por medio de un m´etodo de optimizaci´ on. En la Tabla 1 se pueden observar las diferencias o´ptimas para estimadores de orden 1 ≤ m ≤ 5: Tabla 1: Diferencias o ´ptimas de Hall para estimadores de orden 1 ≤ m ≤ 5. Fuente: Hall et al. 1990. m (d0 , · · · , dm ) 1 (0.7071, −0.7071) 2 (0.8090, −0.5, −0.309) 3 (0.1942, 0.2809, 0.3832, −0.8582) 4 (0.2708, −0.0142, −0.6909, −0.4858, −0.4617) 5 (0.9064, −0.26, −0.2167, −0.1774, −0.142, −0.1103) En la Tabla 1 se observa que a medida que el orden aumenta uno de los valores dj tiende a acercarse a la unidad mientras que los otros convergen a 0; tambi´en se observa que este pico se encuentra en el medio de la diferenciaci´on cuando el orden es par y en un extremo cuando el orden es impar. Teniendo en cuenta la observaci´on anterior, Hall, Kay y Titterington realizaron una asignaci´on forzando al dj central de la sucesi´on a asumir valores cercanos a la unidad, mientras que a los otros los acercan a 0. Esta asignaci´on fue llamada spike (pico). La asignaci´ on de este tipo se hace de la siguiente forma: Si el orden es par, v = m 2 ⎧
1/2 ⎪ 2v ⎪ ⎪ ⎨ 2v + 1 dj = −1/2 ⎪ − [2v(2v + 1)] ⎪ ⎪ ⎩ 0
para j = v para 0 ≤ j ≤ v − 1 o´ v + 1 ≤ j ≤ 2v en otros casos
(15)
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
Si el orden es impar, v =
57
m−1 2
⎧
1/2 ⎪ 2v + 1 ⎪ ⎪ ⎨ 2v dj = −1/2 ⎪ − [2v(2v − 1)] ⎪ ⎪ ⎩ 0
para j = v para 0 ≤ j ≤ v − 1 o´ v + 1 ≤ j ≤ 2v en otros casos
(16)
5. Metodolog´ıa Para el proceso de simulaci´ on se plante´ o el siguiente modelo de regresi´on: yi = f (xi ) + εi ,
i = 1, 2, · · · , n
(17)
Donde los valores yi representan las respuestas, f la funci´ on de regresi´ on poblacional, xi la covariable y εi los errores aleatorios. Adem´ as se deben cumplir en todas las simulaciones las siguientes condiciones: El dise˜ no es equidistante, y los valores xi se encuentran ordenados en el intervalo [0, 1], adem´as no se tienen medidas repetidas en ning´ un valor de xi . Los valores εi son independientes e id´enticamente distribuidos con E(εi ) = 0 y var(εi ) = σ 2 . La funci´ on f es continua y doblemente diferenciable. El proceso de simulaci´on se realiz´ o en distintos escenarios, los cuales presentan diferencias en la funci´on de regresi´ on, distribuci´on de los errores y tama˜ nos de muestra. A fin de obtener observaciones suficientes para realizar las comparaciones, se consideraron 1000 repeticiones para cada simulaci´on. Los diferentes cambios en cada uno de estos factores son los siguientes: Funci´ on poblacional f : 8 sin(0.5πxi ) − 4 sin oscilaciones. 4 sin(3πxi ) n´ umero de oscilaciones bajo. 4 sin(7πxi ) n´ umero de oscilaciones alto. on baja), σ 2 = 1(variaci´on alta). Varianza de los errores: σ 2 = 0.5 (variaci´ Tama˜ no de muestra: n = 50, 100, 300. Distribuci´on de εi : N (0, σ 2 ), distribuci´on sim´etrica. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
58
Alvaro Jos´ e Fl´ orez & Javier Olaya
1/2 , distribuci´on asim´etrica a la derecha |N (0, 1)| − π2 2 1/2 − |N (0, 1)|, distribuci´on asim´etrica a la izquierda π Las distribuciones asim´etricas se definen a partir de una variable que se distribuye semi-normal, definida como el valor absoluto de una variable que se distribuye normal est´andar (Olmos et al. 2012). En ambos casos el procedimiento empleado centra las distribuciones semi-normales en 0, pero mantiene una de ellas asim´etrica a la derecha y la otra a la izquierda (ver Figura 1).
Figura 1: Distribuci´ on de los errores (a) distribuci´ on asim´etrica a la derecha, (b) distribuci´ on sim´etrica, (c) distribuci´ on asim´etrica a la izquierda. Fuente: elaboraci´ on propia. Los estimadores que se seleccionaron para realizar las comparaciones son los siguientes: el estimador de Rice (Ri), los estimadores HKT basados en diferencias ´optimas de Hall, de orden 2 al 5 (Op2, Op3, Op4, Op5) y los estimadores basados en diferencias ordinarias orden 2 al 5 (Or2, Or3, Or4, Or5). Hay que tener en cuenta que el estimador de orden 1 de los dos m´etodos de asignaci´on seleccionados coincide con el estimador de Rice. Adem´ as, cuando se tienen dise˜ nos equidistantes, como en este caso, el estimador basado en diferencias ordinarias de orden 2 es igual al estimador GSJS. Como indicador para la comparaci´on de los estimadores se utiliza el error cuadr´ atico medio (ECM) emp´ırico, calculado de la siguiente forma: ECM (ˆ σj2 ) =
1000 1 2 (ˆ σ − σ 2 )2 1000 i=1 ji
j = 1, · · · , 9
(18)
2 es la estimaci´ on de la varianza por medio del estimador j en la simulaci´ on donde σ ˆji i. Este es un indicador que tienen en cuenta no solamente el sesgo del estimador sino tambi´en su variabilidad.
Las simulaciones se llevaron a cabo usando el software estad´ısticos R siguiendo estos pasos: 1. Se generan los valores de εi teniendo en cuenta la distribuci´ on de los errores, el valor de varianza y el tama˜ no de muestra propuesto. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
59
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
2. Se generan los valores de yi siguiendo el modelo de la ecuaci´on (17), teniendo en cuenta cada una de las funciones poblacionales f propuestas. Donde xi = i−0.5 n , i = 1, · · · , n. 3. Luego de generar los valores de yi , se procede a estimar la varianza por medio de cada uno de los estimadores seleccionados. 4. Los pasos anteriores se repiten 1000 veces para obtener la distribuci´ on emp´ırica de cada estimador y as´ı poder calcular el sesgo y el error cuadr´atico medio (ECM) de cada uno. Teniendo en cuenta las diferentes distribuciones de los errores, tama˜ nos de muestra y funciones de regresi´ on se tienen 54 escenarios de simulaci´ on, en los cuales se realizaron las estimaciones de varianza por medio de los 9 estimadores propuestos.
6. Resultados En cada una de las situaciones planteadas se estim´ o la varianza con cada uno de los estimadores seleccionados para el estudio, luego se encontr´ o el sesgo y el ECM de cada uno y se observaron sus distribuciones de forma gr´afica por medio de diagramas de cajas y alambres; todo ello a fin de realizar las comparaciones y determinar en qu´e casos es m´as recomendable el uso de uno de estos estimadores sobre los dem´ as. A continuaci´on se muestran diagramas de cajas y alambres y tablas del ECM de las tres funciones que se simularon, bajo diferentes cambios en los tama˜ nos de muestra y varianzas. Cuando se comparan todos los estimadores bajo la funci´on que no presenta oscilaciones (Figura 2) se observa que los estimadores basados en diferencias o´ptimas de Hall (Op2, Op3, Op4 y Op5) presentan menor dispersi´on que los estimadores basados en diferencias ordinarias (Or2, Or3, Or4 y Or5) en todas las simulaciones, pero los u ´ ltimos presentan mejor manejo del sesgo cuando se tienen muestras peque˜ nas (n=50). Si comparamos el ECM de los estimadores (Tabla 2) se puede observar que los valores para cada uno son muy parecidos, aunque los menores valores se observan para los estimadores Op2, Ri y Or2. Tabla 2: Error cuadr´ atico medio de los estimadores bajo la funci´ on 8 sin(0.5πx)− 4 para tama˜ nos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboraci´ on propia. Caso n = 50, σ2 = 0.5 n = 50, σ2 = 1 n = 300, σ2 = 0.5 n = 300, σ2 = 1
Ri 0.014 0.065 0.002 0.010
Or2 0.018 0.087 0.003 0.013
Or3 0.023 0.105 0.004 0.015
Or4 0.027 0.121 0.004 0.017
Or5 0.030 0.136 0.005 0.019
Op2 0.013 0.054 0.002 0.008
Op3 0.017 0.054 0.002 0.008
Op4 0.025 0.061 0.002 0.007
Op5 0.044 0.079 0.002 0.007
En la Figura 3 y la Tabla 3 se puede observar el comportamiento de los estimadores bajo los escenarios que tienen la funci´on de regresi´ on que presenta pocas Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
60
Alvaro Jos´ e Fl´ orez & Javier Olaya
Figura 2: Diagrama de cajas del sesgo de los estimadores bajo la funci´ on 8 sin(0.5πx) − 4 para tama˜ nos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboraci´ on propia.
oscilaciones. En la Figura 3 se aprecia que los estimadores basados en diferencias ordinarias tienen buen control sobre el sesgo sin importar los tama˜ nos de muestra o el orden usado, a diferencia de los estimadores basados en diferencias o´ptimas que presentan estimaciones con sesgos positivos, especialmente para tama˜ nos de muestra de 50, adem´ as el sesgo es mayor a medida que aumenta el orden. Es importante tener presente que estos sesgos disminuyen considerablemente cuando el tama˜ no de muestra es de 300, adem´ as presentan una variabilidad inferior que los estimadores basados en diferencias ordinarias. Al observar el ECM (Tabla 3) se aprecia que para tama˜ nos de muestra peque˜ nos los estimadores basados en diferencias ordinarios son mejores que los estimadores basados en diferencias o´ptimas, pero para las situaciones con tama˜ no de muestra de 300 estos u ´ltimos tienen mejor comportamiento.
Tabla 3: Error cuadr´ atico medio de los estimadores bajo la funci´ on 4 sin(3πx) para tama˜ nos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboraci´ on propia. Caso n = 50, σ2 = 0.5 n = 50, σ2 = 1 n = 300, σ2 = 0.5 n = 300, σ2 = 1
Ri 0.034 0.082 0.003 0.010
Or2 0.019 0.080 0.003 0.013
Or3 0.023 0.098 0.004 0.016
Or4 0.026 0.114 0.005 0.018
Or5 0.029 0.130 0.005 0.021
Op2 0.128 0.172 0.002 0.008
Op3 0.387 0.439 0.002 0.008
Op4 0.916 0.975 0.002 0.008
Op5 1.850 1.906 0.004 0.009
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
61
Figura 3: Diagrama de cajas y alambres del sesgo de los estimadores bajo la funci´ on 4 sin(3πx) para tama˜ nos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboraci´ on propia.
Cuando se tienen modelos con la funci´ on de regresi´ on que presenta mayor n´ umero de oscilaciones, se puede observar en la Figura 4 que los estimadores basados en diferencias o´ptimas de Hall presentan estimaciones extremadamente sesgadas, aunque las medianas del sesgo parecen acercarse a 0 cuando el tama˜ no de muestra es de 300, al igual que en las anteriores simulaciones, pero bajo esta funci´ on estos estimadores parece que necesitan tama˜ nos de muestra muchos m´as grandes para que se tenga buen control sobre el sesgo. Los estimadores basados en diferencias ordinarias presentan comportamientos m´ as estables, puesto que todas las medianas estuvieron pr´ oximas a 0. En la Tabla 4 se puede observar los ECM de los estimadores, donde se puede apreciar que para tama˜ nos de muestra peque˜ nos los estimadores basados en diferencias ordinarias presentan mejor comportamiento que los basados en diferencias ´optimas, pero cuando el tama˜ no de muestra aumenta a 300, estos u ´ ltimos mejoran considerablemente, aunque solamente el de orden 2 tiene un resultado similar al de los estimadores basados en diferencias ordinarias. Al contrario que ocurre con los anteriores funciones poblacionales planteadas, donde en algunos casos los estimadores basados en diferencias ´optimas de Hall son una buena alternativa, los estimadores basados en diferencias ordinarias son los u ´ nicos estimadores que presentan el comportamiento deseado para la estimaci´ on de la Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
62
Alvaro Jos´ e Fl´ orez & Javier Olaya
Figura 4: Diagrama de cajas y alambres del sesgo de los estimadores bajo la funci´ on 4 sin(7πx) para tama˜ nos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboraci´ on propia. Tabla 4: Error cuadr´ atico medio de los estimadores bajo la funci´ on 4 sin(7πx) para tama˜ nos de muestra 50 y 300, y varianza igual a 0.5 y 1. Fuente: elaboraci´ on propia. Caso n = 50, σ2 = 0.5 n = 50, σ2 = 1 n = 300, σ2 = 0.5 n = 300, σ2 = 1
Ri 0.583 0.622 0.003 0.011
Or2 0.025 0.084 0.003 0.014
Or3 0.026 0.097 0.004 0.016
Or4 0.030 0.110 0.004 0.019
Or5 0.034 0.122 0.005 0.021
Op2 3.161 3.230 0.005 0.011
Op3 9.608 9.708 0.012 0.017
Op4 21.065 21.286 0.028 0.032
Op5 38.634 39.117 0.056 0.059
varianza, siendo estos los estimadores recomendados cuando se tengan situaciones similares a esta u ´ ltima. Puesto que todas las situaciones simuladas anteriormente se hicieron bajo una distribuci´ on de los errores sim´etrica N (0, σ 2 ), por lo tanto hace falta observar si existen diferencias en las estimaciones cuando se tiene una distribuci´ on asim´etrica de los errores. Para esto se presenta en la Figura 5, distribuci´ on de los sesgos de tres estimadores de varianza (el estimador de Rice, el basado en diferencia ordinarias de orden 2 y el basado en diferencia ´optimas de Hall de orden 2) por medio de diagrama de cajas y alambres bajo tres condiciones distintas de distribuci´on de los errores (asim´etrica a la derecha, sim´etrica, asim´etrica a la izquierda).
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
63
Figura 5: Diagrama de cajas y alambres de los estimadores bajo las tres condiciones de los errores con la funci´ on 8 sin(0.5πx) − 4 y n = 100. (a) estimador de Rice (b) estimador de diferencias ordinarias de orden 2 (c) estimador de diferencias optimas de orden 2. Fuente: elaboraci´ ´ on propia. En la Figura 5 se observa que los diagramas de cajas y alambres del sesgo del estimador de Rice bajo las tres distribuciones de los errores no presentan diferencias en sus comportamientos, al igual que ocurre con los otros dos estimadores evaluados, lo que nos indica que estos estimadores de varianza no se ven afectados por la distribuci´on de los errores; ocurre lo contrario con los estimadores que est´an basados en los diferentes m´etodos de suavizaci´ on, los cuales deben asumir normalidad de los errores. Cuando se simulan los resultados bajo los dem´ as escenarios planteados se tienen las mismas observaciones mencionadas anteriormente, como tambi´en ocurre con los dem´ as estimadores que se tienen en cuenta en este estudio.
7. Conclusiones De los estimadores basados en diferencias o´ptimas de Hall, el estimador de orden 2 es el que presenta mejor comportamiento, puesto que en las simulaciones planteadas se observ´ o que se produc´ıan estimaciones cada vez m´ as sesgadas y con mayor ECM cuando el orden de este estimador aumentaba. Por lo cual no es recomendable el uso de los estimadores basados en diferencias o´ptimas de Hall de o´rdenes superiores a 2. En ninguna de las situaciones simuladas se encontr´o diferencias en las distribuciones de los sesgos de los estimadores basados en diferencias ordinarias, por lo cual el uso de cualquiera de estos estimadores, sin importar el orden, produce estimaciones muy similares bajo situaciones parecidas a los escenarios propuestos. El estimador de Rice present´o buen comportamiento en algunas de las situaciones planteadas, aunque en ninguno de estos escenarios present´o el mejor comportamiento sobre los dem´ as estimadores. Es decir, el uso del estimador de Rice no se recomienda en ninguno de los casos. Cuando se tienen funciones sin cambios u oscilaciones el estimador basado en Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
64
Alvaro Jos´ e Fl´ orez & Javier Olaya
diferencias o´ptimas de Hall de orden 2 presenta mejor comportamiento que los estimadores basados en diferencias ordinarias, ya que este estimador presenta menor dispersi´ on que los otros estimadores y tiene buen manejo del sesgo; lo anterior se ve reflejado en los menores valores del ECM. Al tener funciones con oscilaciones es necesario que se tenga un tama˜ no de muestra grande, para que este estimador tenga mejor comportamiento que los estimadores basados en diferencias ordinarias. Los estimadores basados en diferencias ordinarias tienen un buen manejo del sesgo en todos los escenarios que se plantearon con las diferentes funciones poblacionales. Pero tiene mejor comportamiento que los estimadores basados en diferencias ´optimas de Hall cuando se tienen funciones con oscilaciones, y adem´ as el tama˜ no de muestra es peque˜ no. No se encontraron diferencias significativas en ninguna de las distribuciones de los sesgos de los estimadores cuando se plantean diferentes distribuciones de los errores, por lo cual no es necesario asumir ning´ un comportamiento de los errores para el uso de alguno de estos estimadores de varianza.
8. Trabajo futuro Dado que en este trabajo se usaron dise˜ nos equidistantes, una posible extensi´on ser´ıa estudiar las diferencias que se presentan entre estos estimadores cuando se tienen dise˜ nos aleatorios o dise˜ nos no equidistantes. De esta forma tambi´en se pueden plantear diferencias entre el estimador basado en diferencias ordinarias y el estimador GSJS, puesto que en caso de un dise˜ no equidistante estos estimadores son iguales. Se podr´ıa adem´ as proponer alg´ un criterio para establecer el tipo de estimador basado en diferencias que se debe usar dependiendo de la situaci´ on que se tenga, como el tama˜ no de muestra (puesto que se observ´o que el estimador basado en diferencias ordinarias present´o mejor comportamiento cuando n es peque˜ no, pero cuando n es grande los estimadores ´optimos presentaron mejor comportamiento) y el tipo de funci´on. Recibido: 22 de noviembre de 2013 Aceptado: 20 de marzo de 2014
Referencias Altman, N. S. (1992), ‘An introduction to kernel and nearest-neighbor nonparametric regression’, The American Statistician 46(3), 175–185. Bowman, A. W. & Azzalini, A. (1997), Applied Smoothing Techniques for Data Analysis. The Kernel Approach with S-plus Illustrations, Oxford University Press. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comparaci´ on de estimadores de varianza en regresi´ on no param´ etrica
65
Brown, L. D. & Levine, M. (2007), ‘Variance estimation in nonparametric regression via the difference sequence method’, Annals of Statistics 35(5), 2219– 2232. Buckley, M. J., Eagleson, G. K. & Silverman, B. W. (1988), ‘The estimation of residual variance in nonparametric regression’, Biometrika 75(2), 189–199. Carter, C. K. & Eagleson, G. K. (1992), ‘A Comparison of Variance Estimators in Nonparametric Regression’, Journal of the Royal Statistical Society, Series B 54(3), 773–780. Cleveland, W. S. (1979), ‘Robust Locally Weighted Regression and Smoothing Scatterplots’, Journal of the American Statistical Association 74(368), 829– 836. Dette, H., Munk, A. & Wagner, T. (1998), ‘Estimating the Variance in Nonparametric Regression. What is a Reasonable Choice?’, Journal of the Royal Statistical Society, Series, B 60(4), 751–764. Draper, N. R. & Smith, H. (1966), Applied Regression Analysis, John Wiley & Sons, New York. Draper, N. R. & Smith, H. (1998), Applied Regression Analysis, 3 edn, John Wiley & Sons, New York. Eubank, R. L. (1998), Nonparametric Regression and Spline Smoothing, 2 edn, Marcel Dekker, New York. Gasser, T., Sroka, L. & Jennen-Steinmetz, C. (1986), ‘Residual variance and residual pattern in nonlinear regression’, Biometrika 73(3), 625–633. Hall, P., Kay, J. W. & Titterington, D. M. (1990), ‘Asymptotically optimal difference-based estimation of variance in nonparametric regression’, Biometrika 77(3), 521–528. Hall, P. & Marron, J. S. (1990), ‘On variance estimation in nonparametric regression’, Biometrika 77(2), 415–419. Levine, M. (2006), ‘Bandwidth selection for a class of difference-based variance estimators in the nonparametric regression: A possible approach’, Journal Computational Statistics & Data Analysis 50(12), 3405–3431. Olaya, J. (2012), M´etodos de regresi´ on no param´etrica, Programa Editorial Universidad del Valle, Colombia. Olmos, N. M., Varela, H., G´omez, H. W. & Bolfarine, H. (2012), ‘An extension of the half-normal distribution’, Statistical Papers 53(4), 875–886. Rice, J. (1984), ‘Bandwidth choice for nonparametric regression’, Annals of Statistics 12(4), 1215–1230. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
66
Alvaro Jos´ e Fl´ orez & Javier Olaya
Seifert, B. & Gasser, T. (1993), ‘Nonparametric estimation of residual variance revisited’, Biometrika 80(2), 373–383. Wahba, G. (1978), ‘Improper priors, spline smoothing, and the problem of guarding against model errors in regression’, Journal of the Royal Statistical Society, Series, B 40(3), 364–372.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 67–87
Una aplicaci´ on estad´ıstica de los m´ etodos de clasificaci´ on en astronom´ıa A statistical application of classification methods in astronomy H´ector Hort´ u aa
Alex J. Zambranob
hjhortuao@libertadores.edu.co
alexzambrano@usantotomas.edu.co
Resumen En los u ´ltimos a˜ nos los avances en la astrof´ısica y la cosmolog´ıa han sido impulsados por grandes conjuntos de datos, los cuales solo pueden ser analizados e interpretados con el uso de m´etodos estad´ısticos muy refinados. Lo anterior ha llevado a que dichas disciplinas se complementen a fin de formar una rama llamada la astroestad´ıstica. En este trabajo se da a conocer un m´etodo de clasificaci´on estad´ıstico usando modelos de mezclas de gausianas. Este m´etodo se aplicar´ a para encontrar estrellas que pertenecen al c´ umulo de las Hyades usando una muestra de 2678 estrellas de la base de datos de Hipparcos. Se realiza una descripci´on breve de las caracter´ısticas del c´ umulo y se estudia la evidencia de valores at´ıpicos. Con este m´etodo se encuentra que la clasificaci´ on arroja tres grupos de los cuales podemos estudiar la pertenencia al c´ umulo y se encuentra que la mayor´ıa de estrellas pertenecientes al mismo est´an de acuerdo con la literatura. Tambi´en se muestra el diagrama de Hertzsprung-Russell obtenido para el c´ umulo, muy importante en estudios de evoluci´on estelar. Finalmente, se analiza un tercer grupo obtenido por el m´etodo el cual fue analizado a trav´es de filtros considerados a partir de reglas de clasificaci´ on y otros m´etodos estad´ısticos para el manejo de outliers y determinar con m´ as precisi´on la pertenencia de las estrellas en el c´ umulo de las Hyades. Palabras clave: c´ umulos abiertos, diagrama Hertzsprung-Russell, clasificaci´ on basada en modelos. Abstract In recent years, advances in astrophysics and cosmology have been guided by large and complex data sets, which can only be analyzed and interpreted with the use of highly refined statistical methods. This has caused these disciplines complement a Docente. Semillero de Investigaci´ on en Astronom´ıa, Departamento de Ciencias B´ asicas, Fundaci´ on Universitaria los Libertadores. Colombia. b Docente. Facultad de Estad´ ıstica, Universidad Santo Tom´ as. Colombia.
67
68
H´ ector Hort´ ua & Alex J. Zambrano
each other forming a research field known as astrostatistics. In this paper we provide a classification method based on Gaussian mixture models. This method is used to find stars that belong to the Hyades cluster using 2678 stars sampling from the Hipparcos database. We make a brief description of characteristics of the cluster and we explore the evidence of outliers. With this method it is found that classification yields to three groups of which we can study the membership, and we show the agreement with literature. We also show the Hertzsprung-Russell diagram obtained for the cluster, extremely important for studies of stellar evolution. Finally, the third group found is analyzed through filters considered from classification rules and other statistical methods, for determining the membership of the stars in the Hyades cluster. Keywords: open cluster, Hertzsprung-Russell diagram, model-based classification.
1. Introducci´ on El desarrollo y la aplicaci´ on de m´etodos estad´ısticos a los problemas de la astronom´ıa viene desde hace mucho tiempo. Se tiene evidencia de que Hipparcos fil´osofo Griego, hizo una de las primeras aplicaciones de los principios matem´aticos en el ´ambito de la estad´ıstica, al hacer mediciones de las duraciones entre solsticios para definir el a˜ no. En las u ´ltimas d´ecadas se ha visto un aumento de inter´es del uso de la estad´ıstica en astronom´ıa, impulsado por la presencia de grandes conjuntos de datos en todos los campos de la astronom´ıa. Por tal motivo, se ha llegado a que estas disciplinas se complementen para formar una rama de la estad´ıstica llamada la astroestad´ıstica (Sarro et al. 2012, Feigelson & Babu 2012, Ball & Brunner 2010, Hobson et al. 2010, Loredo 2012). La astronom´ıa moderna produce datos que requieren de herramientas estad´ısticas para ser explorados. La investigaci´on en astronom´ıa ha visto un cambio de paradigma en los u ´ltimos a˜ nos, tratando habitualmente la miner´ıa de datos con procesos complejos que exigen un conjunto muy diverso de t´ecnicas estad´ısticas. En particular, se require de la estimaci´ on de par´ ametros cosmol´ ogicos y par´ ametros orbitales de cuerpos celestes (Liddle 2009). Entre las aplicaicones de la estad´ıstica en la astronom´ıa se encuentra el an´ alisis multivariado, para hacer estudios de c´ umulos globurales y estudios de rayos c´ osmicos y GRBs (Gamma-Ray Bursts) (Chilingarian & Vardanyan 2003), las series de tiempo son de alta relevancia en el estudio de manchas solares y variabilidad de rayos X (Vaughan 2013), as´ı como los modelos de mezcla para fotometr´ıa gal´ actica y pertenencia de estrellas, entre otros. Una de las investigaciones en astronom´ıa es la pertenencia de estrellas en c´ umulos abiertos (Uribe et al. 2008). Este estudio es de gran importancia en astronom´ıa para comprender rasgos de la evoluci´on estelar y edad de c´ umulos. En este art´ıculo se desarrolla un estudio de pertenencia de estrellas analizando los movimientos propios, centrandonos en el c´ umulo de las Hyades ubicado en la constelaci´ on de Tauro. Usando una muestra de 2678 estrellas tomada del cat´ alogo de Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
M´ etodos de clasificaci´ on en astronom´ıa
69
Hipparcos, se utiliza el m´etodo de mezclas de densidades gausianas multivariadas para encontrar cuales de estas estrellas pertenecen al c´ umulo de las Hyades y de esta forma generar el diagrama Hertzsprung-Russell a fin de revelar propiedades muy importantes del mismo. Este art´ıculo se organiza de la siguiente forma: En la secci´ on 2 se comenta acerca del estudio de la pertenencia de estrellas en c´ umulos abiertos a partir de movimientos propios y se describe la importancia del diagrama Hertzsprung-Russell en el estudio de la astronom´ıa estelar. En la secci´on 3 se discute el m´etodo de clasificaci´on estad´ıstica basada en mezcla de gausianas. En la secci´ on 4 se implementa una aplicaci´ on utilizando el conjunto de estrellas mencionadas y se presentan los resultados: detecci´on de outliers, de igual modo se da respuesta a la pregunta c´omo a trav´es del m´etodo de mezcla se analizan las variables de estudio para determinar las posibles estrellas que pertenecen al c´ umulo, de igual forma, se realizan algunas caracter´ısticas de la clasificaci´on, el diagrama Hertzsprung-Russell y la construcci´on de filtros a partir de reglas de clasificaci´ on y comparaci´on de resultados. Finalmente en la secci´on 5 se describen las conclusiones y futuros trabajos alrededor del tema.
2. Pertenencia de estrellas y diagrama HertzsprungRussell (H-R) Los c´ umulos abiertos son regiones que contienen de diez hasta centenares de estrellas. La distancias de estos c´ umulos pueden ser obtenidos por m´etodos fotom´etricos o espectrosc´opicos. Para c´ umulos cercanos como las Hyades se utiliza el m´etodo de paralaje cin´etico, donde se supone que las estrellas que pertenecen al c´ umulo tienen la misma velocidad espacial en promedio respecto al sol. Sin embargo, el estudio de la pertenencia de estrellas en c´ umulos abiertos ha sido muy complejo (Karttunen et al. 2007). A trav´es del estudio de la pertenencia de estrellas en un c´ umulo, se puede obtener las caracter´ısticas de la distribuci´on estelar y la evoluci´on de la galaxia donde se encuentra el c´ umulo. A fin de determinar si una estrella pertenece al c´ umulo se utiliza los siguientes m´etodos: m´etodo fotom´etrico cuya limitaci´on es debida a la absorci´on interestelar, m´etodo de velocidades radiales que tiene dificultad en la medici´ on por efecto Doppler y m´etodo de movimientos propios; este u ´ltimo es muy preciso cuando el c´ umulo no se encuentra lejos de nosotros. El movimiento propio de una estrella se define como el cambio angular en la posici´on de una estrella, respecto a la l´ınea de visi´on del observador, medida en arco-segundos por a˜ no, es una medida indirecta de la velocidad transversal de la estrella con respecto a la Tierra. Despu´es de saber la pertenencia de las estrellas en el c´ umulo, se procede a elaborar el diagrama de Hertzprung-Russell (H-R) con estas estrellas y de este diagrama se infieren las propiedades del c´ umulo, din´amica y edad. El diagrama H-R1 , es un diagrama estad´ıstico en el que las estrellas est´an clasificadas con base en a su temperatura y luminosidad. El diagrama est´a hecho sobre 1 Ideado
por E. Hertzsprung y H. N Russell entre 1905 y 1913.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
70
H´ ector Hort´ ua & Alex J. Zambrano
un sistema en el que se dispone la temperatura superficial de la estrella sobre el eje horizontal, en sentido decreciente de izquierda a derecha y la luminosidad sobre el eje vertical, en sentido creciente de abajo hacia arriba (ver Figura 1).
Figura 1: Diagrama H-R. Fuente: http://www.portalplanetasedna.com.ar/estrellas.htm Aqu´ı se observa que la mayor parte de las estrellas est´an ubicadas sobre una diagonal que cruza el diagrama conocida como secuencia principal. En esta regi´ on, se ubican las estrellas m´as j´ ovenes (las cuales est´an quemando hidr´ogeno en su n´ ucleo) y en la cual pasan el mayor tiempo de su vida. Las estrellas azules de gran masa y luminosidad se encuentran en la parte superior izquierda. Las estrellas amarillas medianas como el sol, se encuentran en el centro y las rojas peque˜ nas est´an ubicadas en la parte inferior derecha. Adem´as de la secuencia principal, existe una rama de las gigantes rojas ubicadas a la derecha de la secuencia principal que se caracterizan por tener gran tama˜ no, brillo y baja temperatura superficial. Finalmente las enanas blancas, en la parte inferior del diagrama son estrellas de baja luminosidad.
3. Clasificaci´ on usando modelos gausianos El an´ alisis de conglomerados (cluster analysis) es una de las t´ecnicas m´ as utilizadas en el an´ alisis multivariado y hace parte de las t´ecnicas de clasificaci´on no supervisadas. Esta t´ecnica consiste en ubicar objetos, ´ıtems, individuos, etc, dentro de ciertos grupos denominados conglomerados, de tal forma que en cada grupo, los objetos sean semejantes entre s´ı y, entre grupos, sean diferentes. Existen muchas t´ecnicas de este tipo, en particular las clasificaciones apoyadas en modelos (Everitt et al. 2011). Esta u ´ltima, considera la agrupaci´ on usando modelos gausianos multivariados y se describe a continuaci´on. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
71
M´ etodos de clasificaci´ on en astronom´ıa
Sea X una variable p-dimensional y φ(x) su funci´ on de densidad de la mezcla de gausianos multivariadas. Sea {xi ; i = 1, . . . , n} las observaciones de X correspondientes a una muestra aleatoria simple de la poblaci´on objeto en estudio. Una clasificaci´ on usando modelos, asume que los datos provienen de una funci´on de densidad mixta dada por φ(x) =
G
τk φk (x),
(1)
k=1
donde φk (x) es la funci´on de densidad de las observaciones en el grupo k, τk es la probabilidad de que una observaci´on haga parte de la componente k-´esima (τk ∈ G (0, 1) y k=1 τk = 1), G es el n´ umero de grupos definidos. Cada componente es usualmente modelada a partir de una funci´on de densidad gausiana multivariada. Cada componente se caracteriza por un vector de medias μk y una matriz de covarianzas Σk , cuya funci´on de densidad viene dada por p 1 1 φk (xi ; μk , Σk ) = (2π)− 2 |Σk |− 2 exp − (xi − μk ) Σ−1 (x − μ ) . (2) i k k 2 La matriz de covarianza Σk determina las caracter´ısticas geom´etricas tales como forma, volumen, orientaci´on de cada uno de los grupos, a partir de la descomposici´ on espectral de la siguiente manera Σk = λk Dk Ak Dk ,
(3)
donde Dk , es la matriz ortogonal de vectores propios, Ak es la matriz diagonal cuyos elementos son los valores propios de Σk , y λk es un valor escalar. La orientaci´on de las componentes principales de Σk es determinada por Dk , mientras Ak determina la forma de los contornos de densidad; λk especifica el volumen correspondiente al elipsoide, proporcional a λdk A , con d la dimensi´on de los datos. Las caracter´ısticas de las distribuciones son usualmente estimadas a partir de los datos, y pueden variar entre conglomerado. Todas las parametrizaciones son consideradas en la Tabla 1. Por ejemplo, un modelo EVI denota un modelo en el cual el volumen de todos los conglomerados es igual (E “equal ”), la forma de los conglomerados puede variar (V “varying”) y la orientaci´on es id´entica (I “identity”) (Fraley et al. 2012). La verosimilitud para los datos consiste en asumir que las n observaciones provienen de un modelo de mezclas finitas de G gausianas multivariadas, es decir n G
τk φk (xi ; μk , Σk ).
i=1 i=1
Para un n´ umero fijo de componentes G, los par´ametros del modelo τk , μk , y Σk pueden ser estimados usando el algoritmo EM (Esperanza y Maximizaci´on) (Dempster et al. 1977). Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
72
H´ ector Hort´ ua & Alex J. Zambrano
Tabla 1: Parametrizaciones de la matriz de Raftery, 1998. Identificaci´on Modelo Distribuci´on E (univariado) V (univariado) EII λI Esf´erica VII λk I Esf´erica EEI λA Diagonal VEI λk A Diagonal EVI λAk Diagonal VVI λk Ak Diagonal EEE λDAD Elipsoidal EEV λDk ADk Elipsoidal VEV λk Dk ADk Elipsoidal VVV λk Dk Ak Dk Elipsoidal
covarianzas Σk . Fuente: Fraley & Volumen igual variable igual variable igual variable igual variable igual igual variable variable
Forma
igual igual igual igual variable variable igual igual igual variable
Orientaci´on
ejes ejes ejes ejes
NA NA coordenados coordenados coordenados coordenados igual variable variable variable
3.1. Algoritmo EM Siguiendo a Dasgupta & Raftery (1998), el algoritmo EM fue propuesto originalmente para obtener estimaciones de m´ axima verosimilitud en presencia de datos incompletos. Entonces, para n observaciones provenientes de una funci´on densidad mixta dada por (1), los datos “completos” ser´ıan yi = (xi , zi ), donde zi = (zi1 , . . . , ziG ) para
zik
1 si la i-esima observaci´ on pertenece al grupo k = 0 en otro caso.
(4)
El vector zi se distribuye multinomial con par´ametros (1; τ1 , . . . , τG ). Teniendo lo anterior se tiene la funci´on de logar´ıtmica de verosimilitud para “datos completos” dada por
(y; μk , Σk ) =
n G
zik {log τk + log φk (xi ; μk , Σk )}.
(5)
i=1 k=1
Seg´ un Fraley & Raftery (1998), el algoritmo comienza con una estimaci´ on inicial on (5) con respecto a los de zˆik , a partir de (4). En el paso M se maximiza la funci´ Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
M´ etodos de clasificaci´ on en astronom´ıa
73
par´ ametros nk =
n
zˆik ,
i=1
τˆk = μ ˆk = ˆk Σ
nk , n
n ˆik xi i=1 z
, nk depende de la forma dada en (3) (Celeux & Govaert 1995).
En el paso E se requiere la estimaci´on de zˆik mediante la formula de Bayes, ˆ k) ˆk , Σ τˆk φk (xi ; μ zˆik = pik = G , ˆ k) ˆl φl (xi ; μ ˆk , Σ l=1 τ
(6)
que es la probabilidad posterior de que xi pertenezca al grupo k-´esimo. Este proceso es iterativo hasta que converga.
3.2. Algoritmo CEM Celeux & Govaert (1992), implementa el algoritmo de clasificaci´ on EM llamado CEM, el cual es una modificaci´on del algoritmo EM desarrollado espec´ıficamente para modelos de clasificaci´ on. Este algoritmo consiste en adicionar un paso de C (clasificaci´ on) en el paso E y el paso M. En el paso E se calcula pik seg´ un (6). El paso C consiste en calcular 1 para max{pij } (j = 1, . . . , G) zik = 0 en otro caso, esto implica que xi se clasifica en el grupo con mayor probabilidad. El paso M implica maximizar la funci´ on (5).
3.3. Determinando el n´ umero de grupos La clasificaci´on basada en modelos se basa en determinar qu´e modelo es mejor para las diferentes parametrizaciones de la matriz de covarianza dada por (3), y un n´ umero G de grupos definido (Fraley & Raftery 1998). El criterio de informaci´ on Bayesiano (BIC) permite seleccionar el modelo que mejor se ajusta a los datos entre un conjunto finito de modelos (Schwarz 1978). El BIC se calcula mediante la siguiente f´ormula ˆ k , G − mG log(n), 2 log p(x | G) + c ≈ 2 x; μ ˆk , Σ Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
74
H´ ector Hort´ ua & Alex J. Zambrano
donde p(x | G) es la probabilidad marginal de los datos observados dados en los G ˆ aximo de la funci´ on de logar´ıtmica de verosigrupos, x; μ ˆk , Σk , G es el valor m´ militud mixta para los G grupos y mG es el n´ umero de par´ ametros independientes para ser estimados en el modelo de G grupos. Para determinar cual modelo es mejor seg´ un este estad´ıstico, se escoge el modelo que presente el valor m´ as grande del BIC, entre todos los modelos evaluados, siendo este el que muestra el mejor ajuste a los datos.
3.4. Estrategia de clasificaci´ on basada en modelos En la pr´ actica la clasificaci´on basada en modelos gausianos pueden ser buena siempre y cuando se conozcan el n´ umero de grupos a clasificar. Sin embargo, no siempre se conocen los grupos. A continuaci´ on siguiendo a Fraley & Raftery (1998) se describe la estrategia para definir los grupos a clasificar Determine un n´ umero m´aximo de grupos (G) a trabajar y un conjunto de parametrizaciones candidatas para el modelo gausiano mixto. Realice clasificaci´ on jer´ arquica para aproximar la clasificaci´on basada en modelos gausianos de cada grupo, y obtenga la aglomeraci´on correspondiente a los G grupos. Aplique el algoritmo EM para cada cada uno de los modelos y cada n´ umero de grupos 2, . . . , G, iniciando con la aglomeraci´on jer´arquica. Calcule el BIC para cada modelo y para el modelo mixto con los par´ ametros ´optimos del EM para 2, . . . , G grupos. Esto da una matriz de valores BIC correspondiente a cada posible combinaci´ on de la parametrizaci´ on y el n´ umero de grupos. Grafique los valores BIC de cada modelo. El primer valor m´ aximo local indica una fuerte evidencia de un modelo (parametrizaci´ on+n´ umero de grupos).
4. Aplicaci´ on Inicialmente se realiz´o una breve descripci´ on de las variables y conjunto de datos a utilizar. Posteriormente se realiza una identificaci´ on de estrellas at´ıpicas. Despu´es se utiliza la librer´ıa mclust creada por Fraley et al. (2012) del paquete estad´ıstico R Core Team (2013) a fin de clasificar las estrellas en diferentes grupos, para luego identificar la secuencia de estrellas que pertenecen al c´ umulo de las Hyades. Por u ´ltimo, se caracterizan los resultados estad´ısticamente y se elabora el diagrama H-R descrito en la secci´ on 2. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
M´ etodos de clasificaci´ on en astronom´ıa
75
4.1. Descripci´ on de los datos Se utilizan 2678 estrellas del cat´ alogo de Hipparcos (los datos fueron obtenidos en http://heasarc.gsfc.nasa.gov/W3Browse/all/hipparcos.html), bajo el criterio de que el ´angulo paral´ actico este entre 20◦ y 25◦ y el grupo de estrellas est´e a una distancia entre 40 y 50 pc. Adem´ as, no se tienen en cuenta estrellas que carezcan de informaci´on en las variables utilizadas. En la tabla 2 se describen las variables para cada estrella obtenidas a trav´es de la base de datos de Hipparcos. Tabla 2: Variables a utilizar. Fuente: elaboraci´ on propia. Variable Descripci´ on Vmag Magnitud de banda Visual. RA Ascensi´ on Recta (grados). DE Declinaci´ on (grados). ´ Plx Angulo Paral´ actico (mas = milliarcsseconds). pmRA Movimiento propio en RA (mas/yr). pmDE Movimiento propio en DE (mas/yr). e Plx Error de medici´ on en Plx (mas). B-V Color de la estrella (mag). De las variables anteriormente mencionadas, solamente se tendr´ an en cuenta las que est´an relacionadas con los movimientos propios de las estrellas (pmRA, pmDE). Para el diagrama H-R se tienen en cuenta el color (B-V), magnitud (Vmag) y ´angulo paral´ actico (Plx). Por u ´ltimo, para procesos de filtros a partir de reglas de clasificaci´ on se utilizar´an las coordenadas espaciales de las estrellas (RA, DE).
4.2. Detecci´ on de estrellas at´ıpicas Con los datos descritos anteriormente, se depura la base eliminando aquellas estrellas cuyos movimientos propios no se comportan igual que el resto de estrellas del conjunto.. En Brieva & Uribe (1985) se realiza un proceso de depuraci´ on utilizando filtros para una aplicaci´ on similar al c´ umulo de estrellas NGC654, con el prop´ osito de detectar estrellas at´ıpicas. Tambi´en, Fraley & Raftery (2002) sugiere un m´etodo alternativo para detectar outliers. Por simpleza se utiliz´o el procedimiento propuesto por Johnson & Wichern (1998), el cual consiste en calcular la distancia de Mahalanobis ¯) s−1 (xi − x ¯) i = 1, 2, . . . , n, d2i = (xi − x donde x ¯ y s son la estimaci´ on del vector medias y la matriz de covarianzas de manera usual. Luego de tener todas las distancias estimadas de Mahalanobis de todos los valores se compara estos con un valor cr´ıtico de la tabla de la distribuci´ on p(n+1)(n−1) F , donde p es el n´ u mero de variables, n el n´ u mero de obser(1−α,p,n−p) n(n−p) vaciones y α = 1 − (1 − 0.0027)p . Para nuestro caso se encontraron 58 estrellas, Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
76
H´ ector Hort´ ua & Alex J. Zambrano
las cuales se omitieron para este trabajo. En la Figura 2, se observa el diagrama de dispersi´on de los movimientos propios del cat´ alogo de estrellas sin observaciones at´ıpicas. N´otese que los movimientos propios est´an muy agrupados en la parte central, raz´ on por la cual no se observa claramente cuantos grupos de estrellas se lograr´ıan obtener.
Figura 2: Diagrama de dispersi´ on de los movimientos propios de 2620 estrellas del cat´ alogo de Hipparcos sin observaciones at´ıpicas. Fuente: elaboraci´ on propia. En la tabla 3 se describen los resultados estad´ısticos de los movimientos propios de este conjunto de estrellas. Tabla 3: Resultados estad´ısticos de los movimientos propios. Fuente: elaboraci´ on propia. pmRA pmDE Min. : -485.880 Min. : -493.140 1st Qu.: -86.775 1st Qu.: -125.705 Median : 11.120 Median : -48.285 Mean : 7.064 Mean : -59.092 3rd Qu.: 103.002 3rd Qu.: 8.287 Max. : 486.920 Max. : 379.680
4.3. Clasificaci´ on Se encontr´ o que el mejor modelo que representa los datos cuyas matrices de covarianzas estimadas son del tipo VEV y se maximiza con tres grupos (ver Figura 3).
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
77
BIC
−66000
M´ etodos de clasificaci´ on en astronom´ıa
−66300
EII VII EEI VEI EVI 2
4
6
VVI EEE EEV VEV VVV
8
Number of components
Figura 3: C´ alculo del Criterio de Informaci´ on Bayesiano BIC para determinar el modelo que mejor se ajusta a los datos. Fuente: elaboraci´ on propia.
Con el resultado anterior se puede observar en la Figura 4 c´omo se agrupan las estrellas en los tres grupos seg´ un sus movimientos propios. Los tres grupos tienen distribuciones gausianas bivariadas totalmente diferentes en volumen y orientaci´ on. Por otro lado se observa que las estrellas en el grupo de color negro (clase 1, •) son las estrellas m´as dispersas, mientras que las estrellas que se ubican en el grupo de color gris (clase 2, ) presentan menor dispersi´ on. Sin embargo, las estrellas en el grupo del color m´ as claro (clase 3, ) presenta muy poca dispersi´on con respecto a los dos grupos de estrellas anteriores. Entonces se tiene un grupo de estrellas (clase 3) mucho m´as compacto en sus movimientos propios. En la Figura 5 se observa la funci´ on de densidad de la mezcla de distribuciones gausianas bivariadas obtenidas. Se observa que la clase 3 es un grupo muy compacto en sus movimientos propios, mientras que los otros grupos tienen una dispersi´on m´as alta.
4.4. Caracterizaci´ on de los grupos de estrellas obtenidos Al utilizar este m´etodo se clasifican 1770 estrellas en la clase 1, 717 estrellas en la clase 2 y 133 estrellas en la clase 3. Cada clase tienen las siguientes probabilidades τ1 = 0.678, τ2 = 0.280 y τ3 = 0.041. Las distribuciones de φ1 , φ2 y φ3 tienen vectores de medias y matrices de covarianzas dadas en la tabla 4, donde notamos que las covarianzas de la clase 1 son las u ´nicas positivas, mientras que las restantes son negativas. Por otro lado, las covarianzas de la clase 3 son mucho m´as peque˜ nas que los otros grupos de estrellas. Al calcular las correlaciones entre los movimientos propios de los grupos se observa que los valores son muy peque˜ nos (0.034, -0.02, Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
78
H´ ector Hort´ ua & Alex J. Zambrano
Figura 4: Diagrama de dispersi´ on de los movimientos propios seg´ un los grupos de clasificaci´ on obtenidos. Fuente: elaboraci´ on propia.
400
log Density Contour Plot
1 −2
0 −2
−19
−18
−18
−17
−1 9
−2 0
200
−15
−14
pmDE
0
ty Densi
RA pm
−200
−12
−13
−400
DE pm −16 −1 9
−400
−18
−17
−200
−18
−17
0
200
9 −1
0 −2
400
pmRA
Figura 5: Diagrama de los contornos de la funci´ on de densidad y gr´ afico en 3D de la funci´ on de densidad obtenida. Fuente: elaboraci´ on propia.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
79
M´ etodos de clasiďŹ caci´ on en astronom´Ĺa
0.09), lo cual corrobora que estos son independientes, como se esperaba f´Ĺsicamente. El diagrama de box-plot de la Figura 6, muestra que el grupo de estrellas de la clase 3 tiene muy poca dispersi´on. Por otro lado, tambi´en observamos que los tres grupos tiene comportamientos muy sim´etricos. Tabla 4: Vector de medias y matrices de covarianzas de las distribuciones de Ď&#x2020;1 , on propia. Ď&#x2020;2 y Ď&#x2020;3 . Fuente: elaboraci´ pmRA pmDE Îź 1 1.17 -68.67 Îź 2 6.72 -40.71 Îź 3 105.80 -26.71 29581.58 822.32 ÎŁ1 822.32 19627.19 6157.33 -86.53 ÎŁ2 -86.53 4067.98 93.95 -10.36 ÎŁ3 -10.36 136.39
Figura 6: Diagrama de cajas de los movimientos propios seg´ un grupos de clasiďŹ caci´ on. Fuente: elaboraci´ on propia. En la tabla 5 se describen los estad´Ĺsticos descriptivos de los movimientos propios de cada uno de los grupos obtenidos. Obs´ervese que los coeďŹ cientes de asimetr´Ĺa y curtosis son cercanos a 0, esto nos da entender que los movimientos propios en cada grupo tienden a ser sim´etricos. El coeďŹ ciente de variaci´on resulta ser m´as alto en el grupo 1, lo cual indica que los movimientos propios tiene mucha m´as variaci´on en este grupo. Mientras, que el grupo 3, el coeďŹ ciente de variaci´on es mucho m´as pequeË&#x153; no, indicando una dispersi´on m´Ĺnima en este grupo de estrellas. Comunicaciones en Estad´Ĺstica, junio 2014, Vol. 7, No. 1
80
H´ ector Hort´ ua & Alex J. Zambrano
Tabla 5: Estad´ısticos de los movimientos propios en Declinaci´ on (pmDE) y Ascensi´ on Recta (pmRA). Fuente: elaboraci´ on propia. Variable: Grupos 1 2 3 Variable: Grupos 1 2 3
pmDE Media -71.452 -34.477 -27.298 pmRA Media -0.498 7.347 106.174
Desviaci´on 144.708 41.400 11.147
IQR 198.578 68.770 14.640
variaci´ on 2.025 1.201 0.408
asimetr´ıa 0.102 0.020 -0.112
curtosis -0.071 -0.987 -0.354
n 1770 717 133
Desviaci´ on 174.736 48.643 9.197
IQR 267.618 77.130 11.940
variaci´ on 351.162 6.621 0.087
asimetr´ıa 0.088 -0.030 -0.051
curtosis -0.567 -0.946 -0.277
n 1770 717 133
Se ha encontrado adem´as que los movimientos propios, tiene una menor dispersi´ on en la clase 3. De esta forma se entiende que todas las estrellas en esta clase tienen poca variabilidad. Desde el punto de vista estelar, indica que las estrellas de este grupo, pertenecen al c´ umulo abierto de las Hyades. Por otra parte, en la clase 1 se encuentra una alta variabilidad en los movimientos propios. Esto indica que cada una de estas estrellas pertenece al background o foreground del c´ umulo. Por u ´ltimo, en la clase 2 se observa una gran dispersi´on respecto a la clase 3 pero menor a la clase 1. De esta forma se llega a un resultado importante, ya que a trav´es de este grupo se obtiene una especie de datos at´ıpicos que indican un sesgo de estas estrellas a pertenecer o no al c´ umulo. Analizando este grupo se encuentra que algunas estrellas pueden pertenecer al c´ umulo, pero debido a sus caracter´ısticas que difieren del resto de estrellas, no pudieron ser categorizadas como clase 3, es decir, estrellas tales como gigantes, sistemas binarios, entre otros.
4.5. Diagrama H-R Despu´es de encontrar las estrellas que pertenecen al c´ umulo de Hyades usando el m´etodo estad´ıstico mencionado anteriormente, se procede a ubicar estas estrellas en el diagrama H-R. El resultado obtenido se muestra en la figura 7. La luminosidad fue calculada usando la expresi´on dada por log(L) = (15 − Vmag − 5 · log10 (Plx))/2.5.
(7)
En este diagrama se observa que el c´ umulo de las Hyades contiene cuatro estrellas del grupo de las gigantes rojas, las cuales se encuentran localizadas en la parte superior del diagrama. Por otra parte, el c´ umulo contiene en su mayor´ıa estrellas en la secuencia principal, indicando que este es un c´ umulo joven (635 millones de a˜ nos). En el diagrama se muestra con c´ırculos grandes las estrellas del grupo tres obtenidas durante la clasificaci´ on y de las cuales se concluyen altamente pertenecientes al c´ umulo. Las estrellas mostradas en este grupo concuerdan con los resultados encontrados por Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
81
M´ etodos de clasiďŹ caci´ on en astronom´Ĺa
Figura 7: Diagrama H-R obtenido para estrellas pertenecientes al c´ umulo de Hyades. Fuente: elaboraci´ on propia. Perryman et al. (1998). Para el grupo dos, se realizara un ďŹ ltro o un an´ alisis estad´Ĺstico adicional para determinar si algunas estrellas de este grupo, pertenecen al c´ umulo de las Hyades. Algunas estrellas de este grupo tienen movimientos propios estad´Ĺsticamente diferentes respecto al conjunto, debido a su masa o tambi´en a que forman sistemas binarios. El grupo restante simplemente experimenta una dispersi´on grande en sus movimientos propios indicando una gran variabilidad y por tanto no pertenecen al c´ umulo.
4.6. Construcci´ on de ďŹ ltros y comparaci´ on En la Figura 8 se consideran las variables (RA, DE) de las 717 estrellas del grupo 2 y 133 del grupo 3 durante el proceso de clasiďŹ caci´ on. Se observa la posici´ on donde se encuentra el c´ umulo de las Hyades, de esta forma se puede pensar en un ďŹ ltro a partir de reglas de clasiďŹ caci´ on para determinar las estrellas en el c´ umulo de las Hyades. Para ello se implementa un a´rbol de clasiďŹ caci´ on con la funci´on rpart de la librer´Ĺa mvpart creada por Deâ&#x20AC;&#x2122;ath (2013) del paquete estad´Ĺstico R Core Team (2013)2 . Las variables implementadas en el ´arbol de clasiďŹ caci´ on son (RA, DE), donde se determina si la estrella pertenece o no al c´ umulo de las Hyades encontradas en el proceso de clasiďŹ caci´on. En la Figura 9 se observa que la gran mayor´Ĺa de las estrellas del c´ umulo de las Hyades se ubican en el nodo 9. Siguiendo el recorrido del ´arbol se encuentra que 60.54 â&#x2030;¤ RA < 72.97 y 10.46 â&#x2030;¤ DE < 22.93.
2 Para
la visualizaci´ on se utiliza la librer´Ĺa partykit creada por Hothorn & Zeileis (2013).
Comunicaciones en Estad´Ĺstica, junio 2014, Vol. 7, No. 1
82
H´ ector Hort´ ua & Alex J. Zambrano
Figura 8: Diagrama de dispersi´ on de las variables (RA, DE) seg´ un pertenencia al c´ umulo de las Hyades. Fuente: elaboraci´ on propia.
´ Figura 9: Arbol de clasiďŹ caci´ on de las variables (RA, DE) seg´ un pertinencia al c´ umulo de las Hyades. Fuente: elaboraci´ on propia.
Comunicaciones en Estad´Ĺstica, junio 2014, Vol. 7, No. 1
M´ etodos de clasificaci´ on en astronom´ıa
83
En la Tabla 6, se muestra que solo 5 estrellas que pertenec´ıan al grupo dos pueden ser catalogadas como estrellas del c´ umulo de las Hyades. Por otro lado, de las 133 estrellas del c´ umulo de Hyades, solo 91 estrellas se encuentran con los filtros implementados. La tasa de error de clasificaci´on es de 5.5 %. Tabla 6: Matriz de confusi´ on de la clasificaci´ on seg´ un filtros implementados. Fuente: elaboraci´ on propia. Predici´ on/Hyades Falso Verdadero Falso 712 42 Verdadero 5 91 En Perryman et al. (1998) se realiza un estudio observacional del c´ umulo de las Hyades basado en distancias, estructuras, din´ amicas y edad de las estrellas pertenecientes a este c´ umulo. Para ello implementa la lectura de una muestra de 282 estrellas del cat´alogo de Hipparcos. Teniendo en cuenta la ecuaci´on de la funci´ on de densidad mixta dada por (1), y los par´ ametros estimados en la clasificaci´on obtenida dados en la secci´ on 4.4, se clasifican estas estrellas utilizando la ecuaci´on (6) y los filtros a partir de la reglas de clasificaci´on descritos en la secci´on 4.6, para comparar los resultados. Para ello se implementa la lectura de las variables anteriormente mencionadas para esta nueva muestra utilizando el n´ umero de la estrella en el cat´ alogo de Hipparcos (HIP)3 . En el diagrama H-R mostrado en la Figura 10 se observa cinco grupos, los cuales se describen a continuaci´on: El grupo denominado FALSE, son aquellas 54 estrellas que tanto en la propuesta como en el trabajo de Perryman et al. (1998) no se consideran pertenecientes al c´ umulo de las Hyades. El grupo denominado Perryman, son 71 estrellas detectadas por Perryman et al. (1998) las cuales se consideran del c´ umulo de Hyades; en nuestro trabajo no se consideran del c´ umulo de las Hyades. El grupo denominado como Propuesta-0, son veinti´ un estrellas las cuales se proponen como falsas; en el trabajo de Perryman et al. (1998) no se catalogaron. El grupo denominado como Propuesta-1, son diez estrellas las cuales se proponen pertenecientes al c´ umulo de las Hyades; en el trabajo de Perryman et al. (1998) eran falsas. El grupo denominado como TRUE, son 126 estrellas las cuales se consideran del c´ umulo de las Hyades tanto en la propuesta de este trabajo como en el 3 Si el lector desea ver los resultados intermedios se recomienda ver el blog Bit´ acoras en Estad´ıstica. http://experienceinstatistics.blogspot.com/
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
84
H´ ector Hort´ ua & Alex J. Zambrano
Figura 10: Diagrama H-R obtenido para estrellas pertenecientes al c´ umulo de Hyades comparando los resultados obtenidos para el conjunto de Perryman et al. (1998). Fuente: elaboraci´ on propia.
trabajo de Perryman et al. (1998). Este u ´ltimo grupo es el m´ as numeroso, indicando una alta concordancia entre las dos t´ecnicas.
5. Conclusiones En este art´Ĺculo se estudia una de las aplicaciones de la estad´Ĺstica en el a´rea de la astronom´Ĺa, utilizando un m´etodo de clasiďŹ caci´on usando modelos gaussianos. El objetivo principal del trabajo era encontrar la pertenencia de estrellas al c´ umulo de las Hyades analizando el movimiento propio de las estrellas. Los datos fueron tomados de la base de datos de Hipparcos. Usando el m´etodo de clasiďŹ caci´on se encontr´ o tres grupos en los cuales de acuerdo a la dispersi´on en los movimientos propios, se catalog´ o como perteneciente y no perteneciente al c´ umulo. El primer grupo contiene 133 estrellas cuya correlaci´on en sus velocidades es muy alta, indicando una alta probabilidad de pertenencia al c´ umulo. El segundo grupo contiene 717 estrellas donde la dispersi´on es m´as alta, sin embargo, algunas de estas estrellas tiene un movimiento propio similar al primer grupo. Esto indica que los miembros de dicho grupo puede ser catalogado como outliers, por lo tanto el uso de algunos ďŹ ltros a partir de la reglas de clasiďŹ caci´on en la ascension recta (RA), declinaci´on (DE) y variable e Plx deben ser impuestos a este grupo para poder catalogar las estrellas que pueden pertenecer al c´ umulo. Para ello, se us´o las variables (RA, DE) para la realizaci´ on de un ďŹ ltro a partir de las reglas de clasiďŹ caci´on impuestas con ´arbol de clasiďŹ caci´ on con la funci´on rpart. Con este ďŹ ltro se encontr´o que solo 5 estrellas que pertenec´Ĺan al grupo dos pueden ser catalogadas como estrellas del Comunicaciones en Estad´Ĺstica, junio 2014, Vol. 7, No. 1
85
M´ etodos de clasificaci´ on en astronom´ıa
c´ umulo de las Hyades. Por otro lado, de las 133 estrellas, solo 91 estrellas perteneces al c´ umulo de las Hyades. Por u ´ltimo, el tercer grupo contiene una gran dispersi´on en los datos de movimientos propios indicando que los miembros de este grupo no pertenecen al c´ umulo. Despu´es de determinar cuales estrellas pertenecen al c´ umulo se elabor´ o el diagrama H-R para estas estrellas encontrando la figura 7. En este gr´afico se observa que la mayor´ıa de estas estrellas siguen la secuencia principal (lugar donde se encuentran la mayor parte de su vida), concluyendo que este c´ umulo es joven. Se observan algunas estrellas at´ıpicas (outliers) que se ubican fuera de la secuencia principal y que corresponde a las gigantes rojas. Por otra parte, al comparar los resultados obtenidos, junto con los encontrados en la literatura, se puede decir que el m´etodo de clasificaci´on basada en modelos gaussianos es bastante u ´til para determinar la pertenencia de estrellas en c´ umulos abiertos y se pueden clasificar de forma adecuada datos que sean compactos en sus variables de estudio. Como trabajos futuros se pretende utilizar otro tipo de t´ecnicas de clasificaci´ on param´etricas y no param´etricas y comparar los resultados con los obtenidos en este trabajo. Tambi´en se pretender´a aislar la secuencia principal de las Hyades en el diagrama H-R y determinar su ajuste mediante t´ecnicas de regresi´ on no param´etrica.
Agradecimientos ´ Los autores agradecen al profesor Antonio Uribe y a la profesora Luz Angela Garc´ıa por sus importantes aportes y comentarios a este trabajo. El trabajo fue elaborado en el semillero de investigaci´ on en Astronom´ıa, de la Fundaci´on Universitaria los Libertadores. Recibido: 22 de enero de 2014 Aceptado: 30 de abril de 2014
Referencias Ball, N. M. & Brunner, R. J. (2010), ‘Data mining and machine learning in astronomy’, International Journal of Modern Physics D 19(07), 1049–1106. Brieva, E. & Uribe, A. (1985), ‘Una aplicaci´ on del m´etodo de m´ axima verosimilitud en astronom´ıa galactica’, Revista Colombiana de Estad´ıstica 12, 1–25. Celeux, G. & Govaert, G. (1992), ‘A classication em algorithm for clustering and two stochastic versions’, Computational Statistics and Data Analysis 14, 315– 332. Celeux, G. & Govaert, G. (1995), ‘Gaussian parsimonious clustering models’, Pattern Recognition 28, 781–793. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
86
H´ ector Hort´ ua & Alex J. Zambrano
Chilingarian, A. A. & Vardanyan, A. A. (2003), ‘Multivariate methods of data analysis in cosmic-ray astrophysics’, Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment 502(2), 787–788. Dasgupta, A. & Raftery, A. E. (1998), ‘Detecting features in spatial point processes with clutter via model-based clustering’, Journal of the American Statistical Association 93(441), 294–302. De’ath, G. (2013), mvpart: Multivariate partitioning. URL: http://CRAN.R-project.org/package=mvpart Dempster, A. P., Laird, N. M. & Rubin, D. B. (1977), ‘Maximum likelihood from incomplete data via the em algorithm’, Journal of the Royal statistical Society 39(1), 1–38. Everitt, B. S., Landau, S., Leese, M. & Stahl, D. (2011), Cluster Analysis, 5 edn, Wiley. Feigelson, E. D. & Babu, G. J. (2012), Modern Statistical Methods for Astronomy: with R applications, Cambridge: University Press. Fraley, C. & Raftery, A. E. (1998), ‘How many clusters? which clustering method? answers via model-based cluster analysis’, The computer journal 41(8), 578– 588. Fraley, C. & Raftery, A. E. (2002), ‘Model-based Clustering, Discriminant Analysis and Density Estimation’, Journal of the American Statistical Association 97, 611–631. Fraley, C., Raftery, A. E., Murphy, T. B. & Scrucca, L. (2012), mclust version 4 for R: Normal Mixture Modeling for Model-Based Clustering, Classification, and Density Estimation, (technical report no. 597), Department of Statistics, University of Washington. Hobson, M. P., Jaffe, A. H., Liddle, A. R., Mukherjee, P. & Parkinson, D. (2010), Bayesian Methods in Cosmology, Cambridge: University Press. Hothorn, T. & Zeileis, A. (2013), partykit: A Toolkit for Recursive Partytioning. URL: http://CRAN.R-project.org/package=partykit Johnson, R. & Wichern, D. (1998), Applied Multivariate Statistical Analysis, 4 edn, New Jersey: Prentice Hall. Karttunen, H., Kr¨ oger, P. & Oja, H. (2007), Fundamental astronomy, 5 edn, New York: Springer. Liddle, A. R. (2009), ‘Statistical methods for cosmological parameter selection and estimation’, Annual Review of Nuclear and Particle Science 59(1), 95–114. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
M´ etodos de clasificaci´ on en astronom´ıa
87
Loredo, T. J. (2012), ‘On the future of astrostatistics: statistical foundations and statistical practice’, arXiv preprint, arXiv:1208.3035,http://arxiv.org/abs/1208.3035 . Perryman, M. A. C., Brown, A. G. A., Lebreton, Y., G´ omez, A., Turon, C., Cayrel de Strobel, G., Mermilliod, J. C., Robichon, N., Kovalevsky, J. & Crifo, F. (1998), ‘The Hyades: distance, structure, dynamics, and age’, Astronomy and Astrophysics 331, 81–120. R Core Team (2013), R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria. URL: http://www.R-project.org/ Sarro, L. M., Eyer, L., O’Mullane, W. & De Ridder, J. (2012), Astrostatistics and Data Mining, Vol. 2, New York: Springer. Schwarz, G. (1978), ‘Estimating the dimension of a model’, The Annals of Statistics 6, 461–464. Uribe, A., Barrera-Rojas, R.-S. & Brieva, E. (2008), ‘Membership in the region of the open cluster m67 via the expectation maximization algorithm and age determination using a bag of basti isochrones’, Memorias, COCOA 1, 88–93. Vaughan, S. (2013), ‘Random time series in astronomy’, Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences 371, 371–399.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Comunicaciones en Estad´ıstica Junio 2014, Vol. 7, No. 1, pp. 89–98
Transformaciones logar´ıtmicas en regresi´ on simple Logarithmic transformations in simple regression analysis Jorge Ortiz Pinillaa
Diana Gilb
jorgeortiz@usantotomas.edu.co
dianagil@usantotomas.edu.co
Resumen En este art´ıculo se investiga los efectos de las transformaciones logar´ıtmicas en un an´ alisis de regresi´on simple. En la pr´ actica, es muy com´ un que los par´ametros de los modelos conocidos como exponencial y potencial se estimen de manera habitual mediante una transformaci´on logar´ıtmica, que los reduce a modelos lineales y se “regresa” al modelo original aplicando la funci´ on exponencial a la estimaci´ on del intercepto. En este trabajo se encuentra que este procedimiento no genera estimadores de m´ınimos cuadrados para el modelo inicial e introduce variaciones en la forma como se conciben las relaciones entre las variables. La popularidad de las herramientas de an´ alisis hace que el riesgo de utilizar modelos que no correspondan a los datos pase desapercibido. Palabras clave: modelo exponencial, modelo potencial, m´ınimos cuadrados, regresi´on no lineal, modelos de regresi´on. Abstract In this paper the effect of the logarithmic transformations in simple regression analysis is investigated. In practice, it is very common that exponential and power models’ parameters are estimated by means of a logarithmic transformation which reduces them to a linear form. The estimations in the initial models are obtained by applying the exponential function to the intercept estimation. In this work, it is found that this procedure does not generate least squares solutions for the initial model and introduces variations in the way in which relationships between variables are conceived. Because of the popularity of software tools, the risk of using inappropriate models for the data may be unnoticed. Keywords: exponential model, power model, least squares, non linear regression, regression models. a Docente.
Facultad de Estad´ıstica, Universidad Santo Tom´ as, Colombia. Carrera de Estad´ıstica, Universidad Santo Tom´ as, Colombia.
b Estudiante,
89
90
Jorge Ortiz Pinilla & Diana Gil
1. Introducci´ on Una pr´actica com´ un en las aplicaciones de los m´etodos de regresi´on consiste en buscar transformaciones que permitan construir modelos lineales para describir las relaciones entre las variables. La mayor´ıa de los textos b´asicos hacen esta recomendaci´on y dan por resuelto el problema. Por ejemplo, Mendenhall & McClave (1981, p. 259) escriben When the transformed model is used to predict the value of log y, the predicted value of y is the antilog, y = elog y . Walpole et al. (2012), en el ejemplo 11.9 de la p´ agina 426, utilizan el mismo procedimiento de transformar con logaritmos tanto la presi´ on como el volumen de un gas para estudiar emp´ıricamente la ley del gas ideal. Despu´es de obtener los coeficientes del modelo transformado, calculan la funci´on exponencial al intercepto para “regresar” a la forma original del modelo potencial. Las referencias anteriores han tenido un alto impacto en la ense˜ nanza de la estad´ıstica en carreras universitarias como ingenier´ıa, f´ısica, qu´ımica y econom´ıa. Una de ellas data de 1981 y la otra de 2012. Durante este periodo, la estad´ıstica se ha consolidado como herramienta de uso cotidiano y masivo entre los investigadores, gracias al desarrollo de las computadoras personales y a la disponibilidad de software que incorpora procedimientos de an´alisis de datos. Por otra parte, las hojas electr´ onicas y las calculadoras cient´ıficas que incluyen an´alisis de regresi´on aplican el procedimiento descrito como la u ´nica opci´ on: se transforma el modelo en uno lineal, se obtienen las estimaciones de los par´ ametros por el m´etodo de m´ınimos cuadrados y se reconstruye el modelo original aplicando la transformaci´on inversa (exponencial) a los elementos que corresponda. En estas circunstancias, el analista utiliza las herramientas y obtiene resultados sin ninguna se˜ nal de alerta que le advierta sobre el riesgo de tomar decisiones, con base en modelos que no describan en forma adecuada las tendencias de la nube de puntos. La popularidad de estas herramientas hace masivo el riesgo. Por tratarse de la funci´on logar´ıtmica que es una transformaci´on estrictamente mon´ otona creciente, efectivamente el modelo transformado es equivalente al modelo original. Esto garantiza una interpretaci´on adecuada de los coeficientes con el debido cuidado de las transformaciones requeridas. No sucede lo mismo con las estimaciones de los par´ametros. Unas resultan de minimizar la suma de cuadrados de los errores del modelo en las unidades originales utilizadas para tomar los datos, y otras, en unidades logar´ıtmicas que atribuyen menor importancia a las diferencias entre los valores m´as grandes de la variable. Como consecuencia, el m´etodo de m´ınimos cuadrados aplicado al modelo transformado no produce estimaciones de m´ınimos cuadrados para el modelo original. Por lo tanto, el resultado obtenido puede ser inadecuado para pronosticar la respuesta esperada a partir de valores espec´ıficos de la variable X. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
91
Transformaciones logar´ıtmicas en regresi´ on simple
El prop´ osito de este art´ıculo es comparar los m´etodos que se utilizan para obtener las estimaciones de m´ınimos cuadrados de los modelos exponencial y potencial de manera directa con los que se basan en transformaciones logar´ıtmicas. Como criterio de comparaci´on se toma la suma de cuadrados residual, como indicador de la bondad del ajuste del modelo a los datos observados.
2. Modelo exponencial Cuando el modelo planteado es de la forma y = β0 e β 1 x
(1)
las estimaciones de m´ınimos cuadrados se obtienen buscando b0 y b1 correspondientes al menor valor de la funci´ on g(b0 , b1 ) =
n
yi − b0 eb1 xi
2
(2)
i=1
Se deriva g(b0 , b1 ) con respecto a b0 y a b1 y luego se iguala a cero cada derivada: n ∂g(b0 , b1 ) = −2 yi − b0 eb1 xi eb1 xi ∂b0 i=1
Entonces:
n
b0 =
i=1 n
yi eb1 xi (3) e2b1 xi
i=1
Haciendo lo mismo para b1 , n ∂g(b0 , b1 ) yi − b0 eb1 xi b0 eb1 xi xi = −2 ∂b1 i=1 n
xi yi eb1 xi − b0
i=1
n
xi e2b1 xi = 0
i=1
on obtenida en (3), se llega a la siguiente ecuaci´on Reemplazando b0 por la expresi´ que solo tiene b1 como inc´ognita: n i=1
xi yi eb1 xi −
b1 xi n ye i2b x xi e2b1 xi = 0 e 1 i i=1
(4)
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
92
Jorge Ortiz Pinilla & Diana Gil
La complejidad de esta ecuaci´on solo permite encontrar sus soluciones por m´etodos num´ericos. Si las denotamos como β˜0 y β˜1 , el modelo ajustado por m´ınimos cuadrados directos es: ˜ y˜ = β˜0 eβ1 x (5) Las estimaciones mediante la transformaci´on logar´ıtmica se obtienen llevando el modelo (3) al equivalente: y ∗ = β0∗ + β1∗ x∗ (6) en donde
y ∗ = ln(y),
β0∗ = ln(β0 ),
β1∗ = β1 ,
x∗ = x
(7)
Como (6) es un modelo lineal, las estimaciones de β0 y β1 son: b∗1 b∗0
cov(x∗ , y ∗ ) var(x∗ ) = y ∗ − b∗1 x∗
(8)
=
(9)
Seg´ un las sugerencias de los autores citados, se “regresa” al modelo original (1) aplicando las transformaciones inversas acordes con (7): ∗
y = ey ,
∗
b0 = eb0 ,
es decir,
b1 = b∗1 , ∗
x = x∗
(10)
∗
y = eb0 eb1 x
(11)
Los dos procedimientos proveen soluciones diferentes. Resulta claro que si el primero es de m´ınimos cuadrados para el modelo original, el segundo no lo es. Por lo tanto, si se pasa al plano inferencial, los estimadores de los par´ ametros del modelo exponencial, obtenidos mediante la transformaci´on logar´ıtmica no son de m´ınimos cuadrados para el modelo original. El siguiente ejemplo sirve para ilustrar la situaci´on planteada: Ejemplo 2.1. Los siguientes datos fueron obtenidos de un modelo de la forma (1): x 6.7 14.9 7.0 5.2 7.6 18.7 11.4 9.5 17.1 8.5
y 77.4 440.2 34.0 119.8 102.6 2287.0 177.3 65.0 1273.1 124.1
x 7.2 11.3 14.7 7.7 8.3 17.0 10.8 18.1 12.0 9.3
y 38.3 101.6 457.7 4.1 24.9 1186.4 109.5 1818.2 149.2 94.5
x 16.1 4.7 7.6 13.8 18.7 11.8 5.3 17.0 19.2 12.0
y 743.4 38.9 9.8 234.5 2367.9 167.8 24.2 1201.4 2892.6 135.4
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
93
Transformaciones logar´ıtmicas en regresi´ on simple
En la gr´ afica 1, el modelo construido con la transformaci´ on logar´ıtmica se dibuja con trazos discontinuos y el obtenido por m´ınimos cuadrados directos con una curva continua. Desde el punto de vista de los datos, el primero presenta un desajuste importante en los valores m´ as grandes y no describe adecuadamente la tendencia de la nube de puntos.
3000
2500
y
2000
1500
1000
500
0 5
10
15 x
Figura 1: Ajuste de un modelo exponencial por m´ınimos cuadrados directos (l´ınea continua) y por linealizaci´ on mediante transformaci´ on logar´ıtmica de la variable Y (l´ınea discontinua). Fuente: elaboraci´ on propia.
Las estimaciones y las sumas de cuadrados residuales en la tabla siguiente muestran diferencias importantes en estos valores. En particular, la suma de cuadrados residual del modelo estimado por transformaci´ on logar´ıtmica es m´ as de 24 veces la de m´ınimos cuadrados. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
94
M´ınimos cuadrados Transformaci´ on Log.
Jorge Ortiz Pinilla & Diana Gil
b0 1.098125 3.598670
b1 0.4099219 0.3319955
Suma de cuadrados residual 61709.12 1484642.58
En el modelo exponencial los errores son de la forma: ε = Y − β0 eβ1 x
(12)
mientras que en el modelo transformado son: ε = =
ln(Y ) − ln(β0 eβ1 x ) Y
ln β0 e β 1 x
(13)
Por otra parte, el supuesto de normalidad de los errores trae consecuencias muy diferentes para los dos procedimientos. En el caso de los m´ınimos cuadrados directos, los errores son de car´ acter aditivo para Y y Y ∼ N (β0 eβ1 x , σ 2 ). En el modelo transformado, son aditivos para ln(Y ), es decir, multiplicativos para Y . Si se asuY me que ε ∼ N (0, σ 2 ), entonces de (13) se deduce que tiene distribuci´on β0 e β 1 x 2 2 2 log-normal con valor esperado eσ /2 y varianza eσ (eσ − 1). Por lo tanto, la dis2 tribuci´on de Y bajo el modelo transformado es log-normal con media β0 eβ1 x+σ /2 σ2 2 ln β0 +2β1 x+σ2 y varianza (e − 1)e . Es claro que, dependiendo del procedimiento que se utilice, se ajustan modelos diferentes en cuanto al papel que cumplen los errores y a los supuestos acerca de su distribuci´ on, y en cuanto a las consecuencias que traen sobre la distribuci´on condicional de la variable dependiente.
3. Modelo potencial El modelo se llama potencial cuando la relaci´ on entre las variables es de la forma: y = β0 xβ1
(14)
Igual que para el modelo exponencial, las estimaciones de m´ınimos cuadrados se obtienen buscando b0 y b1 correspondientes al menor valor de la funci´ on g(b0 , b1 ) =
n
yi − y i
2
i=1
=
n i=1
yi − b0 xbi 1
2
(15)
Se aplica el m´etodo tradicional de derivarla con respecto a b0 y a b1 y luego igualar a 0 cada derivada: n ∂g(b0 , b1 ) = −2 bigl(yi − b0 xbi 1 xbi 1 (16) ∂b0 i=1 Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
95
Transformaciones logar´ıtmicas en regresi´ on simple
Entonces:
yi xb1 b0 = 2bi1 xi
(17)
n ∂g(b0 , b1 ) = −2 yi − b0 xbi 1 b0 xbi 1 log(xi ) ∂b1 i=1
(18)
Haciendo lo mismo para b1 ,
n i=1
yi xbi 1 log(xi ) − b0
n i=1
1 x2b log(xi ) = 0 i
(19)
Reemplazando b0 , se obtiene la siguiente ecuaci´on que se resuelve por m´etodos num´ericos para encontrar el valor de b1 . n i=1
yi xbi 1
n yi xbi 1 2b1 log(xi ) − 2b1 xi log(xi ) = 0 xi i=1
(20)
Ejemplo 3.1. Los datos siguientes son utilizados por Walpole et al. (2012, ejemplo 11.9, p.420) para ilustrar el uso de la regresi´ on potencial. Seg´ un la ley del gas ideal, P V γ = C, donde P es la presi´ on, V es el volumen y C y γ son constantes por estimar. En el ejemplo, P es la variable dependiente y V es la variable independiente. C asume el papel de β0 y γ el de β1 en el modelo potencial y sus estimaciones se denotan como b0 y b1 . x (Volumen) y (Presi´ on)
Lineal M´ın.Cuadr Transf.Log
b0 116.1616 112451.3806 2568862.8877
50 64.7
60 51.3
b1 -1.055698 -1.894926 -2.653472
70 40.5
90 25.9
100 7.8
Suma de cuadrados residual 37.53616 164.33431 399.26979
Aunque las diferencias en las sumas de cuadrados residuales no son tan grandes como en el ejemplo de la regresi´ on exponencial, la obtenida con el procedimiento de la transformaci´ on logar´ıtmica es m´ as del doble de la de m´ınimos cuadrados directos. Se incluy´ o un ajuste lineal que curiosamente arroja una suma de cuadrados residual menor que las de los modelos potenciales. Este resultado sirve para advertir que no siempre el mejor ajuste corresponde a la respuesta m´ as adecuada. La orientaci´ on del an´ alisis estad´ıstico debe tener sus bases en los aspectos te´ oricos de la disciplina respectiva. Por otra parte, los puntos observados son seguramente insuficientes para garantizar estimaciones adecuadas de las constantes que indica la ley del gas ideal. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
96
Jorge Ortiz Pinilla & Diana Gil
60
Presión
50
40
30
20
10
50
60
70
80
90
100
Volumen
Figura 2: Ajuste de un modelo potencial por m´ınimos cuadrados directos (l´ınea continua) y por linealizaci´ on mediante transformaci´ on logar´ıtmica de la variable Y (l´ınea discontinua). En color gris claro se muestra el modelo lineal que se comenta en el texto. Fuente: elaboraci´ on propia.
Los comentarios del final de la secci´ on anterior son v´ alidos para el modelo potencial. Cuando se aplica el m´etodo directo de m´ınimos cuadrados, se considera que los errores son de la forma ε = Y − β0 xβ1 , es decir, son aditivos. Cuando se emplea el m´etodo de la transformaci´ on logar´ıtmica, los errores se calculan como Y
β1 ε = ln(Y ) − ln(β0 x ) = ln , es decir que son de car´acter multiplicativo. β0 xβ1 Igualmente, si en un contexto inferencial se asume que ε ∼ N (0, σ 2 ), entonces para los m´ınimos cuadrados directos, la variable Y tiene distribuci´on normal condicional para cada x, mientras que para la transformaci´on logar´ıtmica la distribuci´ on condicional de Y para cada x es de tipo log-normal. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Transformaciones logar´ıtmicas en regresi´ on simple
97
4. Conclusiones 1. La aplicaci´ on de transformaciones sobre la variable dependiente en los modelos con el fin de linealizarlos no conduce a soluciones de m´ınimos cuadrados. 2. Algunos residuos del modelo pueden resultar falsamente at´ıpicos. 3. La proporci´on de varianza explicada por el modelo puede ser un indicador inadecuado de la bondad de ajuste. 4. Dependiendo del procedimiento que se utilice, se ajustan modelos diferentes en cuanto al papel que cumplen los errores y a los supuestos acerca de su distribuci´ on y en cuanto a las consecuencias que traen sobre la distribuci´on condicional de la variable dependiente.
4.1. Recomendaciones 1. La observaci´ on rutinaria de la gr´ afica de puntos con la curva del modelo es fundamental para ver su calidad. 2. Si se trata de ejercicios de interpolaci´ on dentro del rango de los datos observados, el procedimiento de m´ınimos cuadrados directos es m´ as adecuado que el de la transformaci´on logar´ıtmica. 3. El uso de software no especializado en estad´ıstica debe ser especialmente cuidadoso, en particular, las hojas electr´onicas y las calculadoras cient´ıficas. 4. En la actualidad, tanto el desarrollo te´ orico como el computacional permiten dar respuesta adecuada a la b´ usqueda de modelos conocidos como linealizables.
4.2. Otros estudios 1. El estudio de propiedades generadas en funci´ on de supuestos distribucionales para los errores del modelo, en particular el insesgamiento. 2. La comparaci´on de los procedimientos cuando se utiliza el m´etodo de m´ axima verosimilitud para estimar los par´ametros. 3. Las implicaciones del uso de los procedimientos en problemas de regresi´on m´ ultiple. 4. El uso de otros criterios de comparaci´ on que exigen supuestos distribucionales para los errores, como AIC de Akaike. 5. El estudio de las transformaciones para otros modelos no lineales entre variables, como las de la familia Box-Cox. Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
98
Jorge Ortiz Pinilla & Diana Gil
Agradecimientos Los autores agradecen a los evaluadores la dedicaci´on y el cuidado en la lectura del art´ıculo y los comentarios que permitieron corregir algunos errores y mejorar el contenido. Recibido: 21 de marzo de 2014 Aceptado: 28 de abril de 2014
Referencias Mendenhall, W. & McClave, J. (1981), A Second Course in Business Statistics: Regression Analysis, Dellen Publishing Company, Santa Clara, California. Walpole, R., Myers, R., Myers, S. & Ye, K. (2012), Probability & Statistics for Engineers & Scientists, Prentice Hall, New York.
Comunicaciones en Estad´ıstica, junio 2014, Vol. 7, No. 1
Revista Comunicaciones en Estad´ıstica
Informaci´ on para los autores La revista Comunicaciones en Estad´ıstica es una publicaci´ on del Centro de Investigaciones y Estudios Estad´ısticos (CIEES) adscrito a la Facultad de Estad´ıstica de la Universidad Santo Tom´ as. La periodicidad de esta revista es semestral, el primer n´ umero se publica en junio y el segundo en diciembre, de cada a˜ no. El objetivo de esta publicaci´on es divulgar art´ıculos originales e in´editos en cualquier tem´atica de la estad´ıstica te´ orica y aplicada. La finalidad de esta revista es motivar la cultura de la investigaci´ on estad´ıstica, y por ende, su p´ ublico objetivo est´a en todos aquellos investigadores que utilicen cualquier m´etodo estad´ıstico en el desarrollo de sus proyectos. La revista Comunicaciones en Estad´ıstica publica art´ıculos originales te´ oricos, aplicaciones de t´ecnicas estad´ısticas en cualquier rama del saber que conlleven a publicaciones in´editas as´ı como tambi´en, cartas al editor surgidas de la discusi´on de art´ıculos ya publicados en esta Revista. A continuaci´ on se presentan algunas de las caracter´ısticas principales del proceso editorial en esta publicaci´ on. Sumisi´ on de art´ıculos El Comit´e Editorial de la revista Comunicaciones en Estad´ıstica sugiere que el formato de los art´ıculos sometidos sea PDF y preferiblemente en tama˜ no carta. Los autores deben enviar una versi´on ciega del manuscrito, sin ninguna informaci´on de la identidad o afiliaci´ on de estos, usando la plantilla disponible en la p´ agina webhttp://comunicacionesenestadistica.usta.edu.co/ de la revista. Los art´ıculos deber´ an ser adjuntados y enviados a la direcci´ on de correo electr´ onico1 oficial de la revista y ser´ an socializados por el Editor en el Comit´e Editorial. Contenido La revista Comunicaciones en Estad´ıstica publica la siguiente clase de art´ıculos: Aplicaciones y estudios de caso que presenten an´alisis estad´ısticos innovadores o implementen ejercicios emp´ıricos para evaluar t´ecnicas estad´ısticas en situaciones particulares reales o simuladas. Nuevas contribuciones te´ oricas o metodol´ ogicas que conlleven al desarrollo de procedimientos, algoritmos y metodolog´ıas in´editas desde el punto de vista te´ orico. Tambi´en se incluyen procedimientos computacionales y gr´ aficos ilustrados mediante una aplicaci´on pr´actica en el caso en que hubiese lugar para tal implementaci´on. 1 revistaestadistica@usantotomas.edu.co
Revisi´ on exhaustiva de tem´ aticas estad´ısticas en ´areas de aplicaci´ on pr´actica o en campos espec´ıficos de m´etodos y teor´ıa estad´ıstica. Cartas al editor y correcciones mediante escritos directos y concisos acerca de la discusi´on o correcci´ on de alg´ un art´ıculo publicado con antelaci´on en esta revista. T´ıtulo y resumen El t´ıtulo del art´ıculo debe ser espec´ıfico, asimismo, cada art´ıculo sometido debe contener un resumen de no m´as de 400 palabras y no se deben citar ninguna clase de referencias bibliogr´ aficas en el resumen. Inmediatamente despu´es del resumen deben aparecer las palabras clave del art´ıculo, que deber´ an describir el contenido de este. Por pol´ıticas de la revista Comunicaciones en Estad´ıstica, el idioma principal de esta publicaci´on es el espa˜ nol, aunque tambi´en se publicar´ an art´ıculos en el idioma ingl´es. Cada art´ıculo sometido deber´ a contar con el t´ıtulo en el idioma principal del art´ıculo y con su respectiva traducci´on al idioma secundario. Lo mismo se debe hace con el resumen y con las palabras clave. Por ejemplo, si el idioma principal del art´ıculo es el espa˜ nol, este deber´a contener el t´ıtulo principal en espa˜ nol y su respectiva traducci´on al ingl´es. Adem´as, el resumen principal deber´a estar escrito en espa˜ nol y tambi´en deber´ a ser traducido al ingl´es junto con las palabras clave. Figuras y tablas Al igual que las figuras, las tablas deben ser rotuladas con n´ umeros ar´ abigos. Cada uno de estos objetos debe contener un t´ıtulo que lo describa con detalle y tienen que ser citados dentro del texto del art´ıculo. Se sugiere a los autores que las im´agenes sean enviadas por aparte en cualquier formato gr´afico (eps, ps, tif, jpg o bmp) de alta resoluci´on, en color y en escala de grises. La versi´ on impresa de la revista contendr´a solo im´agenes en escala de grises; sin embargo, la edici´on virtual de la revista contendr´a las im´agenes a color. Ap´ endices y referencias bibliogr´ aficas Los ap´endices del manuscrito deben estar ubicados al final de art´ıculo, despu´es de las referencias bibliogr´ aficas. Se sugiere que los ap´endices correspondan a desarrollos te´ oricos extensos, material suplementario y algoritmos computacionales. Por otro lado, el sistema de referencia bibliogr´afica que se utiliza en esta publicaci´ on es el formato autor-a˜ no conocido tambi´en como formato Harvard. Todas las referencias bibliogr´ aficas que aparezcan en el art´ıculo deben estar contenidas y citadas en el texto general o cuerpo del manuscrito. De esta manera, si la referencia forma parte de una frase, se deben citar los apellidos, colocando en un par´entesis el a˜ no de la publicaci´ on; si la referencia no forma parte de una frase, se deben citar entre par´entesis los apellidos seguidos del a˜ no de publicaci´ on. Responsabilidad legal El Comit´e Editorial de la revista Comunicaciones en Estad´ıstica asume que los art´ıculos sometidos no est´ an publicados por ning´ un otro medio impreso o virtual.
Asimismo, se asume que el art´ıculo es in´edito, original y que no se encuentra en proceso de revisi´on, arbitraje o publicaci´on en alguna otra revista, magaz´ın o cualquier sitio virtual. Al momento de recibir un art´ıculo para revisi´on, los autores adquieren toda responsabilidad legal acerca de gr´aficas, tablas, datos y texto. De la misma manera, los autores liberan a la revista Comunicaciones en Estad´ıstica de cualquier acci´on penal emprendida por un tercero por delitos a derechos de autor o cualquier otra afrenta. Por otro lado, si el Comit´e Editorial decide a favor la publicaci´ on de un art´ıculo, los autores deber´ an firmar y aceptar el traspaso de los derechos de autor del art´ıculo a la revista. Sin embargo, los autores podr´an adjuntar a su sitio web una versi´ on del documento final. La revista Comunicaciones en Estad´ıstica se reserva los derechos de autor o difusi´ on de los contenidos. Proceso de arbitraje Los art´ıculos sometidos a la revista Comunicaciones en Estad´ıstica ser´ an evaluados en un primer dictamen por el Comit´e Editorial y luego ser´an sometidos a arbitraje t´ecnico por profesionales especializados en la tem´atica del manuscrito. El proceso de arbitraje ser´ a doblemente ciego; es decir, los autores no conocer´ an la identidad ni afiliaci´ on de los a´rbitros y a su vez, los ´arbitros no conocer´an la identidad ni afiliaci´ on de los autores. De otro lado, la identidad del editor en curso ser´ a conocida tanto por los autores como por los a´rbitros. Para facilitar el proceso de revisi´on, se les pide a los autores someter dos versiones del manuscrito; la primera omitiendo las identidades y afiliaciones de los autores y la segunda conteniendo tanto las identificaciones como las afiliaciones institucionales. Se asignan dos a´rbitros por cada manuscrito y los posibles dictamenes son: aceptar, rechazar o solicitar modificaciones para una nueva revisi´ on. En caso de presentar dictamenes opuestos por parte de los ´arbitros se asignar´a un tercero.
Information for authors The journal Communications in Statistics is published by the Center for Research and Statistical Studies (CIEES acronym in Spanish) assigned to the Faculty of Statistics of Universidad Santo Tom´ as. The periodicity of this Journal is biannual, the first issue is published in June and the second in December, of every year. The intention of this publication is to disseminate original and unpublished articles on any topic of theoretical and applied statistics. The purpose of this Journal is to promote a culture of statistical research, and hence, its target audience is in all those researchers who use any statistical method in the development of their projects. The journal Communications in Statistics is publishes original theoretical articles, applications of statistical techniques in any branch of knowledge that lead to unpublished articles as well as, letters to the editor that arise from the discussion of articles already published by this Journal. Following are some key features of the editorial process of this publication. Submission of articles The Editorial Committee of the journal Communications in Statistics suggests the articles be submitted in PDF format and preferably in letter size. Authors must send a blind copy of the manuscript, without any information of their identity or affiliation, using the format available in the Journal’s web page2 . The articles must be attached and sent to the Journal’s official e-mail address3 and will be socialized by the Editor in the Editorial Committee. Content The Journal Communications in Statistics publishes the following types of articles: Applications and case studies that present innovative statistical analysis or implement empirical exercises to assess statistic techniques in real or simulated specific situations. New theoretical or methodological contributions that lead to the development of procedures, algorithms and unpublished methodologies from the theoretical point of view. It also includes computational procedures and illustrated graphs by a practical application in the event there is space for such implementation. Exhaustive review of statistical topics in areas of practical application or specific fields of statistic methods and theory. Letters to the editor and corrections through direct and concise writings 2 http://comunicacionesenestadistica.usta.edu.co/ 3 revistaestadistica@usantotomas.edu.co
about the discussion or correction of any article previously published in this Journal. Title and abstract The title of the article must be specific, likewise, each article submitted must have an abstract of no more than 400 words and no type of type of bibliographic references should be cited in the abstract. Immediately after the abstract must appear the article’s keywords, which should describe its content. By policies of the journal Communications in Statistics, the main language of this publication is Spanish, although some articles will also be published in English. Each article submitted shall also have a title in the article’s main language with its translation to the secondary language. The same must be done with the abstract and keywords. For instance, if the main language of the article is Spanish, it should have the main title in Spanish with its translation into English. Moreover, the main abstract should be written in Spanish and must also be translated into English along with the keywords. Figures and charts Like the figures, charts should be labeled in Arabic numerals. Each one of these objects must have a title that describes it in detail and have to be cited inside the text of the article. It is suggested to authors they send images separately in any graphic format (eps, ps, tif, jpg or bmp), with high resolution, color and gray scale. The Journal’s printed version will only contain images in grey scale; however, the virtual edition of the Journal will have color images. Appendix and bibliographic references Appendixes of the manuscript must be located at the end of the article, after the bibliographic references. It is suggested that appendixes refer to extensive theoretical developments, supplement material and computational algorithms. On the other hand, the bibliographic reference system used in this publication is the author-year format also known as the Harvard format. All bibliographic references that appear in the article should be contained and cited in the general text or body of the manuscript. Thus, if the reference is part of a phrase, surnames should be cited, with the year of publication between brackets; if the reference is not part of a phrase, the surnames followed by the year of publication must be cited between brackets. Legal liability The Editorial Committee of the journal Communications in Statistics assumes that the articles submitted are not published by any other printed or virtual media. Likewise, it is assumed that the article is unpublished, original and is not under review, peer review or publication in any other journal, magazine or any virtual site. Upon receipt of an article for review, authors acquire all legal liability on graphs, charts, data and texts. Likewise, authors release from liability the journal Communications in Statistics in any criminal action brought by a third party,
for crimes related with copyrights or any other offense. On the other hand, if the Editorial Committee decides in favor of publishing an article, authors must sign and accept to transfer copyrights of the article to the Journal. However, authors may attach to their website a version of the final document. The journal Communications in Statistics reserves copyrights or rights to circulate the contents. Peer review proceeding Articles submitted to the journal Communications in Statistics will be assessed on a first opinion by the Editorial Committee and will then be subject to a technical peer review by professionals specialized on the topic of the manuscript. The peer review proceeding will be doubly blind, that is, authors will not know the identity nor affiliation of peer reviewers and in turn, peer reviewers will not know the identity nor affiliation of the authors. On the other hand, the identity of the current editor will be known by both authors and peer reviewers. To facilitate the review process, authors are requested to present two versions of the manuscript: the first one omitting the identities and affiliations of the author and the second containing the identity and as well as institutional affiliations. Two peer reviewers are assigned for each manuscript and the possible opinions are: accept, reject or request changes for a new review. In the event of opposite opinions by peer reviewers a third one will be designated.