BOSQUE 27(1): 35-43, 2006 BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
Comparación de redes neuronales y regresión lineal para estimar productividad de sitio en plantaciones forestales, utilizando geomática Comparison of neural networks and linear regression to estimate site productivity in forest plantations, using geomatic Carlos Mena Frau1*, Rodrigo Montecinos Guajardo2 *Autor de correspondencia: 1 Universidad de Talca, Departamento de Gestión Forestal Ambiental, Avda. Lircay s/n, Talca,
Tel. 56-71-200433, Fax: 56-71-200455, cmena@utalca.cl
2 Universidad de Talca, Departamento de Gestión Forestal Ambiental, Talca
SUMMARY
This research paper proposes a methodology to estimate site productivity in forest plantations by both linear regression models and artificial neural networks using some geomatic tools, such as Geographic Information System (GIS), Global Posicionating System (GPS) and Fotogrammetry. The study was carried out in the El Picazo Experimental Station which is located in the Andean premountain of the Maule Region. Independent variables are related to the distance to the water courses (DCA), terrain elevation model (MDE), geographic orientation model (MDO) and terrain slope model (MDP); the dependent variable was the total height of the 100 tallest trees per hectare (H_100). In all the estimation techniques applied the best selected variables were the terrain slope and the distance to the water courses. Moreover, the quality of the generated estimations (R2 = 41.65%) is within the range established in previous similar research works. The analysis of the results shows that the neural networks has smaller values for absolute mean error (EMA) and mean error quadratic root square (RMSE), than the linear regression model which has a smaller mean bias (SM) and is easier to integrate into a Geographic Information System. Finally, it is possible to establish that the site productivity based on some environmental variables like those indicated above allows to know useful information in order to develop forest plantation programs in bare zones. Key words: geomatic, neural networks, site productivity.
RESUMEN En la presente investigación se propone una metodología para estimar la productividad de sitio en plantaciones forestales mediante modelos de regresión lineal y redes neuronales, utilizando herramientas geomáticas, tales como sistemas de información geográfica (SIG), sistema de posicionamiento global (GPS) y fotogrametría. El estudio se llevó a cabo en la Estación Experimen tal “El Picazo”, ubicada en la precordillera andina de la VII Región del Maule. Las variables independientes consideradas tienen relación con la distancia a los cursos de agua (DCA), modelo digital de elevaciones (MDE), modelo digital de orientaciones (MDO) y modelo digital de pendientes (MDP); como variable dependiente se utilizó la altura de los 100 individuos más altos por hectárea (H_100). En ambas técnicas de estimación, las variables finalmente seleccionadas fueron MDP y DCA. La calidad de las estimaciones generadas (R2 = 41,65%) se encontró dentro del rango establecido en investigaciones anteriores. El análisis de los resultados establece que el modelo neuronal presenta un menor error medio absoluto (EMA) y una raíz cuadrada del error cuadrático medio (RMSE) inferior respecto al modelo de regresión lineal múltiple, el cual presentó un menor sesgo medio (SM) y fue más fácil de integrar en un SIG. Por último, se destaca que la productividad de sitio basada en indicadores ambientales como los aquí considerados, permite conocer información útil para desarrollar programas de forestación en zonas despobladas. Palabras clave: geomática, redes neuronales, productividad de sitio.
35
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
INTRODUCCIÓN La geomática es un campo de actividades que usando una aproximación sistémica integra todos los medios para adquirir y manejar datos espaciales requeridos como par te de las actividades científicas, administrativas, legales y técnicas, que se preocupan de la producción y manejo de información espacial (Instituto Canadiense de Geo mática 2000). Se puede afirmar que una de las fortalezas que posee la geomática está referida a la capacidad de combinar información de diferentes fuentes, la cual, re sumiendo apropiadamente, es capaz de generar informa ción que en principio no se dispone con facilidad (Lowell 1999). Por otra parte, la capacidad productiva de un determi nado lugar se conoce como calidad de sitio, donde “si tio” está formado por un complejo de factores bióticos y abióticos y su calidad está en función de los factores ambientales relacionados con el suelo, clima, topografía, entre otros (Álvarez y Ruiz 1995). Por lo tanto, la pro ductividad de los sitios forestales puede definirse como el máximo volumen de madera que se puede obtener en un lugar y tiempo determinados. Este parámetro puede ser expresado mediante el modelo general: P = f (C, R, S, G, V, A, M, T), donde P: productividad de sitio, C: cli ma, R: relieve, S: factores asociados al suelo, G: calidad genética, V: estructura de la comunidad vegetal, A: ani males, M: influencia humana, y T: tiempo (Gerding y Schlatter 1995). La relación funcional indicada anteriormente, P = f (Variables ambientales y tiempo), da origen a modelos de productividad mediante el empleo de modelos de re gresión lineal múltiple (Green et al. 1989, Klinka y Car ter 1990, Rodrigue 1997). Una “red neuronal artificial” (RNA) está constituida por una colección de elementos de procesamiento (nodos o neuronas) altamente interconectados que transforma un conjunto de datos de entrada en un conjunto de datos de salida deseado (Iost y Rivera 1993, Zhou y Zivco 1996). Es una técnica de estimación y clasificación pertenecien te a la inteligencia artificial, que tiene como principio el proceso de aprendizaje que intenta simular la conducta cognitiva del cerebro humano (Freeman y Skapura 1993). Rath (1999) y Schultz et al. (1999) señalan que una RNA está constituida por capas o layers de información, donde generalmente se puede distinguir una capa de en trada (variables independientes), una o varias capas in termedias u ocultas (que realizan la determinación de las relaciones entre las variables de entrada y salida) y una capa de salida que recibe el resultante de las variables independientes (figura 1). El objetivo de la presente investigación fue establecer una metodología para estimar y comparar la productivi dad de sitio en plantaciones forestales, utilizando técni cas de regresión lineal y redes neuronales, en donde se relacione un índice de productividad (altura dominante 36
Capa oculta
Capa de
entrada
Capa de salida
Figura 1. Red neuronal artificial. Artificial neural network.
de los árboles a los 6 años de edad) con variables am bientales obtenidas de una base de datos sustentada por un sistema de información geográfica (SIG).
MÉTODOS Área de estudio. La zona de estudio considerada para la realización de la presente investigación correspondió al predio “El Picazo” perteneciente a la Universidad de Talca. Se encuentra ubicado en la VII Región del Maule, comuna de San Clemente, entre los 35º 31’ 19’’ a 35º 23’ 19’’ de latitud sur y los 71º 08’ 45’’ a 71º 12’ 49’’ de longitud oeste, contando con una superficie de 1.422 ha (figura 2). Toma de datos. Del inventario forestal disponible para la zona considerada se obtuvo la variable dependiente altu ra total (m) para los 100 árboles más altos por hectárea, contenidos en una parcela circular de 500 metros cuadra dos. Se estableció una red de parcelas sistemática con una intensidad de muestreo de una parcela cada tres hec táreas. Se midió un total de 211 parcelas en el predio. La información cartográfica digital empleada consi deró aquellas variables que tuvieran alguna incidencia en el comportamiento de la productividad de sitio en planta ciones de Pinus radiata D. Don. Las variables espaciales seleccionadas de la base de datos fueron: red hidrográfi ca, curvas de nivel (equidistancia de 10 m) y ubicación geográfica de las parcelas. Estas coberturas se encuen tran en formato vectorial y provienen de una restitución óptico-digital de fotografías aéreas verticales pancromáti
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
300000
304000 LEYENDA
6066000
6066000
Límite predial
DATOS
6064000
6064000
300000 1
304000 0
1
2
3 km
Predio
: El Picazo
Propietario
: Universidad de Talca
Proyección
: UTM 19 Sur PSAD1956
Fuente
: Restitución aerofotogramétrica (año 2000)
Superficie
: 1.422 hectáreas
Uso
: Tipo forestal Roble-Hualo y Pinus radiata
Coordenadas
: 35ë 31’ 19” a 35ë 23’ 19” latitud Sur 71ë 08’ 45” a 71ë 12’ 41” longitud Oeste
Figura 2. Zona de estudio. Predio El Picazo. Study zone. El Picazo farm.
cas, escala 1:20.000, logrando un nivel de detalle final 1:5.000. A partir de la información espacial anterior se generaron los datos a emplear en los modelos de produc tividad de sitio, incluyendo modelo digital de elevacio nes (MDE), de pendientes (MDP), de orientaciones (MDO) y distancia a los cursos de agua (DCA). Generación de los planos digitales. La generación de la cartografía digital utilizada contempló la realización de las siguientes fases: i. Construcción del modelo digital de elevaciones (MDE). Una de las formas más comunes de obtener un MDE en formato raster es la interpolación lineal de curvas de nivel. Para realizar este proceso, el soft ware IDRISI se vale del máximo valor de la pendien te de los píxeles vecinos para calcular el valor de la elevación. La validación del MDE fue realizada me diante una comparación de las mediciones realizadas en terreno con un receptor GPS cartográfico y las estimadas por el modelo. Este procedimiento arrojó un RMS (Root Mean Square) de 2,79 m. ii. Construcción de los modelos derivados. Para la cons trucción del modelo digital de pendientes (MDP) el sistema determina el máximo valor de las pendientes incluidas en una ventana móvil de 3x3, asignándolo a la celda central. Para el modelo digital de orientacio nes (MDO), las exposiciones del terreno se calcula ron en grados sexagesimales y en el sentido de las manecillas del reloj. A los sectores planos el algorit mo le asigna el valor temático –1.
iii. Distancia a los cursos de agua (DCA). La variable se generó en el software raster, donde el valor de cada celda se calculó como la distancia euclidiana entre dicho píxel y los de referencia. La información cartográfica mencionada anteriormente servirá de base para la construcción de los modelos de productividad de sitio mediante técnicas de regresión li neal y redes neuronales. Esta información se obtuvo mediante la realización de un proceso de restitución foto gramétrica óptico-digital, que de acuerdo a lo expuesto por López y Mena (1999) es la técnica que presenta una mayor confiabilidad para la generación y actualización cartográfica. Generación de los modelos de productividad de sitio mediante regresión lineal múltiple. A partir del método mínimos cuadrados ordinarios, se generaron curvas que explican el comportamiento de la productividad de sitio en plantaciones forestales. Para la construcción del mo delo se utilizó un 70% de los datos disponibles y para su validación el 30% restante. Es conveniente señalar que la gran mayoría de los análisis realizados se basan en el uso de un estadístico denominado valor-p o P-Value, el cual corresponde a la probabilidad de aceptar la hipótesis nula, comparada con el nivel de significancia a (se utilizó α = 0,05). A continuación se presenta la secuencia lógica para efectuar el análisis de regresión lineal múltiple: i. Selección de variables. Debido a que no se conoce cuáles son las variables influyentes en la productivi
37
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
dad de sitio, se utilizó una matriz de correlaciones basada en el cálculo del coeficiente de correlación de Pearson, para establecer una primera aproximación sobre la determinación de variables independientes (Vallejos 1999). La selección final de las variables explicativas del modelo se realizó empleando el algo ritmo Forward Selection implementado en el soft ware Statgraphics Plus. ii. Análisis de regresión. En esta fase se determinó el valor de los coeficientes e intercepción de la recta de regresión. Además, se obtuvieron los estadísticos bá sicos para analizar el modelo: coeficiente de determi nación (R2), coeficiente de determinación ajustado (Ra2), el error estándar de la estimación y el aporte de cada variable en el modelo (Canavos 1988). iii. Supuestos acerca del error. Anderson et al. (1999) señalan que es necesario verificar tres supuestos bási cos contemplados en el método de mínimos cuadra dos ordinarios: normalidad, media igual a cero y ho mocedasticidad. Normalidad, mediante la prueba Kolmogorov-Smirnov (K-S), apropiada para el estu dio de variables aleatorias continuas; este análisis se complementó mediante el gráfico de probabilidad normal y el histograma de frecuencias de los errores (Cook y Weisberg 1999). Media igual a cero: se pro bó el supuesto que evalúa si el valor medio de los residuos es igual a cero (Vallejos 1999). Para ello, se utilizó la siguiente prueba de hipótesis: H0: la media de las observaciones es igual a cero. Ha: la media de las observaciones es distinta de cero. Homocedasticidad: este supuesto sugiere que las va rianzas de la variable independiente sean similares. Para determinarlo se utilizó la prueba de Bartlett (Gu jarati 1996). Generación de modelos de productividad de sitio me diante redes neuronales artificiales. A partir del algorit mo de redes neuronales artificiales se establecieron los modelos que explican el comportamiento de la producti vidad de sitio en plantaciones de Pinus radiata, utilizan do variables topográficas y ambientales. Para tales efec tos se utilizó el software Pathfinder Neural Networks SystemTM. El ingreso de los datos al modelo requirió de una normalización, vale decir, los valores fueron escala dos entre cero y uno. La construcción y validación del modelo neuronal se llevó a cabo mediante la realización de las siguientes etapas: i. Fase de entrenamiento. La fase contempló la utili zación del 45% de los datos, con la finalidad de calcular los pesos sinápticos de las conexiones. Se probaron varias arquitecturas de la red neuronal, utilizando sólo una capa oculta o intermedia dentro de la configuración, ya que el software usado no permite ampliar la cantidad de layers. El algoritmo empleado para el proceso de entrenamiento fue el de 38
retropropagación del error, considerando una fun ción de transferencia sigmoidea. Para la selección de las variables que explican el modelo y el recono cimiento de los puntos de quiebre, se realizó la grá fica del RMSE y el coeficiente de correlación de Pearson, cuantificando el aporte de cada variable al modelo. Para evitar el riesgo de sobreentrenamiento se adoptó un criterio de detención basado en el aná lisis de la gráfica del RMSE de la curva de control y de entrenamiento. ii. Fase de prueba. Se utilizó un 10% de los datos res tantes, con el objeto de determinar el momento opor tuno cuando el proceso de entrenamiento puede dete nerse, definiendo posteriormente la matriz final de pesos sinápticos. iii. Fase de validación. La validación del modelo neuro nal se llevó a cabo empleando el 15% restante de los datos y una vez que el entrenamiento ha finalizado. Su objetivo es medir la calidad del modelo que se ha propuesto y verificar si fue capaz de generalizar los datos en el proceso de aprendizaje. Como estadísticos de validación se utilizaron el RMSE y el coeficiente de correlación de Pearson. Comparación de los modelos de productividad de sitio. Los modelos de productividad generados fueron valida dos con aquellos datos no empleados para su construc ción, utilizando para esta tarea el 30% de la información disponible. Los índices considerados para la compara ción de los modelos fueron el RMSE, el EMA (error medio absoluto) y el SM (sesgo medio), este último usa do para analizar el sentido de las desviaciones (sobre o subestimación). Aplicación de los modelos de productividad de sitio. Posterior a la evaluación y validación de los modelos, éstos se implementaron al interior de un sistema de in formación geográfica (IDRISI), obteniéndose mapas te máticos de productividad de sitio para plantaciones de Pinus radiata presentes en la zona de estudio.
RESULTADOS Estimación por el método de mínimos cuadrados. A con tinuación se describen los resultados obtenidos de los modelos de regresión lineal múltiple: Análisis de correlación. En el cuadro 1 se presentan las correlaciones de Pearson con respecto a la variable de pendiente (productividad de sitio), representada por la altura promedio de los 100 árboles más altos por hectá rea a los 6 años de edad (H_100). Ello representa el análisis exploratorio de las variables independientes con el objeto de observar su influencia sobre la productividad de sitio.
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
Cuadro 1. Análisis de correlación.
Supuestos acerca del error. A continuación se muestra el análisis detallado de los errores, paso necesario para el cumplimiento de los supuestos establecidos en el método de mínimos cuadrados.
Correlation analysis.
Coeficiente de correlación (Valor-P)
Variable
MDE (Modelo digital de elevaciones) MDO (Modelo digital de orientaciones) MDP (Modelo digital de pendientes) DCA (Distancia a cursos de agua)
0,1452 –0,1198 –0,4849 –0,4539
•
Distribución normal de los residuos: con la informa ción entregada por la prueba K-S (P = 0,8871) se puede aseverar que los residuos se distribuyeron en forma normal, debido a que el valor-p es mayor que α, lo cual se expone gráficamente en la figura 3.
•
Media de los residuos igual a cero: los resultados entregados por la prueba de hipótesis para la media (P = 0,953) indican que no se rechaza la hipótesis nula para un α = 0,05, razón por la cual es posible aseverar que los residuos tienen media igual a cero.
•
Homocedasticidad: considerando la información su ministrada por la prueba de Bartlett, donde el valor-P (0,245) es superior al nivel de significancia a (0,05), queda de manifiesto que no se puede rechazar la hi pótesis nula; en consecuencia es posible afirmar que los residuos son homocedásticos.
(0,0804) (0,1499) (0,0000) (0,0000)
Una vez establecidas las variables que presentan un mayor coeficiente de correlación de Pearson (MDP y DCA) en relación con la productividad de sitio (H_100) se procede, mediante el algoritmo Forward Selection, a determinar las variables independientes y sus transfor maciones más importantes que aportan al modelo de pro ductividad de sitio. En este caso los mejores resultados corresponden a MDP2 y DCA. Estimación de los parámetros de regresión. Determina das las variables que tienen mayor incidencia en la pro ductividad de sitio, se obtuvieron los parámetros de re gresión, coeficientes de determinación y el error estándar de la estimación (cuadro 2). En el modelo propuesto, tanto la intercepción como las variables aportaron al modelo de regresión (ver valorP en cuadro 2). En consecuencia, la ecuación quedó de finida por la expresión: H_100 = 8,01713 – 0,00044MDP2 – 0,00632DCA [1] Es necesario consignar que el valor T de la intercep ción es muy elevado y, por lo tanto, la constante (8,01713) explica gran parte de la variación presente en la variable H_100. Por otra parte, los coeficientes de regresión tie nen una incidencia baja dentro del modelo, aun cuando aportan estadísticamente.
ESTIMACIÓN DE LA PRODUCTIVIDAD DE SITIO POR REDES NEURONALES ARTIFICIALES Determinación de las variables de entrada en el mode lo. En el cuadro 3 se presenta un resumen con el aporte de cada variable, considerando una estructura arbitraria 3:6:1 (tres nodos de entrada, seis intermedios y uno de salida). El análisis conjunto del RMSE y el coeficiente de correlación permite observar que al extraer la varia ble MDP y DCA se genera un aumento del RMSE (0,0663 y 0,0597, respectivamente), y una disminución del coeficiente de correlación (0,2606 y 0,4053). Lo indicado anteriormente permite establecer que dichas variables son las mejores predictoras para el modelo neuronal.
Cuadro 2. Estimación de los parámetros de regresión. Estimation of the regression parameters.
Variable Dependiente: Altura de los 100 árboles superiores por hectárea (H_100) Parámetro Intercepción
Estimación
Error estándar
T
Valor-P
8,01713
0,09519
84,2228
0,0000
MP2
–0,00044
0,00006
–7,23018
0,0000
DCA
–0,00632
0,00112
–5,65323
0,0000
R2: 41,65%
Ra2: 40,80%
Error estándar de la estimación: 0,563
39
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
Histograma para los Errores
Probabilidad normal para los Errores
50
99,9 99 95
Proporción
Frecuencia
40 30 20
80 50 20 5
10
1 0,1
0 –2
–1
0
1
2
–1,4
Errores
–0,9
-0,4
0,1
0,6
1,1
1,6
Errores
Figura 3. Histograma de frecuencias y gráfico de probabilidad normal. Frequency histogram and normal probability plot.
Cuadro 3. Aporte de cada variable al modelo neuronal. Contribution of each variable to the neural model.
Variable a extraer del modelo MDP DCA MDT MDO
Correlación (Valor-P) 0,2606 0,4053 0,5205 0,6035
(0,0040) (0,0003) (0,0001) (0,0001)
RMSE
0,0663 0,0597 0,0589 0,0518
Definición del número de nodos ocultos. Con el conoci miento de las variables significativas se determinó la ar quitectura final del modelo neuronal, observando en for ma simultánea el coeficiente de correlación y RMSE. El cuadro 4 presenta un resumen de siete estructuras eva luadas para el modelo neuronal. La cantidad de iteracio nes varió dependiendo de la estructura seleccionada, el criterio de parada está relacionado con el análisis de la gráfica del RMSE en función del tiempo de la curva de control y de aprendizaje para cada arquitectura del mo delo neuronal. Cuadro 4. Indicadores de la calidad del modelo neuronal con diferentes estructuras. Neural model quality indicators with different structures.
Cantidad de nodos ocultos 2 3 4 5 6 7 8
40
Coeficiente de Correlación (Valor-P) 0,5362 0,5760 0,5923 0,5310 0,5468 0,5760 0,5405
(0,0002) (0,0001) (0,0000) (0,0002) (0,0002) (0,0001) (0,0002)
RMSE
0,0527 0,0504 0,0539 0,0529 0,0521 0,0506 0,0523
De acuerdo a la información obtenida del cuadro 4, se concluye que la mejor estructura es la 2:3:1, si se considera el RMSE como estimador de la calidad. Por otro lado, si se considera el coeficiente de correlación, la mejor estructura es la 2:4:1. Por este motivo, se decidió recurrir al análisis gráfico para escoger la mejor estructu ra. Este análisis (figura 4) permite apreciar una mejor distribución de los datos en el primer caso (estructura 2:3:1), ya que los valores reales se disponen de mejor manera sobre la recta del valor estimado, en compara ción con los resultados suministrados por el modelo neu ronal de estructura 2:4:1 ubicado a la derecha. La figura 5 muestra la arquitectura definitiva de la red neuronal seleccionada. En la capa de entrada se ob serva la presencia del modelo digital de pendientes (MDP) y la distancia a los cursos de agua (DCA). En la capa intermedia se simbolizan tres nodos ocultos y en la de salida se encuentra la altura de los 100 árboles más altos por hectárea (H_100). Finalmente, se observa la presen cia de los BIAS, correspondientes a valores numéricos que actúan como constantes independientes de la ponde ración de las variables de entrada. El algoritmo de retropropagación del error (Backpro pagation) con tres neuronas ocultas y 6.810 ciclos reali zados en el software Pathfinder Neural Networks Syste mTM fue la estructura seleccionada para la construcción del modelo final. Comparación de los modelos de productividad de sitio. El cuadro 5 presenta los resultados del análisis de la comparación de los modelos obtenidos por técnicas de regresión lineal múltiple y redes neuronales artificiales. Se aprecia que el modelo neuronal presenta un menor error asociado a la estimación cuando se considera al RMSE y EMA como parámetros de comparación. Por otra parte, si se contempla el sesgo medio como indica dor, el modelo de regresión lineal presenta un menor error asociado en sus estimaciones.
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
8
Calculado
Calculado
8
7
6
7
6
2:3:1 6
7
2:4:1 8
6
Observado
7
8
Observado
Figura 4. Valores observados en función del valor calculado. Actual values in relationship with calculate value.
Cuadro 5. Comparación de los modelos de productividad de sitio. Site productivity models comparisons.
Índice Modelo SM
EMA
RMSE
Regresión lineal
–0,0159
0,4551
0,5619
Redes neuronales
0,0382
0,4380
0,5548
Cuadro 6. Superficies en hectáreas por categoría de alturas. Figura 5. Estructura de la red neuronal.
Land area of each category, in hectares.
Neural network structure.
Aplicación de los modelos de productividad de sitio. Fi nalmente, los modelos de regresión lineal y de redes neuronales escogidos se implementaron en el software IDRISI, obteniéndose un mapa de productividad de sitio del cual se presentan las categorías y superficies asocia das en el cuadro 6. De acuerdo a la información suministrada por el cua dro 6 se puede afirmar que existe una concentración de superficies en las categorías correspondientes entre los 6 y 8 metros de altura de los 100 árboles más altos por hectárea a los seis años de establecidos, aspecto que se puede visualizar en la figura 6.
DISCUSIÓN Como se puede observar en el cuadro 6, el modelo neuronal generaliza la información de productividad de sitio, mientras que el modelo resultante de la regresión
Categoría (H_100)
Modelo de regresión lineal
Modelo de redes neuronales
0-5 5-6 6-7 7-8 8 y más
8,74 58,26 389,42 957,55 8,76
– – 18,55 1.278,71 125,47
lineal genera una mayor diversidad de situaciones de productividad para Pinus radiata creciendo en la precor dillera andina de la VII Región del Maule. La represen tación digital de los modelos de productividad de sitio permite clasificar el territorio en zonas de diferente cali dad (figura 6). Por otro lado, analizando los resultados queda de manifiesto que el modelo neuronal presenta un menor error medio absoluto (EMA) y un menor RMSE; por el contrario, el modelo de regresión lineal presenta un me nor sesgo medio al realizar la estimación. Aun cuando las variables consideradas no explican del todo el com
41
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática 300000
304000
302000
304000
N
6064000
6064000
6066000
302000
6066000
300000
MODELO DE REGRESIÓN LINEAL
2000
N
MODELO DE REDES NEURONALES
0
2000
4000 metros
LEYENDA
DATOS Predio
: El Picazo
Propietario
: Universidad de Talca
Proyección
: UTM 19 Sur PSAD1956
Fuente
: Restitución aerofotogramétrica (año 2000)
: 6-6,9 m de altura de los árboles
Superficie
: 1.422 hectáreas
: 7-7,9 m de altura de los árboles
Uso
: Tipo foresta Roble-Hualo y Pinus radiata
Coordenadas
: 35ë 31’ 19” a 35ë 23’ 19” latitud Sur 71ë 08’ 45” a 71ë 12’ 41” longitud Oeste
: Menos de 5 m de altura de los árboles : 5-5,9 m de altura de los árboles
: 8 y más m de altura de los árboles
Figura 6. Cartas temáticas de productividad de sitio. Thematic chart of site productivity.
portamiento de la productividad del sitio, se encuentran dentro de los rangos establecidos por otros estudios simi lares (De las Salas 1984, Hairston y Grigal 1991, citados por Vallejos 1999). En vista de ello, Daniel et al. (1982) señalan que es altamente recomendable para estudios futuros considerar variables asociadas al suelo (estructu ra, textura, materia orgánica, profundidad, contenido de humedad, pH, entre otras) y clima (precipitación, tempe ratura, humedad relativa, entre otras), que puedan repre sentarse espacialmente en una base de datos digital sus tentada por un sistema de información geográfica. En este contexto, Schlatter y Gerding (1995) desarrollaron un sistema de clasificación de sitios forestales que se fundamenta en factores según su grado de incidencia en la productividad, ubicando en primer lugar el macrocli ma, seguido del clima local y las propiedades físicas del suelo, y finalmente las propiedades químicas y nutriti vas. Con esto, se efectuó una subdivisión en zonas de
42
crecimiento (clima), distritos de crecimiento (clima) y áreas de crecimiento (clima y suelo). Por otra parte, se debe tener especial cuidado en el proceso de aprendizaje o entrenamiento de la red neuro nal en la construcción de un modelo utilizando el algorit mo Backpropagation o de retropropagación del error, especialmente en lo referido al riesgo de sobreentrena miento. Para ello es de vital importancia asignar paráme tros adecuados a la red en este proceso, además de efec tuar el análisis de la gráfica del RMSE en función del tiempo de la curva de aprendizaje y control, de manera de establecer el momento propicio para detener el proce so de aprendizaje y evitar con esto el riesgo de sobreen trenar la red. Este último aspecto es esencial para lograr una buena confiabilidad de las estimaciones efectuadas por el modelo, ya que un sobreentrenamiento de la red neuronal ocasiona que el modelo elaborado no tenga la capacidad de generalizar la información.
BOSQUE 27(1): 35-43, 2006
Redes neuronales y regresión lineal en plantaciones forestales, utilizando geomática
CONCLUSIONES El empleo de modelos de redes neuronales para re presentar la productividad de sitio forestal es razonable mente apropiado si se compara con las técnicas tradicio nales de regresión lineal múltiple. Las variables independientes elegidas, a saber: dis tancia a los cursos de agua y modelo digital de pendien tes, explican en parte el comportamiento de la variable altura de los árboles dominantes, utilizada como estimadora de la productividad de sitio. El modelo de regresión calculado presenta significa ción estadística de 41,65%, encontrándose dentro de los rangos establecidos en estudios similares. El modelo de red neuronal calculado presentó una estructura de 2 nodos de entrada, 3 nodos ocultos y 1 de salida, para modelar la productividad de sitio en las plan taciones de Pinus radiata presentes en la zona de estu dio. Este modelo realiza estimaciones con un menor error asociado a ellas, utilizando el algoritmo de retropropaga ción del error con el que se debe tener especial cuidado para evitar un sobreentrenamiento de la red. Por último, para mejorar la significación de los mode los predictivos de calidad de sitio es recomendable incor porar variables independientes asociadas a clima y suelo.
REFERENCIAS Álvarez J, A Ruiz. 1995. Dasometría: Introducción a las Téc nicas de Modelización Forestal. Madrid, España, Unico pia. 83 p. Anderson, D, D Sweene, T Williams. 1999. Estadística para Administración y Economía. Ciudad de México, México, International Thomson Editores. 909 p. Cook, D, S Weisberg. 1999. Applied Regression Including Computing and Graphics. New York, USA, John Wiley & Sons, 593 p. Daniel T, J Helms, F Backer. 1982. Principios de Silvicultura. New York, USA, Mc Graw Hill. 492 p. Canavos, G. 1988. Probabilidad y Estadística: Aplicaciones y métodos. Madrid, España, McGraw-Hill. 651 p. Freeman J, D Skapura. 1993. Redes Neuronales: Algoritmos, aplicaciones y técnicas de programación. New York, USA, Addison-Wesley Iberoamericana. 430 p. Gerding V, JE Schlatter. 1995. Variables y factores del sitio de importancia para la productividad de Pinus radiata D. Don en Chile. Bosque 16(2): 39-56. Green R, P Marshall, K Klinka. 1989. Estimating Site Index of Douglas-fir (Pseudotsuga menziesii [Mirb.] Franco) from
ecological variables in southwestern British Columbia. 1989. Forest Science 35(1): 50-63. Gujarati D. 1996. Econometría. Ciudad de México, México, McGraw-Hill. 597 p. Instituto Canadiense de Geomática. 2000. Definición de Geo mática. Consultado 15 mar. 2005. Disponible en http:// www.cartesia.org/article.php?sid=83. Iost C, R Rivera. 1993. Diseño, Implementación y Prueba de una Herrramienta Computacional para el manejo de redes neuronales, basada en el mecanismo del Back-Propaga tion y sus variaciones. Trabajo de título Ingeniero Civil Industrial mención Informática. Temuco, Chile. Universi dad de la Frontera. 120 p. Klinka K, R Carter. 1990. Relationship Between Site Index and synoptic Environmental Factors in immature Coastal Douglas-Fir Stands. Forest Science 36(3): 815-830. López CM, CA Mena. 1999. Eliminación del Error de superfi cie mediante integración de Fotografías aéreas y Sistemas de Información Geográfica y Sistemas de Posicionamien to Global, para evaluar efectos en la Planificación de fae nas de inventarios y cosecha forestal. In Mena C ed. Sis temas de Información Geográfica y Teledetección Espacial aplicados a la Ordenación del Territorio y el Medio Am biente. Talca, Chile, Servicio Aerofotogramétrico de la Fuerza Aérea de Chile. p. 117-121. Lowell K. 1999. Estimating Forest Site Productivity in an Australian Eucalyptus Forest Using Geomatics. In XIII Silvotecna. Concepción, Chile. p. 1-10. Rath C. 1999. Estimación de la superficie y número de árboles en bosques de Pinus radiata D. Don en fotografías aé reas, mediante el uso de redes neuronales artificiales. Memoria Ingeniero Forestal. Santiago, Chile. Facultad de Ciencias Forestales, Universidad de Chile. 108 p. Rodrigue J. 2001. Woody species diversity, forest and site pro ductivity, stumpage value, and carbon sequestration of forests on mined lands reclaimed prior to the passage of the surface mining control and reclamation act of 1977. Tesis de Master of Science of Forestry. Virginia, USA. Faculty of the Virginia Polytechnic Institute and State University College of Natural Resources Department of Forestry. 299 p. Schlatter, JE, V Gerding. 1995. Método de clasificación de si tios para la producción forestal, ejemplo en Chile. Bosque 16(2): 13-20. Schultz E, T Metney, J Koger. 1999. A neural network model for wood chip thickness distributions. Wood and Fiber Science 31(1): 2-14. Vallejos O. 1999. Dasometría para Ingenieros Forestales. Tal ca, Chile, Universidad de Talca. 195 p. Zhou J, D Civco. 1996. Using genetic learning neural networks for spatial decision making in GIS. Photogrammetric Engineering & Remote Sensing 62(11): 1287-1295.
Recibido: 14.04.05 Aceptado: 09.03.06
43
Esta obra está bajo una licencia reconocimiento no comercial 2.5 Colombia de Creative Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/2.5/co/ o envié una carta a Creative Commons, 171second street, suite 30 San Francisco, California 94105, USA.
APLICACIÓN DEL MÉTODO DE REGRESIÓN LINEAL EN EL ANÁLISIS DE LOS DETERMINANTES DE LA INVERSIÓN EXTRANJERA EN COLOMBIA Maria Paula Contreras Navarrete Diciembre de 2011
RESUMEN: El propósito de éste documento consiste en desarrollar una aplicación del método de regresión lineal para el análisis de un fenómeno de la realidad colombiana utilizando para ello herramientas de análisis ofrecidas por diferentes software estadísticos y econométricos. Así, se pretende estimar un modelo que describa los posibles determinantes de la inversión extranjera en Colombia ilustrando a su vez las principales virtudes de las herramientas informáticas actuales. Palabras clave: regresión lineal, software econométrico y estadístico, inversión extranjera en Colombia
ABSTRACT: The purpose of this paper is to develop an application of linear regression method for analyzing a phenomenon of the Colombian reality using analysis tools offered by various statistical and econometric software. Thus, it is intended to estimate a model that describes the possible determinants of foreign investment in Colombia illustrating in turn the main virtues of the current informatics tools. Key Words: linear regression method, statistical and econometric software, foreign investment in Colombia
INTRODUCCIÓN La econometría y especialmente la estadística constituyen una parte fundamental del análisis de los diferentes fenómenos sociales que se presentan diariamente. Es así como la econometría toma gran variedad de esas herramientas estadísticas para evaluar modelos y metodologías que fundamenten y reafirmen la pertinencia de la teoría en la realidad. Dentro de sus principales desarrollos se halla el método de regresión lineal, el cual es una técnica que permite evaluar con precisión la existencia de relaciones entre ciertas variables, facilitando la conexión de los diferentes fenómenos sociales, económicos y políticos. Junto al desarrollo de la teoría se han producido cada vez más avances en materia de herramientas informáticas, surgiendo constantemente nuevos software que ofrecen una infinitud de facilidades para el manejo y análisis de la información. Dentro de los software econométricos y estadísticos más reconocidos a nivel mundial, destacan principalmente cuatro: Stata, R-Project, WinRATS y SPSS; cada uno de ellos con diferentes características y funcionalidades que se adecuan a las necesidades de los usuarios. En vista de las limitaciones que enfrentan los estudiantes de la Facultad de Ciencias Económicas en lo referente a la utilización de dichas herramientas informáticas para la aplicación de los conocimientos aprendidos, este documento pretende brindar al lector un acercamiento a las herramientas disponibles y su funcionamiento y el proceso a seguir en la aplicación del método de regresión lineal. En este orden de ideas, el documento se desarrolla de la siguiente manera: en primera instancia se realizará una breve descripción teórica del método de regresión lineal y sus supuestos para luego realizar una aplicación práctica sobre un modelo que ilustre los determinantes de la inversión extranjera en Colombia. Para la validación de los supuestos del modelo se trabajará con las mejores características y procesos de los software anteriormente mencionados, con el fin de tener una mayor perspectiva en cuanto a este tipo de herramientas.
MÉTODO DE REGRESIÓN LINEAL La regresión lineal es un método de análisis estadístico ampliamente utilizado en los diferentes campos y disciplinas de las Ciencias Sociales y Naturales debido a las ventajas que ofrece en cuanto a la realización de análisis estructurales, predicciones de valores futuros y evaluación de políticas, entre otras.
En términos más generales, un modelo de regresión se emplea para obtener una descripción y evaluación de la posible relación existente entre una variable llamada endógena (Y) y una o más variables llamadas exógenas (X); conocidas igualmente como variable dependiente e independiente respectivamente. Si tiene una sola variable exógena se denomina regresión simple y si tiene dos o más exógenas, regresión múltiple1
Ecuación 1. Regresión lineal múltiple
Adicionalmente, es importante resaltar que el método de regresión lineal, como su nombre lo indica, hace referencia a la linealidad de los parámetros β2 más no necesariamente de las variables, las cuales pueden estar en cualquier forma lineal. De esta forma, el objetivo de un modelo de regresión es estimar la Función de Regresión Muestral que sea lo más parecida posible a la Función de Regresión Poblacional a partir de una muestra de datos, lo cual se logra por medio de la estimación de los parámetros β tal que se minimice la suma de los residuos al cuadrado. Estos parámetros estimados se conocen como los estimadores de Mínimos Cuadrados Ordinarios o MCO (Ordinary Less Squared), los cuales cumplen con las propiedades de ser lineales, son una combinación lineal de una variable aleatoria; insesgados, el valor esperado del estimador es igual al verdadero parámetro poblacional y de varianza mínima. En las diferentes áreas en donde se utiliza el método de regresión lineal, a los investigadores les interesa saber el tipo de relación que pueden encontrar entre diversas variables, razón por la cual vamos a centrar nuestra atención en el modelo de regresión múltiple, el cual se trabaja de forma matricial y está expresado por la siguiente ecuación,
Ecuación 2. Regresión múltiple en forma matricial
n donde representa el vector de la varia le endógena tama o n la matri de varia les e ógenas tama o n k β el vector de los parámetros beta (tamaño k el vector de los errores (tamaño n*1).
1
Un modelo de regresión en su totalidad se considera aleatorio gracias al término de error (U).
2
Existen casos particulares donde la función no es lineal pero se puede linealizar por medio del
logaritmo.
Ecuación 3. Descomposición de la Ecuación 2 en matrices
n donde la columna de ’s representa los términos independientes del modelo. De acuerdo a la condición establecida previamente, la ecuación que permite encontrar los parámetros tal que se minimice la suma de residuos al cuadrado está definida por la expresión
Ecuación 4. Estimador de Mínimos Cuadrados Ordinarios
SUPUESTOS DEL MODELO DE REGRESIÓN Para construir, estimar y poder aplicar correctamente un modelo de regresión lineal es necesario que cumpla con una serie de supuestos, los cuales aparecen listados a continuación. 1. El modelo debe ser lineal en los parámetros. 2. El valor esperado del vector de residuos es un vector nulo, es decir que la media de los residuos es igual a cero. E(U) = 0 3. La varianza de los residuos debe ser constante a lo largo de la muestra. Este se conoce como el supuesto de HOMOSCEDASTICIDAD. Var (Ui) =
para todo i
4. Debe existir independencia entre los residuos de un periodo con los de otro u otro periodos; esto equivale a decir que los residuos sean independientes o que su covarianza sea igual a cero. Este se conoce como el supuesto de NO AUTOCORRELACIÓN. 3 Cov (UiUj = 0 3
para todo i ≠ j
Los supuestos de homoscedasticidad y autocorrelación se resumen en que la matriz de Var-Cov
debe ser escalar:
5. Los residuos deben seguir una distribución normal, es decir deben tener media cero y varianza . U ~ N (0, ) 6. Debe existir independencia lineal entre las variables exógenas del modelo, es decir el rango de la matriz X es completo. Este se conoce como el supuesto de NO MULTICOLINEALIDAD. r (X) = K
donde n > k
7. Se supone que los , o los coeficientes de regresión estimados permanecen constantes a lo largo de la muestra, es decir NO HAY CAMBIO ESTRUCTURAL y hay estabilidad de los parámetros. 8. Debe existir independencia entre las variables exógenas y los residuos del modelo. En otros términos, la covarianza entre los residuos y las exógenas debe ser cero.
MODELAMIENTO DE LOS DETERMINANTES DE LA INVERSIÓN EXTRANJERA EN COLOMBIA A modo de ilustración y aplicación específica tanto de la metodología explorada como de las herramientas brindadas por los software, se pretende estimar un modelo que permita reconocer los determinantes principales de la inversión extranjera directa (IED) en Colombia. Cabe resaltar que el análisis realizado en el documento, al servir principalmente como una ilustración de las metodologías, no pretende abordar conclusiones o interpretaciones sobre el enfoque correcto o incorrecto de la IED y el efecto positivo o negativo que esta pueda tener en el país. Partiendo de la teoría económica se busca establecer relaciones entre, por un lado, ciertas variables que puedan representar el entorno económico, la estabilidad institucional, la situación del mercado laboral colombiano, entre otras; y por el otro, el monto de IED que llega al país. Por medio de un análisis de las series y abarcando un periodo de tiempo de 21 años, 1989-2009, se quiere comprobar si efectivamente las variables propuestas en el modelo logran explicar en buena medida el comportamiento que la IED destinada a Colombia ha tenido durante las últimas dos décadas. La Inversión Extranjera Directa se ha convertido en el medio por el cual los países en vía de desarrollo buscan incentivar su actividad productiva dada la
imposibilidad de los capitales nacionales para generar un crecimiento económico sostenido. De este modo la atracción de IED se ha convertido en un objetivo de los gobiernos de países subdesarrollados como Colombia para ampliar el mercado, absorber nuevas tecnologías y buscar con esto un poco más de competitividad a nivel mundial. De este modo, encontrar los posibles determinantes de ese flujo de recursos hacia un país como Colombia se vuelve fundamental al momento de entender su posición actual frente al mundo. Teóricamente existen dos tipos de determinantes de la IED que pueden llamarse los macroeconómicos y los microeconómicos (Graham, 1992), y que explicarían potencialmente los flujos de inversión extranjera. Los determinantes macroeconómicos constituyen aquellos factores, establecidos por la estructura financiera e institucional del país que influyen en la atracción de IED; mientras que los factores microeconómicos son aquellas motivaciones intrafirma que incentivan a los inversores a internacionalizar sus capitales buscando la supervivencia y el desarrollo de su empresa. Bajo este contexto, el Modelo elegido para explicar los flujos de Inversión Extranjera Directa (medidos en dólares) que llega al país está dado por:
Dónde: PIB PIB en variación % El crecimiento económico puede ser un determinante de la Inversión Extranjera directa en el sentido de que puede considerarse como una medida del mercado colombiano y del funcionamiento eficiente de la economía en general. Gmil Gasto Militar como % del PIB Como lo afirma Sandoval y Martínez: “el porcentaje del PIB destinado al gasto militar es significativo y tiene una relación positiva con la inversión extranjera directa, debido a que la IED determina su comportamiento en gran medida a la confian a esta ilidad que e ista en un país”. TCR Índice de la Tasa de Cambio Real base 2005 Se puede considerar que la tasa de cambio juega un rol determinante en los flujos de Inversión Extranjera directa acudiendo a la teoría desarrollada por Froot y Stein (1989) alrededor de la riqueza relativa entre inversionistas por medio de la tasa de cambio. Ged Gasto público en educación como % del PIB El gasto público en educación, puede ser un incentivo para el inversionista, en el sentido en el que al invertir en el país tiene el interés de encontrar trabajadores preparados para sus actividades con cierto nivel de estudios pero con un costo mucho menor.
RRN Renta de Recursos Naturales como % del PIB La variable renta de recursos naturales puede considerarse relevante para explicar los flujos de IED en tanto incluye las rentas del petróleo, gas natural, carbón y minerales como porcentaje del PIB. Esto puede mostrar las ganancias que reciben las empresas en dichos sectores, los cuales tienen una gran afluencia de flujos extranjeros.
ANÁLISIS DE LOS DATOS Los datos para el período analizado, 1989-2009, fueron obtenidos en su mayoría de la base de datos del Banco Mundial, el World Data Bank, a excepción de la variable del Gasto en Educación la cual fue obtenida de la base de datos de la CEPAL, CEPALSTAT. Para ésta variable en específico, debido a la falta de información para los años 1989 y 2009 se obtuvo el promedio de los dos años siguientes para 1989 y de los dos años anteriores para 2009. El primer paso a seguir antes de la aplicación del modelo de regresión, es un análisis de las principales estadísticas descriptivas del conjunto de datos con el fin de observar un poco su comportamiento y tener un mayor acercamiento a la información que pueden brindar. Para esto se utilizarán las poderosas herramientas estadísticas del software SPSS, el cual a través de simples menús desplegables permite obtener resultados claros y consistentes. La obtención de la estadística descriptiva se realiza a partir de la pestaña Estadísticos Descriptivos > Descriptivos; allí se recurre al botón denominado “Opciones” y se procede a elegir las medidas estadísticas deseadas. El resultado de este análisis para todas las series es el siguiente:
Ilustración 1. Estadísticos descriptivos de las series del modelo
A partir de esta ilustración puede observarse el rango de valores que toma cada una de las series, gracias a la especificación de los valores mínimos y máximos;
así como su valor promedio y la desviación que frente a él presentan. Por último se observa el valor del coeficiente de asimetría y kurtosis, lo cual nos permite llegar a conclusiones iniciales acerca de la normalidad de la serie.
VIABILIDAD DEL MODELO A continuación se procede a la aplicación del método de regresión lineal para la estimación del modelo propuesto, utilizando Stata como software para el desarrollo de la metodología. El resultado expuesto por el software se resume en la Ilustración 2.
Ilustración 2. Primera regresión
Debido a la falta de significancia individual de algunas de las variables propuestas para la explicación del comportamiento de la inversión extranjera, es preciso re-estimar el modelo eliminando en orden de importancia las variables menos significativas. Así, la segunda regresión arroja como resultado
Ilustración 3. Segunda regresión
Siguiendo el mismo procedimiento, se obtiene una tercera regresión:
Ilustración 4. Tercera regresión
De acuerdo a la última regresión obtenida es posible decir que de todas las variables escogidas, tan sólo tres llegan a explicar en cierto modo los flujos de IED que llegan a Colombia, pues de las cinco variables que se decidieron trabajar, solo el Gasto Militar como porcentaje del PIB, el Índice de la Tasa de Cambio Real y las Rentas de los recursos naturales son significativas individualmente a un nivel de significancia del 5%. Por otro lado, para analizar la viabilidad y conveniencia del modelo se observa tanto la significancia global de las variables representada por el estadístico F, como el coeficiente de determinación R2. El R2 de la regresión final es de 0,8326 lo que significa que la variabilidad de la variable endógena está siendo explicada en un 83% por las variables exógenas, siendo esto un buen indicador sobre la pertinencia del modelo a la hora de interpretar los flujos de IED que entran a Colombia. De esta forma, el nuevo modelo a trabajar está dado por:
Ecuación 5. Modelo a estimar
donde se presentan las siguientes relaciones entre las variables explicativas y la inversión extranjera:
Cuando las demás variables son cero, la IED es de - 7’636. 95.556 65 dólares. Por cada 1% que aumente el Gasto Militar como porcentaje del PIB, manteniendo las demás variables constantes, la IED aumenta en 3’243.463.449 dólares.
Por cada 1 unidad que aumente el índice de la Tasa de Cambio Real, manteniendo las demás variables constantes, la IED aumenta en 08’533.0 9 23 dólares. Por cada 1% que aumente la Renta de los recursos naturales como % del PIB, dejando todo lo demás constante, la IED aumenta en 3’620.476.949 69 dólares.
CONTRASTE DE LOS SUPUESTOS DEL MODELO HIPÓTESIS DE ESPECIFICACIÓN ERRÓNEA Para verificar si el modelo tiene una forma funcional incorrecta, se utiliza la prueba RESET de Ramsey como método de contraste de este supuesto. Aplicando la prueba en R-Project4, se obtuvo el siguiente resultado:
Ilustración 5. Test RESET de Ramsey aplicado en R-Project
La prueba, como se ilustra, fue aplicada incluyendo los valores estimados de la variable explicada elevados hasta la cuarta potencia. A partir del valor-p arrojado por la prueba, es posible concluir que no se rechaza la hipótesis nula de que las variables endógenas elevadas a las diferentes potencias sean iguales a cero, razón por la cual no son significativas a un nivel de significancia del 5% y se puede decir que el modelo no tiene errores de especificación.
HIPÓTESIS DE MULTICOLINEALIDAD Como primera aproximación a la detección de multicolinealidad entre las variables explicativas del modelo, se procede a observar los coeficientes de correlación simples entre cada par de variables, los cuales se ilustran en la matriz de correlaciones generada por Stata.
4
Proceso para el cual se requiere la previa aplicación del paquete denominado lmtest.
Ilustración 6. Matriz de Correlaciones
Los coeficientes aquí mostrados son muy bajos - Gasto Militar y Tasa de Cambio: 0.24; Gasto Militar y Renta de Recursos Naturales: 0.29 y Tasa de Cambio y Renta de Recursos Naturales: 0.08 - , lo cual indica que las variables exógenas que buscan explicar la IED no están correlacionadas en gran medida, por lo que no habrían síntomas de multicolinealidad. Para la aplicación de otras pruebas que soporten la conclusión obtenida anteriormente sobre la inexistencia de multicolinealidad entre las variables exógenas del modelo, en Stata se utiliza el comando collin5. Este presenta resultados de medidas adicionales como lo son los Factores de Tolerancia y de Inflación de Varianza y el Índice de Condición.
Ilustración 7. Pruebas adicionales para la detección de multicolinealidad
El primer resultado ilustra el factor de inflación de varianza para cada variable, el cual al no ser mayor a 10 soporta la conclusión enunciada. Lo mismo pasa con el factor de tolerancia, cuyos valores son muy cercanos a 1 (evidencia de no
5
Se requiere la instalación previa de un paquete bajo el mismo nombre.
multicolinealidad y el índice condición que sugiere una multicolinealidad moderada.
HIPÓTESIS DE CAMBIO ESTRUCTURAL Para analizar posibles momentos de ocurrencia de un cambio estructural en el comportamiento de la serie de Inversión Extranjera Directa, es necesario observar como primera medida su gráfico, producido por WinRATS:
Ilustración 8. Inversión Extranjera Directa
A partir del comportamiento gráfico, se evidencian dos posibles momentos de cambio estructural: el año 1997 y el año 2004. Sin embargo, el comportamiento de la serie durante 1997 responde a desincentivos en la inversión extranjera debido por un lado, al recrudecimiento del problema de la seguridad por el conflicto armado y por el otro a la profunda crisis financiera en la cual estaba entrando Colombia; siendo este un punto de comportamiento atípico que encuentra refugio en la evidencia histórica. En este orden de ideas, y sin encontrar posibles explicaciones teóricas al comportamiento de la serie en el 2004, se vuelve necesario probar la presencia de cambio estructural por medio del contraste del test de Chow, el cual se aplicó igualmente en WinRATS. Debido a la cercanía del posible punto de cambio estructural a uno de los extremos de la muestra, el estadístico F debe ser calculado a partir de la fórmula corregida6, como se ilustra
6
Para su aplicación es necesario obtener en primera instancia la suma de residuos al cuadrado del
modelo original y del modelo estimado para cada sub-muestra.
Ilustración 9. Test de Chow
El resultado arrojado por la prueba indica que se debe rechazar la hipótesis nula de estabilidad de los parámetros, evidenciándose presencia de cambio estructural en ese período. Para evitar futuros problemas con el contraste de los supuestos restantes, el cambio estructural debe ser corregido mediante la inclusión de variables dummy. Ésta inclusión debe evaluarse a partir de tres posibles casos: el cambio estructural puede afectar el punto de corte, puede afectar la pendiente de la línea de regresión, o puede afectarlos a ambos. Para el caso del modelo sobre el cual se está trabajando, se va a probar que el efecto del cambio estructural fue sobre el punto de corte, incluyendo una variable dummy que recoja el efecto para luego evaluar su significancia individual. En WinRATS se procede como se muestra en la Ilustración 8.
Variable Coeff Std Error T-Stat Signif ******************************************************************************* 1. Constant -1.32E+10 3.03E+09 -4.37217 0.00047386 2. GM 1.34E+09 713855766 1.87668 0.07892232 3. TC 100304107 20820271.9 4.81762 0.0001894 4. NRR 2.33E+09 9.32E+08 2.49717 0.0238092 5.DUMMY 2.21E+09 9.88E+08 2.23702 0.03987047 Ilustración 10. Adición de variables dummy como corrección al cambio estructural
En la ilustración se observa que la dummy es significativa individualmente a un nivel de confianza del 95% razón por la cual se puede concluir que el cambio estructural si afectó el punto de corte y la variable dummy es necesaria para corregirlo. De este modo, el modelo que se va a utilizar de ahora es adelante es este último, en donde todas las variables son significativas a un 5% de significancia excepto el gasto militar como % del PIB, variable que igual puede ser aceptada con un 10% de significancia debido a la gran importancia que presenta en la teoría revisada como determinante de la IED en Colombia.
HIPÓTESIS DE NORMALIDAD DE LOS RESIDUOS Para realizar el contraste del supuesto que indica que los residuos siguen una distribución normal, se va a utilizar la conocida prueba Jarque-Bera calculada a partir de R-Project7. La totalidad del proceso a seguir se muestra en la ilustración 11.
Ilustración 11. Aplicación de la prueba Jarque-Bera
Mirando cuidadosamente el resultado arrojado por la prueba, se concluye que la hipótesis nula de normalidad se rechaza aun nivel de significancia del 5%, por lo que se evidencia que los residuos del modelo no se distribuyen normalmente. La solución escogida para corregir este problema es trabajar el modelo en logaritmos, transformando únicamente la variable de IED. De esta forma, es necesario volver a estimar el modelo incluyendo los cambios necesarios en la forma de la ecuación que lo define. Lo principal es obtener de nuevo los resultados de la estimación del modelo de regresión:
Ilustración 12. Re-estimación del modelo
7
El código hace parte del paquete tseries.
Debido al cambio en la estructura del modelo, se debe revisar por segunda vez el contraste de los supuestos. Luego de proceder a evaluar los supuestos sobre el nuevo modelo de la misma forma que se realizó e ilustró con el primer modelo a evaluar, se concluyó que las conclusiones a las que se llegaba eran las mismas: el modelo no poseía problemas de especificación errónea ni de multicolinealidad, sin embargo si presentaba un problema de cambio estructural en el año 2004, el cual fue corregido con la inclusión de una variable dummy de la siguiente forma: Variable
Coeff
Std Error
T-Stat
Signif
****************************************************************************** 1. Constant
16.164188822 0.771034144
20.96430 0.00000000
2. X1
0.621340646 0.181894454
3.41594 0.00353909
3. X2
0.033748044 0.005305122
6.36141 0.00000944
4. X3
0.191022981 0.237370492
0.80475 0.43276233
5. DUMMY
0.536752733 0.251760613
2.13200 0.04885395
Ilustración 13. Segunda corrección al problema de cambio estructural
Aunque la inclusión de la dummy si sea necesaria para corregir el problema de cambio estructural en el año 2004, se evidencia una falencia en cuanto a la necesidad de excluir otra variable del modelo debido a su bajo grado de significancia individual, la renta de los recursos naturales. El modelo entonces va a estar regido por la expresión
HIPÓTESIS DE HOMOSCEDASTICIDAD Para el contraste de este supuesto se va a proceder a aplicar la prueba de Breusch-Godfrey y la prueba deWhite. Éste proceso se llevará a cabo en Stata debido a la integralidad de herramientas que ofrece en cuanto a la aplicación de este tema. En primer lugar encontramos que la aplicación de la prueba de Breusch-Pagan se realiza a través de un comando sencillo, como se ilustra.
Ilustración 14. Prueba de Breusch-Pagan
Por el otro lado, observamos que la prueba de White aparece como una alternativa o complemento a otra prueba ya existente. E l nombre de la prueba necesita ser agregado en la especificación de otro comando:
Ilustración 15. Prueba de White
El resultado específico de la prueba se observa en la parte superior de la ilustración y coincide con el primer componente de la matriz elaborada a continuación. Esto, junto con la información brindada por la otra prueba, permite concluir que no se rechaza la hipótesis nula de que la varianza de los errores permanece constante a lo largo de la muestra, por lo que se valida el supuesto de homoscedasticidad.
HIPÓTESIS DE NO AUTOCORRELACIÓN La autocorrelación evalúa si existe relación entre los residuos de un período y el de otro u otros períodos. La autocorrelación que se presenta con mayor frecuencia dentro de un modelo de regresión lineal es la de primer orden, la cual será evaluada por medio de la prueba Durbin-Watson. La consecución más fácil y rápida de este estadístico se hace a través de WinRATS, en donde no se necesita una instrucción adicional para obtener dicha información, sino simplemente aplicar la regresión. El resultado aparecerá en la parte inferior de la siguiente forma:
Con un n=21, k- =3 α=5% los valores ta ulados du dl son respectivamente 1,669 y 1,026. Debido a que el estadístico de Durbin es mayor que du y menor que 4-du (2,331) se puede concluir que se encuentra en una zona de no autocorrelación de primer orden y por lo tanto no se rechaza la hipótesis nula de no autocorrelación de primer orden.
Es así como por medio de la utilización de las herramientas más poderosas de cuatro de los software más reconocidos en el ámbito econométrico y estadístico, fue posible hacer la aplicación del método de regresión lineal para el análisis de los determinantes de la inversión extranjera en Colombia, llegándose a la conclusión que de todas las variables propuestas inicialmente, sólo dos son candidatas a explicar de manera pertinente y válida estadísticamente (en cuanto al cumplimiento de todos los supuestos fundamentales del modelo) el comportamiento que ha tenido la inversión extranjera en Colombia en las últimas dos décadas.
REFERENCIAS Contreras, M. (2011). Herramientas de Software aplicadas al método de regresión lineal. Universidad Nacional de Colombia. Graham, E. (1992). Los determinantes de la inversión extranjera directa: teorías alternativas y evidencia internacional. Sandoval, L. E., & Martinez, D. (2010). Presencia de conflicto armado interno y su efecto en la inversión extranjero directa: tendencia mundial y perspectivas para colombia 2001-2007. Bogotá.
REVISTA INVESTIGACIÓN OPERACIONAL
Vol., 29, No. 3, 224-230, 2008
ESTUDIO DEL RIESGO CARDIOVASCULAR EN EL MUNICIPIO DE SANTA CLARA UTILIZANDO EL MÉTODO DE REGRESIÓN CATEGÓRICA1 Juan Manuel Navarro-Céspedes*, Gladys M. Casas-Cardoso**, Emilio González-Rodríguez***y. Santiago Cuadrado-Rodríguez***: * Departamento de Matemática, Facultad MFC, Universidad Central “Marta Abreu” de Las Villas **Departamento de Computación, Facultad MFC, Universidad Central “Marta Abreu” de Las Villas *** Centro de Desarrollo de la Electrónica, Universidad Central “Marta Abreu” de Las Villas
ABSTRACT This paper shows an application of the regression analysis method using categorical data. Data have been obtained from five clinics of the Santa Clara City, Cuba. 849 cases were diagnosed by a highly qualified Medical Doctors Committee. 18 categorical predictor variables and a continuous variable RiesgoC (cardiovascular risk) were used in the analysis. Initially, the standard regression analysis was applied. The determination coefficient obtained was R2=0.643. Standardized residuals plot showed that there was not normal distribution. Categorical Regression Procedure of SPSS software was then applied. R2 was now 0.833 and the standardized residuals plot showed that there was normal distribution. The categorical regression analysis proved to be an important method when the most of the predictor variables are categorical.
KEY WORDS: categorical regression, cardiovascular risk, categorical data analysis MSC: 62P10
RESUMEN En el presente trabajo se muestra una aplicación del método de análisis de regresión para datos categóricos. Se utilizaron datos de 849 individuos de cinco policlínicos de la ciudad de Santa Clara tomados por un comité de expertos altamente calificado. En el análisis intervienen 18 variables predictoras categóricas y la variable RiesgoC (riesgo cardiovascular) que es numérica. Inicialmente se aplicó el procedimiento de regresión lineal estándar. Se obtuvo un R2=0.643. El ploteo de los residuos estandarizados mostró un marcado desajuste a la distribución normal. Posteriormente se aplicó el método de análisis de regresión categórica del paquete estadístico SPSS. El coeficiente de determinación fue ahora de R2=0.833 y el ploteo de los residuales estandarizados mostró ajuste a la distribución normal. El análisis de regresión categórica constituye una buena técnica cuando se está en presencia de problemas en los que la mayoría de las variables predictoras son categóricas.
1.ְINTRODUCCIÓN El análisis de regresión lineal estándar es una técnica estadística ampliamente utilizada desde la segunda mitad del siglo XIX, cuando el científico británico Francis Galton introdujo dicho término [Stanton (2001)]. El análisis de regresión lineal clásico minimiza las diferencias de la suma de los cuadrados entre la variable respuesta (dependiente) y una combinación ponderada de las variables predictoras (independientes). Las variables son normalmente cuantitativas, con los datos categóricos (nominales) recodificados como variables binarias. Los coeficientes estimados reflejan cómo los cambios en las variables predictoras afectan a la variable respuesta. Puede obtenerse un pronóstico de esta última para cualquier combinación de los valores predictores [Draper-Smith (2002)]. 1
Presented at COMPUMAT 2007
224
. En numerosas investigaciones, sobre todo en el campo médico o social, se tienen variables predictoras categóricas. Algunas tienen un orden entre sus valores, otras son simplemente nominales [Agresti (2002)]. En estos casos pudiera pensarse en realizar una regresión de la respuesta con respecto a los propios valores predictores categóricos. Como consecuencia, se estima un coeficiente para cada variable. Sin embargo, para las variables discretas, los valores categóricos son arbitrarios. La codificación de las categorías de diferentes maneras proporciona diferentes coeficientes, dificultando las comparaciones entre los análisis de las mismas variables. De manera general, la aplicación de las técnicas clásicas de regresión se dificulta notablemente. Por otra parte, no existen dudas de que la regresión lineal múltiple es la técnica estadística más utilizada para predecir el comportamiento de una variable dependiente, a partir de los valores de varias independientes. Lo que ocurre es que no siempre tal relación es lineal. A través de los años se han reportado en la literatura numerosas contribuciones que son en esencia, generalizaciones no lineales de la regresión [Mccullagh-Nelder (1989)], [Berthold (2007)]. Puede mencionarse por ejemplo, el desarrollo reciente de varios métodos de regresión no lineal en el área de minería de datos, conocidas por el nombre inglés de “machine learning” o aprendizaje automatizado. En aras de obtener una definición más cercana al ambiente estadístico, ha surgido el término “statistical learning” (aprendizaje estadístico) para referenciar a métodos como estos [HastieTibshirani-Friedman (2001)]. El método que es objeto de estudio de este artículo: la Regresión Categórica, trabaja bajo el enfoque de la regresión con transformaciones, aplicando la metodología del escalamiento del óptimo desarrollado por el sistema Gifi [Gifi (1990)] para transformar la respuesta y los predictores. En el enfoque de la regresión con transformaciones, los predictores y/o la variable respuesta se transforman de manera no lineal sin considerar ajuste de distribución. Por tanto, la relación entre la respuesta y los predictores se linealizan a través de transformaciones no lineales separadas de las variables, dando lugar a un modelo flexible. La función de transformación puede ser paramétrica o no paramétrica. Un ejemplo de uso de funciones no paramétricas es el MORALS implementado en el TRANSREG [Van der Kooij (2007)]. El SPSS (Statistical Package for the Social Science), desde su versión 11, trae incorporado un módulo para realizar regresiones categóricas. Existen otros paquetes estadísticos que tiene implementado la regresión para variables categóricas como es el caso del S-Plus [Lam (2008)], pero con un enfoque diferente. El ejemplo sobre un estudio para predecir el riesgo cardiovascular en el municipio de Santa Clara, que se desarrollará más adelante, será ejecutado con ayuda del SPSS. 2. FUNDAMENTOS DE LA REGRESIÓN CATEGÓRICA
La regresión categórica cuantifica los datos categóricos mediante la asignación de valores numéricos a las categorías, obteniéndose una ecuación de regresión lineal óptima para las variables transformadas. La regresión categórica se conoce también por el acrónimo CatReg, del inglés Categorical Regression [Haber (2001)]. La regresión categórica extiende la regresión lineal ordinaria, considerando simultáneamente variables continuas, ordinales y nominales. Las variables categóricas se cuantifican de manera que ellas reflejen las características de las categorías originales, utilizando transformaciones no lineales para hallar el modelo que mejor ajuste. Finalmente las variables cuantificadas se tratan de la misma forma que las variables continuas [Van der Kooij-Meulman (1997)]. El objetivo fundamental de la regresión categórica con escalamiento óptimo consiste en describir las relaciones entre una variable respuesta y un conjunto de variables predictoras [De Leeuw (2005)]. El propósito es, en esencia, el mismo que cualquier otro análisis de regresión. Lo interesante en este caso es que la CatReg puede aplicarse para aquellas variables en las que los análisis clásicos o estándares de regresión fallan. De hecho, si se realiza un análisis de regresión lineal sobre las variables transformadas, se obtienen los mismos resultados que con el análisis de regresión categórica. La regresión categórica constituye una generalización de varias técnicas estadísticas, por ejemplo si la variable dependiente es continua y se tiene sólo una independiente con nivel de medición nominal, entonces la
225
regresión categórica se convierte en un análisis de varianza clásico (ANOVA). Con un nivel de escalamiento nominal, la cuantificación para cada categoría es la media de los valores de la variable dependiente tomando los casos que pertenecen a esa categoría. La variable transformada coincide entonces con la variable original, en la que los valores de la categoría se sustituyen por los valores de su media y el resultado se estandariza. Si se tiene una variable dependiente nominal, la regresión categórica se convierte entonces en un análisis discriminante clásico [Meulman-Heiser (2004)]. Por otra parte, CatReg es equivalente al análisis de correlación canónica categórico mediante escalamiento óptimo (OVERALS) con dos conjuntos, uno de los cuales contiene sólo una variable. Si se escalan todas las variables a nivel numérico, el análisis se corresponderá con el análisis de regresión múltiple típico. 3. ESTUDIO DE RIESGOS CARDIOVASCULARES A nivel mundial existen diversos tipos de enfermedades cardiovasculares. Según la Organización Mundial de la Salud, las enfermedades cardiovasculares causan 12 millones de muertes en el mundo cada año. Gracias a muchos estudios y miles de pacientes, los investigadores han descubierto ciertos factores que desempeñan un papel importante en las probabilidades de que una persona padezca de una enfermedad del corazón, a ellos se les denomina factores de riesgo [Wilson et. al. (1998)]. Como ejemplo de estudio se puede citar el Framingham Heart Study cuyo objetivo era identificar los factores comunes de riesgos que contribuían a la enfermedad cardiovascular. Entre los principales factores de riesgo podemos citar: la presión arterial, el colesterol elevado, la diabetes entre otros [Wilson et. al. (1998)]. Tabla 1. Variables consideradas en el análisis Variable dependiente: Variable
Etiqueta
Valores
RiesgoC
Riesgo cardiovascular
Real
Variables independientes: Variable
Etiqueta
Valores
PAM
Presión arterial media
Baja, Media, Alta
IMC
Índice de masa corporal
Bajo, Medio, Alto
Sexo
Sexo del paciente
Masculino, Femenino
Edad
Edad del paciente
16- 80 años
Coltot
Colesterol total
Bajo, Medio, Alto
Fuma
Hábito de fumar
Sí, No
Bebe
Habito de tomar
Sí, No
Diabetes
Diabetes mellitas
Sí, No
Raza
Raza del paciente
Blanca, Mestiza
Rsisbas
Presión sistólica basal
Bajo, Medio, Alto
Rsismin1
Presión sistólica basal en el primer minuto
Bajo, Medio, Alto
Rsismin2
Presión sistólica basal en el segundo minuto
Bajo, Medio, Alto
Rdiastbas
Presión diastólica basal
Bajo, Medio, Alto
Rdiastmin1
Presión diastólica basal en el primer minuto
Bajo, Medio, Alto
Rdiastmin2
Presión diastólica basal en el segundo minuto
Bajo, Medio, Alto
ColLDL
Colesterol LDL
Bajo, Medio, Alto
ColHDL
Colesterol HDL
Bajo, Medio, Alto
Diagnóstico
Diagnóstico del paciente dado por el Comité de
Hipertenso, Hiperreactivo
226
Expertos
vascular, Normotenso
En el estudio que se presenta en este trabajo, la muestra está constituida por un total de 849 individuos pertenecientes a cinco policlínicos de la ciudad de Santa Clara y pretende predecir el riesgo a padecer enfermedades cardiovasculares a partir de la presencia de varias variables, todas categóricas. En la tabla 1 muestran las variables originales que se midieron a cada uno de los pacientes. Figura 1. Gráfico Q-Q normal de residuos estandarizados 4
Normal esperado
2
0
-2
-4 -4
-2
0
2
4
6
8
Valor observado
En la Tabla 2 se muestran sus coeficientes estandarizados. Tabla 2. Coeficientes
Edad Sexo Bebe Fuma Diabetes mellitus Diagnóstico rsistbas rdiastbas rdiastmin2 dcolldl rpam rsistmin1 Raza rsistmin2 rdiastmin1 dcoltot dcolhdl dimc
Standardized Coefficients Beta Std. Error .679 .015 .331 .016 .055 .016 -.162 .015 -.037 .015 .045 .021 .073 .025 .075 .021 .026 .017 -.032 .015 .042 .029 .064 .029 .009 .015 .003 .020 -.058 .025 -.015 .015 .029 .015 -.006 .015
Dependent Variable: RiesgoC
227
df 25 1 1 1 1 1 2 1 1 2 2 2 1 1 2 2 2 1
F 1934.493 402.210 12.104 113.972 6.188 4.430 8.519 12.274 2.326 4.542 2.062 4.825 .346 .024 5.433 .957 3.721 .141
Sig. .000 .000 .001 .000 .013 .036 .000 .000 .128 .011 .128 .008 .557 .876 .005 .384 .025 .707
El problema que se presenta en esta investigación no puede tratarse adecuadamente por una regresión lineal múltiple, debido a que la variable independiente es numérica, mientras que todas las predictoras son categóricas. No obstante, el primer intento de lograr un modelo se realizó siguiendo esta alternativa. Al 2
aplicar la misma se obtuvo un coeficiente de determinación R =0.643, pero al realizar un gráfico de los residuos se obtuvo un desajuste muy marcado de la distribución normal, véase el gráfico Q-Q en la figura 1. Se decidió entonces aplicar la opción de regresión categórica del paquete SPSS. En la primera corrida de la CatReg se consideraron todas las variables, que aparecen mencionadas en la Tabla 1. El escalamiento óptimo utilizado en el estudio está en total correspondencia con el nivel de medición de las variables. El valor del coeficiente de determinación fue ahora de R2=0.835, lo cual indica que el 83.5% de la variable RiesgoC está explicado en el modelo. El resultado del análisis de varianza resultó significativo mostrando la validez del modelo El análisis de regresión categórica no tiene implementado métodos paso a paso, sino el método más sencillo y directo en el que todas las variables consideradas en el análisis pasan a formar parte de la ecuación. En la Tabla 2 se puede apreciar que algunas de las variable analizadas no son significativas. Se decidió entonces obtener nuevamente el modelo eliminando la variable menos importantes. Este procedimiento se ejecutó repetidamente hasta que se obtuvo una ecuación válida (desde el punto de vista del análisis de varianza), donde todas las variables resultaron significativas. Los resultados hallados se muestran a continuación: Tabla 3. Resumen del Modelo Multiple R .913
R Square .833
Adjusted R Square .825
Dependent Variable: RiesgoC Predictors: Edad Sexo Bebe Fuma Diabetes mellitus Diagnóstico rsistbas rdiastbas rdiastmin2 dcolldl rpam rsistmin1
En este nuevo modelo se aprecia que el 83.3% de la variable RiesgoC está explicado por los predictores. Téngase en cuenta que se eliminaron seis variables con respecto al modelo original y el valor del R2 prácticamente se quedó igual. El ANOVA resultó ser significativo nuevamente indicando la validez del modelo. En la Tabla 4 se muestran los coeficientes estandarizados asociados al modelo final. El valor de cada coeficiente indica el cambio que esa variable produce en la variable dependiente RiesgoC. Como que la tabla muestra los coeficientes estandarizados, las interpretaciones se basan en las desviaciones estándares de cada uno de ellos [Agresti (2002)]. Además se realizó un estudio gráfico de los residuales. En la figura 2 puede notarse una mejoría considerable con respecto al gráfico visto en la ver figura 1, pues la mayoría de los valores observados se encuentran sobre la línea diagonal (que representa los valores esperados si la distribución fuese normal). Además del examen gráfico, para el análisis de los supuestos se utilizó el test de Kolmogorov Smirnov para comprobar usando un test estadístico, que los residuos estaban normalmente distribuidos. La significación hallada fue de 0.161, lo que indica normalidad. Para verificar la homogeneidad de las varianzas y para comprobar la ausencia de multicolinealidad se realizó una regresión lineal tomado como datos los valores de las variables transformadas [Van der Kooij (2007)] ya que el módulo de regresión categórica implementado aún no realiza este tipo de análisis [Meulman-Heiser (2004)].
228
Tabla 4. Coeficientes
Edad Sexo Bebe Fuma Diabetes mellitus Diagnóstico rsistbas rdiastbas rdiastmin2 dcolldl rpam rsistmin1
Standardized Coefficients Beta Std. Error .679 .015 .334 .016 .057 .016 -.161 .015 -.036 .015 .043 .019 .076 .024 .073 .020 -.058 .023 -.030 .015 .055 .028 .068 .025
df
F 1965.113 419.291 12.895 113.957 6.136 5.005 9.955 13.924 6.346 4.281 3.844 7.453
24 1 1 1 1 1 2 1 1 2 2 2
Sig. .000 .000 .000 .000 .013 .026 .000 .000 .012 .014 .022 .001
Dependent Variable: RiesgoC
El estadístico de Durbin Watson obtenido fue de 1.534, indicando que no hay autocorrelación [Calero (1998)]. El índice de condición obtenido fue de 5.520 lo que reafirma la ausencia de multicolinealidad.
Figura 2. Gráfico Q-Q normal de Residuos 4
Normal esperado
2
0
-2
-4 -4
-2
0
2
4
Valor observado
4. CONCLUSIONES El análisis de regresión categórica resulta ser una buena opción cuando nos enfrentamos a problemas en los que la mayoría de las variables analizadas son del tipo categóricas. Aplicando esta técnica se puede realizar
229
un estudio para descubrir relaciones no lineales entre las variables predictoras y obtener modelos adecuados para realizar predicciones. En el ejemplo que se desarrolla se obtiene un modelo de regresi贸n que cumple con todos los supuestos y por tanto puede utilizarse para predecir el riesgo cardiovascular. Su coeficiente determinaci贸n indica que el 83.3% de la variable respuesta es explicado por las predictoras. Received September 2007 Revised June 2008 REFERENCIAS [1] AGRESTI, A. (2002): Categorical Data Analysis. Second edition, John Wiley & Sons, Inc., Publication. [2] BERTHOLD M, H. (2007): Intelligent Data Analysis. Second Edition. 2007: Springer, Berlin. [3] CALERO, A. (1998): Estad铆stica II. La Habana. Cuba: Pueblo y Educaci贸n, La Habana. [4] DE LEEUW, J. (2005): Multivariate analysis with optimal scaling. Department of Statistics, UCLA. [cited 5 May 2006]; Available from: http://repositories.cdlib.org/uclastat/papers/2005103002/ [5] DRAPER, N.R. AND H. SMITH (2002): Applied regression analysis. Third edition. : Wiley, New York. [6] GIFI, A. (1990): Nonlinear multivariate analysis, Wiley, Chichester. [7] HABER, L. (2001): Categorical regression analysis of toxicity data. Comments on toxicology. 7, 437452. [8] HASTIE, T.J., R.J. TIBSHIRANI, and J.H. FRIEDMAN (2001): The Elements of Statistical Learning. Springer, New York. [9] WILSON, P.W.F, D'AGOSTINO, R.B, LEVY, D. BELANGER, A.M, SILBERSHATZ, H, KANNEL W.B. (1998): Prediction of coronary heart disease using risk factor categories. Available from: http://www.epsicometria.com/Portals/0/Bibliografia/Framingam_revisi%C3%B3n.pdf [9] LAM, L. (2008): An introduction to S-Plus for Windows. [cited 5 May 2008]; Available from: http://www.splusbook.com/. [10] MCCULLAGH, P. and J.A. NELDER (1989): Generalized Linear Models. Chapman and Hall, London. [11] MEULMAN, J.J. AND W.J. HEISER (2004): SPSS Categories 13.0. SPSS Inc. Chicago. [12] STANTON, J.M., (2001): GALTON, Pearson and the Peas: A brief history of linear regression for statistics instructors. Journal of Statistics Education. 9, 64-87 [13] VAN der KOOIJ, A.J. and J.J. MEULMAN (1997): MURALS: Multiple regression and optimal scoring using alternating least squares. In: W. Bandilla and F. Faulbaum (Eds.), Softstat '97 Advances in Statistical Software 6. Stuttgart: Lucius \& Lucius, pp 99-106 [14] VAN der KOOIJ, A.J. (2007): Prediction accuracy and stability of regression with optimal scaling transformations. [cited 24 Jan 2008; Doctoral thesis.]. Available from: https://www.openaccess.leidenuniv.nl/dspace/handle/1887/12096.
230
Psicothema ISSN: 0214-9915 psicothema@cop.es Universidad de Oviedo España
García Jiménez, Ma. Visitación; Alvarado Izquierdo, Jesús Ma.; Jiménez Blanco, Amelia La predicción del rendimiento académico: regresión lineal versus regresión logística Psicothema, vol. 12, núm. Su2, 2000, pp. 248-525 Universidad de Oviedo Oviedo, España
Disponible en: http://www.redalyc.org/articulo.oa?id=72797059
Cómo citar el artículo Número completo Más información del artículo Página de la revista en redalyc.org
Sistema de Información Científica Red de Revistas Científicas de América Latina, el Caribe, España y Portugal Proyecto académico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Psicothema 2000. Vol. 12, Supl. nº 2, pp. 248-252
ISSN 0214 - 9915 CODEN PSOTEG Copyright © 2000 Psicothema
La predicción del rendimiento académico: regresión lineal versus regresión logística Mª Visitación García Jiménez, Jesús Mª Alvarado Izquierdo y Amelia Jiménez Blanco Universidad Complutense de Madrid
El objetivo de este estudio es evaluar la capacidad de la regresión lineal y de la regresión logística en la predicción del rendimiento y del éxito/fracaso académico, partiendo de variables, como la asistencia y la participación en clase, cuya relevancia ya ha sido sido puesta de manifiesto en anteriores trabajos de nuestro equipo (Alvarado y García Jiménez, 1997). La muestra la constituyeron 175 universitarios de primero de psicología, tomándose los datos en la asignatura de «Métodos y Diseños de Investigación en Psicología I», del área de Metodología. Las conclusiones de este estudio son que (a) el rendimiento previo es un buen predictor del rendimiento futuro y (b) la asistencia y sobre todo la participación son variables con un peso importante en la predicción del rendimiento. Predicting Academic Achievement: Linear Regression versus Logistic Regression. The main goal of this work was to evaluate the capability of linear regression and logistic regression in predicting academic achievement and academic success. Our study pays special attention to attendance and participation, whose variables that are associated to academic achievement (Alvarado and García Jiménez, 1997). We analyzed data from 175 undergraduates enrolled on their first year of psychology course in the subject of «Methods and Designs of Investigation in Psycholo gy I», in the area of Methodology. The conclusions of this study are that (a) prior academic achievement is a good predictor of the future academic achievement and (b) the attendance and mainly the participation are variables with an important emphasis on the prediction of academic achievement.
El rendimiento académico se concibe como un constructo en el que no sólo se contemplan las aptitudes y la motivación del alumno sino también otras variables intervinientes como los aspectos docentes, la relación profesor-alumno, el entorno familiar, etc. Desde este enfoque multidisciplinar, Forteza (1975) define el rendimiento académico como «la productividad del sujeto, el pro ducto final de la aplicación de su esfuerzo, matizado por sus acti vidades, rasgos y la percepción más o menos correcta de los co metidos asignados». No obstante, a la hora de operativizar el rendimiento, tal como apunta González (1988) se tiende al reduccionismo, así, en la bibliografía observamos que la mayor parte de las investigaciones toman de él dos tipos de medidas: «las pruebas objetivas» y «las calificaciones del profesorado» que, como muestran Marrero y Espino (1988) son entre sí medidas complementarias: «Así, mientras que las notas recogen variables importantes referi das al individuo, a su contexto y a la interacción entre ambas, las pruebas objetivas miden el conocimiento adquirido sin considerar especialmente otras variables importantes, pero de una forma más objetiva». Estos mismos autores analizaron el poder predictivo de las distintas aptitudes, mediante regresión múltiple, concluyendo que la más importante predictora del rendimiento académico es la
Correspondencia: Mª Visitación García Jiménez Facultad de Psicología Universidad Complutense de Madrid 28223 Madrid (Spain) E-mail: mvgarcia@psi.ucm.es
verbal, seguida de la aptitud numérica y del razonamiento, ocupando los últimos lugares de la jerarquía las aptitudes mecánica y espacial, todo lo cual coincidiría con los resultados encontrados por la investigación empírica pertinente, aunque el orden de la jerarquía varía según se trate de predecir áreas específicas de rendimiento académico. Marcelo, Villarín y Bermejo (1987) tras un pormenorizado estudio de los predictores del rendimiento académico seleccionaron distintas escalas y subescalas para la medida de la personalidad, inteligencia, percepción del ambiente de clase, habilidades específicas y destrezas en técnicas de trabajo intelectual. Encontraron que las variables «planificación del estudio» (I.H.E 2), inteligencia (O.T.I.S), «apoyo del profesor» (E.A.C. 3), «estudio» (ILLU 5), «tiempo» (ILLU 2), «condiciones ambientales de estudio» (I.H.E. 1) e «implicación» (E.A.C. 1) entraban a formar parte de la ecuación de predicción de regresión múltiple, explicando un 25,70 % de la varianza del rendimiento escolar (promedio de las calificaciones) en cursos de bachillerato; siendo la variable «planificación del estudio» con un coeficiente de correlación parcial de 0.29, la que mayor contribución presentaba a la explicación del rendimiento académico. Marcelo y otros (1987) concluyen que las variables predictoras de mayor importancia son aquellas que se relacionan con las técnicas de trabajo intelectual, por lo que recomiendan para la reducción del fracaso escolar el entrenamiento de los alumnos mediante el diseño de un Taller de Técnicas de Trabajo Intelectual. En esta línea, Castejón, Navas y Sampascual (1993) utilizando las técnicas de regresión múltiple y análisis causal llegan a la conclusión de que los factores individuales de «ren-
LA PREDICCIÓN DEL RENDIMIENTO ACADÉMICO: REGRESIÓN LINEAL VERSUS REGRESIÓN LOGÍSTICA
dimiento inicial», «nivel socioeconómico» y «autoconcepto» son los que tienen un mayor peso a la hora de explicar el rendimiento medio del alumno en educación secundaria. Jiménez (1987) estudia la problemática del rendimiento escolar en un entorno universitario peculiar como es la universidad a distancia (UNED), caracterizado por un bajo rendimiento escolar y un elevado índice de abandono. Los datos con los que realiza su investigación «ex-post-facto» son de tipo académico (curso, número de asignaturas matriculadas, carrera, calificación obtenida, etc.) y de tipo sociopersonal (edad, sexo, desempeño o no de actividad profesional, tipo de actividad desempeñada en su caso, etc.). La técnica que utiliza es el análisis discriminante para conocer que variables son las que mejor definen a los grupos con buen o mal rendimiento (mediana de la distribución de las notas) y obtener los coeficientes discriminantes que proporcionan el poder predictivo de las variables. De las 15 variables con poder discriminante para el conjunto de las muestras una apareció en las cuatro muestras, «la primera asignatura matriculada». En cuanto a los alumnos presentados a examen de primer curso en la UNED el buen/mal rendimiento estuvo significativamente asociado al hecho de trabajar o no y con la edad del alumno, y al estudiar el rendimiento a lo largo de los distintos cursos se comprobó que el rendimiento anterior es un buen predictor del rendimiento futuro. Otro estudio posterior en la UNED, utilizando la técnica del análisis discriminante fue realizado por García Llamas (1986), en el cual se pasó un cuestionario a los alumnos de la asignatura «Ciencias de la Educación», encontrándose que los mejores predictores del rendimiento fueron las variables: «autovaloración que realiza el alumno de su propio rendimiento en función de su situación personal», «tiempo semanal dedicado al estudio» y la «frecuencia de las consultas al profesor-tutor». Otros estudios se han centrado en la predicción del rendimiento académico con el objetivo de mejorar la selectividad o de encontrar una mejor alternativa para seleccionar a los alumnos que con mayor éxito puedan realizar estudios universitarios (por ej. Cuxart, Martí, Ferrer, 1997; Goberna, Lopez y Pastor, 1987). Goberna y otros (1987) buscan un criterio para la selección de los alumnos que deben acceder a la universidad, partiendo de lo inadecuado de utilizar la nota de selectividad o pruebas de aptitud de acceso a la universidad (PAAU) como criterio de acceso, puesto que la nota PAAU sin promediar con el expediente de bachillerato sólo explicaría el 6% del rendimiento posterior. Utilizando como índice de rendimiento académico la media ponderada del expediente, Goberna y otros (1987) inician la búsqueda, utilizando la regresión múltiple, de las asignaturas de bachillerato que resultan ser los mejores predictores del rendimiento en las distintas facultades, encontrando que los predictores y su ponderación varía en función de las distintas titulaciones ofertadas, concluyendo que lo idóneo sería utilizar baremos específicos para el acceso a las distintas titulaciones. El problema de encontrar buenos predictores del rendimiento futuro de manera que se reduzca el fracaso académico en los programas de postgrado ha recibido una especial atención en EEUU como nos indican Wilson y Hardgrave (1995), en un estudio en el que intentan encontrar la mejor técnica para la predicción del rendimiento académico, con el fin de aumentar la tasa de éxito en un programa de postgrado MBA («master’s-level business administration»). En la investigación de Wilson y Hardgrave (1995) se utilizaron como predictores del rendimiento académico distintos factores como «la nota media durante la carrera», la «puntuación en
249
el test de admisión al postgrado», las «cartas de recomendación», «experiencia profesional», etc. Encontraron que las técnicas de clasificación como el análisis discriminante o la regresión logística son más adecuadas que la regresión lineal múltiple a la hora de predecir el éxito/fracaso académico, puesto que la regresión múltiple tiende a ignorar los casos extremos en rendimiento En definitiva, la mayoría de las investigaciones han utilizado la técnica de la regresión lineal múltiple para encontrar los mejores predictores del rendimiento académico. No obstante, el valor explicativo de la regresión múltiple parece escaso, puesto que, salvo excepciones, no suele superar el valor R 2=0.19, lo cual ha llevado a la búsqueda de técnicas alternativas, que al menos nos permitan pronosticar el éxito/fracaso académico, como el análisis discriminante. El análisis discriminante permite hacer una clasificación correcta (éxito/fracaso académico) en torno al 64% de los casos (Remus y Wong, 1982). A pesar de que la principal técnica de clasificación utilizada ha sido el análisis discriminante, Wilson y Hardgrave (1995) defienden la utilización de la regresión logística como alternativa al análisis discriminate, escasamente utilizada hasta la fecha. La regresión logística es una técnica adecuada cuando se pretende hacer una clasifición basada en las características de los datos. Una ventaja adicional de esta técnica es que no requiere la normalidad estricta de los datos y además un gran número de investigaciones han evidenciado que hay otras muchas características deseables que hacen de la regresión logística una mejor herramienta para la categorización que el análisis discriminante (ver Aldrich y Nelson, 1984; Press y Wilson, 1978). Para la realización de este trabajo se elaboró un cuestionario «ad hoc» que contemplara la mayor parte de las variables que han mostrado tener influencia en el rendimiento académico. A partir de este cuestionario y de los resultados de la investigación de Alvarado y García Jiménez (1997), en la que se mostraba la importancia de la asistencia y la participación en clase como factores explicativos del rendimiento académico, pretendemos conocer qué variables son las mejores predictoras del éxito/fracaso en las asig naturas del área de Metodología. Método Muestra La muestra estaba constituida por 175 estudiantes (140 mujeres y 35 hombres) de primer curso de Psicología de la UCM. Los datos fueron tomados durante el curso académico 1997/98 en la asignatura cuatrimestral de «Métodos y Diseños de Investigación en Psicología I». Variables Las variables estudiadas fueron las siguientes: a) Rendimiento académico: calificación obtenida en el examen final de febrero en la asignatura estudiada. b) Asistencia a clase: número de veces que asistieron los alumnos a clase en los días en que aleatoriamente se controló su presencia. c) Participación en clase: número de veces que los alumnos salían voluntariamente a corregir los ejercicios de prácticas. Cada vez que los alumnos salían voluntariamente y realizaban correctamente todos los ejercicios que les eran solicitados recibían una calificación de 0,25 puntos que sería posteriormente sumada a la ca-
250
Mª VISITACIÓN GARCÍA JIMÉNEZ, JESÚS Mª ALVARADO IZQUIERDO Y AMELIA JIMÉNEZ BLANCO
lificación final que en este trabajo es considerada como rendimiento académico. d) Cuestionario: las variables que éste contemplaba pretendían medir, en el primer día de clase, aquellos aspectos bibliográficos, motivacionales y actitudinales que han sido documentados como relevantes en la literatura revisada. 1. Calificación media del bachillerato (hasta 7 puntos/mayor de 7 puntos). 2. Nota de acceso a la universidad. 3. Número de opción en que se eligió la carrera de psicología. 4. Supuesta elección de otra carrera de haber tenido más nota. (si/no) 5.Grado de ilusión por la carrera en su comienzo (ilusionado / indiferente/ desilusionado). 6. Supuesta relación del grado de ilusión por la carrera con el rendimiento(si/no) 7. Previsión de las asignaturas de Metodología al elegir Psicología (si/no) 8. Elección de la carrera en caso de haber tenido conocimiento de las asignaturas de Metodología integradas en el Plan de Estudios vigente. (si/no) 9. Estimación del agrado por las asignaturas de Metodología (agrado / no agrado /desagrado). 10. Previsión de dificultades con las asignaturas de Metodología (si/no) 11. Estimación de la motivación al empezar la carrera (mucha/regular/poca) 12. Estimación de la vocación de Psicólogo/a (alta/media/baja) 13. Tipo de interés al elegir la carrera (personal/profesional) 14. Especialidad más atractiva (clínica/educativa/industrial/social/metodología) 15. Personalidad (introvertida/extravertida). 16. Dificultad en salir a la pizarra (mucha/poca/ninguna) 17. Previsión de asistencia a clase (si/no) 18. Ordenación de factores supuestamente influyentes para el buen rendimiento académico: competencia del profesor, esfuerzo personal, capacidad intelectual, interés por las materias, motivación por aprender 19. Influencia de la existencia de un libro de texto para la asignatura en la asistencia a clase (si/no) 20. Estimación actual de asistencia futura a clase (si/no) 21. Enumeración por orden de preferencia de cinco asignaturas de la carrera. Técnicas de análisis Las técnicas de análisis de datos empleadas fueron la regresión lineal múltiple para corroborar el efecto de la asistencia y la participación real en la predicción del rendimiento académico, así como la regresión logística para detectar las variables que mejor permiten predecir el éxito/fracaso académico. Resultados
mar parte de la ecuación: calificación durante el bachillerato «CB» (t= 3,316, p<0.01), participación «PAR»(t= 2,748, p<0,01) y asistencia «ASIS»(t= 2,260, p= 0,0251): Rendimiento= 2.522246 + 0.814101CB + 1.125477 PAR + 0.083810 ASIS Confirmamos así la importancia de las variables participación y asistencia como variables predictoras sobre el rendimiento (Alvarado y García, 1997) y que a diferencia del rendimiento parecen ser variables sobre las que, en principio, es posible actuar, para lo cual sería necesario conocer cuales son los factores que facilitan una mayor asistencia y participación. Para este fin se realizó un análisis de regresión múltiple que nos permitiera conocer cuales son las variables predictoras de la participación y de la asistencia: Para la participación, encontramos cuatro variables, que proporcionaban un valor de Regresión Múltiple igual a 0,41376, para las variables calificación durante el bachillerato «CB» (t= 3,934, p<0.01), motivación al comenzar la carrera «MOT» (t= 2.456, p= 0.0151), «timidez» o dificultad en salir a la pizarra «PIZ» (t= 2.453, p= 0.0151) e importancia que confieren al esfuerzo personal para superar la materia «ESF» (t= 2.081, p= 0.0390): PAR= 0.172095CB + 0.112153MOT – 0.079409PIZ + 0.038786ESF En cuanto a la asistencia, encontramos seis variables para un valor de Regresión Múltiple igual a 0,50021, siendo las variables predictoras: agrado de la asignatura «AGR» (t= 3,978, p<0.01), personalidad introvertida «PER» (t= 3.372, p<0.01), previsión de asistencia «PAS» (t= 2,874, p<0.01), especialidad metodología «ESP» (t= 2.551, p= 0.0116), sentirse motivado al iniciar la carrera «MOT» (t= 2.452, p= 0.0152) y atribuir a la competencia del profesor éxito académico «PROF» (t= 2,028, p= 0,0441): ASIS= 19.174 + 3.288AGR + 0.769PER + 3.020PAS + 2.021ESP + 1.372MOT + 0.310PROF B) Regresión logística Para la predicción del éxito/fracaso académico utilizamos la regresión logística categorizando la variable dependiente en aprobados (90 alumnos) y suspensos (85 alumnos). El modelo permite hacer una estimación correcta (χ24= 28.424, p<0.01) del 68,57% de los casos (ver Tabla 1), entrando a formar parte de la ecuación como predictores las variables: participación en clase «PAR» (Wald= 7,7636, p<0.01), considerar la especialidad de cognitivametodología como la más atractiva «ESP» (Wald= 6,0533, p= 0.0139), calificación durante el bachillerato «CB» (Wald= 5.9532, p= 0.0147) y el estar motivado al iniciar la carrera «MOT» (Wald= 4.2451, p= 0.0394): Rendimiento=
1 ; H = 1.9085PAR + 0.8534ESP+ 0.4081CB + 0.3617MOT 1 + e−H
A) Regresión lineal múltiple: Mediante el procedimiento de regresión por pasos encontramos el mejor modelo predictor del rendimiento académico (F3,171 = 12.14212, p<0.01) obteniéndose un valor de Regresión Multiple igual a 0,41906, siendo las variables predictivas que entran a for-
En la figura 1 se observa que todos los casos con probabilidad superior a 0,75 fueron correctamente clasificados como aprobados, mientras que la mayor parte de los errores en la clasificación fue para los sujetos a los que se predecía una probabilidad entre 0.25 y 0.50.
LA PREDICCIÓN DEL RENDIMIENTO ACADÉMICO: REGRESIÓN LINEAL VERSUS REGRESIÓN LOGÍSTICA
40 F R E C U E N C I A
30 20 10
Prob: 0
a a a a s s s s s s s s s s 0.25
a s s s
a a aa aa sa ss ss ss a ss a a ss a a s s s sa 0.5
a a a a a a a s aa a a a s as s a a a aa a a 0.75 1
Figura 1. Frecuencia de casos observados en función de las probabilida des predichas. Cada símbolo representa 2,5 casos, habiéndose utilizado el símbolo «s» para indicar los suspensos obser vados y el símbolo «a» par a los aprobados observados. Se predice el aprobado para probabilidades su periores a 0.50, destacándose los casos mal clasificados
También se realizó un análisis, mediante regresión logística, para conocer que aspectos predicen la participación y la asistencia. En el caso de la participación, se dicotomizó la VD en los alumnos que en alguna ocasión habían salido a corregir problemas en la clase práctica (63 alumnos) y los que no habían salido en ninguna ocasión (112). El modelo permite hacer una estimación correcta (χ24= 25.794, p<0.01) del 68% de los casos (ver Tabla 2), entrando a formar parte de la ecuación como predictores
Tabla 1 Número y porcentaje de casos correctamente clasificados en la predicción del éxito/fracaso académico OBSERVADO
Suspensos Aprobados % casos acertados
PRONOSTICADO Suspensos Aprobados 67
18
% casos acertados 78,82
37
53
58,89
64,42
74,65
68,57
Tabla 2 Número y porcentaje de casos correctamente clasificados en la predicción de la participación en clase OBSERVADO
PRONOSTICADO Participa No participa
% casos acertados
Participa
102
10
91,07
No participa
46
17
26,98
68,92
62,96
68,00
% casos acertados
Tabla 3 Número y porcentaje de casos cor rectamente clasificados en la predicción de una alta asistencia a clase OBSERVADO
PRONOSTICADO Asiduo No asiduo
% casos acertados
Asiduo
34
58
36,96
No asiduo
10
73
87,95
77,27
55,73
61,14
% casos acertados
251
las variables: grado de ilusión al comenzar la carrera «ILU» (Wald= 6.2253, p= 0.0126), calificación durante el bachillerato «CB» (Wald= 6.5224, p= 0.0126), «timidez» o dificultad en salir a la pizarra «PIZ» (Wald= 4,8126, p= 0.0283) y nivel de agrado de las asignaturas de metodología «AGR» (Wald= 3,6271, p= 0.0568): PAR =
1 ; H = −1.9064 + 0.6444ILU + 0.4253CB − 0.3771PIZ + 1.0291AGR 1 + e −H
En cuanto a la asistencia, se dicotomizó la variable en los alumnos que firmaron más del 85% de los partes de asistencia (83 alumnos) y los que no habian asistido con tanta asiduidad (92 alumnos). El modelo permite hacer una estimación correcta (χ24 = 24.056, p<0.01) del 61,14% de los casos (ver Tabla 3), entrando a formar parte de la ecuación como único predictor el sentirse ilusionado al inicio de la carrera «SEN» (Wald= 4.7105, p= 0.030):
ASIS =
1 1+ e− 0.4616SEN
Conclusiones El procedimiento de regresión múltiple no nos permite hacer un buen pronóstico del rendimiento académico (R2= 0.17), mientras que la regresión logística si parece ser un instrumento idóneo para hacer una buena predicción del éxito/fracaso académico como muestra el casi 70% de casos bien clasificados que hemos obtenido (véase Remus y Wong, 1982). Se confirma que el mejor predictor del rendimiento académico futuro es el rendimiento anterior, como han puesto en evidencia múltiples estudios (Goberna y otros, 1987; House, Hurst, Keely 1996; Jiménez, 1987; Wilson y Hardgrave, 1995). Los resultados de nuestro trabajo confirman el criterio de Goberna y otros (1987), puesto que se muestra el menor valor pronóstico de la nota de selectividad respecto al rendimiento continuado (rendimiento medio durante el bachillerato) en cuanto a la predicción del rendimiento académico en la universidad. Tanto si se utiliza la regresión logística como si se utiliza la regresión múltiple, los mejores modelos contemplan la variable rendimiento medio durante el bachillerato en vez de la nota en selectividad. Además del rendimiento académico anterior, se evidencia la importancia de las variables participación y asistencia (Alvarado y García Jiménez, 1997) en la predicción del rendimiento. Esto tiene una especial transcendencia, al tratarse de variables sobre las que es posible actuar. Para la participación en clase serían buenos predictores, la elevada motivación al iniciar la carrera, la menor dificultad para salir a la pizarra y el alto nivel de agrado por la asignatura impartida. Mientras que para la asistencia aparece como factor clave la ilusión/motivación ante el comienzo de la carrera, aunque aspectos como la competencia del profesor y el agrado de la asignatura también tienen una incidencia positiva sobre la asistencia. Nos parecen suficientemente sugestivas estas conclusiones, para seguir indagando nuevos predictores y perfilando nuevos estudios, a partir de la regresión logística, dado el alto porcentaje de clasificaciones correctas obtenidos en este estudio.
252
Mª VISITACIÓN GARCÍA JIMÉNEZ, JESÚS Mª ALVARADO IZQUIERDO Y AMELIA JIMÉNEZ BLANCO
Referencias Aldrich, J.H., y Nelson, F.D. (1984). Linear probability, logit, and pro bit models. Beverly Hills, CA: Sage. Alvarado, J. y García Jiménez, M.V. (1997). Incidencia de la asistencia a clase, del tr abajo efectivo y de factores individuales sobre el rendimiento académico. V Congreso de Metodología. Sevilla. Castejón, J.L., Navas, L. y Sampascual, G. (1993). Investigación sobre la eficacia de centros de enseñanza secundaria. Un modelo de identificación y funcionamiento. Revista de Educación, 301, 221-244. Cuxart Jardí, A., Martí Recober, M. y Ferrer Julià (1997). Algunos factores que inciden en el rendimiento y la evaluación en los alumnos de las pruebas de acceso a la universidad. Revista de Educación, 314, 63-88. Forteza, J. (1975). Modelo instrumental de las relaciones entre variables motivacionales y rendimiento. Revista de Psicología General y Apli cada, 132, 75-91. García Llamas, J.L. (1986). El análisis discriminante y su utilización en la predicción del rendimiento académico. Revista de Educación, 280, 229252. Goberna, M.A., López M.A. y Pastor J.T. (1987). La predicción del rendimiento como criterio para el ingreso en la universidad. Revista de Educación, 283, 235-248. González, A.J. (1988). Indicadores del rendimiento escolar: relación entre pruebas objetivas y calificaciones. Revista de Educación, 287, 31-54.
House, J. D., Hurst, R.S., Keely, E.J., (1996). Relacionship between learner attitudes, prior achievement, and performance in a General Education Course: A multi-Institutional Study. International Journal of instructional media, 23, 257-271. Jiménez Fernández, C. (1987). Rendimiento académico en la universidad a distancia. Un estudio empírico sobre su evolución y predicción (II). Revista de Educación, 284, 317-347. Marcelo García, C., Villarín Martínez, M. y Bermejo Campos, B. (1987). Contextualización del rendimiento en bachillerato. Revista de Edu cación, 282, 267-283. Marreno Hernández, H. y Orlando Espino, M. (1988). Evaluación comparativa del poder predictor de las aptitudes sobre notas escolares y pruebas objetivas. Revista de Educación, 287, 97-112. Press, S.J. y Wilson, S. (1978). Chossing between logistic regression and discriminant analysis. Journal of American Statistical Association, 73, 699-705. Remus, W., y Wong, C. (1982). An evaluation of five models for the admission decision. College Student Journal, 16, 53-59. Wilson, R.L., Hardgrave, B.C. (1995). Predicting graduate student success in an MBA program: Regression versus classification. Educational and Psychological Measurement, 55, 186-195.