14 minute read

CRITERIOS CONFIABLES PARA LA CONSTRUCCI\u00D3N DEL MODELO DE M\u00C1XIMA ENTROP\u00CDA (MAXENT) (SEGUNDA PARTE)

Manuel Correia- FUNDATUN (20 de Enero 2019)

En ediciones anteriores del boletín se ha mencionado que existe un debate, hasta cierto grado semántico, sobre el nombre correcto para la actividad de modelar áreas de distribución; ya sea como Modelado de Nicho Ecológico (MNE), Modelo de Distribución de Especies (MDS) o Modelado de Hábitat Preferencial (MHP). La mayor parte de sus resultados se presentan sobre una doble perspectiva, la geográfica (G) o la ambiental (E).

Advertisement

Si se intenta modelar las áreas potenciales, lo cual esencialmente implica localizar en la geografía las regiones favorables a una especie (o sea, contenidas en su nicho fundamental existente, o aquellas en el nicho realizado pero que ocurren en otras regiones no ocupadas) entonces lo lógico sería usar el término MNE. En la mayor parte de la literatura estas distinciones no se hacen y los términos MNE y MDS se consideran sinónimos.

Dejando a un lado los problemas semánticos, se debe tener claras tres cosas:

1) Existen al menos tres clases de nichos Grinnelianos (el fundamental, el fundamental existente y el realizado),

2) Existen al menos tres áreas de interés (la ocupada, la potencial y la invadible), y

3) Modelar nichos no es igual a modelar áreas, al menos por la obvia razón de que los nichos son subconjuntos de E y las áreas son subconjuntos de G.

En la primera parte de este artículo (Correia, 2018), se explicó de forma muy general el fundamento del Modelo de Máxima Entropía, conocido por su software como MAXENT.

En otras palabras, el software de MAXENT presenta sus análisis predictivos basados en forma de píxeles o celdas en una retícula geográfica (ráster), y a veces sobre los ambientes. Se ha mencionado también que utiliza los archivos cartográficos en un formato y características específicas, así mismo emplea un archivo de entrada de coordenadas de distribución de especies que es evaluado, junto con un grupo de variables ambientales, para dar como resultado la posible distribución potencial de una especie con determinada cantidad de datos de presencia, al respecto existe abundante literatura que explica los fundamentos estadísticos y matemáticos (Peterson y col, 2011).

El enfoque de los algoritmos del programa consiste en encontrar la distribución de probabilidad de entropía máxima, que es la más cercana a la distribución uniforme, condicionada por las restricciones impuestas por la información disponible sobre la distribución observada de la especie y las condiciones ambientales del área de estudio. Se trabaja con el supuesto que las variables ambientales determinan el nicho ecológico. No se consideran las interacciones bióticas ni los procesos de dispersión de las especies.

Consideración de fuentes de sesgo y error

Los resultados del modelo van a ser tan confiables como confiables son los datos utilizados para construirlos.

• Los recuentos de ausencias no están disponibles en muchos casos, no existen, o pueden no ser fiables.

• Las ausencias de una especie en aquellos lugares en que sí se dan las condiciones favorables se llaman “falsas ausencias”.

• La inclusión de falsas ausencias en el modelo puede sesgar seriamente el análisis, por lo que los datos de ausencia se deben manejar con mucho.

• Incorrecta identificación de las especies.

• Incorrecta referencia espacial.

• Poca correspondencia entre las características de los datos y las suposiciones estadísticas que hacen los algoritmos.

El MAXENT es de código libre bajo licencia del Instituto Tecnológico de Massachusetts (MIT); está programado como una aplicación “Java” independiente y tiene una “Interfase Gráfica de Usuario” para la importación de datos de registros y retículas de capas del medio físico (Figura 1), lo que permite modelar distribuciones geográficas de las especies. Prácticamente el procedimiento de proceso de datos es automático y se generan las retículas de idoneidad/abundancia de especies así como reportes del método de procesamiento y ajuste de la simulación.

MAXENT puede ser descargado del internet, junto con la literatura asociada con instrucciones precisas al respecto. Además de la aplicación antes mencionada, también, en programación de R se puede ejecutar gran parte de la funcionalidad de la modelación de MAXENT en Java, conocido en el internet como “maxnet”. Este repositorio de código abierto permite a la comunidad de científica usar y contribuir al código fuente de Java para MAXENT.

R es un lenguaje y entorno de programación cuya característica principal es que forma un entorno de análisis estadístico para la manipulación de datos, su cálculo y la creación de gráficos; con la particularidad que es un software de libre acceso y disponible para funcionar en varios ambientes (Windows, Linux o Unix) o como archivos binarios precompilados. Junto con R se incluyen ocho bibliotecas o paquetes (bibliotecas estándar), existiendo paquetes adicionales que están disponibles a través de Internet.

Figura 1.- Interfase gráfica del usuario al correr el programa MAXENT

Pasos previos a la ejecución del programa desde la aplicación

Coordenadas de distribución. Para poder realizar el “modelado” posterior, es necesario partir de coordenadas de distribución. El formato de entrada de coordenadas de distribución reconocido por MAXENT es un formato de archivo con valores separados por comas (extensión de archivo “CSV”, Comma Separated Values) donde se debe indicar en cada renglón de la fila el nombre de la especie, la ordenada (Y) y la abscisa (X) del sistema de coordenadas empleado (latitud y longitud en grados o en metros).

Para el ejercicio aquí desarrollado se tomaron los datos de los registros de captura incidental que provienen de los ficheros de dominio público de la Comisión Interamericana del Atún Tropical (CIAT) en su sitio en internet; así como la información sobre los códigos usados y las normas aplicadas en la compilación y presentación de los datos. Los archivos contienen datos de captura incidental de varias especies, registrados por buques atuneros cerqueros con más de 363 toneladas métricas de capacidad de acarreo, provistos por los gobiernos miembros de la CIAT que han operado en el Océano Pacífico Oriental (OPO) durante el período 1993-2016, y registrados en el mar por observadores a bordo. Se incluye también la información sobre el número de lances combinados por año, mes, pabellón o tipo de lance en una resolución 1°x1° (latitud/longitud); adicional a que los registros de las capturas incidentales las especies están asentadas en número de individuos. El procesamiento de datos se hizo a partir del año 2005, porque fue en ese año que la CIAT expandió la resolución taxonómica de la base de datos de captura incidental o “bycatch”.

Variables descriptivas. Es importante tener en cuenta que las mismas deberán ser variables dependientes de la especie (como las ambientales) que aporten información a la distribución de la especie o estén vinculadas con su biología. Estas variables deben ser creadas o editadas en función de los recursos y aptitudes cartográficas que se encuentren disponibles. La premisa fundamental que permite analizar estas variables bajo el entorno de MAXENT es que todas las variables deben presentar los mismos valores de resolución, así como iguales límites espaciales. El formato de archivo reconocido para estas variables es el formato ASCII no pudiendo recurrir a variables descriptivas en formato vectorial u otros formatos ráster similares. (revisar publicación anterior). Existen varios portales de internet que facilitan la tarea de obtener datos ya transformados de los sensores satelitales de la Administración Nacional de la Aeronáutica y del Espacio (NASA) y la Administración Nacional Oceánica y Atmosférica (NOAA), respectivamente (BIO-RACLE, AQUAMAPS, OCEAN COLOR WEB, entre otros).

Ejecución del programa

Una vez indicados los parámetros necesarios e introducidos los datos, de distribución y variables ambientales, bastará para correr el programa. Éste comenzará a analizar los datos y generará el modelo. En caso que alguna capa temática presente fallos de formato de resolución, de límites distribución o las coordenadas de análisis se encuentren fuera de la zona territorial analizada, el programa ofrecerá mensajes de error advirtiendo de ello y describiendo el tipo de error. Es importante corregir estos errores para generar el modelo sin problema alguno.

Evaluación y validación del modelo

Existen dos tipos de errores comunes en este modelo, uno es de omisión y el otro de comisión (Figura 2):

• Error de omisión: predice la “no-presencia” de la especie donde realmente está; entendiéndose como Falso Negativo. Pudiendo no predecir los lugares de presencia que pueden ser de importancia para la supervivencia de la población.

• Error de comisión: predice la “presencia” de la especie donde no está, entendiéndose como Falso Positivo. Puede ser real o aparente, ya que un “falso positivo” puede significar una “sobre-predicción” del modelo o una predicción de nicho potencial de la especie.

Figura 2.- Cuantificación del componente de error con una matriz de confusión.

Casi todas las técnicas de evaluación de modelos de distribución de especies se centran en detectar errores de omisión, o sea falsos negativos.

Resultados del análisis.

Cuando MAXENT finaliza el análisis, se genera un informe con los resultados de la aplicación. El archivo principal, que ofrece la información técnica del análisis, se presentará en formato HTML y con el mismo nombre de la especie que analizamos. Ejecutando este archivo se pueden advertir gráficas descriptivas, pesos de variables, éxitos del modelo y mapas de distribución (Figuras 3 a 7).

Tasa de Omisión: es una estadística que indica el rendimiento del modelo de MAXENT. La figura 3 muestra la tasa de omisión y el área pronosticada en función del umbral acumulativo. La tasa de omisión se calculó tanto en los registros de presencia de entrenamiento como en los registros de prueba. La tasa de omisión debe estar cerca de la omisión predicha, debido a la definición del umbral acumulativo.

Figura 3.- Muestra cómo las omisiones calculadas a partir de los puntos de entrenamiento y el área predicha como favorable varían según el valor límite cumulativo.

La gráfica de omisión y área pronosticada consta de tres líneas:

1. Omisión en datos de entrenamiento (en inglés omission on training samples, línea azul) muestra las fracciones de los puntos de presencia ubicados por fuera del área potencial con base en el modelo de MAXENT (fraction value) por los valores del umbral de probabilidad (de bajo a alto) que limita el área pronosticada en el umbral acumulativo (cumulative threshold).

2. Las muestras de entrenamiento (training simples, línea negra) se usan como sinónimo de “puntos de presencia”.

3. Las muestras (aleatorias) de fracciones de los puntos de fondo (fraction of background predicted, línea roja) del área de estudio incluidos en el área predicha, usando diferentes umbrales acumulativos (Cumulative thresholds).

Curva de Característica Operativa Relativa (ROC, de su nombre en inglés Receiver Operating Characteristic): es una curva que describe la tasa de identificación correcta de presencias (sensibilidad= fracción de verdaderos positivos, en las y) contra la tasa de falsas alarmas (especificidad= fracción de verdaderos negativos, en las x) para los mismos datos (figura 4). Teniendo en cuenta que la especificidad se define utilizando el área prevista, en lugar de la verdadera comisión. Cuando se obtienen estos números para un intervalo de valores de umbral (para decidir si un punto se debe calificar como ausencia o presencia), se traza la ROC, que es la línea roja en la figura. La línea negra es la que se obtendría si para diferentes valores del umbral se utilizara un clasificador enteramente aleatorio. Esta gráfica será más intuitiva desde el punto de vista de comprensión, ya que describe como el modelo genera un mayor éxito en la predicción de zonas.

Figura 4.- Curva operacional (curva ROC en rojo), para grupo de datos de entrenamiento, que representa el ajuste del modelo, así como el área debajo de la curva ROC denominada como AUC (área bajo la curva).

La idea de la ROC a su vez da origen al estadístico llamado AUC (Area Under the Curve), que es el área total bajo la curva roja. Un clasificador aleatorio tiene una AUC de 0.5, un muy buen clasificador tiene un área muy cercana a 1. MAXENT evalúa los aciertos y fracasos que ha conseguido en el modelo aportando un valor de AUC que indicará cuan preciso es nuestro modelo (mostrará valores entre 0 y 1). Esto implica que el AUC alcanzable máximo es menor que 1. Si los datos de prueba se extraen de la distribución de MAXENT, entonces la AUC de prueba máxima posible sería 0,893 en lugar de 1; en la práctica, el AUC de prueba puede exceder este límite.

En este caso, los puntos de presencia no tienen valores de probabilidad mayores que las celdas de la retícula (ráster) donde están ubicados los puntos generados aleatoriamente, y el modelo generado por MAXENT no tiene ninguna capacidad de predecir. Esta situación se refleja en el gráfico en la línea de referencia (Random Prediction). Araújo y col (2005) recomiendan la siguiente interpretación del AUC para los modelos generados:

Buena si 0.80>AUC<0.90Aceptable si 0.70>AUC<0.80 Mala si 0.60>AUC<0.70

No válida si 0.50>AUC< 0.60

Quizá, la información más llamativa y atractiva para nuestro análisis se encuentre en la sección del archivo denominada “Figuras del Modelo”. A través de esta sección se visualiza un mapa que muestra los resultados de nuestro análisis por medio de una representación gráfica de degradados de color. Estos degradados de color simbolizan la probabilidad de encontrar a nuestra especie en el territorio (figura 5).

Figura 5.- Hábitat potencial de la Especie_X para el Océano Pacífico Oriental en el presente

MAXENT dispone de tres formatos de creación de modelo en función de la metodología de valores de predicción que asigne a cada píxel. Estos formatos son representados como salidas: logística, valores crudos o valores acumulativos. MAXENT asigna la probabilidad por defecto de 0.5 como salida logística y no se recomienda cambiarlo en la mayoría de los casos.

¿Qué variables ambientales importan más? Durante el proceso, MAXENT va generando una distribución de probabilidad sobre los píxeles de las retículas o cuadrículas, empezando por una distribución uniforme y, de forma iterativa, mejorando el ajuste de la distribución a los datos de muestreo. Al final del proceso, el valor de la ganancia (gain) indica como de ajustado está el modelo a las muestras de presencia.

El programa asigna el incremento en la ganancia (gain) a las variables ambientales de las que depende la especie. Convirtiendo dichos valores a porcentajes, al final del proceso de modelado se obtiene una tabla de contribuciones (Tabla I)

Tabla I.- Análisis de contribución de las 6 variables ambientales consideradas en el ejercicio

CONTRIBUCIÓN LA PERMUTACIÓN 1 Temperatura Superficial del Mar 59.8 65.62 Clorofila-a 26.7 20.53 Ph 6.2 4.64 Salinidad 4.6 5.15 Oxígeno Disuelto 2.1 3.36 Corriente Superficial 0.6 1

La ganancia (gain) es una medida de la bondad de ajuste relacionada con la desviación de los valores, empezando en el valor cero (0) y va aumentando asintóticamente durante el modelado. La probabilidad asignada por el modelo a cada píxel es muy pequeña, dado que la suma de los valores de cada cuadrícula debe ser 1.

MAXENT proporciona dos métricas para determinar la importancia de las variables de entrada en el modelo final: porcentaje de contribución e importancia de permutación. Esta función extrae ambas métricas de la ranura de resultados de un objeto de modelo MAXENT y las coloca en un marco de datos (data.frame), que viene siendo una hoja de datos, en los que cada fila corresponde a un sujeto y cada columna a una variable. La estructura de un marco de datos (data.frame) es muy similar a la de una matriz; con la diferencia que se puede incluir también datos alfanuméricos mientras que una matriz sólo admite valores numéricos.

La importancia de la permutación debe ser la elección en los análisis, no el porcentaje de contribución. Según Phillips (2006), "La medida de la importancia de la permutación depende solo del modelo final de MAXENT, no del camino utilizado para obtenerla. La contribución para cada variable se determina permutando aleatoriamente los valores de esa variable entre los puntos de entrenamiento (tanto la presencia como los antecedentes) y midiendo la disminución resultante en el entrenamiento AUC. Una gran disminución indica que el modelo depende en gran medida de esa variable. Los valores se normalizan para dar porcentajes".

En este caso, la Temperatura Superficial del Mar y la Clorofila-a, serían las dos variables que más importancia tienen en la distribución de la Especie_X revisada en este ejercicio, confirmada por estimación de jackknife (figura 6).

Estimaciones de jackknife. Las estimaciones de Jackknife implican calcular la estadística de interés para todas las combinaciones de datos donde uno (o más) de los puntos de datos originales se eliminan (figura 6).

El Jackknifing, es similar al bootstrapping (remuestreo), se usa en la inferencia estadística para estimar el sesgo y el error estándar en una estadística, cuando se utiliza una

muestra aleatoria de observaciones para calcularla. La idea básica detrás del estimador jackknife radica en volver a calcular sistemáticamente la estimación estadística omitiendo una observación a la vez del conjunto de muestras. A partir de este nuevo conjunto de "observaciones" para la estadística, se puede calcular una estimación del sesgo, así como una estimación de la varianza de la estadística. Ambos métodos estiman la variabilidad de una estadística a partir de la variabilidad de esa estadística entre submuestras, más que a partir de suposiciones paramétricas. El jackknife es una técnica menos general que el bootstrap, y explora la variación de la muestra de manera diferente. Sin embargo, este método es más fácil de aplicar a esquemas de muestreo complejos, como el muestreo de múltiples etapas con diferentes pesos de muestreo. El bootstrap arrojará resultados ligeramente diferentes cuando se repita con los mismos datos, mientras que Jackknife arrojará exactamente el mismo resultado cada vez.

Figura 6.- Ganancia de entrenamiento regularizada de la prueba de Jackknife para la Especie_X

Curvas de respuesta. Las curvas de respuesta del MAXENT de las variables seleccionadas de acuerdo con los resultados de Jackknife que indican cuáles son aquellas variables que más afectan a la distribución de las especies en estudio (Figura 7). En el eje “X” indica la variación del valor ambiental y el eje “Y” indica la probabilidad de hallar la Especie_X en el área de estudio. En el grupo superior de las gráficas se considera el efecto de todas las variables y en el grupo inferior sólo se considera el valor de la variable correspondiente.

Figura 7.- Curvas de respuesta del MAXENT de las variables ambientales (Clorofila-a, Corrientes superficiales, Salinidad superficial, Temperatura superficial del mar, Coeficiente de acidez) utilizadas para generar los modelos de distribución geográfica potencial de Especie_X en el OPO.

REFERENCIAS CONSULTADAS Y RECOMENDADAS. Araújo, M. (2011). Ecological niches and geographic distributions. Princeton University Press, Princeton. 328 pp

Araújo, M., R. Pearson, W. Thuiller y M. Erhard. (2005). Validation of species– climate impact models under climate change. Global Change Biology 11: 1504–15

Correia M (2018). “Criterios confiables para la construcción del Modelo de Máxima Entropía - MAXENT - (PARTE 1)”. Boletín COFA convivencia pesquera (Noviembre 2018). FUNDATUN. Caracas – Venezuela. 24 p https://issuu.com/fundatun/docs/2018_11_rev_cofa/a/93161

Davies, R., S. Cripps, A. Nickonson y G. Porter. (2009). Defining and estimating global marine fisheries bycatch. Marine Policy, 33(4), 661-672. doi:10.1016/j.marpol.2009.01.003

Elith, J., M. Kearney y S. Phillips. (2010), The art of modelling range‐shifting species. Methods in Ecology and Evolution, 1: 330-342. doi:10.1111/j.2041- 210X.2010.00036.x

Hall, M. y M. Roman. 2013. Bycatch and non-tuna catch in the tropical tuna purse seine fisheries of the world. FAO, Fisheries and Aquaculture Technical Paper Nº 568. Rome, FAO. 249 pág.

Hijmans, R., S. Phillips, J. Leathwick, J. Elith, y M. Hijmans. (2013). Package ‘dismo’, Circles Vol. 9. R. software.

Hijmans, R. y J. Van Etten. (2012). raster: Geographic Analysis and Modeling with Raster Data. R package version, Vol. 1, 9–92

Peterson, A., J. Soberón, R. Pearson, R. Anderson, E. Martínez-Meyer, M. Nakamura y M.. Phillips, S. (2006) A brief tutorial on Maxent. AT&T Research. Available at: http://www.cs.princeton.edu/~schapire/maxent/tutorial/tutorial.doc Phillips, S., R. Anderson y R. Schapire. (2006). "Maximum entropy modeling of species geographic distributions." Ecological Modelling 190(3): 231-259.

Phillips, S. y M. Dudik. (2008). Modeling of species distributions with Maxent: new extensions and a comprehensive evaluation: Ecography. Vol. 31, no. 2, pp. 161-175.

ENLACES DE DESCARGAS DE PROGRAMAS E INFORMACIÓN

MAXENT https://biodiversityinformatics.amnh.org/open_source/maxent/

MAXNET https://github.com/mrmaxent/maxnet Java https://www.java.com/es/download/

R (Software) y otros muchos paquetes http://www.r-project.org

Comisión Interamericana del Atún Tropical (CIAT). “Ficheros públicos” https://www.iattc.org/PublicDomainData/IATTC-Catch-by-species1.htm

This article is from: