Diseño experimental y análisis estadístico
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado
Grados en Biología, Biotecnología y Ciencias Ambientales Facultad de Biología
Profesor: José Francisco Calvo Sendín | jfcalvo@um.es | webs.um.es/jfcalvo
1. El método científico 2. Fundamentos de probabilidad 3. Contraste estadístico de hipótesis 4. Fundamentos del diseño experimental 5. Análisis estadístico: enfoques metodológicos 6. Análisis estadístico: estadísticos descriptivos 7. Análisis estadístico: métodos y modelos Diseño experimental y análisis estadístico – Facultad de Biología
Diseño experimental y análisis estadístico 1. El método científico • Ciencia La ciencia trata de explicar racionalmente la naturaleza obteniendo explicaciones sobre el funcionamiento de un sistema, o siendo capaz de predecir los resultados del sistema (Kéry y Schaub 2012). Science is a process for learning about nature in which competing ideas about how the world works are measured against observations (Richard Feynman, citado en Hilborn y Mangel 1997). • Hipótesis: Son las ideas o descripciones sobre cómo funciona el mundo. Dado que nuestras descripciones del mundo son casi siempre incompletas y nuestras medidas incorporan incertidumbre e imprecisión, necesitamos métodos que nos permitan evaluar el grado de concordancia entre las ideas confrontadas y las observaciones: la estadística (Hilborn y Mangel 1997). Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 1. El método científico • Hipótesis y teorías Una hipótesis científica se refiera a un mecanismo o relación causa-efecto particular. Una teoría científica es mucho más general y sintética (Gotelli y Ellison 2004) e implica un nivel de evidencia y soporte considerablemente mayor (Hilborn y Mangel 1997). • Método científico Es la técnica que se utiliza para decidir entre las hipótesis en base a las observaciones (Gotelli y Ellison 2004). • Azar, variación, impredecibilidad, incertidumbre Cualquier sistema que encontramos en la naturaleza (y cualquier faceta de la vida) es estocástico; es decir, sistemas que no son completamente predecibles porque incluyen procesos aleatorios que añaden un mayor o menor grado de variabilidad y, en consecuencia, de incertidumbre en sus resultados. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
DiseĂąo experimental y anĂĄlisis estadĂstico 1. El mĂŠtodo cientĂfico • Modelos Para interpretar formalmente cualquier observaciĂłn necesitamos un modelo. Los modelos son herramientas para evaluar las hipĂłtesis (Hilborn y Mangel 1997). Un modelo es una definiciĂłn abstracta de cĂłmo creemos que nuestras observaciones son el resultado de cantidades observables (datos) e inobservables (parĂĄmetros). Los resultados de un sistema estocĂĄstico (la respuesta) pueden expresarse, en forma de modelo estadĂstico: đ??Ťđ??žđ??Źđ??Šđ??Žđ??žđ??Źđ??đ??š = đ??Šđ??šđ??Ťđ??đ??ž đ??Źđ??˘đ??Źđ??đ??žđ??ŚĂĄđ??đ??˘đ??œđ??š + đ??Šđ??šđ??Ťđ??đ??ž đ??žđ??Źđ??đ??¨đ??œĂĄđ??Źđ??đ??˘đ??œđ??š
“seĂąalâ€?, informaciĂłn estructural
“ruidoâ€?, entropĂa
Pero un modelo es una abstracciĂłn y, por tanto, siempre es incorrecto (KĂŠry 2010). Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de BiologĂa
Diseño experimental y análisis estadístico 1. El método científico • El papel de los modelos en ciencia: Dichos sobre los modelos científicos Modelling is as much art as it is science (McCullagh y Nelder)
All models are wrong, but some are useful (Box) There has never been a straight line nor a Normal distribution in history, and yet, using assumptions of linearity and normality allows, to a good approximation, to understand and predict a huge number of observations (Youden)
Everything should be made as simple as possible, but not simpler (Einstein) Nothing is gained if you replace a world that you don’t understand with a model that you don’t understand (Maynard Smith) It is difficult to imagine another method that so effectively fosters clear thinking about a system than the use of a model written in the language of algebra (Kéry) Fuente: Kéry y Schaub (2012)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 1. El método científico • Contraste de hipótesis Método hipotético-deductivo
Karl Popper (1902-1994) Fuente: Wikimedia Commons
Fuente: Wiens (1989)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 1. El método científico • Cuatro visiones filosóficas de la ciencia Filósofo
Palabras clave
Tipo de confrontación
Popper
Falsación de hipótesis
Una única hipótesis es refutada por confrontación con los datos.
Kuhn
Una única hipótesis es utilizada hasta que exista mucha Paradigmas, ciencia normal, información de que ha sido “derrocada” por una hipótesis revolución científica “mejor”.
Polanyi
República de la ciencia
Se permiten múltiples visiones del mundo de acuerdo a diferentes opiniones de los científicos. La confrontación de estas visiones y los datos son juzgadas en función de su (i) verosimilitud, (ii) valor, (iii) interés.
Lakatos
Programa de investigación científica
Confrontación de múltiples hipótesis con los datos como juez. Fuente: Hilborn y Mangel (1997)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 1. El método científico • Probabilidad y estadística Son ciencias que tratan sobre la incertidumbre. Estudian las características de: • Sistemas estocásticos (descritos por los parámetros de un modelo). • Los efectos o resultados de dichos sistemas (los datos observados). La teoría probabilística especifica los parámetros y el modelo. La estadística intenta inferir (deducir) las propiedades del sistema, dado el modelo. La inferencia estadística tiene como objetivo la estimación de las propiedades o características de una población a partir del análisis de una muestra de dicha población
“You can, for example, never foretell what any one man will do, but you can say with precision what an average number will be up to. Individuals vary, but the percentages remain constant. So says the statistician.” Sherlock Holmes. The Sign of Four.
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
DiseĂąo experimental y anĂĄlisis estadĂstico 2. Fundamentos de probabilidad • Probabilidad: Es la frecuencia esperada con la que ocurre un evento • Midiendo la probabilidad nĂşmero de resultados đ?‘ƒ= nĂşmero de ensayos
0,0 ≤ đ?‘ƒ ≤ 1,0
nĂşmero de hembras nacidas đ?‘ƒ= nĂşmero de individuos nacidos Ley de HardyWeinberg
Si no hubiese incertidumbre en el resultado no harĂa falta ni la probabilidad ni la estadĂstica
đ?‘ƒ đ??´đ??´ = đ?‘?2 đ?‘ƒ đ??´đ?‘Ž = 2đ?‘?đ?‘ž = đ?‘ƒ â„Žđ?‘’đ?‘šđ?‘?đ?‘&#x;đ?‘Ž đ??´ đ?‘Ś đ?‘šđ?‘Žđ?‘?â„Žđ?‘œ đ?‘Ž đ?‘œ đ?‘ƒ â„Žđ?‘’đ?‘šđ?‘?đ?‘&#x;đ?‘Ž đ?‘Ž đ?‘Ś đ?‘šđ?‘Žđ?‘?â„Žđ?‘œ đ??´ đ?‘ƒ đ?‘Žđ?‘Ž = đ?‘ž 2 Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de BiologĂa
DiseĂąo experimental y anĂĄlisis estadĂstico 2. Fundamentos de probabilidad • Probabilidad condicional Es la probabilidad de que ocurra un evento A, sabiendo que tambiĂŠn sucede otro evento B (probabilidad de A dado B):
đ?‘ƒ(đ??´ ∊ đ??ľ) đ?‘ƒ đ??´đ??ľ = đ?‘ƒ(đ??ľ)
Probabilidad conjunta de A y B
ĂĄrea de B / ĂĄrea de S
đ??ľ
• Teorema de Bayes: đ??´âˆŠđ??ľ
đ?‘ƒ đ??ľ đ??´ đ?‘ƒ(đ??´) đ?‘ƒ đ??´đ??ľ = đ?‘ƒ(đ??ľ) posterior (distribuciĂłn o probabilidad posterior)
đ??´
prior (distribuciĂłn o probabilidad previa)
�
Conjunto de todos los resultados posibles
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de BiologĂa
DiseĂąo experimental y anĂĄlisis estadĂstico 2. Fundamentos de probabilidad • Variables aleatorias y distribuciones de probabilidad La distribuciĂłn de probabilidad de una variable aleatoria es una funciĂłn que asigna a cada suceso la probabilidad de que ocurra. Prueba un web app en showmeshiny.com
Densidad
đ?‘ (0,1) DistribuciĂłn normal (media = 0, desviaciĂłn estĂĄndar = 1)
95%
-1,96
z
1,96
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de BiologĂa
DiseĂąo experimental y anĂĄlisis estadĂstico 2. Fundamentos de probabilidad • Variables aleatorias y distribuciones de probabilidad Ejemplos:
Discretas
DistribuciĂłn
Media
Varianza
Comentarios
Bernoulli
đ?‘?
đ?‘?(1 − đ?‘?)
Un Ăşnico experimento con dos posibles resultados
Binomial
đ?‘›đ?‘?
đ?‘›đ?‘?(1 − đ?‘?)
Poisson
đ?œ†
đ?œ†
(đ?‘? − đ?‘Ž) 2
(đ?‘? − đ?‘Ž)2 12
đ?œ‡
đ?œŽ2
Continuas
Uniforme Normal Log-normal
đ?œ‡+đ?œŽ2 đ?‘’ 2
Exponencial
1 đ?›˝
đ?œ‡+đ?œŽ2 đ?‘’ 2
Ă— đ?‘’đ?œŽ
1 đ?›˝2
Secuencia de n ensayos de Bernoulli Eventos raros independientes Resultados equiprobables sobre el intervalo [a, b] Genera curvas simĂŠtricas para datos continuos
2
Para datos con asimetrĂa positiva (right-skewed) DistribuciĂłn continua anĂĄloga a la de Poisson Fuente: Gotelli y Ellison (2004)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de BiologĂa
Diseño experimental y análisis estadístico 2. Fundamentos de probabilidad • La probabilidad proporciona las bases para la inferencia La inferencia estadística tiene como objetivo la estimación de las propiedades o características de un sistema (por ejemplo, una población) a partir del análisis de una muestra. Por inferencia podemos entender lo siguiente (Royle y Dorazio 2008): Confrontar modelos con datos para estimar parámetros (ajustar un modelo). Contrastar hipótesis, seleccionar modelos o evaluar modelos. Realizar predicciones. Proporcionar asesoramiento para muestrear procesos subyacentes de manera eficiente.
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Significación estadística y valores de P El contraste de hipótesis se realiza mediante pruebas o test estadísticos. Cada test produce un resultado numérico (un estadístico) y un valor de probabilidad asociado (P). • La hipótesis nula estadística (H0) Establece un modelo simple que considera que las variaciones observadas en los datos son debidas al azar y no al efecto del factor o factores estudiados. • La hipótesis alternativa (H1) En general, como hipótesis alternativas (una o varias), se definen las que sí consideran la existencia de efectos debidos al factor o factores estudiados. • Habitualmente se utiliza el criterio P < 0,05 para rechazar H0 • Pero el rechazo de H0 NO implica aceptar H1 (solo sugiere que H1 puede ser cierta). Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • El valor de probabilidad (P, p, P-value, p-value) Expresa la probabilidad de obtener los datos observados (y otros más extremos pero no observados) dado un modelo específico (definido por un parámetro o conjunto de parámetros θ):
P ( y ≥ yobs|θ ) Habitualmente el modelo considerado es la hipótesis nula (H0), y por tanto, el valor de P es la probabilidad de obtener unos datos (generalmente expresados como el resultado de un test estadístico) al menos tan extremos como los observados: También es frecuente
P (datos|H0)
P no es la probabilidad de que H0 “sea cierta”
utilizar otras notaciones:
P (datos|H0) Pr (datos|H0) Pr {datos|H0}
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
DiseĂąo experimental y anĂĄlisis estadĂstico 3. Contraste de hipĂłtesis estadĂsticas â&#x20AC;˘ Verosimilitud (likelihood) De manera similar a un valor de P, la verosimilitud (â&#x201E;&#x2019;) cuantifica la probabilidad de los datos dado un modelo. Pero â&#x201E;&#x2019; solo usa los datos observados, no los mĂĄs extremos e inobservados. :
â&#x201E;&#x2019;(θ | yobs ) â&#x2C6;? P ( yobs | θ ) â&#x20AC;&#x153;es proporcional aâ&#x20AC;?
θ puede ser un escalar o un vector
La interpretaciĂłn de â&#x201E;&#x2019; es opuesta (como una versiĂłn inversa) a la de P: aquĂŠl valor đ?&#x153;&#x192; que proporcione el mĂĄximo de la funciĂłn de verosimilitud para los datos observados es considerado la mejor estima de θ (estimaciĂłn de mĂĄxima verosimilitud, maximum likelihood estimate, MLE). La verosimilitud de los datos es directamente proporcional a la probabilidad de obtener los datos observados dado el parĂĄmetro o parĂĄmetros estimados. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado â&#x20AC;&#x201C; Facultad de BiologĂa
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Verosimilitud (likelihood) Las verosimilitudes son números muy pequeños, menores que 1, por lo que suele utilizarse más frecuentemente el logaritmo (natural) de la verosimilitud:
logℒ
También denotado como logLik, LL, L
Un buen modelo es el que tiene una alta verosimilitud. Por tanto, cuanto mayor es logℒ, mejor es el ajuste del modelo a los datos. Un valor de ℒ es, en sí mismo, irrelevante. Pero tiene utilidad comparativa. La razón de verosimilitudes (likelihood ratio) permite comparar cuánto más verosímil es un parámetro frente a otro:
ℒ(θ 2 | yobs ) / ℒ(θ 1| yobs ) Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Verosimilitud, desvianza y criterio de información de Akaike (AIC) La desvianza (deviance) se calcula como:
−2 (logℒ − logℒ s) siendo ℒs la verosimilitud del modelo saturado: aquél que tiene tantos parámetros como datos y, por tanto, tiene un “ajuste” perfecto. El criterio de información de Akaike (Akaike’s information criterion) se calcula como:
−2 (logℒ − logℒ s) + 2K
siendo K el número de parámetros del modelo. Al igual que la verosimilitud y la desvianza, el AIC proporciona una medida de la calidad relativa de un modelo, para un conjunto dado de datos. Cuanto menor sea el valor de AIC de un modelo, mejor es el ajuste. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Errores en el contraste de hipótesis
Nivel de significación; habitualmente α = 0,05
Decisión: Realidad:
No rechazar H0
Rechazar H0
H0 cierta
Decisión correcta (probabilidad = 1 – α)
Error Tipo I (probabilidad = α) “falso positivo”
H0 falsa
Error Tipo II (probabilidad = β ) “falso negativo”
Decisión correcta (probabilidad = 1 – β ) Poder o potencia estadística: 1 – β
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Errores en el contraste de hipótesis
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Potencia estadística La potencia estadística es la probabilidad de rechazar una H0 falsa (la probabilidad de observar un efecto cuando realmente ocurre). Depende de cuatro factores: 1. El nivel de significación (α ). 2. El tamaño del efecto. Es la magnitud mínima de la diferencia o asociación que se considera relevante. Es una medida del “grado de diferencia” o del “grado de relación” que queremos detectar. Es una medida estandarizada, de cálculo complejo. 3. El tamaño de la muestra (n ). A mayor tamaño de muestra mayor potencia al aumentar la precisión. 4. La variabilidad de la respuesta (σ ). A menor variabilidad mayor potencia. Influye en la estimación del tamaño del efecto y es mayor cuando el tamaño de la muestra es pequeño. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Potencia estadística La potencia 1 β aumenta si seleccionamos un nivel de significación α mayor: Pero elegir un α mayor implica un mayor riesgo de cometer error Tipo I.
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • Potencia estadística
Mayor nivel de significación α
Prueba un web app en showmeshiny.com
α Mayor tamaño del efecto
Mayor tamaño de la muestra (precisión)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 3. Contraste de hipótesis estadísticas • El debate sobre la utilidad de P La cultura científica basada en el uso de P ha dominado durante la mayor parte del siglo XX (y aún domina en el siglo XXI). No obstante, se tiende a abandonar su utilización y cada vez con mayor frecuencia se emplean como alternativa procedimientos de selección de modelos e inferencia multimodelo, nuevo paradigma para el análisis estadístico. En síntesis, un procedimiento de selección de modelos evalúa un conjunto de modelos “candidatos” (generalmente mediante el AIC) y realiza la estimación de parámetros en función de las estimaciones ponderadas de dicho parámetro en los diferentes modelos. Se busca la “mejor” explicación posible para los datos observados (best approximating model) y, bajo esta perspectiva, el uso de P no tiene sentido.
Portada del libro de Burnham y Anderson (2002)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Diseño experimental: [Krebs, 1999] Término que describe la estructura lógica de un experimento. • Experimento: Es una operación o procedimiento para testar una hipótesis. • Unidad experimental: División más pequeña de material experimental que recibe un tratamiento. • Tratamientos y controles: Tratamiento es un término general para cualquier conjunto de comparaciones. Entre los tipos tratamientos de un experimento debe figurar uno de control, que sirva de comparación para el análisis de los efectos (generalmente un notratamiento). En determinadas ocasiones (por ejemplo cuando se pretende determinar entre dos o mas tratamientos cuál es el mejor), cada tratamiento actuaría como control del resto. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Experimentos “manipulativos” y “experimentos” mensurativos En sentido estricto, un experimento es un procedimiento de investigación en el que todos los factores ambientales están bajo control. Como consecuencia es imprescindible manipular las condiciones en las que se realiza el estudio: hablamos de experimentos “manipulativos” o estudios experimentales. No obstante, muchas investigaciones utilizan procedimientos de obtención de la información “no manipulativos” que reciben la denominación de muestreos. El muestreo es un procedimiento de observación y medida exclusivamente: hablamos de estudios observacionales, “experimentos” mensurativos, o “experimentos naturales”. Generalmente el tratamiento estadístico en ambos casos es idéntico, pero la diferencia radica en la confianza y generalidad que podemos atribuir a las conclusiones derivadas del estudio. En cualquier caso, los principios generales del diseño experimental deben ser igualmente aplicados. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Elementos clave en el diseño experimental 1. Replicación y pseudorreplicación Replicar consiste en disponer al menos de dos unidades experimentales por cada tipo de tratamiento. La incorrecta consideración de lo que constituye una unidad experimental se conoce como pseudorreplicación. 2. Aleatorización y espaciamiento Otro aspecto fundamental es la distribución de las réplicas en el espacio: un esquema de disposición espacial aceptable debe considerar la adecuada separación o espaciamiento (interspersion) de aquellas unidades experimentales con el mismo tratamiento. Lo ideal es una distribución aleatoria. 3. Control del diseño Por control del diseño nos referimos a la consideración de otros elementos que tiene por objeto reducir el error experimental. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Elementos clave en el diseño experimental 1. Replicación y pseudorreplicación
Fuente: Krebs (1999)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Elementos clave en el diseño experimental: 2. Aleatorización y espaciamiento
Fuente: Krebs (1999)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Elementos clave en el diseño experimental 3. Control del diseño Para reducir el error experimental (es decir, para que las conclusiones de las comparaciones estadísticas sean más precisas), hay que considerar: a) usar unidades experimentales más homogéneas; b) usar información de variables adicionales medidas en cada unidad experimental (análisis de la covarianza); c) usar más réplicas; d) usar un diseño experimental más eficiente: diseños equilibrados o “balanceados” (balancing) y uso de bloques (blocking).
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Factores (efectos) fijos y factores (efectos) aleatorios Una variable la consideramos factor fijo cuando sus niveles o valores son considerados de interés específico en la investigación y son seleccionados o “deliberadamente”. Una variable la consideramos como factor aleatorio cuando sus niveles o valores se seleccionan aleatoriamente entre todos los posibles. [No confundir con el concepto de variable aleatoria.] Los efectos fijos son los que analizamos normalmente sobre observaciones estadísticamente independientes. Los efectos aleatorios surgen cuando tenemos más de una observación en cada unidad experimental (Venables y Ripley 2002). Según los factores considerados, tenemos diseños (y modelos estadísticos) fijos, aleatorios o mixtos (si incluyen ambos tipos de efectos). Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 4. Fundamentos del diseño experimental • Tipos de diseño experimental (Krebs 1999) 1. 2. 3. 4.
Modelos lineales aditivos Diseños factoriales Diseños de bloques aleatorios Diseños split-plot
5. 6. 7. 8.
Diseños anidados Diseños de cuadrado latino Diseños de medidas repetidas Estudios de impacto ambiental
• Tipos (en función de la naturaleza de las variables) (Gotelli y Ellison 2004) Variable independiente Variable dependiente
Continua
Categórica
Continua
Regresión
ANOVA
Regresión logística
Tabular
Categórica
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 5. Análisis estadístico: enfoques metodológicos • • • • •
Análisis paramétrico Análisis Bayesiano Análisis de Monte Carlo Análisis no paramétrico Selección de modelos e inferencia multimodelo Ronald Fischer (1890-1962) Fuente: Wikimedia Commons
• Análisis paramétrico (clásico, convencional o frecuentista) Asume que los datos se ajustan a un determinado tipo de distribución conocida. Estima los parámetros de dicha distribución a partir de los datos. Aquí la probabilidad se define como la frecuencia relativa de una característica de los datos. Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 5. Análisis estadístico: enfoques metodológicos • Análisis Bayesiano El análisis Bayesiano es mucho más antiguo (s. XVIII) que el frecuentista, pero es más complejo y su uso no se ha generalizado hasta el desarrollo de software accesible para la mayoría de usuarios (WinBUGS). La estadística Bayesiana también asume que los datos se ajustan a una distribución, pero los parámetros se estiman no solo a partir de los datos, sino también de información o conocimiento previo, y asigna probabilidades a esos parámetros. Por tanto, la probabilidad se usa para expresar la incertidumbre sobre un parámetro (en estadística clásica es sobre los datos). La receta para un análisis Bayesiano es (Lindley 1983): ¿Qué es lo que no sabes y te interesa? Llámalo θ. ¿Qué sabes? Llámalo D. Ahora calcula P (θ |D). Thomas Bayes (1702-1761) ¿Cómo? Usando las reglas de probabilidad. Fuente: Wikimedia Commons Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 5. Análisis estadístico: enfoques metodológicos • Análisis de Monte Carlo (tests de aleatorización) No asume ningún tipo de distribución paramétrica de los datos (por ejemplo, normalidad). Utiliza la aleatorización de los datos observados (permutaciones aleatorias). • Análisis no paramétrico Se fundamentan en el análisis de los datos transformados en sus rangos (número de orden), pero son un caso especial de análisis de Monte Carlo. Actualmente su uso no se recomienda (Gotelli y Ellison 2004) porque: a) con la transformación se pierde mucha información, b) las técnicas paramétricas son a menudo “robustas” frente las violaciones de las asunciones (gracias al Teorema del Límite Central), y c) solo hay métodos disponibles para análisis simples.
• Selección de modelos e inferencia multimodelo: punto 7 Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 6. Análisis estadístico: conoce tus datos • Exactitud y precisión Son dos aspectos fundamentales en el proceso de obtención de datos. La ausencia de exactitud se denomina sesgo (bias). La precisión se refiere a la dispersión de los datos y se relaciona con la repetibilidad y la reproducibilidad.
Fuente: Wikimedia Commons
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 6. Análisis estadístico: conoce tus datos • Representa tus datos > sewage > attach(sewage)
Covariable
Variable de respuesta (dependiente)
Tratamiento (variable categórica independiente)
Tamaño de la muestra (8 + 8)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 6. Análisis estadístico: conoce tus datos • Representa tus datos gráficamente > hist(coliform) > plot(day, coliform, col=factor(method))
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 6. Análisis estadístico: conoce tus datos • Box plot (box-and-whisker plot, diagrama de caja) > boxplot(coliform ~ method)
Fuente: Wikimedia Commons
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
DiseĂąo experimental y anĂĄlisis estadĂstico 6. AnĂĄlisis estadĂstico: conoce tus datos â&#x20AC;˘ Barras de error Barra de error
Tipo
DescripciĂłn
Rango
Descriptivo
Amplitud entre los extremos de los datos
DesviaciĂłn estĂĄndar (SD)
Descriptivo
Diferencia media entre los datos y su media
Inferencial
Medida de la variabilidad de la media, si el estudio se repite muchas veces
Inferencial
Intervalo de valores entre los cuales se estima que estarĂĄ la media verdadera con una determinada probabilidad de acierto
Error estĂĄndar
Intervalo de confianza (CI)
FĂłrmula El mayor valor menos el menor
SD =
(đ?&#x2018;Ľđ?&#x2018;&#x2013; â&#x2C6;&#x2019;đ?&#x2018;Ľ đ?&#x2018;&#x203A;â&#x2C6;&#x2019;1
SE = SD
đ?&#x2018;Ľ Âą đ?&#x2018;Ąđ?&#x153;?,1â&#x2C6;&#x2019;đ?&#x203A;ź
2
đ?&#x2018;&#x203A;
2
Ă&#x2014; SE
Fuente: Cumming et al. (2007)
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado â&#x20AC;&#x201C; Facultad de BiologĂa
Diseño experimental y análisis estadístico 6. Análisis estadístico: conoce tus datos • Requisitos de normalidad y homocedasticidad. Transformaciones La aplicación de los test paramétricos presenta una serie de requisitos que deben cumplir los datos: independencia, normalidad (ajuste a una distribución normal) y homogeneidad de varianzas (homocedasticidad). La independencia se consigue con un diseño experimental (o de muestreo) adecuado. Si tenemos datos no independientes hay que utilizar las técnicas adecuadas para analizarlos (modelos mixtos). La normalidad y la homocedasticidad (en el caso de variables continuas) se pueden conseguir a través de transformaciones (por ejemplo aplicando logaritmos). No obstante, los tests paramétricos suelen ser “robustos” frente a las violaciones de estos requisitos.
Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Diseño experimental y análisis estadístico 7. Análisis estadístico: métodos y modelos • Guion de ejercicios prácticos ANOVA, regresión lineal y ANCOVA ANOVA de dos factores Modelos lineales generalizados Más sobre regresión Modelos mixtos Modelos anidados Análisis split-plot Análisis de datos pareados Tablas de contingencia, chi-cuadrado y análisis log-lineal Tablas de contingencia con más de un factor Selección de modelos e inferencia multimodelo Competencias transversales encaminadas a la mejora del Trabajo Fin de Grado – Facultad de Biología
Bibliografía recomendada • Gotelli NJ, Ellison AM. 2004. A Primer of Ecological Statistics. Sinauer, Sunderland, MA. • Krebs CJ. 1999. Ecological Methodology. 2ª ed. Benjamin/Cummings, Menlo Park, CA. • Venables WN, Ripley BD. 2002. Modern Applied Statistics with S. 4ª ed. Springer, New York. Otras referencias citadas • Burnham KP, Anderson DR. 2002. Model Selection and Multimodel Inference. 2ª ed. Springer, New York.
• Cumming G, Fidler F, Vaux DL. 2007. Error bars in experimental biology. The Journal of Cell Biology, 177: 7-11. • Hilborn R, Mangel M. 1997. The Ecological Detective. Confronting Models with Data. Princeton University Press, Princeton, NJ. • Kéry M. 2010. Introduction to WinBUGS for Ecologists. Elsevier, Amsterdam. • Kéry M, Schaub M. 2012. Bayesian Population Analysis Using WinBUGS. Elsevier, Amsterdam. • Lindley DV. 1983. Theory and practice of Bayesian statistics. Statistician 32: 1-11. • Royle JA, Dorazio RM. 2008. Hierarchical Modeling and Inference in Ecology. Elsevier, Amsterdam. • Wiens JA. 1989. The Ecology of Bird Communities. Cambridge University Press, Cambridge.
Diseño experimental y análisis estadístico – Facultad de Biología