NOTAS BIOESTADISTICAS SOCIEDAD CIENTÍFICA DE ESTUDIANTES DE MEDICINA AGUSTINOS
SOCIEMA
MISIÓN La Sociedad Científica de Estudiantes de Medicina Agustinos – SOCIEMA tiene como fin generar y difundir conocimientos científicos relacionados al proceso salud-enfermedad promoviendo soluciones a los diversos problemas de salud de la región y del país, a través de la investigación desde pregrado; así como educación médica continua permanente de nuestros miembros contribuyendo al desarrollo institucional universitario y social.
VISIÓN Ser un centro de investigación de referencia en el ámbito científico y académico de la salud que aporta sustantivamente al desarrollo de la medicina y en la formulación de políticas de salud óptimas a nivel regional y nacional. «La publicación, principal indicador de la actividad científica; constituye el objetivo final de la investigación, razón de ser de las sociedades científicas.»
RECOPILADO POR: Cender Udai Quispe Juli Freddy Ivan Grande Quispe
SOCIEMA INDICE
Introducción………………………………………………..…………..…..………….....……..I
¿Qué es el análisis por intención de tratar?………………………….……..…………….….….1
Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo………………………………………………………….…………..…..3 El índice kappa ……..……………………………………………………..…..………………. 5 Medidas del efecto de un tratamiento (II): odds ratio y número necesario para tratar……..…..8 Estimación: intervalos de confianza……………………..……………….....…….………....…11 Índices de rendimiento de las pruebas diagnósticas…………………......…………….……….13 Contraste de hipótesis: el valor p…………………………………….………..………….....….15 Desviación estándar y error estándar……………………….…….………....……………....….17 Revisiones sistemáticas y metaanálisis…………………..………………..…..…………....…..20 El control de la confusión en estudios observacionales: el índice de propensión…....……..…..23 Análisis del tiempo hasta un evento (supervivencia)……………………...……………......…..26 Inferencia estadística bayesiana…………………..……………..........................…..……...…..29 Sesgos en los estudios sobre pruebas diagnósticas……………………..…......…..……......…..32
SOCIEMA INTRODUCCION
En el Perú la inversión y desarrollo de la investigación científica no ha sido una prioridad y se ha postergado por diversos gobiernos. A pesar que nuestro país, experimentó un importante desarrollo económico en los últimos años caracterizado por ser una economía de subsistencia, muy dependiente de la exportación de materias primas; la inversión en salud, educación y ciencia han sido mínimas por lo que todavía persisten brechas en distintos sectores de la sociedad que generan injusticias e inequidades. Los países desarrollados poseen un alto nivel de actividad científica y tecnológica, así como logros consolidados en el bienestar de sus poblaciones, y continúan invirtiendo fuertemente en investigación. La primera potencia del mundo, Estados Unidos invierte 2,7 % de su Producto Bruto Interno (PBI), Japón destina 3,4% del PBI, Alemania 2,6%, Francia 2,1% y Reino Unido 1,8%, otros como Israel, que es el país que más invierte en el mundo, el 4.6% del PBI, Suecia invierte 2,7%%, Finlandia 3,5%, Corea del Sur 3,5% Taiwán 2,7% y Singapur 2,6%, En América Latina, Brasil es el que más invierte, el 1% de su PBI, Chile con O,7%, y el Perú solo invierte el 0,15% de su PBI, uno de los indicadores más bajos de América y del mundo. Situación que debería tomarse en cuenta seriamente ya que ningún país ha salido del subdesarrollo sin inversión en investigación científica y tecnológica.
Todo esto influye en una severa crisis universitaria, que conlleva al obsoleto equipamiento de laboratorios para investigación, insuficiente política de transferencia tecnológica, la limitada existencia de convenios interinstitucionales, la carencia de recursos humanos calificados, poca tradición y motivación para publicar. Haciendo que la investigación sea nula o escasa en la gran mayoría de las Universidades e Institutos dedicados a ella. A pesar de este contexto desfavorable o tal vez motivados por el mismo, en las últimas décadas ha surgido en diferentes partes de Latinoamérica un interés creciente en estudiantes de medicina por realizar investigación; probablemente el reconocimiento de las múltiples limitaciones haya fomentado la creación de redes de colaboración entre los mismos y consecuente creación de sociedades o asociaciones científicas de estudiantes de medicina (SOCEM o ACEM), fenómeno del cual no fue excepción el Perú. La SOCIEDAD CIENTÍFICA DE ESTUDIANTES DE MEDICINA AGUSTINOS-SOCIEMA con
I
otras más de 30 sociedades conforman la SOCIEDAD CIENTÍFICA MEDICO ESTUDIANTIL PERUANASOCIMEP, que tiene como principal objetivo promover el desarrollo de la investigación científica en el pregrado de las facultades de medicina.
La investigación es uno de los ejes de la formación médica, porque además de estar estrechamente ligada al avance de la ciencia médica, como tal, refuerza el conocimiento del método científico el cual es esencial para la evolución del conocimiento médico. Ya que siempre ante un paciente se recoge información válida para formar un marco teórico y planteamiento del problema (historia clínica), se identifican las variables, se organiza dicha información y formulan una o varias hipótesis (impresión diagnóstica). Luego se realiza el estudio adecuado y obtienen datos que acepta o rechaza la hipótesis (diagnostico) que permite una adecuada intervención (aplicación terapéutica) y seguimiento del paciente. Finalmente se realiza el análisis estadístico y la discusión (análisis de resultados clínicos), y se elabora un informe final (epicrisis). Así la investigación y la práctica médica, son dos caras de la misma moneda; para que se pueda alcanzar todo su potencial es indispensable tener un continuo conocimiento una de la otra. Por ello la investigación precisa ser algo más que un simple curso curricular o extracurricular para el estudiante de medicina. Debe ser el punto de partida, camino y modus vivendi de la carrera médica. Más que una obligación, debe sentirse como necesidad y aún más, como una pasión, pues siempre hay algo que aprender, algo que descubrir, algo por conocer: Algo que investigar.
Por último, vale la pena destacar que la intención de este pequeño manual no es competir con los excelentes libros que existen sobre metodología de la investigación clínica y medicina basada en evidencias, entre otros. Lo que pretende es transmitir, un conocimiento de los fundamentos en investigación clínica y dar una perspectiva al estudiante, o al médico recién egresado sobre algunos recursos útiles que le permitan enfrentar los desafíos en los inicios de su labor de investigación clínica, así como generar la suficiente motivación para que desarrolle apropiada y sostenidamente su formación.
Atentamente
Cender Udai, Quispe Juli Presidente de SOCIEMA 2014-2015
II
notas BIOESTADISTICAS ¿Qué es el análisis por intención de tratar? Víctor Abraira Jefe de Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
Presentación de la sección En este número, iniciamos una serie que denominaremos “Notas estadísticas”, cuyo objetivo fundamental es difundir los aspectos necesarios para entender la investigación que se publica en las revistas clínicas. En principio su periodicidad será de un artículo al trimestre, pero es posible que, en un futuro cercano, pueda aumentar a uno al mes. Abrimos con la serie un “buzón del lector” para aquellos que estén interesados en solicitar temas metodológicos y estadísticos para la serie.
Tratamiento 1 Grupo 1
Resultado
Grupo 2
Resultado
Población
Tratamiento 2
En el diseño más característico del ensayo clínico aleatorizado (fig. 1), un paciente puede participar en él si cumple ciertos criterios de inclusión. Una vez verificado que los cumple, es asignado aleatoriamente a uno de los dos grupos de tratamiento. A los pacientes asignados a un grupo se les administra el tratamiento experimental, y a los asignados al otro, un tratamiento de control. Un tiempo después, y sin que los observadores ni los pacientes sepan qué tratamiento ha recibido cada paciente (doble ciego o enmascaramiento), se observa en todos los pacientes la variable (o variables) respuesta. Este ideal de diseño, cuya necesidad no fue fácil de aceptar, ya que tanto la asignación del tratamiento al azar como el enmascaramiento repugnan a lo que en principio se entiende por buena práctica clínica (Altman1 recuerda que, en un artículo publicado en Lancet en 1937, Bradford Hill recomendaba la asignación alternativa a cada grupo, frente a la aleatoria), tiene por objetivo procurar que inicialmente los dos grupos sean iguales en todo, excepto en el tratamiento recibido, para que así, si al final hay diferencias entre ellos, éstas puedan ser atribuidas al efecto del tratamiento (o, dicho en lenguaje más técnico, evitar el sesgo de selección2) y procurar que las preferencias de los investigadores y los pacientes no influyan en los resultados (sesgo de averiguación2). Sin embargo, en la práctica es dudoso que este ideal se alcance, pues casi siempre hay algún paciente que no satisface los criterios de entrada, no completa el tratamiento al que fue asignado tal como se describe en el protocolo del estudio, o no permanece en el estudio hasta el final, lo que impide recoger todos sus datos. El modo generalmente recomendado de evitar los sesgos que pueden introducir estas desviaciones del protocolo es Correspondencia: Víctor Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electónico: victor.abraira@hrc.es
Figura 1. Esquema de un ensayo clínico aleatorizado de dos ramas paralelas.
el denominado análisis por intención de tratar (AIT), que, según la definición más ampliamente aceptada3 de un grupo de trabajo de la Asociación Estadística de los EE.UU., consiste en “incluir (en el análisis) a todos los pacientes en los grupos en los que fueron aleatoriamente asignados, independientemente de que cumplieran, o no, los criterios de entrada, independientemente del tratamiento que realmente recibieran e independientemente de que abandonaran el tratamiento o se desviaran del protocolo”. Esta idea de que un paciente que fue asignado al grupo que recibe el tratamiento A, pero que por cualquier razón realmente recibe el tratamiento B, deba ser considerado, a efectos del análisis, como del grupo A parece difícil de entender y quizá por ello, y a pesar de ser la estrategia recomendada, por ejemplo, por el Nordic Council on Medicines y la Food and Drug Administration3, a pesar de aparecer como índice de calidad en la guías de lectura crítica4, se usa poco. En una revisión5 de ensayos clínicos publicados en los años 1990-1991 en revistas de ginecología y obstetricia, se encontró que declaraban usar el AIT el 12% de los ensayos; en otra posterior6, realizada sobre ensayos clínicos publicados en 1997 en British Medical Journal, Lancet, JAMA y New England Journal of Medicine, la proporción fue del 48%; además, los autores de ambas revisiones resaltan que, entre quienes lo usan, el AIT es descrito y aplicado, a menudo, inadecuadamente y que los diferentes investigadores parecen interpretarlo de forma distinta. Conviene, por tanto, precisar qué se pretende con el AIT y los distintos aspectos a tener en cuenta en su realización y en la lectura de artículos sobre ensayos clínicos aleatorizados. Con el AIT se pretenden dos cosas. En primer lugar, se trata de conseguir que las condiciones iniciales de los dos grupos sean tan iguales como sea posible (esta es la razón de la asignación aleatoria y la esencia del di1
Puntos clave El análisis por intención de tratar debe contemplarse más como una estrategia global de diseño, ejecución y análisis de los ensayos clínicos, que únicamente como una alternativa de análisis. Es la estrategia recomendada, sobre todo en los ensayos pragmáticos. El análisis por intención de tratar da una estimación del beneficio de un tratamiento más cercana a la práctica diaria (efectividad). El análisis por intención de tratar es inadecuado en los ensayos de equivalencia. El análisis por intención de tratar se usa poco, y con frecuencia se describe y aplica inadecuadamente. seño de un ensayo clínico), y con el AIT se persigue no perder esa igualdad por acontecimientos no intencionados que ocurren después de la asignación aleatoria. Un ejemplo clásico es un ensayo7 que compara un tratamiento quirúrgico con otro médico. Algunos pacientes asignados al grupo quirúrgico murieron antes de poder ser intervenidos. Si estas muertes no se atribuyen a la cirugía, ésta muestra una menor mortalidad, pero la diferencia desaparece aplicando AIT. En segundo lugar, al aplicar el AIT y analizar a los pacientes inadecuadamente incluidos y los que no cumplen el tratamiento, se pretende hacer que las condiciones del ensayo clínico sean más parecidas a las de la práctica diaria, en la que también hay pacientes mal diagnosticados y que no cumplen o cumplen parcialmente el tratamiento. Es decir, el AIT permitiría obtener del ensayo clínico información sobre la efectividad del tratamiento (efecto en condiciones reales) en lugar de sobre la eficacia (efecto en condiciones ideales). Los aspectos que deben cubrirse en el AIT son los siguientes: Inclusiones inadecuadas. El AIT implica incluir en el análisis a los pacientes que se incluyeron en el ensayo sin cumplir los criterios de entrada en el estudio. En la revisión de Hollis y Campbell6 sólo un 5% de los ensayos que afirmaban aplicar el AIT declaraban incluir a estos pacientes, mientras que el 16% declaraban excluirlos, y el resto no decía nada al respecto. La no inclusión de estos pacientes sólo podría estar justificada6 si el incumplimiento de los criterios fuera idéntico en ambos grupos. Los pacientes que no reciben completo el tratamiento al que fueron asignados, incluso que no lo empiezan, o que reciben el otro, o que cambian de tratamiento durante el ensayo, también deben ser incluidos en el grupo al que fueron aleatoriamente asignados. Resultado desconocido, bien porque algunos pacientes abandonan el ensayo y no se sabe su resultado, o bien por-
que se pierden algunos datos. La inclusión de estos pacientes es el principal problema del AIT, porque implica asignar un valor a estas respuestas desconocidas o perdidas. Hay varios métodos para ello, desde sofisticados métodos estadísticos hasta el denominado análisis de sensibilidad, que consiste en asignar a todos los pacientes perdidos del grupo experimental la peor de las respuestas, y a los del grupo control, la mejor, y evaluar cuánto cambia el resultado del ensayo con estas asignaciones. El verdadero resultado estaría entre este extremo “conservador” y el otro extremo del análisis, sin incluir las pérdidas. A pesar de la recomendación general de usar el AIT en la bibliografía sobre diseño de ensayos clínicos aleatorizados, no faltan las críticas; hay quien argumenta3 que permitir la inclusión en el análisis de pacientes que no cumplen el protocolo es una manera de alentar cierta relajación del rigor, ya que se podría pensar: “no importa si el paciente cumple o no el tratamiento previsto, ¡vamos a hacer el AIT!”. Aunque también se puede argumentar en sentido contrario3 que plantear el AIT tiende a mejorar la calidad del diseño y ejecución del ensayo clínico para no tener que enfrentarse después a las dificultades que este análisis comporta. Por ello, diversos autores3,6 defienden que se debe contemplar el AIT más como una estrategia global de diseño, ejecución y análisis que como una alternativa de análisis. Otra crítica3 surge en el contexto de los ensayos de equivalencia, es decir, en los ensayos diseñados para probar la hipótesis de que un tratamiento tiene el mismo efecto que otro, más barato o con menores efectos adversos (en un ensayo convencional, la hipótesis a prueba es que un tratamiento tiene más efecto que otro, p. ej., el placebo). En estos ensayos, el AIT aumenta la probabilidad de concluir erróneamente que no existe diferencia entre los tratamientos y, por tanto, no sería la estrategia recomendable. Por último, hay que tener en cuenta que unos ensayos tienen un objetivo fundamentalmente pragmático6 (efectividad), de ayuda a la toma de decisiones sobre prescripción de tratamientos a los pacientes, mientras que otros poseen un objetivo fundamentalmente explicativo6 (eficacia), de aportar conocimiento sobre la acción de un fármaco. En estos últimos el AIT podría no ser adecuado.
BIBLIOGRAFÍA 1. Altman DG. Statistics in medical journals: developments in the 1980s. Stat Med 1991; 10: 1897-1913. 2. Jadad AR. Randomised controlled trials. Londres: Br Med J Books, 1998. 3. Lewis JA, Machin D. Intention to treat–who should use ITT? Br J Cancer 1993; 68: 647-650. 4. Guyatt GH, Sackett DL, Cook DJ. Users’ guides to the medical literature. II. How to use an article about therapy or prevention. A. Are the results of the study valid? Evidence-Based Medicine Working Group. JAMA 1993; 270: 2598-2601. 5. Schulz KF, Grimes MF, Altman DG, Hayes RJ. Blinding and exclusions after allocation in randomised controlled trials: survey of published parallel group trials in obstetrics and gynaecology. Br Med J 1996; 312: 742-744. 6. Hollis S, Campbell F. What is meant by intention to treat analysis? Survey of published randomised controlled trials. Br Med J 1999; 319: 670-674. 7. European Coronary Surgery Study Group. Coronary-artery bypass surgery in stable angina pectoris: survival at two years. Lancet 1979; i: 889-893.
2
notas BIOESTADISTICAS Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
Aunque el procedimiento para evaluar el efecto de un tratamiento está muy protocolizado (el ensayo clínico aleatorizado)1, la manera de expresar ese efecto no lo está tanto. En la literatura clínica y epidemiológica se usan distintos índices2 y algunos trabajos3-5 indican que el grado en el que los médicos están dispuestos a prescribir un tratamiento depende en gran medida de qué índice se use para representar su eficacia. Por ejemplo, en el estudio de Bobbio et al4 se presentó a un conjunto de médicos generales los resultados de un ensayo clínico de cuatro maneras distintas (reducción absoluta del riesgo, reducción relativa del riesgo, diferencia de las proporciones de pacientes libres del evento y número necesario a tratar para prevenir un evento) y se les pidió que, teniendo en cuenta esa información, marcaran en una escala de 0 a 100 cuán dispuestos estarían a prescribir el tratamiento a un paciente con el problema del ensayo clínico (hipercolesterolemia); las respuestas varían desde una media de 24 para la presentación como reducción absoluta del riesgo hasta una media de 77 para la reducción relativa del riesgo. Puesto que todos ellos son índices correctos y legítimos para presentar los resultados, merece la pena intentar familiarizarse un poco más con ellos y sus relaciones. Lo más frecuente es que el resultado se represente en cada paciente mediante una variable binaria (variable del tipo sí o no, que representa un evento que puede ocurrir o no ocurrir). Variables de este tipo pueden ser: recidiva del cáncer, ocurrencia de un infarto, muerte, curación, etc. Incluso cuando se trata con variables que en principio son continuas como, por ejemplo, concentración de colesterol en sangre, o presión arterial, es habitual transformarlas en binarias: hipercolesterolemia o normocolesterolemia, hipertensión o normotensión. En un ensayo clínico, el resultado observable en cada paciente es que dicho paciente presente, o no, el evento en estudio; el resultado para un grupo de pacientes es la proporción de pacientes en los que el evento ocurre. Esta proporción estima la probabilidad, o riesgo, del evento en
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
ese grupo. Para evaluar el efecto de un tratamiento hay que comparar el riesgo en el grupo tratado con el riesgo en el grupo control. Se trata, por tanto, de comparar dos números. Por ejemplo, el resultado de un estudio para estimar el efecto de un tratamiento para una cardiopatía puede ser la proporción de pacientes tratados que mueren (variable binaria) en un período de tiempo determinado; si de un grupo de 200 pacientes tratados han muerto 20, el riesgo de muerte estimado en ese grupo es 20/200 = 0,10, que también se expresa como 10%. Si el grupo control estuviera formado por 100 pacientes y de ellos hubieran muerto 15 (es decir, un riesgo de 0,15) para evaluar el tratamiento hay que comparar 0,10 con 0,15. Naturalmente, el que estos números sean distintos indica que el tratamiento tiene efecto. Hay que resaltar que la comparación, más sencilla, de los números de pacientes que mueren en cada grupo, 20 y 15 en este ejemplo, nos puede llevar a confusión si los grupos tienen, como en el ejemplo, distinto tamaño. Una primera fuente de confusión proviene, quizás, de que estos mismos datos se pueden expresar, en lugar de por los riesgos de muerte, por las probabilidades de supervivencia de 0,90 y 0,85, respectivamente. Añade confusión la variabilidad puramente terminológica, pues a estos números se les puede denominar, al menos, como riesgo, proporción, frecuencia relativa, probabilidad y tasa, aunque estos términos no son exactamente sinónimos. Otra fuente de confusión, también terminológica, proviene de que a veces se estudian eventos adversos (muerte, enfermedad) y otras eventos beneficiosos (sobrevivir, curar) y para ambos se usa el término “riesgo”, que hace pensar sólo en eventos adversos. Por último, pero no menos importante, otra fuente de confusión viene de que dos números X e Y pueden ser comparados al menos de siete maneras distintas: ofreciendo los dos números, o sus diferencias absolutas X-Y o Y-X, o sus cocientes X/Y o Y/X, o sus diferencias relativas (X-Y)/Y o (Y-X)/X. Y todas ellas, y algunas más, se usan en la literatura médica. Los nombres que reciben los distintos índices son: Reducción absoluta del riesgo (RAR). Es la diferencia entre el riesgo del grupo control y el riesgo del grupo tratado. En el ejemplo anterior, RAR = 0,15 – 0,10 = 0,05; es decir, el 3
Puntos clave • Para expresar el efecto de un tratamiento hay distintos índices, todos ellos correctos y legítimos. • El efecto del tratamiento percibido por los médicos depende del índice con el que se exprese. • Por tanto, es necesario familiarizarse con los distintos índices y sus relaciones. Una manera de hacerlo es calcular todos ellos para los datos de los ensayos clínicos que se lean. tratamiento reduce el riesgo de muerte en 0,05 o 5%. Dicho de otra manera, por cada 100 pacientes que sigan ese tratamiento se evitarán 5 muertes con respecto a las que se hubieran producido si se hubiera empleado el tratamiento del grupo control (dependiendo del ensayo, puede ser placebo u otro tratamiento activo). Por tanto, es un índice que expresa las consecuencias de dar el tratamiento, por ello a veces se le denomina también “reducción atribuible del riesgo”, o abreviadamente “riesgo atribuible”. Su principal inconveniente es que se expresa con un número pequeño, que quizás explique por qué en los trabajos citados3-5 es el índice con el que los médicos perciben que el efecto es menor. A veces se habla2,6 de “diferencia absoluta de riesgo” (DAR) y se hace la diferencia al revés: diferencia entre el riesgo del grupo tratado y el riesgo del grupo control, lo que da lugar a un cambio en el signo, es decir, la DAR es negativa si el tratamiento reduce el riesgo y positiva si lo aumenta. En el ejemplo, DAR = –0,05. Reducción relativa del riesgo (RRR). También llamado “fracción atribuible”. Es el cociente entre la reducción absoluta del riesgo y el riesgo en el grupo control. También se usa la “diferencia relativa de riesgo” (DRR)6, definida como el cociente entre la diferencia absoluta y el riesgo en el grupo control. En el ejemplo, RRR = 0,05/0,15 = 0,333 o 33,3% (o DRR = –0,333). Es decir, la reducción del riesgo de 0,05 representa una reducción del 33,3% con respecto al riesgo del grupo control, lo que ilustra del beneficio del tratamiento en términos relativos. Ésta es su principal ventaja, pero también su inconveniente, pues al eliminar la magnitud del riesgo sin tratamiento (riesgo basal) puede dar lugar a sobrestimaciones o subestimaciones del impacto del tratamiento si el riesgo sin tratamiento fuera muy bajo o muy alto, respectivamente. Para ilustrar esto fijémonos, por ejemplo, en el estudio del Grupo Cooperativo de Hipertensión de la Administración de Veteranos (de los EE.UU.)7. En él se comparó un tratamiento antihipertensivo con placebo. A los 3 años de tratamiento, entre los pacientes que tenían daño cardíaco en el momento de comenzar el estudio, se encontró que la proporción de pacientes con eventos adversos fue del 22,2% en el grupo control y del 8,5% en el tratado, mientras que en los pacientes sin daño estas proporciones fueron del 9,8% y el 4,0%, respectivamente. La RRR es casi la misma en ambos grupos: (0,222 – 0,085)/0,222 = 0,617 o 61,7%, en
el grupo con daño, y (0,098 – 0,040)/0,098 = 0,592 o 59,2% en el grupo sin daño cardíaco al comienzo del estudio; mientras que la RAR es más del doble en el grupo con daño (0,137 en el grupo con daño y 0,058 en el grupo sin daño). Es decir, como el riesgo de eventos adversos sin tratamiento es bajo en los pacientes que al comienzo del estudio no tienen daño cardíaco, una pequeña reducción de ese riesgo da lugar a la misma RRR que una reducción mayor en el grupo de pacientes que tienen un riesgo basal también mayor. Riesgo relativo (RR). Es el cociente entre el riesgo del grupo tratado y el riesgo del grupo control. En el ejemplo inicial, 0,10/0,15 = 0,667, aunque con frecuencia, para evitar RR menores que 1, se define como el cociente entre el riesgo del grupo de mayor riesgo y el de menor; en nuestro ejemplo, RR = 0,15/0,10 = 1,5, que indica que el riesgo de muerte es 1,5 veces mayor en el grupo control que en el tratado. Nótese que el RR contiene la misma información que la RRR, porque, denominando Rt y Rc a los riesgos del grupo tratado y del grupo control, respectivamente, están relacionados por la expresión: RRR =
Rc – Rt R = 1 – t = 1 – RR Rc Rc
Para el ejemplo, RRR = 0,333 = 1 – 0,667. Hay todavía otros índices como la odds ratio (OR) para la que no hay un término aceptado en castellano, lo cual aumenta la confusión, así como el número necesario para tratar (NNT), que serán objeto de otra Nota estadística. No se incluyen en ésta para evitar que alcance la dosis tóxica.
BIBLIOGRAFÍA 1. Jadad AR. Randomised controlled trials. Londres: Br. Med. J. Books, 1998. 2. Abraira V. Medidas de asociación en la investigación clínica: aplicación a un estudio hipotético de asociación entre hipertensión y consumo de sal. Clin Invest Arterioscler 1994; 6: 190-193. 3. Naylor CD, Chen E, Strauss B. Measured enthusiasm: does the method of reporting trial results alter perceptions of therapeutic effectiveness? Ann Intern Med 1992; 117: 916-921. 4. Bobbio M, Demichelis B, Giustetto G. Completeness of reporting trial results: effect on physicians’ willingness to prescribe. Lancet 1994; 343: 1209-1211. 5. Meneu Ricardo R, Peiró S, Márquez Calderón S. Influencia de la presentación de los resultados de los ensayos clínicos en la intención de prescribir: relativizando el riesgo relativo. Aten Primaria 1998; 21: 446-450. 6. Feinstein AR. Invidious comparisons and unmet clinical challenges. Am J Med 1992; 92: 117-120. 7. Veterans Administration Cooperative Study Group on Antihypertensive Agents. Effects of treatment on morbidity in hypertension. 3. Influence of age, diastolic pressure, and prior cardiovascular disease; further analysis of side effects. Circulation 1972; 45: 991-1004.
Nota: En el apartado de software de la página web de la Unidad de Bioestadística Clínica del Hospital Ramón y Cajal (http://www.hrc.es/bioest.html) está disponible una calculadora que a partir de los datos “crudos” de un ensayo clínico, expresados en una tabla 2 × 2, se pueden calcular todos estos índices y sus intervalos de confianza. Un buen ejercicio para familiarizarse con ellos y sus relaciones es calcularlos todos con los datos de los ensayos clínicos que se lean. Esta calculadora intenta facilitarlo.
4
notas BIOESTADISTICAS El índice kappa V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
La medición es una actividad omnipresente tanto en la práctica como en la investigación clínica. Como ejemplos se pueden citar desde actividades relativamente simples, como registrar la presión arterial mediante un esfigmomanómetro, hasta actividades más complejas, como determinar la carga viral mediante una sofisticada técnica de laboratorio, pasando por la evaluación de la calidad de vida mediante un cuestionario diseñado al efecto. Estos procesos de medición están siempre amenazados por diversos errores que condicionan la calidad tanto de la investigación como de las decisiones clínicas que se apoyan en dichas mediciones1. Por ello es aconsejable que el clínico conozca algunos fundamentos de la teoría de la medida, en particular los índices usados en la evaluación de los errores de medición2. Básicamente hay que considerar dos tipos de errores: el error debido a la precisión limitada del instrumento, que atenta a la reproducibilidad de la medición introduciendo un error aleatorio, y el debido a la validez, también limitada, que introduce un error sistemático. De modo esquemático se puede decir que la validez tiene que ver con la cuestión de si el instrumento mide lo que debe medir, mientras que la precisión tiene que ver con cuánto se aproxima la medida al valor real de la magnitud. En ambos casos es siempre una cuestión de grado, pues no existen instrumentos infinitamente precisos y válidos: hay sólo instrumentos más precisos y/o válidos que otros. En cuanto a la reproducibilidad, llamada también concordancia, se distingue entre la reproducibilidad del mismo instrumento en dos instantes de tiempo diferentes y se habla de concordancia o consistencia interna o intraobservador (p. ej., un radiólogo ¿clasifica igual la misma radiografía estudiada hoy y 2 meses después?), y la reproducibilidad del mismo instrumento usado en diferentes condiciones (p. ej., dos radiólogos diferentes ¿clasifican del mismo modo la misma radiografía?), se habla entonces de concordancia o consistencia externa o interobservador. Este ejemplo es útil también para
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
Tabla 1. Radiólogo A Radiólogo B
Neumonía
Neumonía
4
No neumonía
6 a c
No Total
10 14 t = a + c
Total
r=a+b
10
b d 80 u = b + d 86
s = c+ d 90 N = a + b + c + d 100
resaltar que en clínica el término “instrumento de medida” se suele usar en sentido amplio; aquí no es sólo el aparato de rayos usado para obtener la imagen, sino el conjunto formado por el aparato y el observador que la interpreta. El procedimiento para evaluar la reproducibilidad de un instrumento consiste en comparar entre sí distintas medidas de un mismo objeto y evaluar su grado de acuerdo (cuanto más se parezcan estas medidas entre sí, más preciso es el instrumento). En el ejemplo anterior habría que comparar los resultados de la evaluación de una serie de radiografías por el mismo radiólogo en dos instantes de tiempo (concordancia interna) o por dos radiólogos diferentes (concordancia externa). La manera de expresar los resultados de esta comparación depende del tipo de variable implicada; en el caso de una variable binaria (tipo sí o no; p. ej., enfermo o no enfermo) el índice más sencillo es la proporción de acuerdos observados. Supongamos que en un estudio para evaluar la concordancia entre dos radiólogos que interpretan radiografías de tórax, clasificando cada una como neumonía sí o no, ofrece los resultados de la tabla 1. La proporción de acuerdo observado es Po = (80 + 4)/100 = 0,84. Este índice es muy intuitivo y fácilmente interpretable: tomará valores entre 0 (total desacuerdo) y 1 (máximo acuerdo). Sin embargo, como indicador de reproducibilidad tiene el inconveniente de que, aun en el caso de que los dos observadores clasifiquen con criterios independientes (p. ej., un radiólogo con todo su leal saber y entender y el otro tirando un dado al aire), se produciría un cierto grado de acuerdo por azar. Puede haber coincidencia en el resultado sin que exista nada más que el puro azar, no el mismo criterio en la decisión. Es deseable que un índice de concordancia tenga en cuenta este hecho y que, de algún modo, indique el grado de 5
O
Puntos clave • El índice kappa (κ) se usa para evaluar la concordancia o reproducibilidad de instrumentos de medida cuyo resultado es categórico (2 o más categorías). • El índice kappa (κ) representa la proporción de acuerdos observados más allá del azar respecto del máximo acuerdo posible más allá del azar. • En la interpretación del índice kappa (κ) hay que tener en cuenta que el índice depende del acuerdo observado, pero también de la prevalencia del carácter estudiado y de la simetría de los totales marginales.
acuerdo que existe por encima del esperado por azar. En este sentido Cohen3 propuso el denominado índice kappa (κ), que definió como: κ=
Po–Pe 1–Pe
siendo Po la proporción de acuerdos observados y Pe la proporción de acuerdos esperados en la hipótesis de independencia entre los observadores, es decir, de acuerdos por azar. A partir de la tabla 1, Po = (a + d)/N y Pe = (rt + su)/N2. La interpretación de este índice se facilita mediante su representación gráfica4. En la figura 1 se observa que el índice κ representa la proporción de concordancia observada más allá del azar, respecto de la máxima concordancia posible más allá del azar. En el ejemplo: Pe =
14 × 10 + 86 × 90 = 0,788 1002
y por lo tanto κ=
0,84 – 0,788 1 – 0,788
= 0,245
es decir, el grado de acuerdo, una vez corregido el debido al azar, es mucho más modesto (24,5%) que lo que indicaba el 84% de acuerdo “crudo”. Landis y Koch5 propusieron, y desde entonces ha sido ampliamente usada, la escala de valoración del índice κ que figura en la tabla 2. *En la página 270 de este número, el autor del artículo al que se hace referencia contesta en una “Carta al director” a los comentarios del Dr. Abraira. Asimismo, en la página 272 la Dra. Pérez analiza la situación desde la sección “El rincón del autor y del lector”.
Po
Pe
Concordancia por azar
1
Concordancia más allá del azar
O
1 κ
Figura 1. Representación gráfica del índice kappa.
Desde la propuesta inicial de Cohen3 el índice κ ha sido progresivamente generalizado a clasificaciones multinomiales (con más de dos categorías), ordinales, a más de dos observadores, a diseños incompletos y a todas estas situaciones combinadas6, generalizaciones que suponen una mayor complejidad en el cálculo pero que mantienen la misma interpretación. Esta interpretación está dificultada por algunos efectos poco intuitivos. En primer lugar, el índice κ depende de la prevalencia del carácter observado7: cuanto más cerca esté de 0 o de 1, menor es el índice κ para igual proporción de acuerdos observados. En segundo lugar, depende de la simetría de los totales marginales7: en igualdad de acuerdos observados, cuanto menor sea la diferencia entre las prevalencias observadas por cada observador, menor es el índice κ. El pequeño valor de κ para los datos de la tabla 1 se matiza a la luz de estos efectos: estamos en la peor de las situaciones posibles: baja prevalencia y similar para ambos observadores (0,14 para el radiólogo A y 0,10 para el B). En un interesante artículo* recientemente publicado en esta Revista8, se estudia la concordancia en el diagnóstico de nevus melanocíticos entre atención primaria (AP) y atención especializada (AE), y se encuentra un índice κ muy bajo, inferior al hallado en estudios similares, según los propios autores comentan. Aunque no se dan detalles de cómo se ha calculado el índice, la distribución de los diagnósticos alternativos (hay 25 juicios clínicos distintos en AP y 12 en AE) indica que en este estudio están presentes tanto el primer efecto comentado antes (prevalencias cercanas a 0, o incluso 0 si se han considerado todos los juicios clínicos para estimar el índice κ) como el segundo (prevalencias similares); en consecuencia, el índice κ estará fuertemente “penalizado” y podría ser ésta la causa de su bajo valor. Tabla 2. Kappa (κ)
Grado de acuerdo
< 0,00 0,00-0,20 0,21-0,40 0,41-0,60 0,61-0,80 0,81-1,00
Sin acuerdo Insignificante Mediano Moderado Sustancial Casi perfecto
6
V. Abraira.– El índice kappa
BIBLIOGRAFÍA 1. Sackett DL. A primer on the precision and accuracy of the clinical examination. JAMA 1992; 267: 2638-2644. 2. Abraira V. Errores en las mediciones y clasificaciones clínicas: precisión y validez. URL: http://www.hrc.es/bioest/Intro_errores.html [último acceso: 29 de enero de 2001]. 3. Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960; 20: 37-46. 4. Sackett DL, Hayes RJ, Guyatt G, Tugwell P. Epidemiología clínica. Ciencia básica para la medicina clínica (2.ª ed.). Buenos Aires: Editorial Médica Panamericana, 1994.
5. Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics 1977; 33: 159-174. 6. Abraira V, Pérez de Vargas A. Generalization of the kappa coefficient for ordinal categorical data, multiple observers and incomplete designs. Qüestiió 1999; 23: 561-571. 7. Feinstein AR, Cicchetti DV. High agreement but low kappa: I. The problems of two paradoxes. J Clin Epidemiol. 1990; 43: 543-549. 8. Rodríguez Caravaca G, Villar del Campo C, González Mosquera M, Úcar Corral E, González Piñeiro B, López Bran E. Concordancia diagnóstica entre atención primaria y atención especializada al evaluar nevus melanocíticos. SEMERGEN 2000; 26: 428-431.
7
notas BIOESTADISTICAS Medidas del efecto de un tratamiento (II): odds ratio y número necesario para tratar V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
En una nota previa1 se comentaron algunos índices de asociación ente variables que también se usan en los ensayos clínicos para expresar el efecto de un tratamiento, cuando el resultado en cada paciente se representa mediante una variable binaria; al final de ella se anunciaba que había otros índices y a estos otros se va a dedicar esta segunda parte. En primer lugar, el odds ratio (OR) que, a pesar de las frecuentes quejas2,3 sobre lo poco intuitivo que es y en consecuencia lo proclive que resulta a posibles malas interpretaciones, es uno de los índices más usados. Por ejemplo, en los originales publicados en esta revista en 2001 (hasta abril) es el único índice de asociación que aparece4. En la nota previa1 se decía que cuando el resultado en cada paciente se representa mediante una variable binaria, es decir un episodio que puede ocurrir o no, el resultado para un grupo de pacientes es la proporción de pacientes en los que el episodio ocurre. Esta proporción estima la probabilidad, o riesgo, del episodio en ese grupo. Todos los índices revisados entonces se basan en comparar el riesgo en el grupo tratado con el riesgo en el grupo control. Sin embargo, hay otra manera de representar la probabilidad, que proviene del mundo del juego. Por ejemplo, la probabilidad de que al tirar un dado salga un dos es 1/6: el dado tiene seis caras, todas con igual probabilidad de salir, y sólo una de ellas tiene el dos; obviamente la probabilidad de que no salga es 5/6, en consecuencia el dos saldrá en una proporción de (1/6)/(5/6) = 1/5 o, dicho de otra manera, la probabilidad de que salga un dos es 1/5 de la probabilidad de que no salga. Cuando los apostadores de las películas dicen, por ejemplo, que las apuestas a tal caballo están 1 a 5 se refieren a este cociente (quieren decir que una sexta parte de los jugadores apuestan por ese ca-
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
ballo mientras que las otras cinco sextas partes no apuestan por él), que en inglés se denomina odds y para el que no hay una traducción española comúnmente aceptada; aunque los apostadores en el juego de la pelota lo llaman momio, el diccionario de la RAE no recoge esta acepción que, además, es casi desconocida fuera de los frontones. Es decir, el odds es el cociente entre la probabilidad de que el episodio de interés ocurra y la probabilidad de que no ocurra y habitualmente se estima por el cociente entre el número de veces que ha ocurrido el acontecimiento y el número de veces que no ha ocurrido. Volvamos al ejemplo de la nota anterior1 cuyos resultados figuran en la tabla 1. A partir de la tabla, podemos estimar la probabilidad de que un paciente del grupo tratado muera por el cociente 20/200 = 0,10 (10%) y el odds correspondiente por el cociente 20/180. Del mismo modo, la probabilidad de que un paciente del grupo control muera se puede estimar por el cociente 15/100 = 0,15 (15%) y el odds por 15/85. Si queremos comparar ambos grupos (tratado y control), lo podemos hacer con el cociente entre ambas probabilidades, o riesgo relativo (RR) (RR = 0,10/0,15 = 0,667), o por el cociente entre ambos odds, u odds ratio (momio relativo, si aceptáramos la terminología del frontón): OR =
20/180 15/85
=
20 × 85 = 0,63 15 × 180
Si no hay efecto del tratamiento, la probabilidad de que el acontecimiento ocurra es la misma en ambos grupos, el odds también es igual y en consecuencia el OR es 1. Cuanto mayor sea el efecto del tratamiento, más distintos son los odds y, por tanto, más se alejará el OR de 1 (en el sentido de mayor o menor que 1). En este sentido, se comporta del mismo modo que el RR. El RR, sin embargo, es más simple que el OR, ¿por qué, entonces, la popularidad de éste? Hay tres motivos para ello, en primer lugar el OR se puede estimar también en los estudios de casos y controles en los que no es posible estimar el RR, en segundo lugar, el OR permite, mediante la regresión logística5, ajustar la relación en estudio por el efecto de otras variables 8
V. Abraira.– Medidas de efecto de un tratamiento (II). odds ratio y número necesario para tratar
(ésta es la razón por la que Sánchez-Seco et al4 lo usan) y, en último lugar, en aquellas situaciones, muy frecuentes en epidemiología comunitaria pero bastante menos en epidemiología clínica, en las que el riesgo es muy pequeño en ambos grupos, el OR y el RR son muy parecidos. El último índice que vamos a revisar es el número necesario para tratar (NNT), que es también el último índice propuesto6, con un uso creciente pero del que también aparecen quejas sobre su mal uso7. Representa el número de pacientes que deberían recibir el tratamiento experimental, en lugar del tratamiento control, para que un paciente adicional obtenga el beneficio (o, de forma equivalente, evite el perjuicio si el episodio en estudio es adverso). Hay que notar la importancia de la palabra “adicional“ en la definición. El NNT se calcula como el inverso de la reducción absoluta del riesgo (RAR). En el ejemplo, el riesgo en el grupo control es 0,15; en el grupo tratado es 0,10; por tanto, la reducción absoluta del riesgo es 0,05, lo que quiere decir que por cada 100 pacientes que sigan ese tratamiento se evitarán 5 muertes con respecto a las que se habrían producido si se hubiera empleado el tratamiento del grupo control, por tanto, para evitar una muerte se necesitarán tratar 100/5 o equivalentemente NNT = 1/0,05 = 20. Obviamente, cuanto mayor sea el efecto del tratamiento menor será el NNT, un tratamiento con el que necesitamos tratar a 5 pacientes para salvar una vida es, en principio, mejor que otro con el que necesitemos tratar a 20. La principal ventaja de este índice es que expresa el efecto del tratamiento en unos términos que permiten fácilmente comparar sus ventajas con sus inconvenientes (efectos adversos, costes, etc.), de un modo, por tanto, muy cercano a la toma de decisiones clínicas. Hay que tener en cuenta que si el tratamiento no tuviera efecto RAR = 0 entonces NNT sería infinito, lo que daría lugar a algún problema8, sobre todo en el cálculo e interpretación de su intervalo de confianza. Del mismo modo, para evaluar efectos adversos se puede definir el número necesario para perjudicar, representado por sus siglas en inglés NNH, aunque ya se ha señalado8 que esta terminología es confusa y que sería preferible usar el número necesario a tratar para producir un beneficio (NNTB) y número necesario a tratar para producir un perjuicio (NNTH). Tabla 1. Resultados de un hipotético ensayo clínico Fallecidos Grupo
Sí
No
Total
Tratado Control Total
20 15 35
180 85 265
200 100 300
Tabla 2. Resultados de otro hipotético ensayo clínico Fallecidos Grupo
Sí
No
Total
Tratado Control Total
20 30 50
480 470 950
500 500 1.000
Puntos clave • El odds ratio es uno de los índices más usados, a pesar de ser el menos intuitivo. Su principal ventaja es que permite, mediante la regresión logística, ajustar la relación en estudio por el efecto de otras variables. • El número necesario a tratar expresa el efecto del tratamiento de un modo que permite fácilmente comparar sus ventajas con sus inconvenientes (efectos adversos, costes, etc.), muy cercano por lo tanto a la toma de decisiones clínicas. • Existe evidencia empírica que sugiere que los índices relativos (odds ratio y riesgo relativo) tienden a ser más parecidos entre diferentes ensayos del mismo tratamiento que los índices absolutos (reducción absoluta del riesgo y número necesario a tratar).
En la primera columna de la tabla 3 figuran todos los índices calculados para los datos de la tabla 1. Se insiste en que todos ellos están calculados con los mismos datos, por tanto, todos reflejan el mismo efecto del tratamiento, aunque como unos están basados en diferencias y otros en cocientes, la relación entre ellos no se mantiene entre distintos estudios, es decir dos ensayos diferentes pueden dar lugar al mismo RR pero diferente NNT. Sirvan de ejemplo los resultados representados en la tabla 2, en los que los riesgos son menores en ambos grupos (0,06 en el control y 0,04 en el tratado), los índices calculados para estos datos figuran en la columna 2 de la tabla 3. Obsérvese que aunque los RR son iguales para los datos de ambas tablas, los demás son distintos, y los NNT, muy distintos. Existe evidencia empírica proveniente de cientos de metaanálisis que sugiere que los índices relativos (OR y RR) tienden a ser más parecidos entre diferentes ensayos del mismo tratamiento que los índices absolutos (RAR y NNT)9 o, dicho de otra manera, los índices relativos serían característicos del tratamiento, mientras que los absoTabla 3. Índices del efecto del tratamiento calculados para los datos de las tablas 1 y 2
RAR RRR RR OR NNT
Tabla 1
Tabla 2
0,05 0,333 0,667 0,63 20
0,02 0,333 0,667 0,653 50
RAR: reducción absoluta del riesgo; RRR: reducción relativa del riesgo; RR: riesgo relativo; OR: odds ratio; NNT: número necesario para tratar.
9
lutos dependerían del tratamiento y también del riesgo basal. Para decidir si el resultado de un ensayo, expresado con un índice absoluto como el NNT, es aplicable en nuestro medio, hay que evaluar si el riesgo basal del ensayo es similar al de nuestro medio y, en caso contrario, adaptar el índice a nuestro riesgo basal. Del mismo modo, en un metaanálisis, el cálculo de un NNT global puede ser poco informativo7 si en los ensayos individuales hay heterogeneidad en los riesgos basales.
BIBLIOGRAFÍA 1. Abraira V. Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo. SEMERGEN 2000; 26: 535-536. 2. Sackett DL, Deeks JJ, Altman DG. Down with odds ratios! EvidenceBased Med 1996; 1: 164-166.
3. Altman DG, Deeks JJ, Sackett DL. Odds ratios should be avoided when events are common [carta]. Br Med J 1998; 317: 1318. 4. Sánchez-Seco Higuera P, Delgado Delgado P, Retuerta Ameztoy P, López-Doriga de la Vega A, Viejo Martínez S, Díaz García RM. Prevalencia de factores de riesgo cardiovascular en la población anciana de la zona básica de salud de Horche (Guadalajara). SEMERGEN 2001; 27: 118-122. 5. Abraira V, Pérez de Vargas A. Métodos multivariantes en Bioestadística. Madrid: Centro de Estudios Ramón Areces, 1996. 6. Laupacis A, Sackett DL, Roberts RS. An assessment of clinically useful measures of the consequences of treatment. N Engl J Med 1988; 318: 1728-1733. 7. Smeeth L, Haines A, Ebrahim S. Numbers needed to treat derived from meta-analyses-sometimes informative, usually misleading. Br Med J 1999; 318: 1548-1551. 8. Altman DG. Confidence intervals for the number needed to treat. Br Med J 1998; 317: 1309-1312. 9. Deeks JJ, Altman DG, Dooley G, Sackett DL. Choosing an appropriate dichotomous effect measure for meta-analysis: empirical evidence of the appropriateness of the odds ratio and relative risk [resumen]. Control Clin Trials 1997; 18: S84-S85.
10
notas BIOESTADISTICAS Estimación: intervalos de confianza V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
Todas las investigaciones clínicas se realizan en un grupo determinado de individuos, generalmente pacientes. Sin embargo, el interés del estudio radica, habitualmente, en la generalización de los resultados: no se está tan interesado en lo que ocurre con los individuos particulares que participan en la investigación como en predecir lo que pueda ocurrir en el futuro con otros individuos similares. Esto plantea dos problemas, el primero es el del sesgo de selección1, es decir, hasta qué punto los pacientes incluidos en el estudio son similares o, en la terminología estadística, pertenecen a la misma población que aquel o aquellos a quienes se quieren aplicar los resultados del estudio o, dicho de otra manera, hasta qué punto son tan distintos como para que los resultados del estudio no sean útiles para tomar las decisiones sobre éstos2. El segundo problema es que los estudios nunca se realizan con todos los pacientes de interés, sino sólo con un grupo de ellos o, en terminología estadística, no se trabaja con la población sino con una muestra. La estadística sirve justamente para solucionar este segundo problema con las técnicas de estimación y contraste de hipótesis3. Por ejemplo, en un estudio para evaluar la eficacia de los inhaladores de nicotina para reducir la cantidad de tabaco fumado4 se definió como éxito en cada individuo que, en el período comprendido entre la sexta semana y el cuarto mes desde el inicio del tratamiento, se redujera al menos en un 50% el número de cigarrillos fumados diariamente. Los participantes en el estudio fueron 400 voluntarios sanos, reclutados por anuncios en los periódicos, que estaban dispuestos a reducir su consumo de tabaco, pero no a dejar de fumar inmediatamente, o eran incapaces de ello. Los participantes fueron distribuidos aleatoriamente en dos grupos de 200, la evaluación de la eficacia se obtuvo de la comparación de las proporciones de éxito entre los grupos tratado (26%) y placebo (9%) y se pretende que este resultado sea aplicable a otros fumadores. En el artículo se describen las características demográficas de los participantes y las de su historia y hábito tabáquico para ayudar al lector a juzgar cuán diferentes puedan ser de otros fumadores a quienes se quiera aplicar el tratamiento (sesgo de selección). Una vez aceptado que son suficientemente parecidos, el siguiente Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
Puntos clave • En general, el interés de los estudios de investigación clínica no es tanto lo que ocurre con los individuos particulares que participan en la investigación sino predecir lo que pueda ocurrir en el futuro con otros individuos similares. • El intervalo de confianza de un índice es un intervalo dentro del que se encuentra el verdadero valor del índice con un grado prefijado de seguridad, suponiendo que la muestra sea aleatoria. • El intervalo de confianza es, por tanto, un modo de cuantificar lo generalizable de los resultados de un estudio, suponiendo que el estudio es válido.
problema es cuánto tienen que ver las proporciones de éxito del 26 y el 9% obtenidas en los 200 individuos concretos que participan en cada grupo del estudio (muestra) con las proporciones respectivas en todos los individuos (población) a los que sea aplicable y cuánto dependen estas proporciones de que se obtengan en 200, 20 o 2.000 individuos. Para ayudar a comprenderlo pensemos en otro problema similar: ¿cuál es la probabilidad de que al tirar un dado salga un dos? La diferencia entre ambos problemas reside en que en este último, si aceptamos que el dado está bien construido, podemos calcular que la probabilidad es 1/6, cálculo que no se puede realizar para el éxito de los inhaladores de nicotina. Sin embargo, también podríamos resolver el problema del dado tirándolo una serie de veces y calculando la proporción de veces en que sale el dos. En la figura 1 se ilustra la evolución de esta proporción en función del número de tiradas en 4 series. En ella se observa la característica forma de embudo correspondiente a una ley empírica que dice que la proporción oscila, pero que la amplitud de las oscilaciones va decreciendo a medida que aumenta el número de tiradas, de tal modo que en todas las series tiende a estabilizarse en el mismo valor, a pesar de que obviamente también es posible que en alguna serie salga el dos en todas las tiradas o no salga en ninguna. Se puede definir la probabilidad de un suceso co11
Abraira V. Estimación: intervalos de confianza
1,0 0,8 0,6 0,4 0,2 0,0 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 Figura 1. Evolución de la proporción del resultado “dos” en función del número de “tiradas” del dado en 4 series de 100 “tiradas” (los valores finales de las 4 series varían en este caso entre 0,17 y 0,21).
mo el valor en el que se estabiliza la proporción de veces en que el suceso ocurre. El problema consiste en saber, en cada caso, si el “número de tiradas” es suficientemente grande para que la proporción se haya estabilizado. Es decir, volviendo al estudio de los inhaladores, ¿el número de fumadores estudiados es suficiente para que las proporciones de éxito en cada grupo ya estén estabilizadas cerca de las verdaderas probabilidades de éxito? o, planteado de otra manera, dado el número de fumadores estudiados y las proporciones de éxito encontradas, ¿dentro de qué intervalo estarían las verdaderas probabilidades de éxito? Imaginemos que no sabemos si el dado está bien construido o está “cargado”, es decir, no sabemos si la probabilidad de que salga un dos es realmente 1/6 (= 0,166). El experimento para estudiarlo consiste en tirar el dado varias veces. Supongamos que lo tiramos 6 veces y el dos sale en una ocasión. En este punto la mejor estimación de la probabilidad del dos es la proporción 1/6, pero está claro
Tabla 1. Intervalos de confianza para la proporción 1/6 en el experimento del dado N.º de tiradas
N.º de dos
IC del 95%
IC del 99%
6 12 24 48 120 600
1 2 4 8 20 100
0,004-0,64 0,02-0,48 0,05-0,37 0,07-0,30 0,11-0,25 0,14-0,20
0,0008-0,74 0,009-0,57 0,03-0,44 0,06-0,35 0,09-0,27 0,13-0,21
Tabla 2. Medidas de eficacia y sus intervalos de confianza en el ensayo de los inhaladores de la nicotina
DAR RR DRR OR NNT
Índice
IC del 95%
17,0 2,89 188,9 3,55 6
9,7-24,3 1,75-4,76 108,2-269,5 1,99-6,33 4-10
Como en este caso el riesgo del grupo experimental es mayor que el del grupo control, se ha preferido usar la diferencia de riesgo en lugar de la reducción de riesgo5. DAR: Diferencia absoluta de riesgo; RR: Riesgo relativo; DRR: Diferencia relativa de riesgo; OR: Odds ratio ; NNT: Número necesario para tratar.
que, con tan sólo 6 tiradas, esta proporción puede estar muy alejada de la probabilidad y sería perfectamente posible encontrar este resultado con un dado cargado. En función de experiencias similares a la representada en la figura 1 se podría aceptar que la verdadera probabilidad podría estar en un amplio intervalo como, por ejemplo, 0,005 y 0,7. Piénsese, o constrúyase con un poco de paciencia, una gráfica como la de la figura 1 para el resultado “cara” en varias series de tiradas de una moneda. En la zona izquierda, las partes anchas de los embudos se solaparían. Si tiramos ahora el dado 24 veces y encontramos el dos en 4 ocasiones la mejor estimación sigue siendo 4/24 = 1/6, pero el intervalo de probabilidades se estrecharía, digamos que entre 0,05 y 0,35. Si lo tiramos 120 veces y el dos se obtiene en 20 ocasiones, la estimación continúa siendo 20/120 = 1/6, pero el intervalo se habría estrechado aún más, por ejemplo entre 0,1 y 0,2. Estos intervalos se denominan “intervalos de confianza” y las técnicas estadísticas permiten construirlos de una forma precisa y fiable, asumiendo que la muestra del estudio es una muestra aleatoria de la población de interés. En la tabla 1 se incluyen los intervalos para el problema del dado, construidos con un nivel de confianza del 95 y el 99%. Esta tabla ilustra cómo los intervalos de confianza nos indican si el tamaño de una muestra es suficiente para contestar a una pregunta de investigación. Si deseamos estar razonablemente seguros de que la “carga” del dado no altera la probabilidad del dos en más del 10% necesitamos menos de 120 tiradas, pero si queremos asegurar un error menor del 3% necesitaríamos 600. En el caso de los inhaladores de nicotina los intervalos de confianza del 95% para el placebo son del 5,4-13,9%, y para el grupo tratado del 20,1-32,7%; que ambos no se solapen nos está indicando que el tamaño muestral es suficientemente grande para estar seguros, con un 95% de confianza, de que las proporciones de éxito son verdaderamente distintas en ambos grupos. Las técnicas estadísticas permiten construir intervalos de confianza no sólo para las proporciones sino también para todas las medidas del efecto de un tratamiento vistas en notas previas5,6, y siempre debería darse el intervalo de confianza del índice usado. En la tabla 2 aparecen los distintos índices y sus intervalos de confianza para el ensayo de los inhaladores de nicotina.
BIBLIOGRAFÍA 1. Ellenberg JH. Selection bias in observational and experimental studies. Stat Med 1994;13:557-67. 2. Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Medicina basada en la evidencia. Cómo ejercer y enseñar la MBE. Madrid: Churchill Livingstone España, 1997. 3. Abraira V. Estadística inferencial. Disponible en: http://www.hrc. es/bioest/Introducion.html [consultado: 11/07/2001]. 4. Bolliger CT, Zellweger JP, Danielsson T, van Biljon X, Robidou A, Westin A, et al. Smoking reduction with oral nicotine inhalers: double blind, randomised clinical trial of efficacy and safety. BMJ 2000;321:329-33. 5. Abraira V. Medidas del efecto de un tratamiento (I): reducción absoluta del riesgo, reducción relativa del riesgo y riesgo relativo. SEMERGEN 2000;26:535-6. 6. Abraira V. Medidas del efecto de un tratamiento (II): odds ratio y número necesario para tratar. SEMERGEN 2001;27:418-20.
12
notas BIOESTADISTICAS Índices de rendimiento de las pruebas diagnósticas V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
Ya se vio en otra nota1 un índice para cuantificar la reproducibilidad o concordancia de un instrumento de medida cuando sus resultados se expresan mediante una variable binaria (tipo “sí” o “no”), que es la forma más simple en la que se pueden expresar los resultados de las pruebas diagnósticas cuando se usan para determinar si un individuo tiene, o no, una cierta enfermedad, un síntoma o un signo. En esta nota se van a repasar los índices empleados para evaluar el otro tipo de error de medición, el debido a la falta de validez2. Por ejemplo, en la tabla 1 se muestran los resultados de la medición, en ancianos, de la concentración plasmática de péptido natriurético tipo B para diagnosticar la disfunción ventricular izquierda, comparados con el diagnóstico basado en el ecocardiograma3 ¿es suficientemente buena la medición de la concentración plasmática de este péptido para diagnosticar la disfunción ventricular? Obviamente para contestar a esta pregunta hemos de asumir que existe otro procedimiento que permite hacer el diagnóstico correcto con el que se compara la prueba a evaluar. La elección de este procedimiento, habitualmente denominado patrón de oro, es el principal problema del diseño de un estudio de evaluación de una prueba diagnóstica4. En el ejemplo se eligió el ecocardiograma como patrón de oro. Entendiendo por “positivo” el resultado que predice la presencia de la enfermedad o condición de interés, se definen como índices de validez: la sensibilidad (Sen) o proporción de verdaderos positivos, es decir, la proporción de positivos en los enfermos y especificidad (Esp) o proporción de verdaderos negativos. En el ejemplo Sen = 11/12 = 0,92 y Esp = 93/143 = 0,65. Ambos son fácilmente interpretables: toman valores entre 0, que indica que la prueba es totalmente inválida y 1 si la prueba fuera perfectamente válida. Aunque estos índices corresponden al punto de vista “natural” del investigador que evalúa la prueba y son por ello los más usados en las publicaciones científicas, en
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Crta. Colmenar km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
Tabla 1. Resultados de la evaluación del péptido tipo B Péptido natriurético tipo B (pmol/l)
Ecocardiograma
Normal (< 18,7)
Normal Disfunción Total
93 1 94
a c t=a+c
Elevado (≥18,7)
b 50 d 11 u=b+d 61
Total
r=a+b 143 s=c+d 12 N=a+b+c+d 155
la práctica clínica lo que suele ser conocido es el resultado de la prueba y por lo tanto, lo que tiene interés es la proporción de individuos con resultado “positivo” que verdaderamente tienen la enfermedad. A esta proporción se le denomina valor predictivo positivo (VP+) y, simétricamente, se denomina valor predictivo negativo (VP-) a la proporción de individuos con resultado “negativo” que verdaderamente no tienen la enfermedad. En el ejemplo VP+ = 11/61 = 0,18 y VP- = 93/94 = 0,99, que nos indican que la inmensa mayoría (el 99%) de los individuos en que la prueba es negativa no tienen la enfermedad, pero que sólo una minoría (el 18%) de aquéllos en que el resultado es positivo la padecen. A pesar de que estos últimos índices representan las proporciones de interés en la práctica, su valor es muy limitado porque dependen de la proporción de enfermos en el grupo en el que la prueba se ha evaluado2. Es decir, los valores predictivos anteriores sólo son válidos en aquellos ambientes en los que la prevalencia de la disfunción ventricular izquierda sea la misma que la del estudio, es decir 12/155 = 0,08. Hay que tener en cuenta además que lo que importa para interpretar el resultado de una prueba diagnóstica no es realmente la prevalencia (proporción de enfermos en la población), sino la denominada probabilidad preprueba, es decir la probabilidad de que el individuo tenga la enfermedad antes de aplicar la prueba, probabilidad que será estimada a partir de la anamnesis y de las pruebas previas (en general, la probabilidad preprueba coincide con la prevalencia sólo en el caso de una prueba aplicada como cribado poblacional). Hay otros índices que, por ser más recientes, son menos usados pero que sin embargo son los más útiles para interpretar el resultado de una prueba diagnóstica5, los denominados cociente de probabilidad positivo (CP+) y cociente 13
Abraira V. Índices de rendimiento de las pruebas diagnósticas
de probabilidad negativo (CP-) que, usando la notación de la tabla 1, se definen como:
Es decir, CP+ representa cuánto más frecuente es el resultado positivo entre los enfermos que entre los no enfermos. Si el resultado positivo se obtuviera con la misma frecuencia en los enfermos y en los no enfermos, el hecho de que la prueba sea positiva no contendría ninguna información y CP+ = 1; cuanto más frecuente sea el resultado positivo en los enfermos con respecto a los no enfermos más información contiene este resultado y mayor sería CP+. Simétricamente CP- representa cuánto más frecuente es el resultado negativo entre los enfermos que entre los no enfermos. Si el resultado negativo se obtuviera con la misma frecuencia en los enfermos y en los no enfermos, este resultado no contendría ninguna información y CP- = 1; cuanto menos frecuente sea el resultado negativo en los enfermos con respecto a los no enfermos más información contiene este resultado y menor sería CP-. Los cocientes de probabilidad permiten transformar la probabilidad preprueba en probabilidad postprueba mediante la relación2:
Recuérdese que se denomina odds6 al cociente entre la probabilidad de que un evento (en este caso “estar enfermo”) ocurra y la probabilidad de que no ocurra, por lo tanto
los subíndices post y pre indican postprueba y preprueba respectivamente y el subíndice R representa el resultado obtenido. Los CP de la prueba del ejemplo son
Tabla 2. Guía aproximada del valor informativo de los CP CP>10 ó CP<0,1 5<CP<10 ó 0,1<CP<0,2 2<CP<5 ó 0,2<CP<0,5 1<CP<2 ó 0,5<CP<1
Cambios amplios Cambios moderados Cambios pequeños Cambios insignificantes
Puntos clave •
•
•
La sensibilidad y especificidad, que son los índices más establecidos como índices de validez de las pruebas diagnósticas, corresponden al punto de vista “natural” del investigador que evalúa la prueba, pero requieren de ciertos cálculos para interpretar el resultado de una prueba en la práctica clínica. Los valores predictivos representan las proporciones de interés en la práctica, pero su valor es muy limitado porque dependen de la proporción de enfermos en el grupo en el que la prueba se ha evaluado. Los cocientes de probabilidad son los índices más útiles porque permiten transformar la probabilidad preprueba en probabilidad postprueba mediante una sencilla relación y no dependen de la proporción de enfermos en el grupo en el que se ha evaluado la prueba.
cas5 como electrónicas que facilitan estos cálculos. La utilidad de una prueba diagnóstica reside en la modificación que su resultado produce en la probabilidad de estar enfermo, obsérvese que en este ejemplo el cambio es mayor si la prueba tiene un resultado negativo, debido a que el CP- es más distinto de 1 que el CP+. Como guía aproximada de la utilidad en función del cambio que produce en la probabilidad se puede usar la que figura en la tabla 2 debida a Jaeschke et al5. Nota: en el apartado de software de la página web de la Unidad de Bioestadística Clínica del Hospital Ramón y Cajal (http://www.hrc.es/bioest.html) está disponible una calculadora que, a partir de los datos “crudos” de un estudio sobre la validez de una prueba diagnóstica, calcula todos estos índices y sus intervalos de confianza, así como la probabilidad postprueba a partir de la probabilidad preprueba.
BIBLIOGRAFÍA supóngase que se le aplica la prueba a un anciano al que por su sintomatología e historia se le estima una probabilidad alta (por ejemplo 0,7) de padecer disfunción ventricular izquierda ¿cómo se modificaría esta probabilidad si se le midiera la concentración plasmática del péptido y resultara “positiva” ( ≥ 18,7)? A partir de la probabilidad preprueba, primero se calcula el oddspre = 0,7 / (1-0,7) = 2,33; como el resultado es positivo CPR = CP+ = 2,62 por tanto oddspost = 2,62 x 2,33 = 6,10 y ppost = 6,10 / 7,10 = 0,86; si el resultado de la prueba hubiera sido negativo CPR = CP- = 0,13 y oddspost = 0,13 x 2,33 = 0,30 y por lo tanto ppost = 0,30 / 1,30 = 0,23. Existen calculadoras tanto gráfi-
1. Abraira V. El índice kappa. SEMERGEN 2001;27:247-9. 2. Abraira V. Errores en las mediciones y clasificaciones clínicas: Precisión y validez. [consultado: 11/01/2002]. Disponible en: http://www.hrc.es/bioest/Intro_errores.html 3. Smith H, Pickering RM, Struthers A, Simpson I, Mant D. Biochemical diagnosis of ventricular dysfunction in elderly patients in general practice: observational study. Br Med J 2000;320:906-8. 4. Cabello López JB, Pozo Rodríguez F. Métodos de investigación en cardiología clínica (X). Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol 1997;50:507-19. 5. Jaeschke R, Guyatt G, Sackett DL for the Evidence-Based Medicine Working Group. Users’ guides to the medical literature. III. How to use an article about a diagnostic test. B. What were the results and will they help me in caring for my patients? JAMA 1994;271:703-7. 6. Abraira V. Medidas del efecto de un tratamiento (II): odds ratio y número necesario para tratar. SEMERGEN 2001;27:418-20.
14
notas BIOESTADISTICAS Contraste de hipótesis: el valor p V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
El contraste de hipótesis es la técnica estadística más frecuentemente usada en la literatura clínica1 y epidemiológica2, sin embargo es reconocido, que también con mucha frecuencia, es mal entendida e interpretada erróneamente3. La confusión es en parte debida a que la manera actual de usar los contrastes de hipótesis es una combinación de dos metodologías originalmente enfrentadas entre sí, y que contienen elementos incompatibles4,5. La idea inicial de las pruebas de significación se debe a Fisher6. Supóngase que se quiere evaluar si un tratamiento suministrado después de un episodio de ictus mejora el pronóstico de los pacientes. Para ello7, una serie de 6.105 pacientes que han sufrido un ictus, se distribuyen aleatoriamente en dos grupos, a los pacientes de uno de los grupos se les administra el tratamiento propuesto, mientras que a los del otro grupo se les suministra placebo y se sigue a todos ellos durante 4 años; la evaluación de la eficacia del tratamiento se obtiene de la comparación de las proporciones de recurrencia del ictus entre los grupos tratados (10,1%) y placebo (13,8%). Si el tratamiento no fuera eficaz ambas proporciones serían iguales, aunque no necesariamente exactamente iguales8. La idea de Fisher consiste en realizar la comparación calculando una probabilidad, el “famoso” valor p o nivel de significación: la probabilidad de encontrar una diferencia en las proporciones de recurrencia de ictus como la que se ha encontrado o mayor en la hipótesis, llamada hipótesis nula, de que el tratamiento no tenga efecto y usar este valor p como un índice de la fuerza probatoria de los datos contra la hipótesis nula, cuanto menor sea p, mayor será la carga de la prueba en contra de la hipótesis nula; propone, además, el valor de 0,05 como punto de corte “conveniente”, aunque argumenta enfáticamente que la interpretación última la debe hacer el investigador. Es obvio que en la actualidad ese punto de corte se usa como una regla mucho más rígida. En nuestro ejemplo, los autores señalan que p<0,0001, por lo tanto los resultados del estudio aportan una gran fuerza probatoria contra la hipótesis de que el tratamiento no afecta al pronóstico, y los autores concluyen que el tra-
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Crta. Colmenar km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
tamiento debería ser rutinariamente considerado en los pacientes con historia de ictus7. Con posterioridad a Fisher, y como reacción a la subjetividad inherente a la interpretación del valor p, Neyman y Pearson proponen los denominados contrastes de hipótesis4 en los que se reemplaza el subjetivo concepto de fuerza probatoria por un procedimiento para decidir entre dos hipótesis, la hipótesis nula (en nuestro ejemplo el tratamiento no es eficaz) y la hipótesis alternativa (el tratamiento sí es eficaz). Se fijan a priori unas tasas aceptables para los dos tipos de error que se pueden cometer (tabla 1), se calcula el valor p (de la misma manera que en la propuesta de Fisher, aunque en la actualidad existe una gran variedad de procedimientos, los llamados tests estadísticos, para calcular ese valor en distintas situaciones experimentales y para distintos parámetros y funciones de parámetros) y se usa para tomar una decisión: si p es menor que la tasa aceptada de error tipo I se rechaza la hipótesis nula a favor de la alternativa, de lo contrario no se rechaza la hipótesis nula. El procedimiento garantiza a la larga una frecuencia preestablecida de decisiones correctas, pero no dice nada sobre la verdad o falsedad de cada hipótesis concreta. En la actualidad las dos concepciones se usan mezcladas de un modo que seguramente disgustaría a los creadores de ambas y se quiere ver en el valor p tanto un índice de la fuerza probatoria como una tasa de error en la decisión: se dice, por ejemplo, que la diferencia es significativa al nivel p, pero también que se acepta o rechaza la hipótesis nula con el nivel α. Esta mezcla ha dado lugar, por ejemplo, a distintos estilos de comunicar los
Tabla 1. Tipos de errores en un contraste de hipótesis La “verdad”
Resultado del experimento H0 rechazada H0 no rechazada
H0 cierta
H0 falsa H1 cierta
Error tipo I (α)
Decisión correcta
Decisión correcta
Error tipo II (β)
H0: hipótesis nula; H1: hipótesis alternativa; error tipo I: rechazar la hipótesis nula siendo cierta; error tipo II: aceptar la hipótesis nula siendo falsa; α: probabilidad error tipo I; β: probabilidad error tipo II.
15
Abraira V. Contraste de hipótesis: el valor p
resultados que pueden incluso coexistir en un mismo artículo, a veces los investigadores dan el valor exacto de p, a veces sólo comunican que es menor que un cierto punto de corte, a veces el punto de corte es el mismo en todo el artículo (por ejemplo el ubicuo 0,05) pero a veces se usan puntos de corte diferentes. En el artículo de nuestro ejemplo7, se puede ver p=0,7, p<0,01, p<0,001 y también p>0,1. La interpretación errónea más frecuente3 en el uso de los contrastes consiste en interpretar el valor p como la probabilidad de que la hipótesis nula sea cierta y que, por tanto, un resultado “significativo” significa que es muy improbable que la hipótesis nula sea cierta. Para interpretarlo correctamente, hay que darse cuenta que el valor p es la probabilidad de unos resultados dada la hipótesis nula, que es distinta de la probabilidad de la hipótesis nula dados los resultados, es decir, son probabilidades que están en la misma relación que, por ejemplo, en el caso más familiar a los clínicos de las pruebas diagnósticas, la sensibilidad (probabilidad de un resultado positivo de la prueba en los enfermos) y el valor predictivo positivo (probabilidad de estar enfermo en los individuos con resultado positivo)9. La crítica más importante que recibe el valor de p como índice de la fuerza probatoria es que no depende sólo del tamaño del efecto observado, sino, y sobre todo, del tamaño muestral4,5. Así, en el ejemplo del ictus se obtuvo p<0,0001 para la diferencia entre las proporciones 10,1% y 13,8% encontradas en 6.105 pacientes (3.051 en el grupo del tratamiento activo y 3.054 en el del placebo); si el experimento se hubiera hecho con 300 en cada grupo, para las mismas proporciones se hubiera encontrado p=0,164; en el otro extremo, si se hubiera hecho con 30.000 en cada grupo, y se hubieran encontrado las proporciones 10,0% y 10,5%, el valor p hubiera sido 0,042, es decir una diferencia significativa para unas proporciones cuya diferencia desde el punto de vista clínico sería irrelevante. Con la otra interpretación, la crítica más importante a los contrastes de hipótesis como forma de tomar decisiones es que éstas se toman sin tener en cuenta ninguna información ajena al experimento, el formalismo de los contrastes de hipótesis no contempla la información proveniente de otros estudios, se asume que los investigadores y los lectores son vírgenes respecto a las hipótesis en juego, asunción que parece bastante irreal y que ha dado lugar a un pernicioso estilo del apartado “Discusión” de los artículos, en el que rara vez se discuten los resultados del estudio en el contexto de una revisión sistemática actualizada de artículos anteriores10. Las reacciones ante estos frecuentes errores, malas interpretaciones y limitaciones van básicamente en dos sen-
Puntos clave • El contraste de hipótesis es la técnica estadística más frecuentemente usada en la literatura clínica, pero con mucha frecuencia es mal entendida e interpretada. • Se basa en poner a prueba una hipótesis de no diferencia (hipótesis nula) calculando la probabilidad de encontrar una diferencia como la que realmente se ha encontrado o mayor, en el supuesto de que la hipótesis nula sea cierta. • Esa probabilidad se usa como un índice de la fuerza probatoria de los datos contra la hipótesis nula, aunque también como instrumento para tomar una decisión garantizando a la larga unas tasas de error preestablecidas. • A pesar de su uso prácticamente ubicuo en la literatura médica, esta doble interpretación no está exenta de contradicciones y está en el origen de los errores y malas interpretaciones.
tidos: uno recomendar limitaciones en su uso2 y proponer utilizar en su lugar los intervalos de confianza8; la revista Epidemiology es una abanderada de esta posición, aunque últimamente la ha suavizado un poco11, pero también se ha señalado que ambas aproximaciones comparten la misma base teórica y por lo tanto los mismos problemas12. La otra propuesta supone una alternativa radicalmente distinta y aunque hasta ahora su uso es muy limitado, es probable que en un futuro próximo asistamos a su despegue: se trata de los métodos bayesianos4,5 a cuyo fundamento se dedicará una nota más adelante.
BIBLIOGRAFÍA 1. Guyatt G, Jaeschke R, Heddle N, Cook D, Shannon H, Wermuth L. Basic statistics for clinicians: 1. Hypothesis testing. CMAJ 1995;152:27-32. 2. Poole C. Low P-values or narrow confidence intervals: which are more durable? Epidemiology 2001;12:291-4. 3. Sterne JAC, Smith GD. Sifting the evidence - what’s wrong with significance tests? Br Med J 2001;322:226-31. 4. Silva LC, Muñoz A. Debate sobre métodos frecuentistas vs bayesianos. Gac Sanit 2000;14:482-94. 5. Goodman SN. Toward evidence-based medical statistics. 1: The P value fallacy. Ann Intern Med 1999;130:995-1004. 6. Fisher RA. Statistical Methods, Experimental Design and Scientific Inference (Re-issue). Oxford: Oxford University Press; 1995. 7. PROGRESS Collaborative Group. Randomised trial of a perindopril-based blood-pressure-lowering regimen among 6105 individuals with previous stroke or transient ischaemic attack. Lancet 2001;358:1033-41. 8. Abraira V. Estimación: intervalos de confianza. SEMERGEN 2002;28:84-5. 9. Abraira V. Índices de rendimiento de las pruebas diagnósticas. SEMERGEN 2002;28:193-4. 10. Clarke M, Chalmers I. Discussion Sections in Reports of Controlled Trials Published in General Medical Journals: Islands in Search of Continents? JAMA 1998;280:280-2. 11. The Editors. The value of p. Epidemiology 2001;12:286. 12. Feinstein AR. P-values and confidence intervals: two sides of the same unsatisfactory coin. J Clin Epidemiol 1998; 51:355-60.
16
notas BIOESTADISTICAS Desviación estándar y error estándar V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
Una pregunta que frecuentemente plantean los investigadores que consultan en la Unidad de Bioestadística Clínica es ¿qué índice debo poner en mis tablas o gráficas de resultados: la desviación estándar o el error estándar de la media? Esta duda en parte se sustenta en el hecho de que en la literatura médica se usan ambos índices de un modo que puede parecer casi indistinto. Por ejemplo, y con el único fin de ilustrar esta afirmación, en dos artículos recientes de una misma revista (British Medical Journal), en uno1 aparece en la tabla de resultados la desviación estándar, mientras que en la figura de resultados del otro2 se presenta el error estándar de la media, con una intención que en una primera lectura puede parecer la misma: describir la variabilidad de los datos. Sin embargo ambos índices, aunque relacionados, son conceptualmente muy diferentes. La desviación estándar es una medida de la dispersión de los datos, cuanto mayor sea la dispersión mayor es la desviación estándar, si no hubiera ninguna variación en los datos, es decir, si fueran todos iguales, la desviación estándar sería cero. Para ilustrar cómo la desviación estándar cuantifica la dispersión alrededor de la media supónganse dos poblaciones de 100.000 individuos en las que la edad se distribuye como se muestra en los histogramas de la figura 1. La edad media en ambas poblaciones es 44,5 y la desviación estándar es 14,9 en la población A y 10,0 en la B. Obsérvese que, como corresponde a una desviación estándar menor, en la población B las edades de los individuos están menos dispersas alrededor de la media. Unas fórmulas muy difundidas establecen que en el intervalo comprendido entre la media menos la desviación estándar y la media más la desviación estándar están aproximadamente el 68% central de los datos, y que en el intervalo comprendido entre la media menos 1,96 (aproximadamente 2) veces la desviación estándar y la media más 1,96 veces la desviación estándar están aproximadamente el 95% central de los datos. Según esta regla, en la población A del ejemplo
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Crta. Colmenar km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
aproximadamente los 68.000 individuos con edades más cercanas a la media tendrían edades comprendidas entre 29,6 y 59,4 (realmente en ese intervalo hay 67.961 individuos) y 95.000 estarían entre 15,3 y 73,7 (realmente hay 95.006), de los 5.000 restantes la mitad tendrían menos de 15,3 (en los datos hay 2.528) y la otra mitad más de 73,7. Estos intervalos para la población B son: entre 34,5 y 54,5 los 68.000 individuos con edades más cercanas a la media y entre 24,9 y 64,1 los 95.000 centrales. Hay que resaltar que esta regla sólo es cierta si la variable se ajusta a una distribución normal o gaussiana; en el ejemplo la regla se cumple porque los datos ajustan perfectamente a la distribución normal como se observa en la figura. Aunque con excesiva frecuencia se asume la normalidad de las variables biológicas, es conocido que no siempre es así3; por ejemplo, en la figura 2 se muestra el histograma de la edad de los 507.409 individuos que componían en 1996 la población del Área Sanitaria 4 de la Comunidad de Madrid. Se observa que no ajusta bien a la distribución normal y en consecuencia la regla anterior no se cumple: la media es 39,5 y la desviación estándar 21,8; entonces la regla predice, por ejemplo, que debería haber aproximadamente 12.685 individuos (el 2,5% del total) con edades menores que 39,5 - 1,96 x 21,8 = -3,2, es decir con edades negativas, que obviamente no se cumple. Hay una regla menos conocida y que se puede aplicar siempre para cuantificar la dispersión de los datos, sea cual sea la forma de su distribución, basada en la desigualdad de Chebyshev4, que establece que en el intervalo comprendido entre la media menos k veces la desviación estándar y la media más k veces la desviación estándar está al menos la (1-1/k2) parte central de los datos, por ejemplo para k=2 se puede decir que entre la media menos 2 veces la desviación estándar y la media más 2 veces la desviación estándar están al menos los 1-1/4 = 3/4 (75%) centrales de los datos. Las investigaciones rara vez se hacen sobre el conjunto de la población; lo habitual es realizarlas en un subconjunto (muestra) de ella. Esta práctica está justificada porque la teoría estadística establece que, si la muestra se selecciona aleatoriamente, sus características (forma de la distribución, media, desviación estándar, etc.) son parecidas a las de la población y tanto más parecidas cuanto mayor sea la muestra. En la figura 3 se representa el histograma de la edad de una muestra aleatoria de 100 individuos extraída de la población representada en la figura 1 A. Obsérvese 17
B 40.000
30.000
30.000
20.000
20.000
10.000
10.000
0
0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100
A 40.000
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100
Abraira V. Desviación estándar y Error estándar
100.000
40
80.000
30
Figura 1. Histogramas de frecuencias de la edad en unas poblaciones hipotéticas de 100.000 individuos. En ambas poblaciones la media es 44,5; las desviaciones estándar son 14,9 en A y 10,0 en B. Las líneas continuas muestran la distribuciones teóricas correspondientes a curvas gaussianas con las mismas medias y desviaciones estándar.
60.000 20 40.000 10
0
0 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100
0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 90-100
20.000
Figura 2. Histograma de frecuencia de la edad de la población del Área Sanitaria 4 de la Comunidad de Madrid. Se observa que no ajusta bien a la distribución normal: es asimétrica, hay menos individuos cerca de la media y, por tanto, mayor dispersión.
Figura 3. Histograma de frecuencias de la edad en una muestra aleatoria de 100 individuos de la población representada en la figura 1. A. En la muestra la media es 46,2 y la desviación estándar 14,7.
que es parecido al de la población, aunque por ejemplo su ajuste a la curva normal es peor. Es importante señalarlo porque muchos métodos estadísticos hacen asunciones sobre la normalidad de la población. Vemos que una población normal es compatible con una muestra cuyo histograma no ajusta visualmente a una curva normal, y ello tanto más cuanto menor sea la muestra5, por tanto la inspección visual del histograma de la muestra no es un buen método de evaluación de la normalidad de la población. En esta muestra, la media y la desviación estándar son 46,2 y 14,7 respectivamente, también parecidas a las de la población. Si se tomara otra muestra aleatoria se obtendrían otros valores distintos, aunque probablemente también parecidos a los de la población. El error estándar es el índice que cuantifica cuánto se apartan los valores en la muestra de sus correspondientes valores en la población. Es decir, el error estándar de la media cuantifica las oscilaciones de la media muestral (media obtenida en los datos) alrededor de la media poblacional (verdadero valor de la media). No es, por tanto, un índice de variabilidad, aunque depende de ella, sino una medida del error que se comete al tomar la media calculada en una muestra como estimación de la media de la población. Existe el error estándar, no sólo de la media, sino de todas las medidas que se obtienen en las muestras (por ejem-
plo, existe el error estándar de la desviación estándar y el error estándar del riesgo relativo) y siempre cuantifica el error que se comete al estimar la verdadera medida en la población a partir de su valor en la muestra. A partir del error estándar se construye el intervalo de confianza6 de la medida correspondiente. El error estándar de la media estimado en la muestra del ejemplo es 1,47 (se calcula dividiendo la desviación estándar por la raíz cuadrada del tamaño muestral4) y, calculado a partir de él, el intervalo de confianza al 95% para la media va desde 43,3 a 49,1 (el límite inferior se calcula como la media menos 1,96 veces el error están-
Puntos clave • La desviación estándar es una medida de la dispersión de los datos. Cuanto mayor sea la dispersión, mayor es la desviación estándar, mientras que el error estándar de la media cuantifica las oscilaciones de la media muestral alrededor de la media poblacional. • Son, por tanto, índices conceptualmente diferentes, aunque directamente relacionados. • La desviación estándar es un índice para usar cuando se pretende describir la variabilidad de una variable continua en una muestra. • El error estándar de la media se debe usar cuando se pretende cuantificar el error cometido al estimar la media poblacional mediante la media muestral.
18
Abraira V. Desviación estándar y Error estándar
dar de la media y el límite superior como la media más 1,96 veces el error estándar de la media y éste es uno de los métodos estadísticos que exige normalidad de la población4), que quiere decir que podemos afirmar, con una probabilidad de acierto de 0,95, que la media poblacional está incluida en dicho intervalo. Compárese con el valor 44,5 de la media poblacional que, en este ejemplo y en contra de lo que ocurre en las investigaciones reales, es conocido. Nota: En todo el artículo se han usado las denominaciones “desviación estándar” y “error estándar”, pero en la literatura estadística y clínica se usan indistintamente con ellas “desviación típica” y “error típico” respectivamente.
BIBLIOGRAFÍA 1. Quinn J, Cummings S, Callaham M, Sellers K. Suturing versus conservative management of lacerations of the hand: randomised controlled trial. BMJ 2002; 325:299-301. 2. Waalen J, Felitti V, Beutler E. Haemoglobin and ferritin concentrations in men and women: cross sectional study. BMJ 2002;325:137. 3. Elveback LR, Guillier CL, Keating FRJ. Health, normality, and the ghost of Gauss. JAMA 1970;211:69-75. 4. Pérez de Vargas A, Abraira Santos V. Bioestadística. Madrid: Centro de Estudios Ramón Areces; 1996. 5. Altman DG, Bland JM. Statistics notes: The normal distribution. BMJ 1995;310:298. 6. Abraira V. Estimación: intervalos de confianza. SEMERGEN 2002;28:84-5.
19
notas BIOESTADISTICAS Revisiones sistemáticas y metaanálisis V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
Correspondencia: V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
2.500 N.o de artículos
2.000 1.500 1.000
2000-01
1998-99
1996-97
1994-95
1992-93
1990-91
1988-89
1986-87
1984-85
0
1982-83
500 1980-81
En las clasificaciones de los tipos de estudios, las revisiones sistemáticas aparecen siempre como el diseño con mayor fuerza probatoria de la hipótesis en evaluación1, es decir, para contestar a una pregunta sobre la eficacia de un tratamiento, lo mejor sería buscar una revisión sistemática de ensayos clínicos que evalúen ese tratamiento, si la pregunta fuera sobre pronóstico, lo mejor sería una revisión sistemática de estudios de cohortes, etc. Aunque, obviamente, la frase anterior hay que matizarla, diciendo que lo mejor sería una buena revisión sistemática porque, como en cualquier otro ámbito de la actividad humana, hay revisiones sistemáticas buenas y otras no tan buenas. Por ejemplo Silagy2, revisando 7 revistas de Atención Primaria en 1991, identificó 28 revisiones sistemáticas de las que, evaluadas usando 8 criterios estándar de rigor metodológico, sólo 7 (25%) tenían 8 puntos o más, de un máximo de 16. Visto con la perspectiva actual parece muy natural la idea de responder a una pregunta revisando sistemáticamente y analizando toda la literatura sobre el tema, sin embargo los conceptos de revisión sistemática y metaanálisis son relativamente recientes. Para Altman la introducción y el continuo auge del metaanálisis es el cambio más prominente que se ha producido en el uso de la estadística en las revistas médicas en los últimos 10 años3. El término metaanálisis fue acuñado por Glass a mediados de los años 70 para describir la recopilación de información de varios estudios del mismo tipo4 y el primer metaanálisis sobre un tema médico que figura en Medline se publicó en 1980 y se realizó sobre el tratamiento de la tartamudez5. Desde entonces, como se muestra en la figura 1, su aplicación en medicina ha aumentado espectacularmente, hasta el punto de que en 1988 Medline lo incluye como tipo de publicación estándar. En la actualidad, el término
Bienio Figura 1. Evolución temporal del número de artículos que figuran en Medline usando el término metaanálisis en el título o el resumen.
metaanálisis resulta algo ambiguo, pues aunque inicialmente se usaba para describir todo el proceso de revisar todos los estudios sobre un tema, desde su identificación hasta el análisis de los datos y su interpretación, con posterioridad se introdujo el término revisión sistemática para el proceso de identificar sistemáticamente y evaluar los artículos, con una metodología explícita y repetible, reservándose el término metaanálisis para la combinación numérica de los datos, aunque desgraciadamente la situación actual es que hay quien usa metaanálisis en este sentido restrictivo y quien lo sigue usando en sentido amplio para describir todo el proceso. A favor de la distinción, hay que destacar que no todas las revisiones sistemáticas incluyen metaanálisis, es decir, una combinación de los datos de los distintos estudios en un resultado global, bien porque los diseños, o la calidad de los estudios, son muy diferentes entre sí, o porque los resultados son muy heterogéneos. La necesidad de las revisiones sistemáticas se sustenta en tres pilares: a) la inmanejable cantidad de información clínica producida: anualmente se publican más de dos millones de artículos en más de 20.000 revistas biomédicas6, que hace imprescindible un buen sistema de resumirlos; b) los estudios individuales dependen de sus característi20
Abraira, V. Revisiones sistemáticas y metaanálisis
Tabla 1. Pasos en la realización de una revisión sistemática Especificación de una pregunta a responder Formulación de los criterios de elegibilidad de los estudios, que permitan identificar objetivamente aquéllos apropiados para resolver la pregunta Producción de un protocolo en el que consten los criterios de selección de los estudios y los métodos que serán usados Búsqueda rigurosa de todos los artículos relevantes (no sólo los que figuran en las bases de datos electrónicas) Evaluación de si los artículos encontrados cumplen los criterios Evaluación de la calidad de los artículos y su susceptibilidad a sesgos Extracción de los datos que resumen tanto los resultados como el diseño Combinación estadística de los datos (metaanálisis) si es apropiado y consideración de las diferencias entre artículos Investigación de la robustez (estabilidad) de los resultados y análisis de sensibilidad Interpretación de los resultados Tomada de Altman3.
cas concretas y rara vez dan respuestas definitivas a las cuestiones clínicas7, las revisiones sistemáticas ayudan a establecer si los hallazgos de los estudios son consistentes y pueden ser generalizados y, en caso contrario, permiten explorar las razones de las inconsistencias, y c) las revisiones que incluyen metánalisis, al contar con mayor número de pacientes, tienen mayor precisión en sus estimaciones que los estudios primarios. La revisión sistemática es en sí misma un diseño de investigación, observacional y retrospectivo, que sintetiza los resultados de múltiples investigaciones primarias. Es, por tanto, un tipo de diseño muy proclive a sesgos y debe planificarse cuidadosamente en un protocolo previo para intentar minimizarlos. Los pasos necesarios en la realización de una revisión se detallan en la tabla 1 y consisten básicamente en una revisión exhaustiva, objetiva y verificable de la investigación primaria que no se limite a las bases de datos electrónicas, sino que la complemente con búsquedas manuales en referencias bibliográficas, resúmenes de congresos, consultas con investigadores, registros de organismos evaluadores de investigación, etc.; con criterios explícitos de evaluación del diseño de los artículos y de su calidad y, si procede, combinación estadística de los datos usando métodos validados. El método más simple de combinar los resultados sería dar como resultado global la media aritmética de los resultados de cada artículo, pero éste es un procedimiento que se presta a conclusiones erróneas porque los estudios con menor tamaño muestral son más propensos a dar por azar resultados más alejados del verdadero resultado. Los métodos usados en los metaanálisis usan medias ponderadas, de tal modo que los estudios con mayor tamaño muestral tengan mayor peso que los de menor tamaño. Hay básicamente dos métodos distintos, cuya diferencia estriba en cómo se trata la variabilidad entre estudios8. El modelo de efectos fijos considera que toda la variabilidad entre estudios es exclusivamente debida a la variación aleatoria producida por el muestreo, es decir, si los estudios primarios tuvieran un tamaño muestral infinito darían el mismo resultado. El modelo de efectos aleatorios conside-
Puntos clave • La introducción y el continuo auge de las revisiones sistemáticas y el metaanálisis es el cambio más prominente que se ha producido en el uso de la estadística en las revistas médicas en la última década. • La revisión sistemática es en sí misma un diseño de investigación, es un diseño observacional y retrospectivo, que sintetiza los resultados de múltiples investigaciones primarias. • Las revisiones sistemáticas son un método imprescindible para mantenerse al día, dada la inmanejable cantidad de información clínica producida actualmente. ra que una parte de la variabilidad es debida a que, entre los diferentes estudios, hay diferencias subyacentes en el efecto. Aunque ambos métodos proporcionan estimaciones distintas del efecto global, en particular el modelo de efectos aleatorios da lugar a intervalos de confianza más anchos, la diferencia sólo es importante si los estudios son muy heterogéneos. En general, la decisión sobre qué método usar se suele hacer mediante un contraste de hipótesis de homogeneidad de los resultados, si son homogéneos se asume que el modelo de efectos fijos es el adecuado. La mayor limitación de este procedimiento es que se puede concluir que los resultados son homogéneos por falta de potencia estadística o, dicho de otro modo, no se debería ignorar la heterogeneidad simplemente aplicando una prueba estadística8. Otra cuestión a tener muy en cuenta es que una gran heterogeneidad puede indicar que el metaanálisis no es apropiado y no que haya que hacerlo usando el modelo de efectos aleatorios. Los resultados de una revisión sistemática se suelen representan en una gráfica muy estandarizada y muy divulgada debido a que la Colaboración Cochrane la usa como logotipo. En la figura 2 se representan dos de estas gráficas que corresponden a dos revisiones sistemáticas hipotéticas de ensayos clínicos en los que se compara un tratamiento experimental (por ejemplo tratamiento con bloqueadores beta después de un infarto de miocardio) con otro control (por ejemplo placebo). En cada paciente el resultado se expresa con una variable binaria (mortalidad en los siguientes dos años). El resultado de cada ensayo se representa por uno de los índices habituales, por ejemplo el odds ratio (OR)9. El OR de cada ensayo se representa en la gráfica por un punto y su intervalo de confianza10 al 95% con una línea horizontal, en escala logarítmica, para que el intervalo resulte centrado en la estimación puntual. Recuérdese9 que si no hay efecto del tratamiento, el OR es 1; el convenio en las revisiones sis21
Abraira, V. Revisiones sistemáticas y metaanálisis
0,25
0,5
1
2
4
0,25
Estudio 1
Estudio 1
Estudio 2
Estudio 2
Estudio 3
0,5
1
2
4
Estudio 3
Estudio 4 Estudio 5
Estudio 4
Estudio 6
Estudio 5
Estudio 7
Estudio 6
Estudio 8 Estudio 7 Global A
Estudio 8 A favor del tratamiento
A favor del control
B
A favor del tratamiento
A favor del control
Figura 2. Representación gráfica del resultado de una revisión sistemática cuando el resultado en cada paciente se expresa con una variable binaria. Las distintas entradas en el eje Y representan los estudios individuales, para cada uno de ellos el punto muestra su resultado mediante alguno de los índices habituales, generalmente el odds ratio, y la línea horizontal su intervalo de confianza. En A se representa una situación en que los distintos estudios son homogéneos y por lo tanto tiene sentido realizar el metaanálisis, el intervalo de confianza del resultado global se suele representar mediante un rombo. Obsérvese como este intervalo es más estrecho que el de los estudios individuales, siendo esto uno de los objetivos del metaanálisis. En B una situación con resultados heterogéneos, en la que no estaría indicado el metaanálisis, lo pertinente sería explorar la razón de la heterogeneidad.
temáticas es construir el OR de modo que valores menores que 1, parte izquierda de la gráfica, correspondan a un efecto favorable del tratamiento. La gráfica contiene también una línea vertical de referencia en OR=1, valor de no efecto. Si se realiza metaanálisis, el OR combinado se representa por un rombo cuya diagonal horizontal representa su intervalo de confianza al 95%. En la figura 2A se observan 8 estudios con resultados homogéneos (todos encuentran efecto favorable del tratamiento experimental con OR comprendidos entre 0,4 y 0,7 y cada uno de ellos dentro de los intervalos de confianza de los otros), en seis de ellos, los intervalos cruzan la línea de no efecto, indicando que el efecto no es estadísticamente significativo. El rombo indica el efecto global (OR=0,55) con un intervalo de confianza que establece que este efecto es claramente distinto de 1. La figura 2B muestra unos resultados muy heterogéneos, con los que no tendría sentido realizar metaanálisis, lo pertinente en este caso es explorar las razones de la heterogenidad. En estudios en que la variable respuesta es continua (por ejemplo presión arterial) el resultado en cada estudio es la diferencia de las medias entre ambos grupos, el resultado del metánalisis es la media ponderada de las diferencias de medias y se construye una gráfica similar con las diferencias de medias y sus intervalos de confianza. En este caso la escala no es logarítmica y la línea de no efecto corresponde a diferencia de medias igual a 0. Un elemento clave de las revisiones sistemáticas es la valoración de la calidad de los estudios. Aunque hay publicadas muchas escalas de valoración de la calidad metodológica de los distintos tipos de estudios, sobre todo de los ensayos clínicos, su comportamiento es muy poco concordante, algunas de ellas están incluso inversamente correlacionadas3, por lo tanto deben usarse con precaución. Un aspecto que necesita más desarrollo meto-
dológico es qué hacer luego con la información sobre la calidad, algunos autores usan las escalas de calidad como “pesos” en el metaanálisis, pero parece preferible examinar directamente la influencia en los resultados de distintos aspectos metodológicos mediante un análisis de sensibilidad. Aunque la mayor parte de los metaanálisis publicados revisan ensayos clínicos, se empieza a extender su aplicación a otros tipos de estudios: estudios de pruebas diagnósticas, de pronóstico, de evaluación económica, incluso los propios metaanálisis (los denominados meta-metaanálisis) y en cada uno de ellos aparecen nuevos problemas metodológicos.
BIBLIOGRAFÍA 1. Phillips R, Ball C, Sackett D, Badenoch D, Straus S, Haynes B, Dawes M. Levels of Evidence and Grades of Recommendations. Disponible en: http://minerva.minervation.com/cebm/docs/levels.html [consultado: 26/11/2002]. 2. Silagy CA. An analysis of review articles published in primary care journals. Fam Pract 1993;10:337-41. 3. Altman DG. Statistics in medical journals: some recent trends. Stat Med 2000;19:3275-89. 4. Glass GV. Primary, secondary, and meta-analysis of research. Educ Res 1976;5:3-8. 5. Andrews G, Guitar B, Howie P. Meta-analysis of the effects of stuttering treatment. J Speech Hear Disord 1980;45:287-307. 6. Mulrow C, Cook D. Systematic Reviews. Synthesis of Best Evidence for Health Care Decisions. Philadelphia: American College of Physicians; 1998. 7. Davidoff F, Case K, Fried PW. Evidence-Based Medicine: Why all the fuss? [Editorial]. Ann Intern Med 1995;122:727. 8. Egger M, Smith GD, Phillips AN. Meta-analysis: Principles and procedures. BMJ 1997;315:1533-7. 9. Abraira V. Medidas del efecto de un tratamiento (II): odds ratio y número necesario para tratar. SEMERGEN 2001;27:418-20. 10. Abraira V. Estimación: intervalos de confianza. SEMERGEN 2002; 28:84-5.
22
notas BIOESTADISTICAS El control de la confusión en estudios observacionales: el índice de propensión V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
El ensayo clínico aleatorizado fue introducido en la investigación médica para evaluar los efectos de los agentes terapéuticos hace ya más de 50 años. La asignación aleatoria de cada paciente, bien al grupo del tratamiento experimental, bien al grupo control, pretende evitar la confusión introducida por el denominado sesgo de selección, o de susceptibilidad. Este sesgo surge siempre que la elección del tratamiento se hace con algún otro criterio. Por ejemplo, en la práctica clínica habitual, los médicos eligen para cada paciente el tratamiento que estiman va a tener un mejor resultado, en función de las características del paciente. Si posteriormente se compararan los resultados de dos tratamientos así asignados, los dos grupos de pacientes serán diferentes en sus características pronósticas basales y, por lo tanto, la posible diferencia en los resultados puede ser causada tanto por estas características como por el distinto efecto terapéutico de los tratamientos1. El ejemplo más obvio de sesgo de susceptibilidad aparece cuando se compara un tratamiento quirúrgico aplicado a pacientes “operables”, con un tratamiento médico aplicado a los “no operables”. Por ello, los ensayos aleatorizados se han convertido en el patrón de oro para la evaluación de tratamientos, hasta el punto de que, por ejemplo, un influyente libro de texto, en el capítulo de apreciación crítica de los artículos sobre evaluación de tratamientos, dice: “Si el clínico observa que el estudio no se realizó aleatoriamente, le aconsejamos que deje de leerlo y que pase al siguiente artículo”2. Sin embargo, los criterios de inclusión de pacientes en los ensayos aleatorizados, por motivos tanto éticos como pragmáticos, provocan que los pacientes enrolados en estos estudios estén muy seleccionados y sean diferentes de la mayoría de los pacientes que ven los clínicos en su práctica cotidiana3. En los ensayos clínicos no suele haber ancianos, ni niños, ni mujeres embarazadas, ni pacientes con comorbilidades, que sin embargo abundan en las consultas diarias y el médico, entonces, debe aplicar su buen juicio para decidir si su paciente es tan diferente de los que Correspondencia: V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Crta. Colmenar km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
forman parte del estudio como para que los resultados no le sean aplicables4. Seguramente ésta es una de las fuentes de variabilidad de la práctica clínica. Por ejemplo, muchos ensayos aleatorizados han demostrado que los bloqueadores beta y los inhibidores de la enzima conversora de la angiotensina (IECA) son eficaces en el tratamiento de pacientes con enfermedad coronaria y, en consecuencia, son considerados en la actualidad el tratamiento estándar para estos pacientes3, sin embargo Shlipak et al5 encontraron que de 20.902 pacientes, mayores de 65 años, con la función ventricular izquierda disminuida, que habían ingresado en distintos hospitales por infarto de miocardio y sobrevivieron, el tratamiento prescrito en el momento del alta hospitalaria fue IECA (44%), bloqueadores beta (13%), ambos (16%) y ninguno (28%). Los autores argumentan como posible explicación de esta variabilidad justamente que este subgrupo de pacientes está muy poco representado en los ensayos clínicos. No obstante el objetivo de la investigación no era estudiar la variabilidad de la prescripción sino comparar los efectos de los tratamientos sobre la supervivencia un año después del alta. Según el libro antes citado, un clínico ocupado, en primera instancia, no debería leer este artículo, si bien la cita continúa: “[…] sólo en caso de no encontrar ningún ensayo aleatorizado debería retroceder y volver a examinarlo2”, pero aun en este caso la pregunta es ¿en qué medida son fiables los resultados? o dicho de otra manera ¿qué parte de la posible diferencia en la supervivencia es debida a los tratamientos y qué parte a la diferencia entre las características de los pacientes en los distintos grupos? Por ejemplo, el artículo encuentra que entre los pacientes tratados con IECA había más diabéticos y más pacientes con historia previa de fallo cardíaco, y había menos que hubieran sufrido una revascularización o se les hubiera implantado un by-pass; entre los que no recibieron ningún tratamiento había mayor número con insuficiencia renal y con demencia. ¿En qué medida afecta esto a la mortalidad? Hay tres maneras de controlar el sesgo de selección en estos estudios observacionales. Las tres tienen en común que sólo pueden controlar la confusión provocada por características observadas, a diferencia de la aleatorización que controla por las observadas y también por las no observadas. Son: estratificación, modelos de regresión y el índice de propensión6 (propensity score). 23
Abraira V. El control de la confusión en estudios observacionales: el índice de propensión
La estratificación consiste en hacer las comparaciones en estratos homogéneos con respecto al factor cuyo efecto queramos eliminar. En el ejemplo, para eliminar el efecto confusor de la diabetes, podemos dividir la muestra en dos estratos: pacientes diabéticos y pacientes no diabéticos y estimar el efecto de los tratamientos en cada estrato. El efecto ajustado por la diabetes se calcula como la media de los efectos en ambos estratos. Un ejemplo clásico de estratificación debido a Cochran y adaptado por Rubin7 se muestra en la tabla 1, en el que se elimina por estratificación el efecto confusor de la edad al estudiar, en datos observacionales, la mortalidad en relación con el tabaco. Obviamente para que se corrija el sesgo se necesita que en todos los estratos haya suficiente número de pacientes con los distintos tratamientos a comparar (que los tratamientos solapen con los estratos). Si la inmensa mayoría de los diabéticos, y sólo ellos, hubieran recibido IECA, no habría manera de separar el efecto causal del tratamiento, del efecto de la diabetes. Esta limitación se comparte con los otros métodos, pero una ventaja de la estratificación es que, si ocurre, el investigador lo observa inmediatamente. El principal inconveniente de la estratificación es que resulta difícil de realizar cuando se necesita ajustar por muchas variables de confusión, como suele ser el caso. Hay que tener en cuenta también que pequeñas diferencias en muchas variables, que individualmente no necesitarían ser ajustadas, pueden tener un efecto acumulativo importante. Por ejemplo, si en un grupo los pacientes tuvieran ligeramente mayor edad que en el otro, hubiera una ligera mayor proporción de diabéticos y una ligera mayor proporción de insuficiencia renal, finalmente ese grupo puede tener sustancialmente peor pronóstico. Los modelos de regresión8 permiten ajustar simultáneamente por muchas variables de un modo conceptualmente similar a la estratificación, son muy fáciles de usar con los paquetes estadísticos, aunque su mayor peligro estriba justamente en su facilidad para ajustar por muchas variables. Ajustando por muchas variables aumenta la probabilidad de que haya falta de solapamiento que comprometa la eficacia del control y ninguno de los resultados del análisis de regresión pone de manifiesto su existencia. Tabla 1. Comparación de tasas de mortalidad en tres grupos de fumadores a partir de datos observacionales. No Fumadores Fumadores de fumadores de cigarrillos puro y pipa
Tasa de mortalidad por 1.000 personas-año Edad media Tasas ajustadas por estratificación Con 2 estratos Con 3 estratos
13,5
13,5
17,4
57,0
53,2
59,7
13,5 13,5
16,6 17,7
14,9 14,2
Adaptada de Rubin DB7. En el análisis sin ajustar no se observa el efecto de los cigarrillos sobre la mortalidad (los fumadores de cigarrillos tienen la misma tasa de mortalidad que los no fumadores) debido a que, en promedio, los fumadores de cigarrillos son más jóvenes. Estratificando por la edad se elimina este sesgo y se manifiesta el efecto (la tasa de mortalidad de los fumadores de cigarrillos es la más alta).
Puntos clave • Los estudios observacionales, en los que la asignación a los grupos que se comparan no se hace aleatoriamente, están expuestos a la confusión introducida por el denominado sesgo de selección, o de susceptibilidad. • El único modo de evitar este sesgo es la asignación aleatoria propia de los estudios experimentales, típicamente los ensayos clínicos. • No obstante, hay métodos de análisis que permiten controlar este sesgo, entre los que destaca el índice de propensión.
El método del índice de propensión consiste en construir a partir del conjunto de variables de confusión una función de todas ellas que estime la probabilidad (“propensión”) que tienen los pacientes de ser asignados a cada grupo de tratamiento, para posteriormente estratificar por los valores de esta función. De esta forma, en cada estrato los pacientes tienen la misma probabilidad de ser asignados a cada grupo y por tanto se simula la asignación aleatoria. Hay que resaltar otra vez que con este método sólo se tienen en cuenta las variables observadas y por lo tanto puede permanecer confusión residual debida a variables no observadas. El índice de propensión se estima por regresión logística binomial8 y por tanto sólo sirve para comparar dos grupos. Cuando como en el artículo de Shlipak et al5, hay más de dos grupos se pueden realizar varias comparaciones, en el artículo se hacen tres, comparando cada tratamiento con el grupo no tratado y se encuentra beneficio de los tratamientos en todos los estratos. En el análisis realizado ajustando con modelos de regresión, se encuentra un beneficio adicional por recibir ambos fármacos, que en el análisis con el índice de propensión no aparece. Las propiedades del método del índice de propensión se han establecido tanto teórica como empíricamente6 y son: – La similitud entre los grupos con respecto a las variables incluidas en el índice es superior si se estratifica por el índice que si se estratificara por esas variables. – La similitud es mejor que la obtenida por otros métodos de estratificación propuestos. – La similitud es también superior a la que se conseguiría por asignación aleatoria; como contrapunto a esta llamativa propiedad hay que volver a resaltar la superioridad de la asignación aleatoria respecto a las variables no observadas y también que el criterio para la inclusión de variables en el índice es sólo la relación con la asignación de los grupos, por lo que el índice puede incluir variables no relacionadas con los resultados, y que por lo tanto no son de confusión, reduciendo así su eficacia. – En los estudios no se usa el verdadero valor del índice sino una estimación, en general las estimaciones no se comportan tan bien como los valores que estiman9; sor24
Abraira V. El control de la confusión en estudios observacionales: el índice de propensión
prendentemente el índice de propensión estimado trabaja mejor que su verdadero valor.
BIBLIOGRAFÍA 1. Feinstein AR. Epidemiologic analyses of causation: the unlearned scientific lessons of randomized trials. J Clin Epidemiol 1989;42: 481-9. 2. Sackett DL, Richardson WS, Rosenberg W, Haynes RB. Medicina Basada en la Evidencia. Cómo ejercer y enseñar la MBE. Madrid: Churchill Livingstone España, 1997. 3. Lauer MS. Medical Therapy for Coronary Artery Disease Works, Even (Especially) in the Real World. Am J Med 2001;110:497-8. 4. Guyatt GH, Sackett DL, Cook DJ. Users’ guides to the medical literature. II. How to use in article about therapy or prevention. B.
What were the results and will they help me in caring for my patients? Evidence-Based Medicine Working Groups. JAMA 1994; 271:59-63. 5. Shlipak MG, Browner WS, Noguchi N, Massie B, Frances CD, McClellan M. Comparison of the Effects of Angiotensin Convertingenzyme Inhibitors and Beta Blockers on Survival in Elderly Patients with Reduced Left Ventricular Function after Myocardial Infraction. Am J Med 2001;110:425-33. 6. Joffe MM, Rosenbaum PR. Invited commentary: propensity scores. Am J Epidemiol 1999;150:327-33. 7. Rubin DB. Estimating Causal Effects from Large Data Sets Using Propensity Scores. Ann Intern Med 1997;127:S757-63. 8. Abraira Santos V, Pérez de Vargas A. Métodos multivariantes en Bioestadística. Madrid: Centro de Estudios Ramón Areces, 1996. 9. Abraira V. Estimación: intervalos de confianza. SEMERGEN 2002; 28:84-5.
25
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
05 NOTAS ESTAD. 657 (223-225)
10/5/04
15:13
Página 223
notas BIOESTADISTICAS Análisis del tiempo hasta un evento (supervivencia) V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid.
La principal dificultad en el estudio de la variable “tiempo hasta que se produce un evento” es que al final del período de seguimiento frecuentemente hay individuos en los que no se ha podido observar el evento y en los que, por tanto, el tiempo hasta su ocurrencia es desconocido. A este fenómeno se le denomina censura. Se denomina análisis de supervivencia al conjunto de técnicas que permiten estudiar la variable tiempo hasta que ocurre un evento y su dependencia de otras posibles variables explicativas teniendo en cuenta la información parcial contenida en las censuras. Estas técnicas asumen que las censuras no son informativas y que todos los factores implicados en el estudio son homogéneos a lo largo del período de seguimiento. Palabras clave: análisis supervivencia, datos censurados, Kaplan-Meier.
Con frecuencia en los estudios médicos, la principal variable de interés es el tiempo hasta que ocurre un evento. Este evento puede ser adverso como muerte, ocurrencia de un infarto o recidiva de un cáncer, o positivo como curación, normalización de la concentración de colesterol o reincorporación a la vida laboral después de una enfermedad. El diseño de los estudios para evaluar la variable “tiempo hasta la ocurrencia de un evento” consiste en seguir en el tiempo a un grupo de pacientes, desde un momento inicial tal como el diagnóstico o el inicio del tratamiento o la aleatorización en un ensayo clínico, hasta un tiempo final en el que acaba la recogida de datos. En cuanto al análisis, a pesar de que la variable tiempo hasta un evento es continua, su análisis suele presentar dos dificultades que impiden realizarlo con las técnicas estadísticas generales para las variables continuas, tales como la “t” de
Correspondencia: Dr. V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
The main difficulty in the study of the variable “time to an event is produced” is that at the end of the follow-up period, there are frequently individuals in whom it has not been possible to observe the event, and in whom, therefore, the time to its occurrence is unknown. This phenomenon is called censorship. Survival analysis refers to the combination of techniques that make it possible to study the variable of time to an event occurs and its dependence on other possible explanatory variables, considering the partial information contained in the censorships. These techniques assume that the censorships are not informative and that all the factors involved in the study are homogeneous during the follow-up period. Key words: survival analysis, censored, Kaplan-Meier.
Student, el análisis de la varianza, o los modelos de regresión lineal. En primer lugar, en la mayor parte de los estudios, la variable tiempo no tiene la distribución normal que esas técnicas exigen, más bien suele tener una distribución asimétrica, en la que típicamente los eventos ocurren con mayor frecuencia al principio que al final del período de seguimiento y en segundo lugar y más importante, en general, al final del período de seguimiento siempre hay individuos en los que no se ha podido observar el evento y, por tanto, en los que el tiempo hasta su ocurrencia es desconocido, si bien se tiene una información parcial sobre él, es mayor o igual que el tiempo observado. A este fenómeno se le denomina censura y es el que exige un planteamiento específico para estas variables, que permita aprovechar la información contenida en los tiempos censurados. Al conjunto de técnicas que permiten estudiar la variable tiempo hasta que ocurre un evento y su dependencia de otras posibles variables explicativas se le denomina análisis de supervivencia y aunque este nombre sugiere que el evento es muerte, se insiste en que también puede y debe usarse para analizar el tiempo hasta cualquier otro evento
26
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
05 NOTAS ESTAD. 657 (223-225)
10/5/04
15:13
Página 224
Abraira V. Análisis del tiempo hasta un evento (supervivencia)
como, por ejemplo, curación, aparición de la enfermedad, o rechazo de un injerto. En otros ámbitos como procesos de control de calidad se estudia con las mismas técnicas el tiempo hasta que un cierto producto falla (tiempo de fallo), o el tiempo de espera hasta recibir un servicio (tiempo de espera), etc. Existen tres motivos por los que pueden aparecer las censuras: en primer lugar por fin del estudio. Supóngase, por ejemplo, que para evaluar la eficacia de un nuevo tratamiento para una enfermedad mortal se sigue en el tiempo, durante un año, a dos grupos de pacientes. A los pacientes de un grupo se les administró el tratamiento en evaluación y a los del otro el tratamiento estándar, y se registró la duración del intervalo de tiempo entre el inicio del tratamiento y la muerte. Al final del estudio puede haber individuos que no hayan muerto. La segunda causa es la pérdida del seguimiento, en el ejemplo anterior algunos de los individuos pueden desaparecer del estudio en algún momento del mismo por diversos motivos: cambio de domicilio, falta de interés, etc. Una última causa de censura es la ocurrencia de un evento competitivo que impida la observación del evento, por ejemplo, muerte por alguna otra causa ajena al estudio. Es ésta la causa de censura a la que hay que prestar más atención en el diseño de los estudios, como se comentará más adelante. Todos estos tiempos censurados infraestiman el tiempo hasta el evento, que siempre ocurrirá, asumiendo que ocurra, en un tiempo posterior. Hay que tener en cuenta también que la variable es el tiempo hasta que ocurre el evento, y está definida por la duración del intervalo temporal entre los instantes en que empieza la observación y ocurre el evento. En general, la observación no comienza en el mismo instantes para todos los individuos, y la manera habitual de registrar los tiempos en la clínica es mediante las fechas de ocurrencia, por tanto, antes del análisis hay que convertir el “tiempo de calendario” a “tiempo hasta el evento”. En el esquema de la figura 1 se detalla este proceso y los posibles mecanismos de censura. Es importante fijarse en el paciente E que muere por accidente de tráfico, y que suele plantear un problema en el diseño de estos estudios; hay autores que prefieren definir el evento de interés como muerte por una causa relacionada con la enfermedad en estudio y, por tanto, censurarían las muertes por causas no relacionadas, argumentando, con cierto sentido, que una muerte por accidente de tráfico no debería “contar” si lo que se está evaluando es, por ejemplo, la supervivencia a un cáncer, mientras que otros prefieren definirlo como muerte por todas las causas. A favor de esta última opción está la dificultad que suele tener la clasificación de una muerte como relacionada, o no, con la enfermedad en estudio y su tratamiento y, por tanto, la potencial inclusión de sesgos por mala clasificación. En general, cuando el evento de interés es la muerte, ésta por todas las causas se considera un evento más robusto que la muerte por causas específicas1 y es por ello el preferido, aunque otras veces se realizan los análisis para las dos definiciones del evento. Sin embargo, si el evento de interés fuera la reincorporación a la vida la-
F
F
E
E
D
D
C
C
B
B
A
A
1990 1994 1998 2002 0 1992 1996 2000 A B Años
2
4
6 8 10 12 Años
Figura 1. Esquema temporal de un estudio para observar tiempos de espera para un evento, por ejemplo, supervivencia tras un diagnóstico de cáncer. El estudio empezó el 1 de enero de 1990 y acabó el 1 de enero de 2002. En A el eje temporal representa años de calendario y en B años desde el diagnóstico. Con el círculo en blanco se representan los tiempos censurados y con el cuadrado negro las muertes (ocurrencia del evento). El individuo A al que se le diagnosticó en enero de 1990, desaparece del estudio en enero de 1993 (sería una censura a los 3 años por pérdida de seguimiento). El B, también diagnosticado en enero de 1990, fallece en junio de 1992 (muerte a los 2,5 años). El C sigue vivo al acabar el estudio (sería un dato censurado a los 12 años por fin del estudio). El D, al que se le diagnostica en febrero de 1991, fallece en marzo de 1999, el tiempo de supervivencia sería de 8 años. El E, que fue diagnosticado en noviembre de 1993, fallece en accidente de tráfico en julio de 1997 (sería una muerte, o un dato censurado, a los 3,7 dependiendo de la definición de evento de interés –véase texto–). El F, al que se le diagnosticó al principio de 1996, sigue vivo al acabar el estudio, sería un dato censurado a los 6 años por fin del estudio.
boral después de una depresión, la muerte por accidente de tráfico de un paciente de baja sí sería considerada una censura. La descripción de la variable tiempo hasta que ocurre el evento se suele realizar mediante la denominada función de supervivencia S(t), que da, para cada tiempo t, la probabilidad de que, en un individuo de la cohorte, el evento ocurra (sobreviva, si el evento es muerte) en un tiempo igual o mayor que t. Esta función se estima por el método de Kaplan-Meier que tiene en cuenta la información contenida en las censuras. El método estima la probabilidad de supervivencia, en cada tiempo en que ocurren eventos, multiplicando la probabilidad de llegar “vivo” a este tiempo por la probabilidad de no morir en ese tiempo2. La figura 2 muestra la función de supervivencia a la bacteriemia, estimada con un seguimiento de 21 días, entre todos los pacientes a los que se les diagnosticó entre enero de 1991 y diciembre de 1994 en el hospital Xeral de Lugo3. En ella se observa, por ejemplo, S(1) aproximadamente igual a 0,95 y S(14) aproximadamente igual a 0,85, es decir, la probabilidad de sobrevivir 1 día, o más, es 0,95 y la probabilidad de sobrevivir 14 días, o más, es 0,85. En este estudio, el evento fue la muerte relacionada con la sepsis y aquellos pacientes cuya muerte fue por causa claramente no relacionada con ella fueron excluidos del
27
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
05 NOTAS ESTAD. 657 (223-225)
10/5/04
15:13
Página 225
1,0
1,0
0,9
0,9
0,8
0,8
0,7
0,7
Supervivencia
Supervivencia
Abraira V. Análisis del tiempo hasta un evento (supervivencia)
0,6 0,5 0,4 0,3
0,6 0,5 0,4 0,3
0,2
0,2
0,1
0,1 0,0
0,0 0
7
14
21
0
7
14
21
Días
Días
Figura 2. Función de supervivencia a la bacteriemia, con un seguimiento de 21 días, entre todos los pacientes diagnosticados entre enero de 1991 y diciembre de 1994 en el hospital Xeral de Lugo.
Figura 3. Funciones de supervivencia a la bacteriemia de los pacientes que presentaron shock séptico (curva de abajo) y los que no lo presentaban (curva de arriba).
estudio, y los que sobrevivieron más de 21 días fueron censurados. Para comparar las curvas de supervivencia de dos o más grupos de pacientes, la prueba más usada es la denominada prueba del “log-rank” y consiste en calcular, en cada tiempo y para cada grupo, el número de eventos que se esperarían encontrar si no hubiera diferencia entre las funciones de supervivencia de los grupos, para construir un estadístico con la suma de las diferencias entre eventos observados y esperados, al cuadrado, divididas por los esperados, a partir del cual se calcula el valor p correspondiente a la comparación de las curvas de supervivencia de los grupos. En la figura 3 se muestran, como ejemplo, las curvas correspondientes a los pacientes que presentaron shock séptico y los que no lo presentaron en el estudio del hospital Xeral; para ellas el log-rank es 330,1 al que le corresponde p = 0,0000, es decir con la convención habitual4 la diferencia en la supervivencia de ambos grupos es estadísticamente significativa. Además de este método univariante, existen otros que permiten estudiar el efecto de diversas variables simultáneamente, entre ellos los modelos de regresión de Cox y los modelos paramétricos2,5, pero su descripción excede del objetivo de esta nota. Todos estos métodos, que permiten tratar las observaciones censuradas, sólo son válidos si las censuras no son informativas en términos pronósticos o, dicho con otras palabras, si los individuos censurados tienen la misma probabilidad de tener un evento después de la censura que
aquellos que siguen en el estudio. Como justamente de los individuos perdidos no se tienen datos, esta asunción no es fácil de verificar, pero se incumpliría si, por ejemplo, en un estudio se produjesen más pérdidas entre los pacientes con peor pronóstico, por ejemplo, si los pacientes que sufrieran la toxicidad de los tratamientos, o un empeoramiento de alguna condición clínica fueran por ello los más propensos a abandonar el estudio. Otra asunción de estos métodos es la homogeneidad de todos los factores a lo largo del período de seguimiento, por tanto, hay que prestar atención a los cambios en los medios diagnósticos y terapéuticos que se pueden producir en el tiempo que dure el estudio y que pueden atentar a esta asunción haciendo que los pacientes reclutados en diferentes momentos tengan diferente pronóstico.
BIBLIOGRAFÍA 1. Clark TG, Bradburn MJ, Love SB, Altman DG. Survival analysis part I: basic concepts and first analyses. Br J Cancer 2003;89:232-8. 2. Abraira Santos V, Pérez de Vargas A. Métodos multivariantes en Bioestadística. Madrid: Centro de Estudios Ramón Areces, 1996. 3. Casariego E, Abraira V, Corredoira JC, Alonso García MP, Rodríguez Feijoo A, López Álvarez MJ, et al. A predictive model for mortality of bloodstream infections. Bedside analysis with the Weibull function. J Clin Epidemiol 2002;55:563-72. 4. Abraira V. Contrastes de hipótesis: el valor p. SEMERGEN 2002; 28:374-5. 5. Bradburn MJ, Clark TG, Love SB, Altman DG. Survival analysis part II: multivariate data analysis an introduction to concepts and methods. Br J Cancer 2003;89:431-6.
28
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
05 NOTAS ESTADISTICAS (018-020)
21/1/05
13:27
Página 18
notas BIOESTADISTICAS Inferencia estadística bayesiana V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid. Nodo de la Red MBE.
Una de las objeciones que se hacen contra los contrastes de hipótesis es que el valor p es mal interpretado con mucha frecuencia. Los métodos bayesianos son una alternativa muy atractiva que permiten presentar los resultados de una forma muy natural e intuitiva, además permiten incluir en el proceso inferencial los resultados provenientes de estudios previos. Palabras clave: inferencia bayesiana, contraste de hipótesis.
En la nota dedicada a los contrastes de hipótesis1 se señalaba que la interpretación errónea más frecuente que se hace de ellos, en los artículos publicados en las revistas médicas, consiste en interpretar el valor p como la probabilidad de que la hipótesis nula sea cierta y que, por lo tanto, un resultado “significativo”, es decir, un resultado para el que el valor p sea pequeño, significa que es muy improbable que la hipótesis nula sea cierta. Seguramente este error es tan frecuente porque ésta es la interpretación con la que los investigadores se sienten más cómodos, la que resulta más fácil e intuitiva. El problema es que no es correcta: recordemos que el valor p es la probabilidad del resultado obtenido, u otro más alejado de la hipótesis nula, si la hipótesis nula fuera cierta. Es una medida de la discrepancia de los datos con la hipótesis, pero no es la probabilidad de que la hipótesis sea cierta, ya que se ha calculado aceptando que lo sea. Para comprender bien esa diferencia, hay que entender el concepto de probabilidad condicionada que concierne a un suceso bajo el supuesto de la verificación de otro2. Por ejemplo, si la incontinencia anal afecta al 2,2% de la población general, pero al 60% de los ancianos institucionalizados3, la probabilidad de que un individuo cualquiera la padezca es 0,022, pero si el individuo es un anciano internado en una residencia, la probabilidad de que
Correspondencia: V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar km 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
One of the objections made against the hypothesis tests is that the p value is frequently misinterpreted. Bayesian methods are a very attractive alternative which offer a very natural and intuitive result. In addition, results from previous studies can be included in the inferential process by Bayesian methods. Key words: bayesian inference, hypothesis tests.
la padezca es 0,6. Es decir, el hecho de que ocurra un suceso, en este caso ser un anciano institucionalizado, puede cambiar la probabilidad de otro, en el ejemplo, padecer incontinencia fecal. A esta última probabilidad se le denomina probabilidad condicionada del segundo suceso (incontinencia) condicionada a, o dado, el primero (ser anciano institucionalizado). El cambio en la probabilidad condicionada, respecto a la probabilidad sin condicionar, es tanto mayor cuanto más relacionados están los sucesos. El proceso de realizar la historia clínica, explorar y realizar pruebas complementarias para diagnosticar una enfermedad es un ejemplo de uso de este principio. Los clínicos, buscan (anamnesis), o provocan (pruebas diagnósticas) los sucesos que, dado que han ocurrido, más puedan cambiar la probabilidad de la posible enfermedad que están considerando. En general, los médicos lo hacen de forma intuitiva, pero el cambio de la probabilidad de un suceso incierto (padecer una determinada enfermedad), debido a la ocurrencia de otros sucesos relacionados (síntomas o resultados de pruebas diagnósticas) se puede formalizar mediante el teorema de Bayes. Una de las formas más sencillas de este teorema se vio en la nota dedicada a los índices de rendimiento de las pruebas diagnósticas4 y es: oddspost = CPR × oddspre Recuérdese que se denomina odds al cociente entre la probabilidad de que un evento (en este caso “estar enfermo”) ocurra y la probabilidad de que no ocurra. Los subíndices post y pre indican posprueba, o condicionado al resultado de la prueba, y preprueba, respectivamente y CPR es el cociente de probabilidad del resultado 29
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
05 NOTAS ESTADISTICAS (018-020)
21/1/05
13:27
Página 19
Abraira V. Inferencia estadística bayesiana
de la prueba. Como se vio entonces con un ejemplo4, para interpretar, con este formalismo, el resultado de una prueba diagnóstica, se debería estimar, por su sintomatología e historia, la probabilidad de que el paciente tenga la enfermedad y se deberían conocer los CP de los posibles resultados de la prueba, para que, una vez conocido el resultado, se pueda aplicar la fórmula anterior para obtener la probabilidad condicionada a este resultado. De modo similar se puede aplicar este formalismo al contraste de hipótesis. En este caso, también interesa ver cómo los datos observados en el estudio cambian la probabilidad, no de estar enfermo, sino de la hipótesis en evaluación. La fórmula anterior se suele representar como: oddspost = FB × oddspre
donde los odds son, ahora, los de la hipótesis nula y, en lugar del CP, el denominado factor de Bayes (FB) que, aunque en este contexto cambia de nombre, tiene la misma forma, es decir: FB =
Prob (datos, dada la hipótesis nula) Prob (datos, dada la hipótesis alternativa)
Nótese que con esta forma de hacer la inferencia, el resultado es el odds. A partir del odds se puede fácilmente calcular la probabilidad4 de que la hipótesis nula sea cierta dados los datos observados, que como se dijo antes, es la interpretación que los investigadores tienden a dar erróneamente al valor p de los contrastes de hipótesis. Podríamos pensar, por ello, que es la forma más natural e intuitiva de expresar los resultados de la inferencia y, por lo tanto, es ésta la primera ventaja del método basado en el teorema de Bayes con respecto al método convencional. Otra ventaja importante del método bayesiano es que permite, a través del oddspre, incorporar al proceso inferencial los resultados procedentes de estudios previos. Recuérdese que la imposibilidad de hacerlo es una de las críticas más importantes al método convencional1. Sin embargo, esta incorporación se ha señalado también como una debilidad del método, como una puerta abierta a la subjetividad del investigador, puesto que el investigador incorpora su grado de convicción, siempre subjetivo, acerca de la hipótesis en evaluación. Los defensores del método bayesiano recuerdan que subjetivo no es sinónimo de caprichoso y argumentan que es inevitable que los investigadores tengan sus convicciones sobre las hipótesis que evalúan y que, de un modo u otro, siempre las incorporan. Más vale, por lo tanto, que lo hagan explícitamente, con un método que lo permite formalmente y que, por ello, hace posible un “análisis de sensibilidad”, es decir el examen de las modificaciones que distintas convicciones pue-
dan provocar en el resultado final6. En todo caso, esta incorporación del conocimiento previo sí parece ser una dificultad del método, ya que la mayoría de los investigadores que lo usan optan por usar el denominado precedente plano, o no informativo6 y que consiste en asignar a la hipótesis una probabilidad previa uniformemente repartida entre 0 y 1. La forma habitual de usar este método consiste5 en expresar la probabilidad a priori como una distribución de probabilidad o, dicho de manera muy poco rigurosa, como un rango de valores posibles en el intervalo (0-1). La probabilidad, después del experimento, se expresa también como una distribución. Ambas, generalmente, representadas de forma gráfica. Existe, sin embargo, otra aproximación al método7 que resalta el hecho de que el teorema de Bayes tiene dos componentes, uno que incorpora la apreciación de conocimientos previos y otro, el FB, que resume la información contenida en los datos. Se puede decir que el FB es el índice a través del cual “hablan” los datos y está separado de la parte subjetiva de la ecuación. Si se tienen dificultades con la incorporación de la probabilidad a priori, se puede comunicar como resultado de la inferencia simplemente el FB, del mismo modo que en un estudio de evaluación de pruebas diagnósticas se comunican los CP. El FB, a diferencia del valor p, no es una probabilidad, sino un cociente de probabilidades, que compara dos hipótesis respecto a su capacidad para predecir los datos y que puede usarse tanto en la inferencia como en la toma de decisiones. Si, por ejemplo, en un ensayo clínico que compara dos tratamientos, en el que la hipótesis nula es que no hay diferencia entre ellos, se encuentra que FB=1/2, este resultado se puede interpretar de tres maneras: 1) Los resultados observados son la mitad de probables bajo la hipótesis nula que bajo la alternativa. 2) Los resultados avalan la hipótesis nula con la mitad de fuerza que la alternativa, o equivalentemente, avalan la hipótesis alternativa con el doble de fuerza que la nula. 3) Los resultados reducen el odds de la hipótesis nula a la mitad respecto al odds previo al ensayo. Esta interpretación es la que permite cuantificar la probabilidad de la hipótesis nula después del experimento, si se tiene una valoración previa. Hasta ahora el uso de los métodos bayesianos en las revistas médicas es muy minoritario. Seguramente debido, al menos en parte, a la falta de herramientas adecuadas para hacer los cálculos necesarios, ya que los paquetes estadísticos más difundidos no las incorporan. Sin embargo, ya empieza a haber programas fáciles de usar que los incluyen. Uno de ellos, EPIDAT, en español y que contiene una ayuda muy didáctica, puede descargarse desde la dirección de Internet: http://dxsp.sergas.es/. Hay también una tendencia emergente entre los editores de revistas médicas a fomentar interpretaciones bayesianas de los resultados de las investigaciones8,9 que presumiblemente aumentará la cantidad de artículos que lo hagan, lo que obligará a los médicos a familiarizarse con estos métodos. Esta nota pretende modestamente contribuir a su difusión. 30
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
05 NOTAS ESTADISTICAS (018-020)
21/1/05
13:27
Página 20
Abraira V. Inferencia estadística bayesiana
BIBLIOGRAFÍA 1. Abraira V. Contrastes de hipótesis: el valor p. SEMERGEN 2002; 28:374-5. 2. Pérez de Vargas A, Abraira Santos V. Bioestadística. Madrid: Centro de Estudios Ramón Areces, 1996. 3. Arribas del Amo D, Córdoba Díaz de Laspra E, Latorre Sahún A, Arribas del Amo R. Incontinencia anal. SEMERGEN 2004;30:218-22. 4. Abraira V. Índices de rendimiento de las pruebas diagnósticas. SEMERGEN 2002;28:193-4.
5. Silva LC, Benavides A. El enfoque bayesiano: otra manera de inferir. Gac Sanit 2001;15:341-6. 6. Silva LC, Muñoz A. Debate sobre métodos frecuentistas vs bayesianos. Gac Sanit 2000;14:482-94. 7. Goodman SN. Toward Evidence-Based Medical Statistics. 2: The Bayes Factor. Ann Intern Med 1999;130:1005-13. 8. Davidoff F. Standing statistics right side up. Ann Intern Med 1999; 130:1019-21. 9. Bayarri MJ, Cobo E. Una oportunidad para Bayes. Med Clin (Barc) 2002;119:252-3.
31
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
04 Notas Estadísticas 919
16/1/06
11:57
Página 24
notas BIOESTADISTICAS Sesgos en los estudios sobre pruebas diagnósticas V. Abraira Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Madrid. Nodo de la red R_MBE (G03/90)
Aunque el diagnóstico desempeña un papel central en la actividad clínica, los médicos reciben escaso entrenamiento formal en la utilización de pruebas diagnósticas durante su formación académica. Además la calidad de la investigación publicada sobre evaluación de pruebas diagnósticas es pobre. En esta nota se repasan los aspectos de diseño de esos estudios y la cuantificación empírica del impacto de los sesgos relacionados con ellos. Palabras clave: sesgos, diseño, pruebas diagnósticas.
El diagnóstico desempeña un papel central en la actividad clínica: es la primera intervención clínica sobre el paciente y su resultado condiciona el desarrollo de la práctica clínica posterior, sin olvidar el impacto social que puede tener por el efecto de asignar a los ciudadanos etiquetas de falta de normalidad1. Tanto es así, que la habilidad para realizar un diagnóstico es una de las cualidades más valoradas por los propios clínicos, e incluso, a veces, se señala el diagnóstico como la actividad más característica de los médicos, actividad que ningún otro profesional puede hacer2. Si bien ello contrasta con el escaso entrenamiento formal en la utilización de pruebas diagnósticas que reciben los médicos durante su formación académica3. Es además una actividad difícil. Un síntoma de la dificultad conceptual del diagnóstico es que la calidad de la investigación publicada sobre diagnóstico es, por decirlo de forma suave, manifiestamente mejorable4, como la creciente realización de revisiones sistemáticas sobre pruebas diagnósticas sigue poniendo de manifiesto. Existe una gran variabilidad en el diseño de los estudios sobre eva-
Correspondencia: V. Abraira. Unidad de Bioestadística Clínica. Hospital Ramón y Cajal. Ctra. Colmenar, km. 9,100. 28034 Madrid. Correo electrónico: victor.abraira@hrc.es
Although the diagnosis plays a central role in the clinical practice, physicians receive scarce formal training in the use of diagnostic tests during their academic education. Furthermore, the quality of the investigation published on diagnostic test evaluation is poor. In this note, the aspects of these studies’ design and the empiric quantification of the impact of the biases related with them are reviewed.
Key words: bias, design, diagnostic tests.
luación de pruebas diagnósticas y muchos de ellos incluyen sesgos potenciales que afectan a su validez y utilidad y hay también falta de uniformidad en la propia descripción del proceso y sus resultados. De hecho, no es infrecuente que una revisión sistemática no pueda responder a una pregunta concreta sobre diagnóstico, no por falta de artículos que evalúen la prueba, sino precisamente por la baja calidad del diseño y de la presentación de los resultados de los artículos encontrados5. Como consecuencia de todo ello (dificultad conceptual, escaso entrenamiento durante la formación y variabilidad y pobre calidad de las publicaciones), los clínicos tienen grandes dificultades para la interpretación de los artículos sobre evaluación de pruebas diagnósticas y, lo que es más relevante, para la aplicación de sus resultados para la elección de las pruebas a realizar a sus pacientes6,7. En una nota previa8 se vieron los índices usados para presentar los resultados de la evaluación de la validez de las pruebas diagnósticas. En esta nota, que la complementa, se repasan los aspectos de diseño de esos estudios y la cuantificación empírica del impacto de los sesgos relacionados con ellos, intentado contribuir a una mayor difusión de las claves que facilitan la interpretación de dichos estudios. El diseño óptimo consiste en seleccionar un grupo de pacientes representativos de aquéllos en los que se pretende usar la prueba y aplicarles a todos ellos, simultáneamente, la prueba en evaluación y otra prueba de referencia, aceptada como patrón para hacer el diagnóstico 32
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
04 Notas Estadísticas 919
16/1/06
11:57
Página 25
Abraira V. Sesgos en los estudios sobre pruebas diagnósticas
correcto. Por ejemplo, en la nota sobre los índices8 se comentó la evaluación de la concentración plasmática de péptido natriurético tipo B para diagnosticar, en ancianos, la disfunción ventricular izquierda; en el artículo comentado se usó el ecocardiograma como prueba de referencia. Ambas pruebas deben interpretarse de modo enmascarado, es decir, cada una se debe interpretar sin que el investigador que lo haga sepa el resultado de la otra. De modo similar a lo que ocurre con el tratamiento9, este ideal de diseño está en contradicción con la buena práctica clínica, en la que rara vez se solicitan las pruebas simultáneamente, más bien al contrario, las pruebas deberían solicitarse de modo secuencial y cada una de ellas solicitarse e interpretarse en función de toda la información disponible en cada momento, incluyendo los resultados de las pruebas previas. Seguramente de esta contradicción surgen los defectos observados en la literatura. Los que más impacto tienen sobre la estimación de la validez de la prueba tienen que ver con la selección de los pacientes, la falta de independencia en la comparación con el patrón de referencia y la falta de enmascaramiento en la interpretación de las pruebas.
SELECCIÓN DE LOS PACIENTES Dado que en la práctica clínica los problemas de diagnóstico se plantean entre enfermedades o estados de salud que comparten síntomas, una prueba diagnóstica es verdaderamente útil si permite distinguir entre trastornos que de otra forma podrían confundirse, por tanto la validez de una prueba debe establecerse en ese escenario, es decir, en un estudio que incluya un espectro de pacientes lo más parecido posible al del medio en el que la prueba se pretenda usar en el futuro, típicamente una muestra consecutiva de pacientes. Sin embargo, una tentación muy extendida en estos estudios es el diseño caso-control, en el que se seleccionan dos muestras, una de pacientes que se sabe que tienen la enfermedad y otra de individuos que no la tienen. Se ha demostrado que este diseño introduce la mayor sobreestimación del rendimiento de la prueba. Usando como índice de validez la odds ratio diagnóstica, que es un modo de sintetizar en un solo índice la sensibilidad y la especificidad, este diseño lo sobreestima10 multiplicándolo por un factor de 3.
INDEPENDENCIA ENTRE LA PRUEBA Y EL PATRÓN DE REFERENCIA Muy frecuentemente las pruebas usadas como referencia o patrón de oro son invasivas; ése es justamente uno de los motivos para desarrollar nuevas pruebas, disponer de pruebas menos agresivas, o más baratas, o más fáciles que los patrones de oro. En consecuencia, suele haber problemas para realizar estas pruebas a individuos no enfermos. Por ejemplo, para evaluar la validez de la mamografía en el diagnóstico del cáncer de mama, una buena prueba de referencia es la biopsia, de hecho es la que se suele usar, aunque obviamente hay problemas, tanto éticos como de factibilidad, para realizar biopsias a mujeres con mamografías negativas. Como consecuencia, en muchos de es-
tos estudios, en particular en todos los que se realizan en condiciones reales de asistencia, la prueba de referencia se realiza a la mayor parte de los pacientes con resultado positivo de la prueba y sólo a una pequeña parte de los que tienen resultado negativo, dando lugar al denominado sesgo de referencia o de verificación parcial. Otros autores resuelven el problema aplicando a los pacientes con resultado negativo en la prueba en evaluación otro patrón de referencia diferente, por ejemplo, seguimiento en el tiempo. Ambas soluciones, si bien frecuentemente son las únicas disponibles, incumplen la asunción de independencia entre pruebas y darían lugar a una sobreestimación del rendimiento diagnóstico. Lijmer et al10 encuentran que cuando se usan diferentes patrones de referencia, el índice de rendimiento global se sobreestima multiplicándose por dos, aunque, sorprendentemente, no encuentran sobreestimación producida por el sesgo de verificación parcial.
ENMASCARAMIENTO EN LA INTERPRETACIÓN DE LAS PRUEBAS Siguiendo con el ejemplo de la mamografía, parece claro que una imagen dudosa será interpretada de modo distinto, seguramente mejor, si se conoce el resultado de la biopsia. Por ello, para evaluar la validez de la mamografía, ambas pruebas deben interpretarse sin que se conozca el resultado de la otra. Esta exigencia es tanto más importante cuanto mayor componente de interpretación subjetiva tengan las pruebas en cuestión. Lijmer et al10 encuentran que efectivamente la falta de enmascaramiento sobreestima el índice de rendimiento global en un 30%. Aunque en los libros de texto también se señalan otros posibles sesgos en el diseño de los estudios de evaluación de pruebas diagnósticas, tales como el diseño retrospectivo, o la inclusión de pacientes de forma no consecutiva, el estudio de Lijmer no encuentra diferencias en la estimación de los índices entre los artículos que los tienen y los que no (una vez corregidos por los efectos ya comentados de los otros sesgos). Una explicación posible para estos hallazgos sorprendentes es que “los defectos nunca vienen solos” y, en el análisis, unos defectos están acaparando el efecto de otros relacionados, por ejemplo, los diseños retrospectivos suelen ser caso-control y éstos no incluyen pacientes de forma consecutiva. También se podría tratar de alguna limitación de la propia investigación de Lijmer, que sería conveniente replicar, aunque no se puede descartar que haya un exceso de celo en la lógica metodológica en los libros de texto.
BIBLIOGRAFÍA 1. Pérez Fernández M, Gervas J. El efecto cascada: implicaciones clínicas, epidemiológicas y éticas. Med Clin (Barc). 2002;118:65-7. 2. The Editors. Diagnosis, diagnosis, diagnosis. BMJ. 2002; 324:0doi:10.1136/bmj.324.7336.0/g. 3. Latour J. El diagnóstico. Quaderns de salut pública i administració de serveis de salut, 21. Valencia: Escola Valenciana d’Estudis per a la Salut; 2003.
33
Documento descargado de http://www.elsevier.es el 13/05/2015. Copia para uso personal, se prohíbe la transmisión de este documento por cualquier medio o formato.
04 Notas Estadísticas 919
16/1/06
11:57
Página 26
Abraira V. Sesgos en los estudios sobre pruebas diagnósticas
4. Reid MC, Lachs MS, Feinstein AR. Use of methodological standards in diagnostic test research. Getting better but still not good. JAMA. 1995;274:645-51. 5. Mijnhout GS, Hoekstra OS, van Tulder MW, Teule GJ, Deville WL. Systematic review of the diagnostic accuracy of (18)F-fluorodeoxyglucose positron emission tomography in melanoma patients. Cancer. 2001;91:1530-42. 6. Reid MC, Lane DA, Feinstein AR. Academic calculations versus clinical judgments: practicing physicians’ use of quantitative measures of test accuracy. Am J Med. 1998;104:374-80.
7. Zamora J, Urrueta I, Pijoán JI, et al. Variabilidad en la interpretación de los índices de validez de las pruebas diagnósticas. XXIII Reunión de la Sociedad Española de Epidemiología: Las Palmas de Gran Canaria; 2005. 8. Abraira V. Índices de rendimiento de las pruebas diagnósticas. SEMERGEN. 2002;28:193-4. 9. Abraira V. ¿Qué es el análisis por intención de tratar? SEMERGEN. 2000;26:393-4. 10. Lijmer JG, Mol BW, Heisterkamp S, et al. Empirical evidence of designrelated bias in studies of diagnostic tests. JAMA. 1999;282:1061-6.
34