MÓDULO: Formación básica en investigación II
ÍNDICE ANÁLISIS ESTADÍSTICO 4: VALIDEZ DE LOS MÉTODOS DIAGNÓSTICOS 01 | Introducción........................................................................... pág. 03 02 | PRINCIPIOS GENERALES........................................................... pág. 04 03 | ESTRUCTURA.................................................................................. pág. 05 04 | ANÁLISIS.......................................................................................... pág. 07 05 | BIBLIOGRAFÍA................................................................................. pág. 13
Cristina Fernández
PROSEMES
2
MÓDULO: Formación básica en investigación II
1. INTRODUCCIÓN Se define como prueba diagnóstica cualquier procedimiento llevado a cabo para la obtención de información clínica en un paciente cuyo objetivo final es aportar información que permita distinguir pacientes con distintas probabilidades de enfermar. Los médicos dedican gran parte de su tiempo a diagnosticar de forma correcta a partir de los signos y síntomas de los pacientes gracias a la información que las pruebas diagnósticas les proporcionan, teniendo para ello que resolver determinados dilemas que se les plantean cuando interpretan los resultados de dichas pruebas. Es importante que el clínico maneje los conceptos básicos en que se fundamenta la interpretación de una prueba diagnóstica, puesto que la investigación clínica implica muchas veces la evaluación de estas pruebas (ejemplo: determinar si la concentración sérica de PSA es útil para diagnosticar precozmente el cáncer de próstata). El diagnóstico es un proceso, caracterizado por la incertidumbre, al que el investigador puede aproximarse a través de conocimientos basados en la teoría de la probabilidad y como tal, forma parte del proceso general de la toma de decisiones. Son procesos que ayudan a confirmar o refutar la probabilidad inicial de que el paciente esté enfermo. Además, dado el creciente desarrollo de la tecnología sanitaria, es imprescindible que el médico fomente la capacidad de desarrollar una lectura crítica de los artículos acerca de los exámenes diagnósticos. No obstante, una prueba diagnóstica sólo debe llevarse a cabo cuando permita incluir modificaciones en la solución de un problema. En la Figura 1 se describe el espectro que abarca la probabilidad de enfermedad y cuál es el rango en el que se mueve la toma de decisiones. Si la probabilidad de enfermar es baja no se hacen pruebas diagnósticas ni se trata al paciente. Por el contrario, cuando la probabilidad de enfermar es elevada se trata al paciente sin necesidad de realizar una prueba para confirmar. Es en la parte central del intervalo donde la incertidumbre es mayor y la realización de una prueba diagnóstica puede ayudar a decidir si se debe tratar o no al paciente.
PROSEMES
3
MÓDULO: Formación básica en investigación II
Figura 1. Toma de decisiones en función del espectro de la probabilidad de enfermar
Adaptada de Gómez de la Cámara A. Caracterización de pruebas diagnósticas. Medicine 1998; 7(104): 4872-4877.
*
Los estudios sobre pruebas diagnósticas utilizan diseños parecidos a los estudios observacionales, aunque sus objetivos son distintos. En este artículo se analizan los principios de evaluación eficiente de estos estudios y las características fundamentales de las pruebas diagnósticas que todo médico debe conocer.
2. PRINCIPIOS GENERALES El razonamiento que subyace en un estudio de evaluación de un test diagnóstico comienza con la identificación de un fenómeno clínico, generalmente una enfermedad. El requisito ideal que una prueba diagnóstica debe cumplir es obtener un resultado positivo en los individuos que realmente están enfermos (verdadero positivo) y un resultado negativo en los sujetos que no tienen la enfermedad que se busca (verdadero negativo). Desde un punto de vista más práctico, la prueba debe ser rápida, segura, sencilla, no dolorosa y barata. Sin embargo, es prácticamente imposible encontrar pruebas que reúnan todas estas características, por lo que se establece una búsqueda continua de sustitutos útiles. La probabilidad de que una prueba diagnóstica obtenga “verdaderos positivos” y “verdaderos negativos” se denomina validez operativa, es decir, es la exactitud con que la prueba diagnostica la enfermedad. La exactitud diagnóstica se mide en términos PROSEMES
4
MÓDULO: Formación básica en investigación II
de sensibilidad y especificidad, dos características de las pruebas diagnósticas que describen la calidad de la información que se obtiene de las mismas. La utilidad diagnóstica de una prueba se refiere al valor práctico de la información, sin que este valor tenga que coincidir con el de la exactitud diagnóstica1.
3. ESTRUCTURA El esquema de actuación de un estudio de evaluación de pruebas diagnósticas consiste en seleccionar de una población una muestra de sujetos a los que se les aplica el patrón de referencia, para establecer el diagnóstico real, y la prueba diagnóstica a evaluar. Posteriormente se establecen las relaciones entre ambos a través de una serie de descriptores basados en la teoría de la probabilidad. Los estudios sobre pruebas diagnósticas tienen, de forma similar a los observacionales, una estructura definida. Se parte de una variable de efecto (enfermedad que se pretende diagnosticar), que puede estar presente o ausente, y de una variable predictora (el resultado de la prueba). En la Figura 2 se muestra la forma más simple de abordar las relaciones entre los resultados de la prueba que se evalúa y el diagnóstico real. Figura 2. Posibles resultados en la evaluación de una prueba diagnóstica
Los datos procedentes de las pruebas diagnósticas se expresan, como los datos de cualquier variable, en escalas nominales (sí/no), ordinales (leve/moderado/grave) o de intervalo (PSA£4 ng/ml, PSA 4-7ng/ml ó PSA > 7ng/ml). Sin embargo, se suelen reducir los datos de forma que resulte más fácil y útil manejarlos, de hecho, la mayor parte de las escalas ordinales son ejemplos claros de este proceso de simplificación.
PROSEMES
5
MÓDULO: Formación básica en investigación II
La variable respuesta en este tipo de estudios es la presencia o ausencia de la enfermedad, circunstancia que viene determinada por la existencia de un patrón de referencia, el denominado “gold standard”, patrón que permite evaluar la exactitud de la prueba diagnóstica. El patrón de referencia permite clasificar a los individuos en verdaderos enfermos y sanos, es decir, siempre será positivo en los primeros y negativo en los segundos, por lo que, habitualmente, este patrón de oro es difícil de alcanzar. El patrón de referencia debe cumplir una serie de requisitos para poder ser considerado de referencia: validez (mide lo que quiere medir), precisión (al aplicar la prueba al mismo sujeto varias veces y en las mismas circunstancias, se obtiene el mismo resultado) y factibilidad entre otras, características avaladas por la literatura y por su utilización en otros estudios3. En ocasiones se trata de una prueba fácil y de bajo coste (ejemplo: cultivo faríngeo como gold standard en un estudio se quiere validar la impresión clínica como diagnóstico de faringitis), pero generalmente se necesitan pruebas caras, complicadas o que se asocian a mayor riesgo (biopsia de próstata como patrón de oro en la validación del PSA como método diagnóstico de cáncer de próstata)2. Las pruebas más simples se utilizan como sustitutos de formas más complejas, pero también más exactas, con lo que se asume un riesgo más elevado de clasificación errónea de los sujetos. Por este motivo, sólo pueden utilizarse pruebas sencillas cuando el riesgo de clasificación errónea es asumible. En algunos casos no existen patrones de referencia infalibles para el diagnóstico, por lo que es necesario escoger una prueba, aunque sea más débil, ya sea porque es la más utilizada y durante más tiempo en la práctica clínica, o por haberse establecido un consenso entre varios investigadores para su aplicación. Esta circunstancia puede generar resultados paradójicos, es decir, si una prueba nueva se compara con una clásica pero inexacta, la nueva prueba parecerá peor de lo que en realidad es, incluso aunque sea mejor que la prueba antigua2. Ejemplo: se realizó un estudio para evaluar la ecografía como diagnóstico de litiasis biliar, utilizando como prueba de referencia la colecistografía. La ecografía detectó cálculos en algunos pacientes en los que la colecistografía no había observado nada, y sólo una parte de esos pacientes fueron diagnosticados con posterioridad en el quirófano. Por lo tanto, la colecistografía demostró ser menos exacta que la ecografía, al menos en parte de los pacientes2.
PROSEMES
6
MÓDULO: Formación básica en investigación II
4. ANÁLISIS El análisis de los estudios de pruebas diagnósticas difiere del que se realiza en los restantes estudios observacionales. En los estudios observacionales el objetivo es, generalmente, evaluar la asociación entre una determinada variable predictora y una enfermedad, es decir, hacer una investigación etiológica de la enfermedad. Sin embargo, en los estudios sobre pruebas diagnósticas el propósito es evaluar en qué medida el test diagnóstico discrimina entre sujetos con y sin la enfermedad de estudio. Como reflejado en la Figura 2, hay cuatro posibles resultados en la evaluación de una prueba diagnóstica: la prueba es positiva y el paciente está enfermo (verdadero positivo); la prueba es negativa y el paciente es sano (verdadero negativo); la prueba es positiva y el paciente es sano (falso positivo); la prueba es negativa y el paciente está enfermo (falso negativo). El objetivo de toda prueba es obtener el máximo número de verdaderos positivos y verdaderos negativos, o lo que es igual, tener pocos resultados falsos. Las pruebas diagnósticas se evalúan calculando su sensibilidad y su especificidad. Sensibilidad (S) es la proporción de individuos enfermos cuyo resultado en la prueba es positivo y especificidad (E) es la proporción de individuos sanos cuyo resultado en la prueba es negativo. Como se observa en la Figura 3, para el cálculo de la sensibilidad se debe hacer una lectura vertical de la tabla (S= a/a+c), es decir, se divide el número de individuos enfermos con prueba positiva entre el total de enfermos. Del mismo modo, la especificidad se interpreta en vertical pero calculando la proporción de sanos con prueba negativa (E= b/b+d). Es poco probable que una prueba sensible no detecte a los sujetos enfermos, por lo tanto, debe seleccionarse una prueba sensible cuando el riesgo de no detectar la enfermedad sea muy alto, por ejemplo, cuando la enfermedad que se diagnostica es grave pero tratable (cáncer de próstata, cáncer de vejiga, etc). También se utilizan las pruebas sensibles cuando existen varias etiologías posibles en el cuadro clínico de un paciente, por ejemplo, ante un paciente con hematuria asintomática se plantea el diagnóstico diferencial entre una infección y una neoplasia. Puede realizarse un test rápido de detección de infección, prueba fundamentalmente sensible, para descartar esta primera opción. En resumen, una prueba sensible es útil para el médico cuando su resultado es negativo porque, en ese caso, la probabilidad de que sea un falso negativo es muy baja.
PROSEMES
7
MÓDULO: Formación básica en investigación II
Figura 3. Características y mediciones de una prueba diagnóstica.
Una prueba específica detecta los verdaderos negativos y es muy difícil que clasifique erróneamente a un individuo sano como enfermo, es decir, tiene pocos falsos positivos. Teniendo en cuenta lo anterior, una prueba específica interesa cuando el riesgo de clasificar a un sano como enfermo es alto, por ejemplo, un diagnóstico por imagen de un nefroblastoma debe ser confirmado con una prueba más específica, como es la biopsia renal, antes de someter al paciente a una nefrectomía, puesto que el trauma físico y psicológico que se deriva de un falso positivo en esta situación es muy alto. Por lo tanto y en contra de lo que sucedía con la sensibilidad, una prueba específica es muy útil cuando su resultado es positivo, porque la probabilidad de que se trate de un falso positivo es baja. Aunque lo ideal es encontrar una prueba sensible y específica al mismo tiempo, en la realidad es prácticamente imposible, por lo que debe buscarse un perfecto equilibrio entre ambas. Se debe establecer, de forma arbitraria, un punto de corte que diferencie lo positivo de lo negativo, de forma que, siempre que la variable que define el diagnóstico de enfermedad sea continua, la sensibilidad y la especificidad aumentan una a expensas de la otra, es decir, a medida que aumenta la sensibilidad
PROSEMES
8
MÓDULO: Formación básica en investigación II
disminuye la especificidad y viceversa. En la Tabla I se muestra esta relación. Se trata de un estudio4 llevado a cabo en Madrid entre 1998 y 1999 con objeto de evaluar el PSA-c como diagnóstico de cáncer de próstata, comparándolo con el diagnóstico mediante la determinación de PSA-t. En la Tabla I se han extraído los datos de S y E referentes a PSA-c para observar el descenso progresivo de la especificidad a medida que aumenta la sensibilidad, es decir, a medida que disminuye el punto de corte.
Tabla I. Relación entre sensibilidad y especificidad* PSA-Complex Sensibilidad
Punto de corte
Especificidad
70,0 75,0 80,0 85,0 90,0 95,0 100
11,4 10,7 9,9 8,0 7,5 6,2 5,8
64,6 60,0 56,9 44,6 44,6 33,8 29,2
* Tomada de Martín Vega A, Moreno Sierra J, Ortega Heredia MD y cols. Utilidad del PSA-Complex en el diagnóstico del carcinoma de próstata. Arch Esp Urol, 2000;53(9): 776-782.
• Valores predictivos Los valores predictivos permiten calcular la probabilidad de tener la enfermedad obteniendo un resultado positivo en la prueba diagnóstica correspondiente, valor predictivo positivo (VPP) y la probabilidad de ser sano tras un resultado negativo de la prueba, valor predictivo negativo (VPN). Los valores predictivos calculan así la probabilidad postprueba de tener o no la enfermedad. En la Figura 3 se calculan los VP para el diagnóstico de cáncer de próstata. El valor predictivo de un resultado positivo en la determinación del PSA, es decir, la probabilidad de tener cáncer de próstata obteniendo unos niveles de PSA superiores a 4 ng/ml es de 88,9%, mientras que la probabilidad de no tener cáncer de próstata con unos niveles de PSA inferiores a 4ng/ml es del 66,6%.
PROSEMES
9
MÓDULO: Formación básica en investigación II
El valor predictivo está determinado por la sensibilidad y la especificidad de la prueba y por la prevalencia de la enfermedad en la población. La prevalencia, cociente entre el número de individuos que tienen la enfermedad y el total de la población de estudio, también se denomina probabilidad preprueba. Cuando la prevalencia es alta el VPP aumenta, es decir, si la probabilidad de estar enfermo antes de someterse a la prueba es elevada, la probabilidad de que un resultado positivo en la misma se corresponda con un verdadero positivo es más alta. Por otra parte, cuanto más sensible sea la prueba mayor será su VPN puesto que, como se ha comentado anteriormente, una prueba sensible reduce el número de falsos negativos, es decir, un resultado negativo en una prueba sensible es con mayor probabilidad un verdadero negativo y por lo tanto, la probabilidad de que el individuo esté sano con un resultado negativo (VPN) es más alta. Por el contrario, la prevalencia baja reduce el VPP y aumenta el VPN, y una elevada especificidad incrementa el VPP al reducir la probabilidad de obtener resultados falsos positivos. Ejemplo: el VP del PSA para el diagnóstico de cáncer de próstata se estudia obteniendo los siguientes resultados; en varones asintomáticos de edad avanzada en los que se estima una prevalencia de carcinoma de próstata del 6-12%, sólo alrededor del 15% de hombres con un PSA superior a 4 ng/ml padecían realmente un cáncer. En varones con un riesgo más elevado (con síntomas o una exploración rectal sugestiva) en los que la prevalencia de carcinoma era del 26%, el 40% de los que obtuvieron un resultado positivo (PSA > 4 ng/ml) padecían realmente cáncer. • Cocientes de probabilidad o razones de verosimilitud (likelihood ratio) La razón de probabilidad es el resultado de dividir la probabilidad de que una persona que tiene la enfermedad presente un resultado determinado en la prueba, entre la probabilidad de que una persona sin la enfermedad presente ese mismo resultado. Expresan cuántas veces es más probable obtener un resultado positivo estando enfermo que sano, cociente de probabilidad positivo (CPP), o bien cuántas veces es más probable obtener un resultado negativo estando enfermo que sano, cociente de probabilidad negativo (CPN). En el primer caso es deseable que el CPP sea elevado, mayor de 1, mientras que el CPN es deseable que sea menor de 1. En la Figura 3 se describen los cálculos de los dos cocientes de probabilidad del ejemplo. Las razones de probabilidad no se afectan por la prevalencia y permiten calcular la probabilidad postprueba de tener la enfermedad. Para ello, es necesario determinar la probabilidad de estar enfermo previo a la prueba y debe hacerse en forma de odds preprueba de dicha enfermedad. La odds no es más que la probabilidad de un suceso entre la probabilidad del suceso contrario (Odds = prevalencia / 1-prevalencia).
PROSEMES
10
MÓDULO: Formación básica en investigación II
Para calcular la odds postprueba se multiplica el cociente de probabilidad (positivo o negativo según corresponda) por la odds preprueba obtenida. Odds postprueba = odds preprueba x cociente de probabilidad. Finalmente, y para hacerlo más comprensible, se puede transformar el término odds en probabilidad a través de la siguiente fórmula: probabilidad = odds / 1 + odds. En la Figura 3 se ilustran estos conceptos. El CCP es 4, es decir, es 4 veces más probable obtener un resultado positivo estando enfermo que sano. Como interpretar en términos de odds es más complicado, se transforma la odds en probabilidad postprueba de un resultado positivo, obteniéndose un resultado del 80%, es decir, la probabilidad de estar enfermo con un resultado positivo es del 80%. Los cocientes de probabilidad tienen la ventaja de describir de forma más completa que la sensibilidad y la especificidad la exactitud de la prueba; sensibilidad y especificidad describen la exactitud de la prueba para un solo punto de corte, mientras que los CP permiten resumir la información contenida en el resultado de la prueba a diferentes niveles. • Curvas ROC Otra forma de expresar la relación existente entre la sensibilidad y la especificidad es construyendo una curva ROC (curva de características operativas para el receptor). Esta curva representa a lo largo de una serie de puntos de corte la sensibilidad, en el eje de ordenadas, frente a la denominada tasa de falsos positivos (inverso de la especificidad) en el eje de abscisas. Los valores en ambos ejes oscilan de 0 a 1 (de 0 a 100%). Las pruebas que discriminan bien dirigen su curva hacia el extremo superior izquierdo de la gráfica, en el que los aumentos de sensibilidad (descenso del punto de corte) se siguen de pequeños descensos en la especificidad. Las peores pruebas son aquellas cuya curva se aproxima o incluso coincide con la diagonal, que muestra la relación que se establece entre las tasas de verdaderos y falsos positivos en una prueba que no aporta información. Las curvas ROC pueden utilizarse para detectar el mejor punto de corte, que habitualmente se sitúa en el “hombro” de la curva, y son especialmente útiles para comparar pruebas alternativas para un mismo diagnóstico. La exactitud global de la prueba diagnóstica puede describirse a través del área bajo la curva, cuyos valores oscilan entre 0 y 1 (0 y 100%); cuanto mayor sea el área, mejor discrimina la prueba entre enfermos y sanos, es decir, mejor es la prueba. En la Figura 4 se muestran la curvas ROC y el cálculo del área bajo la curva (ABC) de PSA total (PSA-t), PSA complex (PSA-c) y ratio PSA-c/PSA-t referidas a la anatomía patológica de la hiperplasia benigna de próstata (HBP) y el cáncer de próstata (CP). En la curva se observa, a simple vista, que el PSA-c tiene
PROSEMES
11
MÓDULO: Formación básica en investigación II
mejor rendimiento diagnóstico que el PSA-t. Se refleja claramente cómo el área bajo la curva más alta corresponde al PSA-c, lo que da idea de mayor sensibilidad y especificidad para los puntos de corte. Para el punto de corte óptimo de PSA-t y de PSA-c se aprecian diferencias importantes a favor del PSA-c, puesto que éste presenta mayor valor de especificidad que el PSA-t para una misma sensibilidad. Figura 4*. Curva ROC y área bajo la curva (ABC) de PSA-t, PSA-c y ratio PSA-t/ PSA-c referidas a la anatomía patológica de la hiperplasia benigna de próstata (HBP) y el cáncer de próstata (CP)
Adaptada de Martín Vega, A.; Moreno Sierra, J.; Ortiga Heredia, MD. Y cols.: “Utilidad del PSA-Complex en el diagnóstico del carcinoma de próstata.” Arch. Esp. Urol., 2000; 53: 776782.
*
PROSEMES
12
MÓDULO: Formación básica en investigación II
5. BIBLIOGRAFÍA 1. Gómez de la Cámara A. Caracterización de las pruebas diagnósticas. 1998. Medicine 7 (104): 4872-4877. 2. Albohm A, Norell S. Medidas de frecuencia de enfermedad. En: Fundamentos de epidemiología: 5-13. Ed. Siglo XXI, Madrid, 1995 (4ª edición). 3. Cabello López JB, Pozo Rodríguez F. Estudios de evaluación de las pruebas diagnósticas en cardiología. Rev Esp Cardiol. 1997; 50(7): 507-519. 4. Martín Vega A, Moreno Sierra J, Ortega Heredia MD y cols. Utilidad del PSAComplex en el diagnóstico del carcinoma de próstata. Arch Esp Urol. 2000; 53 (9): 776-782.
PROSEMES
13