Resumen
El presente artículo desarrolla los pasos del método científico, e intenta facilitar a los lectores la incorporación de términos y/o conceptos estadísticos, metodológicos y epidemiológicos de uso habitual por parte de los profesionales del equipo de salud, al iniciar una investigación o efectuar una valoración crítica de la literatura de la especialidad.
Introducción
La investigación se debe entender como el proceso dedicado a responder a una pregunta. Dicha respuesta lo que pretende es aclarar la incertidumbre de nuestro conocimiento. No se trata de almacenar datos de forma indiscriminada sino que se define como un proceso sistemático, organizado y objetivo destinado a responder a una pregunta. La palabra "sistemático" significa que a partir de la formulación de una hipótesis u objetivo de trabajo se toman unos datos según un plan preestablecido que, una vez analizados e interpretados, modificarán o añadirán nuevos conocimientos a los ya existentes (Tabla 1). El método científico parte de la observación de una realidad, se elabora una hipótesis explicativa, se contrastan las hipótesis y dicha hipótesis es aceptada y se realizan proposiciones que forman la teoría científica.
Tabla 1. Esquema general del planteamiento de un estudio.
* Hipótesis de trabajo
* Objetivos
* Diseño de estudio
* Selección de variables
* Definición de variables
* Escala de medida
* Protocolo de recolección de datos
* Selección de la muestra
* ¿Cuántos?
* ¿Quiénes?
* Recolección de datos
* Automatización de los datos
* Depuración de los datos
* Análisis
* Resultados
* Conclusiones
La epidemiología y la estadística son instrumentos indispensables para la realización de este proceso. En general podemos decir lo que habitualmente sucede es que de una población se extrae una muestra, sobre la que se realiza un experimento o medición y los resultados del mismo se extrapolan nuevamente a la población realizando una estimación con una seguridad definida completando así la inferencia.
La realización de estudios clínico epidemiológicos precisa no solo de tiempo y entusiasmo dirigido a responder una pregunta, sino de conocimiento metodológico.
La estadística y la epidemiología clínica proporcionan los instrumentos metodológicos adecuados para dicha carrera de obstáculos en la que habitualmente se convierte la realización y publicación de un trabajo.
La definición del objetivo es el eje en torno al cual se construye la estructura del estudio. Si este objetivo no está claramente definido será difícil tomar decisiones sobre el tipo de estudio más apropiado, la selección de la muestra, el tamaño muestral, las variables a medir y el análisis estadístico a realizar.
El problema a investigar debe entenderse como la incertidumbre sobre algún hecho o fenómeno que el investigador desea resolver realizando mediciones en los sujetos del estudio. En este proceso es fundamental la realización de la revisión bibliográfica que como se señala en la tabla 2 presenta importantes utilidades y por consiguiente es imprescindible.
Tabla 2. Utilidad de la Revisión Bibliográfica.
* Fuente de ideas susceptibles de investigación.
* Valoración de los conocimientos actuales sobre el tema.
* Valoración sobre la pertinencia y viabilidad del proyecto.
* Provisión del marco conceptual para la investigación.
* Ayuda en la delimitación del objetivo específico.
* Información sobre aspectos concretos del diseño:
* Estrategias
* Procedimientos
* Pautas de seguimiento
* Criterios de selección
* Determinación del tamaño de la muestra
* Definición de variables
* Instrumentos de medición
* Prevención de problemas
* Análisis estadístico
* Comparación de los propios resultados con estudios similares.
* Contribución a la valoración de la validez extrema.
La pregunta a investigar debe reunir en definitiva una serie de características que se señalan en la tabla 3 y que se resumirían diciendo que debe ser factible, interesante, novedosa, ética y relevante.
Tabla 3. Criterios de una buena pregunta a investigar:
FACTIBLE :
* Número adecuado de individuos
* Experiencia técnica adecuada
* Abordable en cuanto a tiempo y dinero
* Manejable en cuanto al alcance
INTERESANTE PARA EL INVESTIGADOR. NOVEDOSA :
* Confirma o refuta hallazgos previos
* Amplia hallazgos previos
* Proporciona nuevos resultados
ÉTICA Y RELEVANTE:
* Para el conocimiento científico
* Para la política clínica sanitaria
* Para líneas de investigación futuras
La falta de claridad en nuestra pregunta no nos permitirá entre otras cosas poder calcular el tamaño muestral de nuestro estudio, donde precisaremos conocer la seguridad de nuestra estimación, la precisión de nuestra inferencia, el poder estadístico o la capacidad para detectar diferencias si es que existen. Si estos pasos han sido solucionados, debemos decidir a la vez que tipo de estudio epidemiológico que vamos a realizar. Los estudios epidemiológicos clásicamente se dividen en experimentales y no experimentales. En los estudios experimentales (ensayos clínicos, ensayos de campo, ensayos comunitarios) se produce una manipulación de una exposición determinada en un grupo de individuos que se compara con otro grupo en el que no se intervino, o al que se expone a otra intervención. Cuando el experimento no es posible se diseñan estudios no experimentales que simulan de alguna forma el experimento que no se ha podido realizar (estudios ecológicos, estudios de prevalencia, estudios de casos y controles, estudios de cohortes o de seguimiento).
En la Tabla 4 se resumen los diferentes tipos de estudios. Si ha existido manipulación pero no aleatorización se habla de estudios Cuasi-experimentales. Existen diferentes clasificaciones de los diferentes estudios y así también algunos autores describen los estudios como se señalan en la Tabla 5.
Tabla 4. Tipos de estudios epidemiológicos.
EXPERIMENTALES
* Ensayo clínico.
* Ensayo de campo.
* Ensayo comunitario de intervención.
NO EXPERIMENTALES
* Estudios ecológicos.
* Estudios de prevalencia.
* Estudios de casos y controles.
* Estudios de cohortes o de seguimiento
Tabla 5. Tipos de estudios epidemiológicos.
DESCRIPTIVOS
* EN POBLACIONES [Estudios ecológicos).
* EN INDIVIDUOS [A propósito de un caso, series de casos, transversales/ prevalencia]
ANALÍTICOS
* OBSERVACIONALES [Estudios de casos y controles, estudios de cohortes prospectivos o retrospectivos].
* INTERVENCIÓN [Ensayo clínico, ensayo de campo, ensayo comunitario].
Estudios Descriptivos
Estos estudios describen la frecuencia y las características más importantes de un problema de salud. Los datos proporcionados por estos estudios son esenciales para los administradores sanitarios así como para los epidemiólogos y los clínicos. Los primeros podrán identificar los grupos de población más vulnerables y distribuir los recursos según dichas necesidades y para los segundos son el primer paso en la investigación de los determinantes de la enfermedad y la identificación de los factores de riesgo.
Los principales tipos de estudios descriptivos son: los estudios ecológicos, los estudios de series de casos y los transversales o de prevalencia.
Estudios ecológicos: Estos estudios no utilizan la información del individuo de una forma aislada sino que utilizan datos agregados de toda la población. Describen la enfermedad en la población en relación a variables de interés como puede ser la edad, la utilización de servicios, el consumo de alimentos, de bebidas alcohólicas, de tabaco, la renta per cápita* Un ejemplo de este estudio sería correlacionar la mortalidad por enfermedad coronaria con el consumo per cápita de cigarrillos. Estos estudios son el primer paso en muchas ocasiones en la investigación de una posible relación entre una enfermedad y una exposición determinada. Su gran ventaja reside en que se realizan muy rápidamente, prácticamente sin costo y con información que suele estar disponible.
La principal limitación de estos estudios es que no pueden determinar si existe una asociación entre una exposición y una enfermedad a nivel individual. La falacia ecológica consiste precisamente en obtener conclusiones inadecuadas a nivel individual basados en datos poblacionales
Otra gran limitación de los estudios ecológicos es la incapacidad para controlar por variables potencialmente confusoras. La asociación o correlación que encontremos entre dos variables puede ser debida a una tercera variable que a su vez esté asociada con la enfermedad y la exposición objeto de estudio.
Series de casos: Estos estudios describen la experiencia de un paciente o un grupo de pacientes con un diagnóstico similar. En estos estudios frecuentemente se describe una característica de una enfermedad o de un paciente, que sirven para generar nuevas hipótesis. Muchas veces documentan la presencia de nuevas enfermedades o efectos adversos y en este sentido sirven para mantener una vigilancia epidemiológica.
Estos estudios aunque son muy útiles para formular hipótesis, no sirven para evaluar o testar la presencia de una asociación estadística. La presencia de una asociación puede ser un hecho fortuito. La gran limitación de este tipo de estudios es en definitiva la ausencia de un grupo control.
Estudios transversales: Estos tipos de estudios denominados también de prevalencia, estudian simultáneamente la exposición y la enfermedad en una población bien definida en un momento determinado. Esta medición simultánea no permite conocer la secuencia temporal de los acontecimientos y no es por tanto posible determinar si la exposición precedió a la enfermedad o viceversa.
La realización de este tipo de estudios requiere definir claramente:
* La población de referencia sobre la que se desea extrapolar los resultados.
* La población susceptible de ser incluida en nuestra muestra delimitando claramente los que pueden ser incluidos en dicho estudio.
* La selección y definición de variables por las que se va a caracterizar el proceso.
* Las escalas de medida a utilizar.
* La definición de "caso"
Los estudios transversales se utilizan fundamentalmente para conocer la prevalencia de una enfermedad o de un factor de riesgo.
Esta información es de gran utilidad para valorar el estado de salud de una comunidad y determinar sus necesidades. Así mismo sirven como todos los estudios descriptivos para formular hipótesis etiológicas.
Estudios Analíticos
* Estudio de casos y controles: Este tipo de estudio identifica a personas con una enfermedad (u otra variable de interés) que estudiemos y los compara con un grupo control apropiado que no tenga la enfermedad. La relación entre uno o varios factores relacionados con la enfermedad se examina comparando la frecuencia de exposición a éste u otros factores entre los casos y los controles.
Este tipo de estudio que es de los más utilizados en la investigación y se le podría describir como un procedimiento epidemiológico analítico, no experimental con un sentido retrospectivo, ya que partiendo del efecto, se estudian sus antecedentes, en el que se seleccionan dos grupos de sujetos llamados casos y controles según tengan o no la enfermedad. En los estudios de casos y controles (Tabla 6) tenemos casos expuestos (a), casos no expuestos (c), controles expuestos (b) y controles no expuestos (d). En este estudio la frecuencia de exposición a la causa entre los casos (a/c) se compara con la frecuencia de exposición en una muestra que represente a los individuos en los que el efecto no se ha producido y entre los que la frecuencia de exposición es (b/d).
Tabla 6. Tabla de 2 x 2 en los estudios de Casos y Controles
|
Casos |
Controles |
|
| Expuestos |
a |
b |
a + b |
| No expuestos |
c |
d |
c + d |
|
a + c |
b + d |
Total |
Odds ratio (razón de predominio, oportunidad relativa)
OR= a x d / b x c
Si la frecuencia de exposición a la causa es mayor en el grupo de casos de la enfermedad que en los controles, podemos decir que hay una asociación entre la causa y el efecto. La medida de asociación que permite cuantificar esta asociación se llama "Odds ratio" (razón de productos cruzados, razón de disparidad, razón de predominio, proporción de desigualdades, razón de oposiciones, oposición de probabilidades contrarias, cociente de probabilidades relativas, oportunidad relativa) y su cálculo se estima:
Los grandes temas que se deben abordar al realizar un estudio de casos y controles son después de la definición de caso, la selección de los controles y las fuentes de información sobre la exposición y la enfermedad.
La selección de los casos debe:
* Establecer de forma clara y explícita la definición de la enfermedad y los criterios de inclusión.
* Los casos deben ser incidentes ya que los casos prevalentes:
A) Cambian sus hábitos en relación con la exposición.
B) Los casos prevalentes pueden ser los sobrevivientes de casos incidentes y la supervivencia puede estar relacionada con la exposición.
La selección del grupo control debe tener en cuenta:
* La función del grupo control es estimar la proporción de exposición esperada en un grupo que no tiene la enfermedad.
* Los controles deben ser representativos de la población de donde provienen los casos. Los casos y los controles no deben entenderse como dos grupos representativos de dos poblaciones distintas, sino como dos grupos que proceden de una misma población.
* Los controles deben ser comparables a los casos en el sentido de haber tenido la misma probabilidad de haber estado expuestos.
* Estudio de cohortes (o de seguimiento): En este tipo de estudio los individuos son identificados en función de la presencia o ausencia de exposición a un determinado factor. En este momento todos están libres de la enfermedad de interés y son seguidos durante un período de tiempo para observar la frecuencia de aparición del fenómeno que nos interesa. Si al finalizar el período de observación la incidencia de la enfermedad es mayor en el grupo de expuestos, podremos concluir que existe una asociación estadística entre la exposición a la variable y la incidencia de la enfermedad.
La cuantificación de esta asociación la podemos calcular construyendo una razón entre la incidencia del fenómeno en los expuestos a la variable (le) y la incidencia del fenómeno en los no expuestos (lo). Esta razón entre incidencias se conoce como riesgo relativo y su cálculo se estima como (Tabla 7):
Tabla 7. Tabla de 2 x 2 en los estudios de Cohortes
|
Enfermos |
Sanos |
Total |
| Expuestos |
a |
b |
a + b |
| No expuestos |
c |
d |
c + d |
| Total |
a + c |
b + d |
a + b + c + d |
Riesgo Relativo: Incidencia en expuestos a / (a + b)
Incidencia en no expuestos c/ (c + d)
En este tipo de estudio como quiera que los participantes están libres de la enfermedad al inicio del seguimiento, la secuencia temporal entre exposición y enfermedad se puede establecer más claramente. A su vez este tipo de estudio permite el examen de múltiples efectos ante una exposición determinada.
Las ventajas y limitaciones de este tipo de estudio y de los diferentes tipos de estudios se resumen en la Tabla 8
Los estudios de cohortes pueden ser prospectivos y retrospectivos dependiendo de la relación temporal entre el inicio del estudio y la presencia de la enfermedad. En los retrospectivos tanto la exposición como la enfermedad ya han sucedido cuando el estudio se inició. En los prospectivos la exposición pudo haber ocurrido o no, pero desde luego lo que aún no ha sucedido es la presencia de la enfermedad. Por tanto se requiere un período de seguimiento en el futuro para determinar la frecuencia de la misma.
Tabla 8. Ventajas y limitaciones de los diferentes estudios epidemiológicos.
ENSAYOS CLÍNICOS
Ventajas
* Mayor control en el diseño.
* Menos posibilidad de sesgos debido a la selección aleatoria de los grupos.
* Repetibles y comparables con otras experiencias.
Limitaciones:
* Costo elevado.
* Limitaciones de tipo ético y responsabilidad en la manipulación de la exposición.
* Dificultades en la generalización debido a la selección y o a la propia rigidez de la intervención.
ESTUDIOS DE COHORTES
Ventajas
* Estiman incidencia.
* Mejor posibilidad de sesgos en la medición de la exposición.
Limitaciones
* Coste elevado.
* Dificultad en la ejecución.
* No son útiles en enfermedades raras.
* Requieren generalmente un tamaño muestral elevado.
* El paso del tiempo puede introducir cambios en los métodos y criterios diagnósticos.
* Posibilidad de pérdida en el seguimiento.
Estudios de Casos y Controles
Ventajas:
* Relativamente menos costosos que los estudios de seguimiento.
* Corta duración.
* Aplicaciones para el estudio de enfermedades raras.
* Permite el análisis de varios factores de riesgo para una determinada enfermedad.
Limitaciones:
* No estiman directamente la incidencia.
* Facilidad de introducir sesgos de selección y/o información.
* La secuencia temporal entre exposición y enfermedad no siempre es fácil de establecer.
Estudios Transversales
Ventajas:
* Relativamente poco costosos.
* Se pueden estudiar varias enfermedades y/o factores de riesgo a la vez.
* Caracterizan la distribución de la enfermedad respecto a diferentes variables.
* Precisan poco tiempo para su ejecución.
* Fáciles de ejecutar.
* Útiles en la planificación y Administración Sanitaria (Identifican el nivel de salud, los grupos vulnerables y la prevalencia).
Limitaciones:
* Por sí mismos no sirven para la investigación causal.
* No son útiles en enfermedades raras ni de corta duración.
* Posibilidad de sesgos de información y selección.
Este tipo de estudios son de la suficiente complejidad para requerir, no sólo un equipo multidisciplinario que los aborde sino una cantidad de recursos suficientes para mantenerlos a lo largo del tiempo.
Estudios experimentales:
En los estudios experimentales el investigador manipula las condiciones de la investigación. Este tipo de estudio se utiliza para evaluar la eficacia de diferentes terapias, de actividades preventivas o para la evaluación de actividades de planificación y programación sanitarias. Como en los estudios de seguimiento los individuos son identificados en base a su exposición, pero a diferencia de estos, en los estudios experimentales es el investigador el que decide la exposición. El gran control que se tiene sobre el diseño facilita la interpretación de las asociaciones como causales. Para el médico clínico es de gran interés poder realizar inferencias causales en medio de la incertidumbre que rodea la practica clínica ya sea en actividades de prevención, de diagnóstico o terapéuticas
Los estudios experimentales pueden ser considerados:
* Terapéuticos (o prevención secundaria): se realizan con pacientes con una enfermedad determinada y determinan la capacidad de un agente o un procedimiento para disminuir síntomas, para prevenir la recurrencia o para reducir el riesgo de muerte por dicha enfermedad. Los preventivos (o prevención primaria) evalúan si una agente o procedimiento reduce el riesgo de desarrollar una enfermedad. Por ello los estudios experimentales preventivos se realizan entre individuos sanos que están a riesgo de desarrollar una enfermedad. Esta intervención puede ser sobre una base individual o comunitaria a toda una población determinada.
* Ensayo clínico: Es el estudio experimental más frecuente. Los sujetos son pacientes y evalúa uno o más tratamientos para una enfermedad o proceso. La validez de este estudio radica fundamentalmente en que el proceso aleatorio haga los grupos comparables en las variables más relevantes en relación al problema a estudiar. El diseño del estudio debe contemplar básicamente: a) La ética y justificación del ensayo.
b) La población susceptible de ser estudiada.
c) La selección de los pacientes con su consentimiento a participar.
d) El proceso de aleatorización.
e) La descripción minuciosa de la intervención.
f) El seguimiento exhaustivo que contemple las pérdidas y los no cumplidores.
g) La medición de la variable final.
h) La comparación de los resultados en los grupos de intervención y control.
* Ensayos de campo: Tratan con sujetos que aún no han adquirido la enfermedad o con aquéllos que estén en riesgo de adquirirla y estudian factores preventivos de enfermedades como pueden ser la administración de vacunas o el seguimiento de dietas.
* Ensayos comunitarios: Incluyen intervenciones sobre bases comunitarias amplias. Este tipo de diseños suelen ser Cuasi-experimentales (existe manipulación pero no aleatorización), en los que una o varias comunidades recibirán la intervención, mientras que otras servirán como control.
Los estudios experimentales si tienen un diseño cuidadoso con un tamaño muestral suficiente, un proceso de aleatorización adecuado, una intervención y un seguimiento perfectamente controlados pueden proporcionar evidencias muy fuertes que nos permitan emitir juicios sobre la existencia de relaciones causales entre variables.
Sesgos. La precisión y validez de un estudio:
Luego de conocer el tipo de estudio habrá que tener en consideración las amenazas o riesgos que dicho estudio lleva implícitos; en particular debemos reflexionar sobre los sesgos del estudio, siempre se debe perseguir que el estudio sea preciso y válido.
Todo estudio debe ser entendido como un ejercicio de medida en cada uno de los apartados de planificación, ejecución e interpretación. Es por tanto necesario formular unos objetivos de forma clara y cuantitativa para dejar muy bien sentado desde el principio que es lo que se quiere medir. Si este primer paso es deficiente o poco claro la calidad de un estudio se tambalea.
La meta fundamental que todo estudio epidemiológico debe perseguir es la agudeza en la medición. Por ello, que todo lo que amenace esta correcta medición debe ser identificado y corregido. Los elementos que amenazan estas mediciones son: El Error Aleatorio y el Error Sistemático.
La carencia de error aleatorio se conoce como precisión y se corresponde con la reducción del error debido al azar. Para reducir este error el elemento más importante del que disponemos es incrementar el tamaño de la muestra y con ello aumentamos la precisión. Los intervalos de confianza y el error estándar se reducen al aumentar el tamaño muestral. Es por tanto necesario desde un principio preocuparse por el tamaño muestral del estudio que vamos a realizar definiendo la precisión y la seguridad del mismo. La precisión también se puede mejorar modificando el diseño del estudio para aumentar la eficiencia de la información que obtengo de los sujetos del estudio.
La carencia del error sistemático se conoce como validez. Esta validez tiene dos componentes: La validez interna, que es la validez de las inferencias a los sujetos reales del estudio y la validez externa o generalización en tanto se aplica a individuos que están fuera de la población del estudio. La validez interna es por tanto un prerrequisito para que pueda darse la extrema.
La validez interna que es la que implica validez de inferencia para los propios sujetos de estudio. Se ve amenazada por varios tipos de sesgos.
Entendemos por sesgos los errores sistemáticos en un estudio epidemiológico que producen una estimación incorrecta de asociación entre la exposición y la enfermedad. En definitiva producen una estimación equivocada del efecto.
Cuando realizamos un estudio o interpretamos los resultados del mismo nos podemos preguntar: ¿Podrían los resultados deberse a algo que los autores no han tenido en consideración?, como por ejemplo:
* Los grupos del estudio no son comparables debido a como fueron seleccionados los pacientes (sesgos en la selección).
* Los grupos de pacientes del estudio no son comparables debido a como se obtuvieron los datos (sesgos en la información).
* Los autores no han recogido información (o la han obtenido pero no la han utilizado) sobre un factor que se relaciona a la vez con la exposición y con el efecto estudiados (factor de confusión).
* SESGO DE SELECCIÓN: Este sesgo hace referencia a cualquier error que se deriva del proceso de identificación de la población a estudiar. La distorsión resulta de la forma en que los sujetos han sido seleccionados. En el sesgo de selección los grupos no son comparables debido a como fueron seleccionados los pacientes (elección inadecuada del grupo control, elección inadecuada del espacio muestral, pérdidas de seguimiento y supervivencia selectiva Los sesgos de selección pueden presentarse también en los estudios de casos y controles, cuando el procedimiento utilizado para identificar el status de enfermedad (sesgo diagnóstico) varía o se modifica con el status exposición. Este sesgo se llama "sesgo de detección". Los sesgos de selección son un problema fundamental en los estudios de casos y controles y en los estudios de cohortes retrospectivos donde la exposición y el resultado final ya han ocurrido en el momento que los individuos son seleccionados para el estudio. Los sesgos de selección son poco probables en los estudios de cohortes prospectivos porque la exposición se determina antes de la presencia de enfermedad de interés. En todos los casos, cuando el sesgo de selección ocurre, el resultado produce una relación entre exposición y enfermedad que es diferente entre los individuos que entraron en el estudio que entre los que pudiendo haber sido elegidos para participar, no fueron elegidos.
Evitar los sesgos de selección depende en gran medida de que el investigador conozca las fuentes de sesgo potenciales. En los estudios de casos y controles para evitar sesgos de selección, se recomienda al menos teóricamente, ya que desde el punto de vista práctico es muy costoso, utilizar dos grupos control. Uno de ellos una muestra poblacional, lo que posibilita el detectar el posible sesgo de selección al hacer estimaciones del efecto por separado. Si obtenemos la misma estimación del efecto en los controles poblacionales que con los otros controles podrán asumir que no hay sesgos en la selección de los mismos. A pesar de todo siempre existe la posibilidad remota de que las dos estimaciones tuviesen el mismo grado de sesgo. Otra recomendación es utilizar muchas patologías como grupo control en lugar de pocas patologías y comprobar que las frecuencias de exposición son similares entre los diferentes grupos diagnosticados en los controles. En los estudios de seguimiento se debe asegurar un seguimiento completo en ambos grupos.
* SESGO DE INFORMACIÓN U OBSERVACIÓN: Este sesgo incluye cualquier error sistemático en la medida de información sobre la exposición a estudiar o los resultados. Los sesgos de observación o información se derivan de las diferencias sistemáticas en las que los datos sobre exposición o resultado final, se obtienen de los diferentes grupos. El rehusar o no responder en un estudio puede introducir sesgos si la tasa de respuesta está relacionada con el status de exposición. El sesgo de información es por tanto una distorsión en la estimación del efecto por errores de medición en la exposición o enfermedad o en la clasificación errónea de los sujetos. Las fuentes de sesgo de información más frecuentes son:
A) Instrumento de medida no adecuado.
B) Criterios diagnósticos incorrectos.
C) Omisiones.
D) Imprecisiones en la información.
E) Errores en la clasificación.
F) Errores introducidos por los cuestionarios o las encuestadoras.
Los errores de clasificación son una consecuencia directa del sesgo de información. Esta clasificación puede ser "diferencial" si el error de clasificación es independiente para ambos grupos o "no diferencial" si el error de clasificación es igual para ambos grupos de estudio, produciéndose una dilución del efecto con una subestimación del mismo.
Los encuestadores pueden introducir errores de clasificación "diferencial" si conocen las hipótesis del estudio y la condición del entrevistado. Este tipo de problema se puede controlar por medio de:
* Desconocimiento del entrevistado.
* Desconocimiento de las hipótesis de estudio.
* Utilización de cuestionarios estructurados.
* Tiempos de ejecución de la entrevista definitiva.
* Utilización de pocos entrevistadores.
* SESGO DE CONFUSIÓN: En sesgo de confusión existe una mezcla de efectos debido a una tercera o más variables. Esta variable está asociada con la exposición a estudio e independientemente de la exposición es un factor de riesgo para la enfermedad. La confusión puede ser controlada en el diseño del estudio y en el análisis del mismo con lo cual nuestro estudio podría ser válido. La presencia de sesgos de selección e información podrían ser cuantificados en algunas ocasiones pero invalidarían el estudio.
La prevención y control de sesgos potenciales debe prevenirse durante el diseño del estudio ya que en el análisis no va a ser posible solucionar los sesgos de selección e información. Por el contrario los factores de confusión sí pueden ser controlados en el análisis. Dichos factores de confusión van a producir una distorsión en la estimación del efecto, en el sentido de que el efecto observado en a población en estudio es una mezcla de los efectos debidos a una tercera (o más) variables.
Los sesgos, el azar y la presencia de variables confusoras deben finalmente siempre, tenerse en cuenta, como explicación posible de cualquier asociación estadística ya sea esta positiva, negativa o no existente; Y es que como señalaba M. Susser en sus reflexiones sobre causalidad "cuando hay minas por todas partes no debe uno aventurarse sin un detector de minas".
Deterinación de factores de riesgo:
En cada sociedad existen comunidades, grupos de individuos, familias o individuos que presentan más posibilidades que otros, de sufrir en un futuro enfermedades, accidentes, muertes prematuras…, se dice que son individuos o poblaciones especialmente vulnerables. A medida que se incrementan los conocimientos sobre los diferentes procesos, la evidencia científica demuestra en cada uno de ellos que: en primer lugar las enfermedades no se presentan aleatoriamente y en segundo que muy a menudo esa "vulnerabilidad" tiene sus razones.
La vulnerabilidad se debe a la presencia de cierto número de características de tipo genético, ambiental, biológicas, psicosociales, que actuando individualmente o entre sí desencadenan la presencia de un proceso. Surge entonces el término de "riesgo" que implica la presencia de una característica/s o factor/es que aumenta la probabilidad de consecuencias adversas. En este sentido el riesgo constituye una medida de probabilidad estadística de que en un futuro se produzca un acontecimiento por lo general no deseado. Él termino de riesgo implica que la presencia de una característica o factor aumenta la probabilidad de consecuencias adversas. La medición de esta probabilidad constituye el enfoque de riesgo.
Un factor de riesgo es cualquier característica o circunstancia detectable de una persona o grupo de personas que se sabe asociada con un aumento en la probabilidad de padecer, desarrollar o estar especialmente expuesto a un proceso mórbido. Estos factores de riesgo (biológicos, ambientales, de comportamiento, socioculturales, económicos.) pueden sumándose unos a otros, aumentar el efecto aislado de cada uno de ellos produciendo un fenómeno de interacción.
Utilización del riesgo:
El conocimiento y la información sobre los factores de riesgo tienen diversos objetivos:
Predicción: La presencia de un factor de riesgo significa un riesgo aumentado de presentar en un futuro una enfermedad, en comparación con personas no expuestas. En este sentido sirven como elemento para predecir la futura presencia de una enfermedad.
Causalidad: La presencia de un factor de riesgo no es necesariamente causal. El aumento de incidencias de una enfermedad entre un grupo expuesto en relación a un grupo no expuesto, se asume como factor de riesgo, sin embargo esta asociación puede ser debida a una tercera variable. La presencia de esta o estas terceras variables se conocen como variables de confusión. Así por ejemplo el ejercicio físico se conoce como factor de protección asociado al infarto de miocardio. El efecto protector que pueda tener el ejercicio, se debe controlar por la edad de los pacientes, ya que la edad está asociada con el infarto de miocardio en el sentido de que a más edad más riesgo. Por otra parte la mayor dosis de ejercicio la realiza la gente más joven; por lo tanto parte del efecto protector detectado entre el ejercicio y el infarto de miocardio esta condicionado por la edad. La edad en este caso actúa como variable de confusión.
Diagnóstico: La presencia de un factor de riesgo aumenta la probabilidad de que se presente una enfermedad. Este conocimiento se utiliza en el proceso diagnóstico ya que las pruebas diagnósticas tienen un valor predictivo positivo más elevado, en pacientes con mayor prevalencia de enfermedad. El conocimiento de los factores de riesgo se utiliza también para mejorar la eficiencia de los programas de cribaje, mediante la selección de subgrupos de pacientes con riesgo aumentado.
Prevención: Si un factor de riesgo se conoce asociado con la presencia de una enfermedad, su eliminación reducirá la probabilidad de su presencia. Este es el objetivo de la prevención primaria. Así por ejemplo se relacionan la obesidad y la hipertensión, la hipercolesterolemia y la enfermedad coronaria, el tabaco y el cáncer de pulmón, etc.
Cuantificación del riesgo:
El término de riesgo implica que la presencia de una característica o factor aumenta la probabilidad de consecuencias adversas.
La cuantificación del grado de riesgo constituye un elemento esencial y fundamental en la formulación de políticas y prioridades que no deben dejar hueco a la intuición ni a la casualidad. Hay diferentes maneras de cuantificar ese riesgo:
* Riesgo Absoluto: Mide la incidencia del daño en la población total.
* Riesgo Relativo: Compara la frecuencia con que ocurre el daño entre los que tienen el factor de riesgo y los que no lo tienen.
El riesgo relativo mide la fuerza de la asociación entre la exposición y la enfermedad. Indica la probabilidad de que se desarrolle la enfermedad en los expuestos a un factor de riesgo en relación al grupo de los no expuestos. Su cálculo se estima dividiendo la incidencia de la enfermedad en los expuestos (Ie) entre la incidencia de la enfermedad en los no expuestos (Io).
En los estudios de casos y controles, dado que la incidencia es desconocida, el método de estimación del riesgo relativo es diferente y se estima calculando el Odds ratio, traducida al castellano con múltiples nombres como: razón de productos cruzados, razón de disparidad, razón de predominio, proporción de desigualdades, razón de oposiciones, oposición de probabilidades contrarias, cociente de probabilidades relativas, oportunidad relativa.
Fracción atribuible y riesgo atribuible:
La Fracción atribuible: Estima la proporción de la enfermedad entre los expuestos que puede ser atribuible al hecho de estar expuestos. Esta medida la podemos calcular:
* En el grupo de expuestos
* En la población.
La fracción atribuible en el grupo expuesto (fracción etiológica, o porcentaje de riesgo atribuible en los expuestos), establece el grado de influencia que tiene la exposición en la presencia de enfermedad entre los expuestos. Su cálculo se realiza:
Si dividimos en numerador y el denominador por la Io (Incidencia en los no expuestos), obtendremos una nueva fórmula que expresa la misma idea.
El Riesgo Atribuible en los expuestos se calcula: RAe = Ie Io
Su cálculo esta determinado por la diferencia entre la incidencia de expuestos y no expuestos. La diferencia entre ambos valores da el valor del riesgo de enfermedad en la cohorte expuesta, que se debe exclusivamente a la exposición.
La Fracción Atribuible en la Población (FAP), muestra la proporción en que el daño podría ser reducido si los factores de riesgo causales desapareciesen de la población total.
It = Incidencia en la población total
Io = Incidencia en los no expuestos
Si la prevalencia de la exposición en la población es disponible él calculo también se puede realizar del siguiente modo con esta fórmula alternativa:
Pt = Prevalencia de la exposición (o factor de riesgo) en la población.
La fracción atribuible en la población total es una medida de asociación influenciada por la prevalencia del factor de riesgo en la población total.
Este valor, es el porcentaje de riesgo atribuible en la población para el factor de riesgo "sin control prenatal". El concepto que encierra es totalmente similar al de la FAe, con la salvedad de que es un parámetro que se refiere a toda la colectividad y no solamente a los expuestos.
La fórmula alternativa previamente indicada permite objetivar como cambia el impacto de una intervención con la prevalencia de un factor de riesgo. En los estudios de casos y controles, en los cuales no se pueden obtener tasas reales de incidencia, uno puede usarla tomando la razón de productos cruzados, la razón de predominio, la oportunidad relativa, el OR en definitiva, como una aproximación para el riesgo relativo.
El Riesgo Atribuible en Población general se calcula: RAp = It Io.
Se podría definir como la cantidad de riesgo que sufre toda la población como consecuencia de la exposición. Representa lo mismo que el RAe, pero referido a la comunidad.
Intervalos de confianza para la estimación del riesgo:
Cuando calculamos el Riesgo Relativo debemos expresar sí dicho riesgo es diferente de 1. Si al construir el 95% intervalo de confianza el intervalo no incluye el valor 1 concluimos que el riesgo es estadísticamente significativo p<0.05. Si el 99% intervalo de confianza no incluye el valor 1, el riesgo relativo es significativo p<0.01.
Si el riesgo relativo fuese menor de 1 y su intervalo de confianza también, estaríamos ante la presencia de un factor de protección.
El cálculo de dicho 95% IC para el riesgo relativo se realiza del siguiente modo):
(RR) exp [± 1.96 Error Estándar del Ln RR)
-RR es la estimación puntual del riesgo relativo
-exp es la base del logaritmo natural elevada a la cantidad entre paréntesis
- a, b, c y d representan los valores numéricos de la tabla de 2 x 2
El 95% intervalo de confianza del logaritmo de RR= 0.99 ± 1.96 * 0.34 = (0.319; 1.674)
El antilogaritmo de estos límites es: e 0.319 a e1.67 = (1.38 a 5.34)
Por tanto en el ejemplo (tabla 2) el RR = 2.71 y el 95% Intervalo de confianza es: 1.38 a 5.34
El cálculo del 95% IC para el OR en un estudio de casos y controles seria:
OR es la estimación puntual del Odds ratio
exp es la base del logaritmo natural elevada a la cantidad entre paréntesis.
a, b, c y d representan los valores numéricos de la tabla de 2 x 2
El cálculo del intervalo de confianza del riesgo relativo y del Odds ratio es fundamental al realizar el análisis de cualquier estudio. Dicho cálculo nos indica no solo la dirección del efecto, sino la significancia estadística, si el intervalo no engloba el valor 1 y la precisión del intervalo que está directamente relacionada con el tamaño muestral del estudio.
Estimado el riesgo de cada variable de forma independiente, se debe en un siguiente paso determinar el riesgo de dicha variable teniendo en cuenta las demás variables utilizando técnicas de regresión múltiples.
Determinación de factores pronósticos:
La actividad clínica diaria esta fundamentada en tres elementos: el diagnóstico, el pronóstico y el tratamiento. Estas tres actividades están basadas en estudios probabilísticos. Tras el diagnóstico de una enfermedad se precisa conocer el pronóstico de la misma. La determinación de un pronóstico es estimar las probabilidades de los diversos modos de evolución; es predecir la evolución de una enfermedad en un paciente determinado. El conocimiento del pronóstico es una variable fundamental ya que en muchos casos decidirá el tratamiento. Por otra parte las actividades terapéuticas y preventivas pueden modificar él pronostico de una enfermedad.
La historia natural de una enfermedad es la evolución sin intervención médica. El curso clínico describe la evolución de la enfermedad que se encuentra bajo atención médica.
El pronóstico depende por tanto de la historia natural de la enfermedad y de su curso clínico. Dicho pronóstico no siempre cambia con la intervención médica.
La incertidumbre sobre el futuro de una enfermedad, puede estimarse sobre la experiencia clínica y la información epidemiológica. Es evidente que la experiencia clínica individual aún siendo de gran valor, por si sola es inadecuada ya que esta basada en un conjunto mas o menos limitado de pacientes que no representan la totalidad de los mismos sobre los que se tiene además un seguimiento desigual.
Diferencia entre riesgo y pronóstico:
Se debe a su vez tener en cuenta la diferencia entre factores de riesgo y factores pronósticos. Los factores de riesgo son los que condicionan la probabilidad de presentar una enfermedad determinada. Dichos factores pueden estar presentes en población sana y aumentan el riesgo de tener la enfermedad. La identificación de los factores de riesgo son imprescindibles para la prevención primaria.
Los factores pronósticos son aquellos que predicen el curso clínico de un padecimiento una vez que la enfermedad esta presente. La identificación de estos factores son de gran interés para la prevención secundaria y terciaria.
Para la estimación del riesgo el suceso final que se busca es la presencia de una enfermedad específica. Para la estimación del pronóstico la variable final como elemento de interés para estudio puede ser: la muerte, la recurrencia del proceso, la invalidez, las complicaciones.
Existen a su vez marcadores de riesgo que son características de las personas que no son modificables (edad, sexo, estado socioeconómico) y que determinan la probabilidad de presentar una enfermedad. Los marcadores de pronóstico son a su vez características no modificables del sujeto que tienen una probabilidad determinada de afectar el curso clínico de la enfermedad.
Hay factores de riesgo (edad, HTA,...) que cuando aparece la enfermedad (cardiopatía isquémica) a su vez son factores pronósticos para la presencia o no de muerte por dicha enfermedad.
En la práctica clínica diaria es preciso tener un conocimiento del pronostico de un problema determinado para tomar decisiones respecto a exploraciones continuadas, ingresos hospitalarios, tratamientos específicos, que no modificando el pronóstico no podrían objetivamente ser justificados.
Parámetros de interés pronóstico:
Los parámetros de interés pronóstico dependen de la enfermedad que se estudie pero los de uso más frecuente son:
* Tasa de supervivencia a los cinco años: Porcentaje de pacientes que sobreviven cinco años a partir de algún momento en el curso de la enfermedad.
* Tasa de letalidad: Porcentaje de pacientes con una enfermedad que mueren a causa de ella.
* Tasa de respuesta: Porcentaje de pacientes que muestran alguna señal de mejoría después de una intervención.
* Tasa de remisiones: Porcentaje de pacientes que entran en una fase en la que la enfermedad deja de ser detectable.
* Tasa de recurrencia: Porcentaje de pacientes que vuelven a tener la enfermedad después de un período libre de ella.
Determinación de los factores pronósticos:
En la actividad diaria conoceremos el pronóstico de muchos de los pacientes por nuestra formación y experiencia previa. Las estrategias para conocer el pronóstico podrían resumirse en las siguientes posibilidades:
1) Experiencia personal: La experiencia personal, ya sea la de uno mismo o la de un experto, sin duda es muy valorable en todo el proceso clínico asistencial, sin embargo tiene limitaciones en relación con:
* Sesgos de selección de pacientes: El sesgo de selección viene determinado por la dificultad de haber tenido contacto con todos los tipos de pacientes de una determinada enfermedad. El lugar de trabajo condiciona la patología que sé diagnóstica y se trata.
* Sesgos de información: El sesgo de información nos lleva a valorar los factores acompañantes de pacientes que han presentado un excelente pronóstico o un fatal pronóstico.
* Falta de precisión: La falta de precisión viene determinada por el tamaño muestral de la casuística que si es reducida puede estar afectada por el azar.
Por otra parte la identificación de factores de riesgo para la presencia de una enfermedad tampoco puede ser producto de la experiencia personal. Existen riesgos que pueden ser identificados fácilmente entre exposición y enfermedad (traumatismos por accidente de coche, intoxicación por sobredosis de fármacos…) pero en la mayoría de las enfermedades crónicas las relaciones entre exposición y enfermedad son menos aparentes. Las razones por las que la experiencia personal es insuficiente para establecer una relación entre una exposición y una enfermedad se señalan en la tabla 9.
Tabla 9. Situaciones en las que la experiencia personal es insuficiente para establecer una relación entre exposición y una enfermedad:
* Período de latencia largo entre la exposición y la enfermedad.
* Exposición frecuente al factor de riesgo.
* Incidencia baja de la enfermedad.
* Riesgo pequeño producido por la exposición.
* Enfermedad frecuente.
* Causas múltiples de enfermedad.
2) Hacer una revisión de la literatura: Un artículo aisladamente puede estar sesgado o limitado en sus conclusiones, es por ello aconsejable revisar la literatura buscando: a) artículos de revisión b) estudios de metanálisis.
Los artículos de revisión discuten la información sobre el tema teniendo en cuenta aspectos metodológicos, concordancias y divergencias sobre diferentes trabajos que nos permitirán una información actualizada sobre el tema.
El metanálisis ha sido definido por Jenicek como "una integración estructurada, con una revisión cualitativa y cuantitativa de los resultados de diversos estudios independientes acerca de un mismo tópico". El metanálisis desplazó de la literatura médica a la revisión por un experto.
El metanalisis como método ha generado reacciones muy diferentes en el campo de la ciencia médica. Dichas reacciones van desde un rechazo y escepticismo total hasta un ferviente apoyo y entusiasmo. Los epidemiólogos lo consideran una herramienta útil pero que hay que saber utilizar. Los objetivos del metanálisis son fundamentalmente dos: revisar con técnicas cuantitativas la situación actual de un tema que ha sido investigado previamente en múltiples o diversos trabajos. Esta revisión cuantitativa permitiría resumir los resultados de todos los estudios previos. En segundo lugar el metanálisis nos permite incrementar el poder estadístico para detectar diferencias entre variables. Claramente si podemos reunir en una misma tabla de contingencia diferentes estudios, el tamaño muestral de dicha tabla se incrementará y por tanto también lo hará nuestro poder estadístico para detectar diferencias. En definitiva la precisión del estudio mejora y la posibilidad de cometer errores de tipo II o beta (no detectar diferencias cuando realmente las hay) disminuye. Esta técnica es por tanto muy útil cuando estimamos incidencias o mortalidad de eventos muy poco frecuentes o cuando en un estudio de casos y controles la exposición de interés es muy rara o muy frecuente.
3) Realización de estudios: Existen diferentes diseños de investigación para conocer la historia natural y el curso clínico de la enfermedad:
Revisión de casos: Permiten reconstruir retrospectivamente el curso clínico de una enfermedad. En estos estudios los sesgos de selección son muy frecuentes y no es aconsejable utilizarlos para hacer afirmaciones sobre el pronóstico. Estos estudios aunque son muy útiles para formular hipótesis, no sirven para evaluar o testar la presencia de una asociación estadística. La presencia de una asociación puede ser un hecho fortuito. La gran limitación de este tipo de estudios es en definitiva la ausencia de un grupo control.
Estudio de casos y controles: Todos los pacientes en el estudio, tienen la enfermedad de interés. En este tipo de estudios los casos son pacientes que han fallecido en un período determinado de tiempo o presentaron la complicación de interés o la recurrencia. Los controles son pacientes que no han fallecido o no han tenido el evento de interés. El objetivo del estudio se centra en determinar que variables están asociadas con el hecho de pertenecer a uno u otro grupo. La estimación del efecto se determina por medio del calculo del Odds ratio.
Estudio de cohortes: Estos estudios describen paso a paso la historia natural o el curso clínico de la enfermedad y calculan el riesgo relativo debido a un determinado factor pronóstico. Los integrantes de la cohorte de pacientes son todos los individuos afectados por la enfermedad. Tras el seguimiento de la cohorte durante un tiempo, se estudia la supervivencia, la presencia de complicaciones, la recurrencia. , en relación con diferentes variables de exposición. Este tipo de estudio es el ideal para determinar factores pronósticos.
Ensayos clínicos: Este tipo de estudios permiten estudiar las modificaciones del curso clínico de la enfermedad como respuesta a nuevas intervenciones terapéuticas.
Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en términos de supervivencia. Este término no queda limitado a los términos de vida o muerte, sino a situaciones en las que se mide el tiempo que transcurre hasta que sucede el evento de interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un aprendizaje determinado etc. Por tanto, la supervivencia es una medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o evento.
El termino supervivencia se debe a que las primeras aplicaciones de este método de análisis utilizaba como evento la muerte de un paciente.
La estimación de la supervivencia de una cohorte de pacientes se determina por técnicas paramétricas (distribución exponencial, Weibul, lognormal) o no parametricas (Kaplan-Meier, logrank, regresión de Cox). El método Kaplan-Meier calcula la supervivencia cada vez que un paciente muere (o se produce el evento de interés).
La característica distintiva del análisis con este método es que la proporción acumulada que sobrevive, se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan los tiempos de supervivencia en intervalos.
En los estudios de seguimiento no todos los pacientes presentan el evento tras un tiempo de seguimiento (observaciones censuradas). La técnica ideada por Cox (modelo de riesgo proporcional o regresión de Cox) es la proporcionada para realizar el análisis cuando hay observaciones censuradas que dependen del tiempo. Este modelo utiliza como variable dependiente el tiempo de supervivencia del paciente y como covariables variables independientes) que se modifican con el tiempo. Los coeficientes de regresión de Cox pueden usarse para determinar el riesgo relativo entre cada variable independiente y la variable respuesta, ajustado por el efecto de las demás variables en la ecuación.
4) Consultar a otro compañero de trabajo.
5) Consultar a un "experto" o especialista en el tema.
Número necesario de pacientes a tratar para reducir un evento:
La práctica clínica requiere la toma de decisiones sobre actividades preventivas, terapéuticas y pronosticas. Con frecuencia existen dificultades para trasladar los resultados de una investigación a la practica clínica por la forma en que habitualmente se presentan los resultados en términos de: p<0.05, p<0.001, riesgo relativo, Odds ratio, reducción absoluta del riesgo, fracción atribuible poblacional o fracción etiológica. Por otra parte los resultados de un estudio pueden ser estadísticamente significativos y no ser clínicamente relevantes por lo que los médicos necesitamos instrumentos que nos permitan decidir si una actitud determinada o un tratamiento específico deben ser incorporados en la rutina diaria.
La medicina basada en la evidencia incorpora la utilización de términos, como el número necesario de pacientes a tratar para reducir un evento (NNT) que cada vez se utiliza con más frecuencia. Una de las razones por la que se utiliza cada vez con más frecuencia se deriva de las deficiencias de expresiones alternativas y porque expresa de una manera muy evidente los beneficios de utilizar un tratamiento o actividad preventiva sobre un control, indicando por así decir "el precio a pagar para obtener un beneficio”.
La práctica de la medicina basada en la evidencia considera el ensayo clínico aleatorizado como el estándar para valorar la eficacia de las tecnologías sanitarias y recomienda que las decisiones se tomen, siempre que se pueda, con opciones diagnósticas o terapéuticas de demostrada eficacia.
La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado y otros tipos de estudio debe incluir: La reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario de pacientes a tratar para reducir un evento (NNT).
Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para conseguir la reducción de un evento desfavorable. El presentar los resultados sólo como reducción porcentual del riesgo relativo (RRR), aunque es técnicamente correcto, tiende a magnificar el efecto de la intervención al describir del mismo modo situaciones muy dispares. Dicho efecto lo podemos objetivar en la tabla 1, donde se objetiva que la reducción del riesgo es igual pero el NNT es completamente diferente. Cambios pequeños en el riesgo basal absoluto de un hecho clínico infrecuente conducen a grandes cambios en el número de pacientes que necesitamos tratar con la intención de prevenir uno.
La creciente demanda de este tipo de información se puede obtener en Internet en el Centro de Medicina Basada en la Evidencia que existe en Oxford, Inglaterra en la dirección: http://cebm.jr2.ox.ac.uk.
El cálculo de NNT con sus intervalos de confianza se puede realizar de manera automática con programas disponibles al efecto en la dirección: www.healthcare.ubc.ca/calc/clinsig.html
El cálculo del NNT proporciona a los clínicos un excelente instrumento en relación a las decisiones de incorporar prácticas en la actividad clínica diaria. Proporciona una manera clara y útil de medir el esfuerzo para conseguir un beneficio y es una excelente herramienta que la medicina basada en la evidencia nos proporciona y que debe ser utilizada en la toma de decisiones.
Tabla de NNTs de Bandolier en www.jr2.ox.ac.uk/bandolier/band50/b50-8.html
DETERMINACIÓN DEL TAMAÑO MUESTRAL: Todo estudio epidemiológico lleva implícito en la fase de diseño la determinación del tamaño muestral necesario para la ejecución del mismo. El no - realizar dicho proceso, puede llevarnos a dos situaciones diferentes:
1) Que realicemos el estudio sin el número adecuado de pacientes, con lo cual no podremos ser precisos al estimar los parámetros y además no encontraremos diferencias significativas cuando en la realidad sí existen.
2) Que podríamos estudiar un número innecesario de pacientes, lo cual lleva implícito no solo la pérdida de tiempo e incremento de recursos innecesarios sino que además la calidad del estudio, dado dicho incremento, puede verse afectada en sentido negativo.
Para determinar el tamaño muestral de un estudio, debemos considerar diferentes situaciones:
A. Estudios para determinar parámetros. Es decir pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a partir de una muestra (Tabla 10).
B. Estudios para contraste de hipótesis. Es decir pretendemos comparar si las medias o las proporciones de las muestras son diferentes.
Tabla 10. Elementos de la inferencia estadística
A. Estudios para determinar parámetros: Con estos estudios pretendemos hacer inferencias a valores poblacionales (proporciones, medias) a partir de una muestra.
A.1. Estimar una proporción: Si deseamos estimar una proporción, debemos saber:
a) El nivel de confianza o seguridad (1-a ). El nivel de confianza prefijado da lugar a un coeficiente (Za). Para una seguridad del 95% = 1.96, para una seguridad del 99% = 2.58.
b) La precisión que deseamos para nuestro estudio.
c) Una idea del valor aproximado del parámetro que queremos medir (en este caso una proporción). Esta idea se puede obtener revisando la literatura, por estudio pilotos previos. En caso de no tener dicha información utilizaremos el valor p = 0.5 (50%).
Si la población es finita, es decir conocemos el total de la población y deseásemos saber cuántos del total tendremos que estudiar la respuesta seria:
N = Total de la población
Za2 = 1.962 (sí la seguridad es del 95%)
p = proporción esperada (en este caso 5% = 0.05)
q = 1 p (en este caso 1-0.05 = 0.95)
d = precisión (en este caso deseamos un 3%).
¿A cuántas personas tendría que estudiar de una población de 15.000 habitantes para conocer la prevalencia de diabetes?
Seguridad = 95%; Precisión = 3%; proporción esperada = asumamos que puede ser próxima al 5%; si no tuviese ninguna idea de dicha proporción utilizaríamos el valor p = 0.5 (50%) que maximiza el tamaño muestral.
Según diferentes seguridades el coeficiente de Za varía, así:
Si la seguridad Za fuese del 90% el coeficiente sería 1.645
Si la seguridad Za fuese del 95% el coeficiente sería 1.96
Si la seguridad Za fuese del 97.5% el coeficiente sería 2.24
Si la seguridad Za fuese del 99% el coeficiente sería 2.576
A.2. Estimar una media: Si deseamos estimar una media, debemos saber:
El nivel de confianza o seguridad (1-a). El nivel de confianza prefijado da lugar a un coeficiente (Za). Para una seguridad del 95% = 1.96; para una seguridad del 99% = 2.58.
La precisión con que se desea estimar el parámetro (2 * d es la amplitud del intervalo de confianza).
Una idea de la varianza S2 de la distribución de la variable cuantitativa que se supone existe en la población.
B. Estudios para contraste de hipótesis:
Estos estudios pretenden comparar si las medias o las proporciones de las muestras son diferentes. Habitualmente el investigador pretende comparar dos tratamientos. Para el cálculo del tamaño muestral se precisa conocer:
Magnitud de la diferencia a detectar que tenga interés clínicamente relevante. Se pueden comparar dos proporciones o dos medias.
Tener una idea aproximada de los parámetros de la variable que se estudia (bibliografía, estudios previos).
Seguridad del estudio (riesgo de cometer un error a)
Poder estadístico (1 - b) (riesgo de cometer un error b)
Definir si la hipótesis va a ser unilateral o bilateral:
* Bilateral: Cualquiera de los dos parámetros a comparar (medias o proporciones) puede ser mayor o menor que el otro. No se establece dirección. La hipótesis bilateral es una hipótesis más conservadora y disminuye el riesgo de cometer un error de tipo I (rechazar la H0 cuando en realidad es verdadera).
* Unilateral: Cuando se considera que uno de los parámetros debe ser mayor que el otro, indicando por tanto una dirección de las diferencias.
B.1. Comparación de dos proporciones:
n = sujetos necesarios en cada una de las muestras
Za = Valor Z correspondiente al riesgo deseado
Zb = Valor Z correspondiente al riesgo deseado
p1 = Valor de la proporción en el grupo de referencia, placebo, control o tratamiento habitual.
p2 = Valor de la proporción en el grupo del nuevo tratamiento, intervención o técnica.
p = Media de las dos proporciones p1 y p2
B.2. Comparación de dos medias:
n = sujetos necesarios en cada una de las muestras
Za = Valor Z correspondiente al riesgo deseado
Zb = Valor Z correspondiente al riesgo deseado
S2 = Varianza de la variable cuantitativa que tiene el grupo control o de referencia.
d = Valor mínimo de la diferencia que se desea detectar (datos cuantitativos)
Cálculo del poder estadístico de un estudio:
El análisis de estudios clínico - epidemiológicos con frecuencia exige la comparación entre varios tratamientos o entre diferentes grupos de sujetos con respecto a una respuesta de interés. Por ejemplo, establecer la asociación entre la exposición a un factor de riesgo y el desarrollo de cierta enfermedad. Problemas de este tipo pueden plantearse como un contraste de hipótesis, de forma que la hipótesis que se contrasta es la de que no existen diferencias entre ambos grupos o tratamientos (hipótesis nula), frente a la hipótesis alternativa de que estos sean realmente diferentes.
Una prueba de contraste de hipótesis o de significación estadística calcula la probabilidad de que los resultados obtenidos en una investigación puedan ser debidos al azar en el supuesto de que la hipótesis nula sea cierta, es decir, bajo él supuesto que no existan diferencias entre ambos grupos. Esta probabilidad es el grado de significación estadística o valor de p. Basándose en esta probabilidad, se decidirá rechazar o no la hipótesis nula. Así, cuanto menor sea el valor de p, menor será la probabilidad de que los resultados obtenidos se deban al azar y mayor evidencia habrá en contra de la hipótesis nula. Si dicha probabilidad es menor que un valor de p fijado previamente (habitualmente se toma p<0,05), la hipótesis nula se rechazará. Así, cuando el valor de p está por debajo de 0,05, se dirá que el resultado es estadísticamente significativo y será no significativo en cualquier otro caso.
Así pues, a partir de los resultados de un estudio, puede llegarse a diferentes conclusiones:
* En primer lugar, puede concluirse que existen diferencias entre los grupos que se comparan cuando realmente las hay.
* Segundo, puede concluirse que no hay diferencias cuando éstas no existen. En ambos casos, no se comete ningún error.
* Tercero se puede concluir que existen diferencias cuando de hecho no las hay. Es decir, puede rechazarse la hipótesis nula cuando en realidad es verdadera. Si esto ocurre, se comete un error de tipo I o error. La probabilidad de cometer un error de este tipo es lo que mide precisamente el grado de significación p.
* En algunas ocasiones, por el contrario, los resultados de un estudio no son significativos. Se habla entonces de “estudios negativos”. No obstante, la ausencia de significación estadística no implica necesariamente que no exista relación entre el factor de estudio y la respuesta. Puede ocurrir, que aún existiendo tal asociación o una diferencia clínicamente relevante, el estudio haya sido incapaz de detectarla como estadísticamente significativa. En estudios de este tipo se concluirá que no existen diferencias cuando realmente sí las hay. Este error se conoce como error de tipo II.
En definitiva, el poder estadístico representa la probabilidad de rechazar la hipótesis nula cuando es realmente falsa. Es decir, representa la capacidad de un test para detectar como estadísticamente significativas diferencias o asociaciones de una magnitud determinada.
Factores que influyen en el poder estadístico de un estudio:
El poder estadístico de un estudio depende de diferentes factores:
* El tamaño del efecto a detectar, es decir, la magnitud mínima de la diferencia o asociación entre los grupos que se considera clínicamente relevante. Cuanto mayor sea el tamaño del efecto que se desea detectar, mayor será la probabilidad de obtener hallazgos significativos y, por lo tanto, mayor será el poder estadístico.
* La variabilidad de la respuesta estudiada. Así, cuanto mayor sea la variabilidad en la respuesta, más difícil será detectar diferencias entre los grupos que se comparan y menor será el poder estadístico de la investigación. De ahí que sea recomendable estudiar grupos lo más homogéneos posibles.
* El tamaño de la muestra a estudiar. Cuanto mayor sea el tamaño muestral, mayor será la potencia estadística de un estudio. Es por ello que en los estudios con muestras muy grandes se detectan como significativas diferencias poco relevantes, y en los estudios con muestras menores es más fácil obtener resultados falsamente negativos.
* El nivel de significación estadística. Si se disminuye el valor de también se disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de cometer un error de tipo I aumentamos simultáneamente la probabilidad de un error de tipo II, por lo que se trata de encontrar un punto de “equilibrio” entre ambas. Habitualmente se trabaja con un nivel de significación del 95%, por lo que el equilibrio hay que en encontrarlo finalmente entre el tamaño de la muestra que es posible estudiar y el poder que se quiere para el estudio.
Los cuatro factores anteriores, junto con el poder estadístico, forman un sistema cerrado. De este modo, una vez fijados tres de ellos, el cuarto queda completamente determinado.
Cálculo del poder estadístico de un estudio:
Frecuentemente las condiciones en las que se lleva a cabo una investigación son diferentes de las que se habían previsto en un principio. En consecuencia, y a la vista de hallazgos no significativos, es recomendable evaluar de nuevo a posteriori su potencia con el fin de discernir si el estudio carece del poder necesario para detectar una diferencia relevante o bien si realmente puede no existir tal diferencia.
Ilustremos el proceso del cálculo de la potencia mediante un ejemplo. Supongamos que se quiere llevar a cabo un ensayo clínico para comparar la efectividad de un nuevo fármaco con la de otro estándar en el tratamiento de una determinada enfermedad. Al inicio del estudio, se sabe que la eficacia del tratamiento habitual está en torno al 40%, y se espera que con el nuevo fármaco la eficacia aumente al menos en un 15%. El estudio se diseñó para que tuviese un poder del 80%, asumiendo una seguridad del 95%. Esto implica que son necesarios 173 pacientes en cada uno de los grupos para llevar a cabo la investigación. Tras finalizar el estudio, sólo fue posible tratar con cada uno de los fármacos a 130 pacientes en cada grupo en lugar de los 173 pacientes estimados inicialmente. Al realizar el análisis estadístico, se objetivó que no hay diferencias significativas en la efectividad de ambos tratamientos
De modo análogo, supongamos que se quiere llevar a cabo un estudio de casos y controles para estudiar la posible asociación entre la presencia de cardiopatía isquémica y el hábito de fumar. De acuerdo con estudios previos, se cree que la incidencia de cardiopatía puede ser hasta 2 veces más alta entre los fumadores, y se asume que la frecuencia de exposición entre los controles será de un 40%. Debido a ciertas limitaciones, sólo es posible para el investigador incluir en el estudio a 100 pacientes con cardiopatía isquémica (casos).
El análisis adecuado del poder estadístico de una investigación, que es en definitiva la capacidad que tiene el estudio para encontrar diferencias si es que realmente las hay, es un paso fundamental tanto en la fase de diseño como en la interpretación y discusión de sus resultados. A la hora del diseño, por tanto, debe establecerse la magnitud mínima de la diferencia o asociación que se considere de relevancia clínica, así como el poder estadístico que se desea para el estudio y, de acuerdo con ello, calcular el tamaño de la muestra necesaria. Tras realizar el análisis estadístico, cuando se dice que no existe evidencia de que A se asocie con B o sea diferente de B, deberemos cuestionarnos antes de nada si la ausencia de significación estadística indica realmente que no existe una diferencia o asociación clínicamente relevante, o simplemente que no se dispone de suficiente número de pacientes para obtener hallazgos significativos. Tanto si los hallazgos son estadísticamente significativos como si no lo son, la estimación de intervalos de confianza pueden también facilitar la interpretación de los resultados en términos de magnitud y relevancia clínica, proporcionándonos una idea de la precisión con la que se ha efectuado al estimación, de la magnitud y de la dirección del efecto9-10. De este modo, los intervalos de confianza nos permiten tener una idea acerca del poder estadístico de un estudio y, por tanto, de la credibilidad de la ausencia de hallazgos significativos.
Significación estadística y relevancia clínica: número necesario de pacientes a tratar para reducir un evento:
La realización de cualquier estudio clínico - epidemiológico pretende poner de manifiesto al final del mismo si existe o no - asociación entre diferentes variables. Esta asociación puede ser resultado que realmente exista la asociación indicada, pero esta asociación también puede ser producto del azar, de la presencia de sesgos o de la presencia de variables de confusión.
Una de las aplicaciones de la estadística es hacer inferencias a poblaciones, a partir de muestras. En la realización de este proceso inferencial, siempre existe el riesgo de error o imprecisión ya sea por el azar o la variabilidad biológica del fenómeno a estudiar. La carencia de error aleatorio debido al azar se conoce como precisión. Cuanto más grande es el tamaño muestral, mayor es la precisión y la variabilidad explicada por el azar disminuye. Esta posibilidad de error o falta de precisión, siempre que no existan sesgos o variables de confusión, se corrige aumentando el tamaño de la muestra. De cualquier manera el papel del azar debe ser siempre contemplado, evaluado y medido, realizando test de hipótesis o construyendo intervalos de confianza para conocer la precisión de nuestra estimación dentro de una seguridad previamente definida.
Desde el punto de vista clínico la significación estadística no resuelve todos los interrogantes que hay que responder ya que la asociación estadísticamente significativa puede no ser clínicamente relevante y además la asociación estadísticamente significativa puede no ser causal. En definitiva podemos encontrar asociaciones "estadísticamente posibles y conceptualmente estériles".
Significación estadística: A pesar de las limitaciones de la estadística, el término "estadísticamente significativo" invade la literatura médica y se percibe como una etiqueta que indicase "garantía de calidad". El considerar el término significativo implica utilizar términos comparativos de dos hipótesis. Los test de hipótesis son test de significación estadística que cuantifican hasta que punto la variabilidad de la muestra puede ser responsable de los resultados de un estudio en particular. La Ho (hipótesis nula) representa la afirmación de que no hay asociación entre las dos variables estudiadas y la Ha (hipótesis alternativa) afirma que hay algún grado de relación o asociación entre las dos variables. Nuevamente la estadística nos muestra su utilidad ya que nos ayuda a tomar la decisión de que hipótesis debemos elegir. Dicha decisión puede ser afirmada con una seguridad que nosotros previamente decidimos. El nivel de significación se estableció siguiendo los comentarios del estadístico Fisher que señaló "...es conveniente trazar una línea de demarcación a partir de la cual podamos decir: o bien hay algo en el tratamiento...”. El mecanismo de los diferentes test se realiza aunque con matices siempre de la siguiente forma: En primer lugar se mira la magnitud de la diferencia que hay entre los grupos a comparar (A y B). Si esta magnitud o valor absoluto es mayor que un error estándar definido multiplicado por una seguridad definida, concluimos que la diferencia es significativa entre A y B. Por tanto aceptamos la hipótesis alternativa y rechazamos la hipótesis nula.
El valor de "p" que indica que la asociación es estadísticamente significativa ha sido arbitrariamente seleccionado y por consenso se considera en 0.05. Una seguridad del 95% lleva implícito una p < de 0.05 y una seguridad del 99% lleva implícita una p < 0.01. Cuando rechazamos la Ho (hipótesis nula) y aceptamos la Ha (hipótesis alternativa) como probablemente cierta afirmando que hay una asociación, o que hay diferencia, estamos diciendo en otras palabras que es muy poco probable que el azar fuese responsable de dicha asociación. Del mismo modo si la p>0.05 decimos que el azar no puede ser excluido como explicación de dicho hallazgo y no rechazamos la Ho (hipótesis nula) que afirma que ambas variables no están asociadas o correlacionadas.
Conviene por otra parte considerar que la significación estadística entre dos variables depende de dos componentes fundamentales:
1) Magnitud de la diferencia a testar. Cuanto más grande sea la diferencia entre las dos variables, más fácil es demostrar que la diferencia es significativa. Por el contrario si la diferencia entre ambas variables es pequeña, las posibilidades de detectar diferencias entre las mismas se dificulta.
2) Diferencias entre dos variables al testar: Cuanto más grande sea dicho tamaño muestral más fácil es detectar diferencias entre las mismas. Pequeñas diferencias se pueden detectar con grandes tamaños muestrales y grandes diferencias entre variables necesitan muchos menos pacientes o individuos a ser estudiados. Cualquier diferencia puede ser estadísticamente significativa si se dispone del suficiente número de pacientes.
El tamaño muestral afecta a la probabilidad de la significación estadística a través del error estándar que se hace más pequeño cuantos más pacientes tenga el estudio. Así pues el valor de la "p" es función de la magnitud de la diferencia entre los dos grupos o dos variables y del tamaño de la muestra. Por esta razón una pequeña diferencia puede ser estadísticamente significativa si disponemos de un tamaño muestral lo suficientemente grande y por el contrario un efecto o diferencia relativamente grande puede no alcanzar la significación estadística si la variabilidad es grande debida a un pequeño tamaño muestral. Por estas razones los valores de la "p" deben ser considerados solo como una guía y no como base de conclusiones definitivas e irrevocables.
Error de Tipo I (A):
Al realizar el test estadístico, podríamos correr el riesgo de equivocarnos al rechazar la hipótesis nula. La probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera (error de tipo I) se le denomina nivel de significación y es la "p". Esta probabilidad de rechazar la hipótesis nula cuando es verdadera se le conoce también como error alfa. La "p" no es por tanto un indicador de fuerza de la asociación ni de su importancia.
La significación estadística es por tanto una condición resultante del rechazo de una hipótesis nula mediante la aplicación de una prueba estadística de significación. El nivel de significación es el riesgo o la probabilidad que voluntariamente asume el investigador de equivocarse al rechazar la hipótesis nula, cuando en realidad es cierta. Este riesgo se establece normalmente en 0.05 ó 0.01.
El proceso de poner a prueba una hipótesis involucra una toma de decisiones para rechazar o no la hipótesis nula. Aunque los valores de la "p" son los de una variable continua, se utiliza para forzar una decisión cualitativa, tomando partido por una u otra hipótesis. Si p < 0.05 se considera significativo, en cuyo caso se rechaza la hipótesis nula y no significativo si p> 0.05 en cuyo caso no se rechaza. Una "p" pequeña significa que la probabilidad de que los resultados obtenidos se deban al azar es pequeñaError de tipo II (b)
El riesgo alfa a ("p") indica la probabilidad de cometer un error de tipo I (falso positivo). El error de tipo I, es por lo tanto rechazar la Ho cuando en realidad es verdadera. Se podría considerar que para evitar este tipo de error deberíamos de elegir un nivel de confianza más elevado, sin embargo al aumentar el nivel de confianza aumenta la probabilidad de cometer el error de tipo II. El error de tipo II consiste en aceptar la hipótesis nula cuando es falsa y esto se conoce como el error de tipo II o Beta (b) (falso negativo).
En la ejecución de un estudio determinado no es posible saber si estamos cometiendo el error de tipo I o error de tipo II, sin embargo hay una serie de recomendaciones que podríamos seguir para disminuir dichos errores.
Recomendaciones para disminuir el error de tipo I
* Disponer de una teoría que guíe la investigación, evitando el "salir de pesca" con el ordenador buscando asociaciones entre variables.
* Disminuir el número de test estadísticos llevados a cabo en el estudio.
* Depurar la base de datos para evitar errores de valores extremos que puedan producir hallazgos significativos.
* Utilizar valores de alfa más reducidos (0.01 ó 0.001).
* Reproducir el estudio. Si al reproducir el estudio se obtienen resultados similares, estaremos más seguros de no estar cometiendo el error de tipo I.
Recomendaciones para disminuir el error de tipo II
* Incrementar el tamaño de la muestra.
* Estimar el poder estadístico del estudio.
* Incrementar el tamaño del efecto a detectar.
* Incrementar el valor de alfa.
* Utilizar test paramétricos (más potentes) en lugar de test no paramétricos.
Relevancia clínica:
La relevancia clínica de un fenómeno va más allá de cálculos aritméticos y está determinada por el juicio clínico. La relevancia depende de la magnitud de la diferencia, la gravedad del problema a investigar, la vulnerabilidad, la morbimortalidad generada por el mismo, su coste y por su frecuencia entre otros elementos.
La reducción relativa del riesgo relativo es una medida de utilidad en el cálculo de la relevancia clínica. Reducciones del riesgo relativo de 50% casi siempre y de 25% con frecuencia, son consideradas como clínicamente relevantes independientemente de la significación estadística.
La práctica de la medicina basada en la evidencia considera el ensayo clínico aleatorizado como el estándar para valorar la eficacia de las tecnologías sanitarias y recomienda que las decisiones se tomen, siempre que se pueda, con opciones diagnósticas o terapéuticas de demostrada eficacia.
La forma recomendada de presentar los resultados de un ensayo clínico aleatorizado y otros tipos de estudio debe incluir: La reducción relativa del riesgo (RRR), la reducción absoluta del riesgo (RAR) y el número necesario de pacientes a tratar para reducir un evento (NNT)
Este modo de presentar los resultados nos cuantifica el esfuerzo a realizar para conseguir la reducción de un evento desfavorable. El presentar los resultados sólo como reducción porcentual del riesgo relativo (RRR), aunque es técnicamente correcto, tiende a magnificar el efecto de la intervención al describir del mismo modo situaciones muy dispares.
Cambios pequeños en el riesgo basal absoluto de un hecho clínico infrecuente conducen a grandes cambios en el número de pacientes que necesitamos tratar con la intención de prevenir uno.
El cálculo del NNT representa como ya hemos indicado el número de pacientes a tratar de manera experimental a fin de evitar que uno de ellos desarrolle un resultado negativo. Es por tanto una forma excelente de determinar la significación clínica de un ensayo que además sea estadísticamente significativo. Cuanto más reducido es NNT el efecto de la magnitud del tratamiento es mayor. Si no se encontrase eficacia en el tratamiento la reducción absoluta del riesgo sería cero y el NNT sería infinito. Como sucede en las estimaciones de otros parámetros, se debe expresar el NNT con intervalos de confianza para estimar la incertidumbre que dicho parámetro presenta.
El test de significación estadística nos proporciona una "p" que nos permiten conocer la probabilidad de equivocarse si rechazamos la Ho, pero es evidente que la relevancia del fenómeno a estudiar es un elemento clave en la toma de decisiones. Por otro lado aún siendo estadísticamente significativo y clínicamente relevante no debemos olvidar que antes de poner en marcha una practica clínica debemos a su vez valorar la validez externa o generalización de los resultados al universo de pacientes que se pretende aplicar dicha práctica clínica.
Estadística descriptiva de los datos:
Existen diferentes razones por las cuales los profesionales de la atención primaria deben conocer los fundamentos de la epidemiología y la estadística como instrumentos del trabajo cotidiano. Entre dichas razones señalamos las siguientes: los términos estadísticos y epidemiológicos invaden la literatura médica, la medicina es cada vez más cuantitativa, su conocimiento nos permitirá leer la bibliografía médica con más capacidad crítica para detectar errores potenciales y falacias. Nos será también útil para llegar a conclusiones correctas acerca de procedimientos para el diagnóstico y del resultado de las pruebas. Su conocimiento nos permitirá a su vez valorar protocolos de estudio e informes remitidos para su publicación y participar, en definitiva, en la investigación médica. Resulta imprescindible, por lo tanto, conocer los conceptos básicos de estadística que nos faciliten la realización de estudios y conocer las posibilidades a desarrollar con ayuda de profesionales estadísticos para mejorar dicho análisis.
Poblaciones y muestras: Cuando se realiza un estudio de investigación, se pretende generalmente inferir o generalizar resultados de una muestra a una población. Se estudia en particular a un reducido número de individuos a los que tenemos acceso con la idea de poder generalizar los hallazgos a la población de la cual esa muestra procede. Este proceso de inferencia se efectúa por medio de métodos estadísticos basados en la probabilidad.
La población representa el conjunto grande de individuos que deseamos estudiar y generalmente suele ser inaccesible. La muestra es el conjunto menor de individuos (subconjunto de la población accesible y limitado sobre el que realizamos las mediciones o el experimento con la idea de obtener conclusiones generalizables a la población). El individuo es cada uno de los componentes de la población y la muestra. La muestra debe ser representativa de la población y con ello se dice que cualquier individuo de la población en estudio debe haber tenido la misma probabilidad de ser elegido.
Las razones para estudiar muestras en lugar de poblaciones son diversas y entre ellas se pueden citar:
* Ahorrar tiempo. Estudiar a menos individuos es evidente que lleva menos tiempo.
* Como consecuencia del punto anterior ahorraremos costos.
* Aumentar la calidad del estudio. Al disponer de más tiempo y recursos, las observaciones y mediciones realizadas a un reducido número de individuos pueden ser más exactas y plurales que si las tuviésemos que realizar a una población.
La selección de muestras específicas nos permitirá reducir la heterogeneidad de una población al indicar los criterios de inclusión y/o exclusión.
Tipos de Datos:
Lo que estudiamos en cada individuo de la muestra son las variables (Por ejemplo edad, sexo, peso, talla, tensión arterial sistólica, etcétera). Los datos son los valores que toma la variable en cada caso. Lo que vamos a realizar es medir, es decir, asignar valores a las variables incluidas en el estudio. Deberemos además concretar la escala de medida que aplicaremos a cada variable.
La naturaleza de las observaciones será de gran importancia a la hora de elegir el método estadístico más apropiado para abordar su análisis. Las variables, a grandes rasgos se clasifican en, dos tipos: variables cuantitativas o cualitativas.
Variables cuantitativas. Son las variables que pueden medirse, cuantificarse o expresarse numéricamente. Estas pueden ser de dos tipos:
* Variables cuantitativas continuas, si admiten tomar cualquier valor dentro de un rango numérico determinado (edad, peso, talla).
* Variables cuantitativas discretas, si no admiten todos los valores intermedios en un rango. Suelen tomar solamente valores enteros (número de hijos, número de partos, número de hermanos, etc.).
Variables cualitativas: Este tipo de variables representan una cualidad o atributo que clasifica a cada caso en una de varias categorías. La situación más sencilla es aquella en la que se clasifica cada caso en uno de dos grupos (hombre/mujer, enfermo/sano, fumador/no fumador). Son datos dicotómicos o binarios. Como resulta obvio, en muchas ocasiones este tipo de clasificación no es suficiente y se requiere de un mayor número de categorías (color de los ojos, grupo sanguíneo, profesión, etcétera).
En el proceso de medición de estas variables, se pueden utilizar dos escalas:
Escalas nominales: ésta es una forma de observar o medir en la que los datos se ajustan por categorías que no mantienen una relación de orden entre sí (color de los ojos, sexo, profesión, presencia o ausencia de un factor de riesgo o enfermedad, etcétera).
Escalas ordinales: en las escalas utilizadas, existe un cierto orden o jerarquía entre las categorías (grados de disnea, estadiaje de un tumor, etcétera).
Estadística descriptiva:
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), se procede al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:
¿Alrededor de qué valor se agrupan los datos?
Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos?
A. MEDIDAS DE TENDENCIA CENTRAL:
Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone.
Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante de los extremos.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.
Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el valor de la variable que presenta una mayor frecuencia.
B. MEDIDAS DE DISPERSIÓN: Otro aspecto a tener en cuenta al describir datos continuos es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística.
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.
Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y desviación típica:
Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán.
Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.
Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0.
Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos.
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana están próximos), se usan para describir esa variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.
Representación gráfica en el análisis de datos:
La realización de los estudios clínico - epidemiológicos implica finalmente emitir unos resultados cuantificables de dicho estudio o experimento. La claridad de dicha presentación es de vital importancia para la comprensión de los resultados y la interpretación de los mismos. A la hora de representar los resultados de un análisis estadístico de un modo adecuado, son varias las publicaciones que podemos consultar. Aunque se aconseja que la presentación de datos numéricos se haga habitualmente por medio de tablas, en ocasiones un diagrama o un gráfico pueden ayudarnos a representar de un modo más eficiente nuestros datos. A continuación los distintos tipos de gráficos que podemos utilizar y su correspondencia con las distintas etapas del proceso de análisis.
ANÁLISIS DESCRIPTIVO: Cuando se dispone de datos de una población, y un primer paso consiste en presentar esa información de forma que ésta se pueda visualizar de una manera más sistemática y resumida. Los datos que nos interesan dependen, en cada caso, del tipo de variables que estemos manejando.
Para variables categóricas, como el sexo, estadio TNM, profesión, etc., se quiere conocer la frecuencia y el porcentaje del total de casos que "caen" en cada categoría. Una forma muy sencilla de representar gráficamente estos resultados es mediante diagramas de barras o diagramas de sectores. En los gráficos de sectores, se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Como se puede observar, la información que se debe mostrar en cada sector hace referencia al número de casos dentro de cada categoría y al porcentaje del total que estos representan. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de tres categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
Los diagramas de barras son similares a los gráficos de sectores. Se representan tantas barras como categorías tiene la variable, demodo que la altura de cada una de ellas sea proporcional a la frecuencia o porcentaje de casos en cada clase. Estos mismos gráficos pueden utilizarse también para describir variables numéricas discretas que toman pocos valores (número de hijos, número de recidivas, etc.).
Para variables numéricas continuas, tales como la edad, la tensión arterial o el índice de masa corporal, el tipo de gráfico más utilizado es el histograma. Para construir un gráfico de este tipo, se divide el rango de valores de la variable en intervalos de igual amplitud, representando sobre cada intervalo un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de los datos en cada intervalo y el área de los rectángulos. Uniendo los puntos medios del extremo superior de las barras del histograma, se obtiene una imagen que se llama polígono de frecuencias. Dicha figura pretende mostrar, de la forma más simple, en qué rangos se encuentra la mayor parte de los datos. Un ejemplo, utilizando los datos anteriores, se presenta en la Figura 4.
Otro modo habitual, y muy útil, de resumir una variable de tipo numérico es utilizando el concepto de percentiles, mediante diagramas de cajas. La caja central indica el rango en el que se concentra el 50% central de los datos. Sus extremos son, por lo tanto, el 1er y 3er cuartil de la distribución. La línea central en la caja es la mediana. De este modo, si la variable es simétrica, dicha línea se encontrará en el centro de la caja. Los extremos de los "bigotes" que salen de la caja son los valores que delimitan el 95% central de los datos, aunque en ocasiones coinciden con los valores extremos de la distribución. Se suelen también representar aquellas observaciones que caen fuera de este rango (outliers o valores extremos). Esto resulta especialmente útil para comprobar, gráficamente, posibles errores en nuestros datos. En general, los diagramas de cajas resultan más apropiados para representar variables que presenten una gran desviación de la distribución normal. Como se verá más adelante, resultan además de gran ayuda cuando se dispone de datos en distintos grupos de sujetos.
Por último, y en lo que respecta a la descripción de los datos, suele ser necesario, para posteriores análisis, comprobar la normalidad de alguna de las variables numéricas de las que se dispone. Un diagrama de cajas o un histograma son gráficos sencillos que permiten comprobar, de un modo puramente visual, la simetría y el "apuntamiento" de la distribución de una variable y, por lo tanto, valorar su desviación de la normalidad. Existen otros métodos gráficos específicos para este propósito, como son los gráficos P-P o Q-Q. En los primeros, se confrontan las proporciones acumuladas de una variable con las de una distribución normal. Si la variable seleccionada coincide con la distribución de prueba, los puntos se concentran en torno a una línea recta. Los gráficos Q-Q se obtienen de modo análogo, esta vez representando los cuantiles de distribución de la variable respecto a los cuantiles de la distribución normal.
COMPARACIÓN DE DOS O MÁS GRUPOS: Cuando se quieren comparar las observaciones tomadas en dos o más grupos de individuos una vez más el método estadístico a utilizar, así como los gráficos apropiados para visualizar esa relación, dependen del tipo de variables que estemos manejando.
Cuando se trabaja con dos variables cualitativas podemos seguir empleando gráficos de barras o de sectores. Podemos querer determinar, por ejemplo, si en una muestra dada, la frecuencia de sujetos que padecen una enfermedad coronaria es más frecuente en aquellos que tienen algún familiar con antecedentes cardiacos. En cada grupo, se dibujan dos barras representando el porcentaje de pacientes que tienen o no alguna enfermedad coronaria. No se debe olvidar que cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso el gráfico podría resultar engañoso.
Por otro lado, la comparación de variables continuas en dos o más grupos se realiza habitualmente en términos de su valor medio, por medio del test t de Student, análisis de la varianza o métodos no paramétricos equivalentes, y así se ha de reflejar en el tipo de gráfico utilizado. En este caso resulta muy útil un diagrama de barras de error. Conviene recordar que el hecho de que dichos intervalos no se solapen, no implica necesariamente que la diferencia entre ambos grupos pueda ser estadísticamente significativa, pero sí nos puede servir para valorar la magnitud de la misma. Así mismo, para visualizar este tipo de asociaciones, pueden utilizarse dos diagramas de cajas, uno para cada grupo. Estos diagramas son especialmente útiles aquí: no sólo permiten ver si existe o no diferencia entre los grupos, sino que además nos permiten comprobar la normalidad y la variabilidad de cada una de las distribuciones. No olvidemos que las hipótesis de normalidad y homocedasticidad son condiciones necesarias para aplicar algunos de los procedimientos de análisis paramétricos.
RELACIÓN ENTRE DOS VARIABLES NUMÉRICAS: Cuando lo que interesa es estudiar la relación entre dos variables continuas, el método de análisis adecuado es el estudio de la correlación. Los coeficientes de correlación (Pearson, Spearman, etc.) valoran hasta qué punto el valor de una de las variables aumenta o disminuye cuando crece el valor de la otra. Cuando se dispone de todos los datos, un modo sencillo de comprobar, gráficamente, si existe una correlación alta, es mediante diagramas de dispersión, donde se confronta, en el eje horizontal, el valor de una variable y en el eje vertical el valor de la otra.
Otros gráficos: Los tipos de gráficos mencionados hasta aquí son los más sencillos que podemos manejar, pero ofrecen grandes posibilidades para la representación de datos y pueden ser utilizados en múltiples situaciones, incluso para representar los resultados obtenidos por métodos de análisis más complicados. Podemos utilizar, por ejemplo, dos diagramas de líneas superpuestos para visualizar los resultados de un análisis de la varianza con dos factores. Un diagrama de dispersión es el método adecuado para valorar el resultado de un modelo de regresión logística. Existen incluso algunos análisis concretos que están basados completamente en la representación gráfica. En particular, la elaboración de curvas ROC y el cálculo del área bajo la curva constituyen el método más apropiado para valorar la exactitud de una prueba diagnóstica.
Hemos visto, por lo tanto, como la importancia y utilidad que las representaciones gráficas pueden alcanzar en el proceso de análisis de datos. La mayoría de los textos estadísticos y epidemiológicos hacen hincapié en los distintos tipos de gráficos que se pueden crear, como una herramienta imprescindible en la presentación de resultados y el proceso de análisis estadístico. No obstante, es difícil precisar cuándo es más apropiado utilizar un gráfico que una tabla. Más bien podremos considerarlos dos modos distintos pero complementarios de visualizar los mismos datos. La creciente utilización de distintos programas informáticos hace especialmente sencillo la obtención de las mismas. La mayoría de los paquetes estadísticos (SPSS, STATGRAPHICS, S-PLUS, EGRET,...) ofrecen grandes posibilidades en este sentido.
Métodos paramétricos para la comparación de dos medidas:
En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar ciertas características en dos o más grupos de sujetos.
Fundamentalmente, cuando se comparan dos o más grupos de observaciones pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren a dos grupos independientes de individuos, o el caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones diferentes. El tipo de metodología será distinto según el caso en el que nos encontremos. Otro aspecto a tener en consideración será el tipo y distribución de los datos. Para grupos independientes, los métodos paramétricos requieren que las observaciones en cada grupo provengan de una distribución aproximadamente normal con una variabilidad semejante, de modo que si los datos disponibles no verifican tales condiciones, puede resultar útil una transformación de los mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería recurrir a la utilización de procedimientos no paramétricos.
Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con el valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más improbable resulta que la hipótesis inicial se verifique.
DOS MUESTRAS INDEPENDIENTES CON VARIANZA DISTINTA: El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la distribución de los datos en cada grupo no puede compararse únicamente en términos de su valor medio. Obviamente, el primer problema a resolver es el de encontrar un método estadístico que nos permita decidir si la varianza en ambos grupos es o no la misma. El F test o test de la razón de varianzas viene a resolver este problema. Bajo la suposición de que las dos poblaciones siguen una distribución normal y tienen igual varianza se espera que la razón de varianzas siga una distribución F de Snedecor con parámetros (n-1) y (m-1).
Relación entre variables cuantitativas
En el análisis de los estudios clínico-epidemiológicos surge muy frecuentemente la necesidad de determinar la relación entre dos variables cuantitativas en un grupo de sujetos. Los objetivos de dicho análisis suelen ser:
Determinar si las dos variables están correlacionadas, es decir si los valores de una variable tienden a ser más altos o más bajos para valores más altos o más bajos de la otra variable.
Poder predecir el valor de una variable dado un valor determinado de la otra variable.
Valorar el nivel de concordancia entre los valores de las dos variables.
Correlación:
Se trata de valorar la asociación entre dos variables cuantitativas estudiando el método conocido como correlación. Dicho cálculo es el primer paso para determinar la relación entre las variables.
La cuantificación de la fuerza de la relación lineal entre dos variables cuantitativas, se estudia por medio del cálculo del coeficiente de correlación de Pearson. Dicho coeficiente oscila entre 1 y +1. Un valor de 1 indica una relación lineal o línea recta positiva perfecta. Una correlación próxima a cero indica que no hay relación lineal entre las dos variables.
El realizar la representación gráfica de los datos para demostrar la relación entre el valor del coeficiente de correlación y la forma de la gráfica es fundamental ya que existen relaciones no lineales
El coeficiente de correlación posee las siguientes características:
El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir las variables.
El valor del coeficiente de correlación se altera de forma importante ante la presencia de un valor extremo, como sucede con la desviación típica. Ante estas situaciones conviene realizar una transformación de datos que cambia la escala de medición y modera el efecto de valores extremos (como la transformación logarítmica).
El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden tener una relación curvilínea fuerte, a pesar de que su correlación sea pequeña. Por tanto cuando analicemos las relaciones entre dos variables debemos representarlas gráficamente y posteriormente calcular el coeficiente de correlación.
El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de las variables a estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango.
La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más información que un simple valor cuantitativo de un coeficiente de correlación.
El coeficiente de correlación de Pearson (r) puede calcularse en cualquier grupo de datos, sin embargo la validez del test de hipótesis sobre la correlación entre las variables requiere en sentido estricto: a) que las dos variables procedan de una muestra aleatoria de individuos. b) que al menos una de las variables tenga una distribución normal en la población de la cual la muestra procede. Para el cálculo válido de un intervalo de confianza del coeficiente de correlación de r ambas variables deben tener una distribución normal. Si los datos no tienen una distribución normal, una o ambas variables se pueden transformar (transformación logarítmica) o si no se calcularía un coeficiente de correlación no paramétrico (coeficiente de correlación de Spearman) que tiene el mismo significado que el coeficiente de correlación de Pearson y se calcula utilizando el rango de las observaciones.
Test de Hipótesis de r:
Tras realizar el cálculo del coeficiente de correlación de Pearson (r) debemos determinar si dicho coeficiente es estadísticamente diferente de cero. Para dicho calculo se aplica un test basado en la distribución de la t de Student.
Si el valor del r calculado supera al valor del error estándar multiplicado por la t de Student con n-2 grados de libertad, diremos que el coeficiente de correlación es significativo.
Intervalo de confianza del coeficiente de correlación
La distribución del coeficiente de correlación de Pearson no es normal pero no se puede transformar r para conseguir un valor z que sigue una distribución normal (transformación de Fisher) y calcular a partir del valor z el intervalo de confianza.
La transformación es:
Ln representa el logaritmo neperiano en la base e, donde n representa el tamaño muestral. El 95% intervalo de confianza de z se calcula de la siguiente forma:
Tras calcular los intervalos de confianza con el valor z debemos volver a realizar el proceso inverso para calcular los intervalos del coeficiente r
Presentación de la correlación
Se debe mostrar siempre que sea posible la gráfica que correlaciona las dos variables de estudio. El valor de r se debe mostrar con dos decimales junto con el valor de la p si el test de hipótesis se realizó para demostrar que r es estadísticamente diferente de cero. El número de observaciones debe a su vez estar indicado.
Interpretación de la correlación
El coeficiente de correlación como previamente se indicó oscila entre 1 y +1 encontrándose en medio el valor 0 que indica que no existe asociación lineal entre las dos variables a estudio. Un coeficiente de valor reducido no indica necesariamente que no exista correlación ya que las variables pueden presentar una relación no lineal como puede ser el peso del recién nacido y el tiempo de gestación. En este caso el r infraestima la asociación al medirse linealmente. Los métodos no paramétrico estarían mejor utilizados en este caso para mostrar si las variables tienden a elevarse conjuntamente o a moverse en direcciones diferentes.
La significancia estadística de un coeficiente debe tenerse en cuenta conjuntamente con la relevancia clínica del fenómeno que estudiamos ya que coeficientes de 0.5 a 0.7 tienden ya a ser significativos como muestras pequeñas Es por ello muy útil calcular el intervalo de confianza del r ya que en muestras pequeñas tenderá a ser amplio.
La estimación del coeficiente de determinación (r2) nos muestra el porcentaje de la variabilidad de los datos que se explica por la asociación entre las dos variables.
Como previamente se indicó la correlación elevada y estadísticamente significativa no tiene que asociarse a causalidad. Cuando objetivamos que dos variables están correlacionadas diversas razones pueden ser la causa de dicha correlación: a) pude que X influencie o cause Y, b) puede que influencie o cause X, c) X e Y pueden estar influenciadas por terceras variables que hace que se modifiquen ambas a la vez.
El coeficiente de correlación no debe utilizarse para comparar dos métodos que intentan medir el mismo evento, como por ejemplo dos instrumentos que miden la tensión arterial. El coeficiente de correlación mide el grado de asociación entre dos cantidades pero no mira el nivel de acuerdo o concordancia. Si los instrumentos de medida miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser 1 y su concordancia ser nula.
Coeficiente de correlación de los rangos de Spearman
Este coeficiente es una medida de asociación lineal que utiliza los rangos, números de orden, de cada grupo de sujetos y compara dichos rangos. Existen dos métodos para calcular el coeficiente de correlación de los rangos uno señalado por Spearman y otro por Kendall. El r de Spearman llamado también rho de Spearman es más fácil de calcular que el de Kendall. El coeficiente de correlación de Spearman es exactamente el mismo que el coeficiente de correlación de Pearson calculado sobre el rango de observaciones. En definitiva la correlación estimada entre X e Y se halla calculado el coeficiente de correlación de Pearson para el conjunto de rangos apareados. El coeficiente de correlación de Spearman es recomendable utilizarlo cuando los datos presentan valores externos ya que dichos valores afectan mucho el coeficiente de correlación de Pearson, o ante distribuciones no normales.
El cálculo del coeficiente viene dado por
en donde di = rxi ryi es la diferencia entre los rangos de X e Y.
Los valores de los rangos se colocan según el orden numérico de los datos de la variable.
Técnicas de regresión
REGRESIÓN LINEAL SIMPLE: En múltiples ocasiones en la práctica clínica nos encontramos con situaciones en las que se requiere analizar la relación entre dos variables cuantitativas. Los dos objetivos fundamentales de este análisis serán, por un lado, determinar si dichas variables están asociadas y en qué sentido se da dicha asociación (es decir, sí los valores de una de las variables tienden a aumentar o disminuir- al aumentar los valores de la otra); y por otro, estudiar si los valores de una variable pueden ser utilizados para predecir el valor de la otra.
La forma correcta de abordar el primer problema es recurriendo a coeficientes de correlación. Sin embargo, el estudio de la correlación es insuficiente para obtener una respuesta a la segunda cuestión: se limita a indicar la fuerza de la asociación mediante un único número, tratando las variables de modo simétrico, mientras que nosotros estaríamos interesados en modelizar dicha relación y usar una de las variables para explicar la otra. Para tal propósito se recurrirá a la técnica de regresión. Aquí analizaremos el caso más sencillo en el que se considera únicamente la relación entre dos variables. Así mismo, nos limitaremos al caso en el que la relación que se pretende modelizar es de tipo lineal.
Interpretación de los coeficientes de regresión y la tabla Anova
En la ecuación general de la recta de regresión, b es la pendiente de la recta y al valor de la variable dependiente Y para el que X = 0. En consecuencia, una vez estimados estos coeficientes, en la mayoría de las aplicaciones clínicas el valor de â no tendrá una interpretación directa, mientras que el valor servirá como un indicador del sentido de asociación entre ambas variables: así, nos indicará una relación directa entre ellas (a mayor valor de la variable explicativa, el valor de la variable dependiente Y aumentará), delatará una relación de tipo inverso, mientras que nos indica que no existe una relación lineal clara entre ambas variables. Así mismo, y tal y como se deduce de la ecuación de la recta de regresión, el coeficiente b nos da una estimación del cambio por término medio en la variable Y por cada unidad en que se incrementa X. Al igual que ocurre con otros estimadores, existirá cierta incertidumbre en el cálculo de las estimaciones, que se podrá reflejar mediante intervalos de confianza para ambos valores, construidos bajo la hipótesis de normalidad de los residuos, mediante las expresiones:
donde denota al cuantil de orden ß de una distribución t de Student con n-2 grados de libertad.
De igual forma, podemos limitar esta incertidumbre realizando un test para contrastar la hipótesis de que b=0 mediante el cociente y comparando éste con la distribución t de Student con n-2 grados de libertad. De modo análogo se llevaría a cabo un contraste para la hipótesis a=0. El hecho de que el test no resulte significativo indicará la ausencia de una relación clara de tipo lineal entre las variables, aunque pueda existir una asociación que no sea captada a través de una recta.
Técnicas de regresión
REGRESIÓN LINEAL MÚLTIPLE: La mayoría de los estudios clínicos conllevan la obtención de datos en un número más o menos extenso de variables. En algunos casos el análisis de dicha información se lleva a cabo centrando la atención en pequeños subconjuntos de las variables recogidas utilizando para ello análisis sencillos que involucran únicamente técnicas bivariadas. Un análisis apropiado, sin embargo, debe tener en consideración toda la información recogida o de interés para el profesional y requiere de técnicas estadísticas multivariados más complejas. En particular, hemos visto como el modelo de regresión lineal simple es un método sencillo para analizar la relación lineal entre dos variables cuantitativas. Sin embargo, en la mayoría de los casos lo que se pretende es predecir una respuesta en función de un conjunto más amplio de variables, siendo necesario considerar el modelo de regresión lineal múltiple como una extensión de la recta de regresión que permite la inclusión de un número mayor de variables.
Análisis de supervivencia
Los datos proporcionados por los estudios clínicos se expresan en múltiples ocasiones en términos de supervivencia. Esta medida no queda limitada a los términos de vida o muerte, sino a situaciones en la que se mide el tiempo que transcurre hasta que sucede un evento de interés, como puede ser tiempo de recurrencia, tiempo que dura la eficacia de una intervención, tiempo de un aprendizaje determinado, etc. Por tanto, la supervivencia es una medida de tiempo a una respuesta, fallo, muerte, recaída o desarrollo de una determinada enfermedad o evento. El término supervivencia se debe a que en las primeras aplicaciones de este método de análisis se utilizaba como evento la muerte de un paciente.
En las enfermedades crónicas, tales como el cáncer, la supervivencia se mide como una probabilidad de permanecer vivo durante una determinada cantidad de tiempo. La supervivencia al año o a los 5 años son a menudo expresadas como indicadores de la severidad de una enfermedad y como pronóstico.
Conceptos básicos
La observación de cada paciente se inicia al diagnóstico (tiempo = 0) y continua hasta la muerte o hasta que el tiempo de seguimiento se interrumpe. Cuando el tiempo de seguimiento termina antes de producirse la muerte o antes de completar el período de observación se habla de paciente “censurado”.
El periodo de seguimiento puede terminar por las siguientes razones:
* El paciente decide no participar más en el estudio y lo abandona.
* El paciente se pierde y no tenemos información.
* El estudio termina antes de aparecer el evento.
Cuando los tiempos de supervivencia no se conocen con exactitud, los datos se consideran censurados. No se conoce el tiempo hasta el suceso de interés (muerte, recaída) porque los individuos en el estudio pueden haberse perdido o retirado, o el suceso puede no haber ocurrido durante el período de estudio.
El seguimiento viene definido por una fecha de inicio y una fecha de cierre que determinan el tiempo de seguimiento. Las fechas de inicio y cierre son diferentes para cada individuo, pues los pacientes o personas incluidas en el estudio se incorporan en momentos diferentes.
En las observaciones incompletas (censuradas) el evento de interés no se ha producido, ya sea porque el estudio se finalizó antes de la aparición del evento, el paciente decide abandonar y no participar en el estudio, perdemos al paciente por cambio en el lugar de residencia, muerte no relacionada con la investigación, etc.
El tiempo de supervivencia se define como el tiempo transcurrido desde el acontecimiento o estado inicial hasta el estado final.
El estado inicial debe ser definido de manera que la fecha en que se produjo el evento pueda ser conocida exactamente (fecha de diagnóstico, fecha de la intervención quirúrgica, fecha de inicio de la radioterapia o quimioterapia, etc.). Como previamente se señaló las fechas correspondientes al estado inicial son diferentes para cada sujeto.
El acontecimiento o suceso estudiado también debe estar perfectamente definido para poder determinar exactamente la fecha del mismo. Este evento está casi siempre asociado a la muerte del paciente pero no tiene por que ser así, ya que puede hacer referencia también a la fecha de alta, la fecha de remisión de la enfermedad, la fecha de recidiva, la fecha de recaída o fallo, etc.
En caso de estudiar la supervivencia, el evento considerado no es que se produzca o no la muerte, sino la muerte relacionada con la enfermedad. Si consideramos una muerte no relacionada con la enfermedad introduciremos un sesgo de información. El paciente fallecido por una causa que no está vinculada al evento de interés debe ser considerado como censurado y computar su tiempo de seguimiento como incompleto o perdido.
En la última observación se deben registrar dos variables fundamentales, la primera es el estado del sujeto y la segunda es la fecha de la información de dicho estado. El período de tiempo transcurrido entre la fecha de entrada y la fecha de la última observación o contacto se conoce como tiempo de participación en el estudio. Si el paciente ha fallecido podremos con la fecha de defunción calcular el tiempo de supervivencia. Si el paciente está vivo a la fecha de la última observación se podrá calcular el tiempo incompleto o censurado aportado por dicho paciente.
Los factores que modifican la supervivencia de un paciente pueden ser variables fijas en el tiempo como el sexo, factores genéticos... o variables que se modifican en el tiempo como la intensidad de exposición a una dieta, los cigarrillos/día, las intervenciones o tratamientos, la recurrencia, etc.
Los requisitos necesarios para disponer de datos adecuados para un análisis de supervivencia son:
Definir apropiadamente el origen o inicio del seguimiento, la escala del tiempo, y el evento.
Limitaciones e imprecisiones de los datos: Los datos de nuestro estudio pueden estar sesgados por las censuras o los truncamientos.
* Génesis de censuras: Pérdidas de seguimiento o fin del estudio.
* Génesis de truncamientos: Entrada en el estudio después del hecho que define el origen.
Censuras:
* No se observan los eventos en todos los individuos (abandonos, pérdidas).
* No se espera lo suficiente... a que aparezca el evento.
Truncamientos: No se observa la ocurrencia de origen en todos los individuos. Se tendría que haber empezado con anterioridad ya que la enfermedad habría empezado antes.
Tipos de observaciones
La combinación de las observaciones previamente indicadas nos llevaría a poder tener en nuestros datos observaciones de diferentes tipos:
No truncada, no censurada:
El proceso se inicia en I pero el evento ocurre en t
* No truncada, censurada: El proceso se inicia en I pero el evento no se presenta durante el seguimiento realizado.
* Truncada, no censurada: Ya se tenía el proceso antes de entrar en el estudio (el diagnóstico o fecha de inicio está atrasada) y el evento se produce en t.
* truncada, censurada: Ya se tenía el proceso antes de entrar en el estudio, como en la situación anterior pero el evento no se presenta durante el seguimiento realizado.
En el análisis de la supervivencia asumimos un supuesto básico: los mecanismos del evento y censura son estadísticamente independientes, o el sujeto censurado en C es representativo de los que sobreviven en C. Es decir, los no censurados representan bien a los censurados.
Metodología estadística
El análisis de datos para estudios de supervivencia requiere métodos de análisis específicos por dos razones fundamentales:
Los investigadores muy frecuentemente analizan los datos antes de que todos los pacientes hayan muerto, ya que si no habría que esperar muchos años para realizar dichos estudios. Los datos aportados por los pacientes vivos, como se señaló previamente, son observaciones “censuradas” y deben considerarse como tales a la hora de analizarlas.
La segunda razón por la que se necesitan métodos especiales de análisis es porque típicamente los pacientes no inician el tratamiento o entran al estudio al mismo tiempo.
En la metodología estadística básica se señalaba la existencia de pruebas paramétricas y no paramétricas. En el análisis de supervivencia, el análisis de los datos puede ser realizado utilizando técnicas paramétricas y no paramétricas (Tabla 11):
Tabla 11. Pruebas paramétricas y no paramétricas
PARAMÉTRICAS
* Distribución exponencial.
* Distribución de Weibul.
* Distribución de lognomal.
NO PARAMÉTRICAS
* Regresión de Cox.
Los métodos estadísticos más utilizados son los no paramétricos. las curvas de supervivencia por lo general se producen usando uno de dos métodos: el análisis actuarial o el método del límite de producto de Kaplan-Meier.
El método Kaplan-Meier calcula la supervivencia cada vez que un paciente muere. El análisis actuarial divide el tiempo en intervalos y calcula la supervivencia en cada intervalo. El procedimiento Kaplan-Meier da proporciones exactas de supervivencia debido a que utiliza tiempos de supervivencia precisos; el análisis actuarial da aproximaciones, debido a que agrupa los tiempos de supervivencia en intervalos. Antes de que se extendiera el uso de ordenadores, el método actuarial era más fácil de usar para un número muy grande de observaciones.
El método actuarial implica dos premisas en los datos: la primera es que todos los abandonos durante un intervalo dado ocurren aleatoriamente durante dicho intervalo. Esta premisa es de escasa importancia cuando se analizan intervalos de tiempo cortos, sin embargo, puede haber un sesgo importante cuando los intervalos son grandes, si hay numerosos abandonos o si los abandonos no ocurren a mitad del intervalo. El método Kaplan-Meier supera estos problemas. La segunda premisa es que aunque la supervivencia en un tiempo dado depende de la supervivencia en todos los períodos previos, la probabilidad de la misma en un período de tiempo es independiente de la probabilidad de supervivencia en los demás períodos.
El método de Kaplan-Meier se utiliza cuando la muestra es menor de 30 y también para muestras mayores de 30 y se conocen los tiempos individuales de los censurados y no censurados.
Método de Kaplan-Meier: Conocido también como del “limite del producto”. La característica distintiva del análisis con este método es que la proporción acumulada que sobrevive se calcula para el tiempo de supervivencia individual de cada paciente y no se agrupan los tiempos de supervivencia en intervalos. Por esta razón es especialmente útil para estudios que utilizan un número pequeño de pacientes. El método de Kaplan-Meier incorpora la idea del tiempo al que ocurren los eventos.
La validez de este método descansa en dos suposiciones:
Las personas que se retiran del estudio tienen un destino parecido a las que quedan.
El período de tiempo durante el cual una persona entra en el estudio no tiene efecto independiente en la respuesta.
Ejemplo: Se recogieron los intervalos libres de enfermedad (tiempos de remisión) de 20 pacientes con osteosarcoma, a los que se trataba con 3 meses de quimioterapia después de amputación.
11 pacientes recayeron a los 6, 8, 10, 11, 12, 13, 13, 22, 32, 34, 36 meses.
8 pacientes se retiraron vivos al final del estudio contribuyendo 3, 7, 7, 11, 14, 16, 20, 20 meses de observación, sin haber sufrido recaídas.
Un paciente rehusó continuar la terapia a los 11 meses y se retiró del estudio libre de enfermedad.
Con estos datos se construye la Tabla 1 para calcular la proporción acumulativa que sobreviven hasta el tiempo t, o tasa de supervivencia acumulativa, de la siguiente forma:
Columna 1: Se hace una lista con todos los tiempos de supervivencia, censurada o no censurada, en orden de menor a mayor.
Se coloca un signo positivo al lado de cada observación censurada. Para observaciones censuradas y no censuradas que tienen el mismo tiempo de supervivencia, se debe colocar la observación no censurada primero.
Columna 2: Una vez ordenados de menor a mayor los datos, en esta columna se numeran las observaciones.
Columna 3: Colocar el número de orden (rango) de las observaciones no censuradas (eventos, en este ejemplo recaídas).
Columna 4: Calcular la proporción de pacientes que sobrevive a cada intervalo.
donde n es el tamaño de la muestra y r el rango no censurado.
Esta columna calcula la probabilidad de supervivencia para cada tiempo.
Columna 5: Calcular el estimador de la proporción acumulativa que sobrevive. Se realiza multiplicando los valores de la columna anterior (0,95 · 0,94 = 0,89).
De este modo, la probabilidad de vivir un cierto período de tiempo (hasta el instante t) desde el principio del estudio, es el producto de la probabilidad acumulada de sobrevivir hasta el período del tiempo anterior a t, (t-1), multiplicado por la probabilidad de sobrevivir
Comparación de dos curvas de supervivencia
Para comparar si las diferencias observadas en dos curvas de supervivencia pueden ser explicadas o no por el azar, debemos realizar un test estadístico. Si no hubiese observaciones censuradas la prueba no paramétrica de suma de rangos de Wilcoxon podría ser apropiada para comparar dos muestras independientes. Como la mayoría de las veces hay datos censurados debemos utilizar otras técnicas.
La prueba de la t de Student para datos independientes comparando la supervivencia en uno y otro grupo tampoco es apropiada, pues los tiempos de supervivencia no presentan una distribución normal.
Hay diversas pruebas para comparar distribuciones de supervivencia. Aquí señalaremos la prueba de logaritmo del rango (“logrank”). Para realizar esta prueba, existen a su vez diversos métodos.
Esta prueba compara en esencia el número de eventos (muertes, fracasos) en cada grupo con el número de fracasos que podría esperarse de las pérdidas en los grupos combinados. Se emplea la prueba del chi-cuadrado para analizar las pérdidas observadas y esperadas.
Para el cálculo se disponen los datos de tal forma que se objetive en cada grupo y en cada mes (años, etc.) los pacientes en riesgo y los eventos presentados.
Medidas de concordancia
EL ÍNDICE KAPPA: En cualquier estudio de investigación una cuestión clave es la fiabilidad de los procedimientos de medida empleados.
Tradicionalmente se ha reconocido una fuente importante de error de medida en la variabilidad entre observadores. Consecuentemente, un objetivo de los estudios de fiabilidad debe consistir en estimar el grado de dicha variabilidad.
En este sentido, dos aspectos distintos entran a formar parte típicamente del estudio de fiabilidad: de una parte, el sesgo entre observadores dicho con menos rigor, la tendencia de un observador a dar consistentemente valores mayores que otro y de otra, la concordancia entre observadores es decir, hasta qué punto los observadores coinciden en su medición.
La manera concreta de abordar el problema depende estrechamente de la naturaleza de los datos: si éstos son de tipo continuo es habitual la utilización de estimadores del coeficiente de correlación intraclase, mientras que cuando se trata de datos de tipo categórico el estadístico más empleado es el índice kappa, al que dedicamos el resto de este artículo.
ÍNDICE KAPPA: Supongamos que dos observadores distintos clasifican independientemente una muestra de n ítems en un mismo conjunto de C categorías nominales. El resultado de esta clasificación se puede resumir en una tabla, en la que cada valor xij representa el número de ítems que han sido clasificados por el observador 1 en la categoría i y por el observador 2 en la categoría j.
Desde un punto de vista típicamente estadístico es más adecuado liberarnos de la muestra concreta (los n ítems que son clasificados por los dos observadores) y pensar en términos de la población de la que se supone que ha sido extraída dicha muestra.
Estudio de la capacidad predictiva de una prueba diagnóstica
La medicina es una ciencia de probabilidades y un arte de manejar la incertidumbre. Dicha incertidumbre se extiende no sólo a las actividades preventivas, terapéuticas y pronosticas sino también a las diagnósticas. En las fases del proceso diagnóstico intervienen la historia clínica, la exploración física y la realización de pruebas complementarias1-2. Cuando existen varias hipótesis diagnósticas, se realizará el diagnóstico diferencial y las pruebas complementarias tratarán de aclarar las dudas existentes. Si solamente hay una sospecha diagnóstica, las pruebas complementarias tratarán de confirmarla. La realización simultánea de varias pruebas complementarias se denomina pruebas complementarias en paralelo y la realización de pruebas complementarias según los resultados de otras previas, se denomina pruebas complementarias en serie. Al realizar pruebas en paralelo aumenta la probabilidad de diagnosticar a un enfermo, pero también aumenta la probabilidad de considerar como enfermo a un sano. El riesgo de la realización de pruebas en serie es no diagnosticar a algunos enfermos. En cambio, pocos sanos serán considerados como enfermos.
Es evidente que una buena prueba diagnóstica es la que ofrece resultados positivos en enfermos y negativos en sanos. Por lo tanto, las condiciones que deben ser exigidas a un test son 3:
* Validez: Es el grado en que un test mide lo que se supone que debe medir. ¿Conque frecuencia el resultado del test es confirmado por procedimientos diagnósticos más complejos y rigurosos? La sensibilidad y la especificidad de un test son medidas de su validez.
* Reproductividad: es la capacidad del test para ofrecer los mismos resultados cuando se repite su aplicación en circunstancias similares. La variabilidad biológica del hecho observado, la introducida por el propio observador y la derivada del propio test, determinan su reproductividad.
* Seguridad: La seguridad viene determinada por el valor predictivo de un resultado positivo o negativo. ¿Con que seguridad un test predecirá la presencia o ausencia de enfermedad? Ante un resultado positivo de un test ¿qué probabilidad existe de que este resultado indique presencia de la enfermedad? Veremos posteriormente que esta probabilidad está muy influenciada por la prevalencia de la patología.
A su vez, es conveniente que el test sea sencillo de aplicar, aceptado por los pacientes o la población general, que tenga los mínimos efectos adversos y que económicamente sea soportable.
La validez de una prueba diagnóstica. Sensibilidad y Especificidad
El caso más sencillo que se nos puede plantear es el de una prueba dicotómica, que clasifica a cada paciente como sano o enfermo en función de que el resultado de la prueba sea positivo o negativo. En casos como éste, generalmente un resultado positivo se asocia con la presencia de enfermedad y un resultado negativo con la ausencia de la misma. Cuando se estudia una muestra de pacientes, los datos obtenidos permiten clasificar a los sujetos en cuatro grupos según una tabla 2x2. En ella, se enfrenta el resultado de la prueba diagnóstica (en filas) con el estado real de los pacientes (en columnas) o, en su defecto, el resultado de la prueba de referencia o “gold standard” que vayamos a utilizar. El resultado de la prueba puede ser correcto (verdadero positivo y verdadero negativo) o incorrecto (falso positivo y falso negativo). El análisis de su validez puede obtenerse calculando los valores de sensibilidad y especificidad:
* Sensibilidad: Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la capacidad del test para detectar la enfermedad.
Cuando los datos obtenidos a partir de una muestra de pacientes se clasifican en una tabla, es fácil estimar a partir de ella la sensibilidad como la proporción de pacientes enfermos que obtuvieron un resultado positivo en la prueba diagnóstica. Es decir, que también la sensibilidad se conozca como “fracción de verdaderos positivos (FVP)”.
* Especificidad: Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para un sujeto sano se obtenga un resultado negativo. En otras palabras, se puede definir la especificidad como la capacidad para detectar a los sanos.
Lo ideal sería trabajar con pruebas diagnósticas de alta sensibilidad y especificidad, pero esto no siempre es posible. En general, las pruebas de screening deben ser de alta sensibilidad para poder captar a todos los enfermos. Una prueba muy sensible será especialmente adecuada en aquellos casos en los que el no diagnosticar la enfermedad puede resultar fatal para los enfermos, como ocurre con enfermedades peligrosas pero tratables, como los linfomas o la tuberculosis, o en enfermedades en las que un falso positivo no produzca serios trastornos psicológicos o económicos para el paciente (por ejemplo, la realización de mamografía en el cáncer de mama).
Por otra parte, la especificidad se refiere, como se señaló previamente, a la probabilidad de que un sujeto sano sea clasificado adecuadamente. En general, las pruebas confirmatorias del diagnóstico deben ser de alta especificidad, para evitar falsos positivos. Los tests de alta especificidad son necesarios en enfermedades graves pero sin tratamiento disponible que las haga curables, cuando exista gran interés por conocer la ausencia de enfermedad o cuando diagnosticar a un paciente de un mal que realmente no padece pueda acarrear graves consecuencias, ya sean físicas, psicológicas o económicas (por ejemplo, en el caso del SIDA).
La seguridad de una prueba diagnóstica. Valores predictivos
Los conceptos de sensibilidad y especificidad permiten, por lo tanto, valorar la validez de una prueba diagnóstica. Sin embargo, carecen de utilidad en la práctica clínica. Tanto la sensibilidad como la especificidad proporcionan información acerca de la probabilidad de obtener un resultado concreto (positivo o negativo) en función de la verdadera condición del enfermo con respecto a la enfermedad. Sin embargo, cuando a un paciente se le realiza alguna prueba, el médico carece de información a priori acerca de su verdadero diagnóstico, y más bien la pregunta se plantea en sentido contrario: ante un resultado positivo (negativo) en la prueba, ¿cuál es la probabilidad de que el paciente esté realmente enfermo (sano)?. Resulta obvio que hasta el momento sólo hemos abordado el problema en una dirección. Por medio de los valores predictivos completaremos esta información:
* Valor predictivo positivo: Es la probabilidad de padecer la enfermedad si se obtiene un resultado positivo en el test. El valor predictivo positivo puede estimarse, por tanto, a partir de la proporción de pacientes con un resultado positivo en la prueba que finalmente resultaron estar enfermos:
* Valor predictivo negativo: Es la probabilidad de que un sujeto con un resultado negativo en la prueba esté realmente sano. Se estima dividiendo el número de verdaderos negativos entre el total de pacientes con un resultado negativo en la prueba:
Razones de probabilidad
La prevalencia es un factor determinante en los valores predictivos de un test. Por lo tanto, éstos, no pueden ser utilizados como índices a la hora de comparar dos métodos diagnósticos diferentes, ni tampoco a la hora de extrapolar los resultados de otros estudios a datos propios. Por ello, resulta necesario determinar otros índices de valoración que sean a la vez clínicamente útiles y no dependan de la prevalencia de la enfermedad en la población a estudiar. Así, además de los conceptos de sensibilidad, especificidad y valores predicitivos, se suele hablar del concepto de razón de verosimilitudes, razón de probabilidad, o cociente de probabilidades6. Estos miden cuánto más probable es un resultado concreto (positivo o negativo) según la presencia o ausencia de enfermedad:
* Razón de verosimilitudes positiva o cociente de probabilidades positivo: se calcula dividiendo la probabilidad de un resultado positivo en los pacientes enfermos entre la probabilidad de un resultado positivo entre los sanos. Es, en definitiva, el cociente entre la fracción de verdaderos positivos (sensibilidad) y la fracción de falsos positivos (1-especificidad).
* Razón de verosimilitudes negativa o cociente de probabilidades negativo: se calcula dividiendo la probabilidad de un resultado negativo en presencia de enfermedad entre la probabilidad de un resultado negativo en ausencia de la misma. Se calcula por lo tanto, como el cociente entre la fracción de falsos negativos (1-sensibilidad) y la fracción de verdaderos negativos (especificidad).
La razón de probabilidades ofrece la ventaja de que relaciona la sensibilidad y la especificidad de una prueba en un solo índice. Además, pueden obtenerse razones de probabilidad según varios niveles de una nueva medida y no es necesario expresar la información de forma dicotómica, como resultado de normal o anormal o bien positivo y negativo. Al igual que sucede con la sensibilidad y la especificidad, no varía con la prevalencia. Esto permite utilizarlo como índice de comparación entre diferentes pruebas para un mismo diagnóstico.
Hasta ahora hemos abordado el caso de una prueba con un resultado dicotómico (positivo o negativo), pero en muchas situaciones la confirmación de un diagnóstico debe hacerse a partir de un parámetro numérico, sobre todo cuando éste se realiza a partir de determinaciones analíticas. La generalización a estas situaciones se consigue mediante la elección de distintos valores de corte que permitan una clasificación dicotómica de los valores de la prueba según sean superiores o inferiores al valor elegido. La diferencia esencial con el caso más simple es que ahora contaremos no con un único par de valores de sensibilidad y especificidad que definan la exactitud de la prueba, sino más bien con un conjunto de pares correspondientes cada uno a un distinto nivel de decisión. La estrategia de análisis adecuada consistiría en representar gráficamente los pares (1-especificidad, sensibilidad) obtenidos al considerar todos los posibles valores de corte de la prueba, obteniéndose así una curva llamada curva ROC. El área bajo dicha curva se convierte así en el mejor indicador de la capacidad predictiva del test, independiente de la prevalencia de la enfermedad en la población de referencia y en base al cual se podrán establecer comparaciones entre diferentes pruebas diagnósticas.
En definitiva, es sumamente importante el saber valorar la validez y seguridad de las diferentes pruebas diagnósticas con el fin de seleccionar la más adecuada en cada momento. La sensibilidad, la especificidad y los valores predictivos son los criterios tradicionalmente utilizados para valorar la capacidad predictiva de un test. Los estudios de evaluación de tests diagnósticos son el instrumento adecuado para obtener esta información. No obstante, no debemos olvidar que existen determinados aspectos en el diseño de este tipo de investigaciones que pueden afectar a la precisión y a la validez de las estimaciones realizadas. Una vez más, el cálculo de intervalos de confianza puede ayudarnos a conocer la precisión de los índices calculados. La población de estudio, la estrategia de muestreo, la selección del criterio de referencia y la forma de aplicación de las pruebas diagnósticas serán algunos de los elementos a cuidar para evitar la presencia de sesgos.
Evaluación de pruebas diagnósticas
La toma de decisiones clínicas es un proceso extremadamente complejo en el que deberá finalmente ser valorada la utilidad para el manejo del paciente de cualquier prueba diagnóstica. En este contexto, es imprescindible conocer detalladamente la exactitud de las distintas pruebas diagnósticas, es decir, su capacidad para clasificar correctamente a los pacientes en categorías o estados en relación con la enfermedad (típicamente dos: estar o no estar enfermo, respuesta positiva o negativa a la terapia...).
Sensibilidad y especificidad
Generalmente, la exactitud diagnóstica se expresa como sensibilidad y especificidad diagnósticas. Cuando se utiliza una prueba dicotómica (una cuyos resultados se puedan interpretar directamente como positivos o negativos), la sensibilidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea el definido como positivo respecto a la condición que estudia la prueba, razón por la que también es denominada fracción de verdaderos positivos (FVP). La especificidad es la probabilidad de clasificar correctamente a un individuo cuyo estado real sea el definido como negativo. Es igual al resultado de restar a uno la fracción de falsos positivos (FFP).
Cuando los datos de una muestra de pacientes se clasifican en una tabla de contingencia por el resultado de la prueba y su estado respecto a la enfermedad, es fácil estimar a partir de ella la sensibilidad y la especificidad de la prueba. Lo que realmente obtenemos son estimaciones de los verdaderos valores de sensibilidad y especificidad para una población teórica de la que suponemos que nuestro grupo de pacientes constituye una muestra aleatoria. Por tanto, un tratamiento estadístico correcto de cantidades como las calculadas por el método descrito por la tabla 1 exigiría incluir medidas de su precisión como estimadores, y, mejor aún, utilizarlas para construir intervalos de confianza para los verdaderos valores de sensibilidad y especificidad.
Elección del valor de corte
El empleo en la práctica médica de una prueba diagnóstica exige la elección de un valor de corte. Para ello es imprescindible un conocimiento detallado de los riesgos y beneficios de las decisiones médicas derivadas del resultado de la prueba. Un enfoque sencillo que utiliza la razón de costes de un resultado falso positivo frente a un falso negativo, requiere calcular el coeficiente
donde P es la prevalencia de la enfermedad. El valor de corte óptimo se determina hallando el punto de la curva ROC (que supondremos suave) con la siguiente propiedad: la tangente a la curva en ese punto tiene pendiente m.
Incluso una formula sencilla como la anterior deja en evidencia que en la mayoría de los casos nuestra pretensión de calcular un valor de corte óptimo será excesiva, salvo que uno se contente con estimaciones imprecisas o puramente intuitivas
Investigación cuantitativa y cualitativa
El objetivo de cualquier ciencia es adquirir conocimientos y la elección del método adecuado que nos permita conocer la realidad es por tanto fundamental. El problema surge al aceptar como ciertos los conocimientos erróneos o viceversa. Los métodos inductivos y deductivos tienen objetivos diferentes y podrían ser resumidos como desarrollo de la teoría y análisis de la teoría respectivamente. Los métodos inductivos están generalmente asociados con la investigación cualitativa mientras que el método deductivo está asociado frecuentemente con la investigación cuantitativa.
Los científicos sociales en salud que utilizan abordajes cualitativos enfrentan en la actualidad problemas epistemológicos y metodológicos que tienen que ver con el poder y la ética en la generación de datos así como con la validez externa de los mismos.
La investigación cuantitativa es aquella en la que se recogen y analizan datos cuantitativos sobre variables. La investigación cualitativa evita la cuantificación. Los investigadores cualitativos hacen registros narrativos de los fenómenos que son estudiados mediante técnicas como la observación participante y las entrevistas no estructuradas. La diferencia fundamental entre ambas metodologías es que la cuantitativa estudia la asociación o relación entre variables cuantificadas y la cualitativa lo hace en contextos estructurales y situacionales. La investigación cualitativa trata de identificar la naturaleza profunda de las realidades, su sistema de relaciones, su estructura dinámica. La investigación cuantitativa trata de determinar la fuerza de asociación o correlación entre variables, la generalización y objetivación de los resultados a través de una muestra para hacer inferencia a una población de la cual toda muestra procede. Tras el estudio de la asociación o correlación pretende, a su vez, hacer inferencia causal que explique por qué las cosas suceden o no de una forma determinada.
Los fundamentos de la metodología cuantitativa podemos encontrarlos en el positivismo que surge en el primer tercio del siglo XIX como una reacción ante el empirismo que se dedicaba a recoger datos sin introducir los conocimientos más allá del campo de la observación. Alguno de los científicos de esta época dedicados a temas relacionados con las ciencias de la salud son Pasteur y Claude Bernard, siendo este último el que propuso la experimentación en medicina1. A principios del siglo XX, surge el neopositivismo o positivismo lógico siendo una de las aportaciones más importantes la inducción probabilística. La clave del positivismo lógico consiste en contrastar hipótesis probabilísticamente y en caso de ser aceptadas y demostradas en circunstancias distintas, a partir de ellas elaborar teorías generales. La estadística dispone de instrumentos cuantitativos para contrastar estas hipótesis y poder aceptarlas o rechazarlas con una seguridad determinada. Por tanto el método científico, tras una observación, genera una hipótesis que contrasta y emite posteriormente unas conclusiones derivadas de dicho contraste de hipótesis. El contrastar una hipótesis repetidamente verificada no da absoluta garantía de su generalización ya que, como señala Karl Popper, no se dispone de ningún método capaz de garantizar que la generalización de una hipótesis sea válida.
En el momento actual no hay ningún método que garantice que la generalización de una hipótesis sea válida, pero sí se puede rebatir una hipótesis con una sola evidencia en contra de ella
Ventajas e inconvenientes de los métodos
Las ventajas e inconvenientes de los métodos cuantitativos vs los cualitativos se muestran en la tabla. En general los métodos cuantitativos son muy potentes en términos de validez externa ya que con una muestra representativa de la población hacen inferencia a dicha población a partir de una muestra con una seguridad y precisión definida. Por tanto una limitación de los métodos cualitativos es su dificultad para generalizar. La investigación cuantitativa con los test de hipótesis no sólo permite eliminar el papel del azar para descartar o rechazar una hipótesis, sino que permite cuantificar la relevancia clínica de un fenómeno midiendo la reducción relativa del riesgo, la reducción absoluta del riesgo y el número necesario de pacientes a tratar para evitar un evento. La pregunta que evidentemente hacen los investigadores cualitativos a los cuantitativos es ¿cuan particularizables son tus generalidades...?
El seleccionar una u otra metodología puede depender de diferentes planteamientos: ¿Se busca la magnitud o la naturaleza del fenómeno?, ¿Se busca un promedio o una estructura dinámica?, ¿Se pretende descubrir leyes o comprender fenómenos humanos?.
El empleo de ambos procedimientos cuantitativos y cualitativos en una investigación probablemente podría ayudar a corregir los sesgos propios de cada método, pero el hecho de que la metodología cuantitativa se la más empleada no es producto del azar sino de la evolución de método científico a lo largo de los años. Creemos en ese sentido que la cuantificación incrementa y facilita la compresión del universo que nos rodea y ya mucho antes de los positivistas lógicos o neopositivistas Galileo Galilei afirmaba en este sentido "mide lo que sea medible y haz medible lo que no lo sea".
Tabla 12. Diferencias entre investigación cualitativa y cuantitativa
INVESTIGACIÓN CUALITATIVA
* Centrada en la fenomenología y comprensió del positivismo lógico.
* Observación naturista sin control
* Subjetiva
* Inferencias de sus datos
* Exploratoria, inductiva y descriptiva
* Orientada al proceso
* Datos "ricos y profundos"
* No generalizable.
* Holista
* Realidad dinámica
INVESTIGACIÓN CUANTITATIVA
* Basada en la inducción probabilística
* Medición penetrante y controlada
* Objetiva
* Inferencias más allá de los datos
* Confirmatoria, inferencial, deductiva
* Orientada al resultado
* Datos "sólidos y repetibles"
* Generalizable
* Particularista
*Realidad estática
Tabla 13. Ventajas e inconvenientes de los métodos cualitativos vs cuantitativos
| METODOS CUALITATATIVOS |
METODOS CUANTITATIVOS |
* Propensión a “comunicarse con” los sujetos del estudio.
* Se limita a preguntar
* Son fuertes en términos de validéz interna, pero son débiles en términos de validéz externa, lo que encuentran no es generalizable a la población.
* Preguntan a los cuantitativos: ¿Cuan particularizables son los hallazgos?.
|
* Propensión a “servirse de” los sujetos del estudio.
* Se limita a responder.
* Son débiles en términos de validéz interna, pero son fuertes en validez externa, lo que encuentran es generalizable a la población.
* Preguntan a los cualitativos: ¿Son generalizables tus hallazgos? |
Proceso de medición
La medición es un proceso inherente tanto a la práctica como a la investigación clínica. Mientras que algunas variables son relativamente sencillas de medir (como el peso o la tensión arterial) otras comportan cierto grado de subjetividad que hace especialmente difícil su medición, como la intensidad de dolor o el concepto de calidad de vida. En cualquier caso, el proceso de medición conlleva siempre algún grado de error. Existen factores asociados a los individuos, al observador o al instrumento de medida que pueden influir en la variación de las mediciones. En la medida de la temperatura corporal, por ejemplo, pueden aparecer errores en el registro debidos tanto al estado del paciente, como a defectos en el termómetro utilizado o a la objetividad del observador.
Cualquier estudio epidemiológico debe garantizar la calidad de sus mediciones, no sólo porque condicionará en gran medida la validez de sus conclusiones, sino por la importancia de las decisiones clínicas que se apoyen en esa investigación. La calidad de una medida depende tanto de su validez como de su fiabilidad. Mientras que la validez expresa el grado en el que realmente se mide el fenómeno de interés, la fiabilidad indica hasta qué punto se obtienen los mismos valores al efectuar la medición en más de una ocasión, bajo condiciones similares. El que una medida sea muy precisa no implica, sin embargo, que sea necesariamente válida. Así, si se realizan dos mediciones consecutivas de la presión arterial de un paciente con un esfigmomanómetro mal calibrado los valores obtenidos seguramente serán parecidos, aunque totalmente inexactos.
En los estudios que tratan de evaluar la validez de una medida se comparan sus resultados con los obtenidos mediante una prueba de referencia (gold standard) que se sabe válida y fiable para la medición del fenómeno de interés. Cuando el objetivo se centra en la fiabilidad de una medición, se repite el proceso de medida para evaluar la concordancia entre las distintas mediciones. En un estudio de la fiabilidad pueden valorarse los siguientes aspectos:
* Respetabilidad: indica hasta qué punto un instrumento proporciona resultados similares cuando se aplica a una misma persona en más de una ocasión, pero en idénticas condiciones.
* Concordancia intraobservador: tiene por objetivo evaluar el grado de consistencia al efectuar la medición de un observador consigo mismo.
* Concordancia interobservador: se refiere a la consistencia entre dos observadores distintos cuando evalúan una misma medida en un mismo individuo.
* Concordancia entre métodos de medición: cuando existen diferentes métodos de medida para un mismo fenómeno, es interesante estudiar hasta qué punto los resultados obtenidos con ambos instrumentos son equivalentes.
La concordancia entre variables es de sumo interés en la práctica clínica habitual.
La concordancia entre mediciones puede alterarse no sólo por la variabilidad de los observadores, sino por la variabilidad del instrumento de medida o por el propio proceso a medir si se realiza en momentos diferentes. Las técnicas de análisis de la concordancia dependen del tipo de variable a estudiar. El índice estadístico más utilizado, para el caso de variables cualitativas, es el coeficiente kappa. Si las variables son cuantitativas, se utiliza habitualmente el coeficiente de correlación intraclase. El concepto básico subyacente del coeficiente de correlación intraclase fue introducido originalmente por Fisher como una formulación especial de la r de Pearson, basándose en un modelo de análisis de la varianza. Las dificultades para interpretar desde el punto de vista clínico los valores de este coeficiente y otras desventajas metodológicas han hecho que algunos autores propongan métodos alternativos para estudiar la concordancia de este tipo de variables.
Técnicas de Análisis
* El coeficiente de correlación intraclase: Para el caso de variables cuantitativas, es frecuente que el análisis de la concordancia se aborde mediante técnicas estadísticas inapropiadas. Con frecuencia ha sido utilizado el cálculo del coeficiente de correlación de lineal (r) de Pearson como índice de concordancia. Sin embargo, ésta no resulta una medida adecuada del grado de acuerdo entre dos mediciones, ya que si dos instrumentos miden sistemáticamente cantidades diferentes uno del otro, la correlación puede ser perfecta (r=1), a pesar de que la concordancia sea nula. No se debe olvidar que el coeficiente de correlación de Pearson no proporciona información sobre el acuerdo observado, y solamente mide la asociación lineal entre dos variables. Así mismo, al calcularse a partir de los pares ordenados de mediciones, si varía el orden también cambia el valor del coeficiente, mientras que un cambio en las escalas de medida no afecta a la correlación pero sí afecta a la concordancia. A su vez, debemos mencionar que la idea de que si el coeficiente de correlación entre dos medidas es significativamente diferente de cero la fiabilidad es buena, es incorrecto. El coeficiente de correlación lineal puede ser muy pequeño y resultar significativo si el tamaño muestral es suficientemente grande. Por último, tampoco la comparación de medias mediante un test t de Student con datos apareados es una técnica adecuada para este tipo de análisis.
Desde el punto de vista matemático, el índice más apropiado para cuantificar la concordancia entre diferentes mediciones de una variable numérica es el llamado coeficiente de correlación intraclase (CCI). Dicho coeficiente estima el promedio de las correlaciones entre todas las posibles ordenaciones de los pares de observaciones disponibles y, por lo tanto, evita el problema de la dependencia del orden del coeficiente de correlación. Así mismo, extiende su uso al caso en el que se disponga de más de dos observaciones por sujeto. Una de las principales limitaciones del CCI es la dificultad de su cálculo, ya que debe ser estimado de distintas formas dependiendo del diseño del estudio. La forma de cálculo más habitual se basa en un modelo de análisis de la varianza (ANOVA) con medidas repetidas. La idea es que la variabilidad total de las mediciones se puede descomponer en dos componentes: la variabilidad debida a las diferencias entre los distintos sujetos y la debida a las diferencias entre las medidas para cada sujeto. Esta última, a su vez, depende de la variabilidad entre observaciones y una variabilidad residual o aleatoria asociada al error que conlleva toda medición. El CCI se define entonces como la proporción de la variabilidad total que se debe a la variabilidad de los sujetos.
En la actualidad el valor del CCI puede obtenerse de modo directo con algunos programas informáticos como el SPSS.
A pesar de ser la medida de concordancia más adecuada par el caso de variables numéricas, el CCI presenta ciertas limitaciones. Junto a la dificultad inherente a su cálculo, el hecho de que se trate de una prueba paramétrica limita su uso al caso en el que se verifiquen las hipótesis necesarias. A saber: variables distribuidas según una normal, igualdad de varianzas e independencia entre los errores de cada observador. Así mismo, el valor del CCI depende en gran medida de la variabilidad de los valores observados: cuanto más homogénea sea la muestra estudiada, más bajo tenderá a ser el valor del CCI. Pero quizás lo que más ha limitado la difusión del uso del CCI en la literatura médica es la carencia de interpretación clínica, que ha propiciado la aparición de otros métodos de análisis, mucho más intuitivo y fácilmente interpretables, que se exponen a continuación.
* Análisis de las diferencias individuales: método de Bland y Altman: Un sencillo procedimiento gráfico para evaluar la concordancia entre dos sistemas de medida es el propuesto por Bland y Altman. Dicho procedimiento consiste en representar gráficamente las diferencias entre dos mediciones frente a su media.
Un aspecto muy importante de la metodología de Bland y Altman es que proporciona además unos límites de concordancia a partir del cálculo del intervalo de confianza para la diferencia de dos mediciones. Como es bien sabido, el intervalo de dos desviaciones estándar alrededor de la media de las diferencias incluye el 95% de las diferencias observadas. Estos valores deben compararse con los límites de concordancia que se hayan establecido previamente al inicio del estudio para concluir si las diferencias observadas son o no clínicamente relevantes.
Otros métodos de análisis
Distintos autores han propuesto algunas técnicas alternativas para el análisis de la concordancia para mediciones numéricas, principalmente desde un punto de vista gráfico, que vienen a complementar el método de Bland y Altman. Una propuesta sencilla y muy reciente se basa en construir una gráfica, similar a las de Kaplan-Meier que se utilizan en el análisis de supervivencia, donde en el eje horizontal se representa la diferencia absoluta entre dos mediciones para cada sujeto y en el eje vertical la proporción de casos en los que las discrepancias igualan al menos cada una de las diferencias observadas. La gráfica se construye así igual que en un análisis de supervivencia, donde ningún caso es censurado, y el papel de la variable “tiempo” lo juega aquí la diferencia absoluta entre las mediciones. Al igual que el método propuesto por Bland y Altman, el principal atractivo de esta alternativa es que permite expresar sus resultados gráficamente, relacionándolos con unos límites de concordancia preestablecidos según criterios clínicos antes del estudio, lo que los hace especialmente atractivos para los profesionales sanitarios. Así mismo, permite contrastar si el grado de acuerdo depende de alguna otra covariable, construyendo gráficos independientes, uno para cada nivel de la variable. Incluso es posible utilizar el test del log-rank para testar la existencia de diferencias significativas entre esas curvas. No obstante, al trabajar con las diferencias absolutas, este método, al contrario que el de Bland y Altman, no permite observar si existe una diferencia sistemática a favor de alguna de las dos técnicas u observadores, y tampoco comprobar si la magnitud de dicha diferencia se modifica con relación a la magnitud de la medida. En definitiva, el problema del análisis de la concordancia en el caso de variables numéricas puede abordarse según diferentes metodologías. Lejos de recomendar el uso estándar de alguna de estas técnicas, más bien deben considerarse como métodos de análisis que ofrecen información complementaria. En cualquier caso, es conveniente insistir una vez más en la conveniencia de garantizar la validez y fiabilidad de los instrumentos de medida utilizados habitualmente en la práctica e investigación clínica. No debemos olvidar que un estudio bien diseñado, ejecutado y analizado fracasará si la información que se obtiene es inexacta o poco fiable.
Conclusiones
El método científico es el pilar de la actividad desarrollada por el equipo de salud. Un gran número de profesionales durante sus años de formación no ha incorporado conceptos de metodología de la investigación, y esta es de suma importancia para llevar a cabo proyectos de investigación, y para comprender y valorar la bibliografía a nuestro alcance.
Bibliografía
1) Dawason Saunders B, Trapp R., “Bioestadística Médica”. Editorial el Manual Moderno, México 1993.
2) Greenland S, “Invited commentary: a Critical look al some popular meta analytic methods. Am J. Epidemiol, 1994.
3) Hulley S., Cummings S., “Diseño de la Investigación clínica”. Editorial Harcourt Brace Publishers, Madrid 1997.
4) Matthews D., Farewell V., “Estadística Médica”. Editorial Salvat, 2da edición, Barcelona 1990.
5) Polit D, Hungler B, “Investigación científica en Ciencias de la Salud”. Editorial Interamericana, México 1998.
6) Portney L., Watkins M., “Foundations of Clinical Research: Applications to practice”. Norwalk, Connecticut, 1993
7) Riegelman R., Hirsch R.P., “Studying a study and testing a test: how to read the medical literature.” Little, Brown and company, Boston, Second Edition, 1989.
8) www.bireme.br |