Ensayo controlado aleatorizado

Una prueba controlada aleatorizada o ensayo controlado aleatorizado (en inglés, randomized controlled trial, RCT) es un tipo de experimento científico usado principalmente para conocer el efecto de las medicinas u otros tipos de tratamiento no médicos sobre una población. Se considera la forma más fiable de evidencia científica porque si se implementa correctamente puede eliminar todos los posibles sesgos en la estimación del efecto del tratamiento. Los RCT se utilizan principalmente en investigación clínica y en ciencias sociales.

La idea básica de una prueba controlada aleatorizada es ofrecer, de manera aleatoria, el tratamiento a un grupo de individuos (grupo de tratamiento) y a otro no (grupo de control o de comparación). La aleatorización consiste en dar a todas las unidades dentro de una población apta la misma probabilidad de recibir el tratamiento. Las propiedades estadísticas de la aleatorización permiten que tanto el grupo de tratamiento como el grupo de control tengan características idénticas y, de esta manera, se pueda identificar el impacto que el tratamiento tiene sobre el grupo que lo recibió respecto al que no lo recibió. La aleatorización permite saber que dicho impacto identificado es realmente atribuible al tratamiento y no a otras causas, porque al haber hecho idénticos a los grupos de manera previa, lo único que difiere entre ellos es el hecho de tener o no tener el tratamiento. De esta manera se minimizan los sesgos de factores ajenos al tratamiento en la estimación del efecto que este produce sobre la población que lo recibe.^[2]

Cuando las pruebas controladas aleatorizadas se implementan de manera correcta, sus resultados pueden ser representativos de la población mayor de la cual los sujetos fueron asignados aleatoriamente al tratamiento. Esto hace posible afirmar que los resultados tienen validez externa y, de encontrarse que el tratamiento es efectivo, podría replicarse y expandirse a una población mayor y esperarse un éxito similar.^[3]

A lo largo de la historia es posible identificar diversos estudios que recogen características de las pruebas controladas aleatorizadas (RCT),^[4] en su mayoría ensayos clínicos. Así, por ejemplo, el Libro de Daniel en el Antiguo Testamento narra el experimento que el jefe de los eunucos hizo para comprobar que los rostros saludables de Daniel y sus hombres se debían a una dieta vegetariana (Daniel 1:12-16). La prueba consistió en que, durante diez días, un grupo de hombres del jefe de los eunucos se alimentó de legumbres y agua, mientras que a otro grupo semejante se le dio comida del rey y vino. Al cabo de los diez días, los rostros del primer grupo de hombres eran visiblemente más saludables que los del segundo, con lo que el jefe de los eunucos aseveró el efecto positivo de la dieta vegetariana. A partir de este resultado, decidió modificar la dieta de sus hombres.^[5]

Otra prueba de la que se tiene registro es la que emprendió James Lind en 1747 para evaluar la eficacia de los cítricos en el tratamiento del escorbuto.^[6] Lind seleccionó doce individuos con síntomas de escorbuto y características semejantes, a los cuales suministró tratamientos diferentes: naranjas y limones, sidra, elixir vitriólico (ácido sulfúrico diluido), vinagre, agua de mar y un purgante recomendado por un hospital. Después de seis días, los mejores y más rápidos resultados se presentaron en las personas tratadas con naranjas y limones, seguidos por los que tomaron sidra. Con ello, Lind demostró la eficacia de los cítricos para el tratamiento de escorbuto.

Si bien las pruebas controladas aleatorizadas tuvieron su origen en ensayos clínicos, para el siglo XX su aplicación se expandió a otras áreas, como la psicología, la educación y la agricultura. Dentro de estos campos destacaron los trabajos de C. S. Sanders Peirce y J. Jastrow^[7] en 1884 y J. Neyman y Ronald A. Fisher en la década de 1920. Por haber aplicado la técnica de la asignación aleatoria del tratamiento en sus experimentos agrícolas, Fisher es reconocido como pionero en haber popularizado los RCT^[8] y haber dado los primeros pasos para su aplicación en la evaluación de programas de desarrollo social.^[4] No obstante, la conceptualización contemporánea del RCT corresponde a Sir Austin Bradford Hill, quien formalizó la metodología de las pruebas en sus estudios sobre el efecto de la estreptomicina en la tuberculosis pulmonar durante la década de los años cuarenta.^[9]

En los años siguientes, el uso de las pruebas controladas aleatorizadas se expandió de manera significativa hacia aplicaciones en ciencias sociales, principalmente en economía y estadística para evaluar el impacto de programas gubernamentales.^[10] En la década de 1970 surgieron debates —todavía vigentes— sobre las complejidades técnicas y operativas para poder realizar este tipo de estudios, así como los altos costos de implementarlos en contextos no clínicos. Por estas razones, su uso estuvo por mucho tiempo limitado a los países desarrollados. No obstante, cada vez más se ha extendido su uso hacia los países en desarrollo, en parte promovidos por organismos internacionales, bancos multilaterales de desarrollo y agencias de cooperación internacional.^[4]

Por ejemplo, en la década de 1990, el gobierno mexicano implementó un RCT para evaluar el impacto de PROGRESA, un programa para combatir la pobreza mediante transferencias monetarias condicionadas.^[11] En Kenia, Michael Kremer y la organización International Christelijk Steunfonds evaluaron el impacto de libros de texto en el rendimiento de estudiantes mediante un RCT.^[12]

De manera paralela a estos desarrollos en el área de política pública, en Canadá, un grupo de científicos realizó esfuerzos para mejorar la calidad de los reportes de pruebas controladas aleatorizadas en el campo de la salud. Así, en 1993 publicaron los “Estándares consolidados para reportar pruebas clínicas”.^[13] Este documento incluyó 32 estándares y un diagrama de flujo sobre aspectos que los autores debían tomar en cuenta al momento de reportar los resultados de sus RCT. En 2001 y 2010 se publicaron revisiones y actualizaciones a la declaración de 1993.

Actualmente numerosas organizaciones alrededor del mundo promueven la utilización de RCT para conocer el efecto de diversos programas de desarrollo. El Banco Mundial, el Banco Interamericano de Desarrollo y otros bancos de desarrollo, un sinnúmero de universidades, así como el Abdul Latif Jameel Poverty Action Lab (J-PAL), Innovations for Poverty Action (IPA), la International Initiative for Impact Evaluation (3ie) y The Campbell Collaboration han desarrollado o promovido numerosos RCT alrededor del mundo para generar evidencia rigurosa que informe la mejor toma de decisiones de política pública.^[14] El trabajo de estas organizaciones, así como la cada vez mayor disponibilidad de datos, los avances tecnológicos y la reducción de costos de transporte y comunicación han contribuido a una mayor difusión de los RCT alrededor del mundo como una herramienta efectiva para hacer políticas públicas basadas en evidencia.^[4]

Las pruebas pueden ser abiertas o ciegas.

En una prueba abierta, los investigadores conocen todos los detalles del tratamiento, así como los pacientes. Estas pruebas tienen riesgo de sesgo y no reducen el efecto placebo. Sin embargo, muchas veces son inevitables, particularmente en relación a técnicas quirúrgicas, donde no puede ser posible o ético ocultar al paciente qué tratamiento recibió.

En una prueba con ciego único, el investigador conoce los detalles del tratamiento pero el paciente no. Como el paciente no sabe qué tratamiento está recibiendo (el tratamiento nuevo u otro) no debería haber efecto placebo. En la práctica, como el investigador sabe, es posible que trate en forma diferente a los pacientes o en forma subconsciente oculte a los pacientes detalles importantes relacionados al tratamiento, influyendo de esta forma en los resultados del estudio.

En una prueba de doble ciego, un investigador designa una serie de números al tratamiento nuevo o al tratamiento antiguo en forma aleatoria. El segundo investigador asigna los números a los pacientes, pero no conoce a qué grupo corresponden. En este sistema, existe también a menudo una distribución más realista en cuanto a sexo y edad de los pacientes participantes. Por lo tanto, las pruebas con doble ciego o aleatorizadas son las preferidas, dado que tienden a entregar los mejores resultados.

Algunas pruebas controladas aleatorizadas son consideradas de triple ciego, aunque el significado de esto puede variar de acuerdo al diseño exacto de cada estudio. El significado más común es que tanto el paciente, la persona que administra el tratamiento y el investigador no conocen a qué grupo pertenece el paciente. Estas precauciones adicionales se relacionan con el término "doble ciego" que es más comúnmente usado, siendo infrecuente la denominación "triple ciego". Sin embargo, denota un nivel adicional de seguridad para prevenir influencias externas en los resultados del estudio por cualquier otro sujeto involucrado en el estudio.

Los RCT desempeñan un papel importante en la regulación de medicinas y en el desarrollo de dispositivos médicos. Por ejemplo, la Administración de Alimentos y Medicamentos de los Estados Unidos (en inglés, Food and Drug Administration, FDA) requiere que cualquier desarrollo de nuevos medicamentos y de dispositivos médicos demuestre evidencia de seguridad y eficacia antes de aprobarse para salir al mercado.^[15] Las empresas farmacéuticas cuentan con grandes departamentos de investigación clínica en donde continuamente se implementan RCT para probar la efectividad de tratamientos innovadores. El uso de RCT ha sido especialmente frecuente en el desarrollo de las investigaciones en el tratamiento del cáncer, enfermedades cardiovasculares, hipertensión, hiperlipidemia, arteriopatía coronaria, cirugías y en neurocirugía. ^[15]

Un ejemplo del uso de pruebas controladas aleatorizadas sobre procesos terapéuticos es el que elaboraron Andersen, Shelby y Golden-Kreuz sobre la eficacia de las intervenciones psicológicas para pacientes con cáncer. Estos esfuerzos bioconductuales y de salud contribuyeron a una literatura poco explorada: la asociación entre el uso de un tratamiento médico y el apoyo grupal, y los resultados físicos de un tratamiento médico invasivo recibido. Los resultados de la investigación sugieren que los pacientes que recibieron el tratamiento de apoyo y de cohesión grupal presentaron menor angustia sobre la enfermedad y menores síntomas en comparación con el grupo de control. En ese sentido, este estudio presentó un avance en el análisis de los mecanismos de cambio bioconductual mediante una intervención psicológica no invasiva. ^[16]

El uso de las pruebas controladas aleatorizadas es especialmente frecuente en economía. En junio de 2019, la Asociación Estadounidense de Economía registró 2,552 pruebas realizadas en 135 países. ^[17] En el campo de la economía, Banerjee ha sido un autor prolífero en el uso de pruebas controladas aleatorizadas. Sus esfuerzos han sido determinantes para el auge de esta herramienta en el cuestionamiento de las teorías de cambio existentes (véase Banerjee et al.). ^[18] En 2015, Banerjee y otros autores ^[19] publicaron un artículo que cuestionó la evidencia causal sobre el impacto y efectividad del uso de microcréditos como herramienta para el desarrollo de las comunidades. Los autores desarrollaron seis evaluaciones aleatorizadas e identificaron los efectos causales del acceso ampliado a microcrédito en diferentes comunidades con prestatarios locales en diferentes países, como Bosnia-Herzegovina, Etiopía, India, México, Mongolia y Marruecos. Los resultados mostraron que existe un patrón consistente de efectos positivos, pero no necesariamente transformadores.

Una de las ramas con mayor uso de RCT ha sido la educación, por ello, en la literatura es posible encontrar varios ejemplos de pruebas que indagan sobre qué elementos contribuyen a un sistema educativo más efectivo y eficiente.

Al respecto, uno de los estudios pioneros fue el realizado en la escuela preescolar Perry entre 1962 y 1967. ^[20] El Perry Preschool Project consistió en un programa de preescolar de alta calidad, ofrecido de manera aleatoria y controlada a niños de ascendencia afrodescendiente en contextos de desventaja en Míchigan, Estados Unidos.^[21] En el experimento, una muestra de 123 niños entre 3 y 4 años, en situación de pobreza y con un alto riesgo de deserción escolar, fue dividida aleatoriamente en dos grupos del mismo tamaño. El grupo de tratamiento ingresó al programa preescolar de alta calidad basado en el enfoque de aprendizaje activo de High/Scope, mientras que el grupo de comparación no recibió educación preescolar. A los niños que participaron en el programa se les dio seguimiento sistemático hasta los 40 años. Finalmente, los resultados a largo plazo mostraron efectos positivos en el logro educativo, ingresos y actividad criminal en los adultos que habían ingresado al preescolar. Los hallazgos del RCT fueron de mucha relevancia para establecer el valor financiero y el efecto positivo a largo plazo de la educación temprana en el logro educativo de niños en condiciones de pobreza. ^[22] ^[23]

Otro ejemplo de RCT aplicado a educación es la prueba realizada en 2008 a estudiantes de escuelas secundarias en Ghana, cuya finalidad fue estimar el efecto de becas en el desempeño y logro educativo de los estudiantes. En esta prueba fueron entregadas, de manera aleatoria, 682 becas entre 2,064 estudiantes admitidos en alguna escuela secundaria. Ocho años después, los resultados mostraron que las becas tienen un efecto positivo: los estudiantes que obtuvieron beca tenían mayor probabilidad de cursar más años de secundaria y completar ese nivel educativo que los que no la tuvieron, además de que tenían, en promedio, mejores calificaciones en lectura y matemáticas. ^[24]

Por último, otro RCT relevante en el área de educación es la prueba que se llevó a cabo en una zona rural de Kenia para estimar el efecto de los libros de texto en el desempeño de los estudiantes. Contrario a lo que señalaba la literatura —que proveer libros de texto no mejora el puntaje promedio de los estudiantes—, los resultados del RCT demostraron que, si bien los libros de texto tienen poco efecto en el puntaje promedio, sí logran incrementar el de los mejores estudiantes. Esta investigación fue relevante porque permitió cuestionar la eficiencia de un sistema educativo centralizado, como el de Kenia y otros países en desarrollo, el cual está limitado para atender la heterogeneidad socioeconómica y de preparación educativa de la población y, por la cual, la malla curricular y los libros de texto terminan orientados hacia estudiantes académicamente fuertes. ^[25]

En años recientes, el uso de la metodología experimental ha emergido como el medio central para la evaluación de intervenciones de cooperación internacional. ^[26] ^[27] El uso del RCT ha logrado posicionarse como uno de los instrumentos más utilizado por los expertos en organizaciones internacionales para medir el impacto de las intervenciones para el desarrollo ^[28] y su auge se debe, entre otras cosas, a la economización de la ayuda y a la proliferación de organizaciones no gubernamentales, ^[26] así como al aumento de la participación de estas agencias en temas de desarrollo, como la educación y el medio ambiente.

Un ejemplo de RCT vinculado a la cooperación internacional es el experimento realizado por el Centro de Investigación de Desarrollo Internacional de Ottawa en cuatro centros de salud de la Red Latinoamericana de Investigación Perinatal y Reproductiva. La prueba consistió en evaluar el efecto del apoyo social y psicológico en mujeres con embarazo de alto riesgo tanto en el proceso de alumbramiento como en las condiciones de salud del recién nacido. En estos cuatro centros, 2235 mujeres con un riesgo superior al promedio de dar a luz a un bebé con bajo peso al nacer fueron reclutadas antes de la semana 20 de embarazo. De manera aleatoria, 1115 mujeres fueron asignadas a un grupo de intervención que recibió de cuatro a seis visitas domiciliarias de una enfermera o trabajador social; mientras que las 1120 mujeres restantes fueron asignadas a un grupo de control que recibió sólo atención prenatal de rutina. Los hallazgos del RCT demostraron que la intervención no mejoró la salud maternal ni las condiciones de salud del infante con respecto del grupo que no recibió apoyo social y psicológico. ^[29]

El uso de las pruebas controladas aleatorizadas también ha tenido auge en la evaluación de impacto de programas de política social, particularmente los dirigidos a la reducción de la pobreza. Así, en la evaluación de un programa, un RCT a menudo comienza como una “prueba piloto” a pequeña escala para averiguar si la intervención funciona o no. Esto ofrece la oportunidad de introducir la experimentación desde antes de que el programa se implemente a gran escala, para decidir si es conveniente continuarlo y ampliarlo, o abandonarlo antes de que se ofrezca a una población mayor. Asimismo, el RCT se aplica para la evaluación del impacto del programa, cuando este ya fue implementado a gran escala, para determinar su efectividad.

Un ejemplo de aplicación de RCT en programas sociales es la prueba que se implementó en México para introducir el programa PROGRESA (Programa de Educación, Salud, Alimentación), cuyo objetivo fue reducir la transmisión intergeneracional de la pobreza mediante transferencias monetarias condicionadas a la realización de actividades encaminadas al desarrollo de capital humano.^[30] El RCT consistió en la aleatorización de 505 comunidades dentro de las comunidades aptas del país para estimar el efecto de transferencias monetarias condicionadas en el mejoramiento de morbilidad, desarrollo infantil y anemia antes de que el programa fuera elevado a escala nacional. Los resultados del RCT demostraron que PROGRESA tenía un efecto positivo en la salud de los niños de las familias beneficiarias del programa.^[31] Asimismo, otros hallazgos mostraron que las comunidades beneficiarias de PROGRESA tenían mayores tasas de matriculación escolar de niños en situación de pobreza, que las tasas de las comunidades no beneficiarias del programa.^[30]

Otro ejemplo, es el caso del estudio realizado por Jessica Cohen y Pascaline Dupas sobre la política de prevención de la malaria en Kenia, donde las personas en situación de pobreza son las más afectadas por esta enfermedad. El experimento consistió en seleccionar aleatoriamente 16 clínicas para recibir mosquiteros tratados con insecticida a un precio subsidiado (de 85 a 100% del precio de mercado) y cuatro clínicas de comparación en las que no se distribuyeron los mosquiteros. Además, dentro de cada clínica, se ofreció aleatoriamente un descuento adicional a algunas mujeres que ya habían decidido comprar el mosquitero. Los resultados del RCT mostraron que no hay evidencia que confirme que compartir los costos del mosquitero aumente la intensidad de su uso; que las mujeres que accedieron a precios subsidiados no eran más propensas a usarlos que las mujeres que los recibieron gratis. Asimismo, los resultados sugirieron que la distribución gratuita de los mosquiteros es más eficiente y costo-efectiva que ofrecerlos a un precio subsidiado (es decir compartir el costo con los beneficiarios).^[32]

En la ciudad de Nueva York, por ejemplo, en 2010 se condujo un RCT para estimar el efecto del Programa HomeBase para la prevención de la situación de calle ^[33] en el uso de albergues y servicios básicos por parte de las familias. El programa HomeBase consiste en una red de centros vecinales que ayudan a los hogares a evitar el desamparo y situación de calle, los cuales proporcionan ayuda financiera, capacitación laboral y atención de trabajadores sociales, entre otras medidas. En la prueba se aleatorizó la asignación del programa entre un grupo de 295 familias con alto grado de riesgo de quedarse sin hogar: 150 en el grupo de tratamiento y 145 en el grupo de control. Los resultados demostraron que las familias que se beneficiaron del programa pasaron menos tiempo en albergues —22.6 noches menos que el grupo de control — y que, incluso, tuvieron menos probabilidades de solicitar su ingreso a un albergue.^[34] ^[35]

El cumplimiento parcial se refiere a la situación en la que algunos participantes de la prueba controlada aleatorizada no reciben, o reciben parcialmente, el tratamiento que se les asignó. El cumplimiento parcial tiene lugar en los siguientes casos:

El cumplimiento parcial es una amenaza al diseño experimental porque imposibilita la estimación del verdadero impacto del programa al reducir la comparabilidad entre los grupos de tratamiento y de control, así como reducir la brecha entre las tasas reales de cumplimiento entre los grupos.

El desgaste es la ausencia de datos porque los investigadores no pueden recopilar algunas o todas las mediciones de los resultados para algunas personas en la muestra, lo cual ocasiona un problema de pérdida de dato. El desgaste sucede cuando los participantes salen del programa y ya no se les puede medir; cuando todavía están participando, pero no se les puede se les puede medir porque se niegan a cooperar, no quieren ser entrevistados o no se pueden localizar; también cuando se niegan a responder algunas de las preguntas porque las consideran sensibles o simplemente porque la encuesta es muy larga y ya están cansados de responder.

El desgaste es una amenaza al RCT porque la comparabilidad de los grupos de tratamiento y de control puede debilitarse si las tasas de desgaste o los tipos de desgaste difieren entre los grupos de tratamiento y de comparación. Además, el desgaste disminuye el poder estadístico para detectar el impacto del tratamiento o programa.

Los efectos indirectos son los efectos de un tratamiento o programa sobre las personas que no han sido tratadas. Además, son comunes y naturales. Estos efectos pueden ser positivos o negativos y ocurrir en canales físicos (por ejemplo, los niños inmunizados por un programa o tratamiento reducen la transmisión de enfermedades en su comunidad), conductuales (una persona no tratada puede imitar técnicas que las personas tratadas aprendieron), de información (una persona no tratada se entera de conocimientos por la comunicación con otras personas que recibieron este conocimiento mediante un tratamiento o programa) o de equilibrio general (por ejemplo, cuando un programa de incentivos económicos para la contratación de jóvenes provoca que los trabajadores viejos pierdan sus empleos).

Los efectos indirectos son una amenaza porque pueden reducir la calidad del contrafactual, dado que personas fuera del grupo de tratamiento pueden experimentar efectos del tratamiento o del programa. Asimismo, si no se tienen en cuenta los efectos indirectos positivos del tratamiento, se puede subestimar su impacto o, por el contrario, si son negativos, sobreestimarlo.

En el caso de las evaluaciones bajo un diseño experimental, el hecho de ser parte de la evaluación puede cambiar la conducta de las personas, independientemente del tratamiento que se les asigne. En este sentido, la conducta puede tomar al menos seis formas principales:

Los efectos inducidos por la evaluación representan una amenaza porque pueden debilitar el poder para detectar el efecto del tratamiento, reducir la aplicabilidad generalizada de los resultados, disminuir la comparabilidad de los grupos de tratamiento y control, así como sesgar las estimaciones de los impactos de un programa o tratamiento.

Dentro de las preocupaciones que genera el uso de las pruebas controladas aleatorizadas se encuentran los asuntos éticos, tales como el consentimiento informado, la negación del acceso de un programa, la ponderación de los riesgos y beneficios del programa, así como los diferentes puntos de vista culturales.

El consentimiento informado se refiere a la obtención del permiso de las personas para hacerlas parte de la prueba una vez que se les explicó de qué trata la investigación, y este apela al principio del respeto por las personas. En función del nivel de riesgo de la prueba y el tipo de población participante, puede requerirse el consentimiento oral o por escrito de las personas. Así, por ejemplo, un consentimiento oral podría ser benéfico para las personas analfabetas pues permitiría incluirlos en el grupo de tratamiento. No obstante, si el consentimiento informado es difícil de conseguir o puede debilitar la validez de la prueba, se puede optar por dejar de aplicar las reglas del consentimiento informado o, bien, solamente dar información parcial a los participantes de la prueba.

En el caso de programas públicos, surgen dos preocupaciones éticas con respecto de la negación del acceso al programa. Por un lado, si la asignación aleatoria de un programa causa daño a las personas a las que se le negó el acceso al programa y, por otro, cuáles son las implicaciones de poner a prueba programas de los que se desconocen sus riesgos o beneficios en las poblaciones vulnerables. Con respecto de la primera preocupación, el argumento a favor de la ética del RCT es que, si no se conocen los beneficios de un programa, ponerlo a prueba antes de escalarlo a un mayor número de personas es benéfico para la sociedad. Ahora bien, con respecto de la segunda preocupación, el argumento es que, si bien existen riesgos para los que experimentan el programa primero, es pertinente poner en la balanza esos riesgos contra los beneficios para la sociedad de comprender mejor los efectos del programa.

La apreciación sobre la ética varía entre países. Por ello, para la implementación de una prueba controlada aleatorizada deben tomarse en cuenta las opiniones de lo que es ético en el lugar específico donde se esté llevando a cabo la prueba, ya sea a nivel nacional o loca, incluso a nivel institucional. Al respecto, muchos países cuentan con guías de ética que recogen la visión cultural particular de cada sociedad, las cuales son de mucha utilidad para los investigadores que conducen RCT.