Estudios Observacioneles y el la Prueba de Bootstrap

En algunos estudios, las personas investigadoras no asignan a las personas participantes a grupos/condiciones. Un ejemplo de ello es el segundo estudio descrito en Evidencia de Validez y conclusiones: Alergias al cacahuete. En este estudio, los dos grupos comparados, madres que comieron cacahuetes durante el embarazo y madres que no comieron cacahuetes durante el embarazo, no fueron asignados por los investigadores — se “autoseleccionaron” en los grupos en función de si comieron o no cacahuetes durante el embarazo. Cuando las personas participantes en el estudio no son asignados a las condiciones por un investigador, el estudio se denomina estudio observacional.

Las conclusiones que una persona investigadora puede extraer de un estudio observacional son mucho más débiles. Normalmente, no se pueden extraer conclusiones de causa y efecto a partir de los datos recogidos en estudios observacionales. Esto se debe a que siempre existe la posibilidad de explicaciones alternativas.

Extraer conclusiones causales de un estudio observacional es engañoso e incluso puede considerarse poco ético. En 1988, los resultados hechos públicos a partir de la Encuesta Nacional Domiciliaria sobre el Abuso de Drogas crearon la falsa percepción de que fumar crack estaba relacionado con el origen étnico. El análisis, que se basaba en datos observacionales (las personas investigadoras no pueden asignar la raza) mostraba que las tasas de consumo de crack entre personas negras e hispanas eran el doble que entre las personas blancas. Los datos fueron analizados de nuevo en 1992 por personas investigadoras de la Universidad Johns Hopkins para tener en cuenta factores sociales como el lugar de residencia de los consumidores y la facilidad con la que se podía obtener la droga. Descubrieron que, tras ajustar estos factores, no había diferencias entre personas negras, hispanas y blancas en el consumo de crack.

Analizando Datos de Estudios Observacionales

Aunque probablemente no pueda extraer una inferencia de causa y efecto, sigue siendo útil estudiar y analizar los datos observacionales. Los estudios observacionales suelen ser precursores de los estudios aleatorizados— recuerde que un criterio de causa es que exista correlación y los datos observacionales sirven para examinar la correlación.

Para analizar los datos de un estudio observacional, las personas investigadoras utilizan métodos similares a los que emplean para los datos de un estudio en el que las personas participantes fueron asignados aleatoriamente a grupos. Sin embargo, la diferencia clave es que la variación en los resultados no se debe a la variación experimental. Resulta que la variación es más parecida a la variación de muestreo. Esto significa que tenemos que adaptar nuestra prueba de aleatorización para tener en cuenta la variación de muestreo en lugar de la variación experimental.

Para tener en cuenta la variación de muestreo en la prueba de aleatorización, cambiamos la opción reemplazo para que la variable de resultado se muestree con reemplazo. Tenga en cuenta que las etiquetas de grupo aún deben ser muestreadas sin reemplazo. (Queremos modelar el mismo número de personas participantes en cada grupo que en cualquier dato observacional).

Muestrear con reemplazo los valores de los resultados aumentará la variación de los resultados simulados (mayor desviación típica de los valores medios). Este aumento de la variación es compatible con el muestreo a partir de una población mayor. El muestreo con reemplazo a partir de los datos observados se denomina bootstrapping. Posteriormente, esta prueba se denomina prueba de bootstrap. La tabla siguiente muestra una comparación entre la prueba de aleatorización y la prueba bootstrap.

Prueba	Variación Modelizada	TinkerPlots™
Aleatorización	Variación Experimental	Dos dispositivos de muestreo: (1) resultado (muestreo sin reemplazo); y (2) etiqueta de grupos (muestreo sin reemplazo)
Bootstrap	Variación Muestrak	Dos dispositivos de muestreo: (1) resultado (muestreo con reemplazo); y (2) etiqueta de grupos (muestreo con reemplazo)