Modelizando Variación Muestral

En las actividades y asignaciones del curso, has utilizado modelos de probabilidad para generar resultados aleatorios. También has aprendido a utilizar la simulación Monte Carlo para generar muchos conjuntos de datos a partir de un modelo dado. Este es el mismo tipo de proceso que realizan las personas investigadoras, científicas y las personas profesionales en estadística cuando evalúan (o prueban) hipótesis sobre el mundo.

Para ilustrar las ideas subyacentes a las pruebas de hipótesis, piense en cómo podrías probar si una moneda es justa (no trucada). Podrías haber sugerido algo parecido a “lanzar la moneda muchas veces y llevar la cuenta del número de caras y cruces”. Supongamos que lanzas la moneda 100 veces y el resultado es 53 caras y 47 cruces ¿Diría que la moneda es “injusta”? ¿Y si en lugar de eso hubieras obtenido 65 caras y 35 colas? ¿Diría ahora que la moneda es “injusta”? ¿Y si hubieras obtenido 84 caras y sólo 16 colas?

El primer resultado de 53 caras y 47 cruces probablemente no te pareció tan descabellado, y probablemente te sentirías conforme diciendo que la moneda que produjo tal resultado es, muy probablemente, “justa”. Por otro lado, los resultados de 65 caras y 35 cruz—y especialmente 84 caras y 16 cruz—probablemente te hicieron sentir inconforme a la hora de declarar que la moneda es “justa”.

¿Por qué sucede esto? Porque tienes un modelo mental de la distribución de caras y cruces que esperas cuando la moneda realmente ES “justa”. Si el resultado observado de los 100 lanzamientos de la moneda es compatible con el modelo de una moneda “justa”, podría concluir que la moneda es “justa”. Por ejemplo, el resultado de 53 caras de 100 lanzamientos se aproxima mucho a la proporción 50:50 de caras y cruces, y probablemente se pueda afirmar que una moneda “justa” podría haber producido el conjunto de lanzamientos en cuestión. En este caso, los datos son compatibles con el modelo de “moneda justa”.

Si el resultado observado se desvía de lo esperado según el modelo de una moneda “justa”, por ejemplo los dos resultados de 65 caras y 84 caras, se podría acabar rechazando la hipótesis de que la moneda era “justa”. En estos dos casos, los datos son incompatibles (o al menos mucho menos compatibles) con el modelo de “moneda justa”.

Una cosa de la que te habrás dado cuenta es que esperamos variaciones en los resultados sólo por el azar (aleatoriedad). Aunque la moneda fuera realmente “justa”, no esperamos obtener exactamente 50 caras cada vez que lanzamos 100 veces la moneda. Esta variación en el número de caras que obtenemos cada vez que lanzamos 100 veces la moneda se denomina variación muestral; es la variación que surge porque estamos generando diferentes muestras del modelo (o población).

Saber algo sobre cuánta variación de muestreo se espera es la forma en que podemos juzgar si los datos son compatibles o incompatibles con el modelo; es la razón por la que crees que 53 caras serían compatibles con una moneda “justa”, pero 65 caras parecen menos compatibles con ese modelo, y 84 caras aún menos. Por suerte, podemos obtener una indicación de cuánta variación muestral cabe esperar utilizando la simulación de Montecarlo.

Procesos de Simulacion para Evaluar Hipotesis

El proceso que utilizaremos para evaluar una hipótesis es el siguiente:

  1. Crear un modelo que se ajuste a la hipótesis que se desea evaluar.
  2. Utilice el modelo seleccionado para generar muchos, muchos conjuntos de datos (simulación Monte Carlo). Los resultados que recoja y agrupe de estos ensayos te darán una idea de la variación que cabría esperar según el modelo hipotetizado.
  3. Evalúe si los resultados observados en los datos reales (no en los simulados) son compatibles con los resultados esperados del modelo. Esto actúa como prueba de apoyo (o no apoyo) de la hipótesis.

Para ayudarte a recordar este proceso, puedes utilizar la siguiente simplificación:

  • Modelizar
  • Simular
  • Evaluar

Puede parecer un proceso sencillo, pero en la práctica puede resultar bastante complejo&mdash sobre todo cuando se leen artículos de investigación y se intenta interpretar los resultados. En primer lugar, en la mayoría de los artículos de investigación no suele proporcionarse ni describirse explícitamente el modelo seleccionado. A menudo se deja al lector la tarea de averiguar cuál era el modelo supuesto. Al principio, esto puede ser bastante difícil, pero como la mayoría de las tareas, a medida que adquiera experiencia en este curso y lea más investigaciones, descubrirá que hay un conjunto común de modelos que suelen utilizar las personas investigadoras.

El modelo que utilice en la simulación Monte Carlo está directamente relacionado con la hipótesis que formule sobre una pregunta de investigación. A menudo, los investigadores formulan explícitamente hipótesis sobre sus preguntas de investigación. Las hipótesis no son más que enunciados de posibles explicaciones para un conjunto de datos observados. Por ejemplo, una posible explicación para el conjunto observado de lanzamientos de monedas es:

La moneda utilizada para generar el conjunto de lanzamientos observados es una moneda “justa”, lo que produciría (a largo plazo) una distribución uniforme de caras y colas.

Una complicación que puede encontrar es que muchas personas profesionaes en estadística y personas investigadoras escriben sus hipótesis matemáticamente. La ventaja de escribir una hipótesis matemáticamente es que define explícitamente el modelo que se utilizará en la simulación de Monte Carlo. Consideremos la hipótesis de que la moneda utilizada para generar el conjunto de lanzamientos observados es una moneda “justa” que produce una distribución uniforme de cara y cruz. Recordemos que producir una distribución uniforme de caras y colas significa que las caras y las colas tienen la misma probabilidad según este modelo (es decir, una división 50:50). Podríamos expresar esta hipótesis más matemáticamente como:

El modelo produce caras (y colas) con una probabilidad de 0,5.

Simbólicamente, expresaríamos esta hipótesis como:

\[ H_0: \pi_{\mathrm{Cara,~Cruz}} = 0.5 \]

El símbolo \(H_0\) es común e indica una hipótesis sobre un modelo. Aquí, \(\pi\) es la letra griega pi y significa “probabilidad” o “proporción”. (Normalmente, en la notación simbólica para hipótesis, pi no es la constante matemática de 3,14). Las personas profesionales en estadística suelen utilizar letras griegas para identificar las probabilidades de los resultados de un modelo.9 En esta hipótesis, estamos estableciendo que el modelo que estamos evaluando genera caras (y cruces) con una probabilidad de 0,5. Observe cómo el modelo está completamente definido utilizando la notación matemática. La hipótesis establece que el modelo tiene dos resultados potenciales (cara y cruz), y que la probabilidad de cada uno es 0,5. Es genial, ¿no?

Además de aprender sobre algunos de los modelos más comunes utilizados en la investigación, también aprenderás a describir y cuantificar formalmente la variación en una distribución. Esto es útil para evaluar si un resultado concreto de los datos observados es compatible con los resultados obtenidos a partir de un modelo determinado. Por último, aprenderás conceptos erróneos comunes sobre la evaluación de modelos (por ejemplo, nunca podemos decir que un modelo produjo los datos, sólo que produce resultados compatibles con los datos), y cómo utilizar el lenguaje probabilístico al dar una “respuesta” a una pregunta de investigación.


  1. Letras griegas frente a romanas
    Letras griegas se utilizan cuando se describen los parámetros de un modelo. Por el contrario, las letras romanas se utilizan para describir los resultados observados. Por ejemplo, regrese a la situación en la que los datos observados consistieron en 53 caras y 47 cruces de 100 lanzamientos de una moneda.

    Aquí diríamos \(p_{\mathrm{cara}} = 0,53\). La hipótesis sobre el modelo que estamos evaluando produce cara con una probabilidad de 0,5, por lo que \(\pi_{\mathrm{cara,~cruz}} = 0,5\).

    En lugar de usar las letras romanas, algunos estadísticos prefieren poner un “sombrero” en la letra griega para referirse al resultado observado. Por ejemplo, \(\hat{\pi}_{\mathrm{Cara}}=0,53\).

    En este curso no nos interesa tanto qué notación utilice para expresar el resultado observado en los datos reales. De hecho, podría ser menos confuso si solo escribe, el resultado observado es 0.53.↩︎