Test de hipótesis

Escribo esto para poner en orden las ideas necesarias para hacer un test de hipótesis:

  • Hipótesis nula H_0 : Se asume que no pasa nada, por ejemplo si somos unos descubridores científicos, la hipótesis nula es que no hemos descubierto nada, lo visto es parte de lo normal, nada pasa, todo está igual….nada de nada
  • Hipótesis alternativa H_1 : Hemos descubierto algo, algo relevante ha pasado.
  • Error tipo 1: Hemos dicho que hemos descubierto algo cuando es mentira, Nos hemos precipitado, Pasado de listos. Falso positivo
  • Error tipo 2: Se nos ha pasado un descubrimiento. Había algo relevante que deberíamos haber descubierto y se nos ha pasado. Falso negativo. No nos hemos dado cuenta……
  • Significancia: Probabilidad de error tipo 1. También se llama {\huge \alpha}
  • Potencia: Es la probabilidad de no tener un error de tipo 2. Es decir, es la probabilidad de que habiendo algo que descubrir lo descubramos.     También se llama:   {\huge 1-\beta} .    Donde {\huge \beta} es la probabilidad de tener un error de tipo 2.
  • Un test de hipotesis siempre se basa en establecer:
    • Un estadístico: es decir un valor asociado a los datos de muestreo que tengo. Es decir una función de \mathbb{R}^n  en \mathbb{R} , donde \text {n}  es el número de datos en el muestreo. Es una forma de representar con un solo dato todos los valores recolectados. Por supuesto, como los valores recolectados son aleatorios el estadístico también es un numero aleatorio, el cual tendrá su función de distribución de probabilidad.
    • Una función de distribución del estadístico: Es necesario conocer la función de distribución del estadístico para poder dar valores de confianza en la decisión tomada. Esta función suele ser una t-student o una \chi^2 , etc…
    • Un umbral: Es decir un número real. Si el estadístico supera el umbral damos como buena la hipótesis alternativa y si no lo supera nos quedamos con la hipótesis nula. Dependiendo del test el umbral lo tendremos que superar por arriba, por abajo o por arriba y abajo. Independientemente de como superemos el umbral, a la zona en donde el umbral esta superado se le llama región critica y a esta región critica se le puede asociar una probabilidad (el área bajo la curva de la función de distribución de probabilidad del estadístico correspondiente a la región critica). Esta probabilidad asociada a la distribución de probabilidad del estadístico en la región critica es el error de tipo 1. Generalmente lo hacemos al revés, es decir dado el error de tipo 1 (que es: \alpha) y conociendo la función de distribución de probabilidad del estadístico sacamos el umbral.
    • p-value:  El p-value es la probabilidad obtenida usando la función de distribución de probabilidad del estadístico de superar o igualar el valor del estadístico obtenido. Es decir, si mis datos al aplicárselos al estadístico me dan un valor del estadístico V, entonces: 1-quantile(V) = p-value, donde el quantile se refiere a la función de distribución de probabilidad del estadístico ( es uno menos el valor pues el quantile me da la probabilidad de menos infinito a V y yo quiero la probabilidad de V a infinito)
  • Una cosa importante.  El umbral lo establecemos sobre la función de distribución de probabilidad del estadístico, esto lo digo porque hay realmente 3 funciones de distribución de probabilidad: 1)la probabilidad de obtener los datos de muestreo dado H_0, 2)la probabilidad de obtener los datos de muestreo dado H_1  y 3) la probabilidad de obtener el valor del estadístico dados los datos de muestreo . La probabilidad de que el estadístico supere el umbral es igual a \alpha , la misma \alpha que se corresponde con la probabilidad de que los datos de muestreo dado H_0 superen otro umbral, pero son umbrales diferentes. De hecho el umbral del estadístico es un número real, mientras que el otro umbral será en general una superficie sobre \mathbb{R}^n.
  • El estadístico de un test de hipótesis lleva por lo tanto información de los datos de muestreo y de las hipótesis que queremos comprobar, es por así decirlo una función compacta para reducir la complejidad desde las funciones de distribución de probabilidad de los datos de muestreo asociados a H_0H_1 a una función de distribución mas sencilla sobre \mathbb{R} en lugar de \mathbb{R}^n.

 

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s