Correlation does not mean causation…..in images

Interesting page showing with some examples the above mention “statistics law”…..

http://www.businessinsider.com/spurious-correlations-by-tyler-vigen-2014-5

http://www.tylervigen.com/

funny correlation

 

And, please, read this…related with anti-causation examples:

http://stats.stackexchange.com/questions/36/examples-for-teaching-correlation-does-not-mean-causation

And, definitively, go to Google correlate…an experiment of Google to give search fequencies for topics that correlate with search frequencies for a topic that you provide:

http://www.google.com/trends/correlate/

 

 

 

 

Test de hipótesis

Escribo esto para poner en orden las ideas necesarias para hacer un test de hipótesis:

  • Hipótesis nula H_0 : Se asume que no pasa nada, por ejemplo si somos unos descubridores científicos, la hipótesis nula es que no hemos descubierto nada, lo visto es parte de lo normal, nada pasa, todo está igual….nada de nada
  • Hipótesis alternativa H_1 : Hemos descubierto algo, algo relevante ha pasado.
  • Error tipo 1: Hemos dicho que hemos descubierto algo cuando es mentira, Nos hemos precipitado, Pasado de listos. Falso positivo
  • Error tipo 2: Se nos ha pasado un descubrimiento. Había algo relevante que deberíamos haber descubierto y se nos ha pasado. Falso negativo. No nos hemos dado cuenta……
  • Significancia: Probabilidad de error tipo 1. También se llama {\huge \alpha}
  • Potencia: Es la probabilidad de no tener un error de tipo 2. Es decir, es la probabilidad de que habiendo algo que descubrir lo descubramos.     También se llama:   {\huge 1-\beta} .    Donde {\huge \beta} es la probabilidad de tener un error de tipo 2.
  • Un test de hipotesis siempre se basa en establecer:
    • Un estadístico: es decir un valor asociado a los datos de muestreo que tengo. Es decir una función de \mathbb{R}^n  en \mathbb{R} , donde \text {n}  es el número de datos en el muestreo. Es una forma de representar con un solo dato todos los valores recolectados. Por supuesto, como los valores recolectados son aleatorios el estadístico también es un numero aleatorio, el cual tendrá su función de distribución de probabilidad.
    • Una función de distribución del estadístico: Es necesario conocer la función de distribución del estadístico para poder dar valores de confianza en la decisión tomada. Esta función suele ser una t-student o una \chi^2 , etc…
    • Un umbral: Es decir un número real. Si el estadístico supera el umbral damos como buena la hipótesis alternativa y si no lo supera nos quedamos con la hipótesis nula. Dependiendo del test el umbral lo tendremos que superar por arriba, por abajo o por arriba y abajo. Independientemente de como superemos el umbral, a la zona en donde el umbral esta superado se le llama región critica y a esta región critica se le puede asociar una probabilidad (el área bajo la curva de la función de distribución de probabilidad del estadístico correspondiente a la región critica). Esta probabilidad asociada a la distribución de probabilidad del estadístico en la región critica es el error de tipo 1. Generalmente lo hacemos al revés, es decir dado el error de tipo 1 (que es: \alpha) y conociendo la función de distribución de probabilidad del estadístico sacamos el umbral.
    • p-value:  El p-value es la probabilidad obtenida usando la función de distribución de probabilidad del estadístico de superar o igualar el valor del estadístico obtenido. Es decir, si mis datos al aplicárselos al estadístico me dan un valor del estadístico V, entonces: 1-quantile(V) = p-value, donde el quantile se refiere a la función de distribución de probabilidad del estadístico ( es uno menos el valor pues el quantile me da la probabilidad de menos infinito a V y yo quiero la probabilidad de V a infinito)
  • Una cosa importante.  El umbral lo establecemos sobre la función de distribución de probabilidad del estadístico, esto lo digo porque hay realmente 3 funciones de distribución de probabilidad: 1)la probabilidad de obtener los datos de muestreo dado H_0, 2)la probabilidad de obtener los datos de muestreo dado H_1  y 3) la probabilidad de obtener el valor del estadístico dados los datos de muestreo . La probabilidad de que el estadístico supere el umbral es igual a \alpha , la misma \alpha que se corresponde con la probabilidad de que los datos de muestreo dado H_0 superen otro umbral, pero son umbrales diferentes. De hecho el umbral del estadístico es un número real, mientras que el otro umbral será en general una superficie sobre \mathbb{R}^n.
  • El estadístico de un test de hipótesis lleva por lo tanto información de los datos de muestreo y de las hipótesis que queremos comprobar, es por así decirlo una función compacta para reducir la complejidad desde las funciones de distribución de probabilidad de los datos de muestreo asociados a H_0H_1 a una función de distribución mas sencilla sobre \mathbb{R} en lugar de \mathbb{R}^n.

 

Multinomial logistic regression with mlogit (R)

I have been trying to use the mlogit package from R and it is really difficult. I pass here some notes to make it easier the next time:

  • The formula expression has 3 parts what it is really strange at first. The best explanation is here:

http://cran.r-project.org/web/packages/mnlogit/vignettes/mnlogit.pdf

,in chapter 2.4. Actually the different parts are a way to distribute the variables between variables that vary with the subject (the person or thing that does the choose) or variables that varies with the chooser plus the alternative value choosen.

  • Before using the training data you have to pass it through the mgit.data function to transform it in a long format
  • You have to pass also the test data through the mgit.data function and you have to make sure that you have a column for the variable that you want to predict (the value is indiferent), you have to say also the possible alternative values using alt.val
  • The result is given in probability matrix format for which you have to choose the value with highest probability

References: http://cran.r-project.org/web/packages/mlogit/vignettes/mlogit.pdf http://cran.r-project.org/web/packages/mlogit/vignettes/Exercises.pdf http://www.inside-r.org/packages/cran/mlogit/docs/suml http://elsa.berkeley.edu/books/train1201.pdf    ,for reference to the theory http://cran.r-project.org/web/packages/mnlogit/vignettes/mnlogit.pdf http://www.utstat.toronto.edu/~brunner/oldclass/312f12/lectures/MultinomialLogitWithR.pdf http://www.stat.columbia.edu/~martin/W2024/R11.pdf http://stats.stackexchange.com/questions/9962/multiclass-logistic-regression-with-mlogit-in-r http://stats.stackexchange.com/questions/6702/predict-after-running-the-mlogit-function-in-r