The German Tank Problem

The problem of estimating the maximum of a discrete uniform distribution from sampling data is known in English as the German tank problem:

How to solve it in a bayesian way with python:


Correlation does not mean causation… images

Interesting page showing with some examples the above mention “statistics law”…..

funny correlation


And, please, read this…related with anti-causation examples:

And, definitively, go to Google correlate…an experiment of Google to give search fequencies for topics that correlate with search frequencies for a topic that you provide:





Test de hipótesis

Escribo esto para poner en orden las ideas necesarias para hacer un test de hipótesis:

  • Hipótesis nula H_0 : Se asume que no pasa nada, por ejemplo si somos unos descubridores científicos, la hipótesis nula es que no hemos descubierto nada, lo visto es parte de lo normal, nada pasa, todo está igual….nada de nada
  • Hipótesis alternativa H_1 : Hemos descubierto algo, algo relevante ha pasado.
  • Error tipo 1: Hemos dicho que hemos descubierto algo cuando es mentira, Nos hemos precipitado, Pasado de listos. Falso positivo
  • Error tipo 2: Se nos ha pasado un descubrimiento. Había algo relevante que deberíamos haber descubierto y se nos ha pasado. Falso negativo. No nos hemos dado cuenta……
  • Significancia: Probabilidad de error tipo 1. También se llama {\huge \alpha}
  • Potencia: Es la probabilidad de no tener un error de tipo 2. Es decir, es la probabilidad de que habiendo algo que descubrir lo descubramos.     También se llama:   {\huge 1-\beta} .    Donde {\huge \beta} es la probabilidad de tener un error de tipo 2.
  • Un test de hipotesis siempre se basa en establecer:
    • Un estadístico: es decir un valor asociado a los datos de muestreo que tengo. Es decir una función de \mathbb{R}^n  en \mathbb{R} , donde \text {n}  es el número de datos en el muestreo. Es una forma de representar con un solo dato todos los valores recolectados. Por supuesto, como los valores recolectados son aleatorios el estadístico también es un numero aleatorio, el cual tendrá su función de distribución de probabilidad.
    • Una función de distribución del estadístico: Es necesario conocer la función de distribución del estadístico para poder dar valores de confianza en la decisión tomada. Esta función suele ser una t-student o una \chi^2 , etc…
    • Un umbral: Es decir un número real. Si el estadístico supera el umbral damos como buena la hipótesis alternativa y si no lo supera nos quedamos con la hipótesis nula. Dependiendo del test el umbral lo tendremos que superar por arriba, por abajo o por arriba y abajo. Independientemente de como superemos el umbral, a la zona en donde el umbral esta superado se le llama región critica y a esta región critica se le puede asociar una probabilidad (el área bajo la curva de la función de distribución de probabilidad del estadístico correspondiente a la región critica). Esta probabilidad asociada a la distribución de probabilidad del estadístico en la región critica es el error de tipo 1. Generalmente lo hacemos al revés, es decir dado el error de tipo 1 (que es: \alpha) y conociendo la función de distribución de probabilidad del estadístico sacamos el umbral.
    • p-value:  El p-value es la probabilidad obtenida usando la función de distribución de probabilidad del estadístico de superar o igualar el valor del estadístico obtenido. Es decir, si mis datos al aplicárselos al estadístico me dan un valor del estadístico V, entonces: 1-quantile(V) = p-value, donde el quantile se refiere a la función de distribución de probabilidad del estadístico ( es uno menos el valor pues el quantile me da la probabilidad de menos infinito a V y yo quiero la probabilidad de V a infinito)
  • Una cosa importante.  El umbral lo establecemos sobre la función de distribución de probabilidad del estadístico, esto lo digo porque hay realmente 3 funciones de distribución de probabilidad: 1)la probabilidad de obtener los datos de muestreo dado H_0, 2)la probabilidad de obtener los datos de muestreo dado H_1  y 3) la probabilidad de obtener el valor del estadístico dados los datos de muestreo . La probabilidad de que el estadístico supere el umbral es igual a \alpha , la misma \alpha que se corresponde con la probabilidad de que los datos de muestreo dado H_0 superen otro umbral, pero son umbrales diferentes. De hecho el umbral del estadístico es un número real, mientras que el otro umbral será en general una superficie sobre \mathbb{R}^n.
  • El estadístico de un test de hipótesis lleva por lo tanto información de los datos de muestreo y de las hipótesis que queremos comprobar, es por así decirlo una función compacta para reducir la complejidad desde las funciones de distribución de probabilidad de los datos de muestreo asociados a H_0H_1 a una función de distribución mas sencilla sobre \mathbb{R} en lugar de \mathbb{R}^n.


Multinomial logistic regression with mlogit (R)

I have been trying to use the mlogit package from R and it is really difficult. I pass here some notes to make it easier the next time:

  • The formula expression has 3 parts what it is really strange at first. The best explanation is here:

Haz clic para acceder a mnlogit.pdf

,in chapter 2.4. Actually the different parts are a way to distribute the variables between variables that vary with the subject (the person or thing that does the choose) or variables that varies with the chooser plus the alternative value choosen.

  • Before using the training data you have to pass it through the function to transform it in a long format
  • You have to pass also the test data through the function and you have to make sure that you have a column for the variable that you want to predict (the value is indiferent), you have to say also the possible alternative values using alt.val
  • The result is given in probability matrix format for which you have to choose the value with highest probability

References:    ,for reference to the theory

What are orthogonal polynomial and how are used in linear regression models

Well, I am doing the Coursera StatsLearning course from Stanford and I didn´t understand the use of orthogonal polynomials in a linear regression model.

After much looking around on the web I have finally understood how all is connected.

In linear regression you try to find the coefficients \alpha_j that reduce the sum of squared erros from: y_i=\alpha_0+ \alpha_1 x_i+....+\alpha_j x_i^j where i spans to all the samples we have, and j spans the polynomial degree we are using to fit the data.

When we use orthogonal polynomial we use instead the following expression to fit the data:

y_i=\alpha_0+ \alpha_1 (a_{11} x_i+a_{10} )+\alpha_2 (a_{22} x_i^2+a_{21}x_i+a_{20})+....

where the polynomials: p_j(x) =a_{jj} x^j+...a_{j1}x+a_{j0} are orthogonal to each other. Meaning by orthogonal that:

\sum\limits_{k=1}^N p_i (x_k) p_j (x_k) = 0; i\neq j; where N is the number of samples.

So, in the above sum the coefficients of the polynomials are chosen to make this sum equal to zero, and this is the polynomial provided by R using the poly function inside and lm expression.

I give a reference to the links I have used to clarify the topic:

Haz clic para acceder a bap064-.pdf