lunes, 15 de agosto de 2011

Distribución t

En la entrada anterior vimos la distribución normal, pero aquella que corresponde a una población, sin embargo, es casi imposible obtener datos de la población completa y aunque la pudiéramos tener, no habría necesidad de inferencia entonces. Estamos, pues, restringidos a trabajar con muestras, por lo que no podemos trabajar con la distribución ya mencionada, pues para ello se requiere saber la media y desviación estándar de la población.
Es por lo anterior que se desarrolló otra distribución, la t de Student, que describe la distribución de muestras extraídas de poblaciones distribuidas normalmente. Pero en realidad no es una distribución, sino una familia de distribuciones que dependerá de los grados de libertad.
En general, las distribuciones t son más planas y con las colas más levantadas, lo cual ocasiona que los valores críticos sean mayores que en Z, por lo que rechazar una hipótesis nula es más difícil.

Lo anterior suena lógico si se piensa que al ser una muestra la incertidumbre es mayor, por lo cual, si hay diferencias, deberán de ser lo suficientemente grandes como para poder rechazar la hipótesis nula.
Si recuerdan la teoría de los grandes números, dice que mientras mayor sea el tamaño de muestra, más se acercará la estimación del parámetro que queramos hacer con el estadístico. Poniendo un ejemplo podemos pensar en que la media de una población (media que no conocemos) es de 5.3 y si tomamos una muestra de tamaño 5 obtenemos una media de 6.8, al subir a 15 el tamaño de muestra la media será de 4.6 y si elevamos n a 45 la media será de 5.2.
De la misma manera actúa la distribución t, pues mientras aumenta el tamaño de muestra (y es de esperar que la incertidumbre disminuya) t se parecerá más a Z. De hecho, cuando el tamaño de muestra es igual o superior a 30, se pueden considerar ambas distribuciones estadísticamente iguales. Es por eso que se puede utilizar Z a partir de ese tamaño de muestra, sin embargo, salvo cuando n tiende a infinito, los valores críticos de t siguen siendo mayores que los de Z, por lo que es más apropiado usar t, a pesar de tener un buen tamaño de muestra.
Supongamos que tenemos una población de tamaño 1000, si tomamos una muestra de ella de tamaño 25, por puro azar podría estar sesgada a uno de los extremos, pero es poco probable; y conforme se aumenta el tamaño de muestra, es aún menos probable su sesgo. Así también, los valores críticos disminuyen con el aumento en el tamaño de muestra, pues por lo poco probable de cometer un error con altos tamaños de muestra, se requiere menos evidencia para “convencer” a la prueba.
Dado que existe una distribución t para cada tamaño de muestra, el representar todas estas distribuciones conllevaría mucho espacio en un libro, es por eso que en Daniel se les dedica una página con las probabilidades más usadas y con distintos grados de libertad.
Para comprobar lo ya escrito, busquen los valores críticos al trabajar con Z y con t de tamaño muestral 30, ambas a un alfa de 0.05.

Distribución normal y regla de decisión

Supongan que fue posible medir la inteligencia a toda la población de Perú y que además tienen acceso a todos los datos, si grafican los resultados observarán que hay pocos inteligentes y pocos tontos, mientras que la mayoría tendrán una inteligencia cercana a la media (100). Esta variable sigue una distribución normal, de la cual ustedes conocen la media µ y la desviación estándar σ.
Dada la simetría de la campana de Gauss (así se le llama a la figurita de la normal), en la media ustedes habrán acumulado la mitad de los eventos posibles, es decir, de los aproximadamente 30 millones de habitantes de Perú, 15 millones estarán de la media para abajo y 15 millones estarán sobre ella.
Si, a partir de la media, toman una desviación estándar para ambos lados, habrán abarcado aproximadamente el 68% de la población (entre 20 y 20.5 millones); si se mueven dos desviaciones estándar para cada lado, habrán abarcado algo así como el 96% de la población (28.5 millones).
La tabla Z de la normal estándar lo que presenta son las probabilidades desde -3.89 a +3.89 desviaciones estándar a partir de la media. Viéndolo así, si ustedes no se mueven ninguna desviación estándar se quedarán en la media, la cual acumula hasta ese punto el 50% de la población (verifíquenlo en sus tablas).
Si se mueven 1.645 desviaciones estándar a la derecha de la media acumularán el 95% de la población, si lo hacen a la izquierda (-1.645) encontrarán el 5%. Es por ello que esos son sus valores críticos en las pruebas de hipótesis unilaterales. En pocas palabras, el primer valor corresponde a una hipótesis nula de menor o igual y el segundo a una de mayor o igual.
H0: µ≤x

                                               +1.645

            H0: µ≥x

                   -1.645
Las imágenes anteriores son las correspondientes reglas de decisión para cada hipótesis. Los valores críticos (1.645 y -1.645) separan la parte del 5% de la población donde está la zona de rechazo y el 95% donde está la de aceptación.
Ahora, en una hipótesis nula de igualdad, se puede rechazar tanto por valores altos como bajos, por lo que la regla de decisión presentará dos zonas de rechazo; cada una corresponderá al 2.5%. El acumulado hasta el primer valor crítico será del 2.5% y el del segundo de 97.5%, si sacan cuentas el intervalo deja adentro al 95% de la población, por lo tanto, afuera estará el 5% repartido en dos zonas de rechazo.
Por lo anterior, para obtener los valores críticos, lo único que tienen que hacer es buscar (en su tabla Z) las desviaciones estándar que se tienen que mover para alcanzar el 2.5% y el 97.5%. Estos valores corresponden a -1.96 y +1.96.
            H0: µ=x

                -1.96                                                 +1.96
Todo lo anterior es válido cuando se trabaja con una confianza de 95%, es decir, un alfa de 0.05. Como ejercicio, realicen las reglas de decisión de los tres tipos de hipótesis (H0: µ≤x, H0: µ≥x, H0: µ=x) para alfas de 0.1 y 0.01.