En la entrada anterior vimos la distribución normal, pero aquella que corresponde a una población, sin embargo, es casi imposible obtener datos de la población completa y aunque la pudiéramos tener, no habría necesidad de inferencia entonces. Estamos, pues, restringidos a trabajar con muestras, por lo que no podemos trabajar con la distribución ya mencionada, pues para ello se requiere saber la media y desviación estándar de la población.
Es por lo anterior que se desarrolló otra distribución, la t de Student, que describe la distribución de muestras extraídas de poblaciones distribuidas normalmente. Pero en realidad no es una distribución, sino una familia de distribuciones que dependerá de los grados de libertad.
En general, las distribuciones t son más planas y con las colas más levantadas, lo cual ocasiona que los valores críticos sean mayores que en Z, por lo que rechazar una hipótesis nula es más difícil.
Lo anterior suena lógico si se piensa que al ser una muestra la incertidumbre es mayor, por lo cual, si hay diferencias, deberán de ser lo suficientemente grandes como para poder rechazar la hipótesis nula.
Si recuerdan la teoría de los grandes números, dice que mientras mayor sea el tamaño de muestra, más se acercará la estimación del parámetro que queramos hacer con el estadístico. Poniendo un ejemplo podemos pensar en que la media de una población (media que no conocemos) es de 5.3 y si tomamos una muestra de tamaño 5 obtenemos una media de 6.8, al subir a 15 el tamaño de muestra la media será de 4.6 y si elevamos n a 45 la media será de 5.2.
De la misma manera actúa la distribución t, pues mientras aumenta el tamaño de muestra (y es de esperar que la incertidumbre disminuya) t se parecerá más a Z. De hecho, cuando el tamaño de muestra es igual o superior a 30, se pueden considerar ambas distribuciones estadísticamente iguales. Es por eso que se puede utilizar Z a partir de ese tamaño de muestra, sin embargo, salvo cuando n tiende a infinito, los valores críticos de t siguen siendo mayores que los de Z, por lo que es más apropiado usar t, a pesar de tener un buen tamaño de muestra.
Supongamos que tenemos una población de tamaño 1000, si tomamos una muestra de ella de tamaño 25, por puro azar podría estar sesgada a uno de los extremos, pero es poco probable; y conforme se aumenta el tamaño de muestra, es aún menos probable su sesgo. Así también, los valores críticos disminuyen con el aumento en el tamaño de muestra, pues por lo poco probable de cometer un error con altos tamaños de muestra, se requiere menos evidencia para “convencer” a la prueba.
Dado que existe una distribución t para cada tamaño de muestra, el representar todas estas distribuciones conllevaría mucho espacio en un libro, es por eso que en Daniel se les dedica una página con las probabilidades más usadas y con distintos grados de libertad.
Para comprobar lo ya escrito, busquen los valores críticos al trabajar con Z y con t de tamaño muestral 30, ambas a un alfa de 0.05.



