Guía de conceptos estadísticos: Distribuciones, pruebas y muestreo

Conceptos básicos de distribuciones

Tipos de distribuciones

1. Una compañía con 1000 asegurados tiene una probabilidad de accidente de 0.06. El modelo que mejor se ajusta es la Binomial(1000; 0.005).

2. La demanda diaria se distribuye uniformemente entre 100 y 2000, con un valor medio de 1500.

3. Dada la distribución binomial B(10; 0.5), la variable no puede tener valores menores a 0, su media no es 0.5, y la media y varianza no son iguales a 10.

4. Dada la distribución Poisson, si la media y la varianza coinciden, solo hay un parámetro, la variable nunca es negativa y solo toma valores enteros.

5. La distribución normal no es discreta ni siempre positiva, y los valores de la variable aleatoria pueden ser negativos.

Teoremas y propiedades

6. El Teorema Central del Límite (TCL) se refiere a la convergencia en distribución hacia el modelo normal, necesita para su aplicación práctica una suma numerosa de variables aleatorias independientes, y permite aproximar la distribución binomial a la normal. No permite la convergencia hacia cualquier modelo de probabilidad.

7. Con 1000 asegurados y una probabilidad de 0.004 en un año, la distribución Poisson es el fenómeno aleatorio que modeliza la mejor aproximación.

8. Si la demanda diaria está entre 1000 y 2000, la probabilidad de que se demanden entre 1250 y 1750 es 0.5.

9. Una variable aleatoria que representa el número de caras obtenidas al lanzar 4 veces una moneda tiene una varianza de 1, un valor medio de 2, una covarianza de 0.5 y sigue un modelo binomial, no Poisson, con media igual a 2.

10. Si nos dan unidades y la probabilidad de que una sea defectuosa, entonces para la variable que mide el número de unidades defectuosas encontramos un modelo binomial, no Poisson.

11. Si el consumo diario de café es N(100; 25), la probabilidad de que un día concreto se consuman 115.5 litros no es 0.6, 0.4 ni 0.25.

12. Si la probabilidad de que una persona haga deporte 2 horas a la semana es 0.15, la probabilidad de que un grupo de 10 haga deporte no es 0.041. Para aplicar el Teorema Central del Límite es necesario conocer la media y la desviación típica.

Pruebas de hipótesis y contrastes

Tipos de pruebas

t-Student: No depende de la varianza poblacional.

Chi-cuadrado de Pearson: No reproduce fenómenos que se dan en la realidad económica, su función de densidad es solo positiva, es la suma de variables normales e independientes, y los grados de libertad se corresponden con el número de variables.

Distribución F: Es un modelo continuo y ficticio.

Distribución normal: El segundo parámetro es siempre positivo.

Muestreo aleatorio simple (M.A.S.): Cada elemento de la población tiene la misma probabilidad de ser elegido y solo puede aplicar un comportamiento normal en muestras grandes.

Objetivo de la inferencia: Caracterizar una población a través del estudio de un subconjunto representativo de ella.

Características del M.A.S.: Los elementos muestrales son variables aleatorias con una distribución idéntica a la poblacional, y cada elemento muestral sigue la distribución de probabilidad de la población de partida.

Contrastes específicos

Contrastes de bondad de ajuste: Tratan hipótesis sobre la distribución que genera los datos empíricos o experimentales.

Contrastes de independencia: Tratan la existencia de influencia entre observaciones cercanas en el tiempo o en el espacio.

Contrastes de homogeneidad: Tratan si todas las observaciones son generadas por el mismo modelo de probabilidad.

Contrastes de localización: Tratan hipótesis sobre medidas de posición o cuantiles para localizar estadísticamente la distribución.

Contraste chi-cuadrado de Pearson: Compara frecuencias teóricas esperadas con frecuencias obtenidas, solo aplicable si la función poblacional es discreta o continua.

Test de Kolmogorov-Smirnov: Compara las funciones de distribución teórica y empírica, solo aplicable si la función poblacional se supone continua.

Contraste de Wilcoxon: Comprueba si 2 muestras o submuestras independientes provienen de una misma población continua.

Contraste de Shapiro-Wilk: Mide el ajuste de la muestra representada en papel probabilístico normal a una recta.

Hipótesis nula y alternativa

Hipótesis nula en el contraste chi-cuadrado de Pearson: Los datos muestrales proceden del modelo teórico planteado.

Aplicación del contraste chi-cuadrado de Pearson: Es necesario un número suficiente de datos debido al carácter asintótico de la discrepancia.

Construcción de intervalos en el contraste chi-cuadrado: Se pierde información, los intervalos son subjetivos y la región crítica es unilateral y a la derecha.

Test de Kolmogorov-Smirnov: La región crítica es unilateral y a la derecha, no se necesitan construir intervalos, no se pierde información y pueden aplicarse muestras pequeñas.

Contraste de normalidad: A priori no existe un contraste ideal ya que la potencia del contraste dependerá del tamaño muestral y de la verdadera distribución de los datos. Si se realiza chi-cuadrado, es conveniente tomar clases equiprobables siguiendo la hipótesis nula.

Inferencia estadística

Hipótesis e inferencia

Las hipótesis en Inferencia estadística: Son conjeturas sobre algún aspecto concreto de la realidad, cualquier afirmación, verdadera o falsa, sobre alguna característica desconocida de la población.

Contraste de hipótesis: Se acepta provisionalmente la hipótesis nula.

Hipótesis simple en un contraste paramétrico: Se refiere a un solo valor del parámetro.

Hipótesis nula y alternativa: Son mutuamente excluyentes y complementarias, y su especificación apropiada depende de la naturaleza del problema.

Hipótesis nula: Es la que contrastamos y debe ser fácil de identificar o comprobar.

Hipótesis alternativa: No debería ser aceptada sin una gran evidencia a favor.

Región crítica: Conjunto de muestras para las cuales se rechaza la hipótesis nula.

Error tipo I: Rechazar la hipótesis nula cuando es verdadera.

Error tipo II: Aceptar la hipótesis nula cuando es falsa.

Potencia del contraste: Complemento a la probabilidad de error tipo II.

Nivel de significación: Probabilidad de error tipo I.

Conceptos clave

Contraste de hipótesis: Probar o testear la coherencia entre predicción (hipótesis) y datos observados sobre una población.

Discrepancia: Función muestral y del parámetro que permite la comparación entre hipótesis y estimación puntual.

Discrepancia del contraste de significación: Su función de probabilidad debe ser conocida cuando se supone que la hipótesis nula es cierta.

Hipótesis nula: Nunca es considerada probada, solo puede ser rechazada por los datos.

Nivel de significación: Indica la importancia que el investigador atribuye a las consecuencias asociadas a rechazar incorrectamente la hipótesis nula. No es adecuado ni el 5%, 10% ni 1%.

Nivel crítico p: Probabilidad de obtener una discrepancia mayor o igual que la observada en la muestra cuando H0 es cierto. Es la probabilidad de que por puro azar se obtenga una muestra más extraña que la obtenida.

Contraste significativo: Si p es menor que α.

Muestreo

Tipos de muestreo

M.A.S. con reemplazo: Los elementos muestrales son independientes unos de otros.

Inferencia: Las técnicas de estimación tienen objetivos paramétricos, las técnicas de contrastación de hipótesis pueden tener objetivos paramétricos y no paramétricos, la inferencia clásica usa solo información muestral y trata los parámetros poblacionales como valores fijos siempre desconocidos, la inferencia bayesiana usa información no muestral y trata los parámetros poblacionales como variables, y la inferencia se aplica a poblaciones finitas y continuas.

Muestreo probabilístico: Los resultados de las estimaciones son valorables.

Muestreo no probabilístico: Los resultados no son valorables, no son ciertos y no son mejores.

Conclusión

Este documento ha proporcionado una guía de conceptos estadísticos clave, incluyendo distribuciones, pruebas de hipótesis y muestreo. Se han discutido diferentes tipos de distribuciones, teoremas importantes, tipos de pruebas de hipótesis, conceptos de inferencia estadística y tipos de muestreo. Esta información es fundamental para comprender y aplicar la estadística en diversos campos.