Conceptos Esenciales de Estadística: Concentración, Correlación y Ajuste de Modelos

La Curva de Lorenz y el Coeficiente de Gini: Medición de la Concentración

La Curva de Lorenz es una representación gráfica utilizada para visualizar la concentración de una variable en una población. Se emplea comúnmente para ilustrar la distribución de la riqueza o los ingresos.

Construcción de la Curva de Lorenz

La curva se construye a partir de puntos con coordenadas (pi, qi), donde pi representa el porcentaje acumulado de individuos (o unidades) y qi el porcentaje acumulado de la cantidad total repartida (por ejemplo, ingresos o riqueza). Se añade el punto implícito (p0, q0) = (0,0), indicando que al 0% de los individuos le corresponde el 0% de la cantidad repartida.

La Curva de Lorenz siempre parte del origen (0,0) y termina en el punto (100, 100).

Interpretación de la Curva de Lorenz

  • Reparto Equitativo (Equidistribución): En un reparto perfectamente equitativo, donde todos reciben la misma proporción, a un porcentaje pi de individuos le corresponde el mismo porcentaje qi de la cantidad. En este caso, los valores pi son iguales a los valores qi, y la Curva de Lorenz coincide con la recta de equidistribución (y=x), también conocida como la bisectriz del primer cuadrante.

  • Concentración: Si el reparto no es perfectamente equitativo, pero se aproxima a la equidistribución, la Curva de Lorenz estará próxima a dicha recta. Cuanto mayor sea la concentración en el reparto, más se alejará la Curva de Lorenz de la recta de equidistribución.

Por lo tanto, cuanto mayor sea el área ‘A’ entre la Curva de Lorenz y la bisectriz del primer cuadrante (la recta y=x), mayor será la concentración en el reparto.

El Coeficiente de Gini

Basándose en este principio, se definió el Coeficiente de Gini. Este coeficiente es el cociente entre el área ‘A’ y el área del triángulo formado por los vértices (0,0), (100, 100) y (100, 0). El área ‘A’ se divide por el área de este triángulo para que el Coeficiente de Gini tome valores entre 0 y 1.

Situaciones Extremas

Las situaciones extremas que pueden presentarse son:

  • Máxima Concentración: La curva de Lorenz se aleja completamente de la bisectriz (y=x), indicando que una pequeña parte de la población posee la mayor parte de la cantidad. En este caso, el Coeficiente de Gini es igual a 1.

  • Reparto Equitativo o Equidistribución: La curva de Lorenz coincide con la recta y=x, lo que significa que la cantidad está distribuida de manera uniforme entre todos los individuos. En esta situación, el Coeficiente de Gini es igual a 0.

Independencia de Variables Estadísticas

Se dice que dos variables estadísticas, X e Y, son estadísticamente independientes si todas sus distribuciones condicionadas son iguales. Además, sus frecuencias relativas condicionadas coincidirán con las frecuencias relativas marginales.

Esto afirma que el comportamiento de X no depende del valor que presente Y, ni el comportamiento de Y depende del valor que tome X.

Esta independencia es equivalente a comprobar que las frecuencias relativas de las distintas distribuciones condicionadas son iguales, es decir, si se cumple la condición:

nij = (n * n·j) / n

Coeficiente de Correlación Lineal: Medida de la Relación Lineal

El coeficiente de correlación lineal (r) es el cociente entre la covarianza de dos variables y el producto de sus desviaciones típicas. Su signo es el mismo que el de la covarianza, y toma valores entre -1 y 1, midiendo objetivamente el grado de variación conjunta entre las variables X e Y.

Cuando las variables están tipificadas, el coeficiente de correlación lineal coincide con la covarianza. Este coeficiente no se ve influido por cambios de origen ni de escala.

La fórmula es:

rxy = Sxy / (Sx * Sy)

Interpretación del Coeficiente de Correlación Lineal

  • Si el coeficiente de correlación lineal toma valores cercanos a -1, la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime ‘r’ a -1.

  • Si el coeficiente de correlación lineal toma valores cercanos a 1, la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime ‘r’ a 1.

  • Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil o nula.

  • Si r = 1 o r = -1, los puntos de la nube de dispersión se sitúan sobre una recta creciente o decreciente, respectivamente, indicando una dependencia funcional perfecta entre ambas variables.

Coeficiente de Determinación: Bondad del Ajuste de Modelos

La media de los residuos o errores de estimación al cuadrado, que se cometen en un ajuste de regresión, es una medida de la bondad de dicho ajuste, conocida como varianza residual. Cuanto peor sea el ajuste, mayores serán los residuos y, por ende, la varianza residual.

Esta medida tiene el inconveniente de no estar acotada entre valores fijos para todas las variables, lo que dificulta determinar con precisión si los valores son significativamente grandes o pequeños, y, en definitiva, si el ajuste es bueno o malo.

Para resolver este problema, se define el coeficiente de determinación (R²) a partir de la varianza residual, mediante la fórmula:

R² = 1 – (S²ry/x / S²y)

Interpretación del Coeficiente de Determinación

Este coeficiente siempre toma valores entre 0 y 1.

  • Toma el valor 1 cuando la varianza residual es 0, lo que indica un ajuste perfecto.

  • Cuanto mayor sea la varianza residual, menor será este coeficiente. A peor calidad del ajuste, más se acercará este coeficiente a 0.

  • En el caso de la regresión lineal simple, el coeficiente de determinación (R²) coincide con el coeficiente de correlación lineal al cuadrado (r²), es decir, R² = r².

  • Si r² = 0, la bondad del ajuste es nula.

  • Si r² = 1, estamos ante un ajuste por mínimos cuadrados perfecto.

  • Para valores intermedios (0 < r² < 1), la proximidad de r² a 1 indica un mejor ajuste, mientras que su cercanía a 0 señala un ajuste deficiente.

Otra interpretación del coeficiente de determinación (R²) es que representa la proporción de la varianza de la variable dependiente (Y) que puede ser explicada por su relación con la variable independiente (X).

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.