Fundamentos de la Regresión y Correlación
La determinación de la relación entre variables cuantitativas se aborda mediante la correlación y la regresión. La relación entre variables es la posibilidad de conocer cómo el comportamiento de las categorías de la variable independiente incide en el comportamiento de la variable dependiente.
Relación Lineal y Sentido de la Asociación
El estudio lineal mide si, al aumentar los valores de la variable independiente, aumentan también los valores de la dependiente (relación directa), o si a medida que aumenta una, disminuye la otra (relación lineal inversa). La linealidad está determinada por la forma en que se vinculan las variables, lo cual se mide por la ecuación de los mínimos cuadrados.
Objetivos Específicos
- Objetivo de la Regresión: Predecir los valores que asumirá la variable dependiente a partir de los valores de la independiente.
- Objetivo de la Correlación Simple: Conocer la intensidad o fuerza de esa relación y el sentido de la misma.
Esto implica la intención de covarianza: una relación sistemática entre dos variables en la cual el cambio en una de ellas implica un cambio correspondiente en la otra.
Interpretación del Coeficiente de Correlación (R de Pearson)
El coeficiente $R$ de Pearson solo puede calcularse con variables cuantitativas. Su signo indica el sentido de la relación:
- Si el signo del coeficiente $R$ es positivo (+), las variables varían en la misma dirección. (Ejemplo: Cuanto más se invierte en publicidad, mayor es la suba en las ventas.)
- Si el signo del coeficiente $R$ es negativo (-), el incremento de una variable produce el decremento de la otra. (Ejemplo: Si se aumenta el precio de un bien, la demanda bajará.)
Regresión Lineal Simple y Predicción
Con la regresión lineal simple se puede predecir la evolución de la variable dependiente a partir de la variable independiente. Cuanto más fuerte sea esa dependencia, más precisa será la predicción. Con un diagrama de dispersión podemos representar un espacio de dos dimensiones donde, a partir del conocimiento de una variable independiente, se puede predecir la evolución de la dependiente.
Mínimos Cuadrados Ordinarios (MCO)
Este método se expresa a través de la llamada ecuación de la recta. Los valores $a$ y $b$ son constantes a partir de las cuales se construye la recta que mejor representa la relación de asociación entre las variables y que permitirá realizar la estimación. No es posible realizar una predicción perfecta a menos que la asociación entre variables sea perfecta, lo cual sucede raramente.
Regresión Lineal Múltiple
Estamos ante una regresión lineal múltiple cuando contemplamos más de una variable independiente y medimos el efecto de cada una de ellas sobre una sola variable dependiente. Comprende una sola variable dependiente y dos o más variables independientes. La relación se presenta como lineal, pero no se puede graficar como una recta (al no ser con dos variables ni tres). El cálculo se lleva a cabo a través de la ecuación.
Propósitos de la Regresión Múltiple
El modelo de regresión múltiple puede servir para uno o una combinación de dos propósitos básicos:
- Pronosticar el nivel de la variable dependiente con base en determinados niveles de las variables independientes.
- Entender la relación entre las variables independientes y la dependiente.
Vínculo entre Regresión y Correlación
Existe una vinculación estrecha entre el modelo de regresión y la correlación. La capacidad de predicción de una ecuación de regresión será muy débil si el valor de $R$ se aproxima mucho a 0. El coeficiente de determinación ($R^2$) explica el porcentaje de la variación de la variable dependiente que es explicado por la variación en las variables independientes.
Inclusión de Variables Nominales (Variables Ficticias o Dummies)
Cuando se necesita incluir variables independientes de escala nominal (como género, estado civil u ocupación) en la regresión múltiple, es posible crear variables ficticias o dummies para este propósito.
- Variables Dicotómicas: Las variables de escala nominal dicotómicas se pueden transformar en variables ficticias codificando un valor (por ejemplo, mujer = 0) y el otro (por ejemplo, hombre = 1).
- Variables con Múltiples Valores: Para asumir más de dos valores, se deben crear $N-1$ variables dummy (por ejemplo, D1, D2 y D3 si hay cuatro categorías).
Problemas de Interpretación en la Regresión Múltiple
Se pueden encontrar ciertos problemas por el uso y la interpretación de los resultados de la regresión múltiple. Estos se resumen en los siguientes puntos:
- Colinealidad: Suposición de que las variables independientes no están correlacionadas entre sí. La alta correlación entre predictores dificulta la interpretación de los coeficientes individuales.
- Causación: Aunque la regresión puede mostrar que las variables están relacionadas, no puede comprobar la causación. La causalidad solo se puede confirmar por otros medios (orden de tiempo apropiado, eliminación de otros posibles factores causales, etc.). Es fundamental desarrollar una base lógica o teórica fuerte para respaldar la idea de que existe una relación causal entre las variables independientes y la dependiente.
- Escala de Coeficientes: Las magnitudes de los coeficientes de regresión asociados a variables independientes se pueden comparar directamente solo si se escalan en las mismas unidades o si los datos se estandarizan.
- Tamaño de la Muestra: El valor $R^2$ está influido por el número de variables de pronóstico en relación con el tamaño de la muestra.
Planificación del Muestreo en Investigación
El plan de muestreo se compone de 5 etapas fundamentales:
- Definir la población objetivo.
- Determinar el marco de muestreo.
- Seleccionar las técnicas de muestreo.
- Determinar el tamaño de la muestra.
- Ejecutar el proceso de muestreo.
Etapas Detalladas del Plan de Muestreo
1. Definición de la Población Objetivo
Se refiere a los elementos u objetos que poseen la información buscada y acerca de los cuales se realizarán deducciones. Implica la definición precisa de quién debe incluirse en la muestra y quién no. Debe definirse en términos de:
- Elementos: Objeto del cual se desea la investigación (ej. hombre o mujer, jefe de familia responsable).
- Unidad de Muestreo: Elemento o unidad que contiene el elemento disponible para la selección en alguna etapa del proceso (ej. hogares).
- Extensión y Tiempo: Límite geográfico y lapso de consideración (ej. zona metropolitana de la ciudad de Resistencia, año 2016).
2. Determinación del Marco de Muestreo
Es la representación de los elementos de una población. Contiene las instrucciones para identificar a la población objetivo.
3. Selección de Técnicas de Muestreo
La elección depende de los objetivos de investigación, la precisión deseada, el marco de tiempo, el conocimiento de la población objetivo y el alcance de la investigación.
Muestra Probabilística
Todos los elementos tienen una probabilidad conocida de ser seleccionados. La obtención de las unidades de análisis es al azar, y se pueden calcular intervalos de confianza. El objetivo es hacer una inferencia acerca de la población con base en la información contenida en la muestra.
Principales Técnicas de Muestreo Probabilístico:
- Aleatorio simple
- Sistemático
- Estratificado
- Por agrupamientos (o conglomerados)
Muestra No Probabilística
Se desconoce la probabilidad de seleccionar cada unidad de muestreo, y se desconoce el porcentaje de error. La selección se basa en algún juicio intuitivo o conocimiento del investigador.
Principales Técnicas de Muestreo No Probabilístico:
- Por conveniencia
- Por juicio
- Por cuota
- Muestreo de bola de nieve
4. Determinación del Tamaño de la Muestra
Se refiere al número de elementos que se incluirán en el estudio. Para calcularlo correctamente, hay que tener en cuenta:
- La variabilidad de la característica de la población que se investiga.
- El nivel de confianza deseado en los cálculos.
- La precisión requerida.
5. Ejecución del Proceso de Muestreo
Especificación detallada de cómo se llevarán a cabo las decisiones de diseño de muestreo con relación a: la población objetivo, el marco de muestreo, las unidades, la técnica y el tamaño de la muestra.
