Métodos Estadísticos Multivariantes
Análisis Factorial de Componentes Principales (ACP)
Método multivariante descriptivo de interdependencia. Permite una pérdida relativa de información para obtener ganancia en significación, dimensiones latentes, conceptos económicos estandarizados y ausencia de multicolinealidad, desarrollando mapas de posicionamiento. Las variables son métricas de razón con escala Likert o diferencial semántico, que luego se tipifican. Se requiere tener al menos 5 casos y las correlaciones significativas deben ser > 0,3.
Pasos del ACP
-
Cumplimiento de requisitos:
- Determinante < 0,1.
- KMO > 0,7 (suficiente, bueno, excelente).
- Bartlett < 0,05 (se rechaza H₀, se cumple).
Si no se cumplen, se mira la MSA (Medida de Adecuación Muestral) en la matriz de correlaciones anti-imagen: si es > 0,5 se analiza; si es < 0,5 se quita del análisis.
- Test de Kaiser (Varianza Total Explicada, Rotación): Se observa el porcentaje de factores que explican el porcentaje acumulado de la varianza total (variables tipificadas).
- Matriz de Componentes Rotados: Se toman los valores mayores para saber dónde incluir cada variable/factor. Si en una fila hay 2 valores altos, se producen sinergias.
- Estadísticos Descriptivos: Se miran las medias de cada factor, sabiendo que la más elevada tendrá una ventaja respecto a las demás. Ejemplo: ¿Mejor posición en el factor 3? Se calcula el porcentaje del factor por la valoración de los rotados. ¿Cuál de estos está mejor posicionado? Sumar valores del posicionamiento de X.
- Matriz de Correlaciones: Marcar > 0,3. Cuanto más elevadas sean las correlaciones, mejor saldrá el análisis factorial, mayor cantidad de información, y menos factores resultan en un mejor resultado.
Análisis Discriminante
Método explicativo causal. Las variables han de ser exhaustivas, disjuntas y definitivas a priori. Requiere ausencia de multicolinealidad entre variables causales y un mínimo de 20 casos. La variable predictiva (Xᵢ) sigue una distribución normal (la causa previa a la consecuencia). La variable Y (dependiente) es no métrica nominal o de razón (si se recodifica con la ordinal se pierde información). La variable X (independiente) es métrica de razón.
Pasos del Análisis Discriminante
- Comprobar Test M de Box: H₀ > 0,05. No se rechaza H₀, lo que implica que las matrices de covarianzas intragrupos han de ser iguales o muy similares para los grupos de población.
- Lambda de Wilks: < 0,05. Se rechaza H₀, lo que significa que existen diferencias estadísticamente significativas y la variable tiene relación. Se revisa la tabla de autovalores (correlaciones canónicas); la que tiene relación se eleva al cuadrado, y el resultado es la función discriminante (capacidad explicativa). Si es > 0,3, está bien.
- Resultado de Clasificación: Debajo de la tabla se observa la capacidad predictiva global. El porcentaje debe ser > 80% o > 50% aleatorio.
- Coeficientes Discriminantes Canónicos: Si hay N tipos de alojamiento, habrá N-1 funciones discriminantes. Se toman Factor 1 y 2. Ejemplo: F.D.1 = número * nombre factor + …
- Centroides: Es el valor de representatividad de las puntuaciones discriminantes de cada grupo. Los positivos están por encima de la media.
- Coeficientes de la Función de Clasificación: Sumar columnas 1 y 2. La más alta es el suceso más probable.
- Matriz de Estructura: Indica el grado de asociación entre X y las funciones discriminantes. Se toman los valores más altos.
ANOVA y MANOVA
ANOVA (Análisis de Varianza)
Método explicativo causal. Mide la relación de dependencia de la variable Y respecto a la variable X. Requiere elementos disjuntos y no existencia de interacción. La variable dependiente (Y) es métrica de razón, y la variable independiente (X) es no métrica o de intervalo (con las de intervalo y ordinal se pierde información al analizar).
Pasos del ANOVA
- Tabla T – Levene o Bartlett (Análisis de Homocedasticidad): H₀ > 0,05. Sí cumple la condición de homogeneidad de las varianzas.
- Tabla Efectos Inter-Sujetos: El p-valor es < 0,05. Se rechaza H₀, por lo tanto, tiene diferencias estadísticas significativas, lo que quiere decir que existe relación causal de X sobre Y.
- Estadísticos Descriptivos: Ver el valor de las medias. La más alta es la que más influye sobre el resto.
- Tabla Efecto Inter-Sujetos (Bondad de Ajuste): Mirar Eta al cuadrado (η²). Si es > 0,3, es un buen resultado (interesan valores altos). Esta es la capacidad de explicar la variabilidad total de la variable dependiente.
- Potencia Observada: Muestra la probabilidad de que el test F detecte diferencias entre los niveles de cada variable (poder de la prueba). Valor mínimo > 0,8 (poder de prueba).
MANOVA (Análisis Multivariante de Varianza)
Método explicativo causal. Siempre se analizan varias variables dependientes a explicar.
Pasos del MANOVA
- Tabla T – Levene o Bartlett (Análisis de Homocedasticidad): H₀ > 0,05. Sí cumple la condición de homogeneidad de las varianzas.
- Contrastes Multivariados (Pillai o Wilks): Sig. < 0,05. La causa analizada sí tiene influencias estadísticamente significativas sobre las variables a explicar.
- Tabla Efecto Inter-Sujetos (Bondad de Ajuste): Mirar Eta al cuadrado (η²). Si es > 0,3, es un buen resultado (interesan valores altos). Esta es la capacidad de explicar la variabilidad total de la variable dependiente.
- Potencia Observada: Muestra la probabilidad de que el test F detecte diferencias entre los niveles de cada variable (poder de la prueba). Valor mínimo > 0,8 (poder de prueba).
- Tabla Efectos Inter-Sujetos: P-valor es < 0,05. Se rechaza H₀, por lo que sí influye sobre la variable y explica datos de la media.
Contraste de Hipótesis y Análisis Bivariante
La conclusión del estudio bivariante es extrapolar o inferir a la población. El contraste de hipótesis consta de 8 pasos.
Medidas de Tendencia Central según Tipo de Variable
- Nominal: Moda (y respuestas múltiples).
- Ordinal: Mediana (Moda).
- Métrica: Media (Mediana).
Pasos Clave en el Contraste de Hipótesis
-
Formulación y Pruebas Preliminares:
- Test de Levene (H₀): P-valor > 0,05. No se rechaza H₀, se cumple homocedasticidad y distribución normal.
- Niveles de Significación: Si se rechaza H₀ (H₁): 0,01 < P-valor < 0,05 = Nivel de significación 5%; P-valor < 0,01 = Nivel de significación 1%. Si no hay homocedasticidad o distribución normal, se usan pruebas no paramétricas.
- Elección de la Prueba Estadística: En función del objetivo, diseño (independiente o relacionado) y escala de medida.
Pruebas según Distribución Normal
A. Si sigue Distribución Normal (Test Paramétrico)
Variables métricas cuantitativas, escala Likert o diferencial semántico.
- Muestras Independientes: T para 2 grupos y ANOVA (Test de Levene: Homocedasticidad, variables métricas y no métricas).
- Muestras Relacionadas: T de Student (Análisis de Normalidad: Shapiro para muestra < 50, Kolmogorov para muestra > 50).
B. Si NO sigue Distribución Normal (Test No Paramétrico)
Variables no métricas, cualitativas, independientes.
- 2 Grupos: Prueba U de Mann-Whitney (la media mayor indica la posición más alta).
- + 2 Grupos: H de Kruskal-Wallis (la media mayor indica el primer orden de prelación, después las demás).
Correlación y Asociación
Variables Métricas (Correlación Lineal)
Siempre rechazar H₀: < 0,05 si hay relación lineal. Detecta el grado y sentido de la relación (medidas escalares).
- Coeficiente Lineal de Pearson: Test paramétrico.
- Coeficiente de Rango de Spearman: Test no paramétrico y métrico, pero no están normalmente distribuidas.
- Coeficiente T de Kendall: Test no paramétrico, variable no métrica ordinal/métrica recodificada en rango.
Interpretación del Rango de Correlación
- 0,8 a 1: Fuerte
- 0,5 a 0,7: Media
- 0 a 0,49: Débil
- -0,5 a -0,7: Muy débil
- -0,8 a -1: No correlación
Variables No Métricas Nominales (Coeficiente de Asociación)
Rechazar H₀: < 0,05 si existe asociación.
- Coeficiente Phi: Para tablas 2×2 (variable nominal dicotómica).
- V de Cramer: Para tablas de contingencia (variable nominal no dicotómica).
Preguntas Clave en el Análisis Bivariante
- ¿La variable X sobre Y distribuye una normal? (Análisis de Normalidad)
- ¿Existe diferencia de X con Y? (Análisis de Normalidad y Homocedasticidad)
- ¿Existe relación de causalidad entre las variables X e Y?
Ejemplo de aplicación: Al ser una variable no métrica nominal (nivel de satisfacción) y una variable no métrica ordinal (imagen de la marca), se realizaría un análisis con una tabla de contingencia y coeficientes de asociación, ya que las variables a analizar son no métricas (Xᵢ y Xⱼ).
Pasos del Análisis de Asociación (Chi-Cuadrado)
- Tabla Chi-Cuadrado: Se verifica si el análisis es fiable y robusto. Si no lo es, se debería hacer una recodificación para que sea fiable. Si es fiable, se mira el p-valor: si es < 0,05, se rechaza H₀ y sí hay relación entre las variables analizadas (independientes, distribución normal).
- Tabla de Contingencia (Residuos Tipificados): Se miran los residuos. Si son > 1,96 (95%) o > 2,58 (99%), significa que hay diferencias estadísticamente significativas y que las variables analizadas están relacionadas. Su signo indica si hay más (+) o menos (-) casos de los esperados. En la tabla de contingencia se puede ver cuál de los factores está mejor valorado que los demás.
-
Tabla de Medidas Simétricas (Asociación Lineal): Se mira el p-valor. Si es < 0,05, tiene relación con la variable analizada. Se evalúa el valor de asociación:
- < 0,03: Débil.
- 0,03 a 0,05: Moderada.
- 0,05 a 0,07: Alta.
- > 0,07: Muy alta.
Muestreo y Cálculo del Tamaño de la Muestra
Métodos de Muestreo
Muestreo Probabilístico
- Muestreo aleatorio simple: Sorteo de las unidades muestrales.
- Muestreo sistemático: Un único sorteo.
- Muestreo estratificado simple: Selecciona el mismo número de elementos en cada estrato.
- Muestreo estratificado proporcional: Censo, reparto proporcional.
- Muestreo por conglomerados/grupos: Selección de elementos que componen la muestra (exhaustivos y homogéneos). Es costoso.
- Muestreo por áreas/polietápico.
- Muestreo por rutas aleatorias.
Muestreo No Probabilístico
- Muestreo por juicios: Criterio de los entrevistados.
- Muestreo por cuotas: Selección de una proporción de unidades muestrales.
- Muestreo bola de nieve/en cadena: Universos pequeños. Localizar unidades muestrales a las que pedimos que contacten a otros.
- Muestreo por conveniencia, causal o accidental: El investigador elige las unidades muestrales a su comodidad.
Cálculo del Tamaño de la Muestra (n)
A) Si N > 100.000 (Población Infinita)
- Error de Porcentajes: n = (k² * P * Q) / e²
- Error de Medias: n = (k² * s²) / e²
B) Si N < 100.000 (Población Finita)
- Error de Porcentajes: n = (k² * N * P * Q) / ((e² * (N – 1)) + (k² * P * Q))
- Error de Medias: n = (k² * N * s²) / ((e² * N) + (k² * s²))
Cálculo del Error Muestral (e)
A) Si N > 100.000 (Población Infinita)
- Error de Porcentajes: e = k * √((P * Q) / n)
- Error de Medias: e = (k * s) / √(n)
B) Si N < 100.000 (Población Finita)
- Error de Porcentajes: e = k * √(((N – n) * P * Q) / ((N – 1) * n))
- Error de Medias: e = k * s * √((N – n) / (N – n)) [Nota: Se mantiene la fórmula original, aunque el factor de corrección se simplifica a 1]
Valores de K (Nivel de Confianza)
- 68%: K = 1
- 95%: K = 1,96
- 95,5%: K = 2
- 99%: K = 3
Definiciones de Variables
- N: Tamaño de la población.
- n: Tamaño de la muestra.
- P: Porcentaje de la población.
- Q: 1 – P (Proporción de la población).
- s: Cuasidesviación típica.
- P = Q desconocido: 0,5.
Fundamentos de la Investigación Comercial
Asociaciones Relevantes
- AEDEMO: Asociación Española de Estudios de Mercado, Marketing y Opinión.
- ANEIMO: Asociación Nacional de Empresas de Investigación de Mercados y Opinión Pública.
- ESOMAR: Asociación del ámbito Europeo.
Necesidad de la Investigación Comercial
La Investigación Comercial es necesaria porque las empresas trabajan en mercados más amplios y difíciles (globalización), manejan más productos diferentes, se encuentran con un entorno más complejo de analizar y la información se desvirtúa a medida que circula.
Paradoja de la Información Comercial
Cada vez existe más información disponible a un coste más pequeño, pero cada vez hay más información parcial o falsa.
Conclusiones y Sesgos
- Se tiende a sobrevalorar lo que gusta a cada persona (Efecto Espejo).
- Las personas evalúan el futuro a partir de las experiencias personales.
- Efecto del Falso Consenso: La gente tiende a pensar que sus gustos son más frecuentes de lo que son en realidad.
Núcleo de la Investigación Comercial
- Información sobre el Entorno: Oportunidades, amenazas, macroentorno, microentorno.
- Información para Marketing Estratégico: Segmentación de mercado, posicionamiento de un producto.
- Información para Marketing Operativo: Gama de productos, política de distribución, decisiones sobre precio, comunicación comercial.
Sistema de Información de Marketing (SIM)
El SIM es la recogida de información para la toma de decisiones. Tiene 4 subsistemas:
- Datos internos.
- Inteligencia de marketing.
- Investigación comercial.
- Apoyo a las decisiones de marketing.
Definición de Investigación Comercial
Búsqueda de información para su análisis e interpretación, con el fin de identificar y solucionar problemas y aprovechar oportunidades.
Características de la Investigación Comercial
- Investigación sistemática.
- Carácter objetivo.
- Elemento informativo (ser relevante, eficiente y eficaz).
Finalidad: Posibilitar la toma de decisiones por los responsables de marketing.
Sesgos Comunes
- Colaboran personas que llevan una vida metódica.
- Colaboran personas con menos de 40 años.
- Cuanto mayor sea el precio, menor propensión a cooperar en los paneles.
- Mayor cooperación en clases medias.
- Se colabora más con productos de compra planificada que con compra impulsiva.
Tipos de Preguntas
Según su Formulación
- Abiertas: No hay respuestas preformuladas.
- Cerradas: Respuestas prefijadas (dicotómicas o múltiples: unirespuesta/multirrespuesta).
Según el Tipo de Información
- De Control: Para verificar que las personas responden la verdad.
- En Batería: Preguntas sobre el mismo tema dispuestas en bloques.
- Filtro: Segmentar la muestra para realizar preguntas distintas, hacer disyuntivas.
- Indirecta: Útiles ante temas delicados.
- Sobre Hábitos de Compra o de Consumo: Actos concretos realizados por el propio entrevistado.
- Sobre Motivaciones: Analiza la causa subyacente que explica un hábito de compra.
- Sobre Evaluaciones: Opiniones o valoraciones sobre cualquier tema u objeto.
Medición de Variables Económicas y Escalas
Variables Cualitativas / No Métricas (Se leen mediante letra)
- Nominal: (Salario, raza, sector, color de ojos, estado civil, profesión, país).
- Ordinal: Asignar un número para ordenar los datos (calidad de servicio, escolaridad, satisfacción, orden de mérito).
Variables Cuantitativas / Métricas
-
De Intervalo: Reúne 2 requisitos:
- La diferencia entre valores es de escala constante y tiene significado.
- El cero es arbitrario (no hay ausencia total de cantidad). (Ej: Estatura, salario, ventas producidas, volumen de ventas, calificación de examen).
- De Razón: Igual que la de intervalo, pero el cero es absoluto (sí indica ausencia total). (Ej: Edad, número de hijos, gastos mensuales, ingresos, peso, talla).
Tipos de Escalas
- Stapel: No tiene valor neutro (solo son variables no métricas ordinales).
- Likert: Variables no métricas ordinales y pueden ser también de razón.
- Diferencial Semántico: Igual que Likert, pero bipolar.
- Escala de Preferencia: Sumas constantes.
- Escala de Ordenación: Comparaciones múltiples.
- Escala de Elección: Comparaciones pareadas [n * (n-1) / 2].
