Conceptos y Métodos Esenciales de Estadística Multivariante e Investigación Comercial

Métodos Estadísticos Multivariantes

Análisis Factorial de Componentes Principales (ACP)

Método multivariante descriptivo de interdependencia. Permite una pérdida relativa de información para obtener ganancia en significación, dimensiones latentes, conceptos económicos estandarizados y ausencia de multicolinealidad, desarrollando mapas de posicionamiento. Las variables son métricas de razón con escala Likert o diferencial semántico, que luego se tipifican. Se requiere tener al menos 5 casos y las correlaciones significativas deben ser > 0,3.

Pasos del ACP

  1. Cumplimiento de requisitos:
    • Determinante < 0,1.
    • KMO > 0,7 (suficiente, bueno, excelente).
    • Bartlett < 0,05 (se rechaza H₀, se cumple).

    Si no se cumplen, se mira la MSA (Medida de Adecuación Muestral) en la matriz de correlaciones anti-imagen: si es > 0,5 se analiza; si es < 0,5 se quita del análisis.

  2. Test de Kaiser (Varianza Total Explicada, Rotación): Se observa el porcentaje de factores que explican el porcentaje acumulado de la varianza total (variables tipificadas).
  3. Matriz de Componentes Rotados: Se toman los valores mayores para saber dónde incluir cada variable/factor. Si en una fila hay 2 valores altos, se producen sinergias.
  4. Estadísticos Descriptivos: Se miran las medias de cada factor, sabiendo que la más elevada tendrá una ventaja respecto a las demás. Ejemplo: ¿Mejor posición en el factor 3? Se calcula el porcentaje del factor por la valoración de los rotados. ¿Cuál de estos está mejor posicionado? Sumar valores del posicionamiento de X.
  5. Matriz de Correlaciones: Marcar > 0,3. Cuanto más elevadas sean las correlaciones, mejor saldrá el análisis factorial, mayor cantidad de información, y menos factores resultan en un mejor resultado.

Análisis Discriminante

Método explicativo causal. Las variables han de ser exhaustivas, disjuntas y definitivas a priori. Requiere ausencia de multicolinealidad entre variables causales y un mínimo de 20 casos. La variable predictiva (Xᵢ) sigue una distribución normal (la causa previa a la consecuencia). La variable Y (dependiente) es no métrica nominal o de razón (si se recodifica con la ordinal se pierde información). La variable X (independiente) es métrica de razón.

Pasos del Análisis Discriminante

  1. Comprobar Test M de Box: H₀ > 0,05. No se rechaza H₀, lo que implica que las matrices de covarianzas intragrupos han de ser iguales o muy similares para los grupos de población.
  2. Lambda de Wilks: < 0,05. Se rechaza H₀, lo que significa que existen diferencias estadísticamente significativas y la variable tiene relación. Se revisa la tabla de autovalores (correlaciones canónicas); la que tiene relación se eleva al cuadrado, y el resultado es la función discriminante (capacidad explicativa). Si es > 0,3, está bien.
  3. Resultado de Clasificación: Debajo de la tabla se observa la capacidad predictiva global. El porcentaje debe ser > 80% o > 50% aleatorio.
  4. Coeficientes Discriminantes Canónicos: Si hay N tipos de alojamiento, habrá N-1 funciones discriminantes. Se toman Factor 1 y 2. Ejemplo: F.D.1 = número * nombre factor + …
  5. Centroides: Es el valor de representatividad de las puntuaciones discriminantes de cada grupo. Los positivos están por encima de la media.
  6. Coeficientes de la Función de Clasificación: Sumar columnas 1 y 2. La más alta es el suceso más probable.
  7. Matriz de Estructura: Indica el grado de asociación entre X y las funciones discriminantes. Se toman los valores más altos.

ANOVA y MANOVA

ANOVA (Análisis de Varianza)

Método explicativo causal. Mide la relación de dependencia de la variable Y respecto a la variable X. Requiere elementos disjuntos y no existencia de interacción. La variable dependiente (Y) es métrica de razón, y la variable independiente (X) es no métrica o de intervalo (con las de intervalo y ordinal se pierde información al analizar).

Pasos del ANOVA
  1. Tabla T – Levene o Bartlett (Análisis de Homocedasticidad): H₀ > 0,05. Sí cumple la condición de homogeneidad de las varianzas.
  2. Tabla Efectos Inter-Sujetos: El p-valor es < 0,05. Se rechaza H₀, por lo tanto, tiene diferencias estadísticas significativas, lo que quiere decir que existe relación causal de X sobre Y.
  3. Estadísticos Descriptivos: Ver el valor de las medias. La más alta es la que más influye sobre el resto.
  4. Tabla Efecto Inter-Sujetos (Bondad de Ajuste): Mirar Eta al cuadrado (η²). Si es > 0,3, es un buen resultado (interesan valores altos). Esta es la capacidad de explicar la variabilidad total de la variable dependiente.
  5. Potencia Observada: Muestra la probabilidad de que el test F detecte diferencias entre los niveles de cada variable (poder de la prueba). Valor mínimo > 0,8 (poder de prueba).

MANOVA (Análisis Multivariante de Varianza)

Método explicativo causal. Siempre se analizan varias variables dependientes a explicar.

Pasos del MANOVA
  1. Tabla T – Levene o Bartlett (Análisis de Homocedasticidad): H₀ > 0,05. Sí cumple la condición de homogeneidad de las varianzas.
  2. Contrastes Multivariados (Pillai o Wilks): Sig. < 0,05. La causa analizada sí tiene influencias estadísticamente significativas sobre las variables a explicar.
  3. Tabla Efecto Inter-Sujetos (Bondad de Ajuste): Mirar Eta al cuadrado (η²). Si es > 0,3, es un buen resultado (interesan valores altos). Esta es la capacidad de explicar la variabilidad total de la variable dependiente.
  4. Potencia Observada: Muestra la probabilidad de que el test F detecte diferencias entre los niveles de cada variable (poder de la prueba). Valor mínimo > 0,8 (poder de prueba).
  5. Tabla Efectos Inter-Sujetos: P-valor es < 0,05. Se rechaza H₀, por lo que sí influye sobre la variable y explica datos de la media.

Contraste de Hipótesis y Análisis Bivariante

La conclusión del estudio bivariante es extrapolar o inferir a la población. El contraste de hipótesis consta de 8 pasos.

Medidas de Tendencia Central según Tipo de Variable

  • Nominal: Moda (y respuestas múltiples).
  • Ordinal: Mediana (Moda).
  • Métrica: Media (Mediana).

Pasos Clave en el Contraste de Hipótesis

  1. Formulación y Pruebas Preliminares:
    • Test de Levene (H₀): P-valor > 0,05. No se rechaza H₀, se cumple homocedasticidad y distribución normal.
    • Niveles de Significación: Si se rechaza H₀ (H₁): 0,01 < P-valor < 0,05 = Nivel de significación 5%; P-valor < 0,01 = Nivel de significación 1%. Si no hay homocedasticidad o distribución normal, se usan pruebas no paramétricas.
  2. Elección de la Prueba Estadística: En función del objetivo, diseño (independiente o relacionado) y escala de medida.

Pruebas según Distribución Normal

A. Si sigue Distribución Normal (Test Paramétrico)

Variables métricas cuantitativas, escala Likert o diferencial semántico.

  • Muestras Independientes: T para 2 grupos y ANOVA (Test de Levene: Homocedasticidad, variables métricas y no métricas).
  • Muestras Relacionadas: T de Student (Análisis de Normalidad: Shapiro para muestra < 50, Kolmogorov para muestra > 50).
B. Si NO sigue Distribución Normal (Test No Paramétrico)

Variables no métricas, cualitativas, independientes.

  • 2 Grupos: Prueba U de Mann-Whitney (la media mayor indica la posición más alta).
  • + 2 Grupos: H de Kruskal-Wallis (la media mayor indica el primer orden de prelación, después las demás).

Correlación y Asociación

Variables Métricas (Correlación Lineal)

Siempre rechazar H₀: < 0,05 si hay relación lineal. Detecta el grado y sentido de la relación (medidas escalares).

  • Coeficiente Lineal de Pearson: Test paramétrico.
  • Coeficiente de Rango de Spearman: Test no paramétrico y métrico, pero no están normalmente distribuidas.
  • Coeficiente T de Kendall: Test no paramétrico, variable no métrica ordinal/métrica recodificada en rango.
Interpretación del Rango de Correlación
  • 0,8 a 1: Fuerte
  • 0,5 a 0,7: Media
  • 0 a 0,49: Débil
  • -0,5 a -0,7: Muy débil
  • -0,8 a -1: No correlación

Variables No Métricas Nominales (Coeficiente de Asociación)

Rechazar H₀: < 0,05 si existe asociación.

  • Coeficiente Phi: Para tablas 2×2 (variable nominal dicotómica).
  • V de Cramer: Para tablas de contingencia (variable nominal no dicotómica).

Preguntas Clave en el Análisis Bivariante

  • ¿La variable X sobre Y distribuye una normal? (Análisis de Normalidad)
  • ¿Existe diferencia de X con Y? (Análisis de Normalidad y Homocedasticidad)
  • ¿Existe relación de causalidad entre las variables X e Y?

Ejemplo de aplicación: Al ser una variable no métrica nominal (nivel de satisfacción) y una variable no métrica ordinal (imagen de la marca), se realizaría un análisis con una tabla de contingencia y coeficientes de asociación, ya que las variables a analizar son no métricas (Xᵢ y Xⱼ).

Pasos del Análisis de Asociación (Chi-Cuadrado)
  1. Tabla Chi-Cuadrado: Se verifica si el análisis es fiable y robusto. Si no lo es, se debería hacer una recodificación para que sea fiable. Si es fiable, se mira el p-valor: si es < 0,05, se rechaza H₀ y sí hay relación entre las variables analizadas (independientes, distribución normal).
  2. Tabla de Contingencia (Residuos Tipificados): Se miran los residuos. Si son > 1,96 (95%) o > 2,58 (99%), significa que hay diferencias estadísticamente significativas y que las variables analizadas están relacionadas. Su signo indica si hay más (+) o menos (-) casos de los esperados. En la tabla de contingencia se puede ver cuál de los factores está mejor valorado que los demás.
  3. Tabla de Medidas Simétricas (Asociación Lineal): Se mira el p-valor. Si es < 0,05, tiene relación con la variable analizada. Se evalúa el valor de asociación:
    • < 0,03: Débil.
    • 0,03 a 0,05: Moderada.
    • 0,05 a 0,07: Alta.
    • > 0,07: Muy alta.

Muestreo y Cálculo del Tamaño de la Muestra

Métodos de Muestreo

Muestreo Probabilístico

  1. Muestreo aleatorio simple: Sorteo de las unidades muestrales.
  2. Muestreo sistemático: Un único sorteo.
  3. Muestreo estratificado simple: Selecciona el mismo número de elementos en cada estrato.
  4. Muestreo estratificado proporcional: Censo, reparto proporcional.
  5. Muestreo por conglomerados/grupos: Selección de elementos que componen la muestra (exhaustivos y homogéneos). Es costoso.
  6. Muestreo por áreas/polietápico.
  7. Muestreo por rutas aleatorias.

Muestreo No Probabilístico

  1. Muestreo por juicios: Criterio de los entrevistados.
  2. Muestreo por cuotas: Selección de una proporción de unidades muestrales.
  3. Muestreo bola de nieve/en cadena: Universos pequeños. Localizar unidades muestrales a las que pedimos que contacten a otros.
  4. Muestreo por conveniencia, causal o accidental: El investigador elige las unidades muestrales a su comodidad.

Cálculo del Tamaño de la Muestra (n)

A) Si N > 100.000 (Población Infinita)

  • Error de Porcentajes: n = (k² * P * Q) / e²
  • Error de Medias: n = (k² * s²) / e²

B) Si N < 100.000 (Población Finita)

  • Error de Porcentajes: n = (k² * N * P * Q) / ((e² * (N – 1)) + (k² * P * Q))
  • Error de Medias: n = (k² * N * s²) / ((e² * N) + (k² * s²))

Cálculo del Error Muestral (e)

A) Si N > 100.000 (Población Infinita)

  • Error de Porcentajes: e = k * √((P * Q) / n)
  • Error de Medias: e = (k * s) / √(n)

B) Si N < 100.000 (Población Finita)

  • Error de Porcentajes: e = k * √(((N – n) * P * Q) / ((N – 1) * n))
  • Error de Medias: e = k * s * √((N – n) / (N – n)) [Nota: Se mantiene la fórmula original, aunque el factor de corrección se simplifica a 1]

Valores de K (Nivel de Confianza)

  • 68%: K = 1
  • 95%: K = 1,96
  • 95,5%: K = 2
  • 99%: K = 3

Definiciones de Variables

  • N: Tamaño de la población.
  • n: Tamaño de la muestra.
  • P: Porcentaje de la población.
  • Q: 1 – P (Proporción de la población).
  • s: Cuasidesviación típica.
  • P = Q desconocido: 0,5.

Fundamentos de la Investigación Comercial

Asociaciones Relevantes

  • AEDEMO: Asociación Española de Estudios de Mercado, Marketing y Opinión.
  • ANEIMO: Asociación Nacional de Empresas de Investigación de Mercados y Opinión Pública.
  • ESOMAR: Asociación del ámbito Europeo.

Necesidad de la Investigación Comercial

La Investigación Comercial es necesaria porque las empresas trabajan en mercados más amplios y difíciles (globalización), manejan más productos diferentes, se encuentran con un entorno más complejo de analizar y la información se desvirtúa a medida que circula.

Paradoja de la Información Comercial

Cada vez existe más información disponible a un coste más pequeño, pero cada vez hay más información parcial o falsa.

Conclusiones y Sesgos

  • Se tiende a sobrevalorar lo que gusta a cada persona (Efecto Espejo).
  • Las personas evalúan el futuro a partir de las experiencias personales.
  • Efecto del Falso Consenso: La gente tiende a pensar que sus gustos son más frecuentes de lo que son en realidad.

Núcleo de la Investigación Comercial

  • Información sobre el Entorno: Oportunidades, amenazas, macroentorno, microentorno.
  • Información para Marketing Estratégico: Segmentación de mercado, posicionamiento de un producto.
  • Información para Marketing Operativo: Gama de productos, política de distribución, decisiones sobre precio, comunicación comercial.

Sistema de Información de Marketing (SIM)

El SIM es la recogida de información para la toma de decisiones. Tiene 4 subsistemas:

  1. Datos internos.
  2. Inteligencia de marketing.
  3. Investigación comercial.
  4. Apoyo a las decisiones de marketing.

Definición de Investigación Comercial

Búsqueda de información para su análisis e interpretación, con el fin de identificar y solucionar problemas y aprovechar oportunidades.

Características de la Investigación Comercial

  1. Investigación sistemática.
  2. Carácter objetivo.
  3. Elemento informativo (ser relevante, eficiente y eficaz).

Finalidad: Posibilitar la toma de decisiones por los responsables de marketing.

Sesgos Comunes

  • Colaboran personas que llevan una vida metódica.
  • Colaboran personas con menos de 40 años.
  • Cuanto mayor sea el precio, menor propensión a cooperar en los paneles.
  • Mayor cooperación en clases medias.
  • Se colabora más con productos de compra planificada que con compra impulsiva.

Tipos de Preguntas

Según su Formulación

  1. Abiertas: No hay respuestas preformuladas.
  2. Cerradas: Respuestas prefijadas (dicotómicas o múltiples: unirespuesta/multirrespuesta).

Según el Tipo de Información

  1. De Control: Para verificar que las personas responden la verdad.
  2. En Batería: Preguntas sobre el mismo tema dispuestas en bloques.
  3. Filtro: Segmentar la muestra para realizar preguntas distintas, hacer disyuntivas.
  4. Indirecta: Útiles ante temas delicados.
  5. Sobre Hábitos de Compra o de Consumo: Actos concretos realizados por el propio entrevistado.
  6. Sobre Motivaciones: Analiza la causa subyacente que explica un hábito de compra.
  7. Sobre Evaluaciones: Opiniones o valoraciones sobre cualquier tema u objeto.

Medición de Variables Económicas y Escalas

Variables Cualitativas / No Métricas (Se leen mediante letra)

  • Nominal: (Salario, raza, sector, color de ojos, estado civil, profesión, país).
  • Ordinal: Asignar un número para ordenar los datos (calidad de servicio, escolaridad, satisfacción, orden de mérito).

Variables Cuantitativas / Métricas

  • De Intervalo: Reúne 2 requisitos:
    1. La diferencia entre valores es de escala constante y tiene significado.
    2. El cero es arbitrario (no hay ausencia total de cantidad). (Ej: Estatura, salario, ventas producidas, volumen de ventas, calificación de examen).
  • De Razón: Igual que la de intervalo, pero el cero es absoluto (sí indica ausencia total). (Ej: Edad, número de hijos, gastos mensuales, ingresos, peso, talla).

Tipos de Escalas

  • Stapel: No tiene valor neutro (solo son variables no métricas ordinales).
  • Likert: Variables no métricas ordinales y pueden ser también de razón.
  • Diferencial Semántico: Igual que Likert, pero bipolar.
  • Escala de Preferencia: Sumas constantes.
  • Escala de Ordenación: Comparaciones múltiples.
  • Escala de Elección: Comparaciones pareadas [n * (n-1) / 2].

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.