Lección Estadística |
Introducción al Análisis Multivariante
|
© Citar como: Salvador Figueras, M (2000):
"Introducción al Análisis Multivariante", [en línea] 5campus.com,
Estadística <http://www.5campus.com/leccion/anamul> [y añadir fecha
consulta] |
1.- ¿QUÉ ES EL ANÁLISIS MULTIVARIANTE?
Es
el conjunto de métodos estadísticos cuya finalidad es analizar simultáneamente
conjuntos de datos multivariantes en el sentido de que hay varias variables
medidas para cada individuo ú objeto estudiado.
Su
razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio
obteniendo información que los métodos estadísticos univariantes y bivariantes
son incapaces de conseguir.
Así,
como Hair et al. (1999) dicen:
“Las mujeres y hombres de
negocios de hoy no pueden seguir aproximaciones ya pasadas en las que los
consumidores eran considerados homogéneos y caracterizados por un número
pequeño de variables demográficas. En su lugar, deben desarrollar estrategias
que atraigan a numerosos segmentos de clientes con características demográficas
y psicográficas diversas en un mercado con múltiples restricciones (legales,
económicas, competitivas, tecnológicas, etc). Sólo a través del análisis
multivariante las relaciones múltiples de este tipo podrán ser examinadas
adecuadamente para obtener un entendimiento más completo y real del entorno que
permita tomar las decisiónes más adecuadas.”
1.1.
Objetivos del Análisis
Multivariante
Pueden sintetizarse en dos:
1) Proporcionar métodos cuya finalidad es el estudio
conjunto de datos multivariantes que el análisis estadístico uni y
bidimensional es incapaz de conseguir
2) Ayudar al analista o investigador a tomar decisiones
óptimas en el contexto en el que se encuentre teniendo en cuenta la información
disponible por el conjunto de datos analizado
2.- TIPOS DE TECNICAS MULTIVARIANTES
Se pueden clasificar
en tres grandes grupos (ver esquema adjunto):
1) Métodos de dependencia
Suponen que las variables analizadas están divididas
en dos grupos: las variables dependientes
y las variables independientes. El objetivo de los métodos de dependencia
consiste en determinar si el conjunto de variables independientes afecta al
conjunto de variables dependientes y de qué forma.
2) Métodos de interdependencia
Estos métodos no distinguen
entre variables dependientes e independientes y su objetivo consiste en
identificar qué variables están relacionadas, cómo lo están y por qué.
3) Métodos estructurales
Suponen que las variables
están divididas en dos grupos: el de las variables dependientes y el de las
independientes. El objetivo de estos métodos es análizar, no sólo como las
variables independientes afectan a las variables dependientes, sino también
cómo están relacionadas las variables de los dos grupos entre sí.
2.1 Métodos de dependencia
Se pueden clasificar
en dos grandes subgrupos según que la variable (s) dependiente (s) sea (n)
cuantitativas o cualitativas.
Si la variable
dependiente es cuantitativa algunas de las técnicas que se pueden aplicar son
las siguientes:
1) Análisis de
Regresión
Es la técnica adecuada si en el
análisis hay una o varias variables dependientes métricas cuyo valor depende de
una o varias variables independientes métricas.
Por ejemplo, intentar predecir el
gasto anual en cine de una persona a partir de su nivel de ingresos, nivel
educativo, sexo y edad.
2) Análisis de Supervivencia
Es similar al análisis de regresión pero con la diferencia de que la
variable independiente es el tiempo de supervivencia de un individuo ú objeto.
Por ejemplo, intentar predecir
el tiempo de permanencia en el desempleo de un individuo a partir de su nivel
de estudios y de su edad.
3) Análisis de la varianza
Se
utilizan en situaciones en las que la muestra total está dividida en varios
grupos basados en una o varias variables independientes no métricas y las
variables dependientes analizadas son métricas. Su objetivo es averiguar si hay
diferencias significativas entre dichos grupos en cuanto a las variables
dependientes se refiere.
Por
ejemplo, ¿hay diferencias en el nivel de colesterol por sexos? ¿afecta,
también, el tipo de ocupación?.
4) Correlación Canónica
Su objetivo es
relacionar simultáneamente varias variables métricas dependientes e
independientes calculando combinaciones lineales de cada conjunto de variables
que maximicen la correlación existente entre los dos conjuntos de variables.
Por ejemplo, analizar
cómo están relacionadas el tiempo dedicado al trabajo y al ocio de una persona
con su nivel de ingresos, su edad y su nivel de educación
Si la variable dependiente es cualitativa algunas de las técnicas que
se pueden aplicar son las siguientes:
1) Análisis Discriminante
Esta técnica proporciona reglas de
clasificación óptimas de nuevas observaciones de las que se desconoce su grupo
de procedencia basándose en la información proporcionada los valores que en
ella toman las variables independientes.
Por
ejemplo, determinar los ratios financieros que mejor permiten discriminar entre
empresas rentables y poco rentables.
2) Modelos de regresión logística
Son
modelos de regresión en los que la variable dependiente es no métrica. Se
utilizan como una alternativa al análisis discriminante cuando no hay
normalidad
3) Análisis Conjoint
Es
una técnica que analiza el efecto de variables independientes no métricas sobre
variables métricas o no métricas. La diferencia con el Análisis de la Varianza
radica en dos hechos: las variables dependientes pueden ser no métricas y los
valores de las variables independientes no métricas son fijadas por el
analista. En otras disciplinas se conoce con el nombre de Diseño de
Experimentos.
Por ejemplo, una empresa quiere diseñar un nuevo producto y para ello necesita
especificar la forma del envase, su precio , el contenido por envase y su
composición química. Presenta diversas composiciones de estos cuatro factores.
100 clientes proporcionan un ranking de las combinaciones que se le presentan.
Se quiere determinar los valores óptimos de estos 4 factores.
2.2 Métodos de
Interdependencia
Se pueden clasificar en dos grandes grupos según que
el tipo de datos que analicen sean métricos o no métricos.
Si
los datos son métricos se pueden utilizar, entre otras, las siguientes
técnicas:
1) Análisis Factorial y
Análisis de Componentes Principales
Se utiliza para
analizar interrelaciones entre un número elevado de variables métricas
explicando dichas interrelaciones en términos de un número menor de variables
denominadas factores (si son inobservables) o componentes principales (si son
observables).
Así, por ejemplo, si
un analista financiero quiere determinar la cual es el estado de salud
financiero de una empresa a partir del conocimiento de un número de ratios
financieros, construyendo varios índices numéricos que definan su situación, el
problema se resolvería mediante un Análisis de Componentes Principales.
Si un psicólogo quiere
determinar los factores que caracterizan la inteligencia de un individuo a
partir de sus respuestas a un test de inteligencia, utilizaría para resolver
este problema un Análisis Factorial.
2) Escalas Multidimensionales
Su objetivo es
transformar juicios de semejanza o preferencia en distancias representadas en
un espacio multidimensional. Como consecuencia se construye un mapa en el que
se dibujan las posiciones de los objetos comparados de forma que aquéllos percibidos
como similares están cercanos unos de otros y alejados de objetos percibidos como distintos.
Por ejemplo, analizar, en el mercado de refrescos,
las percepciones que un grupo de consumidores tiene acerca de una lista de
refrescos y marcas con el fin de estudiar qué factores subjetivos utiliza un
consumidor a la hora de clasificar dichos productos.
3) Análisis Cluster
Su objetivo es
clasificar una muestra de entidades (individuos o variables) en un número
pequeño de grupos de forma que las
observaciones pertenecientes a un grupo sean muy similares entre sí y muy
disimilares del resto. A diferencia del Análisis Discriminante se desconoce el
número y la composición de dichos grupos.
Por ejemplo,
clasificar grupos de alimentos (pescados, carnes, vegetales y leche) en función
de sus valores nutritivos.
Si los datos son no métricos se
pueden utilizar, además de las Escalas Multidimensionales y el Análisis
Cluster, las siguientes técnicas:
1) Análisis de
Correspondencias
Se aplica a tablas de
contingencia multidimensionales y persigue un objetivo similar al de las
escalas multidimensionales pero representando simultáneamente las filas y
columnas de las tablas de contingencia.
Por ejemplo, analizar
el paro en Aragón teniendo en cuenta la provincia, sexo, edad y nivel de
estudios del parado
2) Modelos log-lineales
Se aplican a tablas de
contingencia multidimensionales y modelizan relaciones de dependencia
multidimensional de las variables observadas que buscan explicar las
frecuencias observadas.
Analizan las
relaciones existentes entre un grupo de variables representadas por sistemas de
ecuaciones simultáneas en las que se suponen que algunas de ellas (denominadas
constructos) se miden con error a partir de otras variables observables
denominadas indicadores.
Los modelos utilizados
constan, por lo tanto, de dos partes: un modelo estructural que especifica las relaciones de dependencia existente
entre las constructos latentes y un modelo
de medida que especifica como los indicadores se relacionan con sus
correspondientes constructos.
Por ejemplo, analizar
cómo se relacionan los niveles de utilización de los servicios de una empresa
con las percepciones que sus clientes tienen de ella.
3.- ETAPAS DE UN ANALISIS MULTIVARIANTE
Pueden
sintetizarse en 6:
1) Objetivos del análisis
Se define el problema especificando los objetivos y
las técnicas multivariantes que se van a utilizar
El investigador debe establecer el
problema en términos conceptuales definiendo los conceptos y las relaciones
fundamentales que se van a investigar. Se deben establecer si dichas relaciones
van a ser relaciones de dependencia o de interdependencia. Con todo esto se
determinan las variables a observar.
2) Diseño del análisis.
Se determina el tamaño muestral, las
ecuaciones a estimar (si procede), las distancias a calcular (si procede) y las
técnicas de estimación a emplear. Una vez determinado todo esto se proceden a
observar los datos
3) Hipótesis del análisis
Se evaluan las hipótesis subyacentes a la técnica
multivariante. Dichas hipótesis pueden ser de normalidad, linealidad,
independencia, homocedasticidad, etc. También se debe decidir qué hacer con los
datos missing
4) Realización del análisis
Se estima el modelo y se evalúa el ajuste a los
datos. En este paso pueden aparecer observaciones atípicas (outliers) o
influyentes cuya influencia sobre las estimaciones y la bondad de ajuste se
debe analizar.
5) Interpretación de los resultados
Dichas
interpretaciones pueden llevar a reespecificaciones adicionales de las
variables o del modelo con lo cual se puede volver de nuevo a los pasos 3) y 4)
6) Validación del análisis
Consiste en establecer la validez de los resultados obtenidos analizando sí los resultados obtenidos con la muestra
se generalizar a la población de la que procede. Para ello se puede dividir la
muestra en varias partes en las que el model se vuelve a estimar y se compararn los resultados. Otras
técnicas que se pueden utilizar aquí son las técnicas de remuestreo (jacknife y
bootstrap)
En el ejemplo siguiente concretamos en qué
consistirían dichas etapas para un Análisis de Regresión Múltiple:
Ejemplo: Análisis de Regresión Múltiple
1) Objetivos del análisis
Predecir el gasto en cine de una
persona a partir de su nivel de ingresos, nivel educativo, sexo y edad lo cual
nos permitiría entender mejor cuáles son las pautas de comportamiento de la
población.
Para ello se propone un análisis de
regresión múltiple en el que la variable dependiente sería el gasto en cine y
como variables independientes el resto.
2) Diseño del análisis
Se decidiría cómo elegir la muestra,
el tamaño de la misma y cómo medir las variables implicadas en el análisis. El
gasto en cine podría medirse como el gasto anual en cine medido en pesetas. El
nivel de ingresos podría medirse con una variable ordinal, dadas las
reticencias a dar información precisa sobre este tipo de variables; el nivel
educativo sería una variable ordinal; el sexo una variable binaria y la edad
una variable cuantitativa medida en años.
El tamaño de la muestra se eligiría
en función de la potencia que se quiera dar a la regresión múltiple. Así, por
ejemplo, con un tamaño muestral de 100 observaciones se podría detectar, en una
regresión múltiple lineal, las relaciones con un coeficiente de correlación
múltiple (R2) de aproximadamente
igual a 0.3 con una potencia de 0.8% utilizando un nivel de significación igual
a 0.01. Conviene, además, que el ratio del número de observaciones al número de
parámetros a estimar sea lo suficientemente amplio para estimar los parámetros
del modelo con el menor error posible
3) Hipótesis del análisis
Hay que comprobar la
linealidad de la relación, la normalidad y la homocedasticidad. No hay datos
missing y se deben estudiar la posible existencia de ouliers en cada una de las
variables.
4) Realización del análisis
Se puede utilizar el
estimador de mínimos cuadrados del que se conoce su distribución muestral bajo
hipótesis de normalidad. Dicho estimador coincide con el máximo verosimil y es
eficiente. Se puede también utilizar el método de regresión paso a paso para
determinar las variables independientes a incluir en la regresión. Una vez
estimada la ecuación de regresión se estudia la bondad de ajuste mediante el
cálculo de R2 y el análisis de los resíduos. Se estudiaría la homocedasticidad,
independencia, posible omisión de variables, existencia de outliers e
influencia de observaciones individuales
5) Interpretación de los resultados
Se interpretaría el
valor de los coeficientes obtenidos así como su signo teniendo cuidado con la
posible existencia de multicolinealidad
6) Validación del análisis
Se divide la muestra
en dos submuestras de tamaño 50 y se vuelve a estimar la ecuación de regresión
en cada submuestra comparando los resultados.
Resumen
El Análisis Multivariante es el conjunto
de métodos estadísticos cuya finalidad es analizar simultáneamente conjuntos de
datos multivariantes en el sentido de que hay varias variables medidas para
cada individuo ú objeto estudiado.
Su
razón de ser radica en un mejor entendimiento del fenómeno objeto de estudio
obteniendo información que los métodos estadísticos univariantes y bivariantes
son incapaces de conseguir.
Dicho conjunto de
métodos puede dividirse en tres grandes grupos según el papel que juegen en el
análisis las variables consideradas:
1) Métodos de dependencia
2) Métodos de interdependencia
3) Métodos estructurales
Para llevar a cabo un análisis de este tipo se deben
los siguientes pasos:
1) Establecer los objetivos del análisis
2) Diseñar el análisis
3) Evaluar las hipótesis subyacentes a la técnica a utilizar
4) Realizar el análisis
5) Interpretar los resultados obtenidos
6) Validar dichos resultados
Bibliografía
Como libro de consulta
dedicado exclusivamente al Análisis Multivariante y con un montón de
referencias adicionales recomiendo:
GRIM, L. and YARNOLD, P.R. (1994). Reading
and understanding multivariate statistics. American Psycological
Association. Washington D.C
HAIR, J., ANDERSON, R., TATHAM, R. y BLACK, W. (1999). Análisis Multivariante. 5ª Edición.
Prentice Hall.
MARTINEZ ARIAS,
R. (2000). El Análisis Multivariante en
la Investigación Científica. Cuadernos de Estadística. Editorial La Muralla
Otros libros
interesantes son:
AFIFI,
A.A. and CLARK, V. (1996) Computer-Aided
Multivariate Analysis. Third Edition. Texts in Statistical Science. Chapman
and Hall.
EVERITT,
B. And GRAHAM, D. (1991). Applied
Multivariate Data Analysis. Arnold.
SHARMA, S. (1998). Applied Multivariate Techiques. John Wiley and Sons.
URIEL, E. (1995). Análisis de Datos: Series temporales y
Análisis Multivariante. Colección Plan Nuevo. Editorial AC.
Desde un punto de vista más matemático:
JOBSON, J.D. (1992) Applied Multivariate Data
Analysis. Volume II: Categorical and Multivariate Methods. Springer-Verlag.
LEBART, L; MORINEAU, A. and PIRON, M. (2000). Statistique Exploratoire
Multidimensionnelle. 3ª
Edition. DUNOD.
MARDIA, K.V., KENT, J.T. y BIBBY, J.M. (1994). Multivariate Analysis. Academic Press.
Enfocados hacia
SPSS:
FERRAN,
M. (1997). SPSS para WINDOWS. Programación y Análisis Estadístico. Mc.Graw Hill.
VISAUTA, B. (1998) Análisis Estadístico con SPSS para WINDOWS
(Vol II. Análisis Multivariante). Mc-Graw Hill.