|
Lección Estadística |
Análisis de conglomerados o cluster
|
|
© Citar como: Salvador
Figueras, M (2001): "Análisis de conglomerados o
cluster", [en línea] 5campus.org, Estadística
<http://www.5campus.org/leccion/cluster> [y añadir fecha consulta] |
|
1.-
PLANTEAMIENTO DEL PROBLEMA
Sean X1,...,Xp p variables numéricas observadas en
n objetos.
Sea xij = valor de la variable
Xj en el i-ésimo
objeto i=1,...,n; j=1,...,p.
El objetivo del
Análisis Cluster es obtener grupos de objetos de forma que, por un lado, los
objetos pertenecientes a un mismo grupo sean muy semejantes entre sí, es decir,
que el grupo esté cohesionado internamente y, por el otro, los objetos
pertenecientes a grupos diferentes tengan un comportamiento distinto con
respecto a las variables analizadas, es decir, que cada grupo esté aislado
externamente de los demás grupos.
Es una técnica
eminentemente exploratoria puesto que la mayor parte de las veces, no utiliza
ningún tipo de modelo estadístico para llevar a cabo el proceso de
clasificación. Se la podría calificar como una técnica de aprendizaje no
supervisado, es decir, una técnica muy adecuada para extraer información de un
conjunto de datos sin imponer restricciones previas en forma de modelos
estadísticos, al menos de forma explícita y, por ello, puede llegar a ser muy
útil como una herramienta de elaboración de hipótesis acerca del problema
considerado sin imponer patrones o teorías previamente establecidas.
Conviene, sin embargo, estar siempre alerta ante el peligro de obtener,
como resultado del análisis, no una clasificación
de los datos sino una disección de
los mismos, en distintos grupos que sólo existen en la memoria del ordenador.
El conocimiento que el analista tenga acerca del problema decidirá cuáles de
grupos obtenidos son significativos y cuáles no.
En lo que sigue,
analizaremos los pasos a seguir para llevar a cabo un Análisis Cluster,
ilustrándolos con aplicaciones al Análisis Económico Internacional.
Ejemplo 1 (Clasificación de paises de la UE con
datos binarios)
En este ejemplo los datos corresponden
a la situación de 6 países europeos en 1996 con respecto a los 4 criterios
exigidos por la UE para entrar en la Unión Monetaria: Inflación, Interés,
Déficit Público y Deuda Pública y vienen dados en la tabla siguiente:
País
|
Inflación |
Interés |
Déficit |
Deuda |
Alemania
|
1 |
1 |
1 |
0 |
|
España |
1 |
1 |
1 |
0 |
|
Francia |
1 |
1 |
1 |
1 |
|
Grecia |
0 |
0 |
0 |
0 |
|
Italia |
1 |
1 |
0 |
0 |
|
Reino Unido |
1 |
1 |
0 |
1 |
Este es un ejemplo en el que todas las
variables son binarias de forma que, este caso 1 significa que el país sí
satisfacía el criterio exigido y 0 que no lo satisfacía.
Ejemplo 2
(Clasificación de paises de la UE con datos binarios)
Este ejemplo corresponde a datos sobre
diversas variables económicas, sanitarias y demográficas correspondientes a 102
países del mundo en el año 1995. Dichas variables vienen detalladas en la
siguiente tabla:
|
Variable |
Significado |
|
POB |
Logaritmo de la Población |
|
DENS |
Logaritmo de la Densidad |
|
ESPF |
Logaritmo de 83-Esperanza
de vida Femenina |
|
ESPM |
Logaritmo de 78 -
Esperanza de vida masculina |
|
ALF |
Logaritmo de 101-Tasa de
Alfabetización |
|
MINF |
Logaritmo de la Tasa de
Mortalidad Infantil |
|
PIBCA |
Logaritmo del PIB per
cápita |
|
NACDEF |
Logaritmo de
Nacimientos/Defunciones |
|
FERT |
Logaritmo del número medio
de hijos por mujer |
En los dos ejemplos el objetivo es el
mismo: encontrar grupos de países que muestren un comportamiento similar con
respecto a las variables analizadas.
2. MEDIDAS DE PROXIMIDAD Y DE DISTANCIA
Una vez establecidas las variables y
los objetos a clasificar el siguiente paso consiste en establecer una medida de
proximidad o de distancia entre ellos que cuantifique el grado de similaridad
entre cada par de objetos.
Las medidas de proximidad, similitud o
semejanza miden el grado de semejanza entre dos objetos
de forma que, cuanto mayor (resp. menor) es su valor, mayor (resp. menor) es el
grado de similaridad existente entre ellos y con más (resp. menos) probabilidad
los métodos de clasificación tenderán a ponerlos en el mismo grupo.
Las medidas de disimilitud,
desemejanza o distancia miden la distancia entre dos objetos de
forma que, cuanto mayor (resp. menor) sea su valor, más (resp. menos)
diferentes son los objetos y menor (resp. mayor) la probabilidad de que los
métodos de clasificación los pongan en el mismo grupo.
En la literatura
existen multitud de medidas de semejanza y de distancia dependiendo del tipo de
variables y datos considerados. En esta lección solamente veremos algunas de
las más utilizadas. Para otros ejemplos
ver Anderberg (1973) o el manual de SPSS.
Siguiendo el
manual de SPSS podemos distinguir, esencialmente, los siguientes tipos de
datos:
1)
De intervalo: se trata de una matriz
objetosxvariables en donde todas las variables son cuantitativas, medidas en
escala intervalo o razón
2)
Frecuencias: las variables analizadas
son categóricas de forma que, por filas, tenemos objetos o categorías de
objetos y, por columnas, las variables con sus diferentes categorías. En el
interior de la tabla aparecen frecuencias.
3)
Datos binarios: se trata de una matriz
objetosxvariables pero en la que las variables analizadas son binarias de forma
que 0 indica la ausencia de una característica y 1 su presencia.
2.2 Medidas de proximidad
a)
Medidas para variables cuantitativas
1) Coeficiente
de congruencia
crs = 
que es
el coseno del ángulo que forman los vectores (xr1,...,xrp)' y (xs1,...,xsp)'.
2) Coeficiente de correlación
rrs = 
donde
y
.
Si los objetos r y s son variables, rrs mide
el grado de asociación lineal existente entre ambas.
Estas dos medidas se utilizan,
preferentemente, para clasificar variables siendo, en este caso, invariantes
por cambios de escala y, en el caso del coeficiente de correlación, invariante
por cambio de origen. Por esta razón es más conveniente utilizar el coeficiente
de congruencia con variables tipo razón en las cuales el origen está claramente
definido.
Conviene observar, además, que tanto crs como rrs toman
valores comprendidos entre -1 y 1 pudiendo tomar, por lo tanto, valores
negativos. Dado que, en algunos casos,
(por ejemplo, si los objetos a clasificar son variables), los valores
negativos cercanos a -1 pueden implicar fuerte semejanza entre los objetos
clasificados conviene, en estas situaciones, utilizar como medida de semejanza
sus valore absolutos.
b)
Medidas para datos binarios
|
Objeto s\Objeto r |
0 |
1 |
|
0 |
a |
b |
|
1 |
c |
d |
donde a
= número de variables en las que los objetos r y s toman el valor 0, etc y p =
a+b+c+d. Utilizando dichas tablas algunas de las medidas de semejanza más
utilizadas son:
Coeficiente de Jacard: 
Coeficiente
de acuerdo simple: 
Ambas toman valores entre 0 y 1 y
miden, en tanto por uno, el porcentaje de acuerdo en los valores tomados en las
p variables, existente entre los dos objetos. Difieren en el papel dado a los
acuerdos en 0. El coeficiente de Jacard no los tiene en cuenta y el de acuerdo
simple. Ello es debido a que, en algunas situaciones, las variables binarias
consideradas son asimétricas en el sentido de que es más informativo el valor 1
que el valor 0. Así, por ejemplo, si el color de los ojos de una persona se
codifica como 1 si tiene los ojos azules y 0 en caso contrario. En éste tipo de
situaciones es más conveniente utilizar coeficientes tipo Jacard.
c) Medidas para datos nominales y ordinales
Una generalización de las medidas
anteriores viene dada por la expresión:
srs = 
donde srsk es la
contribución de la variable k-ésima a la semejanza total. Dicha contribución
suele ser de la forma 1-drsk donde
drsk es una distancia que suele tener la forma dklm siendo
l el
valor del estado de la variable Xk en el
r-ésimo objeto y m el del s-ésimo objeto.
En variables nominales suele utilizarse dklm = 1 si
l=m y 0
en caso contrario. En variables ordinales suele utilizarse medidas de la forma
|l-m|r con r>0.
2.3 Medidas de distancia
a)
Medidas para variables cuantitativas
Las más utilizadas son:
1) Distancia euclídea y
distancia euclídea al cuadrado
y ![]()
2) Distancia métrica de
Chebychev: maxi |xri-xsi|
3)
Distancia de Manhattan: ![]()
4) Distancia de Minkowski:
con qÎN.
Las tres primeras medidas son variantes de la distancia de Minkowski
con q=2, ¥ y 1,
respectivamente. Cuanto mayor es q más énfasis se le da a las diferencias en
cada variable.
Todas estas distancias no son
invariantes a cambios de escala por lo que se aconseja estandarizar los datos
si las unidades de medida de las variables no son comparables. Además no tienen
en cuenta las relaciones existentes entre las variables. Si se quieren tener en
cuenta se aconseja utilizar la distancia de Mahalanobis que
viene dada por la forma cuadrática:
![]()
donde xr = (xr1,...,xrp)' y xs = (xs1,...,xsp)'
b)
Medidas para tablas de frecuencias:
Suelen
estar basadas en la c2 de Pearson. Algunas de las más utilizadas son:
c2 = 
j2 = 
donde
E(xri) =
es el valor esperado
de la frecuencia xri si hay independencia entre
los individuos r y s y las categorías 1,...,p de las variables y N = xr.+xs. es el
total de observaciones. La diferencia entre ambas medidas radica en la división
por N en el caso de j2 para paliar la dependencia que tiene la c2 de
Pearson respecto a N.
c)
Medidas para datos binarios
Las más utilizadas son:
Distancia euclídea al cuadrado: b+c
Lance y Williams:
Esta
última ignora los acuerdos en 0.
d) Medidas para datos de tipo mixto
Si en la base de datos existen
diferentes tipos de variables: binarias, categóricas, ordinales, cuantitativas
no existe una solución universal al problema de cómo combinarlas para construir
una medida de distancia. Anderberg (1973) o Gordon (1990) sugieren las
siguientes soluciones:
-
Expresar todas las variables en una escala común, habitualmente binaria,
transformando el problema en uno de los ya contemplados anteriormente. Esto
tiene sus costes, sin embargo, en términos de pérdida de información si se
utilizan escalas menos informativas como las nominales ú ordinales o la
necesidad de incorporar información extra si se utilizan escalas más
informativas como son las intervalo o razón.
-
Combinar medidas con pesos de ponderación mediante expresiones de la forma:

donde dijk es la
distancia entre los objetos i y j en la k-ésima variable y wijk = 0 ó
1 dependiendo de si la comparación entre i y j es válida en la k-ésima variable
-
Realizar análisis por separado utilizando variables del mismo tipo y utilizar
el resto de las variables como instrumentos para interpretar los resultados
obtenidos.
Ejempo 1
(continuación)
En este caso todas las variables son
binarias simétricas y podemos utilizar como medida de distancia la distancia
euclídea al cuadrado. La matriz de distancias obtenida viene dada por:
|
|
Al |
Es |
Fr |
Gr |
It |
RU |
|
Al |
0 |
0 |
1 |
3 |
1 |
2 |
|
Es |
|
0 |
1 |
3 |
1 |
2 |
|
Fr |
|
|
0 |
4 |
2 |
1 |
|
Gr |
|
|
|
0 |
2 |
3 |
|
It |
|
|
|
|
0 |
1 |
|
RU |
|
|
|
|
|
0 |
Así, por ejemplo, la distancia entre
España y Francia es 1 puesto que solamente difieren en un criterio: el de la
deuda pública que Francia satisfacía y España no.
Ejemplo
2 (continuación)
En este caso todas las variables son
cuantitativas pero medidas en diferentes unidades. Por esta razón utilizaremos
la distancia euclídea pero con los datos estandarizados previamente.
3. MÉTODOS DE CLASIFICACIÓN
Entre los muchos tipos de métodos que
existen en la literatura cabe destacar los siguientes:
- Jerárquicos: en
cada paso del algoritmo sólo un objeto cambia de grupo y los grupos están
anidados en los de pasos anteriores. Si un objeto ha sido asignado a un grupo
ya no cambia más de grupo
- Repartición: tienen
un número de grupos, g fijado de antemano, como objetivo y agrupa los objetos
para obtener los g grupos. Comienzan con una solución inicial y los objetos se reagrupan de acuerdo con
algún criterio de optimalidad.
- Métodos
tipo Q: son similares al análisis factorial y utilizan
como información la matriz XX’ utilizando las variables como objetos y los
objetos como variables.
- Procedimientos
de localización de modas: agrupan los objetos en
torno a modas con el fin de obtener
zonas de gran densidad de objetos separadas unas de otras por zonas de poca
densidad.
- Métodos
que permiten solapamiento: permiten que los grupos
tengan elementos en común.
En esta lección prestaremos especial
atención a los métodos jerárquicos aglomerativos y al algoritmo de las k-medias
que es un caso particular de método de repartición.
3.1 Métodos jerárquicos
Se
caracterizan porque en cada paso del algoritmo sólo un objeto cambia de grupo y
los grupos están anidados en los de pasos anteriores. Si un objeto ha sido
asignado a un grupo ya no cambia más de grupo
Pueden
ser, a su vez de dos tipos: aglomerativos y divisivos.
Los
métodos aglomerativos comienzan con n clusters de un objeto cada uno. En
cada paso del algoritmo se recalculan las distancias entre los grupos
existentes y se unen los 2 grupos más similares o menos disimilares. El
algoritmo acaba con 1 cluster conteniendo todos los elementos
Los
métodos divisivos comienzan con 1 cluster que engloba a todos los
elementos. En cada paso del algortimo se divide el grupo más heterogéneo. El
algoritmo acaba con n clusters de un elemento cada uno.
Para determinar qué grupos se unen o
dividen se utiliza una función objetivo o criterio que, en el caso de los
métodos aglomerativos recibe el nombre de enlace.
3.1.1
Tipos de enlace
Se utilizan con los métodos
aglomerativos y proporcionan diversos criterios para determinar, en cada paso
del algoritmo, qué grupos se deben unir. Cabe destacar los siguientes:
- Enlace simple o vecino más
próximo
Mide la proximidad entre dos grupos calculando la distancia
entre sus objetos más próximos o la similitud entre sus objetos más semejantes.
- Enlace completo o vecino
más alejado
Mide la proximidad entre dos grupos calculando la distancia
entre sus objetos más lejanos o la similitud entre sus objetos menos semejantes
- Enlace medio entre grupos
Mide la
proximidad entre dos grupos calculando la media de las distancias entre objetos
de ambos grupos o la media de las similitudes entre objetos de ambos grupos.
Así, por ejemplo, si se utilizan distancias, la distancia entre los grupos r y
s vendría dada por:

donde d(j,k) = distancia entre los objetos j y k y nr, ns son los tamaños de los
grupos r y s, respectivamente.
- Enlace medio dentro de los grupos
Mide la
proximidad entre dos grupos con la distancia media
existente entre los miembros del grupo unión de los dos grupos. Así, por
ejemplo, si se trata de distancias, la distancia entre los grupos r y s vendría
dada por:

![]()
3.1.2 Métodos del centroide y de la mediana
Ambos métodos miden la proximidad entre dos grupos
calculando la distancia entre sus centroides

donde
son las medias de la variable Xj en los grupos r y s, respectivamente.
Los dos métodos difieren en la forma de calcular los
centroides: el método del centroide utiliza las medias de todas las variables
de forma que las
coordenadas del centroide del grupo r = s È t
vendrán dadas por:
=
j = 1,…,p
En
el método de la mediana el nuevo centroide es la media de los centroides de los
grupos que se unen
= 
3.1.3 Método de Ward
El
método busca minimizar
donde SSWr es, para cada grupo r, las sumas de cuadrados
intragrupo que viene dada por:
SSWr = 
donde xrjm denota el valor de la variable Xj en el
m-ésimo elemento del grupo r.
En cada paso del algoritmo une los
grupos r y s que minimizan:
SSWt - SSWr - SSWs = 
con t = r Ès y
la distancia entre
los centroides de r y s.
3.1.4 Comparación de los diversos métodos
aglomerativos
1) El
enlace simple conduce a clusters encadenados
2) El
enlace completo conduce a clusters compactos
3) El
enlace completo es menos sensible a outliers que el enlace simple
4) El
método de Ward y el método del enlace medio son los menos sensibles a outliers
5) El
método de Ward tiene tendencia a formar clusters más compactos y de igual
tamaño y forma en comparación con el enlace medio
6)
Todos los métodos salvo el método del centroide satisfacen la desigualdad
ultramétrica:
dut £ min {dur,dus} t = r Ès
3.1.5 Elección del número de grupos
Existen diversos métodos de
determinación del número de grupos: algunos están basados en intentan
reconstruir la matriz de distancias original, otros en los coeficientes de
concordancia de Kendall y otros realizan analisis de la varianza entre los
grupos obtenidos. No existe un criterio universalmente aceptado.
Dado que la mayor parte de los paquetes
estadísticos proporciona las distancias de aglomeración, es decir, las
distancias a las que se forma cada grupo, una forma de determinar el número de
grupos consiste en localizar en qué iteraciones del método utilizado dichas
distancias pegan grandes saltos. Utilizando dichas distancias se pueden
utilizar criterios como el criterio de
Mojena que determina el primer sÎN tal que
as+1 >
+ ksa si se utilizan distancias y < si son
similitudes donde {aj ;j=1,...,n-1}
son las distancias de aglomeración,
, sa su
media y su desviación típica respectivamente y k una cte entre 2.5 y 3.5.
Ejemplo 1 (continuación)
Los resultados de aplicar
un método jerárquico aglomerativo con enlace completo utilizando el paquete
estadístico SPSS 9.0 se muestran a continuación:


Dendograma
Distancia de aglomeración
reescalada
C A S 0 0 5 10 15 20 25
Etiqueta Num
+---------+---------+---------+---------+---------+
Alemania 1 -+-----------+
España 2 -+ +-----------+
Francia 3 -------------+ +-----------------------+
Italia 5 -------------+-----------+ I
Reino Unido 6 -------------+ I
Grecia 4
-------------------------------------------------+
El historial de aglomeración
muestra las distancias de aglomeración y los grupos que se han ido formando al
aplicar el algoritmo. El diagrama de témpanos y el dendograma dan dicha
información de forma gráfica. Así, en el primer paso del algoritmo se unieron
Alemania y España a una distancia de aglomeración igual a 0. Posteriormente, a
dicho grupo, se unió Francia e Italia y
Reino Unido formaron otro grupo, todo ello a una distancia de aglomeración
igual a 1. Estos dos grupos se unieron formando un único grupo a una distancia
de aglomeración igual a 2. Finalmente Grecia se unió a todos los demás países a
una distancia de aglomeración igual a 4, la máxima posible. Si tomamos como
punto de corte 1 nos quedaríamos con 3 grupos: {España, Alemania y Francia}, {Italia,
Reino Unido} y {Grecia}. Estos grupos están formados por países que difieren
entre sí en a lo más un criterio.
Ejemplo 2 (continuación)
En el gráfico 1 se
muestran las distancias de aglomeración del algoritmo jerárquico aglomerativo
tomando como función de enlace, el enlace intergrupos y utilizando el paquete
estadístico SPSS 9.0

Gráfico 1: Distancias de
aglomeración
Se observa que los
mayores saltos se dan cuando el algoritmo pasa de 4 a 3, 3 a 2 y 2 a 1 grupo.
El criterio de Mojena aplicado con k=2.5 da una distancia de corte igual a 3.83
y selecciona un número de grupos igual a 4. Por todas estas razones tomamos
como número de grupos 4.
3.2 Método de las k-medias
Este
tipo de método es conveniente utilizarlo cuando los datos a clasificar son
muchos y/o para refinar una clasificación obtenida utilizando un método
jerárquico. Supone que el número de grupos es conocido a priori.
Existen varias formas de implementarlo pero todas
ellas siguen, básicamente, los siguientes pasos:
1) Se
seleccionan k centroides o semillas donde k es el número de grupos deseado
2) Se
asigna cada observación al grupo cuya semilla es la más cercana
3)
Se
calculan los puntos semillas o centroides de cada grupo
4)
Se iteran los pasos 2) y 3) hasta que se satisfaga
un criterio de parada como, por ejemplo, los puntos semillas apenas cambian o
los grupos obtenidos en dos iteraciones consecutivas son los mismos.
El método suele
ser muy sensible a la solución inicial dada por lo que es conveniente utilizar
una que sea buena. Una forma de construirla es mediante una clasificación
obtenida por un algoritmo jerárquico
Ejemplo 2 (continuación)
Los resultados de aplicar el algoritmo
de las k-medias implementado en SPSS 9.0, con un número de grupos igual a 4 y
tomando como punto de partida los centroides de los grupos obtenidos
anteriormente vienen dados por las siguientes tablas y gráficos. El algoritmo
converge en 10 iteraciones y obtiene 4 grupos de tamaños 24, 39, 1 y 41 países
respectivamente.

En la tabla subsiguiente se muestran
los países miembros de cada grupo junto con las distancias de cada país al
centroide de su grupo. Así mismo se muestran las distancias entre los
centroides de cada grupo. Se observa que los grupos 1 y 4 contienen países del
tercer mundo, el grupo 2 está compuesto por países del primer y segundo mundos
y el grupo 3 contiene únicamente a Islandia
Grupo obtenidos
|
PAIS |
GRUPO |
DISTANCIA |
|
Venezuela |
1 |
1,10992 |
|
Ecuador |
1 |
1,17341 |
|
Malasia |
1 |
1,19941 |
|
Panamá |
1 |
1,24843 |
|
Acerbaján |
1 |
1,27096 |
|
Colombia |
1 |
1,31659 |
|
Armenia |
1 |
1,33676 |
|
Chile |
1 |
1,36857 |
|
Rep. Dominicana |
1 |
1,49939 |
|
Turquía |
1 |
1,57329 |
|
Uzbekistán |
1 |
1,65333 |
|
Líbano |
1 |
1,67326 |
|
México |
1 |
1,69396 |
|
Tailandia |
1 |
1,81748 |
|
El Salvador |
1 |
1,81842 |
|
Corea del Norte |
1 |
1,82812 |
|
Paraguay |
1 |
1,88032 |
|
Jordania |
1 |
1,90393 |
|
Argentina |
1 |
2,05071 |
|
Emiratos Árabes |
1 |
2,26097 |
|
Corea del Sur |
1 |
2,28927 |
|
Costa Rica |
1 |
2,56727 |
|
Kuwait |
1 |
2,5803 |
|
Bahrein |
1 |
2,78161 |
|
Austria |
2 |
0,84751 |
|
Irlanda |
2 |
1,02262 |
|
Dinamarca |
2 |
1,03776 |
|
Croacia |
2 |
1,17118 |
|
Bélgica |
2 |
1,25977 |
|
Finlandia |
2 |
1,29839 |
|
Grecia |
2 |
1,39139 |
|
Polonia |
2 |
1,39569 |
|
España |
2 |
1,41288 |
|
Lituania |
2 |
1,42745 |
|
Hungía |
2 |
1,43235 |
|
Portugal |
2 |
1,45946 |
|
Bielorusia |
2 |
1,47973 |
|
Gran Bretaña |
2 |
1,53294 |
|
Bulgaria |
2 |
1,53866 |
|
Georgia |
2 |
1,62389 |
|
Nueva Zelanda |
2 |
1,68732 |
|
Suecia |
2 |
1,69381 |
|
Rumanía |
2 |
1,69529 |
|
Italia |
2 |
1,71363 |
|
Alemania |
2 |
1,71408 |
|
Países Bajos |
2 |
1,77523 |
|
Noruega |
2 |
1,83862 |
|
Uruguay |
2 |
1,93886 |
|
Cuba |
2 |
1,94022 |
|
Francia |
2 |
1,98214 |
|
Estonia |
2 |
2,01381 |
|
Letonia |
2 |
2,02654 |
|
Suiza |
2 |
2,04078 |
|
Ucrania |
2 |
2,19731 |
|
Estados Unidos |
2 |
2,30185 |
|
Canadá |
2 |
2,60291 |
|
Australia |
2 |
2,69585 |
|
Israel |
2 |
2,71955 |
|
Rusia |
2 |
2,89912 |
|
Japón |
2 |
3,11629 |
|
Barbados |
2 |
3,15042 |
|
Singapur |
2 |
3,48935 |
|
Hong Kong |
2 |
3,75342 |
|
Islandia |
3 |
0,0000 |
|
Camerún |
4 |
0,57933 |
|
Senegal |
4 |
0,72504 |
|
Kenia |
4 |
0,81205 |
|
Egipto |
4 |
1,01448 |
|
Guatemala |
4 |
1,07179 |
|
Camboya |
4 |
1,17287 |
|
Marruecos |
4 |
1,34473 |
|
Burkina Faso |
4 |
1,35581 |
|
Nicaragua |
4 |
1,40744 |
|
Tanzania |
4 |
1,44743 |
|
Irán |
4 |
1,45366 |
|
Nigeria |
4 |
1,47222 |
|
Iraq |
4 |
1,50176 |
|
Sudáfrica |
4 |
1,51414 |
|
Perú |
4 |
1,53181 |
|
Liberia |
4 |
1,54648 |
|
Bolivia |
4 |
1,56759 |
|
Uganda |
4 |
1,57074 |
|
Honduras |
4 |
1,58019 |
|
Zambia |
4 |
1,58128 |
|
Etiopía |
4 |
1,68095 |
|
Pakistán |
4 |
1,69868 |
|
Afganistán |
4 |
1,73597 |
|
Somalia |
4 |
1,78696 |
|
Siria |
4 |
1,86294 |
|
Haití |
4 |
1,86689 |
|
Burundi |
4 |
1,99972 |
|
Filipinas |
4 |
2,03681 |
|
Indonesia |
4 |
2,12085 |
|
Ruanda |
4 |
2,13195 |
|
Vietnam |
4 |
2,14496 |
|
Gambia |
4 |
2,31622 |
|
Brasil |
4 |
2,31901 |
|
Rep. C. Africana |
4 |
2,41386 |
|
Arabia Saudí |
4 |
2,4842 |
|
Bangladesh |
4 |
2,5958 |
|
Libia |
4 |
2,77066 |
|
Gabón |
4 |
2,94421 |
|
India |
4 |
2,96665 |
|
Botswana |
4 |
2,96857 |
|
China |
4 |
3,63459 |

4. INTERPRETACION DE LOS RESULTADOS
Interpretar la clasificación obtenida
por un Análisis Cluster requiere, en primer lugar, un conocimiento suficiente
del problema analizado. Hay que estar abierto a la posibilidad de que no todos
los grupos obtenidos tienen por qué ser significativos. Algunas ideas que
pueden ser útiles en la interpretación de los resultados son las siguientes:
-
Realizar ANOVAS y MANOVAS para ver qué grupos son significativamente distintos
y en qué variables lo son
-
Realizar Análisis Discriminantes. PONER ENLACE A PAGINA DE ANALISIS
DISCRIMINANTE
-
Realizar un Análisis Factorial o de Componentes Principales para representar,
gráficamente los grupos obtenidos y observar las diferencias existentes entre
ellos PONER ENLACES A FUTURAS PAGINAS WEB DE ESTOS DOS TEMAS
-
Calcular perfiles medios por grupos y
compararlos.
Ejemplo 2 (continuación)
En la tabla siguiente se muestran los
resultados de aplicar un ANOVA para cada una de las variables analizadas. Se
observa que existen diferencias significativas en todas las variables al 1 y al
5% con excepción de las variables POB y DENS en las que solamente existen
diferencias al 5%.

Los dos gráficos siguientes muestran
los perfiles medio de cada grupo y los diagramas de cajas de las variables
analizadas para cada uno de los grupos. Se observa que los países de los grupos
1 y 4 poseen una menor renta per cápita y peores indicadores los índices de
alfabetización, mortalidad y esperanza de vida
así como una mayor fertilidad y natalidad que la de los países de los
grupos 2 y 3 siendo estas diferencias más acusadas en los países del grupo 4
que la de los grupo 1. También queda de manifiesto el carácter atípico de
Islandia debido a su baja natalidad, mortalidad infantil, población y densidad
y su alta alfabetización, esperanza de vida.

Gráfico 1:
Perfiles medios de cada grupo

Gráfico 2: Diagrama de cajas correspondiente a cada grupo
5. VALIDACIÓN DE LA SOLUCIÓN
Una vez obtenidos los grupos e
interpretado los resultados conviene, siempre que sea posible, proceder a la
validación de los mismos con el fin de averiguar, por un lado, hasta qué punto
los resultados obtenidos son extrapolables a la población de la que vienen los
objetos seleccionados y, por el otro, por qué han aparecido dichos grupos. Esta
validación se puede realizar de forma externa o interna.
5.1 Validez interna
Se puede establecer
utilizando procedimientos de validación cruzada. Para ello se dividen los datos
en dos grupos y se aplica el algoritmo de clasificación a cada grupo comparando
los resultados obtenidos en cada grupo. Por ejemplo, si el método utilizado es
el de las k-medias se asignaría cada objeto de uno de los grupos al cluster más
cercano obtenido al clasificar los datos el otro grupo y se mediría el grado de
acuerdo entre las clasificaciones obtenidas utilizando los dos métodos
Se
puede realizar comparando los resultados obtenidos con un criterio
externo (por ejemplo, clasificaciones obtenidas por evaluadores independientes
o analizando en los grupos obtenidos, el comportamiento de variables no
utilizadas en el proceso de clasificación) o realizando un Análisis Cluster con
una muestra diferente de la realizada.
Ejempo 2
(continuación)
En
los 3 gráficos siguientes se muestra la composición de cada grupo por religión
mayoritaria, región económica y clima
predominante. Se observa que la mayor parte de los países cristianos pertenecen
al grupo 2 siendo esta diferencia más clara en los cristianos ortodoxos y
protestantes. Por otro lado, los países musulmanes y los que practican otras
religiones están en los grupos 1 y 4 .
Los países budistas se distribuyen equitativamente en los 3 grupos

Gráfico 3:
Composición de los grupos por religión
Por regione económicas, los paises del
primer y segundo mundos (OCDE y Europa Oriental) pertenecen todos al segundo
grupo, los paises de América Latina y Oriente Medio tiende a estar en el grupo
1 mientras que todos los países africanos y la mayor parte de los paises de
Asia están incluidos en el grupo 4. Los grupos reflejan, por lo tanto, las
diferencias existentes entre las diversas regiones económicas del mundo

Gráfico 4:
Composición de los grupos por región económica
El gráfico 5 pone de manifiesto la
influencia del clima en la composición de los grupos. La mayor parte de los
países con climas templados y frío pertenecen al grupo 2 mientras que los
países con clima desértico, ecuatorial y tropical tienden a estar en el grupo 4
y los de clima árido en el grupo 1.

Gráfico 5:
Composición de los grupos por clima predominante
Resumen
El Análisis Cluster, también conocido
como Análisis de Conglomerados, Taxonomía Numérica o Reconocimiento de
Patrones, es una técnica estadística multivariante cuya finalidad es dividir un
conjunto de objetos en grupos (cluster
en inglés) de forma que los perfiles de los objetos en un mismo grupo sean muy
similares entre sí (cohesión interna del grupo) y los de los objetos de
clusters diferentes sean distintos (aislamiento externo del grupo).
Para
llevar a cabo un análisis de este tipo se deben los siguientes pasos:
1) Plantear
el problema a resolver por un Análisis Cluster
2) Establecer
medidas de semejanza y de distancia entre los objetos a clasificar en función
del tipo de datos analizado
3) Analizar
algunos de los métodos de clasificación propuestos en la literatura haciendo
especial énfasis en los métodos jerárquicos aglomerativos y en el algoritmo de
las k-medias, y determinar el número de grupos.
4) Interpretar
los resultados obtenidos
5) Analizar
la validez de la clasificación obtenida
Conviene hacer notar, finalmente, que es una técnica eminentemente
exploratoria cuya finalidad es sugerir ideas al analista a la hora de elaborar
hipótesis y modelos que expliquen el comportamiento de las variables analizadas
identificando grupos homogéneos de objetos. Los resultados del análisis
deberían tomarse como punto de partida en la elaboración de teorías que
explicquen dicho comportamiento.
Bibliografía
Como libros de consulta dedicados
exclusivamente al Análisis Cluster y con un montón de referencias adicionales
recomiendo:
ANDERBERG, M.R. (1973). Cluster
Analysis for Applications. Academic Press, New York
GORDON, A.D. (1999). Classification.
2nd Edition. Chapman and Hall.
KAUFMAN, L. and ROUSSEEUW, P.J. (1990). Finding Groups in Data: An Introduction to Cluster Analysis, Wiley,
New York.
SNEATH, P.H. and SOKAL, R.R. (1973). Numerical
Taxonomy, Freeman, San Francisco.
Libros
de Análisis Multivariantes que contienen buenos capítulos acerca del Análisis
Discriminante.
Desde un punto de vista más práctico:
AFIFI,
A.A. and CLARK, V. (1996) Computer-Aided
Multivariate Analysis. Third Edition. Texts in Statistical Science. Chapman
and Hall.
EVERITT,
B. And GRAHAM, D. (1991). Applied
Multivariate Data Analysis. Arnold.
HAIR,
J., ANDERSON, R., TATHAM, R. y BLACK, W. (1999). Análisis
Multivariante. 5ª Edición. Prentice Hall.
SHARMA, S. (1998). Applied Multivariate Techiques. John Wiley and Sons.
URIEL, E. (1995). Análisis de Datos: Series temporales y Análisis Multivariante.
Colección Plan Nuevo. Editorial AC.
Desde
un punto de vista más matemático:
JOBSON, J.D. (1992) Applied Multivariate Data
Analysis. Volume II: Categorical and Multivariate Methods. Springer-Verlag.
MARDIA, K.V., KENT, J.T. y BIBBY, J.M. (1994). Multivariate Analysis. Academic Press.
Enfocados hacia SPSS:
FERRAN,
M. (1997). SPSS para WINDOWS. Programación y Análisis Estadístico. Mc.Graw
Hill.
VISAUTA, B. (1998) Análisis Estadístico con SPSS para WINDOWS (Vol II. Análisis
Multivariante). Mc-Graw Hill.