Escuela superior politécnica del litoral


Análisis de conglomerados (Cluster análisis)



Descargar 377.72 Kb.
Página4/9
Fecha de conversión03.12.2017
Tamaño377.72 Kb.
Vistas414
Descargas0
1   2   3   4   5   6   7   8   9

2.2 Análisis de conglomerados (Cluster análisis)
El análisis de conglomerados, es un conjunto de técnicas utilizadas para clasificar los objetos o casos en grupos homogéneos llamados conglomerados (clusters) con respecto a algún criterio de selección predeterminado. Los objetos dentro de cada grupo (conglomerado), son similares entre si (alta homogeneidad interna) y diferentes a los objetos de los otros conglomerados o clusters (alta heterogeneidad externa). Es decir, que si la clasificación hecha es óptima, los objetos dentro de cada cluster estarán cercanos unos de otros y los clusters diferentes estarán muy apartados. Por lo cual el objetivo principal del análisis de conglomerados es dividir un conjunto de objetos en dos o más grupos, basándose en la similitud de un conjunto de variables que los caracterizan.
Hay que elegir la medida de similaridad que vaya a utilizarse. Hemos dicho que dos objetos se pondrán en un mismo grupo si están “cerca” uno de otro respecto a las variables que empleemos, pero esa distancia debe ser medida de alguna manera. Existen muchas medidas de la distancia, la más común es la distancia Euclídea o variaciones de a misma como la distancia Euclídea al cuadrado, que es la empleada en este análisis.

El análisis de conglomerados, no pretende inferir resultados de una muestra hacia una población, sino solamente agrupar objetivamente por similitud los casos que estemos investigando. Por tanto, aunque tiene fundamentos matemáticos complejos, no son demasiado relevantes las propiedades estadísticas de normalidad, linealidad y homoscedasticidad. Se debe prestar especial atención a otros dos aspectos: la representatividad de la muestra y la multicolinealidad.


La multicolinealidad afecta mucho a los resultados debido a que las variables que estén afectadas de esta propiedad tendrán una influencia mayor en el establecimiento de los grupos. Para comenzar el proceso de agrupación en el análisis de conglomerados, es necesario elegir entre los métodos jerárquicos y no jerárquicos, el criterio general de todos ellos es maximizar la distancia entre los grupos que se formen y minimizar la distancia entre los distintos elementos de cada grupo, como se ilustra en la GRÁFICO 2.1.




FUENTE AMSA, OAV 2005

En los métodos jerárquicos, el análisis comienza con tantos conglomerados como individuos (cada individuo es un conglomerado inicial). A partir de estas unidades se van formando nuevos conglomerados de forma ascendente agrupando en cada etapa a los individuos de los conglomerados más próximos. Al final del proceso todos los individuos estarán agrupados en un único conglomerado. La diferencia entre los diversos métodos reside en la distancia considerada para medir la proximidad entre conglomerados.


En el promedio entre grupos, que es el método que se utilizará en el presente análisis, se define la distancia entre dos conglomerados como el promedio de las distancias entre todos los pares de individuos, en los que cada componente del par pertenece a un conglomerado distinto. Si el número de individuos y variables es muy alto, requiere un número de cálculos muy elevados.
Para representar la estructura jerárquica de la formación de los conglomerados se utiliza el Dendograma (GRÁFICO 2.2), un grafico que tiene forma de árbol invertido. Así a partir de los k elementos observados podemos identificar desde 1 hasta k conglomerados, según el número de grupo que queramos obtener sin más que realizar la segmentación horizontal adecuada.

Es recomendable trabajar con datos estandarizados, para eliminar el efecto de la escala de medida, y así poder aplicar el análisis sobre variables que presenten similares valores medios y desviaciones estándar, lo cual facilita la interpretación





2.3 Análisis de Regresión Lineal Múltiple
Los métodos de regresión se utilizan para analizar datos que provienen de experimentos que no fueron diseñados. Este es el caso del estudio de fenómenos no controlados o de registros históricos, en muchos de los cuales existen problemas donde dos o más variables están relacionadas y es muy importante modelar y explorar esta relación.
El objetivo del análisis de regresión múltiple es predecir el comportamiento en la variable dependiente a partir de los cambios en las variables independientes, este objetivo se logra a partir del uso de mínimos cuadrados.
Llamamos a la función de regresión múltiple a la ecuación siguiente:

Donde los parámetros desconocidos son los coeficientes de regresión y e es una variable aleatoria que sigue una distribución normal con parámetros .


Se debe probar si la regresión es significativa probando la hipótesis siguiente:


Además se debe considerar la suposición de que los errores sean NID, con media 0 y varianza . El rechazo de en esta ecuación implica que al menos una variable en el modelo contribuye significativamente al ajuste.

Los principales problemas que se pueden presentar en la construcción de un Modelo de Regresión Múltiple son los siguientes:



1   2   3   4   5   6   7   8   9


La base de datos está protegida por derechos de autor ©psicolog.org 2019
enviar mensaje

enter | registro
    Página principal


subir archivos