CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN a LAS COMARCAS GALLEGAS Julio Pallas González
Total Page:16
File Type:pdf, Size:1020Kb
CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN A LAS COMARCAS GALLEGAS Julio Pallas González - juliopa@usc.es Fidel Martínez Roget - Ecfifer@usc.es Fernando Miranda Torrado - Ecmira@usc.es Universidad de Santiago de Compostela Reservados todos los derechos. Este documento ha sido extraído del CD Rom “Anales de Economía Aplicada. XIV Reunión ASEPELT-España. Oviedo, 22 y 23 de Junio de 2000”. ISBN: 84-699-2357-9 1 CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN A LAS COMARCAS GALLEGAS JULIO PALLAS GONZÁLEZ, FIDEL MARTÍNEZ ROGET, FERNANDO MIRANDA TORRADO DEPARTAMENTO DE MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA. UNIVERSIDAD DE SANTIAGO DE COMPOSTELA E-Mail: juliopa@usc.es RESUMEN: En el presente trabajo se pretende elaborar una agrupación de las comarcas de la Comunidad Autónoma Gallega en base a una serie de indicadores socioeconómicos suministrados por La Caixa en el Anuario Comercial de España referidos al año 1998 . El trabajo se realiza en dos etapas: En la primera se utiliza el análisis clúster para determinar el número idóneo de grupos a formar a partir de los indicadores disponibles realizando posteriormente una clasificación partiendo de los datos obtenidos del proceso anterior . En la segunda fase se utiliza el análisis discriminante con el objeto de evaluar la bondad de las distintas agrupaciones y de determinar aquellos indicadores mas relevantes para distinguir entre los diferentes grupos socioeconómicos comarcales . 2 1. Introducción A lo largo del presente trabajo se intentará agrupar y caracterizar, en base a un conjunto de ocho variables socioeconómicas suministradas por La Caixa en el Anuario Comercial de España, a las comarcas gallegas en grupos homogéneos indicando las variables más importantes de tal agrupación. Debido a la inexistencia de datos socioeconómicos para aquellos ayuntamientos con una población no superior a 1000 habitantes, éstos no han sido tenidos en cuenta en el presente estudio. Cabe indicar que dichos ayuntamientos corresponden principalmente, y por este orden; a las provincias de Orense (Beade, Chandrexa de Queixa, Larouco, Parada de Sil, Pontedeva, A Teixeira y Vilariño de Couso), Lugo (Negreira de Muñiz, Ribeira de Piquín y Triacastela ) y Pontevedra ( Mondariz-Balneario ). Con el nombre “ análisis cluster” o de conglomerados se hace referencia a toda una serie de técnicas de clasificación, algoritmos fundamentalmente, cuya finalidad es la partición de un conjunto de variables o individuos en grupos tales que los individuos pertenecientes a un mismo grupo sean lo más similares entre sí pero muy diferentes a los pertenecientes a otros grupos .Para Sokal y Sneath (1963), dos de los autores que más han influído en el desarrollo del análisis cluster, “la clasificación es uno de los procesos fundamentales de la ciencia, dada la necesidad de disponer los hechos y los objetos de un modo ordenado antes de poder descubrir sus principios unificadores y poderlos emplear para predecir acontecimientos. Y ello es así porque numerosos fenómenos tienen lugar con tal variedad y profusión que si no se ordenan hacen imposible la obtención de información alguna útil”. La elaboración de tipologías presenta, por tanto; una serie de potencialidades entre las que cabe mencionar las siguientes: Ø Simplifican y reducen la excesiva información que caracteriza los objetos de estudio facilitando la comprensión de los hechos. Ø Facilitan la comprobación de hipótesis al abrir nuevas vías para explorar sistemáticamente principios de relación, similitudes y vinculaciones entre objetos. Ø La naturaleza coherente de los grupos resultantes de una clasificación posibilita posteriores desarrollos como pueden ser : investigaciones pormenorizadas sobre tales grupos (generar y comprobar hipótesis, predecir, etc.) y también aplicaciones en el mundo real. Así , por ejemplo, las clasificaciones climáticas, la identificación de formaciones biogeográficas y unidades paisajísticas, la regionalización y o 3 comarcalización sobre criterios homogéneos o funcionales, la delimitación de comarcas agrarias, barrios homogéneos, etc se elaboran muchas veces para sustentar políticas de desarrollo regional, comarcal, urbano, de protección del medio físico, de bienestar social, etc. No obstante debe advertirse que muchas de las técnicas clasificatorias son procedimientos simples que, a menudo , no están sustentados por una fundamentación estadística extensa pudiendo los distintos algoritmos conducir a resultados diferentes a partir de los mismos datos. 2. Metodología y variables clasificadoras Trataremos a continuación de dar una breve descripción de la metodología utilizada en el presente trabajo así como de los algoritmos concretos que han sido empleados. El proceso de clasificación requiere de una serie de fases o etapas : -Definir el objeto de la clasificación -seleccionar las variables para identificar los grupos -elección de la medida de proximidad entre los individuos - elección del criterio para la formación de grupos, es decir el método para agrupar individuos en conglomerados. Así ,el objeto de este trabajo es clasificar a las comarcas gallegas en grupos homogéneos respecto de las variables socioeconómicas empleadas al efecto de tal forma que tales agrupaciones puedan servir de base para futuros trabajos de los mismos autores así o de cualquier otras personas o instituciones que pudieran estar interesados en el tema del desarrollo comarcal. Los indicadores socioeconómicos seleccionados para realizar la agrupación son: 1. Número de teléfonos de una comarca x 1000 habitantes. 2. Número de automóviles de una comarca x 1000 habitantes. 3. Número de camiones de una comarca x 1000 habitantes. 4. Número de entidades bancarias de una comarca x 1000 habitantes. 5. Número de licencias de actividad industrial de una comarca x 1000 habitantes. 6. Número de licencias de actividad comercial mayorista de una comarca x 1000 habitantes. 4 7. Número de licencias de actividad comercial minorista de una comarca x 1000 habitantes. 8. Número de licencias de actividad de restauración de una comarca x 1000 habitantes. Todas estos indicadores, que originalmente recogen datos municipales siendo posteriormente transformados en datos comarcales por los autores del presente estudio, se han obtenido del Anuario Comercial de España publicado por La Caixa y están referidos al año 1998 . La formación de clases se sustenta sobre la existencia de unas relaciones entre los individuos u objetos ( en nuestro caso comarcas) y que se son establecidas sobre la base de la similitud o parecido en ciertos rasgos (relaciones fenéticas). Para poder medir por tanto estas relaciones fenéticas (relaciones de similitud) es necesario calcular un índice entre cada par de objetos (en nuestro caso comarcas) de tal modo que , comparándolos en los diversos atributos o variables , se mida su grado de semejanza o proximidad. Existe una gran cantidad de índices cuya idoneidad , en general, depende de la escala de medida de las variables clasificadoras. Así para variables de tipo cuantitativo suelen usarse índices de distancia y, en menor medida, de correlación. En este trabajo se ha utilizado la distancia euclídea al cuadrado. En cuanto a los métodos de aglomeración cabe indicar que existe una gran variedad de ellos pero que pueden clasificarse en dos grandes categorías: 1. los métodos no jerárquicos 2. los métodos jerárquicos Estos últimos pueden subdividirse a su vez en: q aglomerativos o ascendentes.: en los que se parte de tantos grupos como individuos existan y en cada paso se va agrupando a los individuos en un número cada vez menor de grupos de mayor tamaño hasta formar un solo grupo al final de todo el proceso. q disociativos , divisivos o descendentes : en los que el proceso es inverso ; es decir se parte inicialmente de un solo grupo formado por todos los individuos y en cada paso se va dividiendo en un número mayor de grupos de menor tamaño hasta obtener al final del proceso tantos grupos como individuos. En los métodos aglomerativos a partir de la matriz de distancias se va agrupando a los individuos más parecidos, es decir aquellos más relacionados .Lo único que varía entre ellos es el criterio para medir dicho parecido o relación entre grupos: Por haber sido utilizado el 5 método de Ward en este trabajo y ser éste un método jerárquico aglomerativo vamos a describir brevemente los principales algoritmos de este tipo: q En el método de la similitud máxima, distancia mínima ó “del vecino más próximo” la distancia entre dos grupos se mide como la distancia entre sus dos puntos más cercanos. q En el método de la similitud mínima , de las distancia máxima o “del vecino más lejano” la relación de parecido o distancia entre dos clusters vendrá determinada por la distancia entre sus dos puntos más alejados. q En el método de la media o del promedio entre grupos la distancia entre dos grupos vendrá determinada por la media de las distancias entre todos los pares de individuos que se puedan formar tomando un individuo de cada conglomerado. q En el método centroide la distancia entre dos agrupaciones vendrá dada por la distancia entre sus medias para todas las variables. q El método de la mediana es similar al anterior pero sustituyendo la media por la mediana. q El método de Ward ó de mínima variación intragrupo, también llamado a veces “momento central de orden dos o pérdida de inercia mínima”. Este método que es precisamente el usado en este trabajo, se basa en el principio de minimizar en cada etapa de fusión la heterogeneidad dentro de cada cluster para ello, y en cada fase , se evalúan todas las posibles fusiones realizándose aquella que provoque un menor incremento en la suma total de las variaciones intragrupo definidas dichas variaciones como la suma de las distancias euclídeas al cuadrado entre cada uno de los individuos y su media de grupo. En los métodos jerárquicos la secuencia de formación de grupos ofrece un orden o jerarquía que puede ser representada gráficamente bajo la forma de un árbol o dendograma. 3. Resultados del análisis A continuación vamos a comentar brevemente los resultados, tanto del análisis cluster como del discriminante. 3.1 Análisis cluster Uno de los problemas que se plantea en el análisis cluster es determinar el número de grupos a formar.