CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN A LAS COMARCAS GALLEGAS Julio Pallas González - [email protected] Fidel Martínez Roget - [email protected] Fernando Miranda Torrado - [email protected] Universidad de de Compostela

Reservados todos los derechos. Este documento ha sido extraído del CD Rom “Anales de Economía Aplicada. XIV Reunión ASEPELT-España. Oviedo, 22 y 23 de Junio de 2000”. ISBN: 84-699-2357-9

1

CLASIFICACIÓN MULTIVARIANTE: UNA APLICACIÓN A LAS COMARCAS GALLEGAS

JULIO PALLAS GONZÁLEZ, FIDEL MARTÍNEZ ROGET, FERNANDO MIRANDA TORRADO DEPARTAMENTO DE MÉTODOS CUANTITATIVOS PARA LA ECONOMÍA Y LA EMPRESA. UNIVERSIDAD DE SANTIAGO DE COMPOSTELA E-Mail: [email protected]

RESUMEN:

En el presente trabajo se pretende elaborar una agrupación de las comarcas de la Comunidad Autónoma Gallega en base a una serie de indicadores socioeconómicos suministrados por La Caixa en el Anuario Comercial de España referidos al año 1998 . El trabajo se realiza en dos etapas: En la primera se utiliza el análisis clúster para determinar el número idóneo de grupos a formar a partir de los indicadores disponibles realizando posteriormente una clasificación partiendo de los datos obtenidos del proceso anterior . En la segunda fase se utiliza el análisis discriminante con el objeto de evaluar la bondad de las distintas agrupaciones y de determinar aquellos indicadores mas relevantes para distinguir entre los diferentes grupos socioeconómicos comarcales .

2

1. Introducción

A lo largo del presente trabajo se intentará agrupar y caracterizar, en base a un conjunto de ocho variables socioeconómicas suministradas por La Caixa en el Anuario Comercial de España, a las comarcas gallegas en grupos homogéneos indicando las variables más importantes de tal agrupación. Debido a la inexistencia de datos socioeconómicos para aquellos ayuntamientos con una población no superior a 1000 habitantes, éstos no han sido tenidos en cuenta en el presente estudio. Cabe indicar que dichos ayuntamientos corresponden principalmente, y por este orden; a las provincias de Orense (Beade, Chandrexa de Queixa, Larouco, Parada de Sil, Pontedeva, A Teixeira y Vilariño de Couso), (Negreira de Muñiz, Ribeira de Piquín y Triacastela ) y ( Mondariz-Balneario ). Con el nombre “ análisis cluster” o de conglomerados se hace referencia a toda una serie de técnicas de clasificación, algoritmos fundamentalmente, cuya finalidad es la partición de un conjunto de variables o individuos en grupos tales que los individuos pertenecientes a un mismo grupo sean lo más similares entre sí pero muy diferentes a los pertenecientes a otros grupos .Para Sokal y Sneath (1963), dos de los autores que más han influído en el desarrollo del análisis cluster, “la clasificación es uno de los procesos fundamentales de la ciencia, dada la necesidad de disponer los hechos y los objetos de un modo ordenado antes de poder descubrir sus principios unificadores y poderlos emplear para predecir acontecimientos. Y ello es así porque numerosos fenómenos tienen lugar con tal variedad y profusión que si no se ordenan hacen imposible la obtención de información alguna útil”. La elaboración de tipologías presenta, por tanto; una serie de potencialidades entre las que cabe mencionar las siguientes: Ø Simplifican y reducen la excesiva información que caracteriza los objetos de estudio facilitando la comprensión de los hechos. Ø Facilitan la comprobación de hipótesis al abrir nuevas vías para explorar sistemáticamente principios de relación, similitudes y vinculaciones entre objetos. Ø La naturaleza coherente de los grupos resultantes de una clasificación posibilita posteriores desarrollos como pueden ser : investigaciones pormenorizadas sobre tales grupos (generar y comprobar hipótesis, predecir, etc.) y también aplicaciones en el mundo real. Así , por ejemplo, las clasificaciones climáticas, la identificación de formaciones biogeográficas y unidades paisajísticas, la regionalización y o

3 comarcalización sobre criterios homogéneos o funcionales, la delimitación de comarcas agrarias, barrios homogéneos, etc se elaboran muchas veces para sustentar políticas de desarrollo regional, comarcal, urbano, de protección del medio físico, de bienestar social, etc. No obstante debe advertirse que muchas de las técnicas clasificatorias son procedimientos simples que, a menudo , no están sustentados por una fundamentación estadística extensa pudiendo los distintos algoritmos conducir a resultados diferentes a partir de los mismos datos.

2. Metodología y variables clasificadoras Trataremos a continuación de dar una breve descripción de la metodología utilizada en el presente trabajo así como de los algoritmos concretos que han sido empleados. El proceso de clasificación requiere de una serie de fases o etapas : -Definir el objeto de la clasificación -seleccionar las variables para identificar los grupos -elección de la medida de proximidad entre los individuos - elección del criterio para la formación de grupos, es decir el método para agrupar individuos en conglomerados.

Así ,el objeto de este trabajo es clasificar a las comarcas gallegas en grupos homogéneos respecto de las variables socioeconómicas empleadas al efecto de tal forma que tales agrupaciones puedan servir de base para futuros trabajos de los mismos autores así o de cualquier otras personas o instituciones que pudieran estar interesados en el tema del desarrollo comarcal.

Los indicadores socioeconómicos seleccionados para realizar la agrupación son: 1. Número de teléfonos de una comarca x 1000 habitantes. 2. Número de automóviles de una comarca x 1000 habitantes. 3. Número de camiones de una comarca x 1000 habitantes. 4. Número de entidades bancarias de una comarca x 1000 habitantes. 5. Número de licencias de actividad industrial de una comarca x 1000 habitantes. 6. Número de licencias de actividad comercial mayorista de una comarca x 1000 habitantes.

4 7. Número de licencias de actividad comercial minorista de una comarca x 1000 habitantes. 8. Número de licencias de actividad de restauración de una comarca x 1000 habitantes. Todas estos indicadores, que originalmente recogen datos municipales siendo posteriormente transformados en datos comarcales por los autores del presente estudio, se han obtenido del Anuario Comercial de España publicado por La Caixa y están referidos al año 1998 . La formación de clases se sustenta sobre la existencia de unas relaciones entre los individuos u objetos ( en nuestro caso comarcas) y que se son establecidas sobre la base de la similitud o parecido en ciertos rasgos (relaciones fenéticas). Para poder medir por tanto estas relaciones fenéticas (relaciones de similitud) es necesario calcular un índice entre cada par de objetos (en nuestro caso comarcas) de tal modo que , comparándolos en los diversos atributos o variables , se mida su grado de semejanza o proximidad. Existe una gran cantidad de índices cuya idoneidad , en general, depende de la escala de medida de las variables clasificadoras. Así para variables de tipo cuantitativo suelen usarse índices de distancia y, en menor medida, de correlación. En este trabajo se ha utilizado la distancia euclídea al cuadrado. En cuanto a los métodos de aglomeración cabe indicar que existe una gran variedad de ellos pero que pueden clasificarse en dos grandes categorías: 1. los métodos no jerárquicos 2. los métodos jerárquicos Estos últimos pueden subdividirse a su vez en: q aglomerativos o ascendentes.: en los que se parte de tantos grupos como individuos existan y en cada paso se va agrupando a los individuos en un número cada vez menor de grupos de mayor tamaño hasta formar un solo grupo al final de todo el proceso. q disociativos , divisivos o descendentes : en los que el proceso es inverso ; es decir se parte inicialmente de un solo grupo formado por todos los individuos y en cada paso se va dividiendo en un número mayor de grupos de menor tamaño hasta obtener al final del proceso tantos grupos como individuos.

En los métodos aglomerativos a partir de la matriz de distancias se va agrupando a los individuos más parecidos, es decir aquellos más relacionados .Lo único que varía entre ellos es el criterio para medir dicho parecido o relación entre grupos: Por haber sido utilizado el

5 método de Ward en este trabajo y ser éste un método jerárquico aglomerativo vamos a describir brevemente los principales algoritmos de este tipo:

q En el método de la similitud máxima, distancia mínima ó “del vecino más próximo” la distancia entre dos grupos se mide como la distancia entre sus dos puntos más cercanos.

q En el método de la similitud mínima , de las distancia máxima o “del vecino más lejano” la relación de parecido o distancia entre dos clusters vendrá determinada por la distancia entre sus dos puntos más alejados.

q En el método de la media o del promedio entre grupos la distancia entre dos grupos vendrá determinada por la media de las distancias entre todos los pares de individuos que se puedan formar tomando un individuo de cada conglomerado.

q En el método centroide la distancia entre dos agrupaciones vendrá dada por la distancia entre sus medias para todas las variables.

q El método de la mediana es similar al anterior pero sustituyendo la media por la mediana.

q El método de Ward ó de mínima variación intragrupo, también llamado a veces “momento central de orden dos o pérdida de inercia mínima”. Este método que es precisamente el usado en este trabajo, se basa en el principio de minimizar en cada etapa de fusión la heterogeneidad dentro de cada cluster para ello, y en cada fase , se evalúan todas las posibles fusiones realizándose aquella que provoque un menor incremento en la suma total de las variaciones intragrupo definidas dichas variaciones como la suma de las distancias euclídeas al cuadrado entre cada uno de los individuos y su media de grupo. En los métodos jerárquicos la secuencia de formación de grupos ofrece un orden o jerarquía que puede ser representada gráficamente bajo la forma de un árbol o dendograma.

3. Resultados del análisis A continuación vamos a comentar brevemente los resultados, tanto del análisis cluster como del discriminante. 3.1 Análisis cluster Uno de los problemas que se plantea en el análisis cluster es determinar el número de grupos a formar. A este respecto no hay un procedimiento óptimo, siendo los procedimientos heurísticos mediante la inspección de los distintos niveles del árbol los más utilizados para decidir el punto de corte en un dendograma .

6 En la figura 1 se representa el dendograma correspondiente a la agrupación jerárquica de las comarcas gallegas utilizando el método de Ward y la distancia euclídea al cuadrado (medida que debe usarse de forma obligatoria para este método). Se ha trabajado con dos posibles niveles de corte en el dendograma uno que sugiere la formación de 8 grupos y otro que sugiere la formación de 6 grupos. Por los inmejorables resultados obtenidos en el análisis discriminante con la primera agrupación ésta fue la elegida para trabajar. En base a lo anterior se ha realizado un análisis clúster jerárquico para 8 grupos. Los grupos resultantes son los siguientes:

Tabla 1: Agrupaciones comarcales gallegas (método de Ward)

Xallas, A Barcala, Bergantiños, , Arzúa, Deza, , GRUPO 1 La Coruña, , Santiago de Compostela, , Lugo y Mariña GRUPO 2 Oriental. Verín, , , , Ancares, Ulloa, Morrazo, GRUPO 3 B. Limia, , Barbanza, , , A Mariña Occidental, A Mariña Central, , , Terra GRUPO 4 de Lemos, Allariz-Maceda, , Tera de Trives y . Eume, Terra Chá, , , Tabeirós-Terra de Montes, GRUPO 5 , O Salnés, Pontevedra y Baixo Miño.

GRUPO 6 Soneira, , Melide y Paradanta.

GRUPO 7 O Carballiño y O Riveiro.

GRUPO 8 y .

7 Gráfico 1: Análisis cluster jerárquico. Dendrograma usando el método de Ward DISTANCIA (A ESCALA) DE AGRUPADION DE CLUSTERS C A S E 0 5 10 15 20 25 Label Num +------+------+------+------+------+

Verín 26 òø Viana 27 òú Fonsagr 15 òú Limia 16 òú Ancares 24 òú Ulloa 17 òú Morrazo 22 òú B-Limia 18 òú Quiroga 25 òôòòòòòø Barban 19 òú ó Noia 21 òú ó Muros 20 òú ó Ortgegal 23 ò÷ ó Barcala 1 òø ùòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòòø 8 òú ó ó Arzúa 2 òôòø ó ó Caldas 4 òú ó ó ó Sar 6 òú ó ó ó Deza 5 òú ó ó ó Berganti 3 òú ùòòò÷ ó Ordes 7 ò÷ ó ó Melide 48 òø ó ó Soneira 49 òú ó ó Fisterra 46 òôò÷ ó Parada 47 ò÷ ó Condado 52 òûòø ó Ourense 53 ò÷ ùòòòòòòòòòòòòòòòòòòòòòø ó Carballi 50 òûò÷ ó ó Ribeiro 51 ò÷ ó ó Mariori 10 òø ó ó Santiago 13 òú ó ó Ferrol 11 òôòòòòòø ùòòòòòòòòòòòòòòòòòòòòòòò÷ Coruña 9 òú ó ó Lugo 12 òú ó ó Vigo 14 ò÷ ó ó Eume 37 òø ó ó Celanova 45 òú ùòòòòòòòòòòòòòòòòò÷ Pontev. 40 òú ó Sarria 41 òôòòòø ó T-Chá 44 òú ó ó Salnés 39 òú ó ó B-Miño 38 òú ó ó _ Tabeirós 42 òú ùò÷ CHANT 43 ò÷ ó Trives 35 òø ó Valdeorr 36 òú ó Allariz 30 òôòòò÷ Meira 32 òú Caldelas 33 òú Mariocc 29 òú Betanzos 31 òú Marcentr 28 òú Lemos 34 ò÷

8 3.2. Análisis discriminante Con el objeto de validar los resultados obtenidos con el análisis cluster se ha realizado un análisis discriminante. Éste tiene su origen en los trabajos de Fisher (1936) y Mahalanobis (1936) y se trata de una técnica de asignación de un individuo del que conocemos varias características a un grupo. En el análisis discriminante partiendo de una serie de grupos establecidos previamente y de las observaciones para cada individuo referidas a una serie de variables se construyen una o varias funciones discriminantes, que son en realidad combinaciones lineales de las variables originales, y cuyo objeto es ver si dichas variables nos permiten discriminar bien entr e los distintos grupos en cuyo caso podrían ser utilizadas para predecir la pertenencia de un individuo a uno u otro grupo una vez conocidos los datos de dicho individuo relativos a dichas variables. Por otra parte también se trata de determinar cuales variables son las que más contribuyen a discriminar entre los distintos grupos existentes. La prueba de significación multivariable más frecuentemente empleada es la lambda de Wilks que somete a comprobación la hipótesis nula de que todas las medias de grupo son iguales frente a la hipótesis alternativa de que no todas lo son. El valor de lambda variará entre cero y uno siendo tanto más pequeña cuanto mayor sea la disparidad entre los grupos estudiados. Un valor de la lambda de Wilks igual a uno se dará si la media es igual en todos los grupos y no hay variabilidad entre grupos lo que supone un bajo poder discriminante mientras que el poder discriminante será tanto mayor cuanto más se aproxime lambda a cero ya que ello supone que la variabilidad intragrupo es muy baja en comparación con la variabilidad total. Los Principales resultados del análisis discriminante son los que se exponen a continuación: Ø Se ha utilizado un método de inclusión de variables paso a paso en el que se han obtenido 3 funciones discriminantes que explican la totalidad de la varianza intergrupos. La primera función discriminante es la que explica el mayor porcentaje de varianza con el 77,6 % mientras que la tercera función discriminante sólo explica el 3,3%. Ø Las variables que más contribuyen a la discriminación entre grupos, son en orden de importancia: · Número de teléfonos por cada mil habitantes. · Número de automóviles por cada mil habitantes.

9 · Número de sucursales bancarias por cada mil habitantes. Ø El análisis discriminante nos confirma que el 98,1% de las comarcas están bien agrupadas, habiendo únicamente una comarca mal clasificada. Esta comarca es la de la Mariña Oriental, incluida en el grupo 2, correspondiente al de las ciudades más importantes como pueden ser la Coruña, Vigo, Lugo, Ferrol y Santiago, cuando lo más lógico sería que formase parte del grupo 4, tal y como nos confirman los resultados del análisis discriminante. Ø Todos estos resultados pueden verse en los gráficos y tablas que se acompañan en el Anexo I. 4. Algunos comentarios sobre la agrupación comarcal resultante Como se ha comentado con anterioridad, el análisis cluster, confirmado con el discriminante, dio como resultado la agrupación de las comarcas de en ocho grupos repartidos por el territorio gallego tal y como se refleja en el siguiente mapa.

10

A continuación se exponen algunos comentarios sobre cada uno de los ocho grupos, en base a las variables utilizadas en el análisis: Teléfonos, automóviles, Camiones, Bancos, licencias de actividades industriales, licencias de comercio mayorista, licencias de comercio minorista y licencias de actividades de restauración por cada 1.000 habitantes, que nos permitirán obtener una visión socioeconómica de cada uno de ellos y el poder separar áreas claramente diferenciadas y con distintos grados de desarrollo dentro de la Comunidad Autónoma. ¨ Grupo uno: formado por las comarcas de Xallas, A Barcala, Bergantiños, Ordes, Arzúa, Deza, O Sar y Caldas, se caracteriza por tener unos valores medios en casi todas las variables por debajo de la media gallega, con excepción del comercio minorista y la actividad de restauración, que son superiores a la media, siendo de destacar sobre todo, el reducido número de entidades bancarias por cada mil habitantes. Gráfico 2: % de variación de los valores medios de las variables del grupo 1 con respecto a la media de Galicia.

GRUPO 1

5 0 -5 -10 -15 -20 -25 -30 -35 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

¨ En el cluster número dos se encuentran agrupadas las principales ciudades gallegas, con las excepciones de Ourense y Pontevedra, a saber: A Coruña, Ferrol, Santiago de Compostela, Vigo, Lugo y A Mariña Oriental. Se caracteriza este grupo por su comercio y especialmente por el mayorista aunque también destaca en restauración, teléfonos y automóviles. Hay que tener en cuenta que al estar las variables relativizadas por la población comarcal sus valores, como es de esperar, dado el tamaño de la misma, no son tan elevados.

11

Gráfico 3: % de variación de los valores medios de las variables del grupo 2 con respecto a la media de Galicia.

GRUPO 2

60 50 40 30 20 10 0 -10 -20 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

¨ El tercer conglomerado, es el que agrupa a un mayor número de comarcas, entre las que se encuentran las siguientes: Verín, Viana, A Fonsagrada, A Limia, Ancares, Ulloa, Morrazo, B. Limia, Quiroga, Barbanza, Noia, Muros, Ortegal. Este grupo destaca muy especialmente por el número de sucursales bancarias y por su actividad de restauración, estando por debajo de la media en las demás variables.

Gráfico 4: % de variación de los valores medios de las variables del grupo 3 con respecto a la media de Galicia.

GRUPO 3

15 10 5 0 -5 -10 -15 -20 -25 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

12 ¨ El grupo número cuatro destaca fundamentalmente por estar por encima de la media en todos los aspectos considerados y muy especialmente en el número de sucursales bancarias, licencias industriales y algo menos en comercio. Forman parte de este grupo las comarcas siguientes: A Mariña Occidental, A Mariña Central, Meira, Betanzos, , Allariz-Maceda, Terra de Caldelas, Tera de Trives y Valdeorras.

Gráfico 5: % de variación de los valores medios de las variables del grupo 4 con respecto a la media de Galicia

GRUPO 4

35 30 25 20 15 10 5 0 -5 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

¨ El quinto grupo está constituido por las comarcas de Eume, Terra Chá, Sarria , Chantada, Tabeirós-Terra de Montes, Terra de Celanova, O Salnés, Pontevedra y Baixo Miño. En este grupo destaca fundamentalmente su comercio mayorista y los medios de transporte (camiones y automóviles) y en el polo opuesto, destacan el bajo número de licencias de restauración.

13 Gráfico 6: % de variación de los valores medios de las variables del grupo 5 con respecto a la media de Galicia

grupo 5

8 6 4 2 0 -2 -4 -6 -8 -10 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

¨ El conglomerado número seis, puede decirse que se corresponde con aquellas comarcas más atrasadas económicamente, pues prácticamente en todas las variables presentan valores muy por debajo de la media. Este grupo está formado por las comarcas de: Soneira, Fisterra. Melide y Paradanta.

Gráfico 7: % de variación de los valores medios de las variables del grupo 6 con respecto a la media de Galicia

GRUPO 6

5 0 -5 -10 -15 -20 -25 -30 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

14 ¨ El séptimo cluster se caracteriza por tener una actividad comercial y de restauración inferior a la media estando por encima de ésta en todos los demás aspectos sobre todo en el número de automóviles y también en entidades bancarias y actividad industrial. Este grupo está formado por : O Carballiño y O Riveiro. Gráfico 8: % de variación de los valores medios de las variables del grupo 7 con respecto a la media de Galicia

grupo 7

60 50 40 30 20 10 0 -10 -20 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

¨ El último grupo, el número ocho, que junto con el anterior son los que están constituídos por un menor número de comarcas, comprende las comarcas de Ourense y O Condado y se caracteriza por tener un elevado comercio tanto minorista como y sobre todo, mayorista; también destaca en medios de transporte y teléfonos siendo, en definitiva, uno de los más desarrollados en todos los aspectos.

15 Gráfico 9: % de variación de los valores medios de las variables del grupo 8 con respecto a la media de Galicia

GRUPO 8

40 30 20 10 0 -10 -20 BANCOS LIC. . IND. LIC. REST CAMIONES TELEFONOS LIC.COM.MAY LIC.COM. MIN. AUTOMOVILES

5. Consideraciones finales A continuación, se exponen algunos de los resultados del trabajo: Ø Lo primero que se debe decir, es que los resultados del trabajo, deben ser interpretados como una referencia o aproximación a la realidad socioeconómica de las comarcas de Galicia, sobre todo debido a que los indicadores utilizados, que por otra parte son los disponibles, no cubren la totalidad de los sectores de actividad económica. Ø Algunas de las ramas de actividad económica, entre las que destacan por su importancia para esta Comunidad la pesca o la agricultura y que no han sido utilizadas para realizar esta clasificación, deberán ser tenidas en cuenta en una próxima clasificación. Ø El dendograma obtenido a partir del análisis cluster nos sugería la formación de 6 u 8 grupos, un número menor de grupos supondría cortar el dendograma a una distancia mucho mayor, lo cual supondría incluir en el mismo grupo comarcas muy diferentes. Ø Los mejores resultados obtenidos con el análisis discriminante para ocho grupos en vez de seis hicieron que, finalmente, nos decantásemos por la primera opción, en la que el 98,1% de las comarcas estarían bien agrupadas (solamente una comarca es asignada a un grupo diferente al obtenido en el análisis cluster), frente al 96,2% en el caso de utilizar 6 grupos. Ø Indicar que de las ocho variables utilizadas inicialmente aquellas con un mayor poder discriminante son, por este orden: Teléfonos, Automóviles y Sucursales Bancarias por cada mil habitantes, por lo cual son estas tres las únicas utilizadas en dicho análisis. El

16 resto de las variables aunque conseguirían un mejor pronóstico en la asignación de las comarcas dentro de los grupos, contribuirían de forma escasa en la mejora de la discriminación.

6. Bibliografía

ALDENDERFER, M.S. y BLASHFIELD RK. (1989): Cluster analysis. Sage University Paper. BISQUERRA, R. (1989): Introducción conceptual al análisis multivariable .Edit. PPU. BOSQUE, J. Y MORENO A.(1994): Prácticas de análisis exploratorio y multivariante de datos.Edit. Oikos Tau. CUADRADO, J.R. y SUAREZ-VILLA, L. (1992): Integración económica y evolución de las disparidades regionales. En: Papeles de Economía española, núm. 51. DÍAZ, B. CRUCES, E. y MORILLAS A. (1995): Las regiones europeas: una tipología basada en la aplicación de técnicas multivariantes. En XXII Reunión de estudios regionales.Pamplona HAIR, J.F. (1995): Multivariate data analysis with readings. Edit. Prentice Hall International. URIEL, E. (1995): Análisis de datos. Series temporales y análisis multivariante. Ed AC.

17

ANEXO I: ANALISIS DISCRIMINANTE

Pruebas de igualdad de las medias de los grupos

Lambda de Wilks F gl1 gl2 Sig. TELEFONOS COMARCA X 1.000 hab. ,095 61,576 7 45 ,000 AUTOMOVILES COMARCAS X 1000 ,103 56,235 7 45 ,000 HAB. CAMIONES ,710 2,627 7 45 ,023 COMARCAS X 1000 H. BANCOS COMARCAS ,549 5,285 7 45 ,000 X 1000 H. LIC. ACTIV. IND. X 1000 H. ,627 3,821 7 45 ,002 LIC. ACT. COM. MAY. X ,611 4,095 7 45 ,001 1000 H. LIC. ACT. COM. MIN. X ,753 2,112 7 45 ,062 1000 H. LIC. ACT. REST. X 1000 ,892 ,775 7 45 ,611 H.

18 Estadísticos Por Pasos

Variables introducidas/eliminadas a,b,c,d

Lambda de Wilks

P F exacta F aproximada a Esta Esta Esta s dístic dístic dístic o Introducidas o gl1 gl2 gl3 o gl1 gl2 Sig. o gl1 gl2 Sig. 1 TELEFONO S COMARCA ,095 1 7 45,0 61,6 7 45,0 ,000 X 1.000 hab. 2 AUTOMOVI LES COMARCA ,014 2 7 45,0 47,4 14 88,0 ,000 S X 1000 HAB. 3 BANCOS COMARCA ,008 3 7 45,0 26,4 21 124 ,000 S X 1000 H.

En cada paso se introduce la variable que minimiza la lambda de Wilks global. a. El número máximo de pasos es 16. b. La significación máxima de F para entrar es .05. c. La significación mínima de F para salir es .10. d. El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.

Variables en el análisis

Sig. de F Lambda Paso Tolerancia que eliminar de Wilks 1 TELEFONOS COMARCA X 1.000 hab. 1,000 ,000 2 TELEFONOS 1,000 ,000 ,103 COMARCA X 1.000 hab. AUTOMOVILES COMARCAS X 1000 1,000 ,000 ,095 HAB. 3 TELEFONOS ,925 ,000 ,055 COMARCA X 1.000 hab. AUTOMOVILES COMARCAS X 1000 ,955 ,000 ,055 HAB. BANCOS COMARCAS ,885 ,000 ,014 X 1000 H.

19 Variables no incluidas en el análisis

Tolerancia Sig. de F que Lambda Paso Tolerancia mín. introducir de Wilks 0 TELEFONOS 1,000 1,000 ,000 ,095 COMARCA X 1.000 hab. AUTOMOVILES COMARCAS X 1000 1,000 1,000 ,000 ,103 HAB. CAMIONES COMARCAS X 1000 H. 1,000 1,000 ,023 ,710 BANCOS COMARCAS 1,000 1,000 ,000 ,549 X 1000 H. LIC. ACTIV. IND. X 1000 1,000 1,000 ,002 ,627 H. LIC. ACT. COM. MAY. X 1000 H. 1,000 1,000 ,001 ,611 LIC. ACT. COM. MIN. X 1,000 1,000 ,062 ,753 1000 H. LIC. ACT. REST. X 1000 1,000 1,000 ,611 ,892 H. 1 AUTOMOVILES COMARCAS X 1000 1,000 1,000 ,000 ,014 HAB. CAMIONES COMARCAS X 1000 H. ,977 ,977 ,270 ,078 BANCOS COMARCAS ,926 ,926 ,001 ,055 X 1000 H. LIC. ACTIV. IND. X 1000 ,980 ,980 ,005 ,061 H. LIC. ACT. COM. MAY. X 1000 H. ,999 ,999 ,113 ,074 LIC. ACT. COM. MIN. X ,995 ,995 ,350 ,080 1000 H. LIC. ACT. REST. X 1000 ,993 ,993 ,629 ,084 H. 2 CAMIONES COMARCAS X 1000 H. ,937 ,937 ,273 ,011 BANCOS COMARCAS ,885 ,885 ,000 ,008 X 1000 H. LIC. ACTIV. IND. X 1000 ,923 ,923 ,007 ,009 H. LIC. ACT. COM. MAY. X 1000 H. ,992 ,992 ,145 ,011 LIC. ACT. COM. MIN. X ,992 ,992 ,360 ,012 1000 H. LIC. ACT. REST. X 1000 ,992 ,992 ,908 ,013 H. 3 CAMIONES COMARCAS X 1000 H. ,686 ,648 ,754 ,007 LIC. ACTIV. IND. X 1000 ,880 ,843 ,067 ,006 H. LIC. ACT. COM. MAY. X ,946 ,844 ,551 ,007 1000 H. LIC. ACT. COM. MIN. X 1000 H. ,984 ,877 ,488 ,007 LIC. ACT. REST. X 1000 ,980 ,874 ,868 ,007 H.

20 Estadísticos por casos

Grupo mayor Segundo grupo mayor Puntuaciones discriminantes

Dista Dista ncia ncia de de Mahal Mahal anobi anobi Nú s al s al me cuadr cuadr ro ado ado de Grupo hasta hasta ca Gru prono P(D>d | P(G= el P(G= el so po sticad G=g) g | centro Gru g | centro Función Función Función s real o p gl D=d) ide po D=d) ide 1 2 3 O 1 1 1 ,920 3 ,971 ,494 6 ,029 7,547 -3,872 -2,252 -,727 ri 2 2 2 ,040 3 ,999 8,302 8 ,001 22,06 7,254 3,416 -1,703 g 3 3 3 ,711 3 ,911 1,376 1 ,053 7,072 -1,896 ,135 ,066 in al 4 3 3 ,745 3 ,948 1,233 5 ,028 8,282 -1,692 ,308 ,810 5 4 4 ,996 3 ,993 ,058 3 ,004 11,15 1,102 1,994 ,814 6 4 4 ,659 3 ,892 1,603 5 ,062 6,947 ,548 1,319 -,223 7 2 4** ,205 3 ,566 4,584 2 ,433 5,120 3,054 1,865 -,060 8 3 3 ,950 3 ,979 ,352 5 ,008 10,09 -1,883 ,711 ,266 9 4 4 ,705 3 ,789 1,403 5 ,199 4,158 ,961 ,665 ,384 10 1 1 ,992 3 ,981 ,102 6 ,017 8,205 -3,506 -1,985 -,613 11 3 3 ,422 3 ,987 2,809 4 ,012 11,66 -2,038 1,267 2,060 12 3 3 ,557 3 ,979 2,073 6 ,014 10,60 -3,124 1,372 -,639 13 1 1 ,426 3 ,812 2,786 5 ,155 6,095 -1,701 -1,461 -,939 14 4 4 ,293 3 ,754 3,724 5 ,201 6,374 ,647 1,037 -,905 15 1 1 ,989 3 ,988 ,123 6 ,008 9,665 -3,225 -1,959 -,254 16 1 1 ,990 3 ,994 ,118 6 ,005 10,76 -3,216 -2,266 -,285 17 5 5 ,328 3 ,943 3,445 4 ,053 9,204 1,952 -,561 -,945 18 2 2 ,350 3 ,994 3,285 4 ,006 13,67 3,386 1,444 -2,070 19 6 6 ,992 3 ,985 ,101 1 ,015 8,444 -5,661 -,547 -,783 20 2 2 ,687 3 1,000 1,479 8 ,000 17,11 6,101 2,131 -1,443 21 4 4 ,324 3 ,817 3,477 5 ,160 6,740 ,578 ,400 1,994 22 3 3 ,222 3 ,999 4,389 4 ,001 18,88 -2,875 3,066 -,314 23 3 3 ,396 3 ,966 2,972 1 ,026 10,20 -2,620 ,981 -1,244 24 5 5 ,662 3 ,997 1,586 1 ,002 13,60 ,455 -2,488 -,382 25 7 7 ,493 3 1,000 2,403 8 ,000 24,91 5,883 -4,372 1,250 26 8 8 ,646 3 1,000 1,658 7 ,000 20,49 8,964 -2,192 -1,067 27 3 3 ,429 3 ,922 2,767 5 ,037 9,203 -1,632 ,505 -1,023 28 7 7 ,493 3 1,000 2,403 8 ,000 35,87 8,306 -6,013 2,271 29 5 5 ,455 3 ,779 2,615 4 ,111 6,507 -,096 ,024 -,611 30 1 1 ,987 3 ,985 ,139 6 ,010 9,371 -3,130 -1,732 -,664 31 1 1 ,746 3 ,970 1,227 5 ,027 8,411 -2,157 -2,267 -,270 32 3 3 ,444 3 ,956 2,678 4 ,044 8,847 -1,552 2,688 -,121 33 3 3 ,510 3 ,991 2,314 4 ,004 13,44 -2,249 ,621 1,770 34 8 8 ,646 3 ,999 1,658 2 ,001 15,96 8,677 ,332 -,644 21 35 6 6 ,126 3 1,000 5,722 1 ,000 30,24 -8,009 ,503 -1,248 36 5 5 ,101 3 1,000 6,227 4 ,000 24,05 2,525 -2,759 -,471

Lambda de Wilks

Nú mer o F exacta F aproximada de vari La Est Est abl mb adís adís Paso es da gl1 gl2 gl3 tico gl1 gl2 Sig. tico gl1 gl2 Sig. 1 1 ,095 1 7 45 62 7 45 ,00 2 2 ,014 2 7 45 47 14 88 ,00 3 3 ,008 3 7 45 26 21 124 ,000

Resumen de las funciones canónicas discriminantes

Autovalores

Correlación Función Autovalor % de varianza % acumulado canónica 1 15,499a 77,6 77,6 ,969 2 3,814a 19,1 96,7 ,890 3 ,650a 3,3 100,0 ,628 a. Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.

Lambda de Wilks

Contraste de Lambda las funciones de Wilks Chi-cuadrado gl Sig. 1 a la 3 ,008 226,724 21 ,000 2 a la 3 ,126 96,370 12 ,000 3 ,606 23,290 5 ,000

Coeficientes estandarizados de las funciones discriminantes canónicas

Función 1 2 3 TELEFONOS ,770 ,676 -,179 COMARCA X 1.000 hab. AUTOMOVILES COMARCAS X 1000 ,714 -,727 ,091 HAB. BANCOS COMARCAS -,294 ,154 1,010 X 1000 H.

22 Matriz de estructura

Función 1 2 3 TELEFONOS COMARCA X 1.000 hab. ,704* ,703 ,097 AUTOMOVILES COMARCAS X 1000 ,668 -,682* ,298 HAB. LIC. ACT. REST. X 1000 a ,002 ,101* ,099 H. BANCOS COMARCAS ,065 ,186 ,980* X 1000 H. CAMIONES a ,100 ,038 ,550* COMARCAS X 1000 H. LIC. ACTIV. IND. X 1000 a ,198 -,038 ,282* H. LIC. ACT. COM. MAY. X a ,096 -,111 -,180* 1000 H. LIC. ACT. COM. MIN. X a ,044 ,071 -,093* 1000 H. Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función. *. Mayor correlación absoluta entre cada variable y cualquier función discriminante. a. Esta variable no se emplea en el análisis.

Estadísticos de clasificación

Coeficientes de la función de clasificación

Ward Method 1 2 3 4 5 6 7 8 TELEFONOS COMARCA X 1.000 hab. 1,120 1,688 1,304 1,478 1,330 1,064 1,462 1,758 AUTOMOVILES COMARCAS X 1000 ,791 ,935 ,716 ,811 ,895 ,640 1,260 1,159 HAB. BANCOS COMARCAS -20,229 -28,970 -16,111 -17,606 -21,511 -16,695 -24,238 -32,997 X 1000 H. (Constante) -271,405 -501,736 -304,444 -390,926 -367,058 -214,719 -572,890 -623,088 Funciones discriminantes lineales de Fisher

23

Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0) Discriminante canónico Función 2 -16,0 -12,0 -8,0 -4,0 ,0 4,0 8,0 12,0 16,0 ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô 16,0 ô 63 34 42 ô ó 63 34 42 ó ó 63 34 42 ó ó 63 34 42 ó ó 63 34 42 2ó ó 63 34 42 28ó 12,0 ô ô 63 ô ô 34 ô 42ô ô ô 228 ô ó 63 34 42 288 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó 8,0 ô ô ô63 ô 34 ô 42ô ô 228 ô ó 63 34 42 288 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó ó 63 34 42 28 ó 4,0 ô ô ô 63 ô 34ô 42ô ô 28 ô ô ó 63 34 42 228 ó ó 63 34 42 288 ó ó 63 34 * 42 * 28 ó ó 63 * 34 42 28 ó ó 63 3444 42 28 ó ,0 ô ô ô 633 335554444442ô 28 ô ô ô ó * 6113333355 5555552 28 * ó ó 61 11115 * 522 228 ó ó 61 * 15 552288 ó _ ó 61 15 5778888 ó ó 61 15 57 77778888 ó -4,0 ô ô ô 61 ô 15ô 57 77778888 ô ô ó 61 15 57 77778888 ó ó 661 15 57 * 77778888 ó ó 611 15 57 77778888 ó ó 61 15 57 777788ó ó 61 15 57 77ó -8,0 ô ô 61ô ô 15 57 ô ô ô ô ó 61 15 57 ó ó 61 1557 ó ó 61 17 ó ó 61 17 ó ó 61 17 ó -12,0 ô ô 61 ô ô 17 ô ô ô ô ó 61 17 ó ó 61 17 ó ó 61 17 ó ó 661 17 ó ó 611 17 ó -16,0 ô 61 17 ô ôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòôòòòòòòòòòô -16,0 -12,0 -8,0 -4,0 ,0 4,0 8,0 12,0 16,0 Función de discriminante canónico 1

Símbolos usados en el mapa territorial Símbolo Grupo Etiqueta

24 ------

1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 * Indica un centroide de grupo

Pasos Variables Lambda de Wilks 1 Teléfonos - Teléfonos 0,103 2 Automóviles 0,095 3 Teléfonos 0,055 Automóviles 0,055 Bancos 0,014

Resultados de la clasificacióna

Grupo de pertenencia pronosticado Ward Method 1 2 3 4 5 6 7 8 Total Original Recuento 1 8 0 0 0 0 0 0 0 8 2 0 5 0 1 0 0 0 0 6 3 0 0 13 0 0 0 0 0 13 4 0 0 0 9 0 0 0 0 9 5 0 0 0 0 9 0 0 0 9 6 0 0 0 0 0 4 0 0 4 7 0 0 0 0 0 0 2 0 2 8 0 0 0 0 0 0 0 2 2 % 1 100,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 100,0 2 ,0 83,3 ,0 16,7 ,0 ,0 ,0 ,0 100,0 3 ,0 ,0 100,0 ,0 ,0 ,0 ,0 ,0 100,0 4 ,0 ,0 ,0 100,0 ,0 ,0 ,0 ,0 100,0 5 ,0 ,0 ,0 ,0 100,0 ,0 ,0 ,0 100,0 6 ,0 ,0 ,0 ,0 ,0 100,0 ,0 ,0 100,0 7 ,0 ,0 ,0 ,0 ,0 ,0 100,0 ,0 100,0 8 ,0 ,0 ,0 ,0 ,0 ,0 ,0 100,0 100,0 a. Clasificados correctamente el 98,1% de los casos agrupados originales.

25