Proyecto Fin de M´asteren T´ecnicasEstad´ısticas
Estimaci´onen ´areaspeque˜nas: el ingreso medio mensual por comarca en los hogares gallegos
Autor: Roberto Dom´ınguezG´omez
Directores: Mar´ıaJos´eLombard´ıaCorti˜na Wenceslao Gonz´alezManteiga
Fecha: Junio 2009 Estimaci´onen ´areaspeque˜nas:el ingreso medio 0 mensual por comarca en los hogares gallegos ´Indice
1 Introducci´on 3
2 An´alisisdescriptivo 5 2.1 Dise˜nomuestral ...... 5 2.2 Informaci´onmuestral ...... 7 2.3 Informaci´onauxiliar ...... 11 2.4 Correlaci´on ...... 12 2.5 Normalidad ...... 13
3 Metodolog´ıa 15 3.1 Estimadores del ingreso medio mensual ...... 15 3.2 Estimaci´ondel MSE ...... 17 3.2.1 MSE de los estimadores ...... 17 3.2.2 Estimaci´onanal´ıticadel MSE ...... 18 3.2.3 Estimaci´onbootstrap del MSE ...... 19
4 Simulaci´on 21 4.1 Generaci´onde la poblaci´onfinita ...... 21 4.2 Resultados ...... 28
5 Caso real 35 5.1 Resultados ...... 35
6 Conclusiones 40
Referencias 41
Estimaci´onen ´areaspeque˜nas:el ingreso medio 1 mensual por comarca en los hogares gallegos Estimaci´onen ´areaspeque˜nas:el ingreso medio 2 mensual por comarca en los hogares gallegos 1 Introducci´on
El Instituto Galego de Estat´ıstica (IGE), consciente de la creciente demanda de estad´ısticasde calidad cada vez m´asdesagregadas, incluy´oen el programa anual del a˜no2007 una actividad estad´ıstica titulada ”Investigaci´ony desarrollo de m´etodos de estimaci´onde ´areas peque˜nas”que tiene como objetivo mejorar las predicciones o estimaciones de variables y par´ametrosde inter´esen las encuestas realizadas por el IGE, considerando un nivel de desagregaci´onmayor de aquel para el que se dise˜n´ola encuesta. Para llevar a cabo esta actividad estad´ıstica el IGE firm´oun convenio de colaboraci´oncon el Departamento de Estad´ısticae Investigaci´onOperativa de la Universidad de Santiago de Compostela. El trabajo que aqu´ıse presenta se realiz´oen el marco de este convenio y hace referencia a la Encuesta de condiciones de vida de las familias, encuesta llevada a cabo por el IGE desde el a˜no1999. El estudio se centrar´aen la estimaci´ona nivel de comarcas del ingreso medio mensual y el ingreso equivalente por hogar.
Debido a la novedad y complejidad metodol´ogicaque suponen este tipo de tra- bajos, este documento tiene como objetivo fundamental describir de forma por- menorizada los estimadores y modelos utilizados, tanto para los valores totales como para los errores cuadr´aticosmedios.
Teniendo en cuenta que el IGE quiere seguir investigando en la metodolog´ıauti- lizada en este trabajo es necesario destacar que los datos estad´ısticos presentados en este documento tienen el car´acterde datos experimentales y por lo tanto no se pueden considerar como estad´ısticaoficial.
El ingreso medio mensual por hogar es un indicador de la situaci´onsocioecon´omica y por lo tanto es de principal inter´espara la sociedad en general, y en particular para la administraci´onlocal y regional que necesitan la informaci´onpara diferentes programas econ´omicosy sociales. La efectividad de estos programas depende del conocimiento de la situaci´onsocioecon´omicaa trav´esde informaci´onestad´ıstica fiable. En consecuencia, hoy en d´ıalos estudios y las investigaciones a nivel re- gional y local son de gran inter´es.
El problema surge cuando a partir de una encuesta se quiere ofrecer datos con un nivel de desagregaci´oninferior a provincia o agrupaci´oncomarcal. En parti- cular, el IGE realiza encuestas para dar estimaciones directas para las provincias o agrupaciones comarcales pero no es habitual ofrecer datos con un nivel de des- agregaci´oninferior, debido a que las encuestas no est´andise˜nadaspara dar esti- maciones directas para este nivel de desagregaci´on. Un ´area es considerada como ´areapeque˜nacuando la muestra en el ´areano es suficientemente grande para con- seguir estimaciones directas fiables. Ejemplos de ´areaspeque˜naspueden ser ´areas geogr´aficas(estados, provincias, municipios, comarcas, distritos escolares), grupos socio-demogr´aficos(grupos espec´ıficospor edad-sexo-raza) y otras subpoblaciones como un conjunto de firmas de empresas.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 3 mensual por comarca en los hogares gallegos Un modo de afrontar el problema en ´areaspeque˜nases aumentar el tama˜nomues- tral. Sin embargo, un aumento de tama˜node muestra lleva, entre otras cosas, a un aumento en el coste del estudio, una mayor carga de respuesta a los informantes y mayores errores ajenos al muestreo, lo que, en general, se trata de evitar. Otra alternativa es utilizar t´ecnicasm´ascomplejas, asistidas y basadas en modelos. Las estimaciones basadas en el modelo est´ansiendo de gran inter´esen los ´ultimosa˜nos por sus buenos resultados. Una propiedad importante de estos estimadores es su bajo error cuadr´aticomedio (MSE) comparado con los estimadores directos. No- tamos que es importante que el modelo est´ebien especificado y que las variables auxiliares contengan informaci´onrelevante. La inclusi´onde efectos aleatorios de ´areaen el modelo es com´unen la estimaci´onpara ´areaspeque˜nas.Estos efectos recogen la variaci´onen las ´areasque no est´aexplicada por las variables auxiliares.
En general se dispone de la informaci´onauxiliar a trav´esdel censo u otras fuentes administrativas. Si se cuenta con informaci´onauxiliar relevante para cada unidad de la poblaci´on,entonces los modelos se pueden definir a nivel de individuo. Sin embargo, existen casos donde la informaci´ona nivel de individuo no est´aactuali- zada u otros donde no se dispone de informaci´ona nivel de individuo por razones de privacidad. Normalmente en estos casos es posible conseguir datos agregados por ´area,lo que nos llevar´ıaa un modelo de ´area.
El objetivo en este trabajo es la estimaci´ondel ingreso medio mensual por hogar en las 53 comarcas de Galicia. En este caso las ´areaspeque˜nasson las comarcas, pues existen algunas con muy poca informaci´onmuestral, en particular se cuenta con 5 comarcas con un tama˜nomuestral de s´olo16 hogares. Para compensar la falta de informaci´onmuestral se necesita informaci´onauxiliar de alguna fuente externa, en este caso se va a utilizar informaci´onrelacionada con el impuesto so- bre la renta de las personas f´ısicas(IRPF) a nivel comarcal.
El documento est´aorganizado de la siguiente forma. En la secci´on2 se describe la metodolog´ıade la Encuesta de condiciones de vida de las familias, se mues- tran resultados de un estudio descriptivo previo y se presentan los estimadores del ingreso medio mensual y de su error cuadr´aticomedio. En la secci´on3 se presenta el estudio de simulaci´onpara evaluar los estimadores propuestos en la secci´onanterior y en la secci´on4, se describe la aplicaci´onde los estimadores al caso real. Finalmente, se presentan algunas conclusiones del estudio.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 4 mensual por comarca en los hogares gallegos 2 An´alisis descriptivo
El objetivo del estudio es la estimaci´ondel ingreso medio mensual por hogar y el ingreso equivalente mensual por hogar en las 53 comarcas de Galicia, aplicando t´ecnicasde estimaci´onen ´areaspeque˜nas.Hay que tener en cuenta las siguientes definiciones: • Hogar: persona o conjunto de personas que ocupan en com´ununa vivienda principal o parte de ella, y que consumen y/o comparten alimentos o bienes con cargo a un mismo presupuesto. • Ingreso medio mensual del hogar: la media mensual de los ingresos netos monetarios de todos los miembros del hogar en el a˜noanterior al de la encuesta.
• Ingreso equivalente mensual del hogar: el ingreso medio mensual del hogar dividido por la ra´ızcuadrada del n´umerode miembros del hogar. A continuaci´onse explica el dise˜nomuestral empleado, seguidamente se definen los estimadores apropiados para el estudio y finalmente se da una estimaci´ondel error cuadr´aticomedio (MSE) de estos estimadores dentro de las comarcas.
2.1 Dise˜nomuestral La muestra disponible proviene de la Encuesta de Condiciones de Vida de las familias (ECV) del a˜no2005. La ECV es una operaci´onestad´ısticaanual que realiza el IGE desde 1999. Se trata de una encuesta dirigida a los hogares gallegos con el objetivo de obtener informaci´onsobre sus caracter´ısticassocioecon´omicas.
Algunos aspectos t´ecnicosdel trabajo: • Areas´ geogr´aficas: Las provincias gallegas est´andivididas en las siguientes ´areasgeogr´aficas:
Provincia de A Coru˜na – A Coru˜naoriental: representada por las comarcas de Arz´ua,Betan- zos, Eume, Melide, Ordes y Ortegal. – A Coru˜naoccidental: representada por las comarcas de A Barcala, A Barbanza, Berganti˜nos,Terra de Soneira, Muros, Fisterra, O Sar, Noia y Xallas. – Comarca de Santiago. – Comarca de A Coru˜na. – Comarca de Ferrol.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 5 mensual por comarca en los hogares gallegos Provincia de Lugo
– Lugo sur: representada por las comarcas de A Ulloa, A Fonsagrada, Os Ancares, Terra de Lemos, Chantada, Quiroga y Sarria. – Comarca de Lugo. – Lugo norte: representada por las comarcas de Terra Ch´a,A Mari˜na Central, A Mari˜naOriental, A Mari˜naOccidental y Meira.
Provincia de Ourense
– Ourense occidental: representada por las comarcas de Allariz e Maceda, A Baixa Limia, Terra de Caldelas, O Carballi˜no,Terra de Celanova y O Ribeiro. – Comarca de Ourense. – Ourense oriental: representada por las comarcas de Terra de Trives, Valdeorras, Ver´ın,Viana y A Limia.
Provincia de Pontevedra
– Pontevedra occidental: representada por las de comarcas O Morra- zo, O Baixo Mi˜no,Caldas y O Saln´es. – Pontevedra oriental: representada por las comarcas de Tabeir´os- Terra de Montes, O Condado, Deza y A Paradanta. – Comarca de Pontevedra. – Comarca de Vigo.
• Estratos: Cada ´areageogr´aficaest´adividida en estratos de acuerdo con la siguiente clasificaci´on:
– Estrato 0: ayuntamientos autorrepresentados. – Estrato 1: ayuntamientos de m´asde 20.000 habitantes. – Estrato 2: ayuntamientos de 15.000 a 20.000 habitantes. – Estrato 3: ayuntamientos de 10.000 a 15.000 habitantes. – Estrato 4: ayuntamientos de 5.000 a 10.000 habitantes. – Estrato 5: ayuntamientos de menos de 5.000 habitantes.
En algunas ´areasgeogr´aficases necesario unir estratos para evitar la exis- tencia de estratos con poca representatividad. Los ayuntamientos autorre- presentados son A Coru˜na,Ferrol, Santiago, Lugo, Ourense, Pontevedra y Vigo. Estos ayuntamientos son autorrepresentados pues dada su categor´ıa dentro de la provincia deben tener siempre secciones en la muestra.
• Secci´oncensal: Subdivisi´onde los t´erminosmunicipales empleada, habitualmente, para aque- llos trabajos para los que es necesaria una divisi´oninframunicipal.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 6 mensual por comarca en los hogares gallegos • Tipo de muestreo: Dentro de cada ´areageogr´afica, definidas anteriormente, el muestreo es biet´apicocon estratificaci´onprevia de las unidades de primera etapa. Las unidades de primera etapa son las secciones censales y las unidades de se- gunda etapa son los hogares.
– 1a etapa: dentro de cada estrato, definidos anteriormente, las secciones muestrales se seleccionan con probabilidad proporcional a su tama˜no. – 2a etapa: en cada una de estas secciones muestrales, los hogares se seleccionan mediante muestreo sistem´aticocon arranque aleatorio. • Tama˜node muestra: La muestra resultante consta de 394 secciones censales repartidas por las provincias de la siguiente forma: – A Coru˜na:162 secciones – Lugo: 56 secciones – Ourense: 52 secciones – Pontevedra: 124 secciones En cada secci´onmuestral se seleccionan 16 hogares, lo que resulta en una muestra total de 6304 hogares. Dentro de cada hogar seleccionado se entre- vista a todos sus miembros.
M´asdetalles sobre la metodolog´ıaempleada en la encuesta y dise˜nomuestral est´an disponibles en: http://www.ige.eu/estatico/pdfs/s3/metodoloxias/met ecv 2006 gl.pdf
2.2 Informaci´onmuestral En la ECV fueron entrevistadas 18669 personas pertenecientes a 6304 hogares. Despu´esde explorar las variables en la base de datos, las variables de inter´espara el estudio son:
• cod comarca: c´odigode la comarca. • nome comarca: nombre de la comarca. • estrato: c´odigo del estrato.
• ftotPersoa: ingreso total mensual por persona. • frep: factor de elevaci´oncalibrado del hogar al que pertenece la persona. Todas las dem´asvariables incluidas en la base de datos son variables de car´acter personal, por ejemplo grupo de edad, sexo y nivel de estudios. No es posible agregar estas variables adecuadamente para los hogares, que es precisamente lo que nos interesa.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 7 mensual por comarca en los hogares gallegos Se agregan adecuadamente los datos de la encuesta para los 6304 hogares y de paso se construyen nuevas variables: • ftotPersoa hogar: ingreso total mensual por hogar. • pers hogar: n´umerode personas por hogar.
• ftot equiv hogar: ingreso equivalente mensual por hogar:
ftotP ersoa hogarj ftot equiv hogarj = p , j = 1,..., 6304 pers hogarj
• w: factor de elevaci´onte´oricodel hogar:
Mh wj = 1j∈h, j = 1,..., 6304, h = 1,..., 39 mh
siendo Mh y mh respectivamente el total poblacional y el total muestral de personas por estrato h. Nuestro objetivo es dar una estimaci´onpara el ingreso medio mensual por hogar para la comarca d:
PNd j=1 ftotP ersoa hogarj Y 1d = , d = 1 ... 53, Nd y el ingreso equivalente mensual por hogar para la comarca d:
PNd j=1 ftot equiv hogarj Y 2d = , d = 1 ... 53, Nd siendo Nd el total poblacional de hogares para la comarca d.
Para dar alg´unresultado para las comarcas se agregan los datos adecuadamente por comarca. En la siguiente Tabla 2.1 se muestran los datos resultantes.
c´odigo nombre comarca ingreso medio ingreso equiv. nd 1501 Arz´ua 1178.81 681.44 64 1502 Barbanza 1525.12 856.79 144 1503 A Barcala 1595.86 767.23 32 1504 Berganti˜nos 1677.87 922.45 176 1505 Betanzos 1624.06 960.64 80 1506 A Coru˜na 1673.39 993.30 736 1507 Eume 1822.74 1020.34 80 1508 Ferrol 1606.08 990.86 416 1509 Fisterra 1235.21 725.82 32 1510 Muros 1328.37 787.47 16 1511 Noia 1593.37 872.80 144 1512 Ordes 1674.45 869.13 128 1513 Ortegal 1293.78 845.21 48 1514 Santiago 1804.99 1030.86 352
Estimaci´onen ´areaspeque˜nas:el ingreso medio 8 mensual por comarca en los hogares gallegos c´odigo nombre comarca ingreso medio ingreso equiv. nd 1515 O Sar 1325.31 729.36 32 1516 Terra de Melide 1065.80 631.86 16 1517 Terra de Soneira 1638.89 855.22 48 1518 Xallas 1638.56 808.30 48 2701 Os Ancares 1856.24 1038.65 32 2702 Chantada 1630.42 892.96 48 2703 A Fonsagrada 0 0 0 2704 Lugo 1839.48 1082.14 256 2705 A Mari˜naCentral 1688.65 990.35 80 2706 A Mari˜naOccidental 1564.72 865.37 80 2707 A Mari˜naOriental 1655.04 953.01 48 2708 Meira 1546.56 899.13 32 2709 Quiroga 1144.13 792.20 16 2710 Sarria 1601.95 839.74 48 2711 Terra Ch´a 1514.68 868.78 112 2712 Terra de Lemos 1204.23 780.74 96 2713 A Ulloa 1322.67 735.30 48 3201 Allariz-Maceda 1662.74 1088.04 16 3202 Baixa Limia 999.84 675.01 64 3203 O Carballi˜no 1367.73 828.90 48 3204 A Limia 1113.60 700.74 112 3205 Ourense 1631.29 963.91 352 3206 O Ribeiro 1257.10 785.95 32 3207 Terra de Caldelas 1068.83 702.01 32 3208 Terra de Celanova 1126.11 693.77 48 3209 Terra de Trives 0 0 0 3210 Valdeorras 1237.55 787.07 48 3211 Ver´ın 1252.45 783.95 64 3212 Viana 1468.25 869.74 16 3601 O Baixo Mi˜no 1384.16 777.34 80 3602 Caldas 1585.64 891.13 80 3603 O Condado 1360.79 786.71 80 3604 Deza 1558.39 881.08 128 3605 O Morrazo 1562.97 879.70 160 3606 A Paradanta 1124.23 685.46 32 3607 Pontevedra 1868.91 1059.16 256 3608 O Saln´es 1683.66 936.27 224 3609 Tabeir´os-Terra de Montes 1510.35 859.51 80 3610 Vigo 1784.64 1038.91 864
Tabla 2.1: Informaci´onmuestral por comarca
En la Tabla 2.1 est´andefinidas las siguientes variables: • ingreso medio: la media muestral comarcal de los ingresos totales mensu- ales por hogar, es decir P ftotP ersoa hogar j∈sd j ingreso mediod = nd
Estimaci´onen ´areaspeque˜nas:el ingreso medio 9 mensual por comarca en los hogares gallegos • ingreso equiv.: la media muestral comarcal de los ingresos equivalentes mensuales por hogar, es decir
P ftot equiv hogar j∈sd j ingreso equivd = nd
• nd: el tama˜nomuestral de hogares por comarca, X nd = pers hogarj
j∈sd
A continuaci´onse muestra el tama˜node la muestra de hogares por comarcas:
Figura 2.1: Tama˜nomuestral.
Se observa en la Figura 2.1 que no se cuenta con informaci´onmuestral disponible en las comarcas de A Fonsagrada y Terra de Trives. Por lo tanto el estudio se centra en las 51 comarcas restantes.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 10 mensual por comarca en los hogares gallegos Se observa tambi´enque se cuenta con poca representatividad muestral (≤ 48) para las comarcas pintadas de color blanco. Precisamente es en estas comarcas donde el estudio ser´ade inter´es. Las comarcas con mayor tama˜nomuestral son las de Vigo y A Coru˜nacon una muestra de 864 y 736 hogares, respectivamente.
2.3 Informaci´onauxiliar Cada a˜no la Agencia Estatal de la Administraci´onTributaria (AEAT) recoge las rentas anuales declaradas por sus contribuyentes y las proporciona a nivel muni- cipal, por razones de privacidad, al IGE. Esta informaci´onser´ala utilizada como informaci´onrelacionada con las variables a estudiar en este trabajo.
Se trabaja con las siguientes variables auxiliares, ya agregadas por comarca:
• No decla.: n´umerode declarantes de la renta por comarca.
• Renta imponible: total de renta declarada por comarca.
• Porcent. trabajo: porcentaje de la renta declarada procedente de trabajo.
• Porc. activ. econo. direc.: porcentaje de la renta declarada procedente de actividades empresariales.
• Porc. activ. econo. objetiva.: porcentaje de la renta declarada proce- dente de actividades profesionales.
• Porc. otros: porcentaje de la renta declarada procedente de otras activi- dades.
• Poblaci´on: n´umerode habitantes por comarca.
• Remun asalar: remuneraci´onde asalariados por comarca.
• Prestaci´on social: prestaciones sociales por comarca.
• Renda dispo bruta: dinero del que disponen los individuos en cada co- marca para gastar a lo largo del a˜no.
De las 10 variables se calculan las siguiente 8 variables auxiliares que representan medias comarcales:
• Rendi medio: renta media anual declarada por individuo
Renta imponible Rendi medio = No decla
• Rendi medio trabajo: renta media anual procedente de trabajo
Renta imponible x Porc. trabajo Rendi medio trabajo = No decla
Estimaci´onen ´areaspeque˜nas:el ingreso medio 11 mensual por comarca en los hogares gallegos • Rendi medio empres: renta media anual procedente de actividades em- presariales Renta imponible x Porc. empresa Rendi medio empres = No decla
• Rendi medio prof: renta media anual procedente de actividades profe- sionales Renta imponible x Porc. prof Rendi medio prof = No decla
• Rendi medio otras: renta media anual procedente de otras actividades Renta imponible x Porc. otras Rendi medio otras = No decla
• RBFD media: media de dinero del que dispone el individuo para gastar a lo largo del a˜no Renda dispo bruta RBFD media = Poblaci´on
• Remun asalar media: media de la remuneraci´onde asalariados Remun asalar Remun asalar media = Poblaci´on
• Prest social media: media de las prestaciones sociales Prestaci´on social Prest social media = Poblaci´on
En la siguiente secci´onse lleva a cabo un estudio de correlaci´onpara quedarse s´olocon las variables auxiliares m´asinformativas.
2.4 Correlaci´on Hay 10 variables de inter´es,las 2 variables objetivas y las 8 variables auxiliares de la secci´onanterior. Se estudia si existe alguna correlaci´onentre ellas (Tabla 2.2).
ingreso medio ingreso equiv Rendi medio 0,611 0,670 Rendi medio trabajo 0,542 0,636 Rendi medio empres 0,271 0,119 Rendi medio prof -0,145 -0,335 Rendi medio otras 0,352 0,429 RFBD media 0,615 0,698 Remun asalar media 0,657 0,691 Prest social media -0,261 0,009
Tabla 2.2: Correlaci´onentre las variables
Estimaci´onen ´areaspeque˜nas:el ingreso medio 12 mensual por comarca en los hogares gallegos Se observa, en la Tabla 2.2, que las variables auxiliares que m´ascorrelaci´ontienen con nuestras variables objetivas son: • Rendi medio • Rendi medio trabajo
• RFBD media • Remun asalar media De estas 4 variables auxiliares se escoge el rendimiento medio declarado como ´unicavariable auxiliar de inter´esen el estudio. Se tom´oesta decisi´onpues esta variable proviene de una fuente con informaci´onm´asactualizada y fiable que las dem´as.
2.5 Normalidad Existen estimadores en el estudio que requieren la condici´onde normalidad para las variables objetivas, por tanto es necesario estudiar esta caracter´ıstica.
estad´ıstico gl nivel significaci´on ingreso medio 0,140 51 0,014 ingreso equiv 0,085 51 0,200*
Tabla 2.3: Test de normalidad
Nota*: 0, 200 es el valor m´aximoque nos proporciona SPSS del p-valor del es- tad´ısticode contraste, el p-valor verdadero es m´asalto.
En la Tabla 2.3 se muestran los resultados del test de normalidad de Kolmogorov- Smirnov. Seg´unestos valores podemos aceptar que existe normalidad bajo un nivel de significaci´onde 0, 01.
A continuaci´onse grafican los histogramas y los gr´aficosQ-Q normales para las 2 variables.
Estimaci´onen ´areaspeque˜nas:el ingreso medio 13 mensual por comarca en los hogares gallegos Histograma Histograma