Combinación Del Análisis Factorial Múltiple Y El Análisis Armónico Cualitativo En La Descripción De Datos Longitudinales Cualitativos
Total Page:16
File Type:pdf, Size:1020Kb
Combinación del análisis factorial múltiple y el análisis armónico cualitativo en la descripción de datos longitudinales cualitativos Martha Lucía Corrales Bossio Universidad Nacional de Colombia Facultad de Ciencias Departamento de Estadística Bogotá, D.C. Febrero de 2010 Combinación del análisis factorial múltiple y el análisis armónico cualitativo en la descripción de datos longitudinales cualitativos Martha Lucía Corrales Bossio Trabajo de tesis para optar al título de Magister en Estadística Director Campo Elías Pardo, M.Sc. Magister en Estadística Codirector Juan Ramos, Ph.D Doctor en Estadística Universidad Nacional de Colombia Facultad de Ciencias Departamento de Estadística Bogotá, D.C. Febrero de 2010 Nota de aceptación Trabajo de tesis Jurado Jurado Director Campo Elías Pardo Codirector Juan Ramos Bogotá, D.C., Febrero 12 de 2010 Dedicado a Dedico este trabajo a mi esposo, Guillermo, y a mis hijos Guillermo Andrés, Diego y Sebastián, quienes con todo su amor supieron entender la ausencia y el tiempo que no les pude dar. Agradecimientos Quiero aprovechar esta oportunidad para agradecer a las personas que me han colabo- rado para poder sacar adelante esta investigación, la cual soporta mi tesis de grado. De manera muy especial a mi director, Campo Elías Pardo, el cual con sus enseñanzas, exigencia y labor académica me dieron las bases para desarrollar este trabajo; además, por aceptar dirigir mí tesis y por el tiempo empleado en las correcciones y sus respectivas sugerencias. A mi codirector, Juan Ramos, quien fue la persona que proporcionó los datos para realizar la aplicación del nuevo método propuesto. Y por último, a mi amigo y jefe, Reinaldo Nuñez, Director de la Escuela de Matemáticas de la Universidad Sergio Arboleda, el cual me facilitó el tiempo necesario para realizar mis estudios apoyándome en todo momento para mejorar mi nivel académico. CONTENIDO 1. Introducci´on 1 2. M´etodos utilizados 5 2.1. Notaci´on.............................. 5 2.2. An´alisis arm´onicocualitativo................... 7 2.2.1. An´alisisdecorrespondenciasdifuso........... 10 2.3. An´alisis factorial m´ultiple.................... 11 2.3.1. AFM y el an´alisis multican´onico............. 13 2.3.2. Relaci´onentrelosgruposdevariables.......... 14 3. Combinaci´ondelAACyelAFM:AAC-AFM 15 3.1. Aspectos generales de la combinaci´on.............. 15 i Contenido ii 3.2. Propiedades de la combinaci´ondelAACyelAFM....... 16 3.2.1. Distancias entre individuos y categor´ıas......... 17 3.2.2. Relaciones de transici´on................. 18 3.2.3. Inercias de la combinaci´on................ 19 3.2.4. Relaci´ondelosgruposdelasvariables......... 20 4. Aplicaci´on de la combinaci´on del AAC y el AFM 22 4.1. Descripci´on del rating de TV durante un d´ıa en Colombia . 22 4.2.Fasedepreprocesamientodelosdatos............. 23 4.2.1. Complementos y ajustes de la informaci´on....... 24 4.2.2.Limpiezadelosdatos................... 27 4.2.3. Transformaci´ondelosdatos............... 28 4.3. An´alisisfactorialesrealizados.................. 30 4.3.1. An´alisis arm´onicocualitativo(AAC).......... 30 4.3.2. An´alisis factorial m´ultiplesobreelAAC........ 32 4.4. Clasificaci´ondelostelevidentes................. 37 4.5. Descripci´ondelasclasesobtenidas............... 39 4.5.1. Caracterizaci´ondelasclases............... 40 4.6. Comparaci´on de las clases obtenidas con ambos m´etodos . 47 Contenido iii 5. Librer´ıa hqa 50 5.1.Aspectosiniciales......................... 50 5.2. An´alisisfactoriales........................ 51 5.3. Descripci´on de la librer´ıahqa.................. 52 6. Conclusiones 53 6.1. Conclusiones de la combinaci´on te´orica del AAC y el AFM . 53 6.1.1. Conclusiones de la descripci´on del rating deTV.... 54 6.2. Conclusiones finales del rating de televisi´on........... 55 A. An´alisis factorial general 60 A.1. Nubes del an´alisisfactorialgeneral............... 60 A.2. An´alisisdelanubedelasfilas.................. 61 A.3. An´alisisdelanubedelascolumnas............... 61 A.4. Relaciones de transici´on..................... 62 B. Canales de televisi´on 64 C. Clases obtenidas con el AAC 70 D. Clasificaci´on con AAC. Variables ilustrativas. 74 E. Clasificaci´on con AAC. Variable longitudinal activa 78 Contenido iv F. Clasificaci´on con AAC y AFM. Variables ilustrativas. 87 G. Clasificaci´on con AAC y AFM. Variable longitudinal activa 90 H. Planos factoriales AAC 99 I. Ejemplo de uso de la librer´ıa hqa 101 I.1. Librer´ıahqa............................101 CAP´ITULO 1 Introducci´on Con frecuencia en muchas ´areas se presentan fen´omenos que permiten obser- var variaciones cualitativas a lo largo del tiempo. Esta variable, a la cual se le denominar´a, variable longitudinal activa, es de gran importancia al mo- mento de estudiar cualquier evento, ya sea de tipo demogr´afico, sociol´ogico, psicol´ogico, econ´omico, etc., ya que constituye un punto de partida funda- mental en el estudio de una determinada realidad. En estos casos no es posible utilizar los m´etodos cl´asicos de series cronol´ogicas (Lera et al. 2007). Es recomendable, por lo tanto, la utilizaci´on de t´ecnicas exploratorias de datos como los llamados m´etodos factoriales, entre los que se encuentran el an´alisis arm´onico cualitativo (AAC) (Deville & Saporta 1980) yelan´alisis factorial m´ultiple (AFM) (Escofier & Pag`es 1984). El an´alisis arm´onico cualitativo es una herramienta potente en la descripci´on multivariada de datos de tipo longitudinal categ´oricos. En la pr´actica es la realizaci´on de un an´alisis de correspondencias, y por tal motivo se pueden hacer uso de variables ilustrativas tanto transversales como longitudinales, que enriquecen la interpretaci´on del problema tratado. Lo complicado de su aplicaci´on reside en lo dif´ıcil que puede resultar la lectura de los factores en algunos casos y las decisiones acerca de los par´ametros del an´alisis que hay 1 2 que tomar que dependen del estudio que se est´e realizando. Sin embargo, el AAC ha demostrado en muchos estudios pr´acticos donde se ha utilizado, que es uno de los m´etodos m´as efectivos en el tratamiento de este tipo de datos (Barbary 1996). El an´alisis factorial m´ultiple se presenta como una t´ecnica factorial para la descripci´on de un mismo conjunto de individuos a trav´es de varios grupos de variables. En los estudios de evoluci´on, los grupos se forman seg´un el momento del tiempo en que hayan sido medidas las variables. Se obtiene entonces, una tabla con combinaciones de cortes transversales en el tiempo. La estructuraci´on en grupos enriquece el estudio, ya que no se limita a la obtenci´on de una tipolog´ıa de la trayectoria de los individuos sino que se ampl´ıa a la b´usqueda de relaciones obtenidas al interior de cada uno de los momentos del tiempo y entre estos per´ıodos. El AFM proporciona una visi´on gr´afica completa de las trayectorias tem- porales de los individuos, as´ı como los individuos con mayores y menores cambios evolutivos. Tambi´en muestra las variables responsables de en gran medida de estos cambios. El objetivo de esta tesis consiste en proporcionar una metodolog´ıa estad´ıstica para el tratamiento de datos longitudinales categ´oricos, a trav´es de la com- binaci´on del an´alisis arm´onico cualitativo y del an´alisis factorial m´ultiple. La combinaci´on de estos dos m´etodos factoriales se realiza para incorporar la ponderaci´on del AFM sobre una tabla codificada de acuerdo a los principios del AAC y de esta manera obtener una metodolog´ıa que enriquezca el an´alisis de los datos: representaci´on de los individuos durante todo el per´ıodo de tiem- po, comparaciones de los diferentes per´ıodos de tiempo y de las trayectorias de los individuos en el tiempo. Conelfindeilustrarestacombinaci´on, se analizan una serie de televidentes colombianos residentes en diferentes zonas del pa´ıs (centro, antioque˜na, pac´ıfi- ca, caribe, cafetera, oriente) que observaron los canales de televisi´on durante un d´ıa espec´ıfico de la semana. Los cambios de canal que realiza un indivi- duo se detectan minuto a minuto obteni´endose un total de 19229 cambios de canal (si en un minuto la persona continua en el mismo canal, no se reporta 3 ning´un cambio). La variable analizada es cualitativa, ya que representa el canal en el cual se encontraba la persona en un tiempo determinado durante el d´ıa de estudio y a trav´es de las diferentes franjas de televisi´on reguladas por el Consejo Nacional de Televisi´on. Los individuos se encuentran tambi´en caracterizados por una serie de variables que ilustran el estudio: el g´enero, el nivel socioecon´omico, la zona y la edad. Para la toma de decisiones respecto a la ejecuci´ondelAAC,setuvieron en cuenta los trabajos realizados por Barbary (1996) y Pinz´on (1998). Para el AFM se tomaron como gu´ıa los trabajos realizados por Pag´es (2004), Landaluce & Valencia (2000) y Abascal & Garc´ıa (2003). Adicionalmente se desarroll´o una librer´ıa en R (R Development Core Team 2007) denominada hqa (la cual se encuentra disponible en el CRAN )cuyo objetivo principal es, dada una tabla que contenga un conjunto de indivi- duos, los cuales seleccionan diferentes categor´ıas de una variable longitudinal cualitativa en distintos per´ıodos de tiempo, transformarla en una matriz que se pueda analizar por medio de una an´alisis arm´onico cualitativo y/o a trav´es de la combinaci´ondelAACyelAFM. Este paquete tambi´en presenta funciones adicionales para realizar un an´alisis de clasificaci´on autom´atico y de esta manera obtener tipolog´ıas de los indi- viduos de acuerdo a las similitudes entre escogencias de las categor´ıas de la variable estudiada. En el cap´ıtulo 2 se presenta un breve resumen de los m´etodos utilizados para realizar la combinaci´on y as´ı lograr una comprensi´on de ella. En el cap´ıtulo 3 se realiza la combinaci´on entre el AAC y el AFM, y se presenta el desarrollo de las f´ormulas cl´asicas de un an´alisis factorial general, adaptadas a dicha combinaci´on.