Análisis Multivariado Para Datos Biológicos
Total Page:16
File Type:pdf, Size:1020Kb
FACUNDO X. PALACIO - MARÍA JOSÉ APODACA - JORGE V. CRISCI ANÁLISIS MULTIVARIADO PARA DATOS BIOLÓGICOSTeoría y su aplicación utilizando el lenguaje R Con prefacio de F. James Rohlf ANÁLISIS MULTIVARIADO PARA DATOS BIOLÓGICOS FACUNDO X. PALACIO - MARÍA JOSÉ APODACA - JORGE V. CRISCI ANÁLISIS MULTIVARIADO PARA DATOS BIOLÓGICOS Teoría y su aplicación utilizando el lenguaje R Fundación de Historia Natural Félix de Azara Departamento de Ciencias Naturales y Antropológicas CEBBAD - Instituto Superior de Investigaciones Universidad Maimónides Hidalgo 775 - 7° piso (1405BDB) Ciudad Autónoma de Buenos Aires - República Argentina Teléfonos: 011-4905-1100 (int. 1228) E-mail: [email protected] Página web: www.fundacionazara.org.ar Dibujo de tapa: ejemplar macho de picaflor andino Oreotrochilus( leucopleurus) visitando una flor de salvia azul Salvia( guaranitica), con un dendrograma de fondo. Autor: Martín Colombo. Las opiniones vertidas en el presente libro son exclusiva responsabilidad de sus autores y no reflejan opiniones institucionales de los editores o auspiciantes. Re ser va dos los de re chos pa ra to dos los paí ses. Nin gu na par te de es ta pu bli ca ción, in clui do el di se ño de la cu bier ta, pue de ser re pro du ci da, al ma ce na da o trans mi ti da de nin gu na for ma, ni por nin gún me dio, sea es te elec tró ni co, quí mi co, me cá ni co, elec tro-óp ti co, gra ba ción, fo to co pia, CD Rom, In ter net o cual quier otro, sin la pre via au to ri za ción es cri ta por par te de la edi to rial. Primera Edición: 2020 Impreso en la Argentina. Se terminó de imprimir en el mes de Mayo 2020, en la Ciudad de Buenos Aires. VAZQUEZ MAZZINI EDITORES Tel. (54-11) 4905-1232 [email protected] www.vmeditores.com.ar Palacio, Facundo Xavier Análisis multivariado para datos biológicos : teoría y su aplicación utilizando el lenguaje R / Facundo Xavier Palacio ; María José Apodaca ; Jorge Víctor Crisci. - 1a ed . - Ciudad Autónoma de Buenos Aires : Fundación de Historia Natural Félix de Azara, 2020. 268 p. ; 30 x 21 cm. ISBN 978-987-3781-49-0 1. Biología. 2. Bioestadísticas. I. Apodaca, María José. II. Crisci, Jorge Víctor. III. Título. CDD 570.285 “La imposibilidad de penetrar el esquema divino del universo no puede, sin embargo, disuadirnos de planear esquemas humanos, aunque nos conste que éstos son provisorios”. Jorge Luis Borges El idioma analítico de John Wilkins (1952) Índice Presentación de F. James Rohlf ..................................................................................................................... 11 Traducción de la presentación de F. James Rohlf ..................................................................................... 12 Unas palabras acerca de F. James Rohlf ..................................................................................................... 12 Prólogo de los autores..................................................................................................................................... 13 Agradecimientos .............................................................................................................................................. 15 Capítulo 1 Introducción: pasos elementales de las técnicas multivariadas ........................................................... 17 Pasos elementales del análisis multivariado ...................................................................................................... 17 Elección de las unidades de estudio.................................................................................................................... 19 Variables .............................................................................................................................................................. 19 Elección de las variables...................................................................................................................................... 20 Número de variables a utilizar ............................................................................................................................. 20 El problema de la importancia de las variables................................................................................................... 20 La maldición de la dimensionalidad .................................................................................................................... 22 Capítulo 2 Datos, observaciones y variables ................................................................................................................. 23 Tipos de datos ...................................................................................................................................................... 24 Datos cualitativos o categóricos ............................................................................................................... 25 Datos nominales ...................................................................................................................................... 25 Datos doble-estado, estados excluyentes ............................................................................................ 25 Datos multiestado ................................................................................................................................ 25 Datos ordinales ....................................................................................................................................... 26 Datos cuantitativos o numéricos ............................................................................................................... 26 Datos continuos ....................................................................................................................................... 26 Datos discretos ........................................................................................................................................ 27 Codificación de datos cuantitativos ..................................................................................................................... 27 El problema de la variación intra-unidades de estudio ....................................................................................... 28 Estudio de caso: análisis multivariado del género Bulnesia (Zygophyllaceae) ................................................... 28 Capítulo 3 Introducción al lenguaje R ............................................................................................................................. 37 Descarga del software ......................................................................................................................................... 37 Introducción a la interfaz RStudio....................................................................................................................... 38 Objetos: vectores y marcos de datos .................................................................................................................. 38 Paquetes ............................................................................................................................................................. 42 Datos faltantes.................................................................................................................................................... 43 Ayudas ............................................................................................................................................................. 43 Errores y advertencias......................................................................................................................................... 44 Exportación de archivos ...................................................................................................................................... 45 Cerrando sesión .................................................................................................................................................. 46 7 Análisis multivariado para datos biológicos Capítulo 4 Estimación del parecido entre unidades de estudio: similitud ............................................................... 47 Coeficientes de distancia ..................................................................................................................................... 47 Distancia euclideana ................................................................................................................................. 48 Distancia taxonómica ................................................................................................................................ 49 Distancia de Manhattan ............................................................................................................................ 49 Diferencia de carácter promedio (mean character difference) ................................................................. 50 Distancia de Canberra ............................................................................................................................... 50 Distancia de Cao ........................................................................................................................................ 50 Distancia chi-cuadrado .............................................................................................................................. 51 Distancia de Mahalanobis ......................................................................................................................... 52 Distancias genéticas ................................................................................................................................