<<

ESTESTADISTICAADÍSTICA volumen 53 volumen 64

Junio y Diciembre 2012 número 182 y 183

REVISTREVISTAA DEL SEMESTRAL INSTITUTO DEL INSTITUTO INTERAMERICANOINTERAMERICANO DE DE EST ESTADÍSTICAADÍSTICA

BIANNUAL JOURNALJOURNAL OF THTHEE INTER-AMERICANINTER-AMERICAN ST ASTATISTICALTISTICAL INSTITUTE INSTITUTE

EDITORA EN JEFE / EDITOR IN CHIEF

CLYDE CHARRE DE TRABUCHI

Consultora/Consultant French 2740, 5º A 1425 Buenos Aires, Argentina

Tel (54-11) 4824-2315 e-mail [email protected] e-mail [email protected]

EDITORA EJECUTIVA / EXECUTIVE EDITOR

VERONICA BERITICH

Instituto Nacional de Estadística y Censos (INDEC) Ramallo 2846 1429 Buenos Aires, Argentina

Tel (54-11) 4703-0585 e-mail [email protected]

EDITORES ASOCIADOS / ASSOCIATE EDITORS

D. ANDRADE G. ESLAVA P. MORETTIN Univ. Fed. Sta. Catalina, BRASIL UNAM, MEXICO Univ. de Sao Pablo, BRASIL M. BLACONA A. GONZALEZ VILLALOBOS F. NIETO Univ. de Rosario, ARGENTINA Consultor/Consultant, ARGENTINA Univ. de Colombia, COLOMBIA J. CERVERA FERRI V. GUERRERO GUZMAN J. RYTEN Consultor/Consultant, ESPAÑA ITAM, MEXICO Consultor/Consultant, CANADA E. DAGUM R. MARONNA * S. SPECOGNA Consultor/Consultant, CANADA Univ. de La Plata, ARGENTINA ANSES, ARGENTINA E. de ALBA I. MENDEZ RAMIREZ P. VERDE INEGI, MEXICO IIMAS/UNAM, MEXICO University of Düsseldorf, ALEMANIA P. do NASCIMENTO SILVA M. MENDOZA RAMIREZ V. YOHAI ENCE/IBGE, BRASIL ITAM, MEXICO Univ. de Buenos Aires, ARGENTINA L. ESCOBAR R. MENTZ Louisiana State Univ., USA Univ. de Tucumán, ARGENTINA

* Asistente de las Editoras / Editors’ Assistant

ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22 © Instituto Interamericano de Estadística

JAMES DURBIN: IN MEMORIAM

JUAN CARLOS ABRIL Universidad Nacional de Tucumán, Facultad de Ciencias Económicas y Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET). Argentina [email protected]

RESUMEN

El Profesor ha fallecido en la tarde del sábado 23 de Junio de 2012, en Londres, a la edad de 88 años. Fue una de las figuras más importantes de la Estadística. Sus contribuciones cubren áreas de muestreo, teoría de las distribuciones, estadística no paramétrica, procesos estocásticos y, principalmente, series de tiempo y econometría. Por su trascendencia científica, sus aportes a la Estadística y por la gran amistad de más de 38 años que me unía a él, presento este homenaje en donde se resaltan la trayectoria y la personalidad del Profesor Durbin, y sus importantes contribuciones a la ciencia.

Palabras Clave

Durbin; Econometría; Estadística; Series de Tiempo.

ABSTRACT

Professor James Durbin has died in the afternoon of Saturday June 23, 2012, in London, at the age of 88. It was one of the most important figures of . His contributions cover areas of sampling, theory of distributions, nonparametric statistics, stochastic processes, and mainly and . For his scientific significance, his contributions to Statistics and the great friendship of over 38 years that I had with him, I present this tribute which highlights the career and personality of Professor Durbin, as well as his important contributions to science.

6 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

Key words

Durbin; Econometrics; Statistics; Time series.

1. Introducción

Jim, como lo llamábamos los amigos, nació el 30 de Junio de 1923 en Wigan, Inglaterra. Fue educado en el Saint John’s College de la Universidad de Cambridge. Desde 1950, trabajó en The London School of Economics and Political Science (LSE) hasta su jubilación en 1988. Se inició allí como Ayudante de cátedra, se convirtió en Profesor Asociado en el año 1953 y en Profesor en 1961 sucediendo a Sir en la cátedra de Estadística. Después de su jubilación permaneció como Profesor Emérito de Estadística en la LSE.

Desde 2007 fue Profesor Honorario del University College de Londres (UCL), y donde también fue “Fellow” del Centre for Microdata Methods and Practice (CeMMAP). En 2001 fue nombrado “Fellow” de la British Academy. En 2008 por los logros de toda una vida en Estadística recibió la Medalla Guy de Oro de la Royal Statistical Society (RSS) después de haber recibido la de Bronce en 1966 y de Plata 1976. Fue Presidente del Instituto Internacional de Estadística (ISI) (1983- 1985), Miembro Honorario desde 1999 y Presidente de la Royal Statistical Society (1986-1987). Además, fue elegido “Fellow” del Instituto de Estadística Matemática (IMS) desde 1958, de la American Statistical Association (ASA) desde 1960 y de la Sociedad Econométrica desde 1967. También fue tesorero de la Sociedad Bernoulli para la Estadística Matemática y Probabilidad en los años 1975-1981. Sus deberes editoriales incluyen su papel como Editor Asociado de Biometrika (1964-1967), Annals of Statistics (1973-1975) y el Journal of the Royal Statistical Society (JRSS), Series B (1978-1981). En la comunidad internacional de estadísticos, J. Durbin fue un distinguido y laureado científico.

ABRIL: James Durbin: in memoriam 7

Figura 1: James Durbin. Foto tomada durante 1988 cuando era Presidente de la Royal Statistical Society

Durante sus años en la LSE, también fue activo como miembro del Consejo (1960- 1963) en el Institute of Statistics (equivalente a lo que conocemos como colegio de graduados) antes de que se fusionara con la Royal Statistical Society. Además de ser Presidente de la RSS en 1986-1987, fue miembro del Consejo durante 15 años en el período 1957-1989 y se le dio el rol de Vicepresidente durante una serie de años. También fue miembro durante muchos años de los comités de Exámenes y de Investigación de la RSS. Fue “Miembro” del Instituto Internacional de Estadística (ISI) desde 1955 y, durante los años comprendidos entre 1981 y 1987, fue sucesivamente Presidente Electo, Presidente y miembro del Consejo del ISI. También fue Presidente de comités del ISI durante varios años.

Sus trabajos de investigación han constituido importantes contribuciones en estadística y econometría, en particular, en los campos de la correlación serial (13 publicaciones), las series de tiempo generales (31), la econometría (4), la metodología de encuesta y muestreo (9), las pruebas de bondad de ajuste y las funciones de distribución muestral (13), la probabilidad (8), la teoría general de estadística (8) y la filosofía de las estadísticas (3). Sus publicaciones en revistas como Biometrika (14 publicaciones), Journal of Royal Statistical Society (8 en la Series A, 7 en la Series B), Journal of Applied Probability (4), (3), Journal of the American Statistical Association (2), Annals of Mathematical Statistics (2) y Annals of Statistics (1). 8 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

James Durbin se casó con Anne en 1957 y tuvieron tres hijos, Joanna, Richard y Andrew. En 1950, Jim decidió convertirse en académico porque las largas vacaciones le permitirían practicar su deporte favorito, el alpinismo. Dado que Anne no estaba tan interesada en el montañismo, decidieron cambiar por el esquí como deporte para sus vacaciones en familia. Durante su vida realizó numerosas e importantes excursiones de montañismo a diversos lugares del mundo junto con el Club de Montañismo de la LSE. A la edad de 60 años subió el Kilimanjaro. Su preparación para escalar la montaña más alta de África, con más de 5.891 metros de altura, duró tres meses y consistió principalmente en trasladarse en bicicleta entre su casa en la zona londinense de Hampstead y su trabajo en el centro de Londres.

Conocí al Profesor James Durbin en Agosto de 1973 cuando visitó el Instituto de Investigaciones Estadísticas (INIE) de la Facultad de Ciencias Económicas de la Universidad Nacional de Tucumán, como parte de un programa de intercambio organizado entre el Consejo Nacional de Investigaciones Científicas y Técnicas (CONICET) de Argentina y The Royal Society de Gran Bretaña. En esa oportunidad ofreció un curso sobre la teoría de distribución de tests basados en la función de distribución muestral que correspondía a los temas de su último libro publicado. Debo confesar que, por aquella época, el curso me resultó muy dificultoso pero altamente estimulante. Durante esa visita, me ofreció su apoyo para lograr una beca del British Council para estudiar una maestría en la LSE. Allí Durbin fue mi director de estudios y de tesis.

Luego regresé a Argentina, pero sin que se interrumpiera nuestra correspondencia. Así, en 1980 definimos un área de trabajo para mi doctorado que se inició ese mismo año. Para el primer trimestre de 1982, sucedió lo impensable: nuestros países entraron en guerra. Efectivamente, me tocó estar en Londres durante la Guerra de las Malvinas. Más allá de las posibles diferencias que pudiéramos haber tenido con respecto a la esencia del conflicto, el Profesor Durbin supo obrar conmigo como una gran persona y un perfecto caballero, ofreciendo todo el apoyo moral y económico que mi familia y yo pudiéramos necesitar.

Debido a ese conflicto regresé a la Argentina pero mi relación con Jim se mantuvo y gracias a su apoyo logré un lugar en la Universidad de Valencia, España. Desde allí, luego de reiterados viajes y, con un apoyo económico de la LSE obtenido nuevamente por sus recomendaciones, pude terminar mi doctorado en 1985.

El 16 de Mayo de 2001, la Universidad Nacional de Tucumán, Argentina, le otorgó el título de Doctor Honoris Causa.

ABRIL: James Durbin: in memoriam 9

Tuve la oportunidad de volver a la LSE en 1991, 1997, 2000 y por último en 2011, lo que me permitió mantener un fluido contacto académico, científico y de gran amistad con él.

Recibí la triste noticia de su fallecimiento el 24 de junio por medio de sendos correos electrónicos de parte de y Siem Jan Koopman. Inmediatamente llamé por teléfono a la familia y pude hablar con su hija Joanna, expresándole mis condolencias y las de toda mi familia.

Escribir sobre la trayectoria académica del Profesor Durbin, es una tarea que considero nada fácil porque debo condensar en poco espacio lo que realizó en una larga trayectoria de sobresaliente actividad científica. Una versión extendida de este tributo puede ser encontrada en Abril (2012).

Sirva este trabajo como un justo homenaje al amigo, gran maestro y excelente científico.

2. James Durbin. Su vida y su obra

Su formación de grado se inició al ingresar a la Universidad de Cambridge, en el Saint John’s College, en los difíciles años de la Segunda Guerra Mundial. Obtuvo el título de grado de “Bachiller de las artes en tiempos de guerra” en matemáticas que incluía el servicio militar en el Grupo de Investigaciones de Operaciones del Ejercito. En esa universidad estaban y Sir entre sus contemporáneos.

Al finalizar la guerra decidió continuar con sus estudios de postgrado en Cambridge. Por sugerencia de su tutor cursó la maestría en Estadística Matemática. Durante ese tiempo tuvo como supervisores a Richard Stone en Economía, Premio Nobel de Economía en 1984, y a en Estadística. Durante esos años, Denis Lindley era docente auxiliar en el programa de postgrado, Wishart era el jefe del grupo de Estadística y Frank Anscombe era docente. Bartlett se había marchado a Manchester justo antes de que Jim ingresara.

Cuando James Durbin era estudiante de grado realizó algunos trabajos sobre estadística descriptiva. En aquella época nunca pensó que podría desarrollar un interés en la estadística matemática.

En 1948 se unió al nuevo Departamento de Economía Aplicada (DAE). Este fue fundado por Keynes quien insistía que en Cambridge debía haber un departamento de Economía Cuantitativa. En aquella época se realizó mucha investigación en 10 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

series de tiempo en el DAE con investigadores como Stone, Cochrane, Orcutt e investigadores visitantes que incluían a Hendrik Houthakker, Gerhard Tintner, Larry Klein (Premio Nobel de Economía de 1980), Michael Farrell, Theodore W. Anderson y Geoffrey Watson.

Cuando estaba finalizando la década de 1940, focalizó su atención en testar la correlación serial, influenciado por los trabajos que Stone, Cochrane y Orcutt estaban realizando. En este contexto conoció a Geoffrey Watson, joven australiano que llegó a Cambridge a realizar su doctorado, quien tenía similares inquietudes científicas. Tuvieron algunos intercambios de ideas preliminares y decidieron trabajar juntos en ese problema. De esta unión surgieron trabajos que aún siguen estando vigentes y que son ampliamente usados en las aplicaciones prácticas (Durbin and Watson, 1950, 1951). De hecho, ellos trabajaron juntos en el mismo departamento cerca de seis meses. Luego, Jim regresó a la LSE y se reunían esporádicamente en Cambridge o en Londres. Así fue como escribieron el primer trabajo sobre el test de correlación serial. En el segundo trabajo conjunto publicaron tablas que pueden ser usadas en el trabajo empírico. Veinte años después escribieron un tercer trabajo basándose en la teoría de la invarianza (Durbin and Watson, 1971). A pesar de haber previsto una cuarta, nunca pudo realizarse. Retrospectivamente, podemos ver que el test de Durbin-Watson tuvo un impacto extraordinario en la profesión, especialmente en el trabajo econométrico aplicado. Recientemente se lo revalorizó en su carácter de test de diagnóstico exacto y también parece tener una potencia difícil de mejorar, aún para otras hipótesis alternativas diferentes a la originalmente propuesta.

El Profesor James Durbin se unió en 1950 a una nueva unidad en la LSE, la de investigación estadística. El Profesor Maurice Kendall acababa de ser nombrado Profesor de Estadística de la LSE y quedó vacante su cargo anterior como docente. Kendall llamó a Daniels preguntándole si es que había alguien apto para ese trabajo y Daniels recomendó a Durbin. Jim lo aceptó porque además de incorporarse a esa prestigiosa institución, el trabajo sería temporario y eso le permitiría tomarse unas largas vacaciones para practicar montañismo, su deporte favorito. Aunque resulte difícil de creer, en aquel momento este deporte le interesaba más que la investigación académica.

En los años iniciales en la LSE, Durbin se interesó en diversas áreas. Sabía que los temas referidos a las encuestas por muestreo iban a aumentar su importancia en las aplicaciones de la estadística en las ciencias sociales y además se interesó en este tema por la influencia de Stone. Entonces una de las primeras actividades docentes en la LSE consistió en dictar un curso sobre la teoría de las encuestas por muestreo. Continuó con el curso de encuestas por muestreo por un cierto tiempo, ABRIL: James Durbin: in memoriam 11

posteriormente compartió el dictado de esta materia con Alan Stuart y luego se fueron turnando cada cierto número de años. Por ejemplo, su artículo en el Journal of the Royal Statistical Society (JRSS), Series B, de 1953, desarrolla una forma general para la estimación de las varianzas muestrales en muestreo múltiple con probabilidades desiguales (Durbin, 1953). Después trató de cubrir otras áreas como el análisis de la varianza y modelos lineales. Así como, en el DAE había sentido una dedicación especial hacia la economía y la econometría, en la LSE sintió una responsabilidad hacia la teoría estadística en general.

En esos primeros años en la LSE no enseñó series de tiempo porque Maurice Kendall era una autoridad internacional en ese campo. En esa época, Alan Stuart era su compañero más cercano y, dado que la carga docente en aquellos días era baja, pudieron realizar bastantes trabajos conjuntos en estudios experimentales y en correlaciones por rangos que fueron publicados en el Journal of the Royal Statistical Society (Durbin y Stuart, 1951a, 1951b, 1954).

Continuando con la reseña de la labor científica del Profesor Durbin es importante destacar que en 1953 fue invitado a dar una charla en el encuentro europeo de la en Innsbruck. La misma trató sobre errores en las variables y el uso de variables instrumentales en la estimación. Allí se encontraba Gil Goodswaard, que en ese tiempo era el editor de International Statistical Review, quien lo invitó a publicar su conferencia allí. Por lo tanto, parece que fue más bien accidental la publicación de ese trabajo. Jim refinó un poco el documento de su charla, le incorporó algunos agregados pero esencialmente era la conferencia (Durbin, 1954). Ese trabajo resultó muy importante porque contenía un test que, injustamente, ahora se conoce con el nombre del test de Hausman para la exogeneidad (Hausman, 1978). Algunos autores comenzaron recientemente a nombrarlo como el test de Durbin-Wu-Hausman, entendiendo que así se hace justicia para con su autor inicial.

Como ya se dijo anteriormente, en los años iniciales en la LSE, Durbin no enseñaba series de tiempo ya que lo hacía Kendall. Cuando este último quiso cambiar de área de trabajo, dejó el curso en manos de Jim y de Maurice Quenouille, quien a pesar de tener un cargo de tiempo completo como investigador, cooperó con él durante un tiempo en el dictado de este curso. Luego David Brillinger ingresó al departamento por cinco años y compartieron la enseñanza de series de tiempo.

El período de Quenouille en la LSE parece haber sido bastante productivo ya que escribió un libro sobre series de tiempo múltiples y desarrolló la teoría del jackknife. James Durbin se había interesado a finales de la década de 1950 en este 12 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

tema y escribió un trabajo acerca del jackknife que apareció en Biometrika en base a en un artículo anterior de Quenouille (Durbin, 1959b). Los resultados fueron muy interesantes ya que él junto con Quenouille, demostraron que mediante el método de jackknife no hace falta pagar un precio demasiado alto para reducir el sesgo. Intuitivamente esto no parecía un resultado tan obvio.

Después del trabajo de Biometrika sobre jackknife, Durbin desarrolló una metodología similar al bootstrapping pero, a fines de la década de 1950, el cómputo era un grave limitante. Según contó, había problemas interesantes en el diseño de las simulaciones sobre los que podría hacer progresos, pero nunca publicó el trabajo porque pensó que los cómputos no eran en realidad prácticos para el trabajo aplicado. Realmente es una pena que este último trabajo no haya sido publicado, aunque hoy en día la gente está usando las simulaciones para hacer cosas similares aprovechando que las computadoras son accesibles y el costo de grandes trabajos de computación es muy bajo. Durbin pensaba que muchas personas jóvenes no se dan cuenta de la enorme influencia que ha tenido la computadora en el trabajo estadístico tanto teórico como aplicado.

Más tarde, a finales de la década de 1950, regresó a los problemas de series de tiempo. En 1957, apareció su artículo de Biometrika sobre la prueba de Durbin- Watson para un sistema de ecuaciones simultáneas (Durbin, 1957). Se trata de un documento histórico ya que resuelve de manera inteligente un problema difícil y, por sobre todo, muestra la capacidad intelectual del Profesor Durbin. Debido a su fama y a que se puso de moda en la década de 1960, se hizo un uso incorrecto del test de Durbin-Watson, por ejemplo, en las regresiones basadas en modelos dinámicos con variables dependientes rezagadas. Para corregir esta situación, en Durbin (1970a), desarrolló el estadístico h como prueba de correlación serial con variables dependientes rezagadas usadas como regresores. El principio general de esta prueba fue reconocido más tarde como un procedimiento de multiplicadores de Lagrange. En ese mismo año desarrolló otro test alternativo de correlación serial (Durbin, 1970b).

En 1963 presentó un importante trabajo de estimación econométrica en el encuentro de Copenhague de la Econometric Society. Ese trabajo daba las ecuaciones de estimación para los estimadores “Full Information Maximum Likelihood” (FIML) en una nueva forma que facilitaba los lazos con otros procedimientos de estimación tales como variables instrumentales. Muchos econometristas se enteraron de este trabajo por comentarios de otros colegas. Desde entonces estos resultados fueron y son enseñados en todos los cursos de econometría a pesar que el artículo correspondiente fue publicado recién 25 años más tarde (Durbin, 1988). En la versión que presentó originalmente en Copenhague ABRIL: James Durbin: in memoriam 13

había algunos cálculos que resultaron ser incorrectos. Un asistente resolvió correctamente algunos de estos cálculos pero, antes de finalizar completamente la tarea, este asistente cambió de lugar de trabajo dejando el trabajo inconcluso. Jim tenía la idea de que no se debería publicar un nuevo resultado metodológico sin mostrar cómo se puede usar. Siempre mantuvo la costumbre de repetir los cálculos, pero las condiciones de uso de las computadoras en esa época eran tan complejas, que nunca pudo volver a hacerlos. Eventualmente, comenzó a trabajar en otros temas y dejó de lado para siempre esa área. Realmente ésta es una historia increíble: el trabajo anterior ya era usado como referencia en el texto de Edmond Malinvaud (1964). Así que, sin ninguna duda, poco después que Durbin lo presentó en Copenhague ya había mucha gente que estaba familiarizada con él. Se sospecha que David Hendry, hoy Sir , lo haya usado ya que estudió en la LSE en esa época. Es posible que Hendry y Malinvaud hicieron que el trabajo fuera conocido.

En Bartlett (1955) se muestra cómo se puede usar la teoría de distribución de Kolmogorov-Smirnov para el periodograma acumulado como un test general de correlación serial en el caso de no estar ante un problema de regresión. Durbin se interesó inmediatamente en este procedimiento ya que permitía conocer las características de la correlación serial de la serie, especialmente mediante la representación gráfica del periodograma acumulado, lo cual a su criterio podría resultar atractivo para trabajadores aplicados. Posteriormente, durante la década del sesenta, retomó el tema de la correlación serial y escribió diversos trabajos desarrollando la teoría de los tests de periodogramas acumulados, el test h, el test t y otros.

Otro de sus intereses más importantes a lo largo de los años ha sido el relacionado con los procedimientos de ajuste estacional (Durbin, 1962, 1963) que se reavivó a partir de un llamado del gobierno nacional, a fines de los años 60, como consultor académico para estudiar el ajuste estacional de las series de desempleo. Trabajó en esos problemas por un año o dos con importantes estadísticos oficiales (Durbin, Brown y Cowley, 1970, 1971). El Primer Ministro había trabajado como un estadístico económico en el servicio gubernamental durante la guerra y era bastante bueno en la interpretación de datos numéricos. El gobierno estaba crecientemente preocupado por el aumento del desempleo y Wilson estaba muy interesado en mirar los datos por sí mismo. Tuvo la idea, como Primer Ministro, que tal vez la razón por la que las series de desempleo parecían comportarse de una manera algo extraña se debía al procedimiento de ajuste estacional que estaba siendo usado. Llegaron a la conclusión que el Primer Ministro estaba en lo cierto y que había algo malo en el ajuste estacional. Es notable que un primer ministro se 14 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

haya fijado en un problema que es eminentemente técnico y que además haya estado en lo cierto.

En 1973, su trabajo sobre convergencia débil de una función de distribución empírica (Durbin, 1973a) apareció en los Annals of Statistics y se publicó su libro sobre la teoría de distribución de los tests basados en las funciones de distribución empíricas (Durbin, 1973b). Con estas contribuciones Durbin fue uno de los precursores en desarrollar la teoría de convergencia débil de procesos estocásticos para resolver los problemas asintóticos de convergencia.

Su trabajo sobre la distribución de estadísticos suficientes de Biometrika (Durbin, 1980a, 1980b), otorgó un nuevo enfoque a las aproximaciones de Edgeworth y de puntos de ensilladura, y a la teoría asintótica de alto orden (Ghosh, 1994; Taniguchi, 1991). Cuando comenzó a escribir el trabajo, necesitaba un teorema para expansiones de Edgeworth de variables dependientes y, para su sorpresa, encontró que no existía ese teorema. Consultando la literatura sobre probabilidad, le pareció que un argumento muy simple podía ser desarrollado usando el tratamiento Feller (1971) utilizaba para expansiones ordinarias de Edgeworth para variables aleatorias independientes. A Jim le pareció que se lo podía extender para variables dependientes. Así que desarrolló un teorema que lo demostraba (Durbin, 1980a).

En su trabajo, “Evolutionary Origins of and Statistics” (Durbin, 1985) desarrolla una tesis fascinante acerca de la capacidad de la especie humana de hacer matemática y de la aplicabilidad de la teoría estadística en el mundo real. Por más de treinta años se interesó en analizar las razones por las cuales la especie humana puede hacer matemática así como por qué la matemática funciona tan bien cuando se la aplica en el mundo real. Jim consideraba sorprendente que los matemáticos no tuvieran un gran interés en esas cuestiones. Recibió una invitación para escribir ese trabajo en el volumen del centenario del International Statistical Institute (ISI) para el cual los editores le pidieron específicamente que no escribiera algo técnico en estadística porque ya tenían demasiados artículos técnicos. Antes de publicar el trabajo revisó en la biblioteca de la LSE todo lo referente a filosofía de la matemática. La LSE ha sido un centro importante para la filosofía de las ciencias y la matemática debido al trabajo de Lakatos y Popper aunque allí no se mencionaba la palabra evolución. Esto era extraordinario. Le parecía evidente a Jim que si se desea comprender los cimientos filosóficos de la matemática se debe empezar por los orígenes evolutivos del razonamiento humano.

Para Durbin la LSE siempre había sido un lugar de trabajo interesante y gratificante, ya que desde principios de 1950 pudo sostener un desarrollo continuo ABRIL: James Durbin: in memoriam 15

en el campo de las series de tiempo y la econometría. Actualmente podríamos decir que es más fuerte que antes puesto que hay un grupo muy importante de especialistas en esas áreas. Algunos profesores de econometría en la LSE, como Peter Robinson y Andrew Harvey, fueron antiguos estudiantes de esa universidad y, de hecho, puede ser tal vez sorprendente para algunos que ambos sean graduados en estadística y no en econometría. Lamentablemente para la LSE, Harvey se fue recientemente a Cambridge.

J. Durbin creía que el futuro de todas las ciencias sociales cuantitativas sería más interesante que el pasado por el mayor poder computacional que se tiende a tener. Pensaba que la mayoría de la gente joven que se dedica a la economía y otras ciencias sociales está interesada en el análisis cuantitativo y muchos de ellos son bastante sofisticados en matemática, estadística y computación. Opinaba que se puede esperar una mayor cooperación internacional en proyectos de investigación, donde cada persona trabajará en su propia terminal y colaborará de modo casi instantáneo con otros científicos de diferentes instituciones. De manera similar, se manejan modelos más poderosos basados en una percepción de la estructura real del área de interés en la que se trabaja, en vez de las estructuras aproximadas que se usaban antes. Jim afirmaba que Box y Jenkins (1976) hicieron una gran contribución al desarrollo del análisis de series de tiempo y le gustaba enseñar en sus cursos de la LSE el álgebra de estos modelos por su "limpieza", pero estaba convencido que la metodología basada en el enfoque estructural o de los componentes inobservables de series de tiempo era el camino a seguir en el trabajo aplicado. Andrew Harvey junto a otros colegas en la LSE han estado trabajando en este enfoque del análisis de las series de tiempo desde hace algunos años. Más aún, Andrew había desarrollado un marco metodológico completo para esta clase de modelos mientras estuvo en la LSE. Esta metodología de series de tiempo se basa en los modelos de espacio de estado y el filtro de Kalman asociado (Harvey, 1989). El Profesor Durbin apoyó firmemente estos desarrollos.

El Profesor Durbin creía que el debate acerca de la inferencia estadística a veces se plantea con miras estrechas ya que básicamente confronta el enfoque Bayesiano versus el enfoque clásico y deja de lado los aspectos más interesantes de la estadística aplicada. A su entender en la actualidad hay muchos factores que son relevantes, uno de ellos es el desarrollo de los paquetes estadísticos que contemplen los diferentes enfoques para que estén disponibles en caso de ser útiles para un trabajo posterior, de modo que sean accesibles. También consideraba desafortunado para el desarrollo de la probabilidad el planteo tan parcial de los Bayesianos, como de Finetti (1974) y Savage (1972), que insistían en que la inferencia estadística se basara únicamente en información subjetiva para el control de la incertidumbre. En su opinión la profesión como un todo debería reconocer 16 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

que la probabilidad tiene dos aspectos: variabilidad e incertidumbre. Una filosofía integrada, que contemple ambos aspectos, los abarcará y contendrá.

Consideraba que una buena parte de las antiguas ideas de la inferencia estadística estaban basadas en modelos paramétricos simples, que eran vistos como valederos en cierto sentido, también justificados por las limitaciones computacionales de esa época. En los días de Fisher, los modelos eran muy sencillos, había que suponer normalidad o alguna otra distribución conocida y las posibles formas de analizar un conjunto particular de datos eran extremadamente limitadas. En cambio actualmente, estaba convencido que, por el poder de cómputo disponible, existe una gran libertad para mirar los datos desde diferentes puntos de vista: la robustez y el manejo de los outliers y la posibilidad de modificar la presentación de la información para realizar un mejor análisis. Siempre pensó que muchas nuevas técnicas serán desarrolladas e incorporadas a los paquetes y que también que se debe educar a nuestros futuros estudiantes en un uso más pragmático de las teorías de inferencia estadística de manera tal que aprendan a usar las técnicas según la necesidad. Estaba más predispuesto a pensar en una filosofía de la estadística, un enfoque general de la materia, que en la aplicación de cualquier esquema específico de inferencia o sistema de inferencia y esperaba que la profesión como un todo se moviera en el futuro hacia lo que él llamó una filosofía única de la estadística.

Aunque casi todos los aportes del Profesor Durbin fueron impulsados por la teoría, sus trabajos surgieron sobre todo por el deseo de resolver problemas específicos y de obtener soluciones fáciles de poner en práctica. Por lo tanto, siempre consideró importante presentar un ejemplo numérico en sus investigaciones. Su importante artículo en el JRSS (Durbin, Brown and Evans, 1975) sobre residuos recursivos y la detección de los cambios estructurales en una serie de tiempo, es una buena ilustración de cómo identificó la importancia de un problema práctico, que no fue reconocido en su debido tiempo, pero que recibió la atención necesaria muchos años más adelante. Problemas empíricos y prácticos también fueron tomados muy en serio por el Profesor Durbin, lo que se evidencia en su trabajo sobre el ajuste estacional de series de tiempo en los proyectos conjuntos que tenía respectivamente con Murphy y Kenny (Durbin and Murphy, 1975; Durbin and Kenny, 1976, 1982). Apreciaba especialmente su influyente trabajo empírico con Andrew Harvey acerca de los efectos producidos por la legislación que obliga al uso del cinturón de seguridad sobre las víctimas de tráfico en Gran Bretaña (Durbin and Harvey, 1985, 1986). El quería demostrar que los métodos de series de tiempo se deben utilizar para estudiar problemas interesantes del mundo real y que son importantes en el análisis de políticas de estado.

ABRIL: James Durbin: in memoriam 17

En la entrevista realizada por Phillips (1988), Durbin comentaba algunos hechos interesantes de su carrera profesional que se detallan a continuación.

El proyecto sobre el uso del cinturón de seguridad desarrollado con Andrew Harvey incluyó un análisis de series de tiempo de “recuentos pequeños” del número mensual de accidentes graves con vehículos utilitarios en Gran Bretaña. Se despertó en él un interés por desarrollar métodos para el tratamiento de series temporales con características no Gaussianas. También le gustaban las investigaciones que, a principios de 1990, Siem Jan Koopman llevaba a cabo en la LSE bajo la supervisión de Harvey. Estaba dispuesto a participar y a colaborar. Las colaboraciones con Koopman y otros tuvieron como resultado sus publicaciones a partir de 1990 sobre los modelos de espacio de estado (Durbin, 1990, 1997, 2000, 2004; Durbin y Koopman, 1997, 2000a, 2000b, 2002, 2003; Durbin y Quenneville, 1997). Por otra parte, el Profesor Durbin estaba interesado en escribir un libro sobre métodos de espacio de estado con el objetivo de presentar una alternativa a la metodología de Box y Jenkins de análisis de series temporales (Durbin and Koopman, 2001, 2012).

Jim se retiró de la LSE después de casi 39 años de servicio activo en el Departamento de Estadística. Por ese motivo, el 15 de Diciembre de 1988, se organizó un seminario especial al que asistió Sir Maurice Kendall, entre muchos otros personajes destacados de la disciplina. Alan Stuart elogió la claridad de lenguaje en sus trabajos y sus habilidades para la enseñanza, y dijo en esa oportunidad: “En todas las conversaciones que he tenido con los estudiantes y otras personas, nadie se ha quejado que no podía entender lo que Jim quería hacer.” En el mismo seminario, Andrew Harvey elogió la originalidad de Jim en la investigación, y dijo también: “Las contribuciones de Jim han sido principalmente teóricas. Sin embargo, detrás de su trabajo, siempre ha habido un claro entendimiento de lo que es importante desde el punto de vista práctico. En otras palabras, nunca se siente en la lectura de su obra que él ha realizado el trabajo matemático por el mero hecho de hacer matemáticas. Está allí con un propósito, porque quiere resolver un problema que en la realidad tiene importancia práctica.”

En la Reunión Anual General de la Royal Statistical Society del 2 de Julio de 2008, Jim fue galardonado con la “2008 Royal Statistical Society’s in Gold”, por toda una vida de contribuciones muy influyentes que le han dado reconocimiento internacional destacándolo como líder en nuestro campo, teniendo especialmente en cuenta su trabajo pionero sobre los tests de correlación serial en regresión, en la estimación de ecuaciones, el movimiento browniano y otros procesos que cruzan fronteras curvas, en test de bondad de ajuste con parámetros estimados, y en muchos aspectos del análisis de series de tiempo, especialmente en 18 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

los relacionados con la econometría, así como su destacado y amplio servicio a la profesión en el escenario internacional.

Referencias

ABRIL, JUAN CARLOS (2012). "James Durbin: In Memoriam". Conferencia pronunciada en el X Congreso Latinoamericano de Sociedades de Estadística (X CLATSE). Córdoba, Argentina, 16 al 19 de Octubre de 2012. http://conferencias.unc.edu.ar/index.php/xclatse/clatse2012/paper/view/507/24

BARTLETT, M. S. (1955). An Introduction to Stochastic Processes. Cambridge University Press, Cambridge.

BOX, G. E. P. and JENKINS, G. M. (1976). Time Series Analysis: Forecasting and Control (Revised Edition). Holden-Day, San Francisco.

DE FINETTI, B. (1974). Theory of Probability. Wiley, London.

DURBIN, J. (1953). "Some results in sampling theory when the units are selected with unequal probabilities." Journal of the Royal Statistical Society, Series B. 15: 262-269.

DURBIN, J. (1954). "Errors in variables." Review of the International Statistical Institute. 22: 23-52.

DURBIN, J. (1957). "Testing for serial correlation in systems of simultaneous regression equations." Biometrika. 44: 370-377.

DURBIN, J. (1959a). "Efficient estimation of parameters in moving average models." Biometrika. 46: 306-316.

DURBIN, J. (1959b). "A note on the application of Quenouille’s method of bias reduction to the estimation of ratios." Biometrika. 46: 477-480.

DURBIN, J. (1962). "Trend elimination by moving-average and variate-difference filters." Bulletin of the International Statistical Institute. 39: 131-141.

DURBIN, J. (1963). "Trend elimination for the purpose of estimating seasonal and periodic components of time series." Time Series Analysis (M. Rosenblatt, Editor). Wiley, New York. ABRIL: James Durbin: in memoriam 19

DURBIN, J. (1970a). "Testing for serial correlation in least-squares regression when some of the regressors are lagged dependent variables." Econometrica. 38: 410-421.

DURBIN, J. (1970b). "An alternative to the bounds test for testing for serial correlation in least- squares regression." Econometrica. 38: 422-429.

DURBIN, J. (1973a). "Weak convergence of the sample distribution function when the parameters are estimated." Annals of Statistics. 1: 279-290.

DURBIN, J. (1973b). Distribution theory for tests based on the sample distribution function. Society for Industrial and Applied Mathematics, Philadelphia.

DURBIN, J. (1980a). "Approximations for densities of sufficient estimators." Biometrika. 67: 311-333.

DURBIN, J. (1980b). "The approximate distribution of partial serial coefficients calculated from residuals from regressions on Fourier's series." Biometrika. 67: 335-349.

DURBIN, J. (1985). "Evolutionary origins of statisticians and statistics." A celebration of Statistics: The ISI Centenary Volume. Springer-Verlag, New York.

DURBIN, J. (1988). "Maximum likelihood estimation of the parameters of a system of simultaneous regressions equations." . 4:159-170.

DURBIN, J. (1990). "Extensions of Kalman modelling to non-Gaussian observations." Quadermi di Statistica e Mathematica Applicata. 12: 3-12.

DURBIN, J. (1997). "Optimal for state vectors in non- Gaussian and nonlinear state space time series models." Selected Proceedings of Athens, Georgia, Symposium on Estimating Functions.

DURBIN, J. (2000). "The state space approach to time series analysis and its potential for official statistics (The Foreman Lecture)." Aust. and N. Zealand J. of Statistics. 42: 1-23.

DURBIN, J. (2004). "Introduction to state space time series analysis." State, Space and Unobserved Component Models. Cambridge University Press, Cambridge. 3-25. 20 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

DURBIN, J.; BROWN, R. L.; and COWLEY, E. H. (1970). "New method for seasonal adjustment of unemployment series." Economic Trends. 199: 16-20.

DURBIN, J.; BROWN, R. L.; and COWLEY, E. H. (1971). "Seasonal Adjustment of Unemployment Series." Studies in Official Statistics, Research Series 4. Central Statistical Office, London.

DURBIN, J.; BROWN, R. L.; and EVANS, J. M. (1975). "Techniques for testing the constancy of regression relationships over time (with discussion)." Journal of the Royal Statistical Society, Series B. 37: 149-192.

DURBIN, J. and HARVEY, A. C. (1985). "The effects of seat belt legislation on road casualties. Report on assessments of statistical evidence." Annex to Compulsory Seat Belt Wearing: Report by the Department of Transport. Her Majesty’s Stationery Office, London.

DURBIN, J. and HARVEY, A. C. (1986). "The effects of seat belt legislation on British road casualties: A case study in structural modelling (with discussion)." Journal of the Royal Statistical Society, Series A. 149: 187-227.

DURBIN, J. and KENNY, P. B. (1976). "Seasonal adjustment when the seasonal component behaves neither purely multiplicatively nor purely additive." Proceedings of Census Bureau/NBER Conference (A. Zellner, Editor). U.S. Government Printing Office, Washington.

DURBIN, J. and KENNY, P. B. (1982). "Local trend estimation and seasonal adjustment of economic and social time series." Journal of the Royal Statistical Society, Series A. 145: 1-41.

DURBIN, J. and KOOPMAN, S. J. (1997). "Monte Carlo maximum likelihood estimation for non-Gaussian state space models." Biometrika. 84: 669-684.

DURBIN, J. and KOOPMAN, S. J. (2000a). "Time series analysis of non-Gaussian observations based on state space models from both classical and Bayesian perspectives." Journal of the Royal Statistical Society, Series B. 62: 3-56.

DURBIN, J. and KOOPMAN, S. J. (2000b). "Fast filtering and smoothing for multivariate state space models." J. Time Series Analysis. 21: 281-296.

DURBIN, J. and KOOPMAN, S. J. (2001). Time Series Analysis by State Space Methods. , Oxford. ABRIL: James Durbin: in memoriam 21

DURBIN, J. and KOOPMAN, S. J. (2002). "A simple and efficient simulation smoother for state space time series analysis." Biometrika. 89: 603-616.

DURBIN, J. and KOOPMAN, S. J. (2003). "Filtering and smoothing of state vector for diffuse state space models." J. Time Series Analysis. 24: 85-98.

DURBIN, J. and KOOPMAN, S. J. (2012). Time Series Analysis by State Space Methods. Second Edition. Oxford University Press, Oxford.

DURBIN, J. and MURPHY, M. J. (1975). "Seasonal adjustment based on a mixed additive-multiplicative model." Journal of the Royal Statistical Society, Series A. 138: 385-410.

DURBIN, J. and QUENNEVILLE, B. (1997). "Benchmarking by state space models." Int. Statist. Review. 65: 23-48.

DURBIN, J. and STUART, A. (1951a). "Differences in response rates of experienced and inexperienced interviewers." Journal of the Royal Statistical Society, Series A. 114: 163-206.

DURBIN, J. and STUART, A. (1951b). "Inversions and rank correlations coefficients." Journal of the Royal Statistical Society, Series B. 13: 303-309.

DURBIN, J. and STUART, A. (1954). "An experimental comparison between coders." Journal of Marketing. 19: 54-66.

DURBIN, J. and WATSON, G. S. (1950). "Testing for serial correlation in least square regression, I." Biometrika. 37: 409-428.

DURBIN, J. and WATSON, G. S. (1951). "Testing for serial correlation in least square regression, II." Biometrika. 38: 159-178.

DURBIN, J. and WATSON, G. S. (1971). "Testing for serial correlation in least square regression, III." Biometrika. 58: 1-19.

FELLER, W. (1971). An Introduction to Probability Theory and Its Applications. 2. Wiley, New York.

GHOSH, J. K. (1994). "Higher Order Asymptotics." NCF-CBMS Regional Conference Series in Probability and Statistics. 4. Institute of Mathematical Statistics, Hayward, California. 22 ESTADÍSTICA (2012), 64, 182 y 183, pp. 5-22

HARVEY, A. C. (1989). Forecasting, Structural Time Series models and the Kalman Filter. Cambridge University Press, Cambridge.

HAUSMAN, J. A. (1978). "Specification tests in econometrics." Econometrica. 46: 1251-1271.

MALINVAUD, E. (1964). Statistical Methods in Econometrics. North-Holland, Amsterdam.

PHILLIPS, PETER C. B. (1988). "The ET Interview: Professor James Durbin." Econometric Theory. 4: 125-157.http://www.jstor.org/stable/3532030

SAVAGE, L. J. (1972). The Foundations of Statistics. Dover, New York.

TANIGUCHI, M. (1991). "Higher Order Asymptotic Theory for Time Series Analysis." Lecture Notes in Statistics. 68. Springer-Verlag, Berlin.

Invited paper Received August 2012 Revised June 2013 ESTADISTICA (201x), 64, 182, pp. c Instituto Interamericano de Estad´ıstica

STATISTICAL INFERENCE WITH COMPUTER SIMULATION: AN INTRODUCTION TO BOOTSTRAP ANALYSIS WITH R

PABLO E. VERDE Coordination Center for Clinical Trials, University of Duesseldorf

Moorenstr. 5, D-40225, Duesseldorf, Germany [email protected]

ABSTRACT

Bootstrap methods are a general approach to make statistical inference using computer simulation techniques. They have made possible what was unthinkable some decades ago, like approaching complicated statistical problems where theo- retical analysis was hopeless. Although we live in the information and computer age, these techniques are still not part of the main statistical training. As a conse- quence they are usually neither well understood nor widely used in routinely sta- tistical applications. The aim of this article is to review bootstrap computations with R in a tutorial style. The presentation is written informally omitting most of the technical details and concentrating on the use of bootstrap techniques. Key words

Bootstrap; Standard Errors; Confidence Intervals; Empirical Likelihood; R. RESUMEN

Los m´etodos “bootstrap” son un enfoque general para hacer inferencia estad´ıstica utilizando t´ecnicas de simulaci´onpor computadora. Han permitido hacer lo que hasta hace algunas d´ecadasera impensable, tal como resolver problemas estad´ısticoscomplicados para los cuales una resoluci´onan´alitica te´oricaser´ıaim- practicable. Si bien vivimos en la era de la informaci´ony la inform´atica,estas t´ecnicasno forman parte a´unde la formaci´onestad´ısticacl´asica.En consecuencia, estos m´etodos no son ni bien entendidos ni utilizados rutinariamente en las aplica- ciones estad´ısticas.El objetivo de este art´ıculoes revisar los m´etodos “bootstrap” con el software R en un estilo tutorial. La presentaci´ones informal omitiendo gran parte de los detalles t´ecnicosy concentr´andoseen el uso de estas t´ecnicas.

Palabras clave

Bootstrap; Errores Est´andar;Intervalos de Confianza; Funci´onEmp´ıricade Verosimil- itud; R.

2

1. Introduction

Bootstrap methods were invented by Efron (1979) as a general approach to make statistical inference using computer simulation techniques. The advantage of us- ing computer simulation in statistics is that it can be applied to complicated situations where theoretical analysis is hopeless or where a sample size is too small for a procedure to work properly, or when an on-the-fly statistical solution is required. The editors of Estad´ıstica have kindly invited me to write a tutorial paper on bootstrap methods using R (R Development Core Team, 2012). During the last years R has become the platform of knowledge exchange between people perform- ing statistical analysis, doing methodological research and developing statistical software. R offers an unmatched computer environment to explore and present bootstrap ideas. So, I hope that by using R a data analyst may better understand bootstrap techniques and also be encouraged to use them in practice.

A large amount of statistical research has been produced to explore theoretical properties of the bootstrap methods and to show the wide scope of their appli- cations. The most relevant publications will be cited in the following sections. For the readers interested in learning more about bootstrap we recommend two comprehensive references: the introductory book by Efron and Tibshirani (1993) and the most advanced volume by Davison and Hinkley (1997). Two additional tutorial papers of bootstrap analysis with R are Canty (2002) and Davison and Kuonen (2002). Another introduction to bootstrap calculations with R is pre- sented by Venables and Ripley (2002, page 133). This paper is organized as follows: in Section 2 we will review basic ideas on bootstrap methods, in Section 3 we will present some working examples of boot- strap analysis with R. Bootstrap confidence interval calculations will be covered in Section 4 and bootstrap empirical likelihood in Section 5. We will briefly cover bootstrapping complex data structures, like regression analysis and hier- archical modeling, in Section 6. A summary is presented in Section 7. An R package called bootcamp implements the full R script of the paper. The package is available from CRAN (The Comprehensive R Archive Network) at http://cran.r-project.org/.

2. Basic Ideas of Bootstrap Methods

2.1 Non-parametric Estimation of Standard Errors and Bias

Non-parametric estimation of standard errors and bias are probably the most pop- ular application of bootstrap methods. In this case, our observed data y1, . . . , yn have been modeled as a realization of a random sample drawn from an unknown distribution function F . In the simplest case observations are scalar values, but

3 in principle the sample space Y can be more general, e.g., multivariate data or a mixture of discrete and continues variables, etc. The data are used to estimate a parameter θ = t(F ) of particular interest. For example the median of F is estimated by the median of the data θb = t(Fb). In the non-parametric setup, the distribution function F is estimated by Fb, the empirical distribution function, which puts probability mass 1/n at each y1, . . . , yn and the function θb = t(Fb) is assumed to be a symmetric function of the data, this means it does not depend on the sample order.

Now, once we compute θb we wonder how accurate it is as an estimate of θ. Let σ(F ) denote the standard error of θb, as a function of the unknown sampling distribution F . The bootstrap estimate of σ(F ) is based on the plug-in principle, which replaces F by Fb in σ(F ):

σb = σ(Fb). (1) In many statistical applications there is not a simple expression of σb, the original Efron’s idea was to use Monte Carlo simulation to approximate (1). The bootstrap approximation corresponds to the following algorithm:

1. Assign probability 1/n to each y1, . . . , yn. That is, estimate F by Fb.

∗ ∗ 2. Simulate a bootstrap sample, say y1, . . . , yn from Fb by sampling with re- placement from the data y1, . . . , yn. The asterisk is used to denote a real- ization of a bootstrap sample.

3. Calculate θb from the bootstrap sample, say θb∗. 4. Repeat steps 2 to 3 a large number of times, say B. This generates bootstrap ∗ ∗ ∗ values θb1, θb2,..., θbB.

∗ ∗ ∗ The bootstrap values θb1, θb2,..., θbB are used to make statistical inference for θb. ∗ The standard error σb, is estimated by the variability of θb as:

v u B u 1 X ∗ ∗ 2 σB = t (θb − θb ) , (2) b (B − 1) B (·) r=1 ∗ PB ∗ where θb(·) = 1/B r=1 θbB. In the same way, assessment of bias of θb can be approximated by ∗ bias = θb(·) − θ.b (3)

4

The number of bootstrap samples B controls the Monte Carlo error in the numer- ical approximation of σbB. It is easy to show that σbB converge in probability to σb as B → ∞. In practice B is typically taken between 50 to 200 for estimation of standard errors.

2.2 General Bootstrap Setup

In general we can summarize the bootstrap methods in the following schematic form:

Statistical Model Bootstrap Computations

F → y =⇒ {F,Sb } → y∗ ↓ ↓ ↓ θ = t(F ) θb Analytics → θb∗ & . ↓ . {σ(F ),CI} {σbB, CIc } We wish to estimate the accuracy of statistics θb for estimating a parameter of in- terest θ. Accuracy may include the estimation of standard errors, σbB, confidence intervals, CIc , and so on. The point estimates Fb for F and a simulation proce- ∗ ∗ dure S deliver the bootstrap data {y1, . . . , yn} which are used to calculate the ∗ ∗ ∗ bootstrap replications θb1, θb2,..., θbB. A bunch of statistical procedures, that we called Analytics above, are applied to the bootstrap replications to get accuracy measures. In practice, the success of the bootstrap analysis may depend on many factors: 1. The choice of the model Fb which mimics the hypothetical model F . In sim- ple applications like those presented in Section 3 this may not be a problem, but for complex data structures like regression or hierarchical modeling the choice of Fb is an issue. In Section 6 we will present two examples. 2. By construction the distribution of θb∗ is a discrete distribution, however the distribution of θb is usually continuous. Therefore, we should decide which simulation procedure S we use to make the distribution of θb∗ similar to the sampling distribution of θb. In Section 3 we will show that the smooth bootstrap can mitigate this problem. 3. The presence of outliers influences bootstrap results. Outliers in the boot- strap behave differently than in estimation. Even for robust estimates the bootstrap distribution can be affected. A graphical sensitivity analy- sis called Jackknife-after-bootstrap (Efron, 1992) is presented in Section 4 to assess the influence of outliers in the bootstrap distribution.

5

4. The smoothness of θb = t(Fb) is particularly important in confidence intervals construction. As well as the use of θb∗ − θb as pivotal quantity. In Section 4 we give a worked example using double bootstrap method to analyze these issues in the construction of confidence intervals. There is no general solution to all of these issues, but there are a series of diagnostic techniques that help us to understand the use of bootstrap methods in a particular problem. We are going to illustrate these techniques in the following sections.

3. Bootstrapping in R R has powerful and easy to use functions that simplify the use of bootstrap methods in practice. One is the function sample(x), which takes a sample, either with or without replacement, from the elements of a vector x. For example, > set.seed(123) > sample(1:10, size = 5, replace = TRUE) [1] 3 8 5 9 10

takes a random samples of size 5 with replication from the set of integers of 1 to 10. The other useful function is replicate(n, expression), which replicates and evaluates n times the argument expression. For example, > set.seed(123) > replicate(10, median(rexp(10, rate=1))) [1] 0.315 0.536 1.258 0.960 1.206 1.000 0.290 0.555 1.451 0.795 replicates 10 times a random sample of size 10 from an exponential distribution and calculates the median for each replication. These two functions can be used for our own implementation of a bootstrap analysis. There are two main packages in R to make bootstrap analysis. One is the boot package, which is linked to the volume of Davison and Hinkley (1997) and the other package is bootstrap which is associated to the introductory book by Efron and Tibshirani (1993). In general the package boot is a more flexible implementation, but we are going to use both packages for confidence intervals computations.

Example: Inference for the Median

Table 1 presents the results of a fitness test performed on 24 professional athletes.

The outcome measurement is the maximal oxygen uptake in ml/kg/min (VO˙ 2 max). This parameter is considered the golden standard in cardiovascular fitness. As

6 a simple example of bootstrap computations, suppose that we are interested in median value of VO˙ 2 max between professional athletes. The estimated median

˙ Table 1. Maximal OXYGEN UPTAKE in ml/kg/min (VO2 max) of 24 Professional Athletes (Source: Olympic Training Center Buenos Aires, Argentina) 62.90 56.50 43.30 61.50 45.90 58.60 56.60 57.00 63.80 63.20 63.70 40.00 57.00 51.00 61.00 52.90 60.00 63.00 50.50 50.50 53.80 62.80 58.80 58.10

˙ VO2 max from Table 1 is 58 ml/kg/min. How accurate is this estimator? We use the function sample() to make a bootstrap analysis of this problem:

> #Boostrapping with sample() function > mvo2 <- c(62.9, 57, 56.5, 51, 43.3, 61, 61.5, 52.9, 45.9, 60, 58.6, 63, 56.6, 50.5, 57, 50.5, 63.8, 53.8, 63.2, 62.8, 63.7, 58.8, 40, 58.1) > > set.seed(123); m <- 5000; b.res.1 <- numeric(m) > for(i in 1:m) b.res.1[i] <- median(sample(mvo2, replace=T) ) > > #Bias measure > mean(b.res.1 - median(mvo2)) [1] 0.13 > > # Standard deviation of the median > sd(b.res.1) [1] 1.5

The estimated bias of 0.13 is very small for this medical problem and the stan- dard deviation of 1.5 indicates a very accurate estimation of the median. We can compare these results with those based on large-sample techniques. The asymptotic distribution of the sample median θb is normal with standard devia- tion σ = 1/p4nf 2(θ).

We estimate σ by assuming that the data in Table 1 follows a normal distribution, in R: > dnorm(58, mean(mvo2), sd(mvo2)) [1] 0.058 > 1/(2*sqrt(24)*0.058) [1] 1.8

7 which confirms that bootstrap and large-sample theory give similar results in this problem. The left panel of Figure 1 presents the bootstrap distribution of θb∗ which

Figure 1. Bootstrap Distribution of the Median Maximal Oxygen Consumption in ml/kg/min of 24 Professional Athletes. Left Panel: Bootstrap Distribution by Resampling Each Observation With Probability 1/n. Right Panel: Bootstrap Distribution by Smoothing the Observations Probability With a Normal Kernel With Bandwidth of 2. Data Source: Olympic Training Center Buenos Aires, Argentina.

Nonparametric bootstrap Smoothed bootstrap

0.8

0.3

0.6

0.2 0.4 Density Density

0.1 0.2

0.0 0.0 50 52 54 56 58 60 62 52 54 56 58 60 62 b.res.1 b.res.2 is clearly non-normal and affected by discreteness of the empirical distribution of the data. The last issue can be problematic for confidence interval computations. One remedy is to smooth the sample probability of each data point, which is known as the smoothed bootstrap. We can do this by using a normal kernel with bandwidth of 2 as follows:

> # Smooth bootstrap > b.res.2 <- numeric(m) > for(i in 1:m) b.res.2[i] <- median(sample(mvo2, replace=T) + rnorm(n=24)*.5)

8

> #Bias measure > mean(b.res.2 - median(mvo2)) [1] 0.13 > > # Standard deviation of the median > sd(b.res.2) [1] 1.5 the bias and standard errors estimates are identical to the non-parametric boot- strap. The bootstrap distribution presented on the right panel of Figure 1 is now corrected by discreteness.

Example: Are the Data Normally Distributed? Assessing normality of a data set is one of the most common tasks in data analysis. Usually, a qq-plot is built to display the possible deviations of a data set with respect to the standard normal distribution. Alternatively, we may ask which are the consequences of lack of normality if we are going to use our data analysis in a predictive way, i.e., what can we expect about new data if we assume normality?

Parametric bootstrap can be used to assess this type of question. First, we sim- ∗ ∗ ulate a bootstrap sample y1, . . . , yn from a normal distribution with meany ¯ and standard deviation σ. Second, we estimatey ¯∗ and variance σ∗ from the bootstrap b b ∗∗ ∗∗ sample. Then, a predictive bootstrap sample is generated by simulating y1 , . . . , yn ∗ ∗ from a normal distribution with meany ¯ and standard deviation σb . The pre- dictive bootstrap sample can be used to investigate particular features of the original data. We define the following features between the observed data y and the predictive data y∗∗:

T ∗ = min(y∗∗),T ∗ = max(y∗∗),T ∗ = q (y∗∗) − q (y∗∗) 1 2 3 75 25 and ∗ ∗∗ ∗ ∗∗ ∗ T4 = |q90(y ) − y¯ | − |q10(y ) − y¯ |. These measures are compared with the corresponding values based on the observed data: T1 = min(y),T2 = max(y),T3 = q75(y) − q25(y) and T4 = |q90(y) − y¯| − |q10(y) − y¯|. Here T1 and T2 measures how extreme a new observation could be, T2 measures the variability of a new sample and T4 measures asymmetry. The parametric double bootstrap for this example is implemented as follows:

9 min.y <- max.y <- asy1 <- asy2 <- inter.q <- rep(0,1000) for(b in 1:1000) { # Parametric bootstrap data y.boot <- rnorm(length(mvo2), mean = mean(mvo2), sd = sd(mvo2)) y.pred <- rnorm(length(mvo2), mean = mean(y.boot), sd = sd(y. boot))

# Data features min.y[b] <- min(y.pred) # min max.y[b] <- max(y.pred) # max

# Asymmetry predicted data asy1[b] <- abs(quantile(y.pred, prob=0.90) - mean(y.pred)) - abs( quantile(y.pred, prob=0.10) - mean(y.pred)) # Asymmetry original data asy2[b] <- abs(quantile(mvo2, prob=0.90) - mean(y.pred)) - abs( quantile(mvo2, prob=0.10) - mean(y.pred)) # Variability inter.q[b] <- quantile(y.pred, prob=0.75) - quantile(y.pred, prob=0.25) }

Figure 2 presents the predictive analysis. For example, the upper left panel shows the analysis of the predictive minimum, the vertical line indicates that the ob- served value is located almost at the center of the predictions. All in all, normality looks reasonable for the VO˙ max data of Table 1, but one warning is displayed 2 by the upper right plot which predicts future VO˙ 2 max values that may be not realistic for this population of athletes. If this were an important aspect then a normal distribution should be replaced by a model which gives less chance to ˙ predict large values of VO2 max.

4. Bootstrap Confidence Intervals In the construction of a confidence interval we want to asses the uncertainty about a scalar parameter value θ, by a random interval, say C1−2α with nominal coverage 1 − 2α such that if θ is a true parameter value, then

Prob [θ ∈ C1−2α] = 1 − 2α. (4) There is a small number of cases in applied statistics where exact confidence inter- vals can be calculated, e.g., the use of the t-distribution to calculate the confidence

10

Figure 2. Predictive Bootstrap Analysis. Top Panels: Predictive Bootstrap Distribution for the Minimum on the Left and for the Maximum on the Right. The Vertical Line Shows the Observed Value. Lower Panels: Predictive Bootstrap Distribution for the Range on the Left and Asymmetry on the Right

Minimum y* Maximum y* Frequency Frequency 0 10 20 30 40 50 0 10 20 30 40 50 60

25 30 35 40 45 50 60 65 70 75 80 85

min.y max.y

Variability y* Asymmetry

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●●●● ●● ●● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ●● ●● ●●●●●●● ● ● ● ● ●●● ● ●● ●● ●●●● ● ● ● ●●●●●● ● ● ● ● ● ● ●●●●●●●●● ● ● ●●● ● ●● ●●● ● ● ● ● ● ● ●●● ● ●● ● ● ●● ●● ● ● ● ● ●●●● ● ● ● ●●●●● ● ●● ●● ● ●● ● ● ● ● ● ●●● ●● ●● ●●●●●●● ●●● ● ● ● ● ● ● ● ●●●● ●● ●●● ●●●●● ●● ●●●● ● ●● ●● ● ● ● ● ● ● ●●●●● ●● ●●●● ● ●●●●●●● ●●●●● ●● ●● ● ● ●● ● ● ● ● ●● ●● ●●●● ●● ● ●● ● ● ●●● ●●●● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ●●●● ●●●●●●●● ●●●●●● ● ●●●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●●●● ● ●●●●● ● ●●●● ● ●●● ●● ● ● ● ●● ●●●●● ●●●● ● ●●●● ●●● ●●● ● ● ● ● ● ● ●● ● ● ● ●●●●●●●●●●●●●●●● ●●● ●●● ● ●● ●● ● ● ● ● ●●● ● ● ●● ● ●● ●●●●● ●● ●● ●● ●● ●● ● ●● ●●● ● ● ● ● ● ●●● ●●●●●●●● ● ● ● ● ●● ●●●●●● ● ●● ●● ●●●● ● ● ● ● ● ●●● ●● ●● ● ●● ●●●●●●●●● ●● ● ● ● ● ● ● ● ●●● ●●● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ●●●● ●●● ● ●●● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ●● ● ●●●●● ●● ● ● ● ● ● ● ● ●● ●● ● ●●●●● ● ●●●● ● ● ● ● ● ● ●●● ●● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● Frequency ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●● ●● ● ● ●●● ● ● ●●● ●● ●●●●● ● ●● ●●● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● Asymmetry original data ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0 20 40 60 80 100 0 2 4 6 8 10 12

5 10 15 4 6 8 10 12 14

inter.q Asymmetry predicted data

interval of the mean. In most applied problems these exact results are not possi- ble and confidence intervals are calculated approximately. The use of bootstrap methods is particular convenient for this task. They try to automatically encap- sulate sophisticated statistical thoughts that sometimes provide good solutions to complicated statistical problems.

Example: Confidence Intervals for the Correlation Coefficient

Table 2 presents 20 measurements of newborn infants with low weight (< 1.500g). These data were kindly provided by Professor Hoehn at the University Clinic in Duesseldorf. They were used to determine non-invasive parameters in the treatment of a common functional cardiovascular disease in pre-term infants. We use these data to illustrate different types of bootstrap confidence intervals using 11 the package boot. Now, suppose that we are interested in calculating bootstrap

Table 2. Measures of 20 Neonates: The Variable Weight is Measured in Grams and Concentration of Urinary Protein Level of NGAL is Presented in Logarithmic Scale. Data Source: University Clinic Dusseldorf,¨ Germany

weight 1210 815 1120 700 660 680 520 l.NGAL 9.43 10.36 10.04 12.21 11.94 12.21 11.09 weight 573 710 1415 1090 1230 1340 495 l.NGAL 13.09 12.56 9.98 12.41 11.38 6.91 12.96 weight 1140 495 870 1100 980 850 l.NGAL 9.74 11.40 11.37 8.87 11.90 6.91 confidence intervals for the correlation coefficient between weight and l.NGAL. The first step to make bootstrap calculations with the package boot is to write the statistics of interest in the sampling form: # Bootstrap function: boot.cor <- function(data, ind) cor(data[ind, ])[1,2]

The first argument of the function boot.cor is the R data frame containing the observations, the second argument is the rows index ind. The function boot() is used to generate the bootstrap replicates by combining the data frame dat.b, containing the data of Table 2, the function boot.cor and by indicating the number of simulations R=10000: > library(boot) > boot1 <- boot(dat.b, boot.cor, R = 10000) > boot1 ... Bootstrap Statistics : original bias std. error t1* -0.57 -0.0071 0.15

The object boot1 belongs to the class boot and can be used to make further bootstrap analysis. For example the function boot.ci calculates different types of bootstrap confidence intervals: > boot.ci(boot1, conf = c(0.9, 0.95), type = c("norm", "perc", "bca")) ... Intervals : Level Normal Percentile BCa 90% (-0.81, -0.32 ) (-0.80, -0.32 ) (-0.77, -0.25 ) 95% (-0.86, -0.28 ) (-0.83, -0.26 ) (-0.80, -0.19 ) 12

In this example we have calculated intervals which are only based on the bootstrap values of θb. We can see that the Normal and Percentile methods gave similar results, but the BCa interval differs from the others. We can graphically appreciate this correction in Figure 3. In the next subsections we review some technical details on these confidence intervals.

Figure 3. Bootstrap Distribution of the Correlation Coefficient Between Weight and Urinary Protein Level of NGAL in 20 Newborns. The Dashed Vertical Lines Correspond to the 95% CI Based on the Percentiles of the Bootstrap Distribution. The Solid Vertical Lines Display the Correction Introduced by the BCa Method

Bootstrap distribution Frequency 100 150 200 250 50 0

−0.8 −0.6 −0.4 −0.2 0.0

theta.s

The Bootstrap Normal Interval

The Normal distribution confidence interval is the most simple approach. In this ∗ ∗ procedure we assumed that the distribution of θb1,..., θbR is perfectly normal with,

∗ 2 θbr ∼ NOR(θ,b σb ), (5) then a confidence bound with level α is given by

(α) θbNOR[α] = θb+ z σ.b (6)

(α) (0.95) Here, z is the 100αth percentile of a normal deviate, e.g., z = 1.645 and σb is (2). 13

Clearly this method is not suitable for the correlation coefficient example: We can see in Figure 3 that for a sample size of n = 20 the bootstrap distribution is not normal. Furthermore, the method assumes that θb∗ − θb is a pivotal quantity, i.e. its distribution does not depend on θ. Figure 5 in bootstrap-t confidence intervals shows that this is not the case.

The Bootstrap Percentile Interval

The Percentile confidence interval is a more natural way to construct a confidence ∗ ∗ interval for θ based on the empirical distribution of the values θb1,..., θbB:

n ∗ o #θbb ≤ c Gb(c) = . (7) B The α confidence bound is defined as −1 θbPERC[α] = Gb (α), (8) which corresponds to the (B × α)th value in the ordered list of B replications of ∗ θb . For example if α = 0.05 and B = 2000, θbPERC[0.05] corresponds to the 100th ordered value of bootstrap replications. If B × α is not an integer, we take the kth largest value such that k ≤ (B + 1)α. The percentile method generalizes the normal confidence interval to allow asym- metry in the distribution of θb. It is based on the assumption that there is a monotonic increasing function φ = m(θ) that perfectly normalizes the distribu- tion of θb: 2 φb − φ ∼ NOR(0, σφ). (9) Then under this scale a confidence bound of level α is (α) φb[α] = φb + z σφ, (10) which back transforming to the original scale of θ with m−1(·) gives

−1 −1 (α) θbPERC[α] = m (φb[α]) = m (φb + z σφ). The breakthrough of the percentile method is that in practice we do not need to know m(·). This transformation is implicitly constructed by computational brute force from the bootstrap values θ∗. The percentile method has two important properties. First, it is transformation- invariant, that is the confidence interval for a parameter ψ resulted from a mono- tonic transformation g(θ) = ψ is the percentile confidence interval for θ mapped by g(θ):

(ψbPERC[α], ψbPERC[1 − α]) = (g(θbPERC[α]), g(θbPERC[1 − α])). 14

Second, the percentile interval is range-preserving, that is the confidence bounds fall within the range of values where θ is defined. This method, however, does not correct for bias and it may be sensitive to in- fluence observations or outliers. Figure 4 displays a sensitivity analysis called jackknife-after-bootstrap (Efron, 1992) for the bootstrap distribution of the cor- relation coefficient of Table 2. This plot shows the sensitivity of the percentiles of the bootstrap distribution to deletion of individual observations. Figure 4 is produced as follows: jack.after.boot(boot1, main = "Jackknife-after-bootstrap")

The horizontal axis represents a scale of influence with mean zero and standard deviation one. The vertical axis represents the bootstrap distribution centered at the estimated value θb. The connected sawed lines show the quantiles estimates by removing each observation in turn. In this analysis we can spot out that observation number 20 influences the bootstrap calculations.

Figure 4. Jackknife-after-bootstrap Plot. This Plot Shows the Sensitivity of the Percentiles of the Bootstrap Distribution to Deletion of Individual Observations

* * * *** * * * * ** * * * * * * * * * * ***** * * * 0.2 * * * * * * * * * * * ***** * * * ** * * * * * *

0.0 * * * * ***** * * * ** * * * * *

* * * * * * * * ***** * * ** * * * * * * * * * * ***** * ** * * * * * −0.2 * * *** * * * * * * ** * * *

5, 10, 16, 50, 84, 90, 95 %−iles of (T*−t) * *

13 4 3 19

14 6 17 7

8 15 10 12

1 9 2 11 −0.4 18 5 16 20

−2 −1 0 1 2 3

standardized jackknife value

The BCa Interval

BCa stands for bias corrected and accelerated. This bootstrap confidence interval has been proposed by Efron (1987) to improve the performance of the percentile confidence interval. The BCa interval corrects the percentile method when the 15 estimate θb is biased and when its standard error σb depends on the value of θb. Biased estimates with non-constant standard errors are commonly encountered in applied problems (odds ratios, correlation coefficients, etc.), making the BCa method particularly attractive for practical purposes.

The BCa method is transformation-invariant and range-preserving like the per- centile method, but their limits are second-order accurate and they are also second- order correct. By second-order accurate we mean that for a nominal confidence level of α we expect that, in average, the confidence level in repeated samples has an error of O(1/n). Secondary exactness means that the difference between the 3/2 theoretical exact confidence limit and the estimated one differs by Op(1/n )( Hall (1988)).

The BCa interval has a peculiar model construction which is far from being intu- itive, but it is well motivated by the transformation theory that we describe in this section. Just as the percentile method, the BCa postulates the existence of a monotonic increasing function φ = m(θ) that perfectly normalizes the sampling distribution of θb, with φb = m(θb) having distribution:

2 φb ∼ NOR(φ − z0 σ(φ), σ(φ) ), σ(φ) = 1 + aφ. (11)

Here the constant z0 plays the roll of bias correction factor and is estimated from the bootstrap distribution as: ! #θ∗ ≤ θb z = Φ−1 b , (12) b0 B + 1

−1  ∗  where Φ (·) is the standard-normal quantile function and #θb ≤ θb is the num- ber of bootstrap estimates that are lower than the original estimate θb. The coefficient a is a skewness correction factor called acceleration constant, which is estimated as 3 Pn  ¯ i=1 θb(−i) − θ a = , (13) b  23/2 Pn  ¯ 6 i=1 θb(−i) − θ

¯ where θb(−i) is the value of θb when the ith observation is omitted and θ is their average value. We can directly calculate a and z0 for our correlation coefficient running example: > # estimation of z0 > z0 <- qnorm(sum( boot1$t < boot1$t0 )/ 10001) > z0 16

[1] 0.126 > > # centered influence values > uu <- empinf(data = dat.b[1:20, ], statistic = boot.cor, + type = "jack", stype="i") > # estimation of a > acc <- sum(uu * uu * uu)/(6 * (sum(uu * uu))ˆ1.5) > acc [1] 0.035 >

The constant a is typically |a| < 0.2 and the same applies to z0 (Efron, 1987, Section 3). So the estimated values for our example show that both parameters introduce an important correction in the confidence interval computation.

Under the previous conditions the α level confidence limit for the BCa method is given by:   z + z(α)  θ [α] = G−1 Φ z + b0 . (14) bBCa b b0 (α) 1 − ba (zb0 + z ) Formula (14) looks intimidating at first sight, but we can see that for the case z0 = a = 0 the confidence limit defined by (14) is

−1 θbBCa [α] = Gb (α) the 100αth Percentile of the bootstrap distribution. If in addition Gb is perfectly normal, then θ [α] = θ + z(α)σ, bBCa b b the Normal interval.

Bootstrap-t Intervals

Bootstrap-t confidence are conceptually simple, its name comes from the analogy with the Student’s t-statistic. This interval needs an estimate of the standard error ∗ ∗ σb of the statistic θb for each bootstrap sample. It is based on the studentized statistic ∗ ∗ θb − θb T = ∗ . (15) σb The bootstrap distribution of T ∗ is used to estimate the distribution of

θb− θ T = , (16) σb 17 which is unknown in most situations. Usually these pivotal quantities are pre- sented with n1/2 in front of the right-hand equation, here this constant is absorbed ∗ by σb and σb respectively. By analogy of the Student-t confidence interval, the end points of a 1 − 2α bootstrap-t confidence interval are defined as

(1−α) (α) θbT [α] = θb− Tb σ,b θbT [1 − α] = θb− Tb σ.b (17)

(α) ∗ Here Tb is obtained by αth ordered value of the simulated Tr for r = 1,...,R. (0.025) ∗ For example if R = 1000 and α = 0.025 then Tb is the 25th ordered Tr . This method was originally proposed by Efron (1979), but poor numerical behav- ior reduced its interest. Babu and Singh (1983) gave the first proof of second-order accuracy for the bootstrap-t. Hall (1988) showed that the bootstrap-t limits are second-order correct and revived its interest. Davison and Hinkley (1997) present extensive use of this technique in several applied problems. Venables and Ripley (2002, p.137) recommend its use in general applications.

The bootstrap-t is computationally very intensive. It requires that we estimate ∗ σb for each bootstrap sample. If we use a second level bootstrap to calculate ∗ ∗ σb with R2 bootstrap replications, then the number of evaluations of θb will be R2 × R. This computational burden is one of the drawbacks of this method. One remedy is to use the jackknife estimate of σ∗ in each bootstrap sample (see b below). Another drawback is that, unlike the percentile method and the BCa, this method is not transformation invariant. More dangerous in practice, the bootstrap-t algorithm could be very unstable. Its numerical problem is produced ∗ ∗ by the fact that σb could be very small compared to θb − θb, this artifact produces an artificially heavy tailed distribution of T ∗ resulting in a very long confidence interval. This is particular dangerous in situations where the confidence limits must be bounded to the range where θ is defined.

Example: Bootstrap-t Interval for the Correlation Coefficient

In order to apply a bootstrap-t confidence interval in R we need to modify the ∗ ∗ resampling function to deliver in each bootstrap sample θb and σb . In this case, the resampling function is: # Bootstrap function for t-intervals cor.boot.t <- function(data, ind) { # Calculate theta in each bootstrap sample theta <- cor.boot(data, ind) # Calculate the Jackknife SE for theta in each bootstrap sample

18

var.theta <- var.linear( empinf(data = data[ind, ], statistic = cor.boot, type = "jack", stype="i") ) return(c(theta, var.theta)) }

This function calls the var.linear function in the boot package, which esti- ∗ mates σb in each sample by using the Jackknife method. The empinf function calculates the empirical influence values for a statistic applied to a data set.

Now we can directly apply the boot function to calculate the bootstrap-t confi- dence interval:

> boot2 <- boot(dat.b[1:20,], boot.cor.t, R = 10000) > boot.ci(boot2, conf = c(0.9, 0.95), type = c( "bca", "stud")) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS ... Intervals : Level Studentized BCa 90% (-0.816, -0.044 ) (-0.770, -0.250 ) 95% (-0.881, 0.091 ) (-0.800, -0.185 )

We can see that the length of the bootstrap-t is substantially greater than the BCa. The length of the bootstrap-t interval could be a dangerous feature in practical applications, where confidence bounds may fall outside the range of values where θ is defined.

Example: Bootstrap-t Intervals and Variance Stabilization

Now, the 95% CI based on bootstrap-t interval covers the zero correlation, the question is how much can we trust this result? One diagnostic tool to investigate the validity of this interval in a particular problem is the variance plot. This plot ∗ ∗ shows the relationship between θb and σb for each bootstrap sample.

The left panel of Figure 5 shows the resulting variance plot for this example. ∗ ∗ Clearly, there is a positive association between θb and σb , with a correlation of 0.71. The bootstrap computations have uncovered a problem with the bootstrap- t method, which is that T ∗ is not an approximate pivotal quantity of θ. The previous analysis suggests that if we have a function h(·) where, h(θb∗) − h(θb) T ∗ = , (18) pVar(h(θ∗))

19

Figure 5. Variance Plot of the Bootstrap Distribution. Left Panel: Estimated Variance Against Estimated Value in Each Bootstrap Sample. The Scatter Shows a Negative Correlation Between Variance and Estimate. Right Panel: Variance Plot of the Bootstrap Values After Applying a Logistic Transformation of the Estimate and its Variance

● 10 10

● ● ●

● ● ● ● ● ● ● ● ● ● ● 8 8 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ● ● ● ● ● ● ●●● ●●● ● ● ● ●●● ●● ●●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●●●●● ●●●●● ●● ● ● ● ● ● ● ● ● ●● ● ●●●●● ●●●●● ●● ●●● ●●●● ● ●● ● ● ● ●●●●●●● ●● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ●●● ●●●●●● ● ● ● ● ● ● ● ● ●●● ● ●●● ●● ● ●● ● ● ● ●● ● ●●●● ●●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ●● ● ● ● ● ●●●●● ● ●● ●●● ● ●●●●●●● ●●● ●●●● ● ● ● ● ●● ● ●●● ● ●●●●●●●●● ●●● ● ●● 6 ● ● 6 ● ● ●●● ●● ● ●● ● ●●●● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ●●●●●● ● ● ● ● ● ● ● ● ● ●● ●●●●●● ●● ●●● ●●●●●●●● ●● ●●● ●● ● ● ●● ●●●●●●●●●● ●●●● ●●●●●● ● ● ● ●● ● ● ● ●● ●●●● ● ● ● ●● ● ●● ●●● ● ●●●●● ●●● ●● ● ● ● ● ● ●● ●●●● ●●● ●●●●●● ●● ●● ● ●●● ●● ● ●● ● ●● ●● ●●● ●●●●●●●● ●●●● ●●●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●●●● ● ● ● ● ● ● ●● ● ● ●●● ●●●●●●● ●●●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●●●●●●●●●●● ●●●● ● ●● ●●● ● ● ● ● ● ● ● ● ●●●●●●● ●●●● ●● ●●●●● ●●● ● ● ● ● ● ● ●● ● ●●●●●●● ●●●●● ● ●● ●●●●●●●●● ●● ●● ●● ● ●● ● ● ●● ●●●● ● ● ● ●● ●●● ●●●●●●● ●●● ● ● ● ● ● ●●●●●●●●●●●●● ●● ●● ●●●●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●●●●● ● ● ●●● ●●●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●●●●●●●●● ●●●● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●●● ●●●●●●● ●● ● ● ●● ●● ● ● ● ● ● ●● ●●●●●●● ● ●● ●● ●●●● ●●●●●●● ● ● ● ●●● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●●● ●● ●●●●●● ● ●●● ● ●●● ●●●●●● ● ●● ● ● ● ●● ● ●● ● ● ● ● ●●●● ● ● ●●● ● ●●●●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●●●●●●● ●●● ●●● ●●●● ● ●●●●●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●●● ● ●●●● ● ●●●●●●●●●●●●●●● ●● ● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ● ●● ●● ● ●●●● ●● ●●●●●●●●●●●●●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●●● ●● ●●● ●● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ●●●●●● ●● ●●●●● ●●●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ●● ● ●● ●●● ●● ●● ●● ●● ● ● ● ●● ● ● ●● ● ●●● ●● ●●●● ● ●● ● ●●● ●● ● ● ● ● ●●●● ● ●● ● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ● ●● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ●●● ●● ●● ●● ●● ●● ●●●●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●●● ● ● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●● ●● ●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●●● ●● ●●●● ●● ●●● ● ●●● ● ●● ●● ● ●● ● ●● ● ●●●●● ●●● ●● ● ● ● ● ● ● ● ●●● ●● ● ●●●●● ●●● ●● ● ●● ●● ● ● ● ●● ● ●●●●●● ●● ●● ● ● ●● ●● ● ●●● ●●● ● ●● ● ●● ● ● ● ●● ●●●●● ● ● ● ●●● ●●●●●● ●●●● ● ● ●●● ● ● ● ●●● ● ●●● ● ●● ● ●●●● ● ● ● ● ● ●●● ●●● ●●●●●●●● ●●● ●● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ●●●● ●● ● ● ●●● ●● ● ● ●●●●● ●●● ● ● ● ●● ●● ●● ● ● ● ● ●● ●●●● ●● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ●● ●●●●●●●●●●●●● ● ● ● ●●●●● ● ● ● ● ● ●● ● ●● ● ●● ●● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ●●●●●●●●● ●● ●●●●●● ●●●●●● ● ● ● ● ● ● ●● ● ●● ●●● ● ● ● ● ●● ● ● ● ●● ● ●● ●●●●●●●●● ●●●●●●● ●●●● ●● ●●●●●●● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●●●●●● ●●●●● ●●●●● ● ●●●● ●●●●●●● ● ●● ●● ● ● ● ●● ●●● ● ● ● ●●●● ● ●●●● ●●● ● ●●●● ● ● ● ● ● ● ● ●● ●●● ● ● ●●●● ● ●●● ● ●● ● ●● ● ● 4 ● 4 ●●●● ●● ●●● ●● ● ● ●●● ●●●●●●●●●●● ● ●● ● ●● ●● ● ●● ● ● ● ● ●● ● ● ●● ●●●●● ●●●●●●●●●●●●● ●● ●●●●● ● ●● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●●●●●●● ●●● ●● ●●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Var(theta.star)/Var(theta) ● ●●● ●● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●●●●●●●●●● ●●●●● ●●● ●● ● ● ●●● ●●● ● ● ● ● ●●● ●● ●●● ● ● ● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●● ● ● ● ● ● ● ● ● ●● ●● ● ●●● ● ● ● ● ●● ● ●●● ●●●●●●●●●●●●●● ● ●●●●● ●●● ●● ●● ● ● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ● ●● ● ●●●●● ●● ●●●●●●●●●●● ●● ●● ●● ●● ● ● ● ●● ●● ●● ● ● ● ● ●● ● ● ●● ●●●● ●●●●●●●●●●●●●●●●● ● ●●● ● ●●●● ● ● ● ● ● ●● ●●●●●● ● ●● ● ● ● ● ●● ●●●●●●●● ● ●●●●● ●● ● ● ●● ● ● ● Var(h(theta.star))/Var(h(theta)) ● ●● ● ● ● ● ● ●● ●● ●●●●●●●●●●●●●●●● ● ●●● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●●● ●●●●●●● ●●● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●●●● ●● ● ●●●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●●● ●●●●● ●●● ●●● ●●●● ● ●●● ● ● ● ● ● ● ● ● ●● ● ●● ●●●● ●●●●●● ●●●● ●●●●●●●●●●●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●●●●●●●●●●● ●●●●●●●●● ●●● ●● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●●●●●●●●●● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ●●●●●●●●●● ●●●●●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●●●●●● ●●●● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ●●●●● ●● ●●●●● ● ● ●● ● ● ● ● ● ● ●●●● ● ●●●●● ●●●●●●● ● ● ● ● ● ● ● ●● ●●●● ●● ●●●●● ● ● ● ● ● ● ●●●●●● ● ●●●● ●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ●●●●●● ●●●●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ●● ● ● ●● ●●● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ●● ●●●●●●●● ●●●● ● ●●●●●●● ● ● ● ● ● ● ● ●●●● ●● ●● ●●● ●●●● ● ● ●● ● ●●● ●●●●●● ● ● ● ● ●● ● ● ●● ●● ● ●● ● ●●●●●● ● ● ● ● ● ● ● ●●●● ●●●●●●● ● ●●●● ●●●● ● ●● ● ● ● ● ● ● ●●●● ● ● ●●●● ● ● ● ●●●●●●● ●● ●● ●●●●● ●●● ● ● ● ●● ● ● ●●●●●●●●●● ● ●● ● ● ● ●● ● ●●●● ●●●● ● ●● ●● ●●●● ● ● ● ●●●●●● ● ●●● ●●● ●● ● ● ●●●●●●●● ● ●●●●● ● ●●●●●● ●●● ● ● ● ● ● ● ●●●●●●●● ●● ●● ●●● ● ● 2 ● ● ● ●●●●●● ● ● ● 2 ● ●●● ●●●●● ●●●●● ● ● ●●●●●● ●● ●● ●● ● ● ●●● ●● ● ● ●●● ●● ● ●● ● ●●● ● ● ● ● ● ● ● ●●●● ●●●●●●●●●●●●● ● ● ●●●●●●● ●●●●●●● ●● ● ●●●●●●●●●●●●● ● ● ● ● ● ● ●●●●●●●●● ● ●●●● ● ●●●● ● ●●● ●● ●●● ●●● ●●● ● ● ●● ● ●● ●●●● ● ● ●● ● ● ● ● ● ● ●●●●●● ● ● ● ●●● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● 0 0 −0.8 −0.6 −0.4 −0.2 0.0 −1.5 −1.0 −0.5 0.0

theta.star h(theta.star)

does not depend on θ then we can improve the construction of this confidence interval. In this case the α confidence bound based on T ∗ is calculated as  q  −1 (1−α) θ[α] = h h(θb) − Tb Var(hd(θ)) (19)

(1−α) where Tb is the (1 − α)th ordered value of the simulated T , but this time calculated in the scale of h(·). These results are backward transformed by h(·)−1 to the scale of θ.

The right panel of Figure 5 presents the variance plot after applying Fisher’s z-transformation to θ∗, 1 1 + θ∗  h(θ∗) = log 2 1 − θ∗ we can see that this transformation has a variance stabilization effect in this case, the correlation of the scatter is now -0.088. To calculate the bootstrap-t confidence intervals under the transformation h(·) we define three functions: the transformation h(·), the inverse transformation h(·)−1 and the first derivative of h(·):

20

# Transformation function f.tr <- function(x)0.5*log((1+x)/(1-x))

# First derivative f.tr. <- function(x) 2/((1+x) (1-x)) * # Inverse transformation function inv.f <- function(x) (exp(2*x) - 1 )/( exp(2*x) + 1) then, we can directly use the function boot.ci with the following arguments: > # Results with transformation > boot.ci(boot2, h = f.tr, hdot = f.tr., hinv = inv.f, conf = 0.95, type = c( "bca", "stud")) ... Level Studentized BCa 95% (-0.827, -0.001 ) (-0.799, -0.185 ) Calculations on Transformed Scale; Intervals on Original Scale

The bootstrap-t intervals are automatically calculated in the scale of h(·) and presented in the scale of θ. The effect of the transformation in this case was to shorten the length of the intervals and to ensure the bounds values are in the scale of θ.

Example: Automatic Computation of the Variance Stabilization Function

One major problem is that the variance stabilization function h(·) is unknown, the Fisher-z transformation is a good candidate when the data is multivariate normal, but any deviation from normality may affect h(·).

One way to reveal the shape of h(·) is by plotting each bootstrap replicate θb∗ ∗ against its linear approximation θbLin in each bootstrap sample, any deviation of linearity is a hint of the shape of h(·). The function linear.approx() in ∗ boot implements the non-parametric delta method to calculate θbLin (Davison and Hinkley, 1997, Sections 3.10.2), in our example we have: # Linearity of the correlation L.reg <- empinf(boot.out = boot2, type = "reg") plot(boot2$t[,1] , linear.approx(boot2, L.reg), col="magenta", xlab ="theta.star", ylab="Linear-approx-theta.star")

21

Figure 6 shows the resulting scatter plot. The scatter is clearly non-linear, the dashed line corresponds to the Fisher-z transformation, which does not seem to be a good choice. The smooth curve in the middle of the scatter is the automatic computation of h(·) proposed by Tibshirani (1988) and implemented in the function boott in the package bootstrap. The confidence intervals and the estimated transformation function are calculated as follows:

library(bootstrap) cor.bootstrap <- function(x, dat.b){ cor(dat.b[x,1],dat.b[x,2]) } cor.tt <- boott(1:20, cor.bootstrap, dat.b[1:20,], VS=TRUE) > cor.tt$confpoints[c(3, 9)] # gives confidence points [1] -0.789 -0.216 > points(cor.tt$theta, cor.tt$g, type="l", lwd=3) # add h() to the plot

Figure 6. Scatter Plot of Bootstrap Replicates of the Correlation Coefficient and Their Linear Approximation. The Solid Line is the Empirical Estimation of the Variance Stabilization Function h(·) and the Dashed Line is the Fisher-z Transformation

● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●●●●● ●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ●●●●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ●●●●●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●●● ●● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ●● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●●●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ●●● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ●● ●● ●● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ●●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ●●● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●●●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●●● ●●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ● ●● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ●●●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●●●● ● ● ●● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ●●●●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ●● ● ●●● ● ●●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ●● ●● ● ● ●● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●●● ●● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●●●●●● ●● ● ● ●●●●● ●●● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ●● ●● ●●●● ●● ● ●●●●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ● ● ● ● ● ● ●●●●●● ●●●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ●●●●●● ●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ●● ● ● ●● ●● ●● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ●● ●●● ● ●●● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●●●● ●●●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ●● ● ● ● ● ●● ●● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●●●●●●● ●●●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●●● ●● ● ● ● ●●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●●●●● ●● ● ● ●● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●● ●●● ●●●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●●● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●●●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●●● ● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ●● ●● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●●● ● ● ● ● ●●●●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●● ●● ● ● ● ● ●● ●●● ●●● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ●●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ●● ● ●● ●● ● ● ●● ●●● ●● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●●●●● ● ●● ●●●●●●● ●● ● ●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●●●●●●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ●● ● ●● ●● ●● ●● ● ●● ●● ●●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ●●● ●● ● ● ●● ●●● ● ● ●●●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ●● ●●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ●●● ●●● ●●●●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ●● ●● ● ● ●●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ●● ● ●●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ●● ●● ● ●●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●●●● ● ● ●● ● ●● ●● ●●●● ● ●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●●● ● ●●●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ●●●●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●● ●● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ●● ● ● ●● ●● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ●● ●●● ● ● ● ●●●● ●●●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●● ●● ● ● ● ●● ●●●●● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●●●●●● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ●● ●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ●●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ● ● ●● ● ●●● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ●●●● ● ● ● ● ●●●●● ● ●●●●● ● ● ● ● ● ● ● ●● ●●● ● ●● ● ●● ●●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ●●●● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●●● ●●● ●●●● ●● ●● ●● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●●●●● ● ●●● ●●●● ● ●●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ●● ● ● ● ●●● ●●● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ●● ●● ● ● ● ● ● ●●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ●●●● ● ● ●● ● ● ●● ● ●● ● ●● ●● ●● ● ● ● ● ●● ●● ● ● ● ●●● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●●● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ●●● ●● ●●● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●●●●●● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●●●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●●●●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●●● ● ●● ● ●●● ● ● ●● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ●● ●● ●●●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ●●● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ●● ●● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ●●●● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ●●● ● ●● ● ●● ● ● ● ● ● ● ● ●●●● ● ● ● ● ●●● ● ● ● ●●● ● ● ● ●●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ●● ●●● ●●●● ●● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●● ●●● ● ● ●● ● ●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ●●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●●●●● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ●● ●● ● ●●● ●● ● ● ●●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●●● ● ●●●● ● ● ● ● ● ● ● ●●●● ● ● ● ● ● ● ● ●● ● ● ●●● ● ●● ●● ● ● ● ● ● ●● ● ●●●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ●●●● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ●●●● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ● ● ● ●● ●● ● ● ●●● ● ● ● ● ● ● ●● ●●● ●●● ● ●● ● ●● ● ●● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ●●● ● ●●●● ● ● ● ● ● ● ● ● ● ●●●● ●●● ● ● ●● ● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ●● ● ● ● ●● ● ● ●● ● ●●●● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●●● ●● ● ● ●● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● Linear−approx−theta.star ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ●● ● ● ●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ●● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● Tibshirani transformation ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● Fisher transformation ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ●

● ●

−1.0 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 −0.9 −0.8 −0.7 −0.6 −0.5 −0.4 −0.3 theta.star

For further discussion about this approach, see DiCiccio and Romano (1995),

22

Efron and Tibshirani (1993, Section 12.6) and DiCiccio et al. (2006) and further applications given by Davison and Hinkley (1997, Sections 3.9 and 5.2).

5. Bootstrap Computations of Empirical Likelihoods

The likelihood function plays a central role in statistical inference. It is the common contact point between classical and Bayesian statistics and is the natural device to combine information across multiple experiments, such as the case of meta-analysis.

Briefly, the statistical problem at hand is the following: Suppose that we have a random sample y1, . . . , yn ∼ F and we are interested in a parameter θ(F ). In this section we are interested in computing Lpro(θ) the profile likelihood of θ. In a full non-parametric setting where we don’t have any idea about a good candidate for F , the likelihood for F is define as:

n Y L(F ) = F (yi), (20) i=1 where F (yi) is the probability of the set {yi} under F . The profile likelihood for θ is Lpro(θ) = sup L(F ), (21) F :t(F )=θ which requires to maximize L(F ) for each θ over all distributions satisfying t(F ) = θ. This is clearly un-practicable, so we simplify the problem by restrict- ing attention to the set of distributions with support on {yi}. Let (w1, . . . , wn) and define Fw to be the discrete distribution putting probability mass wi on yi, Qn i = 1, . . . , n. The probability of obtaining our sample {yi} under Fw is 1 wi, we define the empirical likelihood for θ by

n Y Lemp = sup wi. (22) F :t(F )=θ i=1

Replacing F into L (θ) by F is to cast the problem in terms of the multinomial pro w distribution having support on the data points, in this way the Lemp is a profile likelihood.

The bootstrap likelihood LB is a numerical approximation of Lemp based on com- puter simulation. There are different strategies to use bootstrap results in the construction of likelihoods, nested bootstrap with addition kernel smoothing or saddle point approximation is used by Davison and Kuonen (2002), pivotal quan- tities are applied by Boss and Monahan (1986) and Hall (1987), confidence sets by Efron (1993). The use of bootstrap computations to approximate nonparametric

23 likelihoods and their connection to Bayesian inference are reviewed in (Efron and Tibshirani, 1993, Chapter 24) and in (Davison and Hinkley, 1997, Chapter 10).

In this section we present another bootstrap likelihood approach, that we called

LBCa . This method is based on the theory of the BCa intervals of Section 4. The LBCa likelihood was introduced by Pawitan (2000), who showed that the resulting −1/2 likelihood agrees with the Lemp up to order O(n ), which is essentially the same result of Davison and Kuonen (2002).

The idea of LBCa is straightforward, we construct a likelihood function of φ assum- ing that the underline model is (11), then we use the fact that BCa is invariant under transformation to define the likelihood for θ. If the graph {φ, L(φ)} is the likelihood of φ where,

(φb − φ + z0σφ) log L(φ) = − log σφ − 2 , 2σφ

−1 then {m (φ),L(φ)} is the graph of the likelihood of θ. The BCa likelihood is defined as h −1 i LBCa = L Φ {Gb(θ)} , where φb = Φ−1{Gb(θb)} is used in L(φ).

Example: Bootstrap Empirical Likelihood for the Correlation

Let’s illustrate the computations of LBCa for the correlation coefficient example of Section 4. The empirical likelihood is calculated as follows:

# BCa likelihood (Pawitan, 2000) z0 <- 0.126 acc <- 0.035 nr <- 200 rhoboot<- seq((min(boot1$t)+.05),(max(boot1$t)-.02), len=nr) phi<- rep(0, nr) for (i in 1:nr) phi[i]<- qnorm(sum(boot1$t < rhoboot[i])/nb) s <- 1 + acc*phi pmean <- -z0*s + phi lik <- dnorm(phi0, mean = pmean, sd=s) plot(rhoboot, lik/max(lik), type="l", col="blue", lwd=3, xlab="Correlation coefficient", ylab="Likelihood", main="Bootstrap Distribution and Empirical Likelihood", xlim=c (-1, 0)) hboot <- hist(boot1$t, breaks=100, plot=F)

24

Figure 7. Bootstrap Likelihood of the Correlation Coefficient. The Smooth Line Corresponds to the Empirical Likelihood Calculated by the BCa Method. The Histogram Corresponds to the Bootstrap Distribution

Bootstrap Distribution and Empirical Likelihood

Liklihood

0.0 0.2 0.4 0.6 0.8 1.0 −0.8 −0.6 −0.4 −0.2 0.0 Correlation coefficient

points(hboot$mids, hboot$counts/max(hboot$counts), type="s", lwd=3)

Figure 7 displays the resulting likelihood of the correlation coefficient together with the bootstrap distribution. Most of the correction of the likelihood is made by shifting the bootstrap distribution to the right.

6. More Complex Data Structures

In the previous sections we have applied bootstrap methods with R for a com- plex statistical problem, but with a simple data structure. More complex data structures arise in regression modeling and in hierarchal data analysis. For these types of problems, we need to define a resampling method that mimics the data

25 generating mechanisms as much as possible before we apply the confidence inter- vals that we reviewed in the previous sections. In this section we present two examples, one in non-linear regression and one in hierarchical data analysis.

6.1 Bootstrapping a regression problem

Carlin and Gelfand (1991) consider data on length yi and age xi measurements for 27 dugongs (sea cows) and use the following nonlinear growth curve with no inflection point and an asymptote as xi tends to infinity: 2 yi ∼ NOR(µi, σ ) xi µi = α − βγ , where α, β > 0 and γ ∈ (0, 1). The data is given in the following vectors: x <- c( 1.0, 1.5, 1.5, 1.5, 2.5, 4.0, 5.0, 5.0, 7.0, 8.0, 8.5, 9.0, 9.5, 9.5, 10.0, 12.0, 12.0, 13.0, 13.0, 14.5, 15.5, 15.5, 16.5, 17.0, 22.5, 29.0, 31.5) y <- c(1.80, 1.85, 1.87, 1.77, 2.02, 2.27, 2.15, 2.26, 2.47, 2.19, 2.26, 2.40, 2.39, 2.41, 2.50, 2.32, 2.32, 2.43, 2.47, 2.56, 2.65, 2.47, 2.64, 2.56, 2.70, 2.72, 2.57) plot(x, y, ylim = c(1.7, 3), xlab = "Age in years", ylab ="Length in mts")

The left panel of Figure 8 presents the data and the fitted model curve by maxi- mum likelihood. The model is fitted with the nlm() function in R as follows: # Initial values ... > ini.par <- c(alpha=max(y), beta =max(y) - min(y), gamma = 0.5) > ini.par alpha beta gamma 2.72 0.95 0.50 > # Fit the model ... > summary(fit <- nls(y˜alpha-beta*gammaˆx, start = ini.par)) ... Parameters: Estimate Std. Error t value Pr(>|t|) alpha 2.6581 0.0615 43.2 < 2e-16 *** beta 0.9635 0.0697 13.8 6.3e-13 ***

26 gamma 0.8715 0.0246 35.4 < 2e-16 *** .. Residual standard error: 0.0952 on 24 degrees of freedom

Now, the question is how to implement a resampling method for this statistical model if we are interested in making inference on the vector parameter θ = (α, β, γ, σ). There are basically four resampling methods to this problem: One is to sample the pairs of data (xi, yi) with replacement, like we did in the correlation example. The other one is to resample the residuals of the model and generate the bootstrap samples by: y∗ = f(x; θb) + r∗. The wild bootstrap is a variate of sampling residuals, but instead of directly sampling residuals, each residual is multiplied by a random variable with mean 0 and variance 1. This method may be useful in small sample problems. Another alternative is to implement a full parametric resampling plan and simulate the bootstrap data by y∗ = f(x; θb) + e∗, where each e∗ is simulated from a normal distribution with mean zero and variance 2 σb . In this section we illustrate how to sample from the residuals. In the next section we show how to implement a full parametric resampling schema in a more complex situation.

To sample from the residuals of the model, we define a data frame with the observations and the model fit, here the column fit contains the values of f(xi; θb) for each pair (xi, yi). The bootstrap function for θ should have as arguments a vector of residuals and a sampling index as we did in the previous sections. library(boot) d <- data.frame(y, x, fit=fitted(fit)) boot.fun <- function(rs, i ) { d$y <- d$fit + rs[i] # Generate the bootstrap data m1 <- nls(y˜alpha-beta*gammaˆx, data=d, start = coef(fit)) tmp <- summary(m1) theta <- tmp$coef[,1] # Extract coefficients estimates sigma <- tmp$sigma # Sigma hat cbind(theta, sigma) } 27

The boot function is applied as usual but we pass as data the scaled residuals. In the R workspace, the function boot.fun will find the data frame d: rs <- scale(resid(fit), scale=F) #remove the mean boot.res <- boot(rs, boot.fun, R = 5000)

The right panel of Figure 8 shows the results of the first 50 bootstrap samples. These results are generated by boot.d <- data.frame(boot.res$t) names(boot.d) <- c("alpha","beta", "gamma","sigma") # Right panel plot(x, y, ylim = c(1.7, 3), xlab = "Age in years", ylab ="Length in mts") for(i in 1:50) { curve(mu(x, alpha=boot.d[i,1], beta = boot.d[i,2], gamma = boot .d[i,3]), from = 1, to =max(x), lwd=1, col="blue", add = TRUE, lty =2) }

The bootstrap distribution of this regression model has dimension 4, Figure 9 presents the marginal distribution for each parameter on the diagonal and the pairwise bivariate distributions on the upper and lower diagonal panels. Clearly, the most striking feature is the association between the asymptotic growth value α and the rate of growth γ. This plot is generated with: library(car) scatterplotMatrix(˜alpha + beta+ gamma + sigma, reg.line=FALSE, smooth=TRUE, spread=FALSE, span=0.5, diagonal = ’histogram ’, lwd= 2, data=boot.d,cex=0.5)

The confidence intervals for θ = (α, β, γ, σ) can be calculated with the function boot.ci by using the argument index, where the number indicates the com- ponent of θ. For example the confidence interval for γ is calculated as: > boot.ci(boot.res, index =3, type = c("norm", "bca")) ... Intervals : Level Normal BCa 95% ( 0.8267, 0.9199 ) ( 0.8186, 0.9113 ) Calculations and Intervals on Original Scale 28

Figure 8. Left panel: Data from Carlin and Gelfand (1991). The Data Correspond to the Length yi and Age xi Measurements for 27 Dugongs (Sea Cows). The Smoothed Line is the Fitted Nonlinear Growth Curve With no Inflection Point and an Asymptote as xi Tends to Infinity. Right Panel: The Scatter Corresponds to the Original Data and the Lines are the Resulting Fitted Model From 50 Bootstrap Samples 3.0 3.0 2.8 2.8

● ● ● ●

● ● ● ●

2.6 ● 2.6 ● ● ● ● ●

● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● 2.4 2.4

●● ●●

● ● Length in mts ● ● Length in mts ● ●

● ● 2.2 2.2 ● ●

● ● 2.0 2.0

● ● ● ●

● ● 1.8 ● 1.8 ●

0 5 10 15 20 25 30 0 5 10 15 20 25 30

Age in years Age in years

In this example the normal and BCa intervals give similar results. It is worth mentioning that this example is calculated with a full Bayesian method with non-conjugate priors in the WinBUGS (Spiegelhalter et al., 2004). The Bayesian analysis gave almost identical results as the BCa, however their interpretation is of course different.

6.2 Bootstrapping Hierarchical Data

In recent years, there has been an increasing interest in the analysis of hierarchi- cal data in a wide range of applied problems, e.g., multilevel data in sociology, longitudinal analysis, frailty modeling, meta-analysis, etc. In these problems each experimental unit is measured several times, e.g., patients participating in a clin- ical study are measured in different periods of the trial. The common feature of this type of data is that measurements within units can not be considered statisti- cally independent. Therefore, a special modeling technique should be considered. For a gentle introduction to this statistical area see Gelman and Hill (2007). In this section we illustrate the parametric bootstrap for hierarchical data, where 29

Figure 9. Scatter Matrix Plot of the Bootstrap Distribution of the Parameters of a Nonlinear Growth Curve With no Inflection Point. The Marginal Distribution For Each Parameter on the Diagonal and the Pairwise Bivariate Distributions on the Upper and Lower Diagonal Panels

0.8 0.9 1.0 1.1 0.06 0.08 0.10 0.12

● ●●● ●● ● ●●●● ●● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ●● ●●●●● ● ● ●●● ● ● ● ● ● ●●● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ●● ● ● alpha ● ●● ●● ●● ● ● ●●●●●●● ● ● ● ● ● ●● ● ● ● ● ●● ● ●● ● ● ● ●● ●● ●●●●● ● ● ●●● ● ● ● ● ● ● ●●● ●● ● ●●●●●●● ● ● ●● ●●● ● ● ● ● ●● ● ●●● ●●● ●●●●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●●●● ●●●● ● ● ● ● ●●● ● ● ● ●● ● ●●●● ● ● ●●●●●● ●● ● ● ● ●● ● ●● ● ● ● ● ●●● ●●●●●●●●● ● ●●●●●●●●●●●●● ● ● ●●● ●●●●●● ●●● ●●● ● ● ● ● ●●●● ●●●●●●● ●● ● ●● ●●●●●●●●● ●●● ●●●● ●●●● ● ●●● ●● ● ● ● ●● ●● ●●●●●●●● ● ●● ● ● ● ●●●●●●●●●●●●● ●● ● ● ● ●●●● ● ● ●● ● ● ● ●● ● ●● ●●● ● ●●● ● ●●●●●●●● ● ● ●●●●●●●●●●● ● ●● ●● ● ● ● ●●● ●● ● ● ● ● ● ●●●● ● ●●●●● ●●● ● ● ● ●●●●●●●● ●●● ● ● ● ● ● ● ● ●●●● ●●●●●● ●●● ●●●●●● ●●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●● ●●●● ●● ●●●●● ●●● ● ●● ● ● ● ● ● ●●●●●●●●●●● ●●● ●●● ●●● ● ● ●●● ● ●●●●●●●●●●●●●●●●●● ●● ●●● ●●●●●● ●●●● ●●● ●●●● ● ● ● ●● ●● ●●●●●●●●●●●●●●● ● ●●● ● ● ● ●●● ●●●●●●●●●●●●●●● ●● ● ● ● ● ●● ●●●●● ●●●●●● ●●● ● ●●● ● ● ●● ● ●●● ●● ●●● ●●●●●●●●●●●●●● ●●●●●●● ● ● ●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●● ●●●●●●●●●●●●●● ●●●●●●●●● ● ●● ●● ● ●● ●● ●●●●●●●●●●●●●●●●● ●● ● ●●●● ●● ● ●●●●●●●●●●●●●●●●●●●● ● ● ●● ●● ●●●●●●●●●●● ●●●●●●●●●●●● ●●● ●● ● ● ● ● ●● ●●● ●● ●●● ● ● ● ● ● ● ●●●●●●●●●●●●●●● ● ●●● ●●●●●● ●● ●●●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ●● ● ● ●●● ●●● ●●●●●●●●●●●●●●●● ●● ●●●●● ● ● ●● ● ● ●●● ●●●●●●●●●●●●●●●●● ●●●●● ● ●● ● ●● ●●●●●● ●●●●●●●●● ●●●● ● ● ●●●● ● ● ●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●●●● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●●●●●●●● ●●●●●● ●● ●●●●●●● ●●●●● ● ● ● ● ● ● ●●●●●●●●●●●●●●● ●●●●●●●●●● ●●●●● ●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●● ● ●●●●●●●●● ●●●●● ●●●●●●●●●●●●● ●● ●● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●●● ●●●●●●● ●●●●●●●●●●●●●● ● ● ● ● ● ●●● ●● ●●●● ●●●●●●●● ●●●●●●●●●●●●●● ●●●●● ● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ● ● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ●●● ● ● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●● ●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ●●●●●●●●● ● ●●● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●●●● ● ●● ●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●● ● ● ● ●●●● ●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ● ● ● ● ● ● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●● ● ●●● ●●●●● ●● ●●●●●●●●● ●●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ●●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●●●● ●● ●●●●●●●● ●●●●●●●●●●●●●● ●●● ●●●●● ●●● ● ● ● ●● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●● ●● ●● ● ●● ●● ●●●●●●●● ●●● ●●●●●●●●●● ●●●●●●●●●●● ● ●●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ● ●●● ●●●●●●●●●●●●●●● ●● ●●●●●●●● ●●●●●● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●●● ●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ●●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●● ● ● ● ● ●●●● ●●●●●●● ●● ●●●●●●●●●●●●●●●● ● ● ● ●●● ●● ●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●● ●● ●● ● ●●●●●●●●●●● ●● ● ●●●●●●●●●●●●●●●●●●●● ●●● ●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ●● ●●● ● ●●●●●●●●●● ● ●●●●●●●●●●●●●●●●●●● ●●● Frequency ● ●●●● ●● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ●●● ●●● ●●●●●●●●●●● ● ●●●●●●●●●●●●●●●● ●● ● ● ●●●●●●●●●●●●●●●● ●●●●●●●●● ●● ● ● ● ●●●●● ●●●●●●●●●●●●●●●●●●● ●●● ●●●●●●● ● ● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●● ●● ● ● ● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●● ●●● ●●●● ●●●●● ●●● ●●● ●● ●●●●●●●●●●● ●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●●●● ●●●●●●●●●●●●●● ●●●●●●●●● ●● ●●●●● ● ● ● ● ●●●●●●●●●●●●●●●●● ●●●●●● ● ●●● ●●●● ● ● ●● ●●●●●●●●●●●●●●●●●●●●● ●● ●● ●● ● ● ●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ● ● ●● ●●●●●● ●●●●●●●● ● ● ● ●● ● ● ● ●●●●●● ●●●●●●●●● ●●● ● ● ● ●●● ● ●● ● ●●● ● ●●●● ●●●●●●●●●● ● ● ● ● ● ●●●●●● ●●●●●●● ● ●●●●● ●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●● ●● ● ● ●●● ● ● ●●●●●● ●●●●●●●● ●● ● ● ● ●● ● ●●● ●●● ●●●● ●● ● ● ● ●●●● ● ●●●● ● ●●●●● ●● ●●●●●● ● ● ● ●●●●●●● ●● ●● ●● ●● ● ● ● ●● ● ●●● ● ●●● ●● ●●● ●● ● ●● ● ●●●●●●●●●●● ●●●●● ● ● ●● ●●●●●● ●●●●●● ●● ●●● ●● ● ● ●● ● ● ●●●●● ● ●●●●● ● ● ●● ● ● ● ●●●●●●●● ●●● ●●●● ● ● ●●● ● ●●●●● ●●●●●●● ● ●● ● ● ●●●● ●●● ●●● ● ●● ● ● ●●●● ●● ●● ●●●● ● ● ● ●● ● ● ●● ●●●● ●● ●● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ●● ●● ●●● ● ● ● ● ● ●● ● ●●● ● ●● ●● ● ● ●● ● ● ●● ●● ● ● ● ● ● ●● ●●● ●●●● ● ●● ● ●● ● ●● ●●●●●●● ●● ●● ● ●● ● ● ● ● ●● ● ●●● ● ●● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● 2.5 2.6 2.7 2.8

● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ●●● ●●● ●●● ● ● ●● ● ● ●● ●● ●● ●● ● ● ● ●● ●●● ●●● ● ● ● ● ●● ● ● ● ●● ● ● ●●●●● ●● ● ●●●●● ● ● ● ●● ● ● ●● beta ● ● ●●● ● ●●●● ● ● ●● ● ● ● ● ●●● ●● ● ●● ●● ● ● ● ●● ● ●● ● ● ●●● ●●● ● ●● ● ● ● ●● ●● ● ●● ●●● ●● ●● ● ● ●●● ●●● ● ● ●●● ●● ●●● ● ● ●●●●●● ●● x●●●● ● ● ● ●●● ●●●●● ●●●●● ● ● ● ●● ●● ●●●●● ●● ● ● ● ●● ● ● ●● ● ● ●● ●●● ● ●● ● ●● ● ● ● ●● ● ●●●●●●●● ●● ●●● ● ● ●● ●●●●● ● ●●● ● ● ● ● ● ● ● ● ● ●●●●●● ●●●●● ● ● ● ● ● ●● ● ●● ●● ● ●●●●●● ● ●● ● ●●● ●●● ● ●●●●●● ● ● ● ● ●●●● ●●● ●●●●●● ●● ●●●●● ●● ● ● ● ● ●●● ●●●● ●● ●● ●●●●● ●●● ●● ● ● ● ●●●●●●● ●●●●● ● ●●●●● ●● ● ● ● ● ●● ● ●●● ●● ●●● ●● ●● ●●●● ● ● ● ●●●● ● ● ●● ●● ●●●● ● ● ●● ●●●●●●●●●●●● ●●●● ●●●● ● ●●●●● ●● ●●●●●●●●●●●● ●●● ●● ●● ● ● ●●●●●●● ●●●●●● ●●● ● ●●●● ● ●●●●● ● ●● ● ● ● ● ●●● ●●●●●●●● ●●●●●●● ●●●●●●●●● ● ● ● ● ●● ●●●●●●● ● ●●●●●● ●● ● ●●●●● ● ●●●●●● ● ●● ●● ●●●●● ● ● ●●●●●●●●●●●●●●● ● ● ● ●●● ●●●●●● ●●●●● ●●●●●●●●●●● ●● ●● ● ●●●● ● ●●●●●● ●●●●●● ●● ● ●●● ● ● ● ●● ●●●● ●●● ●●●●●●●●●●●●●● ● ●●●●● ●●● ● ● ●● ● ●●●● ●●●●●●●●●●●● ●●●●●●●● ●●●●●●● ●● ● ●● ●●● ● ● ●●●●●●●●●●●●●●●●●●● ●●● ●● ● ● ●●●● ●● ●●●●●●● ●●●●● ●● ● ●● ● ● ● ● ●● ● ●●●● ●●●●●●●●●●●● ● ● ● ● ●●●●●●●●● ●●●●●●●● ● ●● ●● ● ● ●●●●●●●●●●●●●●●● ● ● ●●●●●●● ●●●●● ● ● ● ●●●● ●●●●●● ●●●●●● ●● ●●●●●●●●●●● ● ● ● ● ●●●●●●●●●● ●●●●●● ●●●●●●●●●●● ●● ● ●● ●●● ●● ● ●●●●●●●●●●●●●●●● ●●●●●●●●● ●●●●●● ● ● ● ● ●● ● ● ●●●●●● ●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ● ●●● ●●●●●●●●●●●●●●● ●●●●●●● ●●●● ●●●●●●● ● ● ●● ●●●● ●●●●●●●●●●●●●● ● ●●●● ●●●●● ●●● ● ●● ● ● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●● ● ● ● ● ●● ●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●● ●●●●●●●●● ●● ●●●●●●●●● ●●● ● ● ● ●●● ● ●● ●● ● ●●● ●●●●●●●●●●●●●●●●● ●● ●● ● ●●●●● ●●●●●● ●●●●●●●●●●●●●●●● ●●●●●●● ●● ●●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●●● ●● ● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●● ●●●●●●● ● ● ●● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●● ●● ●●●● ●●●●●●●●●●●● ●●●●●●● ●● ● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●● ●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ●● ● ● ●●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●●● ● ●● ● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●● ●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●● ●●● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ●●●●●●●● ●● ● ●● ● ● ● ●●● ●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●● ●●● ● ●● ● ●●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●● ● ●●●● ●●●● ●●●●●●● ●●●●●●●●●●●●●● ● ●●● ●● ●●●● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●●● ● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●● ●● ●● ● ● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●●●●● ● ● ● ● ● ●●●●● ●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●● ●●● ●● ●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ●● ●●●● ● ● ● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●●● ●● ●●● ●●●●●●●● ●●●●●●●●●● ●●●●●●●●●●●●●● ●●●● ●●●●●●●●● ● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ●● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●● ● ●●● ● ● ●● ● ●●●●●●●● ●●●●●●●● ●●●●●●●●●●●●●● ●● ●●● ● ● ● ●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●● ●●● ● ●●●●●●●●●●●●●●●●● ●●●●●●●●● ●●●●●●●● ● ● ● ● ●● ●●● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ●●●●● ● ● ● ● ●●●●●●●●●●●●●● ●●●●● ●●●●● ●●●●●●●● ●● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ● ● ●●●●● ●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●● ●● ● ●●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●● ●● ●●●●●●●●●● ●●●●●●●●●● ●● ● ● ●● ●●●● ●●●●●●●●● ●●●●●●●●●●●●●● ●●●●●● ● ●●● ● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ● ● ●●● ●●●●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●●● ● ● ●●● ●●● ●● ● ●●●●●●●●●●●●●●●●● ●●● ● ●●● ● ● ●●●● ●●● ●●●● ●●●●●●●●● ●●●●● ●●● ●●● ● ● ● ●●● ●●●● ●●● ●●●●●●●●●●●●●● ●●● ● ● ● ● ●●●●●●●●●●●●●●● ●●●● ●●● ● ●●● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●● ●●●●●● ●● ● ● ● ●●● ●●●●●●●●● ●●●●●●●●●●●●●●● ● ●●● ● ● ●● ●●●●●● ●● ● ●●●●●●●●●●●●●●●●●●● ●● ● ● ●●●●●●●●●●●●●● ●●●●●●●●●●●●●● ●●●● ● ●● ●●●●●●●●●●●●●●●●●●● ●●●● ●●●●●●● ● ● ● ● ● ●● ●●● ●●●●●● ●●●●● ●●●●●●●●●●●● ●● ●● ●● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●● ●● ● ● ●● ● ●●●●●● ●●●●●●●●●●●●●● ●●●●●●●● ● ● ●● ●●● ● ●●●● ●● ●●● ●●● ●● ● ●● ● ● ●● ● ● ●● ●●●●● ●●●● ●●●●● ● ● ● ● ●●● ●●● ● ●●● ●●●●● ● ●●●●● ● ● ● ● ●●●●●●● ●●●●●●●●●●●●● ●● ● ● ● ●● ● ● ●● ●●●●●●● ●●●●●●●●●●●●●●●● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●● ●●●● ● ● ●● ●●● ● ●●●●●●● ●●●●●●●●●●●● ● ● ●●● ●● ● ●●● ●●●●●●●● ●●●●●●●● ●●●●●●●●● ● ●●● ●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●● ● ● ● ●● ●●●●●● ● ● Frequency ● ● ● ● ●●●●● ● ● ●●●●● ● ● ●● ●● ● ● ● ●● ●●●●●●● ●● ● ● ●●● ●●●●●● ●●●●●●●●● ●●●● ● ● ● ● ●●● ●●●●●●●● ● ●●● ●●●●● ● ● ● ●● ● ● ●●●●● ●● ●●● ●●●●● ●● ●● ● ● ●●● ●● ●●●●●●●●●●●●●●● ● ● ● ● ● ● ●● ● ● ●●●●●● ●●●●● ● ● ● ● ● ● ● ●● ● ●●● ●● ●●●●● ●●●●●● ● ● ●● ●●●●●●●● ●●●● ● ● ●● ●●●● ● ●● ● ● ●● ● ●● ●● ● ●●●● ●● ● ●● ● ●● ● ●●●● ●● ●● ●●● ● ●● ● ● ●●●● ●● ●●● ● ● ● ●● ●●● ●● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ●●● ●● ● ●● ●●● ●● ● ● ● ● ●●● ● ● ● ● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ●● ● ● ● ● ● ●●● ●● ● ● ● ● ●●●● ●●● ●● ● ● ● ● ● ●●● ●● ● ● ● ●● ●●●● ● ● ● ●●● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●

0.8 0.9 1.0 1.1 ● ● ● ● ● ● ● ● ●

●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●●● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ●●● ● ● ● ● ● ● ●●● ● ●● ● ●● ● ●●● ● ●● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ●● ●●● ● ●● ●● ● ●●● ● ● ● ●● ● ● ●●● ● ● ●●● ● ● ● ● ●●● ● ● ●● ●● ●● ● ● ● ●●●● ●●●●● ●●●●●●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ●● ● ● ●●●●●●● ● ● ●●● ● ● ● ●●● ●● ●● ●●●●●●●●●● ● ● ● ● ● ●●●● ●●●●●●●●● ●●●● ● ●●●●●● ●●●●● ●●●●●●● ●● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●● ●●● ● ● ●●●●● ●●● ●●●●●●● ●●●●●● ●● ● ● ● ● ● ● ●●●● ●●●●●●● ●●● ●● ●● ●●● ● ● ● ● ●●●● ● ●●●●●●●●● ●● ● ●●● ● ● ●● ●●●●● ●●● ●● ● ● ● ● ● ● ●●● ●●●●●●●●●●●● ●● ● ● ●●●●● ●●●●●●●●●● ● ● ●● ● ●●● ● ● ●● ● ●●●● ● ●● ● ● gamma ● ● ●● ●●●●●●●●● ● ●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●● ●● ● ●●● ●●●● ●●● ●●● ●● ● ●●●●● ●● ● ● ● ●●●●●●●●● ●●●●●●●●● ● ●●●●● ●● ● ● ● ●●●●● ●●●● ●●●●●●●●●●●●●● ● ● ● ●● ● ●● ●●●●●●●●●●● ●●●●● ●●● ●●●●●● ● ● ● ● ●●●●●●●●●●● ●●● ●●●●●●●●●●●●● ●●●● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ● ●●●●●●●●●● ●●●●●●● ●●● ●●●●●●● ● ● ●● ● ●●● ●●●●●●● ●●●●●●●●●●●●●●●●● ●● ● ●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●●● ●●●●●● ●●●●●●●x●●●●● ●● ●● ●●●●●●●●●●● ●●● ●● ● ●●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ●●●●●●●●●●●●●●● ●●●●●●●● ●●●●●●● ● ● ● ● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ● ● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ●●●● ●●●●●●●●● ● ● ● ●●●● ●●● ● ●●●●●●●●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ●●●● ●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ●● ●● ● ●● ●● ●●●●●● ●●●●●●●●●●●● ●●●●●●●●●●●● ●●●● ●● ●●●●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●●● ●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●●●● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ●●● ●● ● ●●● ●● ●●● ● ● ●● ●●●●● ● ●●● ●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●● ●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●●● ● ● ● ●● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●●● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●● ●●● ●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●●●●●● ●● ●●●●●●●●●●●●● ●●●●●●●● ●●●●●● ● ●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●●●● ●●●● ●●●●●● ● ●●●●●●●●● ● ● ●● ● ● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●● ●●●●●●●●●●●●●●●●●●●●●● ● ●●● ●●●●● ●●●●●●●●●●● ●●●● ●●●●●●● ●● ● ●● ● ●●●●●●●●●●●● ● ●●● ●●●●●● ●●● ●●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●● ●● ● ● ● ●● ●●●● ●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ● ●●●●●●●●●●● ● ●●● ● ●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ●●●●● ●● ● ● ●● ●●● ●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●● ●●● ● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ● ● ●●●●●●●●●●●●●●●●●●●● ● ●●●●●●●●●●●●●●●●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ●●●● ●●●●●● ● ●● ●●●●●●●●●●●●●● ●●● ● ● ● ● ● ●●●●● ●●●●●●●●●●●●●●●●●● ●● ●●● ● ● ●●●●●●●●●●●●●●●●●● ● ● ● ●● ● ●●●●●●●● ●●●●●● ●● ●● ●●● ● ● ● ●● ● ●● ● ●●●●●●●● ●●● ●●●●●● ● ● ● ● ● ●●●●●●●●●●●●●●●●● ● ●●● ● ●●●●●● ●●●●● ● ●● ●● ● ● ●● ● ● ●● ●●●● ●●●●●●●●●●● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●● ●●●●●●●●●● ●●●●●● ●●● ●●●● ●● ● ● ● ●●●● ●● ●●●●●●●●●● ● ●●●●●●●● ● ● ●●● ●●●●●●●●●●● ●●●●● ● ● ● ● ● ●●●● ● ● ●●●●● ●●● ● ● ● ● ● ●●●●●●●●●●●●●●●●●● ● ● ● ● ●● ●●●● ●●●●●● ●● ● ● ● ●●●●●● ●●● ● ●● ● ● ● ● ●● ●●●●●● ● ● ● ●● ● ●●●●●●●●●●●●● ●● ●● ●● ● ● ● ●● ●●●● ● ● ●●●● ● ● ● ●●●●● ● ●● ● ●●● ●●●● ●●● ●● ●●● ●●●●●●●●●●●● ●●● ●●● ● ● ●●●●● ● ● ●● ●●● ● ● ● ●●● ●● ●●● ●●●●● ● ● ● ●●●● ●● ● ● ● ● ●●● ● ●●● ●● ● ● ●●●●●●● ● ● ● ● ●●●●●●● ●●●● ●● ● ●● ●● ● ● ●● ●●● ●●● ● ● ● ● ● ●● ● ● ● ●●●● ●● ●●● ●● ● ● ●● ●●● ● ● ● ●● ●●● ● ●● ●● ● ● ● ● ●● ●●● ● ● ●●● ●●●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●●●●●●● ● ● ●● ●● ●●● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● Frequency ● ● ● ● ● ● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●●● ● ● ●●● ● ● ●● ● ●● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ●●● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● 0.80 0.85 0.90

●● ● ● ● ● ● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●●● ●●● ● ● ● ● ● ● ● ●● ●● ●● ●● ● ● ● ● ● ● ●●●● ●● ● ●● ●●● ● ● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●●● ● ● ● ● ● ●●● ● ●●● ● ● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ● ●●●● ● ● ● ● ● ●● ● ● ● ● ● ●● ●●●● ●● ● ● ●●● ●● ●● ● ● ● ● ● ● ●●●● ● ●● ● ● ● ●● ● ●● ●●● ● ● ●● ● ●●● ●●●●●● ●●● ●●● ● ● ● ●●●●●●● ● ●● ● ●●●●●●● ● ● ●●●● ●●●●●●● ●●● ● ● ● ● ● ● ● ● ● ●●●●●●●● ●● ●● ● ● ●●●● ●●● ●●● ● ●● ● ● ● ● ●● ●● ● ●●●●●●●● ● ● ● ● ●● ● ●●●●● ● ● ● ●●● ● ●● ● ● ●● ●●● ●●●● ●●●●●● ●● ● ● ● ●● ●●● ●●●●●●● ●●● ●●●● ● ●●●● ●● ●●●●●●●●● ● ● ●● ● ● ●● ● ● ●●●●● ●● ●●●●● ● ●●● ●● ● ● ●● ● ● ● ●●●●●●●●●●●●●●●● ●● ●● ●●● sigma ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ●●● ●●●●●●●●● ●● ● ●●●● ● ● ● ● ●●● ●● ●●●●●●●●● ●●●● ●● ●● ● ● ● ● ●● ● ●●●●●●●●● ●● ●●●● ●●●● ● ● ● ●●●●●●●●●●● ●●●●● ●● ● ● ● ● ● ●●●● ● ●● ●● ● ●●●●●●●● ● ● ● ● ● ● ●● ●●● ●●●●●●● ● ● ●●● ● ● ● ● ●●● ●●●●●●● ●●●●●●●●●●●●●●● ●●●● ●● ●● ● ● ● ● ● ●●●● ●●●●●●● ●●●●●●● ●●● ● ●● ●●●● ●● ● ●● ●●●●x●●●●●●● ●●●●●●● ●●● ● ●●●●●● ● ●● ●●●●●●●● ●●●●● ● ●●●● ● ● ● ●●●●●● ● ● ●●●●● ● ●●● ●● ● ● ● ●● ● ●● ●● ●●●●●●●●●● ● ●●● ● ● ● ●● ● ●●●●●●●●●●●● ● ●●●●●●●●●● ● ●●● ●● ● ● ●● ● ● ● ●● ●●● ●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ● ●● ● ● ● ●●● ●●●●● ●●●●●●●●●●●●●●●● ●●●●●●●●●● ●●●●● ●●●●● ●●●●●●●●●●●●●●●●●●● ● ●● ●● ● ● ● ●●● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ● ● ●●●● ●●●● ●●●●●●●●●●● ●●●●●●●●●● ● ●● ● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●● ●●●●● ●● ● ●● ● ●●● ●● ●●● ●●●●●●●●●●● ●●● ●●●●●●● ● ●●●● ● ● ● ●● ●●●●●●●●●●●● ●●● ●●●●●●● ●● ● ●● ●●●●●●●● ●●●●●●●●●●● ●● ●●●●●●●●●●●●● ●● ● ● ● ● ● ● ●● ●● ● ●●●●●●●●●●● ●●●●● ●●●●●● ●●● ● ●● ● ● ● ●● ●● ● ●●●●● ● ●●●●● ●●●● ● ●●●●●●●● ●●●●●●●● ●● ●● ●●●●●●●●●● ●●●● ●●●●●●●● ●●●●●●●●● ● ● ●● ●● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●●● ● ● ●●●●● ●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●● ●● ● ● ●●●●●●●●●● ●●●●● ●● ●●●●●●●●●●●●●● ● ●●●● ●● ● ● ● ●●●● ●●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ●●●●●●●●●● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ●●● ● ●●●● ●●● ●●●●●●●●●●●●●●●●●●●●●●● ● ●●●● ● ●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●● ● ●● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●●● ● ●●●● ● ● ● ● ● ●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●●●● ●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ● ● ● ● ● ●●●●●●●●●● ●●●● ●●●●●● ●●●●●●●●●●●●● ● ● ●● ● ●● ●●●● ●●●●● ●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●● ●● ●●●●●●●● ● ● ● ● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ●●● ● ● ● ● ● ● ●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●● ●●● ● ●● ● ● ●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ● ● ● ● ● ●●● ●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●● ● ● ● ● ●● ●● ● ●●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ● ● ●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●● ●●●●●● ●●●● ●●●●●●●●●●● ●●●●●●●●●●● ●●●●●●●● ● ● ●● ● ● ● ● ●●●●● ● ● ●●●●●●●●●●●●● ●●●●●●●●●●●● ●●●●● ● ● ● ● ●●●●●●●●●●●●●● ●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●● ● ● ●● ●●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ● ● ●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ●●●●●●●● ● ● ● ● ●●●●●●● ●●● ●●●●● ●●●●●●●●●●●●●●●● ●●●●● ●●● ●● ●●●●●●●●● ●●●●●●●●●● ●●●●●●●●●●● ●●●●●●●●● ●●● ●●● ●● ● ● ●●●●●●● ●●●●●● ● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ● ● ● ● ●● ●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ●●●● ●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●● ●●● ● ● ●● ●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ● ● ● ●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ● ●●● ● ● ● ● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●●●● ● ● ● ● ●●● ●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●● ● ● ● ● ●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●● ● ● ●● ● ●● ●●● ●● ●●● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●● ●●● ●● ● ● ● ●● ● ●●●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●● ●● ●●● ● ●●●●●● ●●●●● ●●●●●●●●●●●●●●●●●●●● ●● ●●●● ● ● ●● ●● ●● ● ● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●●● ●● ● ● ● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ● ●●●●●●●●●●●●● ●●●● ● ●●●●●●●●● ●● ●● ● ● ● ● ●●● ●● ● ●● ●●●●●●●●●●●● ●●● ●●● ●●●● ● ● ● ● ● ● ●●●● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●● ●●● ● ● ●●●●●●●●●●●●●●●● ●●● ● ●● ● ● ● ● ● ●●●● ●●●●●●●● ●●●●●●●●●●●●●●● ● ● ● ● ● ● ● ● ● ●● ●●●● ● ●●● ●●●●●●●●● ●●●● ● ●●● ●● ●●●●●●● ●●● ●●●●●●●●●● ●●●●●● ●● ●●●●● ●● ● ●● ●● ● ●● ●●●●●●●●●●●● ●●●●●●●●●●● ●●●●●●●●●●● ● ●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ● ●●●●●● ●●●● ●●●●●●●●●●●● ● ●● ●●●●●● ● ● ●●● ●● ●●● ●●●●●●●●●●●●●●●●●●●●● ●● ● ●● ● ● ● ●●●●●●●●● ●●●●●●● ● ●●●●●●●●● ● ● ● ● ● ● ● ●●●●●●● ●● ●●●●●●●●●●● ●● ● ● ● ●● ● ●●●●●●●●●●●●●●●● ●●● ●● ● ●● ● ● ●● ●●●● ●●●●●●●●●●●●●● ●●●● ● ● ● ●●● ●●●● ● ●● ● ● ● ●● ●● ●●●● ● ● ● ● ● ● ● ●●● ●●●●● ● ●●● ●●●●● ●●●● ●● ●● ● ● ● ●●●● ● ●●●● ●●●●●● ●●●● ●●●● ● ● ● ● ● ● ● ● ● ●●● ●●●●● ●● ●●●●● ●● ● ●● ● ●●●●●● ● ● ●●●●● ● ● ● ● ● ● ●●●●● ● ●●●●●●●● ●● ●● ● ● ●●●●● ●●●● ●●●●●●● ● ● ● ●●●● ●●● ● ● ●●● ● ● ●●●●●●● ● ●●● ● ●●● ● ● ●●● ● ● ● ● ● ● ● ●●● ●●●●●●●●●●●● ●● ●● ● ● ● ●●● ●●● ●●●● ●●● ● ● ● ● ● ●● ● ● ● ●●●●●● ●●● ● ●● ●● ● ● ● ● ● ●● ● ●●●●● ● ● ● ● ● ● ● ●● ● ●●●●● ● ● ●●● ●●● ● ● ● ● ● ●● ●● ● ● ● ●●● ● ●●● ●●● ●● ● ●● ● ●● ●●● ● ●● ●● ●●●●● ● ● ● ● ●● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ●● ● ● ● ● ●● ●●● ●●●● ●●● ● ●● ● ● ●●●● ●●● ● ● ●●● ● ● ●● ● ● ● ● ● ●● ● ● ● ●● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ●●● ●●● ● ● ●● ● ● ● ● ●●● ●● ● ● ● ● Frequency ● ● ●●● ● ●●● ●● ● ● ● ● ●● ●● ●● ●●●● ● ● ● ● ● ●●●● ●● ● ●● ●● ● ●●● ● ●● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●●● ● ● ● ● ● ●●● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 0.06 0.08 0.10 0.12

● ● ●

2.5 2.6 2.7 2.8 0.80 0.85 0.90

x

bootstrap samples are simulated from a parametric model which mimics the data generating process as much as possible. Probably, parametric bootstrap should be the recommended method for hierarchical data.

The upper panel of Figure 10 displays a data set that has been analyzed by Gelman and Hill (2007). The data correspond to repeated measurements of HIV positive children during a period of two years. The outcome variable is a measurement of the immune system (CD4 percentage of cells). There are two treatment groups: The control group corresponds to children without zinc supplement dietary and the treatment group corresponds to children with zinc supplement. It is expected that a diet with zinc supplement will improve the response of the immune system. Clearly, the data are very noisy and it is difficult to observe differences between groups.

The lower panel of Figure 10 shows a marginal smoothing of the data. A surprising feature is spotted out in this plot, the group with zinc supplement seems to reach a minimum value after one year of treatment and then they start to recover, while the control group continually decays. We are going to analyze if this feature is just incidental or represents an important consequence of this treatment. We make a bootstrap analysis on the zinc supplement group and we set up the analysis by 30

Figure 10. Upper Panel: The Data Correspond to Repeated Measurements of HIV Positive Children During a Period of Two Years. The Outcome Variable is a Measurement of the Immune System (CD4 Percentage of Cells). There are Two Treatment Groups: One Control Group Cor- responds to Children Without Zinc Supplement Dietary and One Treatment Group Corresponds to Children With Zinc Supplement. Lower Panel: Smoothed Curves Represent the Average Response by Time Point for Each Treatment Group. The Group With Zinc Supplementary Diet Seems to Recover After One Year of Treatment

HIV positive children (1 to 5 years old)

0.0 0.5 1.0 1.5 2.0 control zinc

8

6

4 sqrt(cd4%) 2

0 0.0 0.5 1.0 1.5 2.0 time(years)

HIV positive children Control dieat Zinc supplement

5.4 5.2 5.0

y 4.8 4.6 4.4

0.0 0.5 1.0 1.5 2.0 time

fitting the following mode: 2 Yi,j = (β0 + ai) + (β1 + bi)ti,j + β2ti,j + i,j, 2 ai ∼ NOR(0, σa), 2 bi ∼ NOR(0, σb ), 2 i,j ∼ NOR(0, σ ). In this model each child has its own linear trajectory with common population in- 2 2 tercept β0, slope β1 and quadratic term β2. The components of variance σa and σb 2 are used to model between children variation and σ intra-children measurement error. The parameter of interest is β θ = − 1 , 2β2 31

Figure 11. Bootstrap Distribution of the Recovery Time Point of the Treatment Group With Zinc Supplementary Diet. Dashed Vertical Lines Correspond to the 95% CI Calculated With the Percentile Method

Bootstrap distribution: recovery point Density 0.0 0.5 1.0 1.5 2.0 2.5

0.0 0.5 1.0 1.5 2.0

min.time.c which corresponds to the theoretical time point where the minimum proportion of CD4 cells is achieved. If this value is stable, we expect that the children start to recover by following a zinc supplementary diet. In the parametric bootstrap approach model’s parameters are fitted by maximum likelihood (or restricted maximum likelihood). Bootstrap data is generated by simulating from the postulated probability model. A major problem is to estimate model parameters in each bootstrap sample in an efficient way. The function simulate of the package lme4, generates parametric bootstrap samples. The function refit can be used to calculate θ in each bootstrap repli- cate. We implement this approach in the function boot.min: boot.min <- function(model.fitted) { boot.data <- simulate(model.fitted) # Generate bootstrap data fn <- refit(model.fitted, boot.data) # Fit the model beta.0 <- fn@fixef[1] # Extract coefficients beta.1 <- fn@fixef[2] beta.2 <- fn@fixef[3] -1*beta.1/(2*beta.2) # Calculate theta } 32

The only argument of boot.min is the model object generated by lmer: M1 <- lmer(y ˜ time + I(timeˆ2) + (1 + time | person), data = hiv.dat, subset=tr=="zinc")

Once we implement the resampling version of θbwe can use the R function replicate to generate the bootstrap distribution as follows: # Take 1500 bootstrap samples and calculate theta min.time <- replicate(1500, boot.min(M1))

The vector min.time contains the 1500 replications of θ. The bootstrap distri- bution is presented in Figure 11. The bootstrap analysis shows that there is a strong evidence of a recovery point about one year after treatment.

7. Summary

In this tutorial review we have omitted several topics, such as: missing data, cross-validation, model choice, variable selection in regression, censor data, time series, spatial data, efficient computations,etc. But we hope that we have covered the following main points: • How automatic is the bootstrap? Probably it is fully automatic for estima- tion of standard error and bias. For more sophisticated statistical problems the human intervention that we called Analytics in Section 3 becomes very important. • A deep understanding of the bootstrap in a particular application is worth more than published simulation experiments and theoretical asymptotic re- sults. • Each application is a new problem and diagnostic techniques like those pre- sented in this paper become relevant when one apply bootstrap techniques. • Simulation techniques do not replace traditional ideas in statistics. Con- cepts like populations, parameters, pivot quantities, likelihood, and so on play a central role in bootstrap analysis.

Acknowledgments

The author is very grateful to the Editorial Board of Estad´ısticafor the invitation to write this tutorial paper, in particular to Ver´onicaBeritich for her help and patience during the editorial process and to Joelle Murray for her proof reading. This research supported in part by the German Research Foundation DFG Oh 39/11–1. 33

References

BABU, G. and SINGH, K. (1983). “Inference on means using the bootstrap.” Annals of Statistics. 11: 999–1003. BOSS, D. D. and MONAHAN, J. F. (1986). “Bootstrap methods using prior information.” Biometrika. 73: 77–83. CANTY, A. J. (2002). “Resampling methods in R: The boot package.” R News. 2(3): 2–7. DAVISON, A. and HINKLEY, A. (1997). Bootstrap Methods and Their Applica- tion. Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press.

DAVISON, A. and KUONEN, D. (2002). “An introduction to the bootstrap with applications in R.” Statistical Computing & Statistical Graphics Newsletter. 13: 6–11.

DICICCIO, T., MONTI, D., and YOUNG, G. (2006). “Variance stabilization for a scalar parameter.” Journal of the Royal Statistical Society. 68: 281–303. DICICCIO, T. and ROMANO, J. (1995). “On bootstrap procedures for second- order accurate confidence limits in parametric models.” Statistica Sinica. 5: 141– 160. EFRON, B. (1979). “Bootstrap methods: another look at the jackknife.” Annals of Statistics. 7: 1–16. EFRON, B. (1987). “Better bootstrap confidence intervals (with discussion).” Journal of the American Statistical Association. 82: 171–200. EFRON, B. (1992). “Jackknife-after-bootstrap standard errors and influence func- tions (with discussion).” Journal of the Royal Statistical Society. Series B. 54: 83– 127.

EFRON, B. (1993). “Bayes and likelihood calculations from confidence intervals.” Biometrika. 80: 3–26.

EFRON, B. and TIBSHIRANI, R. R. (1993). An Introduction to the Bootstrap. Chapman and Hall, New York.

GELMAN, A. and HILL, J. (2007). Data Analysis Using Regression and Multi- level/Hierarchical Models. Cambridge University Press.

HALL, P. (1987). “On the bootstrap and likelihood-based confidence regions.” Annals of Statistics. 18: 121–140.

HALL, P. (1988). “Theoretical comparison of bootstrap confidence intervals (with discussion).” Annals of Statistics. 16: 927–985. PAWITAN, Y. (2000). “Computing empirical likelihood from the bootstrap.” Statistics & Probability Letters. 47: 337–345.

34

R DEVELOPMENT CORE TEAM (2012). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing. Vienna, Austria. SPIEGELHALTER, D. J., THOMAS, A., and BEST, N. (2004). Winbugs, version 1.4, upgraded to 1.4.1, user manual. MRC Biostatistics Unit, Cambridge. TIBSHIRANI, R. (1988). “Variance stabilization and the bootstrap.” Biome- trika. 75: 433–444. VENABLES, W. and RIPLEY, B. (2002). Modern Applied Statistics with S. Fourth Edition. Springer-Verlag, New York.

Invited paper Received July 2012 Revised May 2013

ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84 © Instituto Interamericano de Estadística

COMPARACIÓN DE MÉTODOS DE ESTIMACIÓN DEL MODELO DE LEE-CARTER (ARGENTINA)

BLACONÁ, M.T. Consejo de Investigaciones, Facultad de Ciencias Económicas y Estadística Universidad Nacional de Rosario, Argentina [email protected]

ANDREOZZI, L. Consejo de Investigaciones, Facultad de Ciencias Económicas y Estadística Universidad Nacional de Rosario, Argentina [email protected]

RESUMEN

Se estiman las tasas de mortalidad en la República Argentina para el período 1979- 2009 utilizando el modelo propuesto por Lee y Carter. Las estimaciones de los parámetros del modelo permiten describir la tendencia y el patrón de cambio de la mortalidad. Se obtienen estimaciones de los parámetros del modelo para total, varones y mujeres mediante el método clásico, mínimos cuadrados ponderados (MCP) y máxima verosimilitud-modelo log-bilineal Poisson (MV-LBP), a través de dos algoritmos iterativos BFGS y NM. El comportamiento de los residuos es similar para ambos métodos de estimación, y las medidas de error resultan levemente más pequeñas para el caso de la estimación por MV-LBP.La ventaja que presenta la estimación alternativa se refleja en el cálculo de las variancias. Las mismas resultan en todos casos menores a las variancias calculadas para las estimaciones por el método clásico, esto se puede deber a que este método contempla la heterocedasticidad presente en los datos.

Palabras Clave

Índice de mortalidad; máxima verosimilitud log-bilineal Poisson; mínimos cuadrados ponderados; algoritmos de optimización.

58 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

ABSTRACT

Mortality Rates in Argentina are estimated for the period 1979-2009 using the model proposed by Lee and Carter. Estimates of these parameters can describe the trend and pattern of change in mortality. Estimates of the parameters of the model for both gender, men and women are obtained through the traditional method of least squares (WLS) and maximum likelihood-log-bilinear Poisson model (MV- LBP) using two iterative algorithms BFGS and NM. The residuals behavior is similar for both methods of estimation and error measures are slightly smaller in the case of the MV estimation LBP. The advantage with the alternative estimate is reflected in the calculation of the variances. They are in all cases smaller than the variances for estimates calculated by the classical method, this may be because this method take into account the heteroscedasticity in the data.

Keywords

Mortality rate; maximum likelihood Poisson log-bilinear; weighted least squares; optimization algorithms.

I. Introducción

Predecir con exactitud el proceso de envejecimiento de la población es ahora más que nunca una preocupación de los gobiernos nacionales, por sus repercusiones económicas y sociales. El modelo de Lee-Carter (1992) es un método estadístico sólido, formal, relativamente reciente y ampliamente usado en diversas partes del mundo, que permite describir el comportamiento de la mortalidad a través del tiempo por género y edad. Además resulta de gran utilidad en epidemiología, por ejemplo, para estudiar el comportamiento de las tasas de mortalidad por causa de muerte, lo que es aplicado en la promoción y prevención de la salud.

El modelo ha sido perfeccionado a través de los años, utilizando nuevos y más eficaces métodos de estimación. El método de pronóstico de Lee y Carter tiene un desarrollo estadístico riguroso, debido a que está basado en un modelo explícito que permite no solamente el cálculo de pronósticos puntuales, sino que produce también medidas de incertidumbre y sirve como base para realizar inferencias en general.

En los diversos países donde se ha aplicado,E.E.U.U. (Lee y Carter, 1992), Canadá (Lee y Nault, 1993), Chile (Lee y Rofman, 1994), Japón (Wilmoth 1996), Bélgica (Brouhns y otros, 2001) y México (González y Guerrero, 2007), este método ha proporcionado mejores resultados que los métodos tradicionales, en términos de BLACONA et al.: Comparación de métodos de estimación del modelo... 59

precisión estadística de las proyecciones. Los modelos de predicción utilizados oficialmente presentan por lo general sobreestimación de la mortalidad y principalmente falta de medidas de sensibilidad e incertidumbre de las características estimadas. En este trabajo se avanza sobre la aplicación del modelo de Lee-Carter en Argentina (Andreozzi y otros, 2011) implementando métodos alternativos de estimación, que requieren de la utilización de algoritmos iterativos, para los cuáles se presentan varias opciones.

En la sección II se presenta el modelo de Lee-Carter, su método de estimación clásico y los métodos alternativos, los algoritmos iterativos utilizados, el software empleado para su implementación y las medidas de bondad de ajuste que se tienen en cuenta en la evaluación de las diferentes estimaciones obtenidas. En el punto III se desarrolla el análisis empírico, en el mismo se describen los datos, las tasas de mortalidad específicas estimadas por edad y género, se compara algoritmos y métodos de estimación y se culmina con el análisis de los residuos. En la sección IV se presentan las conclusiones.

II. Estimación del modelo

II.1 Primera estimación del modelo

Lee y Carter (1992) propusieron un modelo simple para describir el cambio secular en la mortalidad total, como función de un único parámetro kt que varía en el tiempo . A kt se lo denomina índice de mortalidad general. Dicho modelo describe el logaritmo de la serie de las tasas de mortalidad específicas por edad como:

=( % ) =++ ε = = fxt,ln m xt , abk x xt xt , x1,..., X yt1,..., T , (1)

% donde mx, t es la tasa de mortalidad específicaen el intervalo de edad x durante el tiempo t; ax describe el patrón general de la mortalidad promediado a través del tiempo; bx representa cuán rápido varía la mortalidad para cada intervalo de edad ε frente a cambios en el índice de mortalidad general; x, t es el término de error. Con X y T se indican el número de categorías de edad y la cantidad de años evaluados respectivamente.

60 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

La tasa de mortalidad específica se define como: d % = x, t mx, t , (2) Ex, t

donde dx, t es el número de muertos con edad x en el período t y el Ex, t número de individuos en la población con edad x en la mitad del período t.

En la ecuación (1) los parámetros bx y kt admiten infinitos valores posibles. Para que el modelo quede determinado se deben incluir restricciones para dichos b = 1 k = 0 parámetros. Para ello Lee-Carter (1992) proponen ∑ x x y ∑t t , también utilizadas por Butt y Haberman (2009).

Sujeto a estas restricciones, el modelo se puede ajustar minimizando la siguiente suma de cuadrados:

X T 2 − −  ∑∑ fxt, a x bk kt  . (3) x=1 t = 1

Lee y Carter propusieron este método para realizar el pronóstico del índice de mortalidad general, pero también se puede utilizar para pronosticar las tendencias según causas específicas de muerte.

Para obtener las estimaciones de los parámetros es necesario minimizar la suma de cuadrados (3). Como no hay variables observables del lado derecho de la ecuación que define el modelo (1), no se pueden utilizar los modelos de regresión ordinarios. Lee y Carter (1992), proponen una solución simple que se puede hallar utilizando el primer elemento de una Descomposición en Valores Singulares (Lawson y Hanson, 1974) de una matriz construida a partir de las tasas y las estimaciones de los parámetros ax .

En primer lugar se estiman los parámetros ax como:

T = 1 aˆx∑ f x, t . (4) T t=1

BLACONA et al.: Comparación de métodos de estimación del modelo... 61

A partir de estas estimaciones se define la matriz:

fa−ˆ... fa − ˆ  1,1 1 1,T 1  G = M O M  . (5) − −  faX,1ˆ X... fa XTX , ˆ 

Las estimaciones de bx y kt se obtienen a partir de la descomposición en valores singulares de la matriz G(Koissi et al, 2006):

r   = ρ DVSG xt,  ∑ ixiti UV , , , (6) i=1 r= rango [G] i= {1,..., r } donde y ρi con son los valores singulares de la matriz U V G en orden decreciente. x, i y t, i son respectivamente los vectores singulares izquierdo y derecho correspondientes a ρi . La aproximación de la matriz se puede obtener mediante arreglos con dimensión máxima igual al rango de la matriz G , teniendo en cuenta la magnitud de los valores singulares. A partir de   ρ ˆ = ˆ = ρ aproximar DVS G x, t  ~ 1Ux ,1 V t ,1 se estima bx U x ,1 y kt1 V t ,1 . Para cumplir con la restricción de que la suma de los bx del modelo sea 1, se dividen las ˆ ˆ componentes de bx por su suma y se multiplica a kt por la suma de las ˆ componentes de bk para mantener la relación de igualdad (6).

Con esta metodología de estimación es necesaria una segunda etapa en la que se impone una restricción que permita obtener un índice de manera tal que el número de muertes observadas sea igual a las esperadas (Lee y Miller, 2001):

X =() + dt∑ E xt, exp abk xxt (7) x=1 donde dt es el total de muertes observadas en el año t y Ex, t son los expuestos al riesgo en el período t para el intervalo de edad x.

62 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

II.2. Métodos alternativos de estimación

II.2.1. Mínimos Cuadrados Ponderados

La implementación de Mínimos Cuadrados Ponderados (MCP) resuelve el problema que genera el uso de DVS, minimizando la siguiente suma de cuadrados de errores (Wilmoth, 1993):

X T 2 − −  ∑∑ dxt, f xt , a x bk xt  , (8) x=1 t = 1

Sujeta a las mismas restricciones que se impusieron a los parámetros en la estimación propuesta por Lee-Carter (1992).

Puede ocurrir que no se presenten muertes para un determinado año y una determinada categoría de edad, sin embargo, un número nulo de defunciones puede constituir una tasa de mortalidad. La elección de dx, t está estadísticamente justificada utilizando el siguiente resultado demostrado por Wilmoth (1993):

  ≈ 1 var fx, t  . (9) dx, t

En este caso se aplica el método convencional de MCP y se evita la segunda etapa de estimación del método presentado en la sección II.1 para el cálculo del índice general de mortalidad.

II.2.2. Máxima Verosimilitud Log-Bilineal-Poisson

Para la estimación del modelo de Lee-Carter (1992), por el método clásico LC y por MCP, se supone que los errores tienen un comportamiento homocedástico, es decir poseen la misma variancia a través de todas las edades, supuesto que no siempre se cumple. Alho (2000) sugiere utilizar Máxima Verosimilitud Log- Bilineal-Poisson (MV-LBP). Este método se basa en suponer que la variable aleatoria Dx, t , número de defunciones en el intervalo de edad x en el período t, λ tiene una distribución de Poisson con media x, t . P ermite incorporar la λ = heterocedasticidad al modelo ya que xt,m xt , E xt , BLACONA et al.: Comparación de métodos de estimación del modelo... 63

m=exp( abk + ) donde xt, x xt , denominada tasa de mortalidad subyacente (Wilmoth, 1993).

La función de verosimilitud para una única combinación de edad-tiempo se puede escribir como:

λ d e−λ L() d ,λ = . (10) d !

De forma similar la función de log-verosimilitud es

ldd( ,λ) = ln( λ) − λ − ln( d ! ) . (11)

Asumiendo independencia entra las observaciones, se suma a través de las distintas edades y tiempos y se obtiene la log-verosimilitud total de la forma:

l= dln(λ) − λ − ln( d ! )  ∑ xt xt, xt ,, xt xt ,  . (12)

λ Entonces maximizar la log-verosimilitud (12) con respecto a x, t equivale a maximizar:

d ln (λ) − λ  ∑ xt xt, xt , xt ,  . (13)

λ Si no hay restricciones sobre x, t , se verifica que la ecuación alcanza su máximo λ = valor cuando xt,d xt , . Por otro lado para el modelo de Lee Carter, se requiere

+ λ = = ax b x k t xt,,,mE xtxt e E xt , , (14) en consecuencia las estimaciones máximo verosímiles de los parámetros del + λ ax b x k t modelo de Lee-Carter se encuentran sustituyendo x, t por e E x, t en la ecuación (13) y maximizándola con respecto a ax , bx y kt . Este enfoque se conoce también como modelo log-bilineal de Poisson y se describe en Brouhns y otros (2002).

64 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

II.3. Algoritmos iterativos

Por ser el modelo no lineal se deben utilizar algoritmos de optimización, entre los algoritmos más difundidos se encuentran los métodos conocidos como “Quasi- Newton” y “Simplex”, ambas rutinas de minimización alcanzan resultados similares.

II.4. Software: paquetes y funciones

En el presente trabajo las estimaciones se obtienen a partir del uso de funciones de optimización disponibles en R (DevelopmentCoreTeam, 2008). Para la implementación de los métodos alternativos de estimación propuestos por Wilmoth (1993) se utilizan el algoritmo NM (Nelder-Mead, 1965) y el algoritmo BFGS (Broyden, 1970; Fletcher, 1970; Goldfarb, 1970 y Shanno, 1970). Existen distintos paquetes de R que aplican estos algoritmos. Para la elección de las funciones y los paquetes a aplicar se tomaron en cuenta aspectos tales como, los requisitos de los valores iniciales y la posibilidad de incluir o no restricciones. Los paquetes que finalmente fueron seleccionados son alabama (augmentedlagrangianadaptivebarrierminimizationalgorithm) con su función “auglag” para la aplicación del algoritmo BFGS y dfoptim (derivate free optimization) función “nmk”, que permite la aplicación del algoritmo NM.

La función “auglag” permite incluir restricciones a los parámetros de la función a optimizar de manera directa, ya sean igualdades o desigualdades, y es el mismo algoritmo el que las adapta con cada iteración. Mientras que en el caso de la función “nmk” se incluyen las restricciones de los parámetros mediante un sumando ponderado agregado a la misma función a optimizar. Para mantener la estabilidad del algoritmo la ponderación se debe ir incrementando en forma progresiva.

II.5 Bondad de ajuste

Para medir y comparar la bondad de ajuste de los modelos estadísticos se debe probar que los residuos son independientes e idénticamente distribuidos (i.i.d.) Estas condiciones se pueden evaluar utilizando gráficos de contorno. Los mismos emplean tonalidades de grises para indicar la magnitud de los residuos. Los tonos más claros indican residuos cercanos a cero y a medida que se hacen más oscuros indican valores de los residuos que se vuelven más grandes en valor absoluto. El sentido positivo o negativo se debe indicar con colores opuestos (en esta publicación se incluyen dichos gráficos en escala de grises). Si en los mismos se detecta un patrón en los residuos o bien franjas del mismo tono de gris, pueden BLACONA et al.: Comparación de métodos de estimación del modelo... 65

estar significando falta de independencia en los mismos y/o atribuirse a la existencia de interacción entre edad y tiempo.

Es posible calcular además de los residuos tradicionales (valores observados menos estimados bajo el modelo) residuos específicos para cada método de estimación, como por ejemplo en la estimación por MCP se calculan los residuos ponderados:

− ˆ , = , ( fxt, f xt , ) (15) mientras que para la estimación por MV-LBP se utilizan los residuos deviance : 1 d   2 rsignd=−() Dˆ dln x, t  −−() d D ˆ  , (16) d xt,,, xtxtˆ  xt ,, xt D´x , t   ˆ + ˆ ˆ ˆ = = ax b x k dónde Dxt, mEˆ ¨,, xtxt e E xt , .

Otra alternativa para evaluar el cumplimiento de supuestos acerca de los residuos (Koissi y otros, 2006) es realizar gráficos de dispersión de los mismos a través de las edades y los años evaluados, para verificar si están idénticamente distribuidos. Para un buen ajuste se espera observar residuos con baja dispersión que pueden delimitarse con dos bandas.

III. Análisis empírico

III.1 Los datos

Lee y Carter proponen un período de 30 años como base para realizar el análisis. Los datos disponibles para Argentina referidos a totales de población y defunciones por edad y sexo, comprenden desde 1979 a 2009, por lo tanto cubren el mínimo propuesto por los autores.

Los datos del período 1979-2001 son proporcionados por el Sistema de Información Estadística de la Organización Mundial de la Salud. La información referente a los últimos años proviene de la Dirección de Estadística e Información de Salud del Ministerio de Salud de la Nación. La existencia de años comunes con valores coincidentes permite concatenar ambas series.

Los grupos etarios quedan determinados por los siguientes intervalos, el primero de 0 a 4 años y luego intervalos decenales, hasta el último de ellos de 75 o más años 66 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

de edad, quedando conformadas 9 categorías. La implementación de nueve categorías se basa en el mayor desglose posible que permiten los datos. En el período 2002-2009 se dispone de los datos de población en categorías más amplias que en el período 1979-2001, lo que obliga a adoptar este esquema con el fin de poder calcular las correspondientes tasas específicas por edad. En particular se presenta un único intervalo de población de 0 a 4 años, cuando desde el punto de vista epidemiológico es más frecuente y conveniente que este intervalo se halle dividido en dos categorías: menores de un año (mortalidad infantil) y de 1 a 4 años. La última categoría de 75 años y más también es más amplia de lo deseable, dado que representa un grupo heterogéneo respecto a la tasa de mortalidad.

Se actualizan las estimaciones de los parámetros ax , bx y kt obtenidas por el método clásico (LC) en Andreozzi y otros (2011), agregando el período 2007- 2009, y se las utiliza como valores iniciales para las estimaciones por MCP y MV- LBP.

III.2 Resultados

Se calculan las estimaciones de los parámetros del modelo de Lee y Carter para el período 1979-2009 por los métodos: 1) LC; 2) MCP y 3) MV-LBP. Para los métodos 2) y 3) se utilizan dos algoritmos iterativos BFGS y NM. La estimación de los parámetros del modelo se realiza para varones, mujeres y total (ambos sexos). En el anexo se presentan los resultados para varones y mujeres (Tabla A1 a A2)

Tabla 1. Estimaciones de los ax para el total, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

a MV-LBP MCP x, tot LC Intervalo BFGS NM BFGS NM 0-4 -5,290820 -5,291248 -5,291257 -5,290114 -5,290153 5-14 -8,011304 -8,011792 -8,012182 -8,009787 -8,010131 15-24 -7,035488 -7,033725 -7,033538 -7,032518 -7,032447 25-34 -6,680071 -6,678480 -6,678629 -6,676322 -6,676454 35-44 -6,039942 -6,039951 -6,039956 -6,039412 -6,039517 45-54 -5,168314 -5,168742 -5,168731 -5,168335 -5,168299 55-64 -4,346699 -4,346749 -4,346693 -4,346455 -4,346439 64-74 -3,563899 -3,563587 -3,563539 -3,563208 -3,563165 75 y más -2,351799 -2,350861 -2,350814 -2,350469 -2,350311

BLACONA et al.: Comparación de métodos de estimación del modelo... 67

Tabla 2. Estimaciones de los bx para el total, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

b MV-LBP MCP x, tot LC Intervalo BFGS NM BFGS NM 0-4 0,289483 0,289252 0,285238 0,289802 0,289615 5-14 0,159453 0,161581 0,161045 0,160412 0,161094 15-24 0,029922 0,027655 0,027883 0,027564 0,027900 25-34 0,080122 0,079071 0,078368 0,078674 0,078928 35-44 0,138031 0,136542 0,135187 0,136637 0,136671 45-54 0,110669 0,110269 0,108774 0,110680 0,110653 55-64 0,076022 0,077075 0,076073 0,077329 0,077255 64-74 0,074281 0,075316 0,074356 0,075649 0,075583 75 y más 0,042017 0,043239 0,042679 0,043254 0,043251

68 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

Tabla 3. Estimaciones del índice kt para el total, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

MV-LBP MCP kt, tot LC BFGS NM BFGS NM 1979 2,170703 2,274933 2,309222 2,272541 2,274698 1980 2,029607 1,892378 1,921914 1,887519 1,891048 1981 2,110375 1,921902 1,951107 1,917949 1,922461 1982 0,699505 1,188720 1,200717 1,205407 1,208129 1983 1,372327 1,381970 1,405505 1,378719 1,383727 1984 1,526835 1,263817 1,283174 1,270949 1,275157 1985 0,619211 0,537014 0,550414 0,533855 0,534622 1986 0,668353 0,663396 0,673454 0,657869 0,658439 1987 0,936585 0,662465 0,670912 0,662835 0,664260 1988 0,751967 0,715151 0,727678 0,709826 0,710158 1989 0,431158 0,555106 0,559774 0,551465 0,553499 1990 0,460633 0,554381 0,564770 0,552761 0,553679 1991 0,225102 0,387234 0,385399 0,385782 0,389450 1992 0,286905 0,317267 0,322517 0,312054 0,311970 1993 0,139769 0,110180 0,113536 0,105509 0,106371 1994 -0,489223 -0,222044 -0,221313 -0,216882 -0,214114 1995 -0,146474 -0,143847 -0,150141 -0,146750 -0,145622 1996 -0,414375 -0,271053 -0,275389 -0,269990 -0,268639 1997 -0,673892 -0,526697 -0,532448 -0,524404 -0,520955 1998 -0,332591 -0,391853 -0,397819 -0,394216 -0,393692 1999 -0,204365 -0,451983 -0,467749 -0,447480 -0,452612 2000 -1,079552 -0,960690 -0,978105 -0,959871 -0,961711 2001 -0,902423 -0,947023 -0,964028 -0,946999 -0,950934 2002 -0,553365 -0,801584 -0,812777 -0,800520 -0,801365 2003 -0,521630 -0,634707 -0,642592 -0,634713 -0,637913 2004 -1,178721 -1,177705 -1,192073 -1,176565 -1,178978 2005 -1,468556 -1,472342 -1,491423 -1,469462 -1,470275 2006 -1,770747 -1,685368 -1,714619 -1,684202 -1,689241 2007 -0,925930 -1,223384 -1,252377 -1,217819 -1,222725 2008 -1,800056 -1,699503 -1,703917 -1,699063 -1,706517 2009 -1,956204 -1,816133 -1,843055 -1,816105 -1,822967

Las estimaciones de los ax y los bx que se presentan en las Tablas 1 y 2 mantienen el mismo comportamiento general que las obtenidas por Andreozzi y otros (2011).

Se evalúan las diferencias entre las estimaciones de los ax y los bx realizadas con BLACONA et al.: Comparación de métodos de estimación del modelo... 69

ambos algoritmos. Las diferencias medias absolutas resultan inferiores al 0,001. (Tabla A7 Anexo)

Estas estimaciones representan la forma en que la mortalidad se comporta a través de los diferentes grupos de edad. Las estimaciones para total, varones y mujeres del parámetro de “forma”, ax , para Argentina son similares a los de la mayoría de los países en los que se aplicó el modelo: una mortalidad alta al comienzo de la vida, luego baja rápidamente hasta un mínimo en el intervalo de 5 a 14, aumenta relativamente lento hasta los 35 o 45 años, y de ahí crece más rápidamente, llegando a superar los niveles de las primeras edades, esto coincide con lo expresado por Ortega A. (1987). Las estimaciones de los bx describen el cambio en la mortalidad en el intervalo de edad x , frente a un cambio en kt . Cuando bx es grande para cierto intervalo de edad, indica que la tasa de mortalidad en dicho intervalo varía sustancialmente cuando el nivel general de mortalidad cambia. Esto sucede en los dos primeros intervalos, dado que los valores más altos de bx se dan en los grupos etarios más jóvenes, de 0 a 4 años y de 5 a 14 años (Tabla 2), indicando una mayor sensibilidad de estos grupos a las variaciones en el índice de k b mortalidad general t . Cuando x es pequeño, significa que las tasas de mortalidad para esa edad varían levemente cuando el nivel general de mortalidad b cambia, se destaca el valor negativo de 15, v para varones, que pertenece al grupo de edad entre 15 y 24 años (Tabla A3 Anexo). Es importante remarcar que el valor es muy cercano a cero, lo que puede indicar también que la tasa para ese grupo es, prácticamente constante.

k En la Tabla 3 se presenta el índice t para el total durante el período 1979-2009, el mismo tiene un comportamiento similar al índice que se obtuvo en Andreozzi y otros (2011). Para el nuevo período se presenta una suba en el año 2007 (Figura 1.). Las causas de este pico son motivo de un análisis mayor. Una posible hipótesis que explique este aumento en el índice general que se produce principalmente en la categoría de 75 años y más, es que en dicho año se produjeron fríos extremos, las condiciones climáticas podrían haber impulsado un aumento en las muertes de adultos mayores por enfermedades relacionadas con el sistema respiratorio.

Si se comparan los valores correspondientes al índice kt obtenido por MCP y MV- LBP se obtienen diferencias medias menores a 0,03 (Tabla A8 Anexo). Las estimaciones que se obtienen utilizando los distintos algoritmos, BFGS y NM, presentan diferencias menores al 0,02. (Tabla A7 Anexo). No existe una marcada 70 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

superioridad de un algoritmo frente al otro en cuanto a los resultados que se obtienen, pero sí en cuanto a la facilidad de implementación. BFGS tiene la ventaja de poder incluir las restricciones a los parámetros de manera directa.

El índice kt (Figura 1) representa la variación en el nivel de mortalidad en el tiempo, es decir, describe la tendencia general de la mortalidad. Se destaca en todos los casos, que a partir del año 2003 los índices para cada género y el total presentan una marcada similitud, incluso para el valor pico que se presenta en el año 2007.

Figura 1. Series históricas estimadas del índice general de mortalidad para total, varones y mujeres.

BLACONA et al.: Comparación de métodos de estimación del modelo... 71

Para evaluar las mejoras que generan los métodos de estimación alternativos del índice general de mortalidad, se calculan las variancias de las nuevas estimaciones y de las que se obtienen por el método clásico. Las variancias calculadas para los índices de mortalidad obtenidos por MCP y MV-LBP, (Tabla 4) resultan en todos casos menores a las calculadas por el método clásico.

Tabla 4. Variancia del índice general de mortalidad, para el método clásico, MCP y MV- LBP, estimados con algoritmo BFGS y NM.

MV-LBP MCP Variancia LC BFGS NM BFGS NM Ambos 1,30050 1,25499 1,29173 1,25284 1,25897 sexos Varones 1,06955 0,98935 0,96043 0,99772 0,99557 Mujeres 1,85459 1,75435 1,71194 1,75228 1,78151

III.3 Evaluación de los residuos

La suma de los cuadrados de los residuos (logaritmos de las tasas de mortalidad estimados menos logaritmos observados) se calcula tanto utilizando la estimación clásica del modelo como MCP y MV-LBP. En todos los casos la suma de cuadrados es mayor para los varones (Tabla 5). Al comparar dicha medida tanto entre métodos de estimación, como entre algoritmos no se detectan diferencias.

Con fines comparativos se calculan diferentes medidas resumen, como la suma de los errores deviance al cuadrado para los modelos estimados por MV-LBP (Tabla 72 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

6) y la suma de errores ponderados (en el caso de modelos estimados por MCP (Tabla 7). Estas medidas específicas para cada método de estimación permiten comparar la utilización del algoritmo BFGS con el algoritmo de NM. En los tres casos se observan resultados similares, levemente más bajas para BFGS, destacándose la mayor diferencia en el subgrupo de mujeres.

Las sumas de cuadrados de los residuos ponderados y deviance resultan más altas para el ajuste del total, algo menor en varones y más baja aún en mujeres.

Tabla 5. Suma de residuos al cuadrado, para el método clásico, MCP y MV-LBP, estimados con algoritmo BFGS y NM.

MV-LBP MCP SSR LC BFGS NM BFGS NM Total 0.789 0.539 0.538 0.538 0.538 Varones 1.208 0.692 0.693 0.692 0.693 Mujeres 0.942 0.588 0.594 0.590 0.660

Tabla 6. Suma de residuos deviance al cuadrado, para el método MV-LBP, estimados con algoritmo BFGS y NM.

SR deviance BFGS NM Total 4243.22 4244.07 Varones 3091.11 3091.37 Mujeres 2043.74 2107.44

Tabla 7. Suma de residuos ponderados al cuadrado, para el método MCP, estimados con algoritmo BFGS y NM.

SRponderados BFGS NM Total 8466.68 8467.61 Varones 6156.00 6156.13 Mujeres 4084.33 4217.35

En la Tabla 6 y la Tabla 7 se observa que los errores de estimación por BFGS y NM resultan prácticamente iguales. Las diferencias más notorias se observan para mujeres. En general el desempeño resulta superior para el algoritmo BFGS y la estimación por máxima verosimilitud por ello se profundiza el análisis sobre estas estimaciones.

BLACONA et al.: Comparación de métodos de estimación del modelo ... 73

Con el fin de observar el comportamiento de los residuos en relación a las tasas se construyen los residuos de los antilogaritmos de los valores estimados menos las tasas observadas (Figura 2). En un gráfico de contorn o para residuos independientes se espera observar zonas pequeñas y mezcladas de tonos de grises. En los residuos observados se presentan grupos o bandas que podrían indicar falta de independencia Se detectan algunos valores alejados del cero para el interv alo de “75 años y más”. (Figuras 2 y 3).

En los tres casos analizados, los residuos son cercanos a cero y alternan valores positivos y negativos, aunque la alternancia debería ser más marcada. Los posibles “outliers” en la última franja etaria probablemen te sean resultado de la amplitud de este último intervalo, que contiene edades con comportamientos diferentes, y que idealmente si la información lo permitiera deberían estar desagregadas.

Figura 2. Gráficos de curvas de nivel para los residuos MV -LBP, utilizando algoritmo BFGS para total, varones y mujeres.

Total Varones

Mujeres

Se evalúa luego el comportamiento de los residuos deviance , específicos para la estimación por máxima verosimilitud, utilizando el gráfico de contorno (Figura 3). 74 ESTADÍSTIC A (2012), 64, 182 y 183, pp. 57-84

Bajo un comportamiento independiente de los residuos se espera observar una marcada alternancia entre tonos de grises, es decir, pequeñas zonas de uno y otro tono. En los tres casos analizados, si bien los tonos se alternan lo hacen en grupos relativamente amplios. Pero es importante destacar que los residuos son pequeños en valor absoluto, y se alternan en signo, indicando que no hay sobrestimación o subestimación.

Figura 3. Residuos deviance , utilizando algoritmo BFGS, para total, varones y mujeres.

Total Varones

Mujeres

Por último, con el fin de evaluar la correlación de los residuos deviance con el tiempo (años) y con la edad (intervalos de edad), se construyen gráficos de dispersión (Figura 4). Se detectan cambios en la variancia de los residuos a través de los grupos etarios, principalmente en edades avanzadas. Este fenómeno está también vi nculado a la amplitud del último intervalo de edad. Lee y Carter destacan este mismo aspecto en su artículo original. Los datos de mortalidad para edades superiores a los 80 años no se caracterizan por su confiabilidad y arrastran múltiples problemas de me dición (Coale y Kisker, 1987).

BLACONA et al.: Comparación de métodos de estimación del modelo... 75

Como es de esperar, la variabilidad de los residuos es mayor para el total que para cada género. Esto reafirma la importancia de modelar por subclase, lo cual permite observar que el comportamiento de la mortalidad de las mujeres presenta menos variabilidad que la de los hombres.

En los gráficos de dispersión de los residuos a través del tiempo no se detecta ningún tipo de patrón o correlación en ninguno de los casos bajo estudio. Tal como sucede en la comparación a través de las edades, la variabilidad es mayor cuando se analizan ambos géneros simultáneamente y disminuye para los residuos específicos por género. La variabilidad de los residuos del modelo ajustado para las mujeres parecería menor con respecto a la de los hombres.

Figura 4. Diagramas de dispersión

Residuos deviance vs. Edad Total Varones

Mujeres

76 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

Residuos deviance vs. Año Ambos sexos Varones

Mujeres

IV. Conclusiones

Para estudiar el comportamiento de las tasas de mortalidad en la República Argentina, se obtienen estimaciones de los parámetros que conforman el modelo propuesto por Lee y Carter (1992) con información del período 1979-2009. A través de las estimaciones de estos parámetros es posible describir la tendencia y el patrón de cambio de la mortalidad por género y para el total.

Se obtienen las estimaciones de los parámetros del modelo de Lee y Carter mediante el método clásico (Andreozzi y otros, 2011), mínimos cuadrados ponderados (MCP) y máxima verosimilitud-modelo log-bilineal de Poisson (MV- LBP). Se implementan dos algoritmos iterativos BFGS y NM, para los métodos MCP y MV-LBP. La estimación de los parámetros se realiza para varones, mujeres y total. Las mismas mantienen el mismo comportamiento que las que se obtienen BLACONA et al.: Comparación de métodos de estimación del modelo... 77

por Andreozzi y otros, (2011). Las diferencias medias absolutas observadas entre algoritmos y entre métodos de estimación resultan en ambos casos menores al 0,001, para las estimaciones de los parámetros de forma y sensibilidad, y menores al 0,03 para las estimaciones del índice general de mortalidad.

La ganancia que significa utilizar métodos de estimación alternativos del índice general de mortalidad, se refleja en la reducción de las variancias estimadas. Para las nuevas estimaciones, MCP y MV-LBP, resultan en todos los casos menores a las variancias obtenidas por el método clásico.

El comportamiento de los residuos es similar para ambos métodos de estimación. Las medidas de error resultan levemente más pequeñas para la estimación por MV- LBP lo que se podría deber a que este método incorpora la heterocedasticidad presente en los datos. En cuanto a la elección del algoritmo iterativo utilizado para la estimación, en este caso el desempeño del BFGS resulta levemente superior, siendo al mismo tiempo de aplicación directa y sencilla.

La variabilidad de los residuos es mayor para el total que para cada género. Esto reafirma la importancia de modelar por subclase, que permite observar que el comportamiento de la mortalidad de las mujeres parece tener menos variación que la de los hombres.

Se pretende continuar con la línea de análisis propuestas por Lee y Carter mediante su modelo, como así también en las modificaciones introducidas a través del tiempo por diversos autores para superarlo.

Bibliografía

ALHO, JUHA M. (2000). “A statistical look at Modeen’s forecast of the population of Finland in 1934.” Yearbook of Population Research in Finland. 36 :107-120.

ANDREOZZI, L., BLACONÁ M.T. (2011). “The Lee Carter method, for estimating and forecasting mortality: an application for Argentina .” ISF 2011 – Prague – Proceedings. http://www.forecasters.org/submissions/ANDREOZZILUCIAISF2011.pdf

BROYDEN, C. (1970), “The convergence of a class of double-rank minimization algorithms.” Journal of the Institute of Mathematics and Its Applications. 76-79.

78 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

BROUHNS N., DENUIT M. (2001) , “Tables de mortalité prospective pour la population Bélge” , Discussion Paper 0138, Institut de Statistique, Univ. Catholique de Louvain

BROUHNS, N., DENUIT, M., VERMUNT, J., (2002).“A Poisson log-linear regression approach to the construction of projected life tables“. Insurance: Mathematics and Economics. 31 : 373-393

BUTT, Z. and HABERMAN, S. (2009). “ilc: A collection of R functions for fitting a class of Lee-Carter mortality models using iterative fitting algorithms”. Technical Report, Actuarial Research Paper No. 190, City University, London, UK.

COALE, A., KISKER, E.E. (1987) “Defects in data in old age mortality in the United States: New procedures for approximately accurate mortality schedules and life’s tables at the highest ages”. Asian and Pacific population forum. 4 (1) : 1-31.

FLETCHER, R. (1970), “A new approach to variable metric algorithms”, Computer Journal .317–322.

GOLDFARB, D. (1970), “A family of variable metric updates derived by variational means”, Mathematics of Computation . 23-26.

GONZÁLEZ PÉREZ, C. Y., GUERRERO GUZMÁN, V. M. (2007) “Pronósticos estadísticos de mortalidad y su impacto sobre el Sistema de Pensiones de México”. http://www.consar.gob.mx/premio_pensiones/pdf/2007/ganadores/Primer_l ugar.pdf

KOISSI, M.C, SHAPIRO, A.F., HOGNAS, G (2006) “Evaluating and extending the Lee–Carter model for mortality forecasting: Bootstrap confidence interval.” Insurance: Mathematics and Economics. 38 : 1-20.

LAWSON, C., HANSON, R., (1974). “Solving Least Squares Problems” .Prentice- Hall, EngleWood Cliffs, NJ.

LEE, R. D., CARTER, L. (1992 ). “Modelling and Forecasting the Time Series of U.S. Mortality.” Journal of the American Statistical Association. 87 :659-671.

LEE, R. D. and NAULT, F. (1993). “Modelling and Forecasting Provincial Mortality in Canada.” Presented at the World Congress of the International Union for the scientific Study of Population, Montreal.

BLACONA et al.: Comparación de métodos de estimación del modelo... 79

LEE R D, MILLER T. (2001).“Evaluating the performance of the Lee-Carter method for forecasting mortality.” Demography. 38(4) : 537-549.

LEE, R. D. and ROFMAN, R. (1994).“Modelling and Forecasting Mortality in Chile.” Notas. 22 (59) :182-213.

MINISTERIO DE SALUD. Dirección de Estadística e Información de Salud. Programa Nacional de Estadísticas de Salud. (2000). "Modelos de Formularios e Instructivos del Sistema de Estadísticas Vitales". Buenos Aires, Argentina.

NELDER, J.A., MEAD N. (1965), “Simplex Method for function minimization”, Computer Journal. 7: 308–313.

ORTEGA A. (1987), “ Tablas de mortalidad” , CELADE, Serie E, N° 1004, San José, Costa Rica.

R DEVELOPMENT CORE TEAM (2008) R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.ISBN 3-900051-07-0, URL http://www.R-project.org )

SHANNO, D. (1970), “Conditioning of quasi-newton methods for function minimization.” Mathematics of Computation. 24 : 647-656.

WILMOTH, J.R. (1993 ). “Computational Methods for Fitting and Extrapolating the Lee-Carter Model of Mortality change.” Technical Report, Department of Demography. University of California, Berkeley.

WILMOTH, J.R. (1996). “Mortality Projections for Japan: A comparison of Four Methods.” Health and Mortality among Elderly Population. EdsGraziella, Caselli and Alan Lopez.Oxford University Press, New York.

WORLD HEALTH ORGANIZATION http://www.who.int/healthinfo/statistics/mortality/en/index.html

Invited paper Received August 2012 Revised May 2013 80 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

Anexo

Tabla A1. Estimaciones de los ax para varones, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

aˆ MV-LBP MCP x, v LC Intervalo BFGS NM BFGS NM 0-4 -5,193458 -5,194695 -5,194329 -5,193568 -5,193285 5-14 -7,855823 -7,855378 -7,853529 -7,854026 -7,853913 15-24 -6,723580 -6,720728 -6,720997 -6,719208 -6,719273 25-34 -6,416784 -6,413683 -6,413711 -6,409881 -6,409615 35-44 -5,804779 -5,804666 -5,804619 -5,804058 -5,804080 45-54 -4,876080 -4,876377 -4,876328 -4,875926 -4,875830 55-64 -4,017230 -4,017160 -4,017260 -4,016886 -4,016796 64-74 -3,242092 -3,241428 -3,241308 -3,240785 -3,240872 75 y más -2,197866 -2,196772 -2,196848 -2,196274 -2,196245

Tabla A2. Estimaciones de los ax para mujeres, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

aˆ MV-LBP MCP x, m LC Intervalo BFGS NM BFGS NM 0-4 -5,403233 -5,402191 -5,402129 -5,400476 -5,400325 5-14 -8,203399 -8,203602 -8,206531 -8,201266 -8,202122 15-24 -7,516199 -7,514955 -7,513075 -7,513379 -7,506508 25-34 -7,052314 -7,052112 -7,052863 -7,050527 -7,047505 35-44 -6,344224 -6,344229 -6,344837 -6,343496 -6,344908 45-54 -5,564001 -5,564349 -5,564570 -5,563994 -5,564082 55-64 -4,784588 -4,784490 -4,784257 -4,784006 -4,783693 64-74 -3,922505 -3,922452 -3,922679 -3,922185 -3,922275 75 y más -2,458517 -2,457430 -2,457262 -2,456943 -2,456790

BLACONA et al.: Comparación de métodos de estimación del modelo... 81

Tabla A3. Estimaciones de los bx para varones, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

bˆ MV-LBP MCP x, v LC Intervalo BFGS NM BFGS NM 0-4 0,330971 0,330570 0,334227 0,329879 0,329993 5-14 0,189618 0,187158 0,183125 0,187276 0,186848 15-24 -0,020508 -0,020662 -0,023811 -0,020049 -0,020205 25-34 0,035676 0,038630 0,037228 0,038777 0,038729 35-44 0,148330 0,145641 0,146865 0,145446 0,145443 45-54 0,138190 0,136634 0,138202 0,136649 0,136732 55-64 0,092206 0,092796 0,093704 0,092697 0,092758 64-74 0,063756 0,065273 0,066124 0,065387 0,065450 75 y más 0,021761 0,023959 0,024344 0,023937 0,023984

b Tabla A4. Estimaciones de los x para mujeres, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

bˆ MV-LBP MCP x, m LC Intervalo BFGS NM BFGS NM 0-4 0,242120 0,240553 0,242819 0,240652 0,237411 5-14 0,128239 0,130139 0,126855 0,130006 0,131624 15-24 0,113284 0,111794 0,110576 0,111567 0,113176 25-34 0,142372 0,140333 0,140239 0,139767 0,140215 35-44 0,124789 0,123767 0,124254 0,123847 0,123304 45-54 0,070477 0,070331 0,070623 0,070596 0,070379 55-64 0,054761 0,055690 0,055961 0,055829 0,055998 64-74 0,079562 0,080725 0,081587 0,080958 0,080501 75 y más 0,044397 0,046668 0,047313 0,046778 0,047391

82 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

Tabla A5. Estimaciones del índice kt para varones, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

ˆ MV-LBP MCP kt, v LC BFGS NM BFGS NM 1979 1,736792 1,896198 1,865463 1,909674 1,908066 1980 1,954074 1,668874 1,642286 1,672204 1,670030 1981 1,883432 1,667674 1,639296 1,672721 1,670959 1982 0,299911 1,005740 0,989969 1,030663 1,029579 1983 0,930780 1,146164 1,129506 1,150882 1,148058 1984 1,357896 1,092989 1,118524 1,104594 1,104724 1985 0,366051 0,438622 0,440555 0,437508 0,435164 1986 0,437208 0,570402 0,545245 0,568720 0,568708 1987 0,718369 0,545773 0,542443 0,545574 0,544632 1988 0,610313 0,646104 0,625616 0,643813 0,641832 1989 0,380545 0,517177 0,509186 0,516116 0,514046 1990 0,377076 0,508254 0,507351 0,509613 0,510556 1991 0,370855 0,433254 0,424708 0,431412 0,428389 1992 0,443052 0,360383 0,357342 0,357809 0,358635 1993 0,346946 0,175332 0,153829 0,172785 0,173950 1994 -0,184717 -0,037317 -0,039084 -0,038624 -0,039501 1995 0,069901 -0,054555 -0,058818 -0,057314 -0,055832 1996 -0,068475 -0,079972 -0,077470 -0,081900 -0,079447 1997 -0,353123 -0,342318 -0,341194 -0,345034 -0,343439 1998 -0,059522 -0,256510 -0,258803 -0,259744 -0,257197 1999 0,014281 -0,382853 -0,374781 -0,379491 -0,379058 2000 -0,793096 -0,766597 -0,772320 -0,771745 -0,771449 2001 -0,761746 -0,859826 -0,853000 -0,865410 -0,865003 2002 -0,412561 -0,741332 -0,729977 -0,745415 -0,745517 2003 -0,423798 -0,699491 -0,689273 -0,703496 -0,703365 2004 -1,182212 -1,088723 -1,057758 -1,092480 -1,091335 2005 -1,450440 -1,317835 -1,304344 -1,323942 -1,322886 2006 -1,799735 -1,519526 -1,503088 -1,524268 -1,523141 2007 -0,992417 -1,232804 -1,204412 -1,238081 -1,235396 2008 -1,815419 -1,569432 -1,524766 -1,573254 -1,571595 2009 -2,048675 -1,723850 -1,701311 -1,723890 -1,722888

BLACONA et al.: Comparación de métodos de estimación del modelo... 83

Tabla A6. Estimaciones del índice kt para mujeres, por MV-LBP y MCP, utilizando algoritmos BFGS y NM.

ˆ MV-LBP MCP kt, m LC BFGS NM BFGS NM 1979 2,750600 2,831009 2,801036 2,825919 2,840769 1980 2,200299 2,197131 2,187336 2,193519 2,202883 1981 2,458700 2,302206 2,286765 2,298365 2,340553 1982 1,136391 1,524967 1,499681 1,539628 1,462107 1983 1,942192 1,767852 1,703102 1,764706 1,819010 1984 1,812645 1,531958 1,508756 1,536093 1,509363 1985 0,950647 0,736885 0,719140 0,737062 0,862445 1986 0,974170 0,867235 0,862451 0,861991 0,899734 1987 1,248766 0,861226 0,872992 0,869175 0,875531 1988 0,966437 0,845513 0,829208 0,839380 0,887770 1989 0,495507 0,623540 0,598270 0,618541 0,632007 1990 0,580054 0,640385 0,627512 0,635769 0,660389 1991 0,081217 0,319529 0,321441 0,321135 0,281290 1992 0,145631 0,240468 0,243220 0,235721 0,199176 1993 -0,076266 -0,013102 -0,023942 -0,018503 0,004330 1994 -0,891715 -0,504292 -0,503446 -0,496067 -0,692840 1995 -0,381893 -0,292352 -0,269292 -0,296548 -0,359633 1996 -0,851919 -0,583644 -0,582763 -0,582644 -0,593927 1997 -1,088961 -0,802350 -0,787689 -0,800158 -0,879832 1998 -0,637701 -0,639175 -0,621567 -0,644454 -0,651790 1999 -0,414606 -0,605934 -0,595095 -0,604087 -0,501816 2000 -1,472047 -1,281708 -1,293429 -1,281978 -1,362226 2001 -1,155020 -1,182342 -1,189416 -1,182203 -1,230649 2002 -0,708847 -0,957149 -0,947444 -0,954406 -0,798739 2003 -0,596900 -0,603986 -0,564873 -0,601594 -0,651816 2004 -1,213631 -1,287427 -1,256410 -1,288556 -1,261186 2005 -1,571263 -1,646721 -1,625997 -1,650905 -1,613525 2006 -1,865695 -1,861454 -1,849660 -1,863906 -1,757637 2007 -0,860717 -1,231981 -1,199900 -1,212882 -1,201284 2008 -1,939207 -1,879653 -1,877574 -1,883833 -1,967804 2009 -2,039478 -1,916638 -1,872935 -1,914279 -1,952654

84 ESTADÍSTICA (2012), 64, 182 y 183, pp. 57-84

Tabla A7. Diferencias medias absolutas entre algoritmos.

Parámetro BFGS NM

kt 0.004 0.029

ax 0.001 0.001

bx 0.0002 0.001

Tabla A8. Diferencias medias absolutas entre métodos de estimación.

Parámetro MV-LBP MCP

kt 0.015 0.019

ax 0.0004 0.0005

bx 0.001 0.0004

ESTADISTICA (20xx), 64, 182, pp. c Instituto Interamericano de Estad´ıstica

REVISION´ DE LA ESTIMACION´ ROBUSTA EN MODELOS SEMIPARAMETRICOS´ DE SUPERVIVENCIA

ENRIQUE E. ALVAREZ´ Universidad Nacional de La Plata y CONICET [email protected]

JULIETA FERRARIO Universidad Nacional de La Plata y CONICET [email protected]

RESUMEN

En An´alisis de Supervivencia se analizan datos referidos al tiempo final de ocurren- cia de un evento, T ,yasociadoa´este se recogen un vector de variables explicativas independientes o “covariables”, Z. Lo que se desea es modelar la relaci´onentre T y Z, y el enfoque m´ascom´un para esto se basa sobre la funci´onde intensidad o tasa de riesgo, definida como Pr (T ≤ t + |T>t) λ(t) := lim ↓0 

t que representa el riesgo instant´aneo en el tiempo . Una generalizaci´onde los modelos para la funci´on de riesgo incluye variables regresoras. Estos´ pueden ser formados de varias maneras y los tres modelos semiparam´etricos m´as utilizados y a los que hacemos referencia aqu´ı son: de riesgo proporcional, de tiempo de falla acelerado y de riesgo aditivo. El objetivo de esta revisi´on es sintetizar las propues- tas de robustificaci´onrealizadas hasta el momento para los modelos proporcional, de falla acelerado y aditivo, comentando posibles generalizaciones y extensiones.

Palabras clave

Modelos de riesgo proporcional; modelo de riesgo de falla acelerado; modelo de riesgo aditivo; estimaci´onrobusta. ABSTRACT

Survival Analysis analyzes data referring to times until the occurrence of an event, T , which is collected together with a vector of independent variables or “covaria- tes”, Z. What is desired is to model the relationship between T and Z,andthe

2 most common approach is based on the intensity function or hazard rate, defined as Pr (T ≤ t + |T>t) λ(t) := lim , ↓0 

t which represents the instantaneous risk at time . A generalization of the models for the hazard function includes covariates. These can be formed in various ways and the three most commonly used semiparametric models and are referred in the review. They are the proportional hazards, the accelerated failure time and the additive risks models. The aim of this review is to summarize the proposals made for robustification in the proportional model, the accelerated failure time model and the additive model, commenting on possible generalizations and extensions.

Keywords

Proportional hazards model; accelerated failure time model; additive hazards model; robust estimation.

1. Introducci´on

T Para analizar datos referidos al tiempo final de ocurrencia, ,deunevento,´este se refiere como tiempo de falla. Estos tiempos suelen ser en muchos casos muy grandes, entonces en lugar de esperar hasta su falla se censuran. Dentro de los tipos de censura los que se utilizar´an aqu´ı son: censuras fijas (se observa T ∧ τ, con τ fijo y finito) o censuras aleatorias (se observa T ∧ C, donde C es una variable aleatoria no observada independiente de T ). El evento que se analiza puede ser recurrente o no, y adem´assu tiempo de falla puede ser causado por varios motivos. Asociado a cada tiempo de falla del evento se recoge un vector de covariables Z ∈ Rp que puede incluir variables cuantitativas, cualitativas, que dependan o no del tiempo e incluso pueden ser variables externas (independientes del proceso del evento recurrente) y/o internas (si no es externa).

Para modelar y determinar la distribuci´onde T , F (t), la que suponemos con- F t t f u du tinua en todo este trabajo (es decir, ( )= 0 ( ) ) se definen dos funciones importantes y ´utilesen las aplicaciones de supervivencia:

• la funci´onde supervivencia S(t)=1− F (t);

• la funci´onde riesgo o funci´onde intensidad de falla

f(t) d λ(t)= = − ln (S(t)) . S(t) dt

3

Nosotros nos focalizamos s´olo en los modelos basados sobre la funci´on de inten- sidad. Esta funci´on,antes ya definida, tambi´ense la puede definir a trav´es del {N t t ≥ } proceso de conteo de la ocurrencia del evento, ( ): 0 . La funci´on de intensidad de un individuo para el proceso del evento es definida como

Pr [ΔN(t)=1|H(t)] λ [t|H(t)] = lim , Δt↓0 Δt donde ΔN(t)=N(t +Δt−) − N(t−)yH(t)={N(s):0≤ s

Una generalizaci´onde los modelos para la funci´onde intensidad del tiempo de falla T asociada con el vector Z incluye variables regresoras. Estas´ pueden ser formadas de varias maneras y las tres m´as comunes y las cuales nos referiremos aqu´ı, para cada individuo con covariables Z,son

1. Modelo de riesgo proporcional o riesgo multiplicativo de Cox

λ t|Z λ t β Z t ( )= 0( )exp[ 0 ( )]

2. Modelo de tiempo de falla acelerado   λ(t|Z)=λ0 {t exp [β0Z(t)]} exp [β0Z(t)]

3. Modelo de riesgo aditivo

λ t|Z λ t β Z t ( )= 0( )+ 0 ( )

p donde β0 ∈ R es el vector de par´ametro de regresi´on y λ0(t)=λ(t|Z =0)esla funci´onbaseline, desconocida, arbitraria y no negativa en funci´on del tiempo. En los tres casos se desea estimar el vector de par´ametro de regresi´on, β0, y la funci´on baseline, λ0(t). Si bien esta funci´onpuede ser considerada en forma param´etrica (por ejemplo, los modelos exponencial, Weibull, Gamma, log-normal, etc.), aqu´ı s´olo veremos modelos en los que se la consideran en forma no param´etrica. Es decir, en esta revisi´on s´olo veremos modelos semiparam´etricos,ya que se supone un modelo param´etrico solamente para el efecto de la variable independiente Z. Observemos que la funci´onde intensidad es modificada por una proporci´on (en el modelo de Cox), una reescalaci´on(en el modelo de falla acelerado) y una traslaci´on (en el modelo aditivo).

Haremos, para cada uno de los modelos semiparam´etricosanteriores, una revisi´on yan´alisis de algunos trabajos focaliz´andonossolamente sobre los resultados es- tad´ısticosde la estimaci´on del par´ametro de regresi´on,motivados por la b´usqueda

4 de estimadores menos sensibles que los m´etodos cl´asicos ante observaciones ex- tremas y de alta palanca y/o a perturbaciones en la distribuci´on de F ,quese han estudiado hasta el momento. Si bien es m´asdif´ıcil estimar en modelos semi- param´etricos[yaqueenelloshayalmenosunpar´ametro de dimensi´oninfinita, como es el caso de λ0(·)] que en modelos param´etricos, cabe destacar que los procedimientos de estimaci´on descriptos aqu´ı estiman al par´ametrode regresi´on β0 sin la necesidad de estimar conjuntamente ni previamente a la funci´on λ0. Algunos procedimientos robustos basados en modelos param´etricos se pueden en- contrar por ejemplo en Huber (1981), Beran (1981), Basu, Basu y Jones (2006) y Maronna, Martin y Yohai (2006), entre otros. En la siguiente secci´on desarrollamos las propuestas de estimaci´on del par´ametro para el modelo de riesgo proporcional en el que exponemos, para el caso en que el evento sea simple, el conocido estimador de verosimilitud parcial (o estimador de Cox, 1972 y 1975) y dos propuestas robustas, la de Sasieni (1993a y 1993b) y la de Bednarski (1993). Tambi´endesarrollamos la extensi´ondel estimador de Cox, que realizan Huang y Chen (2003), a eventos recurrentes. En la Secci´on3 desarrollamos las propuestas robustas (para eventos simples) de Salibian–Barrera y Yohai (2008), y (para eventos recurrentes) de Lin, Wei y Ying (1998) y Straw- derman (2005) para el modelo de falla acelerado. Por ´ultimo,en la Secci´on 4 para la estimaci´onen el modelo aditivo daremos las ideas de Lin y Ying (1994), para eventos simples y Sun, Park y Sun (2006) para eventos recurrentes.

2. Modelo de Riesgo Multiplicativo

En el modelo cl´asicode riesgo proporcional de Cox (1972), los datos provienen de un evento simple y donde la variable explicativa es independiente del tiempo. Se observan las m ternas independientes (ti, Zi, Δi), i =1:m, donde para cada p individuo i, ti es el tiempo de falla observado (censurado o no), Zi ∈ R su vector de covariable asociado y Δi vale 0 si ti es un tiempo de falla censurado a derecha y vale 1 en caso contrario. Entonces, para el tiempo de supervivencia ti del individuo i con vector de variables independientes Zi, la funci´on de intensidad es de la forma

λ t |Z λ t β Z , ( i i)= 0( i)exp( 0 i) (1) donde β0 es un p−vector de coeficientes de regresi´on desconocido y λ0, la funci´on de riesgo para Zi = 0 (conocida como baseline), es tambi´endesconocida y es una funci´onarbitraria no negativa del tiempo.

Para estimar β0 en (1), Cox (1975) por la falta de conocimiento de λ0(·), pro- puso un m´etodo de estimaci´on denominado verosimilitud parcial (VP). La funci´on de verosimilitud parcial no es una verosimilitud en el sentido usual sino que fue motivada condicionando sobre los tiempos de fallas observados ti, donde la pro- babilidad condicional de que halla una falla en ti dado los casos que se encuentran

5

en riesgo de fallar en el tiempo ti (es decir, aquellos para los cuales tk ≥ ti)es

λ t |Z ( i i) . λ(ti|Zk) tk≥ti Luegolafunci´on de VP es

Δ Δ m i m  i λ(ti|Zi) exp(β Zi) LP (β)= =  , λ ti|Zk β Zk i=1 tk≥ti ( ) i=1 tk≥ti exp( ) donde se cancel´oelpar´ametro de “nuisance” λ0(t). Esta funci´ones tratada como la verosimilitud usual. Notar que el numerador depende ´unicamente de la infor- maci´ondel individuo quien experiment´oel evento, mientras que el denominador utiliza informaci´onsobre todos los individuos quienes no han experimentado el evento (incluyendo algunos individuos quienes ser´ıanluego censurados).

β Entonces, el estimador de VP de 0 es soluci´on de la siguiente ecuaci´onde score m  Zk β Zk tk≥ti exp( ) U P (β):= Δi Zi −  = 0. (2) exp(β Zk) i=1 tk≥ti Bajo ciertas condiciones de regularidad, el estimador es consistente y asint´otica- mente normal. Andersen y Gill (1982) extienden el modelo de Cox para eventos recurrentes y para variables explicativas externas que dependen del tiempo. Consideran el proceso m N N ,...,N m de conteo multivariado de componentes =( 1 m)delavidade individuos, donde Ni es la cantidad de eventos observados en la vida del i-´esimo individuo, i =1:m sobre el intervalo [0, 1]. Es decir que los tiempos de falla ser´an censurados por derecha. Ellos trabajan en este intervalo de tiempo por simplicidad pero hacen una discusi´on en su trabajo (Secci´on4) de c´omo extender los resultados a [0, ∞). Asumen que N tiene un proceso de intensidad aleatorio λ =(λ1,...,λm)talque

 λi(t|Zi)=Yi(t)λ0(t)exp[β Zi(t)] , (3) 0 donde Yi(t)eselproceso{0, 1} continuo a derecha, que indica con 1 cuando i− t el ´esimo individuo est´a bajo observaci´on en el tiempo , y que el vector de dimensi´on p de procesos de variables independientes Zi =(Zi1,...,Zip)espre- decible y localmente acotado.

El estimador de VP de β en (3) se define como la soluci´onde la ecuaci´on 0 m 1 1 m Z s Y s βZ s U β Z s dN s − i=1 i( ) i( )exp[ i( )] dN¯ s , AG( )= i( ) i( ) m Y s βZ s ( )=0 i=1 0 0 i=1 i( )exp[ i( )]

6

¯ m donde N = j=1 Nj, que, bajo ciertas condiciones de regularidad y utilizando resultados de martingalas locales, es consistente y asint´oticamente normal. Ob- servar que en el caso especial en que las covariables Zi sean independientes del tiempo, las funciones U P (β)yU AG(β)coinciden.

Pero el estimador de VP, β, pierde eficiencia con respecto al estimador de m´axima verosimilitud cuando β0 se aleja del origen (por ejemplo, para p =1,verla Figura 1), y tiene funci´onde influencia no acotada (Reid y Cr´epeau, 1985) haci´en- dose sensible a observaciones extremas.

Figure 1. Para un problema de dos muestras (Z =0, 1), con ausencia de censura y

λ(t|Z)=λ0 exp(β0Z)(λ0 es constante, independiente de t), Efron (1977, ecuaci´on 4.11) cal- cul´ola eficiencia relativa asint´otica (ARE) del estimador de VP comparada con el estimador de m´axima verosimilitud. Esta´ es su gr´afica donde q representa la proporci´onde1enlamuestra.

Uno de los autores que buscaron estimadores robustos a partir del estimador de ´ VP, fue Sasieni (1993a). El propone una familia de estimadores que maximizan la VP “pesada” (nos referiremos a ellos como “estimadores pesados”), es decir, le asigna, a trav´es de una funci´on de peso, m´asimportanciaaloquesucede en algunos tiempos de fallas que en otros. Esta funci´on es w(t, Pm), donde Pm /m es la medida emp´ıricadel tiempo de falla con masa 1 en cada punto, tal que w(·, Pm) sea predecible, no negativa y localmente acotada (entre otras condiciones de regularidad). Formalmente, Sasieni propone el estimador pesado de β0 como

7 soluci´on de m m  j=1 Yj(ti)Zj(ti)exp[β Zj(ti)] U S(β; w):= w(ti, Pm) Zi(ti) − m  Δi = 0 . Yj(ti)exp[β Zj(ti)] i=1 j=1 √ Este estimador resulta ser, bajo ciertas condiciones, consistente de tasa m y asint´oticamente normal. Sasieni propuso que w(t, Pm)=S(t, β), donde S(t, 0) es el estimador de Kaplan- Meier (KM) (Kaplan y Meier, 1958) de la funci´on de supervivencia marginal (es decir, ignorando las variables explicativas) y a este estimador, asumiendo que las covariables son acotadas, lo llama el estimador de Wilcoxon (por la analog´ıa que tiene con respecto al test de Wilcoxon). De esta manera, Sasieni logra dar menos peso a observaciones grandes. La eficiencia relativa asint´otica del estimador de Wilcoxon con respecto al de VP (que fue calculada por Sasieni 1993a, Corolario B, p´agina 147) para el caso en que Z sea univariado, acotado e independiente del tiempo) crece a medida que β0 se aleja del 0 y adem´as va aumentando a medida que se aumenta el porcentaje de censura. Esto se ve reflejado en la simulaci´on β que ´el realiza. Pero, por un lado, al utilizar un estimador preliminar de 0 la funci´onde peso w(t, Pm)dejar´a de ser predecible y, por otro lado, el estimador de KM no es robusto. En este sentido, Reid (1981) analiz´o la sensibilidad de la funci´onde influencia del estimador de KM al agregar una observaci´on at´ıpica. Cuando el modelo de Cox se verifica, el estimador de VP para w = 1 es eficiente (Begun, Hall, Huang y Wellner, 1983; Efron, 1977), es decir, tiene m´ınima va- rianza entre los estimadores pesados; si bien tiene funci´on de influencia no acotada. En cualquier otro caso, cuando se considera una funci´onde peso w(t, Pm) que no depende de la muestra y que no es constantemente igual a 1, o bien, que depende de la muestra, los correspondientes estimadores pesados tendr´anasint´oticamente la misma eficiencia que el estimador VP pero ser´an menos eficientes que ´el. Encuantoalafunci´on de influencia, Sasieni nota que el problema de que el estimador de VP tenga funci´on de influencia no acotada asint´oticamente es por dos potenciales razones: una, por los valores de Z “extremos” y, la otra, por los individuos que m´as sobrevivieron, es decir, por los valores grandes de T .El primero, no se soluciona sin importar la funci´onde peso w(t, Pm) que se seleccione, ya que ´esta s´olo depende de los tiempos de falla y de su distribuci´on emp´ırica. Entonces asumiendo que Z est´a acotado, cuando el estimador es el de Wilcoxon se obtiene un estimador con funci´on de influencia acotada sin importar que Pm sea o no un miembro del modelo Cox. Una medida de probabilidad P sobre (Z,T,Δ) es un miembro del modelo de Cox con par´ametro β0, que denotamos u c P ∈P(β0), si existen T y T independientes condicionalmente dado Z tal que T =min(T u,Tc), Δ = I(T u ≤ T c) y el riesgo proporcional de T u dado Z en t es  λ(t|Z)=λ0(t)exp[β0Z(t)].

Por lo tanto, para el m´etodo propuesto por Sasieni la selecci´on de la funci´onde peso w(t, Pm) a menudo ser´a una compensaci´onentre eficiencia y robustez.

8

Por otro lado, en otro trabajo de Sasieni (1993b) amplia la familia de los es- timadores anteriormente expuestas permitiendo funciones de pesos que no s´olo dependan de los tiempos de falla y de su distribuci´on emp´ırica sino tambi´en que dependan de Z. Esta familia m´asgrande de estimadores la llam´o estimadores de clase K y los defini´o de la siguiente manera: Sea K una funci´on medible de Rp × R+ ×Q →Rp Q P β , donde es una extensi´on de ( 0), que lo contiene y a P todas las posibles distribuciones emp´ıricas m, entonces, bajo ciertas condiciones, el estimador de clase K, β ,essoluci´on de K m m K Z ,T, P Y T Z βZ K Z ,T, P Z − k=1 (k i m) k( i) k exp( k) . ( i i m) i m  Δi = 0 k=1 Yk(Ti)exp(β Zk) i=1 √ El estimador βK es consistente de tasa m yasint´oticamente normal.

Observaci´on 1. Esta clase de estimadores fueron primero propuestos por Ritov y Wellner (1987) pero estos autores utilizaron funciones de peso que s´olode- pend´ıan de Z y T , mientras que Sasieni adem´as le incorpor´ola dependencia de distribuciones emp´ıricas de los tiempos de falla.

Otro trabajo en el que se modific´olaecuaci´on de estimaci´on de score del riesgo pro- porcional (2) para obtener un estimador robusto, fue el de Bednarski (1993). Las modificaciones que realiz´onos´olo producen estimadores consistentes y asint´otica- β mente normales de 0 para el modelo de riesgo proporcional sino que tambi´enpara√ peque¯nos entornos del modelo, definidos como {G : G − F ∞ ≤ / m}, donde F es la funci´on de distribuci´onacumulada “verdadera” de (T,Z,C)delmodelo de Cox, donde C es la variable de censura independiente de T dado Z.Lahe- rramienta importante que utiliza Bednarski es la diferenciabilidad Fr´echet, con la que logra una funci´on de influencia acotada y la norma del supremo del funcional del estimador conduce a un punto de ruptura no nulo.

La propuesta de Bednarski fue modificar la funci´onde score U P (β)(ver(2)),in- troduci´endole una funci´on de peso A(t, z) con ciertas propiedades de regularidad, como sigue m  A(tj, Zk)Zk exp(β Zk) tk≥tj U B(β; A):= A(tj, Z(j)) Z(j) −  Δj = 0, A tj, Zk β Zk j=1 tk≥tj ( )exp( ) donde Δj := I(Tj ≤ Cj). El efecto de la funci´on A(t, z)queest´aalaizquierda es para pesar hacia abajo las observaciones no censuradas con valores grandes de t exp(βz)yenlassumasdelcociente,A(t, z) es calculada para las “observaciones artificiales” ya que se combina el tiempo tj con variables explicativas Zk, tk ≥ tj, correspondientes a tiempos distintos, as´ıpesa hacia abajo todas las observaciones  con valores relativamente grande de β z entre todas aquellas con tk ≥ tj.Con esta “doble poda” logra dar consistencia al estimador.

9

Por ejemplo, Bednarski (1993), Minder y Bednarski (1996), Bednarski y Nowak (2003), Bednarski y Mocarska (2006) y Bednarski (2007) proponen las siguientes A t, z funciones ( ): M − min [M,texp(βz)] ,

 M − min [M,Λ(t)exp(β z)] , − t βz Λ( )exp( ) , exp αM donde M es una constante seleccionada apropiadamente, Λ(t) es la funci´on de riesgo acumulado y α es un factor de escala. Con estas funciones de peso, el estimador se calcula iterativamente y se estabiliza despu´esde la tercera o cuarta iteraci´on. Por otro lado, cuando los datos provienen de un evento recurrente es usual mode- larlos con intervalos de tiempo entre sus recurrencias. Es decir, sean Ti1<... < Tin los tiempos continuos de fallas observados donde ni := Ni(Ci)= Δij i j≥1 (con Δij := I(Tij ≤ Ci)), es el n´umero de fallas del individuo i en el intervalo de tiempo [0,Ci], donde Ci es el tiempo de censura del individuo i (con i =1:m). Luego se definen Xij := Ti(j) − Ti(j−1) como los tiempos de espera entre arribos o intervalos de tiempo entre la (j − 1) y j−´esima ocurrencia para el individuo i,y j =1:ni + 1, donde Ti0 := 0 y Ti,n +1 := Ci. i Dentro de este marco, Huang y Chen (2003) desarrollan un m´etodo que, si bien no es robusto, lo destacamos por ser una buena t´ecnicapara extender cualquier m´etodo de eventos simples a eventos recurrentes y es utilizado por varios autores. Entre ellos, en la Secci´on 4, se describir´a el trabajo de Sun, Park y Sun (2006).

Huang y Chen argumentan (al igual que el trabajo de Wang y Chang (1999) en el que estiman la funci´onde supervivencia marginal de los tiempos entre dos even- tos sucesivos) que, bajos ciertas suposiciones, los intervalos de tiempo observados completos, Xij (j =1:ni), es decir, aquellos intervalos de tiempo no censurados, est´an id´enticamente distribuidos. Entonces, la intercambiabilidad de los inter- valos de tiempo observados completos sugiere que un subconjunto de los datos observados puede ser tratado como datos observados de supervivencia en clases. Adem´as, el procedimiento de regresi´onde Cox est´andar puede ser aplicado a los datos del primer intervalo de tiempo de cada individuo, y este primer intervalo puede ser reemplazado por una selecci´on aleatoria de la misma clase. Si bien con esto se lograr´a una estimaci´onm´aseficiente, no obstante es una aproximaci´on muy costosa computacionalmente. Entonces, Huang y Chen, proponen estimar β 0 utilizando la siguiente funci´on de score ⎧   ⎫  τ ⎨ Eij Zi exp(β Zi)Y˜ij(s) ⎬ U HCh(β):= dK1(s) −   dK0(s) , ⎩  ⎭ 0 Eij exp(β Zi)Y˜ij(s)

10 donde τ es una constante (que por razones t´ecnicastiene cierta propiedad), Y˜ij(s):=I(Xij ≥ s), K0(s)=Eij [Δi I(Xij ≤ s)], K1(s)=Eij [ZiΔi I(Xij ≤ s)], ∗ Eij := Ei Ej y Ej representa el promedio emp´ırico sobre j =1:ni ,con ∗ ni := max(ni, 0). Con esto logran un estimador consistente, asint´oticamente normal y m´aseficiente que el que s´oloutiliza el primer intervalo. Nosotros hemos realizado una simulaci´onpara comparar el estimador de Huang y Chen utilizando s´oloel primer intervalo de tiempo con el que utiliza todos los intervalos de tiempo. Lo que obtuvimos, en varios casos analizados, fue que al utilizar todos los intervalos de tiempo observados no censurados se logra una mejor estimaci´on que la que s´oloutiliza el primer intervalo de tiempo observado (en los casos analizados obtuvimos una diferencia entre 0.48 y 0.92 entre las estimaciones de los coeficientes).

3. Modelo de Tiempo de Falla Acelerado

En an´alisis de supervivencia los modelos de regresi´onde tiempo de falla acelerado son unautil ´ alternativa al modelo de riesgo multiplicativo en algunos contextos. Ellos son ejemplos de modelos transformados del tiempo que puede ser utilizado tanto en el marco de eventos simples como en eventos recurrentes. Este modelo es un caso particular del modelo de tiempos transformados ya que el efecto de  Z es transformar la escala del tiempo t aexp(β0Z)t.Adem´as, este modelo es log-lineal para T ,yaque

 log T = β0Z + U, (4)

 U donde U es la variable error. Luego T =exp(β0Z)T˜ donde T˜ = e > 0tienen funci´onde riesgo λ0(t˜), que es independiente de β0. Entonces la funci´onde riesgo de T es de la forma

  λ(t|Z)=λ0 [exp(β0Z)] exp(β0Z). (5)

La ecuaci´on(4) permite aplicar procedimientos robustos de modelos de regresi´on para hallar los estimadores. Por ejemplo, el trabajo de Salibian–Barrera y Yohai (2008). Ellos proponen una clase de estimadores robustos de alto punto de ruptura cuando la respuesta contiene observaciones censuradas. Consideran el modelo de regresi´onlineal

 yi = β0xi + ui,i=1:m,

p donde xi ∈ R es el vector de covariables, los errores ui son independientes, id´enticamente distribuidas (con distribuci´on F ,sim´etrica) e independientes de las covariables xi y β0 es el vector de coeficientes desconocidos. Consideran ∗ censuras aleatorias a derecha, es decir, se observa yi =min(yi,ci) donde ci son 11 las variables aleatorias de censura no observadas, independientes, id´enticamente ∗ distribuidas e independientes de los errores ui. Entonces se observa (yi , xi,δi) con δi = I(yi ≤ ci). Ellos extienden la aproximaci´on de Buckley y James (1979) y Ritov (1990) para el caso de respuestas censuradas con una funci´on de p´erdida acotada. Proponen el M-estimador de regresi´on para observaciones censuradas definido por m β 1 E ρ u |w β , m =argmin Fβ [ ( ) i( )] β∈Rp m i=1

+ donde la funci´on ρ : R → R tiene ciertas propiedades de regularidad, Fβ es la  ∗ ∗ distribuci´on de los residuos r(β)=y − β x, wi(β)=(ri (β),δi), con ri (β)= ∗   yi − β xi los residuos censurados (con variable de censura ci − β xi,yaque ∗  ri (β)=min[ri(β),ci − β xi]) y ⎧ ⎪ρ r∗ β δ ⎨⎪ [ i ( )] si i =1 E ρ u |w β ∞ Fβ [ ( ) i( )] = ρ u dF u ⎪ r∗(β) ( ) β( ) ⎩⎪ i δ ∗ si i =0 1 − Fβ [ri (β)]

∗ Como Fβ es desconocida, se la puede estimar con el estimador de KM, Fmβ basado ∗ sobre ri (β). Luego, para garantizar la consistencia del estimador definido por

m 1 β E ∗ ρ u |w β m =argmin Fmβ [ ( ) i( )] (6) β∈Rp m i=1

∗ p se requiere que Fmβ sea consistente para Fβ para todo β ∈ R . Paraestodan algunas condiciones sobre las funciones de distribuci´onde los errores y de las censuras. Pero, bajo estas condiciones, el estimador de KM resulta ser consistente si β = β0 yparaβ = β0 engeneralnoloes. Por otra parte, el estimador βm definido como soluci´onde

m 1 EF ∗ [ψ(u)|wi(β)] xi = 0, (7) m mβ i=1 con ψ(u)=∂ρ(u)/∂u, es Fisher consistente. Notar que las ecuaciones (6) y (7) ∗ no son equivalentes como sucede en el caso de regresi´on no censurada, ya que Fmβ depende de β, no se puede obtener (7) derivando (6). Los M-estimadores con ψ mon´otona son s´olo robustos frente a outliers de alta palanca y la principal dificultad de utilizar un ψ redescendiente en (7) es que 12 en general esta ecuaci´on puede tener varias soluciones con diferentes propiedades de robustez. La ecuaci´on(6) no puede ser utilizada para obtener una soluci´on consistente de (7). Por esta raz´on, ellos definen, para β, γ ∈ Rp, m  1 u − γ xi Cm(β, γ)= EF ∗ ρ wi(β) (8) m mβ s i=1 m donde la funci´on ρ cumple las mismas propiedades de regularidad que antes y sm es un estimador robusto de escala del error. Luego definen para cada β ∈ Rp

γm(β)=argminCm(β, γ). γ∈Rp Entonces definen a un estimador de β0 por la ecuaci´on γm(βm)=0 y, alternati- vamente, para evitar la existencia de problemas, ellos definen a βm como

 βm =argmin[γm(β) Amγm(β)] , (9) β∈Rp donde Am = Am(x1,...,xm) es cualquier estimador equivariante de la matriz de covarianza de los xi. En (9) es necesario Am para mantener la equivarianza afin del estimador. El estimador βm puede ser considerado una extensi´on de los M-estimadores de Ritov (1990) para datos censurados para el caso de funciones ρ acotadas. Adem´as,este estimador tiene las mismas propiedades asint´oticas como el estimador de Ritov. Tambi´en proponen otros estimadores alternativos robustos, como los S-estimadores propuestos por Rousseeuw y Yohai (1984). Esta propuesta consiste en reem- plazar a sm en (8) por el M-escala Sm(β, γ), que es definido como soluci´onde Cm(β, γ)=b,conb = EF (ρ(u)). Sea

γm(β)=argminSm(β, γ). γ∈Rp

∗   Notar que γm(β) es el S-estimador de regresi´onde los residuos (ri (β), xi) , i =1:m. Entonces definen el S-estimador de regresi´onde las respuestas cen- suradas como el vector β˜ m tal que γm(β˜ m)=0 y, alternativamente, para evitar la existencia de problemas, tambi´en se puede definir a β˜ m como se hizo en (9). Adem´as,un estimador de escala de los residuos robusto sm puede ser definido como sm = Sm(β˜ m, γm(β˜ m)). Como se necesita resolver un problema de opti- mizaci´onaltamente complejo para calcular el estimador, ellos presentan en su trabajo un algoritmo computacional eficiente para calcularlo. Si bien estos S-estimadores tienen un alto punto de ruptura, cuando los errores son normales no pueden alcanzar simult´aneamente alta eficiencia y alto punto de 13 ruptura. Entonces para obtener estimadores con alta eficiencia y alto punto de ruptura, Salibian–Barrera y Yohai, realizan dos propuestas: los MM-estimadores ylosτ-estimadores. Ambos son extensiones a respuestas censuradas de los MM- estimadores propuestos por Yohai (1987) y de los τ-estimadores propuestos por Yohai y Zamar (1988). Sobre eventos recurrentes, en los estudios a menudo el inter´es se centra en modelar la distribuci´on del tiempo de falla entre la recurrencia de un evento (o intervalo de tiempo), o en la distribuci´on de los tiempo de cada falla. Adem´as existen procedimientos de inferencia basados en m´etodos marginales y m´etodos basados en intensidades. Los m´etodos marginales habitualmente se focalizan sobre la funci´onde tasa acumulada o funci´onde la media y no condicionan sobre la historia del evento completo. Un ejemplo de esto lo veremos en el trabajo que realizan Lin, Wei y Ying (1998). En cambio, los m´etodos de intensidad especifican como la probabilidad de recurrencia posterior depender´a de la historia del evento pasado. Aqu´ı destacaremos el trabajo de Strawderman (2005). Lin, Wei y Ying (1998) trabajan con los tiempos de falla recurrentes, es decir, para i =1:m y j =1, 2,...,seaTij el j−´esimo tiempo de falla del evento para el sujeto i−´esimo. Asumen que los sujetos son independientes, pero no se impone ninguna estructura de dependencia sobre los tiempos de recurrencia del mismo ∗ sujeto. Definen a Ni (t)comoeln´umero de fallas que han ocurrido sobre el sujeto ∗ i en el tiempo t en ausencia de censura, esto es Ni (t)= k≥1 I(Tik ≤ t). Adem´as ∗ suponen que la funci´on media del proceso de conteo Ni (t) asociado al vector de p variable explicativa Zi ∈ R , que la suponen acotada, es de la forma ∗  E (Ni (t)|Zi)=μ0 [exp(β0Zi) t] , donde β0 es un p−vector de par´ametros de regresi´on desconocido, y μ0 es una funci´oncontinua no especificada. De acuerdo a este modelo, el n´umeroesperado de eventos en el tiempo t bajo Zi = z esigualaln´umero esperado de eventos  en el tiempo t exp(β0z)bajoZi = 0. En otras palabras, el conjunto de variables explicativas Zi afecta la frecuencia de recurrencia sobre el tiempo expandiendo o contrayendo la escala del tiempo en aquellas ocurrencias de eventos por un factor  multiplicativo de exp(β0Zi) relativo a aquel de un vector de covariable cero.

Sea Ci el tiempo de censura del sujeto i, que lo asumen independiente de Tik condicionado sobre Zi. Luego el proceso de conteo Ni(t)delostiemposdefallas censurados, se pueden expresar como Ni(t)= k≥1 I(Tik ≤ t ∧ Ci). Motivados por la funci´onde score de la verosimilitud parcial para el modelo de proceso de Poisson de intensidad proporcional (Andersen y Gill, 1982) y las funciones de estimaci´on de rango pesado para el modelo log-lineal (4) (Prentice, 1978; Tsiatis, 1990; Wei, Ying y Ling, 1990), proponen la siguiente clase de funciones de estimaciones para β0 m ∞  U(β):= Q(t; β) Zi − Z¯ (t; β) dNi [t exp(−β Zi)] , (10) i=1 0 14 donde Q(t; β) tiene variaci´onacotada y converge casi seguro a una funci´oncon- tinua y m  j=1 I [t exp(−β Zj) ≤ Cj] Zj Z¯ (t; β)= m  . j=1 I [t exp(−β Zj) ≤ Cj] Ellos se refieren a U(β)comolafunci´on de estimaci´onlog-rango si Q =1ycomo m  la funci´onde estimaci´onde Gehan si Q(t; β)= i=1 I[t exp(−β Zi) ≤ Ci]/m. Para la primer funci´onde peso, como en el caso de estimaci´onde rango para el modelo log-lineal (4), la funci´onde estimaci´on U(β) es una funci´on constante a trozos de β, entonces definen el estimador β como un cero de U(β)ocomoun m´ınimo de U(β) 2. Para la funci´on de estimaci´onde Gehan, (10) se convierte en m m U β 1 Z − Z I τ T ≥ β Z − Z , ( )=m Δik ( i j) [log log ik ( i j)] i=1 j=1 k≥1 yas´ı obtienen β minimizando la funci´on m m 1 τ − T − β Z − Z , . m Δik max [log log ik ( i j) 0] i=1 j=1 k≥1

El estimador resultante puede ser ligeramente diferente al m´ınimo de U(β) 2, pero son asint´oticamente equivalentes.

El estimador β,soluci´on de U(β)=0, resulta ser consistente y asint´oticamente normal. Pero, resolver la ecuaci´on de estimaci´on U(β)=0 puede, en general,  ser arduo cuando p (la dimensi´on de Z) es grande. Entonces, proponen β como soluci´on de m U(β)= Di(β)Gi, i=1 donde ∞  Di(β):= Q(t; β) Zi − Z¯ (t; β) d {Ni [t exp(−β Zi)] 0 t  − I [t exp(−β Zi) ≤ Ci] dμ0(s; β)} , 0 con m t dN t −βZ μ t β i [ exp( i)] 0( ; )= m I t −βZ ≤ C i=1 0 j=1 [ exp( j) j] 15

y(G1,...,Gm) son variables aleatorias normales est´andarindependientes. Tambi´en  se puede obtener β como soluci´on de U(β)=G, donde G es normal con media √  m  ceroymatrizdecovarianza i=1 Di(β)Di(β) .Luego m(β−β ) tiene la misma √ distribuci´on l´ımite que m(β − β0)yadem´as la matriz de covarianza de β puede  ser estimada por la matriz de covarianza emp´ıricade β .

Cuando el modelo se ajusta razonablemente a los datos, Lin, Wei y Ying proponen que el estimador de la ecuaci´onde estimaci´onde Gehan (soluci´on de U(β)=0 o U(β)=G, que se puede resolver de manera eficiente), puede ser utilizado como un estimador inicial para estimaciones con funciones de peso m´as generales, ya que la soluci´onde la ecuaci´onde estimaci´onde Gehan ser´asimilar a las soluciones de la ecuaci´onde estimaci´on con pesos m´as generales. Adem´as, para la mayor´ıa de los efectos pr´acticos, es suficiente hacer inferencias basadas sobre la estimaci´on de Gehan.

El trabajo de Strawderman (2005) desarrolla un nuevo modelo semiparam´etrico para el efecto de las variables explicativas, independientes del tiempo, sobre la in- tensidad condicional de un proceso de conteo de eventos recurrentes. Su modelo es una extensi´on del modelo del tiempo de falla acelerado para datos de superviven- cia univariado, intervalos de tiempo entre eventos, y la estimaci´on del par´ametro de regresi´onesta motivada por las consideraciones de eficiencia semiparam´etricas.

Primero considera un sujeto con un vector de covariable Z de dimensi´on p inde- pendiente del tiempo, que experimenta el evento recurrente en los tiempos 0 =: T0

Luegolafunci´on de riesgo de Xj,dadoZ es

  λ0 [x exp(β0Z)] exp(β0Z), donde λ0 es la funci´onde riesgo asociada a F0. Entonces, en ausencia de censura y n dado Z, el proceso N(t):=max n : j=1 Xj ≤ t es un proceso de renovaci´on.

Ahora supone m sujetos independientes, donde cada uno es observado en el intervalo de tiempo finito [0,Ci]. Entonces los datos observados son [Ni(u ∧ Ci), Δi(u), Zi,u≥ 0] para i =1:m, donde Δi(u)=I(u ≤ Ci). 16

El trabajo de Strawderman fue motivado por los trabajos de Prentice (1978) (quien sugiri´oestimarβ0 del modelo semiparam´etrico(5) invirtiendo una clase de estad´ısticos de rango lineal pesado), de Tsiatis (1990) (quien estableci´olas propiedades asint´oticasde la clase de estimadores propuesto por Prentice) y de Ritov (1990) (quien estableci´o una correspondencia directa entre las funciones estimadas por Prentice y Tsiatis y las basadas sobre consideraciones de eficien- cia semiparam´etricapara modelos de regresi´onlineal censurados). Strawderman propone la clase pesada de funciones de estimaci´on,mediante la siguiente funci´on de score m n i   m nk+1 ˜ ˜ 1 k=1 Zk r=1 Ikr(Xij|β) S¯W (β):= W X˜ij(β)|β Zi − , (11) m m nk+1 I˜ X˜ |β i=1 j=1 k=1 r=1 kr( ij )

 donde X˜ij(β)=Xij exp(β Zi)paraj =1:ni +1, ni = Ni(Ci), I˜kr(t|β):= I[X˜kr(β) ≥ t)] y W (t|β) bajo ciertas propiedades de regularidad.

Como (11) es una funci´onde estimaci´on basada en rango, el estimador β puede ser definido como un cero de S¯W (β)ounm´ınimo de S¯W (β) 2. Sin embargo, puede S¯ β existir varios m´ınimos porque W ( ) no es necesariamente mon´otona. Pero, si m ni+1 ˜ W (u|β)= i=1 j=1 Iij(u|β)/m (denominado peso de Gehan), esta dificultad desaparece. Y en este caso, (11) se reduce a

m ni m nk+1 S¯ β 1 Z − Z I˜ X˜ |β , G( ):=m2 ( i k) kr( ij ) i=1 j=1 k=1 r=1 que es el gradiente de la funci´on objetivo convexa

m ni m nk+1   1 LG(β):= max log X˜kr(β) − log X˜ij(β) , 0 , m2 i=1 j=1 k=1 r=1

Los minimizadores de LG(β)y S¯G(β) son asint´oticamente equivalentes (Fygen- son y Ritov, 1994).√ Luego Strawderman toma βG =argminLG(β)yresultaser consistente de tasa m yasint´oticamente normal. Para este ´ultimoestimador Strawderman comenta que “notablemente no se asume que el intervalo de tiempo sea acotado, es una ´utilconsecuencia de la convexidad asociada con la funci´on de peso de Gehan”. Adem´as, da un algoritmo para calcular √ βG y ΓG, un estimador consistente de la covarianza de m(βG − β0). Para pesos generales, Strawderman propone un estimador βW de un paso a partir √ del βG,quetambi´en resulta ser consistente de tasa m yasint´oticamente normal. 17

4. Modelo Aditivo

Porultimo, ´ veremos los resultados estad´ısticosdel modelo de riesgo aditivo para la funci´onde intensidad que es de la forma

 λ(t|Z)=λ0(t)+β0Z(t) (12) donde β0 es el vector de par´ametro de regresi´on y λ0(t)=λ(t|Z = 0) es la funci´on baseline, desconocida, arbitraria y no negativa en funci´on del tiempo. Este modelo propuesto por Lin y Ying (1994) es una alternativa al modelo de Aalen (1980) en el cual el par´ametro de regresi´ondepende de los tiempos de falla, es decir, la funci´onde intensidad es de la forma   1 λ0(t)+β (t) Z(t)=[λ0(t), β (t) ] . 0 0 Z(t)

Primero plantearemos aqu´ı algunas de las distintas funciones de verosimilitud para el modelo aditivo s´olo para el caso de eventos simples.

La funci´on de verosimilitud condicional sobre la historia del evento del sujeto i, Hi(τ), de m individuos con funci´onde intensidad (12), donde t1 ≤ ... ≤ tm son los tiempos de falla observados en [0,τ](τ tiempo fijo finito) y Zi corresponde al vector de covariable asociado a ti,es m L β ,λ λ t β Z t − τ β Z∗ τ , C ( 0 0)= [ 0( j)+ 0 j( j)] exp Λ0( )+ 0 j ( ) j=1 Z∗ t t Z u du t t λ u du donde j ( )= 0 j( ) yΛ0( )= 0 0( ) . Luego, m ∂ Zj(tj) ∗ log LC (β0,λ0)=  − Zj (τ) . (13) ∂β λ0(tj)+β Zj(tj) 0 j=1 0

Observemos que (13) depende del par´ametrode regresi´on β0 y de la funci´on λ0(·), lo cual complicar´ıala estimaci´on de β0 ya que ser´ıa necesario estimar previamente o conjuntamente la funci´on λ0(·). Por otra parte, la funci´onde verosimilitud parcial es m  λ0(tj)+β0Zj(tj) LP (β0,λ0)=  (14) [λ0(tj)+β Zk(tj)] j=1 k∈Rj 0 donde Rj es el conjunto de riesgo en el tiempo tj. Entonces m ∂ Zj(tj) SZj log LP (β0,λ0)=  −  , (15) ∂β λ0(tj)+β Zj(tj) rjλ0(tj)+β SZj 0 j=1 0 0

18

r R SZ Z t donde j es el cardinal del conjunto j y j := k∈Rj k( j).

Notar que aqu´ıtambi´en, la funci´on de verosimilitud parcial (14) no puede aplicarse como se hizo para el caso del modelo de riesgo multiplicativo (1), pues en este caso tampoco se eliminar´ıa λ0(t)paralaestimaci´on de β0, (ver la funci´on de score (15)).

Sin embargo, hay varios autores que han podido estimar β0 sin la necesidad de recurrir a las cl´asicasfunciones de verosimilitud condicional y/o parcial antes des- critas. Entre estos autores hemos considerado el trabajo de Lin y Ying (1994) en el cual imitaron la caracter´ıstica de martingala de la funci´onde score de la verosimilitud parcial del modelo multiplicativo del par´ametro β0 logrando cons- truir una simple funci´on de estimaci´onque permite expresar en forma expl´ıcitaal estimador β0 (esto no sucede en los modelos multiplicativo y de falla acelerado). Formalmente, Lin y Ying (1994) consideran m sujetos independientes y recogen en el proceso de conteo del sujeto i, {Ni(t); t ≥ 0} el n´umero de eventos observados hasta el tiempo t. Bajoelmodelo(12),lafunci´on de intensidad para Ni(t)esta dada por

Y t d t Z Y t d t β Z t dt , i( ) Λ( ; i)= i( )[ Λ0( )+ 0 i( ) ] (16) donde Yi(t) indica con 1 si el sujeto i est´aen riesgo en el tiempo t yenencaso t t λ u du β contrario con 0 y Λ0( )= 0 0( ) . Ellos proponen estimar 0 imitando la funci´onde score de la verosimilitud parcial del modelo multiplicativo, que bajo (16), es de la forma m ∞    U(β)= Zi(t) dNi(t) − Yi(t) dΛ0(β,t)+β Zi(t) dt , i=1 0 donde Λ0 es el estimador de Λ0 del modelo (12) definido como   m  t i=1 dNi(u) − Yi(u)β Zi(u) du β,t , Λ0( )= m 0 i=1 Yi(u)

β β U β siendo un estimador consistente de 0. Luego, ( )esequivalentea m ∞ U β Z t − Z¯ t dN t − Y t βZ t dt , LY ( ):= i( ) ( ) [ i( ) i( ) i( ) ] i=1 0 Z¯ t m Y t Z t / m Y t donde ( )= j=1 j( ) j( ) j=1 j( ). Entonces el estimador queda definido expl´ıcitamente como

−1 m ∞ m ∞ ⊗2 β = Yi(t) Zi(t) − Z¯ (t) dt Zi(t) − Z¯ (t) dNi(t) . i=1 0 i=1 0

19

√ este estimador resulta ser consistente de tasa m yasint´oticamente normal, bajo ciertas condiciones de regularidad.

Nosotros hemos realizado una simulaci´on para ver el desempe¯no del estimador frente a outliers y lo que hemos notado es que el estimador β se ve influenciado por estos, lo que nos motiv´oa una nueva propuesta de un estimador robusto en la que estamos trabajando actualmente. Porultimo ´ en el caso de eventos recurrentes destacamos el trabajo de Sun, Park y  Sun (2006) en el que ajustan un modelo de riesgo aditivo λ(t|Zi)=λ0(t)+β0Zi utilizando los intervalos de tiempo entre las ocurrencias de los tiempo de falla y toman a las covariables independientes del tiempo. Ellos extienden la idea de Lin y Ying (1994) a eventos recurrentes aplicando los mismos argumentos y suposiciones que realizan Huang y Chen (2003) adem´as de introducirle una funci´on de peso a la funci´onde score de estimaci´on. Siguiendo los mismos argumentos y las mismas notaciones que utilizamos al des- cribir el trabajo de Huang y Chen (2003), Sun, Park y Sun proponen la ecuaci´on U β β de estimaci´on SPS( )=0 para estimar el par´ametrode regresi´on 0, donde τ G s U β Q s dK s − 1( ) dK s − SPS( ):= ( ) 1( ) 0( ) 0 G0(s) G s G s E Z Z I X ≤ s − 1( ) 1( ) β ds ij [ i i ( ij )] G0(s) siendo Q(s) un proceso de peso con ciertas propiedades de regularidad, τ ∈ (0, ∞) es una constante pre-especificada (en la pr´actica, τ es usualmente tomada como el tiempo de seguimiento m´as largo), G0(t)=Eij [I(Xij ≥ t)] y G1(t)= Eij [Zi I(Xij ≥ t)].

β Luego el estimador de 0 tambi´ense puede expresar de forma expl´ıcitacomo −1 τ G s G s β Q s E Z Z I X ≤ s − 1( ) 1( ) ds × = ( ) ij [ i i ( ij )] 0 G0(s) τ G s Q s dK s − 1( )dK s , ( ) 1( ) 0( ) 0 G0(s) √ que es consistente de tasa m yasint´oticamente normal. Ellos, al igual que Huang y Chen, tambi´enproponen un estimador que s´oloutiliza el primer intervalo de tiempo de cada individuo pero es menos eficiente que aquel

20 que utiliza todos los intervalos (al igual que pasa en Huang y Chen). Adem´as comentan que “un problema que necesita ser estudiado a futuro es la selecci´on Q t β de un proceso de peso ( ) que da el estimador m´aseficiente de 0 para una situaci´onparticular”. Para el estudio de simulaci´onquem realizaron, obtuvieron resultados similares para Q =1yQ(t)= i=1 I(Ci ≥ t)/m.

Agradecimientos

Estamos en deuda con los ´arbitros cuyos comentarios han sido de mucha ayuda para mejorar este art´ıculo.

Referencias

AALEN, O. O. (1980). “A model for non–parametric regression analysis of count- ing processes”. Lecture Notes on Mathematics Statistics and Probability. 2: 1–25.

ANDERSEN, P. K. and GILL, R. D. (1982). “Cox’s regression model for counting processes: a large sample study”. The Annals of Statistics. 10 (4): 1110–1120.

BASU, S., BASU, A. and JONES, M. C. (2006). “Robust and efficient paramet- ric estimation for censored survival data”. Annals of the Institute of Statistical Mathematics. 58: 341–355.

BEDNARSKI, T. (1993). “Robust estimation in Cox’s regression model”. Scan- dinavian Journal of Statistics. 20: 213–225.

BEDNARSKI, T. and NOWAK, M. (2003). “Robustness and efficiency of Sasieni– type estimators in the Cox model”. Journal of Statistical Planning and Inference. 115 (1): 261–272.

BEDNARSKI, T. and MOCARSKA, E. (2006). “On robust model selection within the Cox model”. Ecometrics Journal. 9: 179–290. BEDNARSKI, T. (2007). “On a robust modification of Breslow’s cumulated hazard estimator”. Computational Statistics and Data Analysis. 52: 234–238. BEGUN, J. M., HALL, W. J., HUANG, W. M. and WELLNER, J. A. (1983). “Information and Asymptotic Efficiency in Paramtric–Nonparametric Models”. The Annal of Statistics. 11 (2): 432–452. BERAN, R. (1981). “Efficient Robust Estimates in Parametric Models”. Zeitsch- rift fr Wahrscheinlichkeitstheorie und Verwande Gebietez. 55: 91–108.

BUCKLEY, J. and JAMES, I. (1979). “Linear regression with censored data”. Biometrika. 66: 429–436.

21

COX, D. R. (1972). “Regression Models and Life–Tables” (with discussion). Journal of the Royal Statistical Society. Series B (Methodological). 34 (2): 187–220. COX, D. R. (1975). “Partial Likelihood”. Biometrika. 62: 262–276.

EFRON, B. (1977). “The efficiency of Cox’s likelihood function for censored data”. Journal of the American Statistical Association. 72: 359, 557–565.

FYGENSON, T. R. and RITOV, Y. (1994). “Monotone estimating equations for censored data”. The Annal of Statistics. 22: 732–746.

HUANG, Y. and CHEN, Y. Q. (2003). “Marginal regression of gaps between recurrent events”. Lifetime Data Analysis. 9: 293–303.

HUBER, P. J. (1981). Robust Statistics. Wiley, New York. KAPLAN, E. L. and MEIER, P. (1958). “Nonparametric estimation from in- complete observations”. Journal of the American Statistical Association. 53: 457–481. LIN, D. Y. and YING, Z. (1994). “Semiparametric analysis of the additive risk model”. Biometrika. 81 (1): 61–71.

LIN, D. Y., WEI, L. J., and YING, Z. (1998). “Accelerate failure time models for counting processes”. Biometrika. 85 (3): 605–618.

MARONNA, R. A., MARTIN, R. D., and YOHAI, V. J. (2006). Robust Statistics: Theory and Practice. Wiley, New York.

MINDER, C. E. and BEDNARSKI, T. (1996). “A robust method for proportional hazards regression”. Statistics in Medicine. 15: 1033–1047.

PRENTICE, R. L. (1978). “Linear rank tests with right censored data”. Biome- trika. 65: 167–179. REID, N. (1981). “Influence functions for censored data”. The Annals of Statis- tics. 9(1): 78–92. REID,N.andCREPEAU,´ H. (1985). “Influence functions for proportional haz- ards regression”. Biometrika. 72 (1): 1–9.

RITOV, Y. and WELLNER, J. A. (1987). “Censoring, Martingala and The Cox Model”. Technical Report, University of Washington, Department of Statistics. 108. RITOV, Y. (1990). “Estimation in a linear regression model with censored data”. The Annals of Statistics. 18 (1): 303–328.

22

ROUSSEEUW, P. J. and YOHAI, V. J. (1984). “Robust regression by means of S–estimators”. Robust and Nonlinear Time Series Analysis (J. Franke, W. Hardle and R. D. Martin, eds.) Lecture Notes in Statist. 26: 256–276. SALIBIAN–BARRERA, M. and YOHAI, V. J. (2008). “High breakdown point robust regression with censored data”. Annals of Statistics. 36: 118–146. SASIENI, P. (1993a). “Maximum Weighted Partial Likelihood Estimators for the Cox Model”. Journal of the American Statistical Association. 88 (421): 144–152. SASIENI, P. (1993b). “Some new estimators for Cox regression”. The Annals of Statistics. 21 (4): 1721–1759.

STRAWDERMAN, R. L. (2005). “The accelerated gap times model”. Biome- trika. 92: 647–666.

SUN, L., PARK, D. and SUN, J. (2006). “The additive hazards model for recur- rent gap times”. Statistica Sinica. 16: 919–932.

TSIATIS, A. A. (1990). “Estimating regression parameters using linear rank tests for censored data”. The Annals of Statistics. 18 (19): 354–372.

WANG, M. C. and CHANG, S. H. (1999). “Nonparametric estimation of a re- current survival function”. Journal of the American Statistical Association. 94: 146–153.

WEI, L. J., YING, Z. and LING, D. Y. (1990). “Linear regression analysis of censored survival data based on rank tests”. Biometrika. 7: 845–851. YOHAI, V. J. (1987). “High breakdown–point and high efficiency robust esti- mates for regression”. Annals of Statistics. 15: 642–656. YOHAI, V. J. and ZAMAR, R. H. (1988). “High breakdown point and high efficiency estimates of regression by means of the minimization of an efficient scale”. Journal of the American Statistical Association. 83: 406–413.

Received November 2012 Revised September 2013

ESTADÍSTICA (2012), 64, 182 y 183, pp. 107-110 © Instituto Interamericano de Estadística

GUIA PARA EL AUTOR

ESTADISTICA es la revista científica del Instituto Interamericano de Estadística (IASI). Tiene como propósito la publicación de contribuciones en temas estadísticos teóricos y aplicados, dando énfasis a las aplicaciones originales y a la solución de problemas de interés amplio para los Estadísticos y Científicos. Los artículos sobre aplicaciones deben incluir un análisis cuidadoso del problema que traten, tener una presentación clara para contribuir a la divulgación de la metodología y buena práctica estadística, y contener una adecuada interpretación de los resultados. Los artículos sobre aplicaciones pueden también estar orientados a contribuir a un mejor entendimiento del alcance y limitaciones de los métodos considerados. Estos artículos pueden encarar problemas en cualquier área de interés, incluyendo estadística pública, salud, educación, industria, finanzas, etc. Las contribuciones teóricas sin una aplicación correspondiente serán publicadas si presentan un avance significativo en el conocimiento de la disciplina a escala internacional y tienen una clara indicación de cómo pueden los métodos desarrollados ser útiles para aplicaciones relevantes.

Esta publicación es registrada por los siguientes repertorios: el Current Index to Statistics (CIS) de la American Statistical Association (ASA) y el Institute of Mathematical Statistics (IMS), Zentralblatt-Math y el Sistema Regional de Información en línea para Revista Científicas de América Latina, el Caribe, España y Portugal (LATINDEX). Su cuerpo editorial es de carácter internacional y está integrado por destacados estadísticos.

Para presentar un artículo tendrá que enviar por e-mail a la Editora dos copias del mismo, una de ellas anónima.

El procedimiento editorial es doblemente anónimo, por lo que el nombre y dirección del autor a quien deberá dirigirse la correspondencia deben aparecer sólo en una A de las copias. Se aceptarán trabajos en Word, en L TEX o en Scientific WorkPlace. Durante el proceso de arbitraje se evalúan distintos aspectos del artículo, a saber, si se lo considera (a) importante; (b) interesante; (c) correcto; (d) original; y (e) adecuado según el perfil de “Estadística”. Un artículo será publicado en esta revista cuando satisfaga simultáneamente estos cinco requisitos.

REQUERIMIENTOS

1. IDIOMAS Los artículos podrán presentarse en español, portugués, inglés o francés.

2. SOFTWARE A Se aceptarán trabajos en Word, en L TEX o en Scientific WorkPlace.

3. TAMAÑO DEL PAPEL Y MÁRGENES  El tamaño de papel deberá ser A4: 21.0 x 29.7 cm (8.26” x 11.69”).  Use los siguientes márgenes (superior, inferior, izquierdo y derecho) 2.5 cm.

108 ESTADÍSTICA (2012), 64, 182 y 183, pp. 107-110

4. FUENTE Los artículos en Word deberán estar escritos en Times New Roman 11 y los A presentados en L TEX en Roman 12 pt (CMR12).

5. JUSTIFICACIÓN Excepto para el título, la información de autor y la palabra resumen (que deberán estar centrados), el artículo deberá estar justificado a izquierda y derecha. Los títulos de las secciones y subtítulos deberán estar justificados a izquierda.

6. ESPACIADO  El espaciado será simple en todo el artículo, incluyendo el título, la información del autor y el resumen.  Deberá haber exactamente una línea en blanco antes de los nombres de los autores, Palabras clave, los títulos de las secciones, los subtítulos, Agradecimientos, Notas, Referencias y Apéndices.  Deberá dejar exactamente dos líneas en blanco antes del resumen.  Deberá haber exactamente una línea en blanco antes y después de las tablas y las figuras.  Deberá dejar exactamente una línea en blanco entre párrafos.

7. ÉNFASIS A Use solamente itálicas (no subrayado, no negritas) para dar énfasis al texto. En L TEX use Text Italic 12 pt (CMTI12).

8. SANGRIAS NO DEBE utilizar sangrías.

9. NUMERACIÓN DE PÁGINAS En la versión final las páginas NO DEBERAN estar numeradas.

10. ENCABEZADO, PIE DE PAGINA O NOTAS AL PIE  En el texto deberá evitarse la utilización de pie de página, encabezados y notas al pie.  Si fuera absolutamente necesaria la utilización de notas al pie, deberán identificarse con supraíndices numéricos en el orden en que aparezcan en el texto.  Las notas al pie de página se deberán escribir todas juntas al final del artículo después de las Referencias.

11. AUTORES  Centrar los nombres de los autores escritos en MAYÚSCULAS.  Centrar la afiliación institucional de los autores en minúscula itálica y datos para su contacto (incluyendo email, teléfono y fax) en minúscula simple.  Deberá dejar una línea en blanco entre el título y la información de los autores.

12. TITULO Y SUBTITULOS  En Word, el título deberá estar centrado y en MAYUSCULA NEGRITA Times New Roman 13. GUÍA PARA EL AUTOR 109

 En Word, los subtítulos deberán estar ajustados a izquierda y en minúscula negrita, por ejemplo: Títulos de sección, Agradecimientos, Notas, Referencias, Apéndices, etc. A  En L TEX , deberá definir los títulos y subtítulos como sección y subsección, respectivamente.

13. RESUMEN Y ABSTRACT  Dejar 2 renglones en blanco a continuación de los datos de los autores.  Escribir la palabra ABSTRACT, RESUMEN, RESUMÉ o RESUMO (de acuerdo al idioma en el que esté escrito el artículo) en mayúsculas negrita centrada.  Dejando un renglón, escribir el texto del resumen que será un párrafo de a lo sumo 150 palabras en el idioma que corresponda.  Este texto deberá describir brevemente los principales contenidos del artículo y evitar las citas bibliográficas.  Dejar 2 renglones en blanco a continuación del texto del resumen.  Escribir la palabra ABSTRACT (si el artículo está escrito en español, francés o portugués) o RESUMEN (si el artículo está escrito en inglés) en mayúsculas negrita centrada.  Dejando un renglón, escribir la traducción del RESUMEN, RESUMÉ o RESUMO al inglés en el primer caso o la traducción al español del ABSTRACT de más arriba.  Si el artículo está escrito en inglés, se deberá presentar el RESUMEN en español.

14. PALABRAS CLAVE Después del RESUMEN y del ABSTRACT, dejando un renglón, deberá escribirse respectivamente Palabras clave y Keywords en negrita itálica y, dejando un renglón, deberá escribir una lista de tres a seis palabras que se utilizarán para clasificar el artículo.

15. GRÁFICOS Y TABLAS  Todas las tablas y los gráficos deberán tener un título y estar numeradas correlativamente.  Los títulos deberán escribirse en la parte superior izquierda de las tablas y los A gráficos en Times New Roman 10 (Word) o CMR10 (L TEX).  Los gráficos deberán presentarse en su forma definitiva para publicación, se recomienda no utilizar color sino matices de grises o distintas tramas. La resolución óptima para impresión es de 300 dpi. El tamaño de la imagen deberá ser un 20% mayor al que tendrá en la publicación.  Si los gráficos o las tablas no se incluyen como parte del documento, deberán ser enviados en archivo aparte en formato Excel para Word o EPS para A L TEX.

Los títulos deberán estar en concordancia con el siguiente estilo:

• Figura 2. Perfil de la función de verosimilitud.

• Tabla 1. Distribuciones posteriores marginales.

110 ESTADÍSTICA (2012), 64, 182 y 183, pp. 107-110

16. ECUACIONES Las ecuaciones deberán estar numeradas. La numeración deberá colocarse a la derecha de la ecuación.

17. CITAS DE REFERENCIAS EN EL TEXTO Para citar un artículo en el texto, se indicará autor y año de publicación, como en los siguientes ejemplos:

• ...... the model proposed by Barnett (1969)

• The theoretical treatment provided by Fuller (1987, cap.4)

• Bold et al. (1995) also find....

18. REFERENCIAS  Las referencias deberán disponerse en orden alfabético según apellido del autor y, para un mismo autor, en orden cronológico al final del artículo.  Las partes que deberá contener una referencia son las siguientes: Autor(es), año de publicación, título, información sobre la publicación.

Las referencias deberán estar en concordancia con el siguiente estilo:

THEOBALD, C.M. and MALLISON, J.R. (1978). "Comparative Calibration, Linear Structural Relationship and Congeneric Measurements". Biometrics. 34: 39-45

FULLER, W. A. (1987). Measurement Error Models. Wiley, New York

LINDLEY, D. V. and SMITH, A. F. M. (1972) "Bayes Estimates for the Linear Model" (with discussion). Journal of the Royal Statistical Society, Series B. 34: 1-41

ESTADÍSTICA (2012), 64, 182 y 183, pp. 111-114 © Instituto Interamericano de Estadística

GUIDELINES FOR THE AUTHOR

ESTADISTICA is the scientific journal of the Inter-American Statistical Institute (IASI). It aims to publish contributions about themes in theoretical and applied Statistics, giving emphasis to original applications and the solution of problems of wide interest to Statisticians and Scientists. Applications papers should include careful analysis of the problem at hand, have a clear presentation in order to contribute to the dissemination of methodology and good statistical practice, and contain adequate interpretation of the outcomes. Applications papers may also aim to contribute to a better understanding of the scope and limitations of the methods considered. Applications papers may tackle problems in any areas of interest including public statistics, health, education, industry, finance, etc. Theoretical contributions without a corresponding application will be published if they represent a significant advance in the knowledge of the discipline at the international scale and contain a clear indication of how the methods developed may be useful for relevant applications.

This publication is registered by the following repertories: the Current Index to Statistics (CIS) of the American Statistical Association (ASA) and the Institute of Mathematical Statistics (IMS), Zentralblatt-Math, and the “Sistema Regional de Información en línea para Revista Científicas de América Latina, el Caribe, España y Portugal (LATINDEX)” (Regional system of information online for scientific journals of Latin America, the Caribbean, Spain and Portugal). The editorial board of Estadística is of international scope, and is composed of outstanding statisticians.

If you wish to submit a paper, please send to the editor by e-mail two copies, one of them anonymous.

Editorial process is double-blind so the name and the full postal address of the authors to whom further correspondence is to be sent must appear only on one of the copies. Papers A will be accepted in Word, in L TEX, or in Scientific WorkPlace. During the refereeing process several aspects of the paper are evaluated, namely, whether or not it is considered: (a) important; (b) interesting; (c) correct; (d) original; and (e) adequate according to the profile of “Estadística”. A paper will be published in this journal when it simultaneously satisfies these five requisites.

REQUIREMENTS

1. LANGUAGES Papers can be presented in English, Spanish, French or Portuguese.

2. SOFTWARE A Papers will be accepted in Word, in L TEX, or in Scientific WorkPlace.

3. SIZE OF THE PAPER AND MARGINS 9 Use A4 paper: 21.0 x 29.7 cm (8.26” x 11.69”) 9 Use the following margins (upper, lower, left and right) of 2.5 cm (1.0").

112 ESTADÍSTICA (2012), 64, 182 y 183, pp. 111-114

4. FONT A Papers in Word shall be written in Times New Roman 11, while those presented in L TEX , shall use Roman 12 pt (CMR12).

5. JUSTIFICATION Except for the main title, the authors’ identification, and the word abstract, that shall be centered, the paper shall be left and right justified. The secondary titles, as well as the sub- titles shall be left justified.

6. SPACING 9 The spacing shall be single throughout the paper, including the main title, the authors’ identification and the abstract. 9 Exactly one blank line shall be left before the authors’ identification, Key words, section titles, sub-titles, Acknowledgements, Notes, References, and Appendices. 9 Exactly two blank lines shall be left before the abstract. 9 Exactly one blank line shall be left before and after tables and figures. 9 Exactly one blank line shall be left between paragraphs.

7. ENPHASIS A Use only italics (not underline nor bold) to highlight parts of the text. In L TEX use Text Italic 12 pt (CMTI12).

8. INDENTATIONS DO NOT USE indentations.

9. PAGE NUMBERING The pages SHALL NOT be numbered in the final version.

10. HEADING, FOOTER AND FOOTNOTES 9 The use of footers, headings, and footnotes shall be avoided in the text. 9 In case the use of footnotes is absolutely necessary, they shall be identified with numeric supra-indices in the order they appear in the text. 9 The footnotes shall be written together, after the References.

11. AUTHORS 9 The names of the authors shall be centered and written in CAPITAL LETTERS. 9 The institutional affiliations of the authors in italic lower case letters, and contact information in regular lower case letters, shall also be centered. 9 A blank line shall be left between the title and the authors’ names.

12. TITLES AND SUB-TITLES 9 In Word, the title shall be centered written in Times New Roman 13 BOLD CAPITAL LETTERS. 9 In Word, the sub-titles shall be left justified and written in bold lower case letters, for instance: Section titles, Acknowledgements, Notes, References, Appendices, etc. A 9 In L TEX, the titles and sub-titles shall be defined as section and sub-section, respectively.

GUIDELINES FOR THE AUTHOR 113

13. ABSTRACT AND RESUMEN 9 Leave 2 blank lines following the authors’ identification. 9 The word ABSTRACT, RESUMEN, RESUMÉ or RESUMO (according to the language in which the paper is written) shall be centered written in bold capital letters. 9 After leaving a blank line, the text in the corresponding language shall be included. This shall a paragraph of at most 150 words. 9 This text shall briefly describe the main contents of the paper, avoiding the use of bibliographic references. 9 Leave 2 blank lines following the text. 9 The word ABSTRACT (if the paper is written in Spanish, French or Portuguese) or RESUMEN (if the paper is written in English) shall be centered written in bold capital letters, 9 After leaving a blank line, the translation of the RESUMEN, RESUMÉ or RESUMO into English in the first case or the translation of the above ABSTRACT into Spanish shall be included.

14. KEY WORDS After the ABSTRACT and RESUMEN, leaving a blank line, respectively write Key words and Palabras Clave (in bold italics). Then, leaving a blank line, write a list with three to six words that will be used to classify the paper.

15. GRAPHS AND TABLES 9 All tables and graphs shall have a title and be sequentially numbered. 9 Titles shall be written in the upper left part of tables and graphs, in Times New A Roman 10 (Word) or CMR10 (L TEX). 9 The graphs shall be presented in their final form for publication. It is recommended not to use colors but different gray shades or different plots. Optimal resolution for printing is 300 dpi. The size of the image shall be 20% larger than the size for the final publication. 9 In case the graphs or tables are not included as a part of the document, they shall A be sent in a separate file in Excel format for Word or EPS for L TEX.

Titles shall be in accordance with the following style:

• Figure 2. Profile of the likelihood function

• Table 1. Posterior marginal distributions.

16. EQUATIONS Equations shall be numbered. The number shall be written to the right of the equation.

17. REFERENCES IN THE TEXT To refer to a paper in the text, the author and year of publication shall be indicated, as in the following examples:

• ...... the model proposed by Barnett (1969)

• The theoretical treatment provided by Fuller (1987, cap.4)

114 ESTADÍSTICA (2012), 64, 182 y 183, pp. 111-114

• Bold et al. (1995) also find....

18. REFERENCES 9 The references shall be placed, at the end of the paper, in alphabetical order by the names of the authors and, for the same author, in chronological order. 9 References shall include the following: Author(s), year of publication, title, information on the publication.

References shall be presented in accordance with the following style:

THEOBALD, C.M. and MALLISON, J.R. (1978). "Comparative Calibration, Linear Structural Relationship and Congeneric Measurements". Biometrics. 34: 39-45

FULLER, W. A. (1987). Measurement Error Models. Wiley, New York

LINDLEY, D. V. and SMITH, A. F. M. (1972) "Bayes Estimates for the Linear Model" (with discussion). Journal of the Royal Statistical Society, Series B. 34: 1-41

ESTADÍSTICA (2012), 64, 182 y 183, pp. 115 © Instituto Interamericano de Estadística

MIEMBROS AFILIADOS DEL IASI AFFILIATED MEMBERS OF IASI

Argentina Instituto Nacional de Estadística y Censos (INDEC) Universidad Nacional de Tres de Febrero Brasil Instituto Brasileiro de Geografia e Estatística (IBGE) Canada Statistics Canada Costa Rica Instituto Nacional de Estadística y Censos (INEC) Chile Instituto Nacional de Estadísticas (INE) Instituto de Estadística, Universidad Austral de Chile (UACH) Jamaica Statistical Institute of Jamaica México Instituto Nacional de Estadística y Geografía (INEGI) Panamá Instituto Nacional de Estadística y Censo (INEC), Contraloría General de la República Caja de Seguro Social Perú Instituto Nacional de Estadística e Informática (INEI) United States Bureau of the Census Minnesota Population Center (MPC), University of Minnesota Uruguay Instituto Nacional de Estadística (INE)

117 ESTADÍSTICA (2012), 64, 182 y 183, pp. 117

SUBSCRIPCIONES: Pueden solicitarse a la Secretaría del Instituto Interamericano de Estadística (IASI), INEC – Contraloría General de la República, Apartado 0816-01521, Panamá, Rep. de Panamá, enviando cheque en dólares sobre un banco de los Estados Unidos o de Panamá, pagadero al Instituto Interamericano de Estadística.

Precios de las subscripciones (en US$):

Individual ...... $30.00 Institucional ...... $60.00

Las agencias de subscripciones pueden consultar por descuentos especiales.

SUBSCRIPTIONS: Orders shall be sent to the Secretariat of the Inter- American Statistical Institute (IASI), INEC – Contraloría General de la República, Apartado 0816-01521, Panama, Rep. of Panama, together with a cheque in dollars drawn on any Bank of the United States or Panama, payable to the Inter-American Statistical Institute.

Subscription rates (in US$):

Individual ...... $30.00 Institucional ...... $60.00

Subscription agencies may ask for special discounts.