Optimization in Computational Systems Biology Via High Performance Computing Techniques

Doctoral Thesis Optimization in computational systems biology via high performance computing techniques David Rodr´ıguez Penas 2017 Optimization in computational systems biology via high performance computing techniques David Rodr´ıguezPenas Doctoral Thesis March 2017 PhD Advisors: Julio Rodr´ıguezBanga Patricia GonzálezGómez RamónDoallo Biempica PhD Program in Information Technology Research Dr. Julio Rodr´ıguezBanga Dra. Patricia GonzálezGómez Profesor de investigación Profesora Titular de Universidade Instituto de InvestigaciónsMari~nas Dpto. Enxe~nar´ıade Computadores Consejo Superior de Investigaciones Universidade de A Coru~na Cient´ıficas(CSIC). Dr. Ramón Doallo Biempica Catedráticode Universidade Dpto. de Enxe~nar´ıade Computadores Universidade de A Coru~na CERTIFICAN Que a presente memoria titulada \Optimization in computational systems biology via high performance computing techniques" foi realizada por D. David Rodr´ıguez Penas baixo nosa direcciónno Departamento de Enxe~nar´ıade Computadores da Universidade da Coru~na,e conclúeas´ıa Tese Doutoral que presenta para optar ao grado de Doutor en Enxe~nar´ıaInformáticacoa Mención de Doutor Internacional. En A Coru~na,a 30 de Marzo do 2017 Fdo.: Julio Rodr´ıguezBanga Fdo.: Patricia GonzálezGómez Director da Tese Doutoral Directora da Tese Doutoral Fdo.: RamónDoallo Biempica Fdo.: David Rodr´ıguezPenas Director da Tese Doutoral Autor da Tese Doutoral A Tamara e a eses sobri~nos que estánpor vir: Sergio e Marinha. Agradecementos En primeiro lugar, gustar´ıame especialmente agradecer ósmeus directores Julio, Patricia e Ramón, tanto a oportunidade que me deron para desenvolver a presente tese, como a dedicación,axuda e apoio que me ofreceron durante todos estes anos. Foi un honor traballar óvoso lado, e o máisprezado que me levo desta tese étódalas cousas que aprend´ınconvosco. Por outro lado, taménquero reco~necera tódolosmeus compa~neirosdo Grupo de Enxe~nar´ıade Procesos do Instituto de InvestigaciónsMari~nas, toda a axuda e apoio que me ofreceron durante todo este tempo. Quedo moi agradecido a todos vóspola convivencia do d´ıa a d´ıa,o compa~neirismo, e os bos momentos vividos. Taménquero facer referencia a toda a axuda recibida por: David Henriques, compa~neirodo grupo co que máistraballei e que me proporcionou os problemas de biolox´ıade sistemas a optimizar nesta tese; óprofesor Jose Egea, tanto polas súascontribuciónsdurante a creacióndos métodos propostos no Cap´ıtulo3, como polo seu asesoramento en toda a estad´ısticautilizada na presente tese; e taménó profesor Julio Sáez,tanto pola colaboracióndurante a elaboracióndo Cap´ıtulo4, como a estupenda acollida e trato recibido por parte del e dos membros do seu grupo durante a mi~naestancia en Aquisgrán. Quero engadir os meus agradecementos óGrupo de Arquitectura de Computa- dores da Universidade da Coru~na,e óDepartamento de Informáticado Instituto de InvestigaciónsMari~naspertencente ao CSIC en Vigo, polo uso da súainfraestrutura e todo o soporte recibido. E sobre todo, máisaládo terreo académico,te~noque dar as grazas a mi~na familia por todo ese ánimoe cari~noque me deron desinteresadamente durante todo vii viii este tempo. Primeiro a mi~naTamara, máximo apoio dende o inicio e atéo final desta aventura; ti fuches e serása mi~namáximamotivación.Taménósmeus pais, por padecer as mi~nasfrustraciónse aledarse dos meus logros; sempre serános meus mellores mestres e co seu apoio incondicional todo émoito máisfácil.E por último, ósmeus irmáns,os cales durante toda a mi~navida son e seránun exemplo a seguir. Por último,agradezo ósseguintes organismos o financiamento e apoio a este tra- ballo: Ministerio de Econom´ıae Competitividade, a travésdos proxectos DPI2011- 28112-C04, DPI2014-55276-C5, TIN2013-42148-P e TIN2016-75845-P (todos cofi- nanciados con fondos FEDER), e do programa de axudas para a formación de per- soal de investigaciónFPI (Ref: BES-2012-059201, vinculada óproxecto DPI2011- 28112-C04); Xunta de Galicia, polas axudas para a consolidacióne estruturaciónde unidades de investigacióncompetitivas (Redes ref. R2014/041 e ref. R2016/045, e os Grupos de Referencia Competitiva GRC2013/055); Centro de Supercomputación de Galicia (CESGA) e European Bioinformatics Institute (EBI), polo acceso ósseus recursos de computación;e Microsoft Research, polo acceso áplataforma Microsoft Azure a travésdunha conta patrocinada. Resumo O obxectivo da biolox´ıade sistemas computacional éxerar co~necemento sobre complexos sistemas biolóxicosa travésda combinaciónde datos experimentais con modelos matemáticose técnicasavanzadas de computación.O desenvolvemento de modelos dinámicos(cinéticos),taménco~necidoscomo enxe~ner´ıainversa, éun dos temas chave nesta área.Nos últimosanos, moitas investigaciónscentráronseno escalado destes modelos, facendo da estimacióndos parámetrosdestes modelos, tamén co~necidacomo calibraciónde modelos, unha tarefa complexa. Esa complexidade require o uso de ferramentas e métodos eficientes para acadar bos resultados nun tempo cálculorazoable. En xeral, para resolver este tipo de problemas úsanse métodos de optimizaciónglobal, e en particular as metaheur´ısticasxurdiron como métodos eficientes para resolver os problemas máiscustosos. Con todo, para a maior´ıadas aplicaciónsreais, as metaheur´ısticasa´ındarequiren moito tempo de cálculopara obter resultados aceptábeis. Nesta tese preséntase o dese~no,implementacióne avaliaciónde novas metaheur´ısti- cas paralelas, especializadas en resolver problemas de estimaciónde parámetrosden- tro do contexto da biolox´ıade sistema. En concreto, propó~nensenovas metaheur´ısti- cas baseadas nos algoritmos de avaliacióndiferencial e de procura dispersa. As novas propostas te~nencomo obxectivo acadar un equilibrio entre as capacidades de exploracióne explotacióndos algoritmos. Ademais, demostran como a cooperación entre procuras concorrentes mellora o comportamento dos algoritmos, mellorando a calidade das soluciónse diminu´ındo o tempo de execución.Taménestudáron- se estratexias adaptativas para aumentar a robustez das propostas. Na avaliación usáronsetanto arquitecturas HPC tradicionais como novas infraestruturas na nube. Obtivéronsemoi bos resultados con problemas de optimizaciónde grande dimensión e complexidade. ix Resumen El objetivo de la biolog´ıade sistemas computacional es generar conocimiento sobre complejos sistemas biológicosmediante la combinaciónde datos experimen- tales con modelos matemáticosy técnicasavanzadas de computación.El desarrollo de modelos dinámicos(cinéticos),tambiénconocido como ingenier´ıainversa, es uno de los temas clave en este campo. En los últimosa~nos, ha surgido un gran interés en el escalado de estos modelos cinéticos,haciendo de la estimaciónde parámetros, tambiénconocida como calibraciónde modelos, una tarea con una gran dificultad, que requiere el uso de herramientas y métodos eficientes para alcanzar buenos resultados en un tiempo razonable. En general, para resolver estos problemas se usan métodos de optimizaciónglobal. En concreto, las metaheur´ısticassurgen como algoritmos eficientes a ser utilizado en los problemas máscomplejos. Sin embargo, en la mayor´ıade las aplicaciones reales, las metaheur´ısticastodav´ıarequieren mucho tiempo de cálculopara obtener resultados aceptables. Esta tesis presenta el dise~no, implementacióny evaluaciónde nuevas metaheur´ıs- ticas paralelas, especializadas sobretodo en resolver problemas de estimaciónde pará- metros en biolog´ıade sistemas. En concreto, se proponen nuevas metaheur´ısticasba- sadas en los algoritmos de evolucióndiferencial y de búsquedadispersa. Las nuevas propuestas tienen como objetivo lograr un equilibrio entre las capacidades de explo- racióny explotaciónde los algoritmos. Además,demuestran como la cooperación entre búsquedasconcurrentes mejora el comportamiento del algoritmo, mejorando la calidad de las soluciones y disminuyendo el tiempo de ejecución.Tambiénse han estudiado estrategias adaptativas para aumentar la robustez de las propuestas. Pa- ra la evaluaciónse han usado tanto arquitecturas HPC tradicionales como nuevas infraestructuras en la nube. Se han obtenido muy buenos resultados en problemas de gran dimensióny complejidad. xi Abstract The aim of computational systems biology is to generate new knowledge and understanding about complex biological systems by combining experimental data with mathematical modeling and advanced computational techniques. The devel- opment of dynamic models (also known as reverse engineering) is one of the current key issues in this area. In recent years, research has been focused on scaling-up these kinetic models. In this context, the problem of parameter estimation (model calibration) remains a very challenging task. The complexity of the underlying models requires the use of efficient solvers to achieve adequate results in reasonable computation times. Global optimization methods are used to solve these types of problems. In particular, metaheuristics have emerged as an efficient way of solving these hard global optimization problems. However, in most realistic applications, metaheuristics still require a large computation time to obtain acceptable results. This Thesis presents the design, implementation and evaluation of novel parallel metaheuristics with the focus on parameter estimation problems in computational systems biology. In particular, we propose new cooperative

Optimization in Computational Systems Biology Via High Performance Computing Techniques

The Importance of Data

(CITIUS) Phd DISSERTATION

Intel® Oneapi Programming Guide

Executable Modelling for Highly Parallel Accelerators

Programming Multicores: Do Applications Programmers Need to Write Explicitly Parallel Programs?

An Outlook of High Performance Computing Infrastructures for Scientiﬁc Computing

Performance Tuning Workshop

Regent: a High-Productivity Programming Language for Implicit Parallelism with Logical Regions

Introduction to Parallel Processing

HP-CAST 20 Final Agenda V3.0 (Sessions and Chairs Are Subject to Change Without Notice)

Presentación De Powerpoint

CIS 501 Computer Architecture This Unit: Shared Memory