Optimization in Computational Systems Biology Via High Performance Computing Techniques
Total Page:16
File Type:pdf, Size:1020Kb
Doctoral Thesis Optimization in computational systems biology via high performance computing techniques David Rodr´ıguez Penas 2017 Optimization in computational systems biology via high performance computing techniques David Rodr´ıguezPenas Doctoral Thesis March 2017 PhD Advisors: Julio Rodr´ıguezBanga Patricia Gonz´alezG´omez Ram´onDoallo Biempica PhD Program in Information Technology Research Dr. Julio Rodr´ıguezBanga Dra. Patricia Gonz´alezG´omez Profesor de investigaci´on Profesora Titular de Universidade Instituto de Investigaci´onsMari~nas Dpto. Enxe~nar´ıade Computadores Consejo Superior de Investigaciones Universidade de A Coru~na Cient´ıficas(CSIC). Dr. Ram´on Doallo Biempica Catedr´aticode Universidade Dpto. de Enxe~nar´ıade Computadores Universidade de A Coru~na CERTIFICAN Que a presente memoria titulada \Optimization in computational systems biology via high performance computing techniques" foi realizada por D. David Rodr´ıguez Penas baixo nosa direcci´onno Departamento de Enxe~nar´ıade Computadores da Universidade da Coru~na,e concl´ueas´ıa Tese Doutoral que presenta para optar ao grado de Doutor en Enxe~nar´ıaInform´aticacoa Menci´on de Doutor Internacional. En A Coru~na,a 30 de Marzo do 2017 Fdo.: Julio Rodr´ıguezBanga Fdo.: Patricia Gonz´alezG´omez Director da Tese Doutoral Directora da Tese Doutoral Fdo.: Ram´onDoallo Biempica Fdo.: David Rodr´ıguezPenas Director da Tese Doutoral Autor da Tese Doutoral A Tamara e a eses sobri~nos que est´anpor vir: Sergio e Marinha. Agradecementos En primeiro lugar, gustar´ıame especialmente agradecer ´osmeus directores Julio, Patricia e Ram´on, tanto a oportunidade que me deron para desenvolver a presente tese, como a dedicaci´on,axuda e apoio que me ofreceron durante todos estes anos. Foi un honor traballar ´ovoso lado, e o m´aisprezado que me levo desta tese ´et´odalas cousas que aprend´ınconvosco. Por outro lado, tam´enquero reco~necera t´odolosmeus compa~neirosdo Grupo de Enxe~nar´ıade Procesos do Instituto de Investigaci´onsMari~nas, toda a axuda e apoio que me ofreceron durante todo este tempo. Quedo moi agradecido a todos v´ospola convivencia do d´ıa a d´ıa,o compa~neirismo, e os bos momentos vividos. Tam´enquero facer referencia a toda a axuda recibida por: David Henriques, compa~neirodo grupo co que m´aistraballei e que me proporcionou os problemas de biolox´ıade sistemas a optimizar nesta tese; ´oprofesor Jose Egea, tanto polas s´uascontribuci´onsdurante a creaci´ondos m´etodos propostos no Cap´ıtulo3, como polo seu asesoramento en toda a estad´ısticautilizada na presente tese; e tam´en´o profesor Julio S´aez,tanto pola colaboraci´ondurante a elaboraci´ondo Cap´ıtulo4, como a estupenda acollida e trato recibido por parte del e dos membros do seu grupo durante a mi~naestancia en Aquisgr´an. Quero engadir os meus agradecementos ´oGrupo de Arquitectura de Computa- dores da Universidade da Coru~na,e ´oDepartamento de Inform´aticado Instituto de Investigaci´onsMari~naspertencente ao CSIC en Vigo, polo uso da s´uainfraestrutura e todo o soporte recibido. E sobre todo, m´aisal´ado terreo acad´emico,te~noque dar as grazas a mi~na familia por todo ese ´animoe cari~noque me deron desinteresadamente durante todo vii viii este tempo. Primeiro a mi~naTamara, m´aximo apoio dende o inicio e at´eo final desta aventura; ti fuches e ser´asa mi~nam´aximamotivaci´on.Tam´en´osmeus pais, por padecer as mi~nasfrustraci´onse aledarse dos meus logros; sempre ser´anos meus mellores mestres e co seu apoio incondicional todo ´emoito m´aisf´acil.E por ´ultimo, ´osmeus irm´ans,os cales durante toda a mi~navida son e ser´anun exemplo a seguir. Por ´ultimo,agradezo ´osseguintes organismos o financiamento e apoio a este tra- ballo: Ministerio de Econom´ıae Competitividade, a trav´esdos proxectos DPI2011- 28112-C04, DPI2014-55276-C5, TIN2013-42148-P e TIN2016-75845-P (todos cofi- nanciados con fondos FEDER), e do programa de axudas para a formaci´on de per- soal de investigaci´onFPI (Ref: BES-2012-059201, vinculada ´oproxecto DPI2011- 28112-C04); Xunta de Galicia, polas axudas para a consolidaci´one estruturaci´onde unidades de investigaci´oncompetitivas (Redes ref. R2014/041 e ref. R2016/045, e os Grupos de Referencia Competitiva GRC2013/055); Centro de Supercomputaci´on de Galicia (CESGA) e European Bioinformatics Institute (EBI), polo acceso ´osseus recursos de computaci´on;e Microsoft Research, polo acceso ´aplataforma Microsoft Azure a trav´esdunha conta patrocinada. Resumo O obxectivo da biolox´ıade sistemas computacional ´exerar co~necemento sobre complexos sistemas biol´oxicosa trav´esda combinaci´onde datos experimentais con modelos matem´aticose t´ecnicasavanzadas de computaci´on.O desenvolvemento de modelos din´amicos(cin´eticos),tam´enco~necidoscomo enxe~ner´ıainversa, ´eun dos temas chave nesta ´area.Nos ´ultimosanos, moitas investigaci´onscentr´aronseno es- calado destes modelos, facendo da estimaci´ondos par´ametrosdestes modelos, tam´en co~necidacomo calibraci´onde modelos, unha tarefa complexa. Esa complexidade re- quire o uso de ferramentas e m´etodos eficientes para acadar bos resultados nun tem- po c´alculorazoable. En xeral, para resolver este tipo de problemas ´usanse m´etodos de optimizaci´onglobal, e en particular as metaheur´ısticasxurdiron como m´etodos eficientes para resolver os problemas m´aiscustosos. Con todo, para a maior´ıadas aplicaci´onsreais, as metaheur´ısticasa´ındarequiren moito tempo de c´alculopara obter resultados acept´abeis. Nesta tese pres´entase o dese~no,implementaci´one avaliaci´onde novas metaheur´ısti- cas paralelas, especializadas en resolver problemas de estimaci´onde par´ametrosden- tro do contexto da biolox´ıade sistema. En concreto, prop´o~nensenovas metaheur´ısti- cas baseadas nos algoritmos de avaliaci´ondiferencial e de procura dispersa. As no- vas propostas te~nencomo obxectivo acadar un equilibrio entre as capacidades de exploraci´one explotaci´ondos algoritmos. Ademais, demostran como a cooperaci´on entre procuras concorrentes mellora o comportamento dos algoritmos, mellorando a calidade das soluci´onse diminu´ındo o tempo de execuci´on.Tam´enestud´aron- se estratexias adaptativas para aumentar a robustez das propostas. Na avaliaci´on us´aronsetanto arquitecturas HPC tradicionais como novas infraestruturas na nube. Obtiv´eronsemoi bos resultados con problemas de optimizaci´onde grande dimensi´on e complexidade. ix Resumen El objetivo de la biolog´ıade sistemas computacional es generar conocimiento sobre complejos sistemas biol´ogicosmediante la combinaci´onde datos experimen- tales con modelos matem´aticosy t´ecnicasavanzadas de computaci´on.El desarrollo de modelos din´amicos(cin´eticos),tambi´enconocido como ingenier´ıainversa, es uno de los temas clave en este campo. En los ´ultimosa~nos, ha surgido un gran inter´es en el escalado de estos modelos cin´eticos,haciendo de la estimaci´onde par´ametros, tambi´enconocida como calibraci´onde modelos, una tarea con una gran dificultad, que requiere el uso de herramientas y m´etodos eficientes para alcanzar buenos re- sultados en un tiempo razonable. En general, para resolver estos problemas se usan m´etodos de optimizaci´onglobal. En concreto, las metaheur´ısticassurgen como al- goritmos eficientes a ser utilizado en los problemas m´ascomplejos. Sin embargo, en la mayor´ıade las aplicaciones reales, las metaheur´ısticastodav´ıarequieren mucho tiempo de c´alculopara obtener resultados aceptables. Esta tesis presenta el dise~no, implementaci´ony evaluaci´onde nuevas metaheur´ıs- ticas paralelas, especializadas sobretodo en resolver problemas de estimaci´onde par´a- metros en biolog´ıade sistemas. En concreto, se proponen nuevas metaheur´ısticasba- sadas en los algoritmos de evoluci´ondiferencial y de b´usquedadispersa. Las nuevas propuestas tienen como objetivo lograr un equilibrio entre las capacidades de explo- raci´ony explotaci´onde los algoritmos. Adem´as,demuestran como la cooperaci´on entre b´usquedasconcurrentes mejora el comportamiento del algoritmo, mejorando la calidad de las soluciones y disminuyendo el tiempo de ejecuci´on.Tambi´ense han estudiado estrategias adaptativas para aumentar la robustez de las propuestas. Pa- ra la evaluaci´onse han usado tanto arquitecturas HPC tradicionales como nuevas infraestructuras en la nube. Se han obtenido muy buenos resultados en problemas de gran dimensi´ony complejidad. xi Abstract The aim of computational systems biology is to generate new knowledge and understanding about complex biological systems by combining experimental data with mathematical modeling and advanced computational techniques. The devel- opment of dynamic models (also known as reverse engineering) is one of the current key issues in this area. In recent years, research has been focused on scaling-up these kinetic models. In this context, the problem of parameter estimation (model calibration) remains a very challenging task. The complexity of the underlying models requires the use of efficient solvers to achieve adequate results in reasonable computation times. Global optimization methods are used to solve these types of problems. In particular, metaheuristics have emerged as an efficient way of solving these hard global optimization problems. However, in most realistic applications, metaheuristics still require a large computation time to obtain acceptable results. This Thesis presents the design, implementation and evaluation of novel parallel metaheuristics with the focus on parameter estimation problems in computational systems biology. In particular, we propose new cooperative