In Silico Engineering Van Cytochroom P450 Via Machine Learning Technieken
Total Page:16
File Type:pdf, Size:1020Kb
Faculteit Bio-ingenieurswetenschappen Academiejaar 2015-2016 In silico engineering van cytochroom P450 via machine learning technieken Laurentijn Tilleman Promotoren: prof. dr. Willem Waegeman & prof. dr. Bernard De Baets Tutor: ir. Michiel Stock Masterproef voorgedragen tot het behalen van de graad van Master in de bio-ingenieurswetenschappen: Cel- en genbiotechnologie Faculteit Bio-ingenieurswetenschappen Academiejaar 2015-2016 In silico engineering van cytochroom P450 via machine learning technieken Laurentijn Tilleman Promotoren: prof. dr. Willem Waegeman & prof. dr. Bernard De Baets Tutor: ir. Michiel Stock Masterproef voorgedragen tot het behalen van de graad van Master in de bio-ingenieurswetenschappen: Cel- en genbiotechnologie De auteur en promotor geven de toelating deze scriptie voor consultatie beschikbaar te stellen en delen ervan te kopi¨eren voor persoonlijk gebruik. Elk ander gebruik valt onder de beper- kingen van het auteursrecht, in het bijzonder met betrekking tot de verplichting uitdrukkelijk de bron te vermelden bij het aanhalen van resultaten uit deze scriptie. The author and promoter give the permission to use this thesis for consultation and to copy parts of it for personal use. Any other use is subject to the copyright laws, more specifically the source must be extensively specified when using results from this thesis. Gent, juni 2016 De promotoren prof. dr. Willem Waegeman prof. dr. Bernard De Baets De tutor De auteur ir. Michiel Stock Laurentijn Tilleman Dankwoord Het schrijven van deze thesis heeft mij een beter beeld gegeven van de fascinerende wereld van eiwitoptimalisatie met behulp van machine learning technieken. Dit alles zou mij alleen niet gelukt zijn en daarom zou ik graag enkele personen bedanken. Als eerste wil ik mijn tutor ir. Michiel Stock bedanken om mij te ondersteunen bij het uit- denken van de thesis en de wekelijkse opvolging. Hiernaast wil ik ook graag mijn promotoren prof. dr. Waegeman en prof. dr. De Baets bedanken voor de opbouwende begeleiding tijdens mijn thesis. In het bijzonder wil ik ook mijn medethesisstudenten en in het algemeen alle leden van de vakgroep bedanken voor de fijne sfeer op de vakgroep. Graag zou ik ook mijn ouders, mijn broer en zussen bedanken voor de mentale steun tijdens het maken van deze thesis. Ook mijn vrienden wil ik bedanken voor de nodige ontspanning. Als laatste zou ik graag mijn computer en de HPC faciliteiten van de UGent willen bedanken, zonder deze zou het nooit gelukt zijn om deze thesis tot een goed einde te brengen. i ii Samenvatting Cytochroom P450 is een enzymsuperfamilie met meer dan 52000 enzymen (Fischer et al., 2007; Ortiz de Montellano, 2015). Zij bezitten allemaal een heemgroep en katalyseren mono- oxidatie reacties (Meunier et al., 2004). Daar deze enzymen belangrijke reacties katalyseren in de productie van industrieel interessante chemische componenten, is er veel onderzoek gedaan naar het optimaliseren van deze enzymen (Girvan & Munro, 2016). In deze thesis werd een workflow opgesteld voor het optimaliseren van deze enzymsuperfamilie. De optimalisatie gebeurt hier aan de hand van een machine learning model dat paarsgewijze interacties tussen enzymen van de cytochroom P450 superfamilie en chemische componen- ten voorspelt. Hiervoor werd interactiedata van het internet gehaald en opgeslagen in een gestructureerde databank. Voor het opstellen van het machine learning model werd voor de cytochroom P450s gebruik gemaakt van features afgeleid van de eerste drie principale componenten van de aminozuur- eigenschappen. Voor de chemische componenten werd gebruik gemaakt van convolutionele neurale netwerken op grafen om hieruit de moleculaire fingerpints af te leiden. Er werden verschillende machine learning modellen opgesteld. Voor de binaire classificatiedata werd met het random forests model een area under the curve van 0.72, 0.64 en 0.68 verkregen voor respectievelijk substraat-, inhibitor- en activator-interactie via cross-validatie. Voor het regressiemodel werd via random forests op de gezamenlijke dataset afkomstig van de Sabio- en Brenda-database een c-index van 0.62 bereikt via cross-validatie. Als casestudie bij de optimalisatie werd gekozen voor het cytochroom P450 CYP52M1 uit het onderzoek van Van Bogaert et al. (2009). Via simulated annealing werd deze sequentie geoptimaliseerd. Hierbij werd de katalytische activiteit verhoogd met een factor 64 volgens het onderliggende machine learning model. iii iv Inhoudsopgave Dankwoord i Samenvatting iii Inhoudsopgave vii 1 Inleiding 1 2 Biologische achtergrond van cytochroom P450 3 2.1 De cytochroom P450 superfamilie . .3 2.1.1 Nomenclatuur . .3 2.1.2 Verspreiding onder de verschillende soorten . .4 2.2 Katalytische werking van cytochroom P450 . .5 2.2.1 Elektronentransfer naar cytochroom P450 . .5 2.2.2 Activatie van het katalytisch centrum . .7 2.2.3 Mechanismen van katalyse door cytochroom P450 . .8 2.2.4 Inhibitie van cytochroom P450 . 11 2.3 Enkele voorbeelden voor het belang van cytochroom P450 . 11 2.3.1 Industri¨ele toepassingen . 11 2.3.2 Medische toepassingen . 13 3 Bestaande modellen voor cytochroom P450 functiepredictie 17 3.1 Voorspellen van de interactie met cytochroom P450 enzymen . 17 3.1.1 Ligand-gebaseerd model voor de isovorm specificiteit van substraten voor cytochroom P450 CYP3A4, CYP2D6 en CYP2C9 . 18 3.1.2 Classificatie van cytochroom P450 CYP1A2 inhibitoren en niet inhibi- toren met machine learning technieken . 19 3.1.3 Vergelijking van multi- en single-label classificatie toegepast op het voorspellen van isovorm specificiteit van cytochroom P450 substraten 19 3.2 Voorspellen van reactieparameters . 22 v 3.2.1 Voorspellen van de katalytische parameters van CYP2C19 voor enanti- oselective oxidaties . 22 3.3 Modellen voor het voorspellen van de interactie voor zowel nieuwe cytochroom P450s als chemische componenten . 23 3.3.1 Een eenduidig proteochemometrisch model voor het voorspellen van inhibitoren van cytochroom P450 . 23 4 Overzicht van de dataset 27 4.1 Databanken voor cytochroom P450 . 27 4.1.1 DrugBank . 28 4.1.2 Sabio . 28 4.1.3 SuperCYP . 29 4.1.4 Brenda . 29 4.1.5 MuteinDB . 29 4.1.6 AID: 1851 . 30 4.1.7 Sequenties en 3D structuren van cytochroom P450s . 30 4.1.8 Ligand structuren . 30 4.2 Gestructureerd opslaan van de data . 30 4.2.1 Reactie . 30 4.2.2 Controle . 32 4.2.3 Ligand . 32 4.2.4 FP SMILE . 32 4.2.5 EiwittenSeq . 33 4.2.6 SubSequence . 33 4.2.7 EiwittenPDB . 33 4.2.8 FP PDB................................... 33 5 Featurevoorstelling van de cytochroom P450s en de chemische componen- ten 35 5.1 Features op basis van de sequentie . 35 5.1.1 Onderlinge vergelijking en similariteitsmaten: kernelmethoden . 36 5.1.2 Features afgeleid van de eigenschappen van de sequentie en zijn amino- zuren . 37 5.1.3 Features op basis van evolutie . 39 5.2 Features op basis van structuren en grafen . 40 5.2.1 Binaire fingerprints . 41 5.2.2 Convolutionele neurale netwerken op grafen voor moleculaire fingerprints 41 vi 6 Modelbouw 45 6.1 Gebruikte machine learning technieken . 45 6.1.1 Support Vector Machine . 45 6.1.2 Random forests . 46 6.1.3 AdaBoost . 46 6.1.4 Bagging . 46 6.1.5 Ridge Regressie . 46 6.2 Cross-validatie voor paarsgewijze data . 47 6.3 Evaluatiecriteria . 48 6.3.1 C-index . 48 6.3.2 AUC . 48 6.4 Vergelijken met reeds bestaande modellen op basis van de AID: 1851 dataset 49 6.4.1 Testen van verschillende features voor de chemische componenten bij regressie en classificatie . 49 6.4.2 Extrapolatie van het regressiemodel naar de Brenda inhibitor dataset 52 6.5 Classificatiemodellen voor het voorspellen van de interactie . 52 6.5.1 Multi-label classificatie . 52 6.5.2 Klasse kansen gebruiken als ordeningsmaat voor activiteit . 53 6.6 Regressiemodellen voor het voorspellen van de kcat-waarde . 55 6.6.1 Selecteren van het beste model . 55 6.6.2 Selecteren van features voor de cytochroom P450s . 55 6.6.3 Voorspellend vermogen van model gefit aan de Sabio en Brenda dataset naar mutaties . 56 7 Optimalisatie van een cytochroom P450 59 7.1 De 20 natuurlijk voorkomende aminozuren in eiwitsequenties . 59 7.2 Opstellen van de PSSM . 59 7.3 Gevoeligheidsanalyse . 61 7.4 Simulated annealing . 61 7.4.1 Optimalisatie van eiwitten . 61 7.5 Optimalisatie van CYP52M1 . 62 7.5.1 PSSM van de CYP52 familie . 62 7.5.2 Gevoeligheidsanalyse voor CYP52M1 . 62 7.5.3 Optimalisatiemodellen voor CYP52M1 . 64 8 Conclusie 75 Bibliografie 77 vii viii HOOFDSTUK 1 Inleiding Cytochroom P450 enzymen vormen een superfamilie van mono-oxygenase enzymen. De ver- scheidenheid in biologische reacties die gekatalyseerd worden door cytochroom P450s is enorm (Ortiz de Montellano, 2015). De 52675 tot nog toe beschreven cytochroom P450s zijn terug te vinden in bijna alle levende wezens (Fischer et al., 2007). Het veelvuldig voorkomen en de grote verscheidenheid aan cytochroom P450s maakt het voor wetenschappers interessant om deze enzymen te bestuderen en aan te passen aan de noden van de mens, bv. voor de productie van geneesmiddelen (Girvan & Munro, 2016). Het gebruik van enzymen voor de productie van levensmiddelen gebeurt al langer. Toe- passingen in de biotechnologie kwamen later. In het begin gebeurde het selecteren van de betere enzymen passief doordat snelgroeiende organismen betere enzymen hadden en zo in aandeel stegen. Later werd door random mutaties en selectie geprobeerd om betere enzymen te verkrijgen. Door het ontstaan van de mogelijkheden om eiwitten te sequeneren en hun 3D-structuur op te helderen, is het nu mogelijk om op een rationele manier deze enzymen te verbeteren. De hoeveelheid sequenties en 3D-structuren groeit zo snel aan, dat het niet meer mogelijk is om deze handmatig te analyseren. Hiervoor worden tegenwoordig computermo- dellen opgesteld om al deze data te verwerken en op basis hiervan aan enzym engineering te doen (Fox & Huisman, 2008). Verschillende optimalisatieprocedures werden al ontwikkeld. Hierbij werd meestal slechts op ´e´ensequentie gewerkt, waarbij gekeken werd naar verschillende mutaties.