Faculteit Bio-ingenieurswetenschappen Academiejaar 2015-2016

In silico engineering van cytochroom P450 via machine learning technieken

Laurentijn Tilleman Promotoren: prof. dr. Willem Waegeman & prof. dr. Bernard De Baets Tutor: ir. Michiel Stock

Masterproef voorgedragen tot het behalen van de graad van Master in de bio-ingenieurswetenschappen: Cel- en genbiotechnologie

Faculteit Bio-ingenieurswetenschappen Academiejaar 2015-2016

In silico engineering van cytochroom P450 via machine learning technieken

Laurentijn Tilleman Promotoren: prof. dr. Willem Waegeman & prof. dr. Bernard De Baets Tutor: ir. Michiel Stock

Masterproef voorgedragen tot het behalen van de graad van Master in de bio-ingenieurswetenschappen: Cel- en genbiotechnologie De auteur en promotor geven de toelating deze scriptie voor consultatie beschikbaar te stellen en delen ervan te kopi¨eren voor persoonlijk gebruik. Elk ander gebruik valt onder de beper- kingen van het auteursrecht, in het bijzonder met betrekking tot de verplichting uitdrukkelijk de bron te vermelden bij het aanhalen van resultaten uit deze scriptie.

The author and promoter give the permission to use this thesis for consultation and to copy parts of it for personal use. Any other use is subject to the copyright laws, more specifically the source must be extensively specified when using results from this thesis.

Gent, juni 2016

De promotoren

prof. dr. Willem Waegeman prof. dr. Bernard De Baets

De tutor De auteur

ir. Michiel Stock Laurentijn Tilleman Dankwoord

Het schrijven van deze thesis heeft mij een beter beeld gegeven van de fascinerende wereld van eiwitoptimalisatie met behulp van machine learning technieken. Dit alles zou mij alleen niet gelukt zijn en daarom zou ik graag enkele personen bedanken. Als eerste wil ik mijn tutor ir. Michiel Stock bedanken om mij te ondersteunen bij het uit- denken van de thesis en de wekelijkse opvolging. Hiernaast wil ik ook graag mijn promotoren prof. dr. Waegeman en prof. dr. De Baets bedanken voor de opbouwende begeleiding tijdens mijn thesis. In het bijzonder wil ik ook mijn medethesisstudenten en in het algemeen alle leden van de vakgroep bedanken voor de fijne sfeer op de vakgroep. Graag zou ik ook mijn ouders, mijn broer en zussen bedanken voor de mentale steun tijdens het maken van deze thesis. Ook mijn vrienden wil ik bedanken voor de nodige ontspanning. Als laatste zou ik graag mijn computer en de HPC faciliteiten van de UGent willen bedanken, zonder deze zou het nooit gelukt zijn om deze thesis tot een goed einde te brengen.

i ii Samenvatting

Cytochroom P450 is een enzymsuperfamilie met meer dan 52000 enzymen (Fischer et al., 2007; Ortiz de Montellano, 2015). Zij bezitten allemaal een heemgroep en katalyseren mono- oxidatie reacties (Meunier et al., 2004). Daar deze enzymen belangrijke reacties katalyseren in de productie van industrieel interessante chemische componenten, is er veel onderzoek gedaan naar het optimaliseren van deze enzymen (Girvan & Munro, 2016). In deze thesis werd een workflow opgesteld voor het optimaliseren van deze enzymsuperfamilie. De optimalisatie gebeurt hier aan de hand van een machine learning model dat paarsgewijze interacties tussen enzymen van de cytochroom P450 superfamilie en chemische componen- ten voorspelt. Hiervoor werd interactiedata van het internet gehaald en opgeslagen in een gestructureerde databank. Voor het opstellen van het machine learning model werd voor de cytochroom P450s gebruik gemaakt van features afgeleid van de eerste drie principale componenten van de aminozuur- eigenschappen. Voor de chemische componenten werd gebruik gemaakt van convolutionele neurale netwerken op grafen om hieruit de moleculaire fingerpints af te leiden. Er werden verschillende machine learning modellen opgesteld. Voor de binaire classificatiedata werd met het random forests model een area under the curve van 0.72, 0.64 en 0.68 verkregen voor respectievelijk substraat-, inhibitor- en activator-interactie via cross-validatie. Voor het regressiemodel werd via random forests op de gezamenlijke dataset afkomstig van de Sabio- en Brenda-database een c-index van 0.62 bereikt via cross-validatie. Als casestudie bij de optimalisatie werd gekozen voor het cytochroom P450 CYP52M1 uit het onderzoek van Van Bogaert et al. (2009). Via simulated annealing werd deze sequentie geoptimaliseerd. Hierbij werd de katalytische activiteit verhoogd met een factor 64 volgens het onderliggende machine learning model.

iii iv Inhoudsopgave

Dankwoord i

Samenvatting iii

Inhoudsopgave vii

1 Inleiding 1

2 Biologische achtergrond van cytochroom P450 3 2.1 De cytochroom P450 superfamilie ...... 3 2.1.1 Nomenclatuur ...... 3 2.1.2 Verspreiding onder de verschillende soorten ...... 4 2.2 Katalytische werking van cytochroom P450 ...... 5 2.2.1 Elektronentransfer naar cytochroom P450 ...... 5 2.2.2 Activatie van het katalytisch centrum ...... 7 2.2.3 Mechanismen van katalyse door cytochroom P450 ...... 8 2.2.4 Inhibitie van cytochroom P450 ...... 11 2.3 Enkele voorbeelden voor het belang van cytochroom P450 ...... 11 2.3.1 Industri¨ele toepassingen ...... 11 2.3.2 Medische toepassingen ...... 13

3 Bestaande modellen voor cytochroom P450 functiepredictie 17 3.1 Voorspellen van de interactie met cytochroom P450 enzymen ...... 17 3.1.1 Ligand-gebaseerd model voor de isovorm specificiteit van substraten voor cytochroom P450 CYP3A4, CYP2D6 en CYP2C9 ...... 18 3.1.2 Classificatie van cytochroom P450 CYP1A2 inhibitoren en niet inhibi- toren met machine learning technieken ...... 19 3.1.3 Vergelijking van multi- en single-label classificatie toegepast op het voorspellen van isovorm specificiteit van cytochroom P450 substraten 19 3.2 Voorspellen van reactieparameters ...... 22

v 3.2.1 Voorspellen van de katalytische parameters van CYP2C19 voor enanti- oselective oxidaties ...... 22 3.3 Modellen voor het voorspellen van de interactie voor zowel nieuwe cytochroom P450s als chemische componenten ...... 23 3.3.1 Een eenduidig proteochemometrisch model voor het voorspellen van inhibitoren van cytochroom P450 ...... 23

4 Overzicht van de dataset 27 4.1 Databanken voor cytochroom P450 ...... 27 4.1.1 DrugBank ...... 28 4.1.2 Sabio ...... 28 4.1.3 SuperCYP ...... 29 4.1.4 Brenda ...... 29 4.1.5 MuteinDB ...... 29 4.1.6 AID: 1851 ...... 30 4.1.7 Sequenties en 3D structuren van cytochroom P450s ...... 30 4.1.8 Ligand structuren ...... 30 4.2 Gestructureerd opslaan van de data ...... 30 4.2.1 Reactie ...... 30 4.2.2 Controle ...... 32 4.2.3 Ligand ...... 32 4.2.4 FP SMILE ...... 32 4.2.5 EiwittenSeq ...... 33 4.2.6 SubSequence ...... 33 4.2.7 EiwittenPDB ...... 33 4.2.8 FP PDB...... 33

5 Featurevoorstelling van de cytochroom P450s en de chemische componen- ten 35 5.1 Features op basis van de sequentie ...... 35 5.1.1 Onderlinge vergelijking en similariteitsmaten: kernelmethoden . . . . 36 5.1.2 Features afgeleid van de eigenschappen van de sequentie en zijn amino- zuren ...... 37 5.1.3 Features op basis van evolutie ...... 39 5.2 Features op basis van structuren en grafen ...... 40 5.2.1 Binaire fingerprints ...... 41 5.2.2 Convolutionele neurale netwerken op grafen voor moleculaire fingerprints 41

vi 6 Modelbouw 45 6.1 Gebruikte machine learning technieken ...... 45 6.1.1 Support Vector Machine ...... 45 6.1.2 Random forests ...... 46 6.1.3 AdaBoost ...... 46 6.1.4 Bagging ...... 46 6.1.5 Ridge Regressie ...... 46 6.2 Cross-validatie voor paarsgewijze data ...... 47 6.3 Evaluatiecriteria ...... 48 6.3.1 C-index ...... 48 6.3.2 AUC ...... 48 6.4 Vergelijken met reeds bestaande modellen op basis van de AID: 1851 dataset 49 6.4.1 Testen van verschillende features voor de chemische componenten bij regressie en classificatie ...... 49 6.4.2 Extrapolatie van het regressiemodel naar de Brenda inhibitor dataset 52 6.5 Classificatiemodellen voor het voorspellen van de interactie ...... 52 6.5.1 Multi-label classificatie ...... 52 6.5.2 Klasse kansen gebruiken als ordeningsmaat voor activiteit ...... 53

6.6 Regressiemodellen voor het voorspellen van de kcat-waarde ...... 55 6.6.1 Selecteren van het beste model ...... 55 6.6.2 Selecteren van features voor de cytochroom P450s ...... 55 6.6.3 Voorspellend vermogen van model gefit aan de Sabio en Brenda dataset naar mutaties ...... 56

7 Optimalisatie van een cytochroom P450 59 7.1 De 20 natuurlijk voorkomende aminozuren in eiwitsequenties ...... 59 7.2 Opstellen van de PSSM ...... 59 7.3 Gevoeligheidsanalyse ...... 61 7.4 Simulated annealing ...... 61 7.4.1 Optimalisatie van eiwitten ...... 61 7.5 Optimalisatie van CYP52M1 ...... 62 7.5.1 PSSM van de CYP52 familie ...... 62 7.5.2 Gevoeligheidsanalyse voor CYP52M1 ...... 62 7.5.3 Optimalisatiemodellen voor CYP52M1 ...... 64

8 Conclusie 75

Bibliografie 77

vii viii HOOFDSTUK 1 Inleiding

Cytochroom P450 enzymen vormen een superfamilie van mono- enzymen. De ver- scheidenheid in biologische reacties die gekatalyseerd worden door cytochroom P450s is enorm (Ortiz de Montellano, 2015). De 52675 tot nog toe beschreven cytochroom P450s zijn terug te vinden in bijna alle levende wezens (Fischer et al., 2007). Het veelvuldig voorkomen en de grote verscheidenheid aan cytochroom P450s maakt het voor wetenschappers interessant om deze enzymen te bestuderen en aan te passen aan de noden van de mens, bv. voor de productie van geneesmiddelen (Girvan & Munro, 2016). Het gebruik van enzymen voor de productie van levensmiddelen gebeurt al langer. Toe- passingen in de biotechnologie kwamen later. In het begin gebeurde het selecteren van de betere enzymen passief doordat snelgroeiende organismen betere enzymen hadden en zo in aandeel stegen. Later werd door random mutaties en selectie geprobeerd om betere enzymen te verkrijgen. Door het ontstaan van de mogelijkheden om eiwitten te sequeneren en hun 3D-structuur op te helderen, is het nu mogelijk om op een rationele manier deze enzymen te verbeteren. De hoeveelheid sequenties en 3D-structuren groeit zo snel aan, dat het niet meer mogelijk is om deze handmatig te analyseren. Hiervoor worden tegenwoordig computermo- dellen opgesteld om al deze data te verwerken en op basis hiervan aan enzym engineering te doen (Fox & Huisman, 2008). Verschillende optimalisatieprocedures werden al ontwikkeld. Hierbij werd meestal slechts op ´e´ensequentie gewerkt, waarbij gekeken werd naar verschillende mutaties. Een machine learning model werd gefit om dan nieuwe mutaties te kunnen voorspellen (Fox, 2005). Voor het optimaliseren van thermostabiele cytochroom P450s werd er gewerkt met recombinatie van verschillende domeinen, waarna een model opgesteld werd om te voorspellen welke combinatie van domeinen het meest thermostabiel zou zijn (Li et al., 2007). Een algemeen raamwerk voor het optimaliseren van cytochroom P450s op basis van paarsgewijze interacties tussen enzymen van de cytochroom P450 superfamilie en chemische componenten op basis van sequenties van de enzymen en de structuur van de chemische componenten werd nog niet opgesteld. 2

In deze thesis wordt een workflow voorgesteld voor het optimaliseren van de sequentie van cy- tochroom P450s op basis van deze paarsgewijze interacties (Figuur 1.1). Hiervoor wordt eerst een beschrijving gegeven van wat cytochroom P450s zijn en welke toepassingen zij hebben in de industri¨ele biotechnologie en de medische sector. Daarna worden de reeds bestaande modellen besproken voor het voorspellen van deze paarsgewijze interacties. In een volgend hoofdstuk wordt beschreven welke data gebruikt kunnen worden voor de machine learning modellen en waarvan deze afkomstig zijn. Voordat de modellen kunnen worden opgesteld wordt een overzicht gegeven van welke features gebruikt kunnen worden voor de sequenties en de structuren van de chemische componenten. In het hoofdstuk over de verschillende mo- dellen, worden verschillende machine learning modellen vergeleken met zowel elkaar als met de literatuur. Op basis van deze modellen wordt dan een optimalisatie uitgevoerd van een cytochroom P450 besproken in de literatuurstudie.

Figuur 1.1: De verschillende stappen van de workflow voor het optimaliseren van cytochroom P450s zoals voorgesteld in deze thesis. HOOFDSTUK 2 Biologische achtergrond van cytochroom P450

Cytochroom P450 werd de eerste keer beschreven door Klingenberg (1958) als een pigment in levermicrosomen. Omura & Sato (1962) voerden een verdere karakterisatie uit. Zij noemden het enzym cytochroom P450 naar zijn sterke absorptieband bij 450 nm en vonden evidentie voor de aanwezigheid van een heemgroep. Cytochroom P450 is een superfamilie van enzymen die een mono-oxygenase activiteit hebben. Ze komen zowel gebonden in de membranen van de cel als vrij in het cytoplasma voor. Ze katalyseren reacties die fysiologisch belangrijk zijn, zoals de afbraak van xenobiotische stoffen, bv. medicatie, alsook de aanmaak van endogene componenten zoals stero¨ıde hormonen. Cytochroom P450s zijn aanwezig in verschillende soorten van het planten- en dierenrijk, alsook bij de micro-organismen (Ortiz de Montellano, 2015).

2.1 De cytochroom P450 superfamilie

Cytochromen zijn wijd verspreid over de verschillende soorten. Ze zijn zowel terug te vinden bij de Eukaryoten als de Prokaryoten. Er is een grote verscheidenheid tussen de verschillende soorten. De ene soort heeft veel meer cytochroom P450s dan de andere. Zo heeft de mens 57 verschillende cytochroom P450s, Arabidopsis thaliana heeft er 272, Campylobacter jejuni heeft er maar eentje en Mycobacterium tuberculosis heeft er 20 (Venter et al., 2001; The Arabidopsis Genome Initiative, 2000; Corcionivoschi & Reid, 2007; Cole et al., 1998; Ortiz de Montellano, 2015). Door het veelvuldig voorkomen en het frequent gebruik van verschillende namen is er overgegaan naar een speciale nomenclatuur voor alle cytochromen P450s (Nelson, 2004, 2009). 4 2.2 KATALYTISCHE WERKING VAN CYTOCHROOM P450

2.1.1 Nomenclatuur

De snelle ontdekking van nieuwe cytochroom P450s maakte het noodzakelijk om te werken aan een systematische nomenclatuur. Nebert et al. (1987) kwam als eerste met een algemene nomenclatuur. Deze bestond uit een Romeins cijfer voor de familie, een letter voor de sub- familie en een getal voor het gen bv. P450IA1. Later werd deze nomenclatuur aangepast door Nelson (2004) en werd er ook een webpagina1 gemaakt om de laatste wijzigingen bij te houden (Nelson, 2009). De nomenclatuur die tegenwoordig gebruikt wordt, is als volgt samengesteld: de naam begint met CYP, van cytochroom P450, het eerste getal verwijst naar de familie, de letter naar de subfamilie en het laatste getal naar het specifieke cytochroom P450 in deze subfamilie. Het onderverdelen van cytochroom P450s in de verschillende families en subfamilies gebeurt op basis van sequentie. Zo is er een arbitraire grens van 40 % gelijkheid in aminozuursequentie om in een familie ingedeeld te worden en 55 % gelijkheid voor een subfamilie. De uiteindelijke groepering gebeurt aan de hand van het clusteren via fylogenetische bomen. Hierdoor kan soms afgeweken worden van bovenvermelde waarden. De families zijn verdeeld onder de verschillende domeinen en rijken. Zo zijn de getallen 1 – 49, 301 – 499 en 3001 – 4999 gereserveerd voor de dieren, 51 – 69, 501 – 699 en 5001 – 6999 gereserveerd voor de lagere Eukaryoten, 71 – 99, 701 – 999 en 7001 – 9999 gereserveerd voor de planten en 101 – 299 en 1001 – 2999 voor de bacteri¨en en andere Prokaryoten (Nelson, 2004).

2.1.2 Verspreiding onder de verschillende soorten

In Tabel 2.1 is een overzicht gegeven van de verdeling van de reeds beschreven cytochroom P450s. Hierin is te zien dat de meeste genen zijn gevonden bij de hogere Eukaryoten en de bacteri¨en. Dit komt omdat van veel dieren, planten en bacteri¨en de genoomsequentie gekend is en hieruit veel genen zoals cytochroom P450s gevonden zijn. Bij de bacteri¨en zijn er het meeste genen gevonden. Dit is omdat er binnen de bacteri¨en een grotere verscheidenheid is dan binnen de hogere Eukaryoten en omdat de cytochroom P450s van bacteri¨en meestal niet gebonden zijn aan een membraan waardoor ze makkelijker te onderzoeken zijn (Ortiz de Montellano, 2015).

2.2 Katalytische werking van cytochroom P450

Cytochroom P450s zijn lid van de grote familie van cyste¨ınato-heem enzymen. Dit betekent dat het actief centrum bestaat uit een heemgroep waarbij het ijzeratoom ondersteund wordt door de zwavel van de cyste¨ıne (Figuur 2.1). Deze enzymen oxideren tal van reacties. Hier- bij wordt een zuurstofmolecule gesplitst waarbij het ene zuurstofatoom wordt ingebouwd in

1http://drnelson.uthsc.edu/CytochromeP450.html HOOFDSTUK 2 BIOLOGISCHE ACHTERGROND VAN CYTOCHROOM P450 5

Tabel 2.1: Overzicht van het aantal families, subfamilies en genen binnen de ver- schillende groepen. Aantallen zijn gebaseerd op de Engineering Database (Fischer et al., 2007).

Families Subfamilies Genen Dieren 96 489 14329 Lagere Eukaryoten 64 370 6317 Planten 61 299 13217 Bacteri¨en 96 543 18812 Totaal 317 1701 52675

+ het substraat en het tweede omgevormd wordt tot water: NAD(P)H + H + O2 + RH + → NAD(P) + H2O + ROH, daarbij worden twee elektronen van gereduceerd nicotinamideade- ninedinucleotide(fosfaat) (NAD(P)H) gebruikt met de vorming van nicotinamideadeninedi- nucleotide(fosfaat) (NAD(P)+). Hierdoor worden cytochroom P450s gerekend tot de groep van de mono-oxigenasen (Meunier et al., 2004).

Figuur 2.1: Voorstelling van de cyste¨ınato-heemgroep in rusttoestand: ijzer(III) protoporfyrine-IX gebonden met een proximale cyste¨ıne. In niet-actieve toestand houdt het ijzer(III) een water molecule gebonden (Meunier et al., 2004).

2.2.1 Elektronentransfer naar cytochroom P450

Nadat cytochroom P450s ontdekt waren, werden er twee klassen beschreven waarin redox- partners van cytochroom P450s betrokken zijn. Klasse I bezit de cytochroom P450s waarbij de elektronen van gereduceerd nicotinamideadeninedinucleotidefosfaat (NADPH) via adre- nodoxin reductase en adrenodoxin overgebracht worden naar cytochroom P450. Klasse II bezit de cytochroom P450s waarbij de elektronen van NADPH via een gecombineerde flavine- 6 2.2 KATALYTISCHE WERKING VAN CYTOCHROOM P450 adeninedinucleotide (FAD) en flavinemononucleotide (FMN)-reductasen worden overgebracht naar cytochroom P450. Hierna werden nog tal van andere klassen gevonden (Omura et al., 1966; Lu & Coon, 1968; Lu et al., 1969; Hannemann et al., 2007).

Klasse I

In Klasse I zitten de meeste bacteri¨ele cytochroom P450s alsook de mitochondriale cytochroom P450s. Binnen deze groep zijn de eiwitten gescheiden van elkaar. Zo is er het FAD-reductase (FdR), dat de gereduceerde equivalenten van NAD(P)H transfereert naar de tweede com- ponent in het systeem, een ferrodoxine (Fdx). Deze Fdx, dat een ijzer-zwavel groep bevat, reduceert dan het cytochroom P450. Bij de bacteri¨en zijn deze drie eiwitten oplosbaar, bij de Eukaryoten is enkel Fdx in de mitochondriale matrix opgelost. Het reductase en het cytochroom P450 zijn membraan geassocieerd en zij zitten in de binnenste mitochondriale membraan (Figuur 2.2) (Werck-Reichhart & Feyereisen, 2000; Hannemann et al., 2007).

Figuur 2.2: Links: Overdracht van elektronen van NAD(P)H naar cytochroom P450 via FdR en Fdx vrij in het cytoplasma, bij bacteri¨en. Rechts: Hetzelfde mechanisme maar met verankering van FdR en cytochroom P450 in de membraan, bij Eukaryoten (Bernhardt, 2006).

Klasse II

Klasse II cytochroom P450s zijn het meest voorkomend in Eukaryoten. Het mono-oxygenase systeem van Klasse II bestaat uit twee eiwitten die zich in de membraan van het endo- plasmatisch reticulum (ER) bevinden van de Eukaryoten. Dit is het cytochroom P450 en het NADPH-cytochroom P450 reductase (CPR) dat zowel de FAD als de FMN-groep bevat. FAD en FMN transfereren beiden de elektronen van NADPH naar cytochroom P450 (Figuur 2.3) (Werck-Reichhart & Feyereisen, 2000; Hannemann et al., 2007).

Klasse III

Hawkes et al. (2002) vonden een nieuwe klasse van elektronentransferketen in CYP176A1. Deze klasse bevindt zich tussen Klasse I en Klasse II, daar het twee gescheiden redoxeiwitten heeft, nl. FdR en flavoddoxin (Fldx), dat een FMN groep bevat, waardoor deze klasse goed gelijkt op Klasse I met dat verschil dat bij deze laatste Fldx is vervangen door Fdx. De HOOFDSTUK 2 BIOLOGISCHE ACHTERGROND VAN CYTOCHROOM P450 7

Figuur 2.3: Elektronenoverdracht van NADPH naar cytochroom P450 via CPR, beide verankerd in het ER (Bernhardt, 2006). elektronenoverdracht gebeurt dus niet via FAD en een ijzer-zwavel cluster, maar door een gescheiden FAD en FMN. In Klasse II zijn deze twee cofactoren versmolten in een eiwit, nl. CPR (Hannemann et al., 2007).

Overige klassen

Klasse IV wordt gekenmerkt door de aanwezigheid van andere elektronendonoren dan NAD(P)H, meestal pyruvaat. Dit systeem komt meestal voor in thermofiele bacteri¨en. Klasse V en Klasse VI cytochroom P450 komen respectievelijk overeen met Klasse I en Klasse III, maar in deze klassen is telkens het tweede eiwit, Fdx en Fldx respectievelijk, gebonden aan het cytochroom P450. De overige klassen worden gekenmerkt door een fusie van de reducerende eiwitten met cytochroom P450. Zo is cytochroom P450 in staat zijn eigen elektronen te ontvangen van NAD(P)H (Hannemann et al., 2007).

2.2.2 Activatie van het katalytisch centrum

De katalytische cyclus begint bij het verdrijven van de watermolecule in het katalytische centrum door het substraat. Hierdoor verandert de positie van het ijzeratoom waardoor de heemgroep een grotere elektronenaantrekkingskracht krijgt en zo een elektronentransfer van de redoxpartner induceert. De elektronentransfer induceert de cyclus (Figuur 2.4, 1→2) (Meunier et al., 2004). Hierna volgt de reductie van het ijzer(III) centrum naar het ferrosta- dium door een elektron van het reductase, bv. CPR (Sevrioukova et al., 1999). Deze stap verloopt relatief traag. De bekomen vorm van het cytochroom P450 is een zeer effici¨ent redu- cerend agent. De lading gecre¨eerd door het extra elektron wordt verdeeld over het volledige porfyrine complex en het zwavelatoom van de cyste¨ıne (Figuur 2.4, 2→3) (Meunier et al., 2004). In een volgende stap bindt een zuurstofmolecule met het ferrostadium van de heemgroep. Zuurstof in het tripletstadium reageert met het ijzeratoom en vormt zo een stabiele confor- matie. Hierbij bindt een elektron van het ijzeratoom met een elektron van het zuurstofatoom in het tripletstadium (Figuur 2.4, 3→4) (Meunier et al., 2004). 8 2.2 KATALYTISCHE WERKING VAN CYTOCHROOM P450

De tweede reductiestap is de meest snelheidsbepalende stap. Hierin ontstaat een negatief ge- laden ijzer(III)-peroxo complex, hetwelk meestal niet lang bestaat omdat de negatieve lading geprotoneerd wordt met vorming van het ijzer(III)-hydroperoxo complex. De protonering ge- beurt door de overdracht van een zuur proton van een nabijgelegen zuur aminozuur naar het negatief geladen zuurstofatoom. Beide complexen kunnen een nucleofile-aditie uitvoeren. De gedeprotoneerde vorm is reactiver dan de geprotoneerde (Figuur 2.4, 4→5) (Meunier et al., 2004). Na de eerste protonering van het zuurstofatoom volgt een tweede. Deze wordt versneld door de negatieve lading op het zwavelatoom van de proximale cyste¨ıne (Auclair et al., 2001). Het proton wordt aangeleverd door een zuur aminozuur in de buurt van de zuurstofmolecule. Na de protonering wordt de O–O binding heterolytisch gesplitst en ontstaat er een watermolecule en een ijzer(V)-oxo complex met elektrofiele eigenschappen (Figuur 2.4, 5→6) (Meunier et al., 2004). Naast de normale cyclus kunnen er ook enkele nevenreacties optreden. Een eerste is de auto-oxidatie van het oxo-ferro stadium met vorming van een superoxide anion en terugkeer naar de rusttoestand (Figuur 2.4, 4→2). Ook kan een peroxide uitgescheiden worden uit het ijzer(III)-hydroperoxo complex met vorming van de rusttoestand (Figuur 2.4, 5b→2). Een laatste nevenreactie gebeurt bij het ijzer(V)-oxo complex waarbij de zuurstof geoxideerd wordt tot water en de ijzer-heemgroep terugkeert naar de rusttoestand (Figuur 2.4, 6→2) (Denisov et al., 2005).

Figuur 2.4: Katalytische cyclus van cytochroom P450. Zie tekst voor details (Denisov et al., 2005). HOOFDSTUK 2 BIOLOGISCHE ACHTERGROND VAN CYTOCHROOM P450 9

2.2.3 Mechanismen van katalyse door cytochroom P450

Bij het bestuderen van het reactiemechanisme van cytochroom P450 gaat er veel aandacht naar de activatie van de moleculaire zuurstof. Het oxideren van het uiteindelijke substraat heeft nog weinig katalytische werking nodig. De specificiteit van het cytochroom P450 heeft meer te maken met de mate waarin een bepaald substraat kan geoxideerd worden, de stereo- specificiteit en de ori¨entatie van het substraat in de katalytische holte (Ortiz de Montellano, 2015). Hieronder wordt een oplijsting gegeven van de meest voorkomende mechanismen.

Hydroxylatie van een sp3 C–H binding

Het introduceren van een zuurstofatoom in een C–H binding is ´e´envan de moeilijkste reacties om te laten doorgaan onder standaardomstandigheden. De oxidatie van een C–H binding begint door het verzwakken van de C–H binding door ofwel een radicaal intermediair ofwel een transitietoestand waarbij de binding tussen C en H verminderd wordt terwijl een binding ontstaat tussen C en O ´enC en H (Figuur 2.5). Hierbij wordt telkens het waterstofatoom overgebracht naar het zuurstofatoom. In een volgende stap ontstaat er een binding tussen C en O en komt het zuurstofatoom los van het ijzeratoom dat achter blijft in zijn ferri-toestand (Groves et al., 1978; Meunier et al., 2004; Ortiz de Montellano, 2015).

Figuur 2.5: Twee reactiewegen voor de oxidatie van een C–H binding (Meunier & Bernadou, 2000).

(Ep)oxidatie van alkenen en acetylenen

Dubbele bindingen worden gemakkelijk geoxideerd door cytochroom P450s. Er zijn echter verschillende wegen die genomen kunnen worden. Zo kan er een epoxide ontstaan. Er kan ook een transfer gebeuren van een waterstofatoom met de vorming van een zuurstof-koolstof dubbele binding. In het laatste geval treedt er inhibitie op, doordat er ook een binding wordt aangegaan met een stikstofatoom op de porferine ring (Visser et al., 2001; Meunier et al., 2004; Ortiz de Montellano, 2015). 10 2.2 KATALYTISCHE WERKING VAN CYTOCHROOM P450

Aromatische oxidatie

De oxidatie van een aromatische verbinding lijkt veel meer op die van een alkeen dan op deze van een C–H binding. Het reactiemechanisme maakt ook gebruik van een epoxide waarbij de dubbele binding wordt geoxideerd en niet de C–H binding, die veel sterker is. Hierdoor bestaat de kans dat het waterstofatoom, dat zich op de plaats bevindt waar het zuurstofatoom wordt ingebouwd, kan worden verplaatst naar het nabijgelegen koolstofatoom (Figuur 2.6) (Meunier et al., 2004; Ortiz de Montellano, 2015).

Figuur 2.6: Oxidatie van een aromatische verbinding met een epoxide intermedi- air, waarbij het deuteriumatoom verplaatst wordt naar het nabijgelegen koolstof- atoom (Meunier et al., 2004).

Heteroatoom oxidatie

Cytochroom P450s zijn niet alleen in staat om koolstofatomen te oxideren, zij kunnen ook he- teroatomen oxideren. Hiervoor bestaan er twee reactiemechanismen. Een eerste reactiemecha- nisme volgt dezelfde weg als uitgelegd bij oxidatie van een C–H binding (Figuur 2.7 A) (Setot & Guengerichs, 1993). Een tweede reactiemechanisme vertrekt van het ijzer(III)-hydroperoxo complex. Dit complex heeft nucleofiele eigenschappen en valt zo het waterstofatoom aan op het heteroatoom waarna de negatieve lading de ontstane OH groep terug aanvalt met vorming van het geoxideerd heteroatoom (Figuur 2.7 B) (Vaz et al., 1997).

N- en O- dealkylatie reacties

De oxidatie van een koolstofatoom gebonden aan een heteroatoom kan resulteren in een eliminatie van het heteroatoom (Figuur 2.8) (Meunier et al., 2004; Ortiz de Montellano, 2015).

2.2.4 Inhibitie van cytochroom P450

De inhibitoren van cytochroom P450s kunnen onderverdeeld worden in drie groepen. De eerste groep is deze van de reversibele inhibitie. Deze inhibitoren zijn moleculen met een hoge affiniteit voor het actieve centrum, maar zonder dat ze een covalente binding aangaan met cytochroom P450. Een tweede groep is deze waarbij de inhibitoren een heteroatoom bezitten, die een covalente binding aangaan met het ijzeratoom van het actieve centrum. De HOOFDSTUK 2 BIOLOGISCHE ACHTERGROND VAN CYTOCHROOM P450 11

Figuur 2.7: A: Rechtstreekse oxidatie van het stikstofatoom, B: Het waterstof- atoom gebonden aan het stikstofatoom wordt verwijderd door het ferri hydroper- oxide anion intermediair, gevolgd door een nucleofile aanval op het hydroperoxide door het stikstof anion (Ortiz de Montellano, 2015).

Figuur 2.8: Hydroxylatie van een koolstofatoom gesubstitueerd met een hetero- atoom wat zich meestal in een eliminatie van het heteroatoom herleidt (Ortiz de Montellano, 2015).

laatste groep bevat de irreversibele inhibitoren. Deze gaan een covalente binding aan met cytochroom P450, waardoor er geen reactie meer mogelijk is. Deze worden daarom soms ook ‘suicide inhibitoren’ genoemd (Meunier et al., 2004; Ortiz de Montellano, 2015).

2.3 Enkele voorbeelden voor het belang van cytochroom P450

2.3.1 Industriele¨ toepassingen

Cytochroom P450s in de sophorolipiden productie

De gist Candida bombicola produceert sophorolipiden. Sophorolipiden zijn oppervlakteac- tieve stoffen opgebouwd uit een vetzuur met op het einde een veresterde suikermolecule. Deze sophorolipiden worden meestal gebruikt als biosurfactants. Voor de productie van deze sophorolipiden maakt deze gist gebruik van cytochroom P450s in zijn pathway (Asmer et al., 1988; Van Bogaert et al., 2009). Door Van Bogaert et al. (2009) werden drie cytochroom P450 genen onderzocht. Het eerste cytochroom P450 had 48 % gelijkenis met CYP52A2 en tussen de 40 % en 47 % met andere cytochroom P450s van de CYP52A subfamilie. Volgens 12 2.3 ENKELE VOORBEELDEN VOOR HET BELANG VAN CYTOCHROOM P450 de nomenclatuur behoort dit enzym tot dezelfde familie, namelijk de CYP52 familie, maar door zijn minimale gelijkenis met andere leden van de familie werd hij ingedeeld in een andere subfamilie, namelijk CYP52M, met naam CYP52M1. Het tweede cytochroom P450 had 91 % gelijkenis met CYP52E2 en 82 % gelijkenis met CYP52E1 en werd daarom toegevoegd aan de subfamilie CYP52E, met als naam CYP52E3. De derde en laatste cytochroom P450 had 45 % gelijkenis met CYP52A3A, maar de gelijkenis met de andere leden van de subfamilie CYP52A ligt tussen de 39 % en de 44 % en heeft ook 43 % gelijkenis met de nieuw ontdekte CYP52M1. Hierdoor werd er een nieuwe subfamilie gemaakt, namelijk CYP52N, en kreeg het enzym de naam CYP52N1 (Nelson, 2004). Uit het onderzoek van Van Bogaert et al. (2009) bleek nog dat CYP52M1 deel zou uitmaken van de productiepathway van sophorolipiden in Candida bombicola. De twee andere genen hebben niet genoeg evidentie om hiervan uit te gaan volgens dit onderzoek.

Synthese van terpeen indool alkalo¨ıden

Terpeen indool alkalo¨ıden zijn een groep van biologisch actieve stoffen. Een overzicht van hun functies en synthesepathways is terug te vinden in Heijden et al. (2004). Al deze alkalo¨ıden zijn afgeleiden van een verbinding tussen tryptofaan en secologanin (O’Connor & Maresh, 2006). De synthesepathway van secologanin wordt weergegeven in Figuur 2.9. Hierbij wordt iso- pentenylpyrofosfaat (IPP) en dimethylallylpyrofosfaat (DMAPP) gesynthetiseerd door de ‘non-mevalonat’ pathway (Yamazaki et al., 2004). De biosynthese van IPP en DMAPP maakt gebruik van deoxyxylulose-5-fosfaat (DXP) reductoisomerase, DXP synthase en 2- C-methyl-D-erythritol-4-fosfaat (MEP) synthase (Chahed et al., 2000; Veau et al., 2000). Een volgende stap in de pathway is de hydroxylatie van geraniol, afkomstig van IPP, naar 10-hydroxygeraniol door geraniol-10-hydroxylase (Collu et al., 2001, 2002). Door 3H-labeled terpeen kan nagegaan worden dat 10-hydroxgeraniol deel uitmaakt van de secologanin bio- synthesepathway (Uesato et al., 1984, 1986). In bovenstaande pathway worden verschillende stappen gekatalyseerd door cytochroom P450s. Zo is het hierboven vermelde geraniol-10-deydroxylase een cytochroom P450 (Meehan & Co- scia, 1973). Het karakteriseren en het vinden van het juiste cytochroom P450 heeft nog enige tijd in beslag genomen. Het referentiecytochroom P450 voor geraniol-10-deydroxylase is CYP76B6. Dit enzym toont tussen de 39 % en 67 % gelijkenis met andere cytochroom P450s in de CYP76 familie. De grootste gelijkenis kon gevonden worden met leden van de CYP76B subfamilie (Collu et al., 2001). Uit onderzoek van H¨ofer et al. (2013) blijkt dat zowel CYP76B6 als CYP76C4 de reactie katalyseren van geraniol naar 8-hydroxygeraniol. In voor- gaande artikels werd de naam 10-hydroxygeraniol gebruikt in plaats van 8-hydroxygeraniol. Zoals te zien is in Figuur 2.10 is het uiteindelijk resultaat van CYP76B6 8-oxogeraniol en bij CYP76C4 een mengsel van 8-hydroxygeraniol en 9-hydroxygeraniol. Ook de laatste stap in deze pathway, de reactie waarbij loganin wordt omgezet naar secolganin, wordt gekatalyseerd HOOFDSTUK 2 BIOLOGISCHE ACHTERGROND VAN CYTOCHROOM P450 13

Figuur 2.9: De biosynthese van secologanin (O’Connor & Maresh, 2006). door een cytochroom P450. Het zijn Irmler et al. (2000) die de functie van CYP72A1 hebben opgehelderd. Uit hun onderzoek blijk dat CYP72A1 wel degelijk de reactie van loganin naar secologanin katalyseert.

Figuur 2.10: Katalytische reactie van geraniol door CYP76B6 en CYP76C4 (H¨ofer et al., 2013).

2.3.2 Medische toepassingen

Gepersonaliseerde medicatie

Bij het onderzoek naar nieuwe medicatie wordt het effect alsook de neveneffecten op de pati¨ent getest. Bij sommige personen is er maar in 30–40 % van de gevallen een positief effect, in de andere gevallen worden dan soms zeer nadelige effecten waargenomen. De reden hiervoor is de genetische variatie tussen personen. In 1959 postuleerde Vogel (1959) al het idee van 14 2.3 ENKELE VOORBEELDEN VOOR HET BELANG VAN CYTOCHROOM P450 farmacogenetica, waarbij gefocust wordt op de relatie tussen de genetische variatie en de verschillende respons van geneesmiddelen op de mens. Door het sequeneren van het menselijk genoom en het 1000 genomen project kwam er heel veel data beschikbaar over de variatie in het menselijk genoom. Deze data geeft een globaal beeld van de aanwezige single nucleotide polymorphism (SNP), een mutatie van ´e´ennucleotide in de genoomsequentie, in het menselijk genoom (Venter et al., 2001; Auton et al., 2015). Volgens de farmacodynamica ondergaat medicatie absorptie in het maag-darmstelsel, distribu- tie via de bloedvaten, metabolisme in diverse organen en excretie. Hierbij is het metabolisme de belangrijkste stap in de studie van de farmacodynamica. In een eerste stap in het metabo- lisme van medicatie treedt er vooral oxidatie, reductie en hydrolyse op. Hierna worden deze producten verder gemetaboliseerd door diverse pathways. Het is vooral in de eerste stap dat cytochroom P450s een belangrijke rol spelen (Tabel 2.2). Binnen de cytochroom P450s zijn er een 8-tal die vaak voorkomen (Tabel 2.3) (Guengerich, 2008; Chen & Wei, 2015).

Tabel 2.2: Overzicht van de meest voorkomende afbraakenzymfamilies bij de afbraak van de 200 meest gebruikte geneesmiddelen in de Verenigde Staten in 2002 (Williams, 2004). Enzymfamilie Cytochroom P450 UDP-glycuranosyltransferase Esterase Andere % 73 15 9 3

Tabel 2.3: Verdeling van medicatie gemetaboliseerd door verschillende cyto- chroom P450s (Chen & Wei, 2015). Cytochroom P450 CYP3A4/5 CYP2D6 CYP2C8/9 CYP1A2 % 36 19 16 11 Cytochroom P450 CYP2C19 CYP2E1 CYP3B6 CYP2A6 % 8 4 3 3

Genetische variatie kan ervoor zorgen dat een bepaald individu een medicijn niet op de nor- male snelheid afbreekt of dat een ander medicijn het cytochroom P450, dat instaat voor de afbraak, inhibeert en zo kunnen toxische concentraties ontstaan. Hierdoor is een studie rond SNP ontstaan waarbij men probeert te voorspellen wat het effect van de medicatie zal zijn. Dit heeft geleid tot gepersonaliseerde medicatie (Guengerich, 2008; Chen & Wei, 2015). Bij de mens zijn er 57 cytochroom P450s aanwezig en deze zitten in 18 families waarvan de CYP1, CYP2, CYP3 en CYP4 families de belangrijkste zijn. CYP1A1 en CYP1B1 komen tot expressie in verschillende weefsels, waar ze vooral polycyclische aromatische koolwater- stoffen metaboliseren. CYP1A2 metaboliseert arylamines en N-heterocyclische verbindingen. De CYP2 familie is de grootste van alle cytochroom P450 families bij de mens. Meer dan de helft van alle reacties in het afbreken van medicatie wordt gekatalyseerd door leden van de CYP2 familie. De CYP3 familie telt vier leden. CYP3A4 en CYP3A5 komen vooral voor in HOOFDSTUK 2 BIOLOGISCHE ACHTERGROND VAN CYTOCHROOM P450 15 de lever en het gastro-intestinaal stelsel van de mens, waar zij meer dan 120 frequent voorko- mende medicijnen en endogene substraten metaboliseren. Binnen de CYP4 familie zijn er 12 leden. CYP4A11, CYP4B1, CYP4F2 en CYP4F3 metaboliseren sommige medicijnen, maar hebben vooral een belangrijke rol in het metabolisme van vetzuren, arachidonzuur, leukotrie- nes, prostaglandine, epoxyeicosatrienoinezuur en derivaten. Tal van cytochroom P450s zijn al gerelateerd aan ziektes; een overzicht is gegeven in Tabel 2.4 (Nebert & Russell, 2002; Nelson & Nebert, 2011). Een overzicht van alle menselijke cytochroom P450s en hun substraatklasse is terug te vinden in Tabel 2.5.

Tabel 2.4: Ziektes geassocieerd met een mutatie in een cytochroom P450 gen (Nebert & Russell, 2002). Gen Ziekte CYP1B1 Primaire congenitale glaucoom, groene staar (buphthalmos) CYP4A/B Defecten in het zoutmetabolisme en de waterbalans leiden tot een hoge bloeddruk (hypertensie) CYP5A1/8A1 Defecten leiden tot stolling en inflammatoire kwalen, ischemische hart- klachten en pulmonale hypertensie CYP7A1 Hypercholesterolemia of stofwisselingsstoornis, resistentie voor choleste- rolsyntheseremmers CYP7B1 Zware stofwisselingsstoornis en neonatale leverziekten CYP11A1 Lipoide bijnierhyperplasie; occasionele congeniatale bijnierhyperplasie (CAH) CYP11B2 Corticosterone methyloxidase defici¨entie type I of type II; occasionele CAH CYP11B1/2 Chimerische enzymen zorgen voor een glucocoricoden herstelbare aldos- teronisme, occasionele CAH CYP17A1 Mineralocorticode excess syndrome, glucocoricoden en sekshormoon de- fici¨enties; geassocieerd met een verhoogd risico op prostaatkanker en be- ginnende prostaathyperplasie; occasionele CAH CYP19A1 Verlies van functie: virilisatie van de vrouw, hypervirilisatie van de man, occasionele CAH Verandering van functie: gynaecomastie bij jonge mannen CYP21A2 Meer dan 90 % van alle CAH CYP24A1 Hypervitaminosis D CYP27A1 Cerebrotendinous xanthomatosis CYP27B1 Vitamine D afhankelijke rachitis type I 16 2.3 ENKELE VOORBEELDEN VOOR HET BELANG VAN CYTOCHROOM P450

Tabel 2.5: Classificatie van de menselijke cytochroom P450s gebaseerd op hun substraatklasse (Ortiz de Montellano, 2015). Sterolen Xenobiotics Vetzuren Eicosanoiden Vitaminen Niet gekend CYP1B1 CYP1A1 CYP2J2 CYP4F2 CYP2R1 CYP2A7 CYP7A1 CYP1A2 CYP2U1 CYP4F3 CYP24A1 CYP2S1 CYP7B1 CYP2A6 CYP4A11 CYP4F8 CYP26A1 CYP2W1 CYP8B1 CYP2A13 CYP4B1 CYP5A1 CYP26B1 CYP4A22 CYP11A1 CYP2B6 CYP4F11 CYP8A1 CYP26C1 CYP4F22 CYP11B1 CYP2C8 CYP4F12 CYP27B1 CYP4X1 CYP11B2 CYP2C9 CYP4V2 CYP27C1 CYP4Z1 CYP17A1 CYP2C18 CYP20A1 CYP19A1 CYP2C19 CYP21A2 CYP2D6 CYP27A1 CYP2E1 CYP39A1 CYP2F1 CYP46A1 CYP3A4 CYP51A1 CYP3A5 CYP3A7 CYP3A43 HOOFDSTUK 3 Bestaande modellen voor cytochroom P450 functiepredictie

Zoals besproken in Hoofdstuk 2 zijn cytochroom P450 enzymen ´e´envan de meest veelzijdige enzym superfamilies en ze vervullen belangrijke reacties in zowel de afbraak van xenobioti- sche stoffen, als in de synthese van industrieel nuttige stoffen. Hierdoor is de interesse naar het voorspellen van de functie van deze enzymen zeer groot (Ortiz de Montellano, 2015). Verschillende onderzoeksgroepen hebben hiervoor een groot scala aan modellen opgebouwd. In dit hoofdstuk wordt een overzicht gegeven van deze modellen. Eerst worden modellen besproken die de interactie met cytochroom P450 enzymen voorspellen. Daarna wordt een model besproken dat de reactieparameters voorspelt en als laatste worden modellen bespro- ken die zowel voor nieuwe cytochroom P450s als nieuwe chemische componenten, de interactie voorspellen.

3.1 Voorspellen van de interactie met cytochroom P450 enzy- men

In deze sectie worden verschillende modellen besproken die proberen te voorspellen welke interactie een bepaalde chemische component aangaat met een cytochroom P450. Sommige modellen proberen een bepaalde chemische component toe te wijzen aan een bepaald cyto- chroom P450 (Terfloth et al., 2007). Andere modellen proberen voor een bepaald cytochroom P450 te voorspellen of deze componenten wel of geen inhiberend effect hebben (Vasantha- nathan et al., 2009). Nog andere modellen willen voor een scala aan chemische componenten voor verschillende cytochroom P450s nagaan of deze gemetaboliseerd worden of een inhibe- rend effect hebben (Michielan et al., 2009). 18 3.1 VOORSPELLEN VAN DE INTERACTIE MET CYTOCHROOM P450 ENZYMEN

3.1.1 Ligand-gebaseerd model voor de isovorm specificiteit van substraten voor cytochroom P450 CYP3A4, CYP2D6 en CYP2C9

Terfloth et al. (2007) zijn op zoek gegaan naar een machine learning model dat chemische componenten indeelt naargelang welk cytochroom P450 het metaboliseert. Hierbij gebruikten ze een dataset voor CYP3A4, CYP2D6 en CYP2C9. Voor elk model gaan ze na welke descriptoren belangrijk zijn voor de classificatie.

Dataset: Terfloth et al. (2007) gebruikten voor hun model de dataset afkomstig van Manga et al. (2005). Deze dataset bevat alleen chemische componenten die uitsluitend door CYP3A4, CYP2D6 of CYP2C9 gemetaboliseerd worden. Uit deze dataset werden 194 namen en Sim- plified Molecular-Input Line-Entry System (SMILES) gehaald. Na de extractie van de data werd deze aangepast. De uiteindelijke dataset bevatte in de trainingsset 146 componenten waarvan 80, 45 en 21 respectievelijk voor CYP3A4, CYP2D6 en CYP2C9. Voor de valida- tieset haalden ze 281 reactanten van Metabolite reaction database1 op 4 maart 2007. Na het verwijderen van onvolledige data en overeenkomstige componenten in de testset, werden 233 componenten overgehouden, waarvan 144, 69 en 20 voor respectievelijk CYP3A4, CYP2D6 en CYP2C9.

Modellen

Model 1: Voor het eerste model werd gekozen voor descriptoren die de interatoomafstand in de 3D structuur van de chemische componenten weergeven. Hierop werd een multinomiale logistische regressie uitgevoerd. Bij de modelselectie werden vier descriptoren geselecteerd. Hierbij was er 74.7 % accuraatheid voor de trainingsset en maar 56.0 % accuraatheid voor de testset.

Model 2: In het tweede model werd de descriptorset van model 1 aangevuld met globale moleculaire descriptoren. Zij vertegenwoordigen de grootte, vorm en structuur, alsook de- scriptoren voor de karakterisering van basische en zure componenten. Na variabelenselectie werden zes descriptoren overgehouden: het aantal basische stikstofatomen, het aantal zure groepen, het aantal secundaire alifatische aminozuren en drie descriptoren die verband houden met de 3D structuur. Het beste model werd gefit met een beslissingsboom waar nog slechts drie descriptoren overbleven. Met dit model was de accuraatheid 88.4 % voor de trainingsset en 72.0 % voor de testset.

Model 3: Voor het derde model werd er een aanvulling gedaan van de descriptoren van model 2 met alle vectori¨ele descriptoren, structuurgebaseerde descriptoren en een manuele

1http://www.mdl.com/products/predic-tive/metabolite/index.jsp HOOFDSTUK 3 BESTAANDE MODELLEN VOOR CYTOCHROOM P450 FUNCTIEPREDICTIE 19 selectie van grootte- en vormgerelateerde descriptoren. In totaal werden 242 descriptoren in rekening gebracht. Na variabelenselectie werden twaalf descriptoren overgehouden. Een support vector machine (SVM) werd gebruikt en gaf een accuraatheid van 90.4 % voor de trainingsset en 82.0 % voor de testset.

Model 4: In het vierde model werden alle 303 descriptoren gebruikt beschreven in Terfloth et al. (2007). Het beste model werd verkregen door de combinatie van een geautomatiseerde variabelenselectie en een SVM. Bij de variabelenselectie kwamen vijftien descriptoren naar boven, gelijkaardig aan deze van model 3. Met dit model werd een accuraatheid gehaald van 91.1 % voor de trainingsset en 80.0 % voor de testset.

3.1.2 Classificatie van cytochroom P450 CYP1A2 inhibitoren en niet inhibitoren met machine learning technieken

Vasanthanathan et al. (2009) hebben modellen opgesteld voor het voorspellen of een chemische component al dan niet een inhibitor is voor cytochroom P450 CYP1A2. Hiervoor hebben ze een dataset van PubChem Bioassay database2 gehaald met 8342 componenten, waarvan 3514, 4173 en 655, respectievelijk als “geen inhibitor”, “inhibitor” en “niet gekend” werden ingedeeld. Voor het selecteren van de testset werd gekozen voor D-optimal onion design (DOOD) (Olsson et al., 2004). De trainingsset bevat 411 componenten, hiervan zijn 192 en 219 respectievelijk geklasseerd als inhibitoren en niet inhibitoren. De overige 7058 componenten werden gebruikt als testset.

Descriptoren: Van de 2D structuren werden de 3D structuren afgeleid, waarvan dan de- scriptoren konden berekend worden. Niet van alle 2D structuren kon de 3D structuur bepaald worden. Hierdoor bleven nog 7469 componenten over. Op basis van de 2D structuur werden nog 214 descriptoren per component berekend.

Modellen: Voor dit model werden eerst 110 descriptoren gebruikt. Dit resulteerde in een accuraatheid van 96 % voor de trainingsset en maar 55 % voor de testset. Hiervoor hebben ze enkel gebruik gemaakt van de eerste drie principale componenten. Dit resulteerde in een accuraatheid van 70 % voor de trainingsset en 66 % voor de testset. Een overzicht van de andere gebruikte modellen is terug te vinden in Tabellen 3.1 en 3.2.

2http://www.ncbi.nlm.nih.gov 20 3.1 VOORSPELLEN VAN DE INTERACTIE MET CYTOCHROOM P450 ENZYMEN

Tabel 3.1: Accuraatheid voor de verschillende modellen op basis van alle descrip- toren (Vasanthanathan et al., 2009). SVMa SVMb RF kNN Beslissingsboom Trainingset 83 % 100 % 100 % 78 % 97 % Testset 72 % 73 % / 73 % 71 %

SVMa, lineair model, SVMb, niet-lineair model, RF: random forests, kNN: k-nearest neighbors methode

Tabel 3.2: Accuraatheid voor de verschillende modellen op basis van de BestFirst descriptoren (Vasanthanathan et al., 2009). SVMa SVMb RF kNN Beslissingsboom Training set 77 % 82 % 100 % 83 % 97 % Test set 73 % 75 % 76 % 74 % 71 %

SVMa, lineair model, SVMb, niet-lineair model, RF: random forests, kNN: k-nearest neighbors methode

3.1.3 Vergelijking van multi- en single-label classificatie toegepast op het voor- spellen van isovorm specificiteit van cytochroom P450 substraten

Michielan et al. (2009) hebben modellen opgesteld om substraten te classificeren naargelang door welk cytochroom P450 ze gemetaboliseerd worden. Hiervoor onderscheidden ze zeven cytochroom P450s, namelijk CYP1A2, CYP2C19, CYP2C8, CYP2C9, CYP2D6, CYP2E1 en CYP3A4. Ze gebruikten zowel multi- als single-label classificatiemethoden.

Dataset: Een dataset met 580 substraten voor cytochroom P450 werd gebruikt. Hiervoor werd data gehaald uit Block & Henry (2008), Bonnabry et al. (2001), P450 Drug Interaction Table3, Pharmacists Letter4, Manga et al. (2005) en van de Metablic database5. Binnen deze dataset worden 488 substraten gemetaboliseerd door een cytochroom P450, de overige 92 substraten, door meerdere cytochroom P450s. Van de 488 substraten die door een enkele cytochroom P450 gemetaboliseerd worden zijn er 46, 15, 11, 45, 105, 48 en 218 respectievelijk substraat voor CYP1A2, CYP2C19, CYP2C8, CYP2C9, CYP2D6, CYP2E1 en CYP3A4. 2D structuur data werd gehaald van PubChem6 en DrugBank7. Hierna werd voor elk model de data opgesplitst in een trainingsset en verschillende testsets, zodanig dat de distributie van alle cytochroom P450s in elke set dezelfde is.

3http://medicine.iupui.edu/clinpharm/ddis/table.asp 4http://www.pharmacistsletter.com 5http://www.mdl.com/products/predictive/metabolite/index.jsp 6https://pubchem.ncbi.nlm.nih.gov/ 7http://www.drugbank.ca/ HOOFDSTUK 3 BESTAANDE MODELLEN VOOR CYTOCHROOM P450 FUNCTIEPREDICTIE 21

Descriptoren voor de componenten: Voor het berekenen van de descriptoren werd eerst van de 2D structuur een 3D structuur afgeleid. Van de 2D en 3D structuren werden dan de descriptoren afgeleid. Deze bevatten informatie over de vorm, de reactiviteit, het aantal wa- terstofbruggen en andere eigenschappen. De descriptoren werden geselecteerd via de BestFirst procedure in Weka8.

Modellen

Model 1: Het eerste model is een multi-label classificatie model voor zeven cytochroom P450s. Eerst werden twaalf descriptoren gebruikt en deze bevatten vectori¨ele eigenschappen, aantallen van functionele groepen en vorm descriptoren, van hun eerdere publicatie (Terfloth et al., 2007). Hierna werd via modelselectie verschillende descriptoren toegevoegd zodat het uiteindelijke aantal op 27 terecht kwam. Er werd zowel een SVM als een k-nearest neighbors (kNN) model gebouwd. Als classificatiecriterium werd het T-criterium gebruikt, hierbij worden de re¨ele waarden omgezet naar het juiste label; zo werd voor elk substraat aangegeven door welke cytochroom P450s het gemetaboliseerd wordt. Hierbij scoorde het SVM model het beste, 76 % en 66 % accuraatheid op respectievelijk de eerste en tweede testset. Een overzicht van de accuraatheden per klasse zijn terug te vinden in Tabel 3.3.

Tabel 3.3: Accuraatheid voor het SVM model op de zeven cytochroom P450s (Michielan et al., 2009). 1A2 2C19 2C8 2C9 2D6 3E1 3A4 Accuraatheid (%) 91.0 92.5 92.5 89.5 97.0 98.5 83.6

Model 2: Het tweede model is een herhaling van model 1, dezelfde descriptoren werden gebruikt en zowel SVM als kNN werden gebruikt om het model op te stellen. In plaats van de zeven cytochroom P450s werden nu enkel nog CYP1A2, CYP2C9, CYP2D6, CYP2E1 en CYP3A4 gebruikt. Voor het valideren en testen werd een andere validatie- en testset gebruikt, die respectievelijk een accuraatheid hebben van 84 % en 70 %. een overzicht van de accuraatheden voor elke klasse is terug te vinden in Tabel 3.4.

Tabel 3.4: Accuraatheid voor het SVM model op de vijf cytochroom P450s (Mi- chielan et al., 2009). 1A2 2C9 2D6 3E1 3A4 Accuraatheid (%) 90.3 95.2 93.5 98.4 87.1

8http://www.cs.waikato.ac.nz/ml/weka/ 22 3.2 VOORSPELLEN VAN REACTIEPARAMETERS

Model 3: Het derde model is, in tegenstelling tot de andere modellen, beschreven in het artikel, een single-label classificatiemodel. De dataset bevat alleen substraten die maar door ´e´envan de vijf cytochroom P450s gekatalyseerd worden. Na variabelenselectie via de BestFirst methode werden nog 19 descriptoren overgehouden. Voor dit model werd zowel een logistische regressie uitgevoerd als een SVM. Hierbij werd een accuraatheid van 87 % en 77.5 % gehaald voor respectievelijk de trainings- en testset bij logistische regressie en 85.7 % en 78.0 % voor respectievelijk de trainings- en testset bij de SVM. Een overzicht van beide modellen van de accuraatheid per cytochroom P450 is terug te vinden in Tabel 3.5.

Tabel 3.5: Accuraatheid voor logistische regressie en het SVM model voor de single-label classificatie (Michielan et al., 2009). 1A2 2C9 2D6 3E1 3A4 Accuraatheid (%): LogReg 54 68 81 78 82 Accuraatheid (%): SVM 73 74 77 68 79

3.2 Voorspellen van reactieparameters

Er werden niet alleen modellen opgesteld om na te gaan door welk cytochroom P450 een bepaald substraat gemetaboliseerd of ge¨ınhibeerd wordt. In volgend onderzoek werd er nage- gaan in welke mate een bepaalde component gemetaboliseerd wordt. Deze modellen geven een beter beeld van de interactie en zijn interessanter voor het gebruik in medische en industri¨ele toepassingen.

3.2.1 Voorspellen van de katalytische parameters van CYP2C19 voor enantiose- lective oxidaties

In het onderzoek van Hartman et al. (2013) werd een model gemaakt dat de katalytische parameters voor CYP2C19 kan voorspellen van chiraal actieve stoffen. Deze parameters zijn: kcat, wordt uitgedrukt in 1/s en geeft aan hoe snel de reactie doorgaat, en Km, wordt uitgedrukt in g/L en is de concentratie waarbij het enzym aan de helft van zijn maximale capaciteit werkt. Ook kcat/Km wordt in het onderzoek voorspeld.

Dataset: Een dataset werd samengesteld uit experimenteel onderzoek waarvan de onder- zoekscondities gelijk waren. Er werden uitsluitend componenten geselecteerd waarvan de twee enantiomeren aanwezig waren. De chirale moleculen mochten maar ´e´enchiraal centrum hebben opdat interferentie van de chirale centra vermeden zou worden. Hieruit ontstond een dataset met 23 paar chirale substraten. Van de structuren werden chirale descriptoren afge- HOOFDSTUK 3 BESTAANDE MODELLEN VOOR CYTOCHROOM P450 FUNCTIEPREDICTIE 23 leid. De katalytische parameters ondergingen een Box-Cox transformatie om de normaliteit binnen de dataset te vergroten.

Modelen: Voor elke parameter werden afzonderlijke artifici¨ele neurale netwerken (ANN) opgebouwd. Voor het voorspellen van de kcat/Km-waarde werden twee methoden gebruikt, het bouwen van een afzonderlijk model en het berekenen van de kcat/Km-waarde op basis van de voorspellingen van kcat en Km. Voor elk ANN werd het aantal verborgen knopen berekend. Een overzicht van de resultaten is terug te vinden in Figuur 3.1.

Figuur 3.1: Correlaties voor de meest optimale ANN bekomen via leave-one- out cross-validatie. De grafieken geven de voorspelde waarden door de ANN ten

opzichte van de experimentele waarden voor kcat (A), Km (B) en kcat/Km (C).

D: berekende kcat/Km op basis van de voorspelde kcat en Km (Hartman et al., 2013).

3.3 Modellen voor het voorspellen van de interactie voor zowel nieuwe cytochroom P450s als chemische componenten

Alle voorgaande modellen maakten gebruik van descriptoren voor de componenten die een interactie aangaan met de cytochroom P450s. Hierdoor kunnen de modellen voorspellingen maken voor nieuwe componenten, maar niet voor nieuwe cytochroom P450s. In deze sectie worden modellen besproken die zowel voor nieuwe componenten als nieuwe cytochroom P450s voorspellingen kunnen doen. 3.3 MODELLEN VOOR HET VOORSPELLEN VAN DE INTERACTIE VOOR ZOWEL NIEUWE CYTOCHROOM P450S ALS 24 CHEMISCHE COMPONENTEN

3.3.1 Een eenduidig proteochemometrisch model voor het voorspellen van inhibi- toren van cytochroom P450

Lapins et al. (2013) hebben een model opgesteld dat voorspelt of een bepaalde component een inhibitor is van een bepaald cytochroom P450. Dit is een model voor alle cytochroom P450s tezamen. Hierdoor wordt ook informatie gehaald uit de interactie met andere cyto- chroom P450s. Het model moet in staat zijn om zowel voor nieuwe componenten als nieuwe cytochroom P450s het inhiberend vermogen te voorspellen.

Dataset: Voor het opstellen van het model werd data gebruikt van PubChem BioAssay AID: 18519. Deze dataset bevat data over het inhiberend vermogen van chemische compo- nenten ten opzichte van vijf cytochroom P450s, CYP1A2, CYP2C9, CYP2C19, CYP2D6 en CYP3A4. Deze dataset bevat 17143 chemische componenten, waarvan na verwijdering van de niet-covalente inhibitoren nog 16359 overbleven. Als validatieset werd gekozen voor de dataset uit Cheng et al. (2011), deze bevat 8988 componenten, die voor ten minste ´e´envan de vijf cytochroom P450s data bevat. Op basis van de SMILES werden 2D features afgeleid. Deze features zijn moleculaire descriptoren, die op het eerste niveau voor deze dataset 460 atomische descriptoren, op het tweede niveau 67168 en op het derde niveau 67168 descriptoren bevatten. Voor de cytochroom P450s werden 21 descriptoren beschreven. Deze zijn gebaseerd op de aminozuur eigenschappen, die in zeven groepen ingedeeld zijn. Voor elke groep werden dan drie klassen gemaakt.

Modellen: Voor het opstellen van de modellen werden drie technieken gebruikt. Voor het SVM model werd een optimale accuraatheid van 85.68 % via cross-validatie en 88.33 % voor de validatieset met het gebruik van descriptoren berekend tot het derde niveau. Bij het random forests model werd de hoogste accuraatheid bereikt gebruikmakend van descriptoren tot het tweede niveau, hierbij was de accuraatheid via cross-validatie 84.35 % en 88.32 % op de validatieset. Als laatste werd een kNN model gebruikt, hierbij scoorde het model met descriptoren tot het tweede niveau het best, met een accuraatheid van 79.56 % via cross- validatie en 80.10 % op de validatieset. Hierna werden twee testsets opgebouwd waarin telkens een cytochroom P450 werd weggelaten, in testset A kwamen wel nog chemische componenten voor die ook gebruikt werden bij de training, voor testset B werden ook de componenten uit de testset verwijderd die nog aanwezig waren tijdens de training. De gemiddelde area under the receiver operating characteristic (ROC) curve (AUC) is 0.792 voor testset A en 0.797 voor testset B (Figuur 3.2).

9https://pubchem.ncbi.nlm.nih.gov/bioassay/1851 HOOFDSTUK 3 BESTAANDE MODELLEN VOOR CYTOCHROOM P450 FUNCTIEPREDICTIE 25

Figuur 3.2: ROC curves van de proteochemometische modellen gebouwd op tel- kens vier van de vijf cytochroom P450s voor het voorspellen van de inhibitie voor het ontbrekend cytochroom P450. Test set A bevat nog chemische componenten die ook in de trainingsset zaten, testset B bevat geen componenten meer die in de trainingsset zaten (Lapins et al., 2013).

HOOFDSTUK 4 Overzicht van de dataset

In dit hoofdstuk wordt er een overzicht gegeven van de datasets die gebruikt zullen worden om de interactiemodellen tussen cytochroom P450s en chemische componenten of liganden op te bouwen. Eerst worden de verschillende soorten bronnen waaruit de data gehaald werd overlopen. Hierbij wordt telkens aangegeven over welk soort data het gaat en waarvan deze afkomstig is. In het laatste deel wordt beschreven hoe de data werd opgeslagen in een ge- structureerde of relationele databank.

4.1 Databanken voor cytochroom P450

De data die nodig is voor het opstellen van de modellen is afkomstig van online databan- ken. Deze databanken halen hun data meestal uit artikels van verschillende studies. In de databanken gerelateerd aan cytochroom P450 zitten drie verschillende soorten interacties:

• Interactie als substraat: hierbij ondergaat de chemische component een verandering onder invloed van een cytochroom P450.

• Interactie als inhibitor: hierbij inhibeert de chemische component de reactie die een cytochroom P450 zou katalyseren.

• Interactie als activator: hierbij activeert of versnelt de chemische component de reactie die een cytochroom P450 katalyseert.

De data kan onderverdeeld worden in twee grote groepen: de data die reactiesnelheden of bindingsconstanten bevat en data die enkel aangeeft of er een interactie plaatsvindt tussen cytochroom P450 en het ligand, hier vermeld als binaire data. Bij de niet-binaire data kunnen we een onderscheid maken tussen de reactiesnelheid, kcat, die de snelheid van de katalytische reactie aangeeft, en Ki-waarden, die de bindingssterkte aangeeft van de inhibitoren en acti- vatoren (Tabel 4.1). 28 4.1 DATABANKEN VOOR CYTOCHROOM P450

Tabel 4.1: Overzicht van de gebruikte bronnen voor cytochroom P450 ligand interacties met telkens het type data, binair voor als enkel de aard van de interactie gekend is en re¨eel voor data waarvan de parameterwaarden gekend zijn en de aard van interactie.

Interactie tabel # Cytochroom P450s # Liganden # Interacties Type Drugbank Substraat 16 516 516 binair Drugbank Inhibitor 16 323 323 binair Drugbank Activator 16 87 87 binair Sabio Substraat 18 28 71 re¨eel Super CYP Substraat 37 572 2520 binair Super CYP Inhibitor 31 456 1747 binair Super CYP Activator 33 196 535 binair Brenda Substraat 110 107 792 re¨eel Brenda Inhibitor 17 39 59 re¨eel MuteinDB Substraat 361 261 3068 re¨eel AID: 1851 Inhibitor 5 17131 85685 re¨eel

4.1.1 DrugBank

DrugBank1 is een web-toegankelijke databank die kwantitatieve chemische, fysiologische, far- macologische en biologische data samenbrengt uit duizenden studies over drugs en drug-target interacties (Wishart et al., 2006). De volledige databank kan gedownload worden in XML- formaat. In dit bestand is voor elke chemische component vermeld met welk enzym het een interactie aangaat en wat deze interactie inhoud: substraat, inhibitor of activator. Een over- zicht van het aantal cytochroom P450s, substraten, inhibitoren en activatoren die aanwezig is in DrugBank zijn terug te vinden in Tabel 4.1.

4.1.2 Sabio

Sabio-RK2, Biochemical Reaction Kinetics Database, is een database waarin biochemische reactiekinetieken worden opgeslagen. Alle data is geannoteerd door biologische experten. Deze databank bevat data van verschillende soorten organismen (Wittig et al., 2012). Op de site werd gezocht op ‘cytochrome P450’, alle zoekresultaten werden opgeslagen in een tabel. Enkel van de interactie waarvan de reactieparameters bekend waren, werden overgehouden.

1www.drugbank.ca 2http://sabio.villa-bosch.de/ HOOFDSTUK 4 OVERZICHT VAN DE DATASET 29

4.1.3 SuperCYP

De SuperCYP database3 is een databank die informatie over cytochroom P450s in het men- selijk lichaam verzamelt. De informatie werd bekomen uit wetenschappelijke literatuur en verschillende online bronnen. Voor elk cytochroom P450 en chemische component wordt weergegeven of de chemische component een inhibitor, substraat of activator is (Preissner et al., 2009). De data werd handmatig van de site gekopieerd naar een tabel. Een overzicht van het aantal cytochroom P450s, substraten, inhibitoren en activatoren die aanwezig zijn in DrugBank zijn terug te vinden in Tabel 4.1.

4.1.4 Brenda

Brenda4 is een databank die gespecialiseerd is in enzymen en in enzym-ligand interacties. De informatie die terug te vinden is, werd verzameld door manuele extractie van literatuur, tekst en data mining ´enpredictieve algoritmes (Chang et al., 2015). Op de site werd gezocht naar de enzym naam ‘cytochrome P450’ en de bekomen lijst met EC nummers werd gedownload. Op basis van deze lijst met EC nummers werd via de SAOP access van de site de tabel met de parameterwaarden kcat gedownload. In deze tabel staan de enzymen aangeven volgens hun EC nummer en organisme waarvan ze afkomstig zijn. Verder is er ook een kolom voor de kcat-waarde en ´e´envoor de chemische componenten die de reactie ondergaan. Op basis van het EC nummer en het organisme werd de tabel met de sequentiedata gedownload. Op dezelfde manier werd zo ook de informatie van de inhibitoren gedownload. Een overzicht van het aantal cytochroom P450s, substraten en inhibitoren die aanwezig zijn in Brenda zijn terug te vinden in Tabel 4.1.

4.1.5 MuteinDB

MuteinDB5 is een platform waar experimentele data wordt samengebracht. Deze data kan afkomstig zijn van publieke bronnen of direct door de wetenschappers aangebracht in de data- base. MuteinDB geeft een overzicht van reactiedata zoals activiteit, kcat-waarden, substraten, inhibitoren enzovoort. De experimentele condities worden telkens weergegeven (Braun et al., 2012). De data van de cytochroom P450s met hun mutanten werden handmatig van de site gekopieerd naar een tabel.

3http://bioinformatics.charite.de/supercyp 4http://www.brenda-enzymes.org/ 5https://muteindb.genome.tugraz.at/ 30 4.2 GESTRUCTUREERD OPSLAAN VAN DE DATA

4.1.6 AID: 1851

De AID: 18516 dataset is samengesteld door Veith et al. (2009) via high throughput screening in een in vitro bioluminescentie assay. Deze dataset geeft voor vijf cytochroom P450s en 17131 chemische componenten aan hoe sterk elke chemische component elk enzym inhibeert. Deze kan rechtstreeks gedownload worden van de bioassay website.

4.1.7 Sequenties en 3D structuren van cytochroom P450s

Voor alle datasets werden de sequenties van de cytochroom P450s opgezocht in de Uniprot database7. Voor elke cytochroom P450 werd het Uniprot Id, de sequentie en informatie over de classificatie opgeslagen. Van sommige cytochroom P450s zijn er ook al 3D structuren bekend. Deze 3D structuren werden uit de Protein Data Bank in Europe8 gehaald.

4.1.8 Ligand structuren

De SMILES van de liganden werden op basis van de naam, INCHI key of CAS nummer opgezocht via de web tool Chemical Identifier Resolver9. Naast het SMILES formaat voor de structuur werd voor elk ligand ook de INCHI key opgezocht om een eenduidige vergelijking van de verschillende datasets mogelijk te maken. Liganden die niet werden teruggevonden via deze tool werden op PubChem10 opgezocht.

4.2 Gestructureerd opslaan van de data

Om op een overzichtelijke manier de gevonden data te kunnen raadplegen, werd deze opge- slagen in een relationele databank. Hiervoor werd gebruik gemaakt van het software pak- ket mySQL11. De databank bestaat uit acht tabellen: Reactie, Controle, EiwittenSeq, SubSequence, EiwittenPDB, FP PDB, Ligand en FP SMILE. Al deze tabellen zijn aan elkaar gelinkt via een ´e´enop veel relatie (Figuur 4.1). In de volgende subsecties worden de verschil- lende tabellen verder toegelicht.

4.2.1 Reactie

De reactietabel is de belangrijkste tabel binnen de databank. In deze tabel wordt alle informatie over de reactie opgeslagen. Voor elke rij in de tabel wordt er aangege-

6https://pubchem.ncbi.nlm.nih.gov/bioassay/1851 7http://www.uniprot.org/ 8http://www.ebi.ac.uk/pdbe/ 9https://cactus.nci.nih.gov/chemical/structure 10https://pubchem.ncbi.nlm.nih.gov/ 11http://www.mysql.com/ HOOFDSTUK 4 OVERZICHT VAN DE DATASET 31 SubSequence SubSequence_ID INT(11) EiwittenSeq_UniprotID VARCHAR(45) SubSequence LONGTEXT Parameters LONGTEXT Indexes Reactie ReactieID INT(11) EiwittenSeq_UniprotID VARCHAR(45) Ligand_INCHI_KEY_Substraat VARCHAR(45) Ligand_INCHI_KEY_Product VARCHAR(45) Kcat DOUBLE Bron VARCHAR(45) Waarde TINYINT(1) Indexes EiwittenSeq UniprotID VARCHAR(45) Seq LONGTEXT Familie INT(11) Subfamilie VARCHAR(2) GenNr INT(11) Indexes Ligand INCHI_KEY VARCHAR(45) SMILE LONGTEXT Indexes Controle ControleID INT(11) EiwittenSeq_UniprotID VARCHAR(45) Ligand_INCHI_KEY VARCHAR(45) Km DOUBLE Bron VARCHAR(45) Waarde TINYINT(1) Inhibitie TINYINT(1) Indexes EiwittenPDB PDBid VARCHAR(4) EiwittenSeq_UniprotID VARCHAR(45) PDBfile LONGTEXT LigandFile LONGTEXT Indexes Overzicht van de relationele databank met zijn acht tabellen en de onderlinge connecties. FP_SMILE FP_SMILE_ID INT(11) Ligand_INCHI_KEY VARCHAR(45) FingerPrint LONGTEXT Parameters LONGTEXT Indexes FP_PDB FP_PDB_ID INT(11) EiwittenPDB_PDBid VARCHAR(4) FingerPrint LONGTEXT Parameters LONGTEXT Indexes Figuur 4.1: 32 4.2 GESTRUCTUREERD OPSLAAN VAN DE DATA ven door welk cytochroom P450 de reactie wordt gekatalyseerd, EiwittenSeq UniprotID, welk substraat gemetaboliseerd wordt, Ligand INCHI KEY Substraat, welk product er ontstaat, Ligand INCHI KEY Product, aan welke snelheid dit gebeurt, uitgedrukt via de kcat-waarde, Kcat, de bron waarvan deze informatie is gehaald, Bron en of het over binaire data of re¨ele data gaat, Waarde. Deze tabel is gekoppeld aan de tabel EiwittenSeq via EiwittenSeq UniprotID, om via deze link meer informatie over de se- quentie te kunnen toevoegen en met de tabel Ligand via Ligand INCHI KEY Substraat en Ligand INCHI KEY Product, om via deze link meer informatie over het substraat en het pro- duct te verkrijgen.

4.2.2 Controle

Een tweede tabel is de tabel Controle. Deze tabel bevat de data die aangeeft welke mechanis- men de reactie controleren. Zo kan een reactie ge¨ınhibeerd worden of kan een chemische com- ponent de reactie induceren. De tabel bevat de volgende velden: EiwittenSeq UniprotID, geeft aan over welk cytochroom P450 de controle wordt uitgeoefend, Ligand INCHI KEY, de chemische component die de reactie door het cytochroom P450 be¨ınvloedt, Km, de mate waarin de reactie wordt gewijzigd door de chemische component, Bron, plaats waarvan de informatie gehaald werd, Waarde, of het over binaire data of re¨ele data gaat en Inhibitie, of de chemi- sche component een inhiberend of inducerend effect uitvoert. Deze tabel is gekoppeld aan de tabel EiwittenSeq via EiwittenSeq UniprotID, om via deze link meer informatie over de sequentie te kunnen toevoegen en aan de tabel Ligand via Ligand INCHI KEY.

4.2.3 Ligand

De tabel Ligand is eigenlijk een tussentabel, die de tabellen Reactie en Controle verbindt met de tabel FP SMILE. Deze tabel bevat naast het veld INCHI KEY, die de tabellen koppelt en de unieke sleutel is voor elke chemische component, ook het veld SMILE, die de chemische structuur van elke chemische component weergeeft.

4.2.4FP SMILE

De tabel FP SMILE bevat alle fingerprints van de chemische componenten. In Sectie 5.2 wordt uitgelegd hoe deze fingerprints worden opgebouwd. Via het veld Ligand INCHI KEY is het gekoppeld aan de tabel Ligand. In het veld FingerPrint zitten de eigenlijke fingerprints opgeslagen en in het veld Parameters zitten de parameters die nodig waren om de fingerprints op te bouwen. HOOFDSTUK 4 OVERZICHT VAN DE DATASET 33

4.2.5 EiwittenSeq

De tabel EiwittenSeq is net zoals de tabel Ligand een tussentabel. Deze tabel verbindt de tabellen Reactie en Controle met de tabellen SubSequence en EiwittenPDB, via het veld UniprotID. Naast het veld UniprotID bevat deze tabel de velden Seq (de sequentie van het cytochroom P450), Familie (de familie waartoe het cytochroom P450 behoort), Subfamilie (de subfamilie waartoe het cytochroom P450 behoort) en GenNr (het nummer van het cytochroom P450 binnen zijn subfamilie).

4.2.6 SubSequence

Aan de tabel EiwittenSeq is de tabel SubSequence gelinkt via het veld EiwittenSeq UniprotID. De tabel SubSequence bevat de features van de cytochroom P450s op basis van de sequentie opgeslagen in het veld SubSequence. In Sectie 5.1 wordt uitgelegd hoe deze features worden opgebouwd. In het veld Parameters zitten de parameters opgeslagen die nodig waren om de features op te bouwen.

4.2.7 EiwittenPDB

De tabel EiwittenPDB bevat de links naar de 3D structuren van de al gekende 3D structuren van cytochroom P450s. Deze tabel is gekoppeld met de tabel EiwittenSeq via het veld EiwittenSeq UniprotID en de tabel FP PDB via het veld PDBid. Verder bevat deze tabel ook nog de velden PDBFile en LigandFile die de linken naar respectievelijk de volledige 3D structuur van het cytochroom P450 en de 3D structuur van de actieve site van het cytochroom P450 bevatten.

4.2.8FP PDB

De laatste tabel in de databank is de tabel FP PDB. Deze tabel bevat de fingerprints afkomstig van de 3D structuur van de cytochroom P450s en is gekoppeld met de tabel EiwittenPDB via het veld EiwittenPDB PDBid. De fingerprints zijn opgeslagen in het veld FingerPrint en de parameters om de fingerprints op te bouwen zitten in het veld Parameters. In Sectie 5.2 wordt uitgelegd hoe deze fingerprints worden opgebouwd.

HOOFDSTUK 5 Featurevoorstelling van de cytochroom P450s en de chemische componenten

De modellen die gebruikt zullen worden hebben een numerieke input nodig. De sequenties en 3D structuren van de cytochroom P450s of de structuren van de chemische componenten kunnen echter niet rechtstreeks in deze modellen gebracht worden. Daarom wordt er gebruik gemaakt van functies die deze structuren omzetten naar numerieke features welke gebruikt kunnen worden in de modellen. In dit hoofdstuk worden verschillende methoden om features af te leiden besproken. In het eerste deel worden features afgeleid van sequenties besproken. In het volgende deel worden features op basis van de 3D structuur van de cytochroom P450s en de structuren van de chemische componenten besproken.

5.1 Features op basis van de sequentie

Cytochroom P450s zijn eiwitten en deze zijn opgebouwd uit aminozuren. Deze aminozuren komen in elk cytochroom P450 voor in een bepaalde volgorde. Cytochroom P450s kan niet enkel verschillen in de volgorde van aminozuren maar ook in de lengte van deze sequentie. Om deze verschillende sequenties voor te stellen als vectoren van dezelfde lengte zijn er verschil- lende methoden ontwikkeld. De eerste groep van methoden kunnen ondergebracht worden onder de kernelmethoden, waarbij op basis van onderlinge gelijkenis een similariteit tussen de sequenties wordt opgesteld. Een tweede methode maakt gebruik van eigenschappen van de sequentie en de aminozuren waaruit deze bestaat om op basis hiervan features op te stellen. In een laatste methode wordt niet enkel gekeken naar de sequentie zelf, maar ook naar zijn evolutie doorheen de tijd. 36 5.1 FEATURES OP BASIS VAN DE SEQUENTIE

5.1.1 Onderlinge vergelijking en similariteitsmaten: kernelmethoden

Kernelmethoden laten toe om te werken in een hoog-dimensionale impliciete feature ruimte. Via de transformatie φ(x) kunnen objecten geprojecteerd worden in deze ruimte. Een kernelfunctie is niets anders dan het nemen van het inproduct van twee objecten in deze ruimte: K(x, z) = φ(x), φ(z) , waarbij K(x, z) de kernelfunctie is, x en z twee objecten h i zijn en , het inproduct is. Afgeleid van het inproduct is de kernelfunctie symmetrisch: h· ·i K(x, z) = K(z, x). Door het gebruik van kernelmethoden moeten de co¨ordinaten van de features niet exact uitgerekend worden, maar kan simpelweg de kernelfunctie over de twee objecten berekend worden (Genton, 2001).

Smith Waterman similariteitsmaat

Smith & Waterman (1981) hebben een algoritme ontwikkeld om een similariteitsmaat te be- rekenen tussen twee verschillende eiwit- of aminozuursequenties. Een eiwit- of aminozuurse- quentie wordt hier gedefinieerd als een string S bestaande uit een opeenvolging van symbolen uit een alfabet Σ met Σ symbolen. Σn zijn alle mogelijke strings met lengte n met sym- | | bolen uit het alfabet Σ. Stel string A = a1a2a3a4 a en B = b1b2b3b4 b , waarbij a ··· n ··· m i de elementen zijn van string A, bj de elementen zijn van string B, n de lengte van string A en m de lengte van string B. De gelijkheid tussen de elementen wordt voorgesteld door een

score s(ai, bj), een deletie met lengte k krijgt een gewicht Wk. Via dynamisch programmeren

wordt een scorematrix H = [Hi,j], voor het gekozen pad, ingevuld (Algoritme 1). De Smith Waterman similariteitsmaat is de maximale waarde in matrix H, K(A, B) = max(H). Door het pad terug te volgen waarlangs deze grootste waarde is bereikt, kan de alignering tussen beide sequenties gevonden worden.

Algoritme 1: Smith Waterman

Input: string A en B van lengte n en m, gewichten vector Wk H(0 : n, 0 : m) = 0 for i = 1 : n do for j = 1 : m do

H = max H −1 −1 + s(a , b ), max ≥ H − W , max ≥ H − W , 0 i,j { i ,j i j k i { i k,j − k} k j { i,j k − k} } end for end for Output: K(A, B) = max(H)

Gap-weighted subsequentiekernels

Voor de volgende methode worden eerst enkele definities gegeven. Een substring van S is een string met een ononderbroken opeenvolging van symbolen in S. T is een substring van HOOFDSTUK 5 FEATUREVOORSTELLING VAN DE CYTOCHROOM P450S EN DE CHEMISCHE COMPONENTEN 37

S als S = UTV waarbij U en V de overige symbolen zijn of gelijk zijn aan , een string met lengte 0. In een subsequentie van S is er de mogelijkheid dat er een onderbreking is tussen de opeenvolgende symbolen in deze string in S. U is een subsequentie van een string

S als er indexen i = (i1, . . . , i ) met 1 i1 i S bestaat zodat u = s voor |U| ≤ ≤ · · · ≤ |U| ≤ | | j ij j = 1,..., U . De lengte van U in S wordt gedefinieerd als l(i). Om subsequenties die meer | | verspreid zijn over een string S minder gewicht te kunnen geven werd een factor λ [0, 1] ∈ ingevoerd. Het gewicht voor U met lengte l(i) is dan λl(i). De gap-weighted subsequentiekernel gaat na hoeveel en hoe vaak subsequenties van een be- paalde string voorkomen in een andere string.

X K (A, B) = φp(A), φp(B) = φp (A)φp (B) , p h i u u u∈Σp waarbij

X φp (A) = λl(i), u Σp . u ∈ i:u=s(i) Door het wegen van de subsequenties worden subsequenties die wijd verspreid zijn over de strings minder in rekening gebracht. De kernel waarden kunnen gemakkelijk uitgerekend worden via dynamisch programmeren (Algoritme 2) (Shawe-Taylor & Cristianini, 2004).

5.1.2 Features afgeleid van de eigenschappen van de sequentie en zijn aminozu- ren

De kernelmethoden werken meestal goed, maar zij worden altijd opgesteld per dataset. Hier- door kan een feature van ´e´enobject niet apart bepaald worden, maar altijd in relatie tot de andere objecten in de dataset. Methoden om features op te stellen op basis van enkel een sequentie worden hier weergegeven. Deze features werken meestal op basis van verschillende eigenschappen van de eiwitsequentie. Zo kan de aan- of afwezigheid van aminozuren of hun relatieve verhouding de basis zijn van de features. Ook de eigenschappen van elk aminozuur kan in rekening gebracht worden om zo onderscheid te maken tussen aminozuren die sterk op elkaar lijken en sterk verschillen. De relatieve afstand tussen de verschillende aminozuren kan ook mee in rekening gebracht worden. Hoe meer eigenschappen en interacties in rekening gebracht worden, hoe meer features er kunnen opgebouwd worden. Meestal wordt dan via featureselectie de belangrijkste features geselecteerd (Dubchak et al., 1995).

PAAC

De Pseudo Amino Acid Composition (PAAC) descriptoren werden ontwikkeld door Chou (2001) en zijn afgeleid van de aminozuursequentie. Voor elk aminozuur in de sequentie wordt

Hk(ai), een gestandaardiseerde waarde voor het aminozuur, berekend als volgt: 38 5.1 FEATURES OP BASIS VAN DE SEQUENTIE

Algoritme 2: Gap-weighted subsequences Input: strings A en B van lengte n en m, subsequentie lengte p en parameter λ DPS(1 : n, 1 : m) = 0 for i = 1 : n do for j = 1 : m do

if ai = bi then DPS(i, j) = λ2 end if end for end for DP (0, 0 : m) = 0 DP (1 : n, 0) = 0 for l = 2 : p do Kern(l) = 0 for i = 1 : n 1 do − for j = 1 : m 1 do − DP (i, j) = DPS(i, j) + λDP (i 1, j) + λDP (i, j 1) λ2DP (i 1, j 1) − − − − − if ai = bj then DPS(i, j) = λ2DP (i 1, j 1) − − Kern(l) = Kern(l) + DPS(i, j) end if end for end for end for

Output: Kp(A, B) = Kern(p)

◦ 1 P20 ◦ Hk (ai) 20 i=1 Hk (ai) Hk(ai) = r − , P20 ◦ 1 P20 ◦ 2 i=1[Hk (ai)− 20 i=1 Hk (ai)] 20 ◦ waarbij Hk (ai) de originele waarde is voor een aminozuureigenschap van het i-de aminozuur. Deze aminozuureigenschappen beschrijven hydrofobiciteit, zure of basische eigenschappen, het vormen van covalente bindingen, etc. Gebaseerd op de gestandaardiseerde waarden van K aminozuureigenschappen werd een correlatiefunctie berekend voor elk paar van aminozuren:

K 1 X Θ(a , a ) = [H (a ) H (a )]2 , i j K k i − k j k=1 waarbij Hk(ai) en Hk(aj) verwijzen naar de genormaliseerde waarden voor de k-de eigenschap van het ai-de en aj-de aminozuur. Dan kan voor elk eiwit de PAAC als volgt berekend worden: HOOFDSTUK 5 FEATUREVOORSTELLING VAN DE CYTOCHROOM P450S EN DE CHEMISCHE COMPONENTEN 39

n−r 1 X θ = Θ(a , a ) , l n r i i+r − i=1 waarbij n de lengte is van de aminozuursequentie en r gaat van 1 tot R, een veranderlijke parameter die kleiner is dan n. Zo ontstaan er R features voor de aminozuursequentie.

Features afgeleid van de eerste drie principale componenten van de aminozuurei- genschappen

De volgende features zijn een vereenvoudiging van de PAAC. Er wordt voor elk aminozuur geen gewogen gemiddelde genomen, maar de eerste drie principale componenten worden bere- kend op basis van de eigenschappen van deze aminozuren (Tabel 5.1) (Hellberg et al., 1987). De features worden als volgt berekend: voor elke combinatie van principale componenten wordt voor elk aminozuur de volgende functie opgesteld:

Θ (a , a ) = z (a ) z (a ) , kl i j k i · l j waarbij zk(ai) en zl(aj) verwijzen naar de k-de of l-de principale component van het res- pectievelijke ai-de en aj-de aminozuur. Dan kan voor elke afstand r en elke combinatie van principale componenten de feature als volgt berekend worden:

n−r 1 X Θ (a , a ) , n r kl i i+r − i=1 waarbij n de lengte is van de aminozuursequentie en r gaat van 1 tot R, een veranderlijke  K(K−1)  parameter die kleiner is dan n. Bij K principale componenten zijn er K + 2 R descriptoren , voor drie principale componenten en een maximale afstand van 24 tussen de aminozuren zijn er dus 144 descriptoren.

5.1.3 Features op basis van evolutie

Er kunnen niet enkel features afgeleid worden op basis van enkel de sequentie, maar ook op basis van hoe deze sequentie veranderd is gedurende de evolutie. Hiervoor wordt er een Position Specific Iterated Basic Local Alignment Search Tool (BLAST) (Altschul et al., 1997) (PSI-BLAST) uitgevoerd, waaruit een meervoudige sequentie-alignering komt. Op basis van deze meervoudige sequentie-alignering kan men dan een Position Specific Scoring Matrix (PSSM) bouwen waarvan features kunnen afgeleid worden (Gribskov et al., 1987). Deze features hebben als voordeel dat niet enkel informatie over de sequentie, maar ook over de evolutie van de sequentie meer in rekening wordt gebracht. Een nadeel echter is dat deze features niet kunnen gebruikt worden om sequenties te vergelijken die sterk gelijkend zijn. 40 5.2 FEATURES OP BASIS VAN STRUCTUREN EN GRAFEN

Tabel 5.1: De eerste drie principale componenten z1, z2 en z3 voor elk aminozuur op basis van 29 descriptoren (Hellberg et al., 1987).

Aminozuur z1 z2 z3 Aminozuur z1 z2 z3 Alanine (A) 0.07 -1.73 0.09 Isoleucine (I) -4.44 -1.68 -1.03 Arginine (R) 2.88 2.52 -3.44 Leucine (L) -4.19 -1.03 -0.98 Asparagine (N) 3.22 0.01 0.84 Lysine (K) 2.84 1.41 -3.14 Asparaginezuur (D) 3.64 1.13 2.36 Methionine (M) -2.49 -0.27 -0.41 Cyste¨ıne C) 0.71 0.71 4.13 Proline (P) -1.22 0.88 2.23 Fenylalanine (F) -4.92 1.3 0.45 Serine (S) 1.96 -1.63 0.57 Glutamine (Q) 2.18 0.53 -1.14 Threonine (T) 0.92 -2.09 -1.4 Glutaminezuur (E) 3.08 0.39 -0.07 Tryptofaan (W) -4.75 3.65 0.85 Glycine (G) 2.23 -5.36 0.30 Tyrosine (Y) -1.39 2.32 0.01 Histidine (H) 2.41 1.74 1.11 Valine (V) -2.69 -2.53 -1.29

Bi-gram

Bi-gram descriptoren worden afgeleid van de PSSM die gemaakt wordt op basis van een meervoudige sequentie-alignering. De PSSM is een matrix met n rijen en 20 kolommen, waar n het aantal aminozuren in de sequentie is. De elementen van de PSSM in de k-de rij en de i-de kolom zijn de kans om het k-de aminozuur op de i-de plaats in de sequentie te vinden, deze waarden zijn berekend op basis van evolutionaire informatie van het eiwit. De features voor de eiwitten zijn een 400-dimensionale vector die als volgt wordt opgesteld: T B = (B1,1,B1,2,...,B1,20,B2,1,...,B2,20,...,B20,1,...,B20,20) , waarbij Bk,l de gemiddelde kans is waarbij er een transitie is van het k-de aminozuur naar het l-de aminozuur in de primaire sequentie van het eiwit. Bk,l wordt als volgt berekend:

n−1 X Bk,l = Pk,iPl,i+1 , i=1 waarbij Pk,i het element is in de k-de rij en de i-de kolom van de PSSM van het eiwit (Sharma et al., 2013).

5.2 Features op basis van structuren en grafen

Cytochroom P450s zijn eiwitten met elk hun eigen specifieke 3D structuur. Ook de chemische componenten hebben hun eigen 3D structuur. Om deze 3D structuur voor te stellen wordt er gebruik gemaakt van grafen. Een graaf bestaat uit een geordend paar: G = (V,E), waarbij G de graaf is, V de knopen en E de bogen. V , de knopen, is de verzameling van alle punten van de graaf. In ons geval de atomen in een molecule. De knopen kunnen gelabeld zijn, waardoor HOOFDSTUK 5 FEATUREVOORSTELLING VAN DE CYTOCHROOM P450S EN DE CHEMISCHE COMPONENTEN 41 een onderscheid kan gemaakt worden tussen de soorten atomen in een molecule. E, de bogen, zijn de verbindingen tussen de knopen. In ons geval de bindingen tussen de atomen of de voorstelling van de afstand tussen de atomen. De bogen kunnen ook gelabeld zijn, zodat de verschillende verbindingen tussen atomen en hun afstand weer kunnen worden gegeven (Biggs et al., 1976).

5.2.1 Binaire fingerprints

Moleculaire fingerprints zijn een sequentie van getallen die een chemische structuur vertegen- woordigen. Bij binaire fingerprints bestaat deze sequentie enkel uit nullen en enen. Deze getallen geven aan welke structuren aanwezig zijn in de molecule (Figuur 5.1). Er zijn ver- schillende methoden om deze sequenties op te stellen (Todeschini & Consonni, 2000). In deze thesis is gebruik gemaakt van RDkit1, die het algoritme gebruikt van de Daylight fingerprin- ter2.

Figuur 5.1: Links: Voorstelling van de opbouw van binaire fingerprints (Cao et al., 2013), rechts: Voorstelling van de opbouw via convolutie netwerken voor moleculaire fingerprints (Duvenaud et al., 2015).

5.2.2 Convolutionele neurale netwerken op grafen voor moleculaire fingerprints

Om eenvoudige moleculen te vergelijken volstaat het meestal om gebruik te maken van binaire fingerprints. Worden de moleculen echter groter of gaan we naar de 3D structuur van eiwitten dan volstaan eenvoudige binaire fingerprints meestal niet meer of worden binaire fingerprints zeer lang (Unterthiner et al., 2014). Vandaar dat Duvenaud et al. (2015) een methode ontwik- kelden om een fingerprint samen te stellen uit getallen met re¨ele waarden. De 3D structuur van een molecule kan worden weergegeven als een graaf waarbij de atomen gelabelde knopen zijn en de bindingen, en in het algemeen de afstand tussen de atomen, gelabelde bogen zijn. Deze methode is in deze thesis verder uitgebreid naar 3D structuren van eiwitten.

1http://www.rdkit.org/ 2http://www.daylight.com/dayhtml/doc/theory/theory.finger.html 42 5.2 FEATURES OP BASIS VAN STRUCTUREN EN GRAFEN

Atomen en bindingen als graaf structuur coderen

De atomen worden weergegeven door een vector met bits. Voor elk element in de meest voorkomende organische verbindingen is er een plaats gereserveerd. Is het gegeven element aanwezig, dan wordt dit weergegeven door een 1, anders door een 0. Daarnaast wordt ook de oxidatiegraad, hoeveel waterstofatomen het atoom bindt, de valentie en of het atoom tot een aromaat structuur behoort aangegeven. De bindingen worden weergegeven door een vector met bits. De eerste positie geeft aan of het om een enkele binding gaat, de tweede of het om een dubbele binding gaat, de derde voor een drievoudige, de vierde voor aromatische bindingen, de vijfde voor als de binding geconjugeerd is, de zesde of het om een ringstructuur gaat en de laatste positie is ´e´enover de afstand. Enkel bindingen die van belang zijn voor de molecule worden opgenomen, dit zijn alle bindingen die kunnen afgeleid worden van een SMILES, of bij een 3D structuur, alle bindingen die binnen een afstand liggen de grootte van de actieve site (Figuur 5.2).

350000 200000 300000 250000 150000 200000 100000 150000

100000 50000

Aantal bindingen 50000

0 Aantal cytochroom P450s 0 0 5 10 15 20 25 30 35 40 45 0 1000 2000 3000 4000 5000 6000 7000 8000 Afstand tussen de atomen (Å) Aantal bindingen kleiner 30 Ångström

Figuur 5.2: Links: Afstandsverdeling tussen twee atomen binnen de actieve site. De actieve site werd voor elk cytochroom gedownload van Protein Data Bank in Europa. Rechts: Verdeling van het aantal bindingen die kleiner zijn dan 30 Angstr˚ ¨om in cytochroom P450s. Een straal van 30 Angstr˚ ¨om werd gekozen omdat het grootste deel van de atomen in de actieve site zich hierbinnen bevinden.

Om duidelijk te maken welke bindingen bij welke atomen horen, wordt er gebruik gemaakt van het begrip “buren”. Een binding heeft steeds twee buren, namelijk de twee atomen die aan beide kanten van de binding staan. Een atoom heeft meestal meer buren, dit zijn de bindingen die vertrekken van of toekomen aan het atoom.

Berekenen van de fingerprints

De fingerprints worden verschillende keren uitgerekend en op het einde opgeteld. Elke keer als de fingerprints berekend worden, kan dit voorgesteld worden als een nieuwe laag (Figuur 5.1). In de eerste laag worden alleen de eigenschappen van de atomen in rekening gebracht om de fingerprints te berekenen. In een volgende laag worden de eigenschappen van het atoom aangevuld met de eigenschappen van de bindingen rond dit atoom en de atomen aan deze bindingen. Op basis van deze nieuwe gezamenlijke eigenschappen worden nieuwe fingerprints HOOFDSTUK 5 FEATUREVOORSTELLING VAN DE CYTOCHROOM P450S EN DE CHEMISCHE COMPONENTEN 43 berekend en opgeteld bij de vorige. In de volgende lagen worden telkens opnieuw de eigen- schappen van de naburige atomen mee in rekening gebracht. Doordat de naburige atomen ook informatie bijkrijgen over hun buren, wordt er steeds meer informatie verzameld over de structuur van de molecule. Bij het berekenen van iedere stap worden gewichten toegevoegd, deze gewichten kunnen gewijzigd worden en eventueel geoptimaliseerd worden voor specifieke problemen.

HOOFDSTUK 6 Modelbouw

In dit hoofdstuk worden de gebruikte modellen besproken. In een eerste deel worden kort alle machine learning technieken besproken die in de daaropvolgende modellen gebruikt zullen worden. Daaropvolgend worden de cross-validatie methoden en evaluatiecriteria besproken. In een tweede deel worden modellen gefit aan de AID: 1851 dataset die ook gebruikt werd in Lapins et al. (2013). Hierdoor kan er een vergelijking gemaakt worden van de gebruikte features ten opzichte van andere studies. In de daaropvolgende delen worden zowel regressie- als classificatiemodellen besproken voor het bepalen van de interacties tussen cytochroom P450s en chemische componenten.

6.1 Gebruikte machine learning technieken

In deze sectie worden alle gebruikte machine learning technieken besproken. SVM en random forests zijn twee technieken die gebruikt worden voor classificatie. Random forests kan naast classificeren ook gebruikt worden om regressie uit te voeren. AdaBoost en bagging zijn, net als random forests, methoden die eenzelfde techniek verschillende keren herhalen. De laatst besproken techniek is ridge regressie.

6.1.1 Support Vector Machine

Een SVM is een binaire classificeerder, die gegeven objecten opdeelt in twee klassen. Tijdens de trainingsfase wordt er een hypervlak gefit dat de twee klassen scheidt. Er is goede scheiding wanneer de marge, de ruimte tussen het hypervlak en de dichtst bijgelegen objecten, het grootst is. Deze dichtst bijgelegen objecten zijn de support vectoren. Door het aanpassen van de feature ruimte, met behulp van kernelmethoden (Sectie 5.1.1), kan soms een betere scheiding aangebracht worden (Hastie et al., 2009). 46 6.1 GEBRUIKTE MACHINE LEARNING TECHNIEKEN

6.1.2 Random forests

Random forests vertrekt vanuit het simpel concept van beslissingsbomen, waar bij elke aftak- king een opsplitsing gemaakt wordt van de objecten. Bij random forests worden verschillende van deze bomen gecombineerd. Voordat de verschillende bomen worden opgesteld, worden nieuwe trainingssets van dezelfde grote uit de traingsset gesampled waarbij meerdere keren hetzelfde object kan getrokken worden. Deze procedure heet bootstrappen. Bij het opstellen van elke boom wordt voor elke aftakking een random subset van features geselecteerd (Ho, 1995; Hastie et al., 2009).

6.1.3 AdaBoost

De AdaBoost procedure vertrekt van een volledige trainingsset, waaraan een regressiemodel wordt gefit. Op basis van de uitkomst van dit model worden gewichten gegeven aan de verschillende samples in de trainingsset. Nu wordt een gewogen regressiemodel gefit en nieuwe gewichten berekend. Dit gaat door totdat een beter model gefit kan worden. Door deze procedure wordt de leertaak verlegd van de eenvoudige objecten naar de moeilijkere in de trainingsset (Freund, 1995; Hastie et al., 2009).

6.1.4 Bagging

Bij de bagging procedure worden uit de trainingsset verschillende nieuwe trainingssets van dezelfde grote gebootstrapt. Na het samplen van de verschillende nieuwe trainingssets wordt voor elk van hen een regressiemodel opgesteld. De uiteindelijke output van het model is een gemiddelde van alle regressiemodellen (Breiman, 1996; Hastie et al., 2009).

6.1.5 Ridge Regressie

Ridge regressie is een lineaire regressiemethode waarbij een regularisatieterm wordt toege- voegd. De parameters van het regressiemodel kunnen als volgt berekend worden:

−1 βˆ = XT X + λI XT y , waarbij X de feature vector, y de label vector, I de eenheidsmatrix en λ > 0 een regularisatie parameter is. Is λ = 0 dan wordt er een gewone lineaire regressie gegeven. Aangezien XT X meestal niet inverteerbaar is, bestaat de exacte oplossing niet en heeft λ een smoothend effect (Hoerl & Kennard, 1970; Hastie et al., 2009). HOOFDSTUK 6 MODELBOUW 47

6.2 Cross-validatie voor paarsgewijze data

Er zijn verschillende manieren om aan cross-validatie te doen. Hier wordt gebruik gemaakt van leave-one-out cross-validatie. Hiervoor wordt de data weergegeven in een matrix, waarbij de rijen de cytochroom P450s en de kolommen de chemische componenten zijn. Het volledig invullen van deze matrix is niet altijd mogelijk omdat niet voor elke interactie de waarde gekend is. Deze kunnen dan aangevuld worden met nullen. Men kan echter niet zeker zijn dat deze interacties niet voorkomen en hierdoor kan een foutief model opgesteld worden. Voor andere interacties zijn er dan weer meerdere waarden terug te vinden. Om de twee bovenstaande problemen op te lossen worden deze matrices in de modellen weergegeven als kolomvectoren en worden alleen de gekende interacties opgenomen. Voor de cross-validatie wordt er vanuit gegaan alsof deze kolomvector een matrix is. Voor de leave-one-out cross- validatie kunnen we vier settings defini¨eren (Figuur 6.1).

Figuur 6.1: Setting A: E´encytochroom P450 is verwijderd voor training, Set- ting B: E´enchemische component is verwijderd voor training, Setting C: Enkel ´e´enkoppel is eruit gehaald voor training, Setting D: Zowel het cytochroom P450 als de chemische component zijn verwijderd voor training, voorspelling op het gemeenschappelijke koppel.

In een eerste setting wordt telkens ´e´encytochroom P450 weggelaten en het model wordt gefit op basis van de overige cytochroom P450s. Dan wordt de waarde voor het ontbrekend cytochroom P450 terug voorspeld. Dit wordt dan uitgevoerd voor alle cytochroom P450s. Op basis van deze voorspellingen kan dan de accuraatheid van het model getest worden. Hierbij wordt de evaluatiescore per chemische component bepaald. De accuraatheid van het model wordt dan bepaald door het gemiddelde over alle chemische componenten te nemen (Figuur 6.1 Setting A). In een tweede setting wordt de hierboven beschreven procedure herhaald maar dan in plaats van de cytochroom P450s er ´e´envoor ´e´enuit te halen, worden hier de chemische componenten er ´e´envoor ´e´enuit gehaald. Hier wordt dan niet het gemiddelde genomen over de chemische componenten maar over de cytochroom P450s (Figuur 6.1 Setting B). 48 6.3 EVALUATIECRITERIA

De gemakkelijkste setting is deze waarbij telkens ´e´enkoppel wordt weggelaten en terug voor- speld wordt. De accuraatheid van het model wordt berekend over de volledige tabel (Fi- guur 6.1 Setting C). In een laatste setting worden alle mogelijke koppels met een gegeven cytochroom P450 of een gegeven chemische component in het koppel weggelaten. Hier wordt dan enkel terug voorspeld voor de combinatie van het gegeven cytochroom P450 en de gegeven chemische component. Deze strategie is de meest correcte. Het model bevat hier geen informatie over het cytochroom P450, noch over de chemische component. Deze setting kan het best aangeven of het model geschikt is voor het voorspellen van de interactie tussen nieuwe cytochroom P450s en nieuwe chemische componenten. De accuraatheid van het model wordt berekend over de volledige tabel (Figuur 6.1 Setting D).

6.3 Evaluatiecriteria

6.3.1 C-index

De c-index of concordance index is een index gebaseerd op ranking. De echte waarden worden gerangschikt. De voorspelde waarden worden nu vergeleken met de gerangschikte waarden. De c-index is het percentage van de koppels voorspelde waarden die omgewisseld moeten worden zodat ze ook gesorteerd staan. Een waarde van 1 komt overeen met een perfect model, een waarde van 0.5 komt overeen met een random model (Harrell, 1982; Harrell et al., 1996)

# correct gerangschikt + 1/2 # gelijke waarde c-index = # koppels

6.3.2 AUC

Om de AUC te berekenen wordt eerst een ROC-curve opgesteld. Hierbij worden de juist- positieven uitgezet ten opzichte van de fout-positieven bij een vari¨erende drempelwaarde. Deze drempelwaarde bepaalt in welke klasse een object geclassificeerd wordt. De AUC komt overeen met de oppervlakte onder de ROC-curve. Een waarde van 1 komt overeen met een perfect model, een waarde van 0.5 met een random model (Witten & Frank, 2005).

Z ∞ AUC = JPR(T )FPR0(T )dT , −∞ R ∞ R ∞ waarbij JPR(T ) = R f1(x)dx, de juist positieven ratio is, FPR(T ) = T f0(x)dx, de fout positieven ratio is en T de threshold is en waarbij f1(x) de densiteitsfunctie voor de positieven

en f0(x) de densiteitsfunctie voor de negatieven is. HOOFDSTUK 6 MODELBOUW 49

6.4 Vergelijken met reeds bestaande modellen op basis van de AID: 1851 dataset

De AID: 1851 dataset is een dataset die al vaak gebruikt werd om machine learning modellen op te testen (Sectie 3.3.1). Op deze manier kunnen we onze features en modellen vergelijken met de reeds beschreven modellen. In de literatuur werd meestal een classificatiemodel gefit aan deze dataset. Hier is het de bedoeling om te testen of een regressiemodel ook mogelijk is.

6.4.1 Testen van verschillende features voor de chemische componenten bij re- gressie en classificatie

Als validatietechniek werd er gewerkt met een trainingsset A en een testset B. De trainings- set A bevat 10000 chemische componenten, de testset B bevat 6088 chemische componenten (Figuur 6.2).

Figuur 6.2: Opsplitsing van de AID: 1851 dataset in trainingsset A en testset B. In de rijen staan de cytochroom P450s, in de kolommen staan de chemische componenten.

In een eerste setting werden alleen de features van de chemische componenten gebruikt waarbij elk cytochroom P450 werd beschouwd als een aparte klasse. De labels zijn re¨ele waarden tussen 0 en 1 ´engeven aan hoe goed of hoe slecht een chemische component het cytochroom P450 inhibeert. Hieraan werd een random forests gefit met 100 bomen. Daar in Lapins et al. (2013) een classificatiemodel werd gefit met als threshold 0.2, werd deze proef hier opnieuw herhaald. Om te zien of deze threshold een goede keuze was, werd hier ook nog eens een model gefit voor een threshold van 0.5. In een tweede setting werden ook de features van de cytochroom P450 toegevoegd aan het model. Ook hier werden de drie proefopstellingen getest: regressie voor de re¨ele waarden, classificatie met als threshold 0.2 en classificatie met als threshold 0.5. In een derde setting werd er telkens een cytochroom P450 uitgehaald en enkel voor deze cytochroom P450 terug voorspeld. Ook hier werden de drie proefopstellingen getest: regressie voor de re¨ele waarden, classificatie met als threshold 0.2 en classificatie met als threshold 0.5. De resultaten zijn terug te vinden in Tabel 6.1. Bij setting 1 en 2 is set A en B respectievelijk de trainings- en testset, bij de vijf cytochroom P450s komen de resultaten in de kolom met set A en B respectievelijk overeen met setting A en D uit Sectie 6.2. Een eerste besluit dat kan 50 6.4 VERGELIJKEN MET REEDS BESTAANDE MODELLEN OP BASIS VAN DE AID: 1851 DATASET genomen worden, is dat de re¨ele features voor de chemische componenten gebruikt in deze thesis een beter resultaat geven dan de binaire fingerprints met lengte zowel 512 als 1028. De threshold van 0.2 geeft voor het classificatieprobleem over het algemeen een betere voor- spelling dan wanneer een threshold van 0.5 gekozen werd. Het tweede model scoort beter dan het eerste model bij regressie en classificatie met random forests, maar slechter bij SVM. In beide modellen scoort het random forests beter dan het SVM. Bij het vergelijken van de modellen waarbij telkens een cytochroom P450 werd weggelaten, om deze dan terug te voorspellen, kan opgemerkt worden dat CYP2C9 en CYP2C19 over de hele lijn beter scoren dan de andere modellen. Dit kan verklaard worden omdat CYP2C9 en CYP2C19 meer genetisch verwant zijn aan elkaar. Het model met CYP2C19 eruit bevat al informatie over CYP2C19 omdat CYP2C9 in het model aanwezig is. Zo is dat ook bij het model zonder CYP2C9, maar dan omdat CYP2C19 aanwezig is in het model. De ROC- curven van de modellen waar telkens een cytochroom P450 is uitgehaald zijn terug te vinden in Figuur 6.3

1.0 1.0

0.8 0.8

0.6 0.6

0.4 0.4 CYP1A2 CYP1A2

Sensitiviteit CYP3A4 Sensitiviteit CYP3A4 0.2 CYP2D6 0.2 CYP2D6 CYP2C9 CYP2C9 CYP2C19 CYP2C19 0.0 0.0 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1-specificiteit 1-specificiteit

Figuur 6.3: ROC-curven voor de classificatiemodellen waarbij een threshold van 0.2 werd gebruikt. Links: Testset A bevat de chemische componenten die ook tijdens de training aanwezig waren, Rechts: Testset B bevat geen componenten die in de trainingsset zaten.

Vergelijken we de resultaten van dit experiment met deze beschreven in Lapins et al. (2013), dan scoren wij over het algemeen minder goed. In hun studie vermelden ze een accuraatheid van 0.80 voor hun slechtste model en 0.88 voor hun beste model op een externe testset, terwijl hier maar een AUC van 0.81 gehaald werd voor de validatieset. Voor de modellen waarbij telkens ´e´encytochroom P450 verwijderd werd, werd een gemiddelde AUC van 0.79 en 0.80 voor respectievelijk testset A en B vermeld. In onze proef bekomt men een gemiddelde AUC van 0.71 en 0.69 voor respectievelijke testset A en B. Deze verschillen zijn waarschijnlijk te verklaren omdat in onze proef geen featureselectie of featureoptimalisatie is gebeurd voor dit model. De labels tussen de waarden 0 en 0.2 zijn in ons model aanwezig, terwijl bij Lapins et al. (2013) deze labels zowel in de trainings- als in de test-fase niet aanwezig waren. HOOFDSTUK 6 MODELBOUW 51 Classificatie: threshold 0.5 0.990.990.65 0.810.69 0.820.61 0.61 0.860.79 0.65 0.830.77 0.52 0.64 0.72 0.82 0.650.99 0.72 0.79 0.570.99 0.65 0.740.64 0.76 0.66 0.760.69 0.78 0.53 0.59 0.61 0.73 0.860.78 0.61 0.74 0.800.77 0.52 0.62 0.64 0.77 0.700.99 0.67 0.72 0.530.99 0.60 0.710.64 0.79 0.69 0.700.68 0.79 0.48 0.59 0.52 0.68 0.930.78 0.63 0.67 0.860.77 0.48 0.65 0.68 0.80 0.70 0.68 0.76 0.57 0.63 0.75 0.69 0.76 0.51 0.70 0.71 RF set A RF set B SVM set A SVM set B ele features ¨ Model voor re Model voor binaire features met lengte 512 Model voor binaire features met lengte 1028 Classificatie: threshold 0.2 0.990.990.69 0.810.71 0.830.65 0.67 0.830.79 0.68 0.800.73 0.59 0.67 0.75 0.81 0.670.99 0.78 0.79 0.620.99 0.68 0.740.68 0.78 0.67 0.760.70 0.79 0.60 0.65 0.64 0.75 0.800.79 0.64 0.76 0.770.83 0.56 0.65 0.71 0.76 0.680.99 0.73 0.73 0.580.99 0.65 0.710.69 0.79 0.68 0.720.71 0.81 0.53 0.65 0.66 0.70 0.870.80 0.66 0.70 0.820.83 0.55 0.68 0.73 0.79 0.70 0.75 0.76 0.61 0.66 0.74 0.68 0.77 0.55 0.72 0.74 RF set A RF set B SVM set A SVM set B 0.970.96 0.76 0.67 0.77 0.68 0.63 0.66 0.65 0.76 0.60 0.77 0.71 0.72 0.960.96 0.71 0.65 0.72 0.67 0.61 0.66 0.60 0.76 0.57 0.78 0.65 0.68 0.970.96 0.73 0.67 0.74 0.68 0.63 0.66 0.62 0.76 0.56 0.78 0.67 0.70 Regressie: RF Set A Set B Accuraatheidstabel voor de AID: 1851. Setting 1 bevat enkel features voor de chemische componenten, de cytochroom P450s Tabel 6.1: worden beschouwd als apparte klassen, Settingen 2 AUC bevat voor hierbij ook de nog classificatie. features RF: voor Random de cytochroom forests. P450s. Scores zijn c-indices bij regressie Setting 1 Setting 2 CYP1A2 CYP3A4 CYP2D6 CYP2C9 CYP2C19 Model 1 Model 2 CYP1A2 CYP3A4 CYP2D6 CYP2C9 CYP2C19 Model 1 Model 2 CYP1A2 CYP3A4 CYP2D6 CYP2C9 CYP2C19 52 6.5 CLASSIFICATIEMODELLEN VOOR HET VOORSPELLEN VAN DE INTERACTIE

6.4.2 Extrapolatie van het regressiemodel naar de Brenda inhibitor dataset

Uit de resultaten van de experimenten met de AID: 1851 dataset zou men kunnen afleiden dat het mogelijk is om met het gebruikte regressiemodel het inhiberend vermogen te kunnen voor- spellen van chemische componenten. Dit zowel voor chemische componenten als cytochroom P450s die niet aanwezig waren in de AID: 1851 dataset. Om dit vermoeden te kunnen staven werd het regressiemodel 2 getest op de Brenda dataset met de inhibitoren. Hierbij werd een c-index van 0.53 bekomen, wat niet veel beter is dan een random model. De cytochroom P450s in de AID: 1851 dataset zijn allemaal menselijke cytochroom P450s, zij hebben een gezamenlijke evolutie meegemaakt. Het is dus niet onlogisch dat deze cy- tochroom P450s een gelijkend inhibitiesysteem hebben. Daarentegen zitten in de Brenda dataset cytochroom P450s die uit alle mogelijke organismen komen. Deze cytochroom P450s zijn veel diverser en hebben geen gelijkaardige evolutie meegemaakt en vertonen daardoor waarschijnlijk een veel uiteenlopender inhibitiepatroon.

6.5 Classificatiemodellen voor het voorspellen van de interactie

Bij het verzamelen van de datasets waren er twee databanken waarin er binaire interactiedata aanwezig is, namelijk Drugbank en SuperCYP. Hierbij werd er telkens aangegeven of de chemische component een substraat, een inhibitor of een activator is (Sectie 4.1). Deze twee databanken werden samengenomen tot een grote dataset. Op basis van deze dataset werden verschillende modellen opgesteld.

6.5.1 Multi-label classificatie

In een eerste model worden alleen de interacties tussen een cytochroom P450 en een chemi- sche component aan het model toegevoegd. Koppels van cytochroom P450s en chemische componenten waarvan niets geweten is werden niet opgenomen in het model. Voor elk koppel waarvan er data beschikbaar is werd in een tabel weergegeven of het zowel een substraat, een inhibitor en/of een activator is. Het is dus mogelijk dat een bepaalde chemische component zowel een substraat als een inhibitor of activator is. Op basis van deze tabel werd er een random forests gebouwd met 100 bomen op de volledige tabel en een SVM voor elke soort interactie. De resultaten voor de cross-validatie per klasse zijn terug te vinden in Tabel 6.2. Het random forests model over de drie klassen met 100 bomen geeft over de hele lijn betere voorspellingen dan het SVM model. Verder kan opgemerkt worden dat met deze dataset het gemakkelijker is om substraat-activiteit te voorspellen en het moeilijkste is om inhibitor-activiteit te voor- spellen. De resultaten voor het voorspellen van een inhibitor zijn minder goed dan deze voor het AID: 1851 model uit Sectie 6.4.1. HOOFDSTUK 6 MODELBOUW 53

Tabel 6.2: Cross-validatie voor het classificatiemodel. AUC per klasse voor zowel random forests als SVM. Random forests SVM Substraat Inhibitor Activator Substraat Inhibitor Activator Setting A 0.84 0.78 0.81 0.73 0.67 0.73 Setting B 0.80 0.77 0.78 0.70 0.67 0.72 Setting C 0.88 0.86 0.86 0.77 0.72 0.78 Setting D 0.72 0.64 0.68 0.64 0.61 0.65

In Sectie 3.1 werden verschillende methoden besproken waarbij men modellen heeft opgesteld voor het bepalen van de interactie tussen cytochroom P450s en chemische componenten. In het onderzoek van Terfloth et al. (2007) werd er een model opgesteld waarbij voor nieuwe chemische componenten kan voorspeld worden door welk cytochroom P450 deze gemetaboli- seerd wordt. Hierbij werd een maximale accuraatheid van 0.82 verkregen voor de testset. In het onderzoek van Michielan et al. (2009) werd een multi-label classificatie model opgesteld waarbij chemische componenten werden ingedeeld onder de verschillende cytochroom P450s. Hierbij werd een maximale accuraatheid van 0.84 bereikt voor de testset. Deze experimenten zijn te vergelijken met Setting B voor het classificeren van de chemische componenten als substraat. Hierbij werd een AUC van 0.80 voor het random forests model bereikt. Deze waarde is niet veel lager dan die beschreven in de studies in Sectie 3.1. In het onderzoek van Vasanthanathan et al. (2009) werd er een model opgesteld om na te gaan of chemische componenten al dan niet een inhibitor is van cytochroom P450 CYP1A2. Hierbij werd een maximale accuraatheid van 0.66 bereikt. Dit experiment is te vergelijken met Setting B voor het classificeren van de chemische componenten als inhibitor. Hierbij werd een AUC van 0.77 voor het random forests model bereikt. Dit is een betere score. Ook kan het model hier nagaan of een chemische component een inhibitor is van verschillende cytochroom P450s. Verder werd het model uitgebreid voor activatoren en werd er getest voor de verschillende settings uit Sectie 6.2.

6.5.2 Klasse kansen gebruiken als ordeningsmaat voor activiteit

Om te kunnen zien of deze resultaten kunnen ge¨extrapoleerd worden naar andere datasets, of in het algemeen zelfs naar re¨ele waarden, werd een validatie uitgevoerd op de datasets met re¨ele waarden. Als uitkomst van het classificatiemodel werden niet de klassen weergegeven maar de kansen dat een bepaald koppel tot de klasse behoort. Zo heeft het model voor een meer waarschijnlijke interactie als substraat een waarde tussen 0.5 en 1 en bij een minder waarschijnlijke interactie een waarde tussen 0 en 0.5. Dan wordt gekeken hoe goed het model de data uit de datasets afkomstig van Sabio, Brenda en MuteinDB kan terug voorspellen. Dit 54 6.5 CLASSIFICATIEMODELLEN VOOR HET VOORSPELLEN VAN DE INTERACTIE is zowel voor de dataset met alleen de interacties die teruggevonden zijn, hier weergegeven als originele dataset, als voor de dataset aangevuld met de koppels waarvan geen interactie werd beschreven. Deze werd aangevuld met nullen, hier aangegeven als de volledige dataset. Naast het vergelijken met de re¨ele data voor de substraatinteractie werd er ook vergeleken met de re¨ele data voor inhibitie. Hierbij werd gebruik gemaakt van de Brenda dataset met inhibitoren als testset. Zowel het random forests model als het SVM model op de originele dataset werden getest op de originele Brenda dataset met inhibitoren. Resultaten zijn terug te vinden in Tabel 6.3. Bij het trainen met de volledige dataset, scoort het random forests model beter dan als het getraind werd met de originele dataset. De beste score werd gehaald bij het trainen van de volledige dataset met het SVM model en als getest werd met de volledig MuteinDB dataset. De slechtste score werd ook echter behaald met het trainen van de volledige dataset met een SVM model, maar dan als getest werd met de volledige Brenda dataset. Gemiddeld gezien scoort het random forests op de volledige dataset het best als er getest werd met de volledige datasets van Sabio, Brenda en MuteinDB. Bij het bekijken van de resultaten van alle modellen getest op de originele datasets is op te merken dat hier zeer lage scores staan. Hieruit kan geconcludeerd worden dat het classificatiemodel geen verschil in reactiesnelheid kan voorspellen.

Tabel 6.3: C-indices voor een random forests met 100 bomen en een SVM. Trai- ningsset origineel: alle gekende interacties uit de binaire datasets, Trainingsset volledig: de trainingsset aangevuld met de niet gekende interacties, Sabio, Brenda en MuteinDB worden hier als testset gebruikt. Trainingsset origineel Trainingsset volledig Random forests SVM Random forests SVM Sabio origineel 0.48 0.49 0.51 0.49 Brenda origineel 0.56 0.49 0.57 0.44 MuteinDB origineel 0.45 0.43 0.47 0.50 Sabio volledig 0.40 0.44 0.65 0.55 Brenda volledig 0.44 0.59 0.52 0.37 MuteinDB volledig 0.38 0.55 0.58 0.68

Net zoals bij het vergelijken van het classificatiemodel met de re¨ele waarden voor de sub- straatinteractie, is er bij het vergelijken met de re¨ele waarden voor de inhibitie-interactie geen goede voorspelling. Het random forests model en het SVM model hebben respectieve- lijk bij het testen van de Brenda dataset met inhibitoren een c-index van 0.53 en 0.51, wat betekent dat het model het niet veel beter doet dan een random voorspelling. HOOFDSTUK 6 MODELBOUW 55

6.6 Regressiemodellen voor het voorspellen van de kcat-waarde

Al deze modellen voorspellen hoe goed een cytochroom P450 de reactie van een chemische component katalyseert. De reactiesnelheidsconstante is de kcat-waarde uitgedrukt in 1/s. Deze reactieconstante kent een exponentieel verloop waardoor modellen rechtstreeks gefit op de kcat-waarde gevoelig zijn voor uitschieters. Daarom werd er gekozen voor een logaritmische herschaling via volgende formule:

x˜ = log(x + 1)

Het verhogen van x met ´e´enis nodig omdat log(0) = en via deze herschaling wordt nul −∞ afgebeeld op nul.

6.6.1 Selecteren van het beste model

In een eerste reeks proeven werden verschillende machine learning modellen getest op ver- schillende combinaties van trainings- en testsets. De gebruikte modellen zijn random forests met 100 bomen, AdaBoost met 100 iteraties, bagging met 100 iteraties en ridge regressie met λ = 1. Bij de eerste proefopstelling werd gebruik gemaakt van de originele Sabio, Brenda en MuteinDB dataset. Deze datasets werden afwisselend voor trainings- en testset gebruikt bij de verschillende modellen. In een tweede proefopstelling werden de datasets aangevuld met de niet gekende interacties en werden dezelfde modellen gebruikt behalve ridge regressie, omdat dit computationeel te zwaar werd. Ridge regressie wordt in de latere proefopstellingen niet meer gebruikt omdat voor elk paar van features het Kronecker product moet worden uitgerekend en dit computationeel veel opslag vraagt. De resultaten zijn terug te vinden in Tabellen 6.4 en 6.5. De tweede proefopstelling, waarbij de c-indices rond de 0.50 liggen, presteert slechter dan de eerste proefopstelling, waarbij de c-indices allemaal boven de 0.50 liggen. In de eerste proefopstelling presteert random forests het best. Hierdoor zal in de volgende proeven altijd gebruik gemaakt worden van random forests. AdaBoost scoorde het slechtst.

6.6.2 Selecteren van features voor de cytochroom P450s

Tot nog toe werd altijd gewerkt met de features afgeleid van de eerste drie principale compo- nenten van de aminozuureigenschappen (Sectie 5.1.2). In deze sectie worden deze vergeleken met verschillende gap-weighted subsequences features (Sectie 5.1.1). Het beste tot nog toe bereikte regressiemodel is het random forests model gefit op MuteinDB en getest met Sabio. Voor het vergelijken van de verschillende features, zal ook deze opstelling gebruikt worden. De resultaten zijn terug te vinden in Tabel 6.6. Alle resultaten zijn minder goed dan deze voor de features afgeleid van de eerste drie principale componenten van de aminozuureigenschap- 56 6.6 REGRESSIEMODELLEN VOOR HET VOORSPELLEN VAN DE KCAT -WAARDE

Tabel 6.4: C-indices voor random forests, AdaBoost, Bagging en ridge regressie op de originele datasets. Modellen en trainingssets staan in de rijen, de testsets staan in de kolommen. Testset Model Sabio Brenda MuteinDB Random Forest Sabio - 0.52 0.58 Brenda 0.57 - 0.60 MuteinDB 0.61 0.58 - AdaBoost Sabio - 0.43 0.59 Brenda 0.53 - 0.51 MuteinDB 0.54 0.57 - Bagging Sabio - 0.49 0.58 Brenda 0.58 - 0.59 MuteinDB 0.61 0.55 - Ridge regressie Sabio - 0.53 0.50 Brenda 0.57 - 0.55 MuteinDB 0.46 0.50 - pen. Het beste resultaat werd bereikt met gap-weighted subsequences features met lengte 4 en een gap gewicht van 0.5. Bij een gewicht van 0.9 en lengtes van 1 tot 4 geeft het model niet veel slechtere resultaten. De slechtste resultaten werden bereikt bij een lengte groter dan 7 en de gewichten 0.5 of 0.9. Omdat het uitrekenen van deze features computationeel meer tijd in beslag neemt en de resultaten niet beter zijn, wordt in alle volgende experi- menten gewerkt met de features afgeleid van de eerste drie principale componenten van de aminozuureigenschappen.

6.6.3 Voorspellend vermogen van model gefit aan de Sabio en Brenda dataset naar mutaties

In deze sectie worden verschillende proefopstellingen getest waarbij er gezocht wordt naar het beste model om het effect van mutaties te kunnen voorspellen op basis van de data aanwezig in de Sabio en Brenda dataset. Hiervoor wordt de MuteinDB gebruikt als testset. Deze databank bevat vier verschillende cytochroom P450s met hun gekende mutaties en de bijhorende reactieparameters (Section 4.1). In een eerste proef wordt via leave-one-out cross-validatie de verschillende proefopstellingen getest. In een eerste proefopstelling wordt alleen de originele data uit de Sabio en Brenda dataset gebruikt om een random forests regressiemodel te fitten. Hierna worden deze data- sets uitgebreid met de ongekende interactie en werd tevens een random forests regressiemodel HOOFDSTUK 6 MODELBOUW 57

Tabel 6.5: C-indices voor random forests, AdaBoost en Bagging op de volledige datasets aangevuld met nullen. Modellen en trainingssets staan in de rijen, de testsets staan in de kolommen. Testset Model Sabio Brenda MuteinDB Random Forest Sabio - 0.62 0.41 Brenda 0.37 - 0.41 MuteinDB 0.55 0.47 - AdaBoost Sabio - 0.51 0.55 Brenda 0.48 - 0.57 MuteinDB 0.45 0.44 - Bagging Sabio - 0.63 0.45 Brenda 0.46 - 0.44 MuteinDB 0.51 0.43 -

Tabel 6.6: C-indices voor verschillende combinaties van parameters. Voor elke combinatie van parameters werd een random forests model gefit aan MuteinDB en getest op Sabio. In de kolommen staan de verschillende subsequence lengtes en in de rijen de gap gewichten. Lengte subsequentie Gap gewicht 1 2 3 4 5 6 7 8 9 0.2 0.57 0.43 0.58 0.48 0.56 0.53 0.56 0.56 0.56 0.5 0.56 0.54 0.56 0.60 0.59 0.56 0.56 0.45 0.43 0.9 0.59 0.58 0.57 0.58 0.55 0.54 0.54 0.50 0.51

gefit. Ook wordt een model gefit aan de gezamenlijke dataset van Sabio en Brenda. Zowel de originele data wordt samengezet als deze waarbij de ongekende interacties worden toege- voegd. Na het uitvoeren van de cross-validaties werden al deze modellen getest op de originele MuteinDB dataset als op de dataset aangevuld met de ongekende interacties. De resultaten zijn terug te vinden in Tabel 6.7. De eerlijkste setting bij cross-validatie is deze waar zowel de chemische component als het cytochroom P450s niet aanwezig waren in de trainingsfase. Zowel bij Sabio als bij Brenda is de c-index rond de 0.5 bij het model met de oorspronkelijke dataset, wat betekent dat het model even goed als random is. Echter wordt er toch een hogere c-index teruggevonden als het model getest werd op de MuteinDB dataset. Worden beide datasets bij elkaar gebracht, dan stijgt de c-index voor de cross-validatie bij Setting D, maar daalt de c-index bij het testen van het model op de MuteinDB dataset. Vergelijkt men de modellen op basis van de volledige dataset, dan is deze enkel gebaseerd op Brenda beter dan random bij cross-validatie bij Setting D. 58 6.6 REGRESSIEMODELLEN VOOR HET VOORSPELLEN VAN DE KCAT -WAARDE

Tabel 6.7: C-indices voor verschillende regressiemodellen op de Sabio en Brenda datasets. Originele datasets bevatten enkel de gekende interacties, de volledige zijn aangevuld met de niet-gekende. Er werd getest via cross-validatie via de verschillende settings. Als validatie werd er getest op de MuteindDB dataset zowel op de originele als op de volledige dataset. Sabio Brenda Sabio en Brenda Origineel Volledig Origineel Volledig Origineel Volledig Setting A 0.53 0.36 0.77 0.50 0.63 0.49 Setting B 0.48 0.72 0.44 0.43 0.68 0.49 Setting C 0.52 0.60 0.70 0.70 0.71 0.72 Setting D 0.49 0.38 0.47 0.58 0.62 0.44 MuteinDB origineel 0.61 0.57 0.58 0.51 0.54 0.46 MuteinDB volledig 0.34 0.55 0.43 0.47 0.33 0.57 HOOFDSTUK 7 Optimalisatie van een cytochroom P450

In dit hoofdstuk wordt de procedure voor het optimaliseren van eiwitten uitgewerkt. Omdat een eiwit opbouwen zonder enige voorkennis niet mogelijk is, wordt er vertrokken van een bestaand eiwit om dit verder te optimaliseren. Dit eiwit wordt geoptimaliseerd binnen een omgeving zodat de structuur niet drastisch wijzigt. Om te weten te komen welke mutaties het meest relevant zijn wordt er een gevoeligheidsanalyse uitgevoerd. Op basis van modellen uit Hoofdstuk 6 werd via optimalisatietechnieken een sequentie geoptimaliseerd.

7.1 De 20 natuurlijk voorkomende aminozuren in eiwitsequenties

Cytochroom P450s zijn eiwitten opgebouwd uit aminozuren. Tijdens de optimalisatie wor- den deze aminozuren vervangen om zo een betere combinatie te krijgen. Omdat niet alle aminozuren hetzelfde zijn en sommige meer verschillen van elkaar dan de anderen, wordt er hier een overzicht gegeven van de 20 natuurlijk voorkomende aminozuren in eiwitsequenties (Tabel 7.1). De aminozuren staan ingedeeld volgens hun belangrijkste kenmerken. Dezelfde volgorde zal ook gebruikt worden in alle andere tabellen en grafieken.

7.2 Opstellen van de PSSM

Voor er begonnen kan worden aan een optimalisatie van een eiwit, moet worden vastgelegd binnen welke omgeving er kan worden gewerkt. Elk eiwit of enzym, hier cytochroom P450, heeft geconserveerde regio’s die de structuur en de katalytische activiteit bepalen. Om na te gaan welke deze regio’s zijn wordt er een PSSM opgesteld. Om een PSSM op te stellen moet beslist worden welke sequenties worden meegenomen bij de alignering. Als er te weinig sequenties in rekening worden gebracht, dan is de PSSM niet representatief genoeg. Worden er echter te veel sequenties toegevoegd, dan kan het zijn dat deze sequenties te veel van elkaar verschillen en zullen alle regio’s als variabel gekozen worden. Hier werd gekozen om alle leden 60 7.2 OPSTELLEN VAN DE PSSM

Tabel 7.1: De 20 natuurlijk voorkomende aminozuren in eiwitsequenties ingedeeld volgens hun algemene kenmerken. Kenmerk Aminozuur Positief geladen Arginine (R) Histidine (H) Lysine (K) Negatief geladen Asparaginezuur (D) Glutaminezuur (E) Ongeladen polaire Serine (S) Threonine (T) Asparagine (N) Glutamine (Q) Speciale Cyste¨ıne (C) Glycine (G) Proline (P) Hydrofobe Alanine (A) Valine (V) Isoleucine (I) Leucine (L) Methionine (M) Aromatische Fenylalanine (F) Tyrosine (Y) Tryptofaan (W) van de familie, waarvan het cytochroom P450 dat we willen optimaliseren lid is, op te nemen in de berekening voor de PSSM. Als alle sequenties bepaald zijn, wordt voor al deze sequenties een meervoudige sequentie- alignering uitgevoerd. Op basis van deze alignering wordt dan de PSSM opgesteld. De PSSM- matrix is even lang als de gealigneerde sequentie en heeft evenveel rijen als aminozuren. Voor elke positie en elk aminozuur op die positie wordt de frequentie berekend (Gribskov et al., 1987). Hier wordt er ook een Laplace smoothing uitgevoerd zo wordt de formule:

# a + 1 P (k, i) = k,i , # sequenties + 20 waarbij P (k, i) de waarde is in de PSSM op de i-de plaats voor het k-de aminozuur en ak,i het k-de aminozuur op de i-de positie. HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 61

7.3 Gevoeligheidsanalyse

Om na te gaan welke posities in de sequentie het meest gevoelig zijn aan een mutatie volgens het vooropgestelde model, wordt er een gevoeligheidsanalyse uitgevoerd. Hierbij wordt voor elke positie in de sequentie ´e´envoor ´e´enhet aminozuur vervangen door de overige. Voor al deze sequenties wordt dan het model doorgerekend. De voorspelde waarden worden dan in een matrix geplaatst die even veel kolommen heeft als de sequentie lang is en even veel rijen bevat als aminozuren. Elke positie komt overeen met ´e´enmutatie in de sequentie. Nu wordt voor elke positie de waarde van de oorspronkelijke sequentie afgetrokken zodat de relatieve veranderingen worden weergegeven. Zo kunnen gevoelige regio’s in de sequentie teruggevonden worden.

7.4 Simulated annealing

Simulated annealing is een discreet globaal optimalisatiealgoritme. Het algoritme vertrekt van een gegeven startconditie X, de sequentie, en een doelfunctie f(X), een machine learning model zoals beschreven in Hoofdstuk 6, dat geoptimaliseerd dient te worden. Het algoritme gaat uit de omgeving van X, alle mogelijke sequenties die juist ´e´enaminozuur verschillen, een

willekeurig punt Xn trekken. Hiervoor wordt de PSSM als distributie genomen. Eerst wordt een willekeurige positie in de PSSM gekozen, op deze positie wordt een aminozuur verschillend van het huidige gekozen uit de distributie. Als voor dit punt de doelfunctie een hogere waarde ∆f heeft, zal het punt aanvaard worden. Indien niet, zal met een kans p = e T het punt toch aanvaard worden. Hierbij is T de temperatuur en ∆f = f(X ) f(X ). Deze temperatuur n − c start bij T = Tmax en zakt met een koelsnelheid r tot T = Tmin. Het aanvaarde punt wordt genoteerd als Xc. Dit kiezen van willekeurige punten uit de omgeving van Xc wordt kT keer herhaald. Na iedere cyclus van kT iteraties wordt de temperatuur T verlaagd door deze te vermenigvuldigen met de koelsnelheid r. Het algoritme stopt als T = Tmin (Kirkpatrick et al., 1983; Eglese, 1990).

7.4.1 Optimalisatie van eiwitten

Strategie 1: Voor het optimaliseren van een eiwit kan er op verschillende manieren gewerkt worden. Er kan gebruik gemaakt worden van het simulated annealing algoritme. Hierbij wordt door een hoge begintemperatuur vaak een random eiwit bekomen, dat dan beetje bij beetje verbeterd wordt door het algoritme. Hierdoor blijft er vaak niet veel meer van het oorspronkelijke eiwit over. Vertrekken van een lage temperatuur kan hiervoor een oplossing zijn. Voor het random samplen wordt er hier gebruik gemaakt van de PSSM als distributie, hierdoor blijft het eiwit min of meer binnen de familie die aan de basis lag van de PSSM. 62 7.5 OPTIMALISATIE VAN CYP52M1

Strategie 2: Een andere techniek die gebruikt kan worden vraagt enkele kleine aanpassingen in het simulated annealing algoritme. Daar in het simulated annealing algoritme mutaties met een mindere score ook met een bepaalde kans kunnen worden toegelaten, worden hier alleen mutaties met een betere score aanvaard. Er kan zelfs nog strenger worden gewerkt, zodat alleen mutaties met een betere score een kans hebben om plaats te vinden. De kans kan dan dalen met het aantal al gemaakte mutaties. Op deze manier worden enkel de beste mutaties toegelaten en zal de vorm en de functie van het eiwit niet te veel veranderen.

7.5 Optimalisatie van CYP52M1

Als casestudie wordt er hier gekozen voor het cytochroom P450 CYP52M1 uit Van Bogaert et al. (2009). Dit cytochroom P450 maakt deel uit van de synthese van sophorolipiden in de gist Candida bombicola. Het katalyseert de stap waarbij palmitinezuur, een C16-vetzuur, terminaal gehydroxyleerd wordt. Eerst wordt voor de volledige CYP52 familie een PSSM uitgerekend, die later gebruikt zal worden om als omgeving te dienen voor de optimalisatie. Hierna worden verschillende modellen gebruikt om voor elke positie de gevoeligheid van de mutatie te testen. Als laatste worden verschillende optimalisatietechnieken gebruikt om aan de hand van de modellen uit Hoofdstuk 6 het cytochroom P450 CYP52M1 te optimaliseren.

7.5.1 PSSM van de CYP52 familie

Door het analyseren van de PSSM kan gezocht worden naar variabele regio’s van een eiwit. Om na te gaan wat de variabele regio’s zijn in CYP52M1 werd voor de CYP52 familie de PSSM opgesteld. Hierna werden enkel de waarden op de posities in CYP52M1 overgehouden. Hierdoor kan men de variabele regio’s in het cytochroom P450 CYP52M1 terugvinden. De frequentiegrafiek van de verschillende aminozuren voor CYP52M1 en de bijhorende PSSM is terug te vinden in Figuur 7.1. Uit deze figuren kan men enkele variabele regio’s in CYP52M1 terugvinden. De aminozuren op de eerste 100 posities zijn sterk variabel binnen de CYP52 familie. Ook de aminozuren op de laatste 50 aminozuren zijn sterk variabel. Hiertussen liggen meer geconserveerde regio’s, met onderbreking van enkele kleinere variabele regio’s. De meest variabele regio is terug te vinden rond positie 300. Verder kunnen rond positie 130, 185, tussen 230 en 240 en rond positie 380 iets kleinere variabele regio’s teruggevonden worden. Deze variabele regio’s zorgen meestal voor de functionaliteit van het enzym, terwijl de geconserveerde regio’s meestal instaan voor de structuur van het eiwit.

7.5.2 Gevoeligheidsanalyse voor CYP52M1

Er werden vier random forests regressiemodellen opgesteld. E´enop basis van de Sabio dataset, ´e´enop basis van de Brenda dataset, ´e´enop basis van de gezamenlijke dataset van Sabio en HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 63 600

R H K D E S T N Q C G P A V I L M F Y W Relatieve frequentie Relatieve

0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Voorspelde waarden Voorspelde 0.2 0.4 1.2 1.0 0.8 0.6 0.4 0.2 0.0 500 500 500 500 500 500 400 400 400 400 400 400 300 300 300 300 300 300 Posities in de CYP52M1 sequentie Positie in de CYP52M1 sequentie Posities in de CYP52M1 sequentie 200 200 200 200 200 200 100 100 100 100 100 100 Boven: frequentie van elk aminozuur in de CYP52 familie in functie van de positie in CYP52M1. Midden: densiteitsmatrix 0 0 0 0 0 0 Figuur 7.1: voor de frequentie van elkmodellen aminozuur in voor de de CYP52 mutaties familie opdataset op elke en elke positie. Sabio, positie Brenda in Modellen CYP52M1. en van MuteinDB Onder: boven dataset. naar gevoeligheidsanalyse onder: van vier model verschillende op de Sabio dataset, Brenda dataset, Sabio en Brenda

1.0 0.8 0.6 0.4 0.2 0.0 Relatieve frequentie Relatieve 64 7.5 OPTIMALISATIE VAN CYP52M1

Brenda en ´e´enop basis van de gezamenlijke dataset van Sabio, Brenda en MuteinDB. Voor elk model voor de interactie tussen cytochroom P450 CYP52M1 en palmitinezuur werd een gevoeligheidsmatrix opgesteld. Hiervoor werd in CYP52M1 op elke positie het aminozuur ´e´envoor ´e´envervangen door alle aminozuren en voor elk van deze sequenties werd het model berekend. De gevoeligheidsmatrices zijn terug te vinden in Figuur 7.1. Het eerste dat kan opgemerkt worden is dat ofwel de hydrofiele aminozuren ofwel de hydrofobe aminozuren een verbetering geven. Bij het model gefit op de Sabio dataset is dit fenomeen mooi zichtbaar. Bij de andere datasets komt dit ook voor, maar zijn er nog andere zaken op te merken. Het tweede dat kan opgemerkt worden is dat rond posities 130 en 420 er posities zijn waarbij telkens het zelfde patroon terugkeert. Op positie 123, 132, 134, 138, 146, 419 en 421 geeft substitutie door een geladen aminozuur, een aromatisch aminozuur, asparagine, glutamine, cyste¨ıne of proline steeds een verbetering van de sequentie. Op posities 136 en 144 geeft elke substitutie een verbetering. Een laatste substitutie die kan opgemerkt worden is deze door glycine. Deze heeft op zeer veel posities een uitgesproken negatieve of positieve verandering. Verder is er op te merken dat het model gefit op de Sabio dataset geen grote veranderingen voorspelt door mutaties in de sequentie. In de gevoeligheidsmatrix voor het model gefit aan de Brenda dataset zijn de grootste verschillen terug te vinden. De voorspellingen voor mindere activiteiten door het model gefit aan de Brenda dataset worden verminderd door aan het model de data van de Sabio dataset toe te voegen. Bij toevoegen van de MuteinDB dataset aan het model wordt voor de meeste mutaties een kleine afwijking voorspeld en schieten nog enkele uitschieters over.

7.5.3 Optimalisatiemodellen voor CYP52M1

Voor het optimaliseren van het cytochroom P450 CYP52M1 wordt er gewerkt op basis van de twee strategie¨en besproken in Sectie 7.4.1. Voor elk van deze twee strategie¨en worden vier verschillende datasets gebruikt als basis van de regressiemodellen gebruikt in de optima- lisatiealgoritmen. Deze datasets zijn: de Sabio dataset, de Brenda dataset, de gezamenlijke dataset van Sabio en Brenda en de gezamenlijke dataset van Sabio, Brenda en MuteinDB.

Bespreken van de mutatiefrequenties bij de vier modellen

In Figuur 7.2 zijn voor de vier modellen de absolute mutatiefrequenties, op basis van Stra- tegie 2 uit Sectie 7.4.1, uitgezet in functie van de positie in CYP52M1. Door deze grafieken met elkaar te vergelijken, is op te merken dat er net na positie 200 en net voor positie 500 regio’s liggen waarbij weinig mutaties worden voorgesteld door het model. Een mutatie in deze regio’s zal dus geen of een zeer kleine verbetering aan het enzym aanbrengen. Op de posities voor 100 zijn er veel mutaties te zien. Echter zijn deze mutaties zeer variabel. Er zijn op deze grafieken ook enkele uitschieters terug te vinden. Een eerste opvallende piek is HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 65 deze bij 463. Hier wordt zowel door het model gefit op de Sabio als op de Brenda dataset een mutatie van glutaminezuur naar fenylalanine voorgesteld. Een andere grote piek bij het model op basis van de Sabio dataset, is deze bij 132 waarbij een mutatie van glycine naar tyrosine wordt voorgesteld. Deze piek is echter niet terug te vinden in de andere grafieken. De piek bij 197 in het model met de Sabio dataset is ook terug te vinden in het model waarbij de Sabio, Brenda en MuteinDB datasets gecombineerd zijn. Op deze posities is er een mutatie van histidine naar fenylalanine. Verder komen de pieken bij 12, 113, 159, 180 en 403 zowel voor bij het model op basis van de Brenda dataset als bij het model op basis van de Sabio en Brenda datasets. De pieken bij 134, 411 en 424 komen zowel voor bij het model op basis van de Sabio en Brenda datasets als bij het model op basis van de Sabio, Brenda en MuteinDB datasets. Een overzicht van de tien belangrijkste pieken met hun bijpassende mutaties zijn terug te vinden in Tabel 7.2. De tien mutaties zijn aangeduid in de 3D-structuur van CYP52M1 (Figuur 7.3). De 3D-structuur is gemaakt op de I-TASSER server1. Alle mutaties behalve op positie 404 liggen niet in het katalytisch centrum van het enzym. De variabele regio op de posities voor 100 zijn terug te vinden in de twee helixen buiten het globulaire deel van het cytochroom P450. Deze mutaties hebben geen enkel effect op de katalytische activiteit van het cytochroom P450, daar ze noch in de katalytischesite zitten, noch de vorm van de katalytischeholte kunnen be¨ınvloeden.

Tabel 7.2: De tien belangrijkste mutaties op basis van de mutatie frequenties per model. Posities 13 114 135 160 198 404 412 424 425 464 Oorspronkelijk aminozuur L T V T H L V E Q E Nieuw aminozuur W A L A F V T D G F

Simulated annealing voor CYP52M1

Voor het volledig optimaliseren van de CYP52M1 sequentie wordt gebruik gemaakt van het simulated annealing algoritme beschreven in Sectie 7.4 (Strategie 1). Als optimalisatiefunctie wordt het random forests model op de Sabio en Brenda datasets uit Sectie 6.6.3 gebruikt. De parameters van het simulated annealing algoritme werden na parameteroptimalisatie als volgt −2 −8 ingesteld: Tmax = 10 , Tmin = 10 , r = 0.4 en 10000 iteraties per koelcyclus. Er werd vertrokken van de sequentie van CYP52M1 en palmitinezuur als chemische componenten.

Hierbij voorspelt het model een kcat = 10. Er werd telkens gesampled uit de PSSM als aminozuurdistributie. Om een goed beeld te krijgen van het convergerend gedrag van het algoritme werd dit experiment 1000 keer herhaald.

Van deze 1000 experimenten werd voor het beste resultaat (Tabel 7.3), waarbij kcat = 640, de iteratiecurve, de Hamming-afstand tot de geoptimaliseerde sequentie en het gemiddeld

1http://zhanglab.ccmb.med.umich.edu/I-TASSER 66 7.5 OPTIMALISATIE VAN CYP52M1

40

35 R H K 30 D E S 25 T N Q 20 C G P 15 A Absolute mutatie frequentie V

10 I L M 5 F Y W 0 0 100 200 300 400 500 600 Positie in de CYP52M1 sequentie

30

R

25 H K D E 20 S T N Q 15 C G P A 10 Absolute mutatie frequentie V I L

5 M F Y W 0 0 100 200 300 400 500 600 Positie in de CYP52M1 sequentie

45

40 R H K 35 D E 30 S T N 25 Q C 20 G P A 15 Absolute mutatie frequentie V I 10 L M F 5 Y W 0 0 100 200 300 400 500 600 Positie in de CYP52M1 sequentie

30

R 25 H K D E 20 S T N Q 15 C G P A 10 Absolute mutatie frequentie V I L 5 M F Y W 0 0 100 200 300 400 500 600 Positie in de CYP52M1 sequentie

Figuur 7.2: Mutatiefrequenties voor de modellen, van boven naar onder, Sabio, Brenda, Sabio- Brenda en Sabio-Brenda-MuteinDB, op basis van het aangepaste simulated annealing protocol (Strategie 2). HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 67

Figuur 7.3: Voorspelde 3D-structuur van CYP52M1. In de katalytische site is de heemgroep, zwart, en een substraat, blauw, aanwezig. De mutaties zijn in het oranje aangeduid. aantal mutaties per 1000 iteraties uitgezet in functie van het aantal iteraties (Figuur 7.4). De Hamming-afstand geeft aan hoeveel aminozuren er verschillend zijn tussen beide sequenties. Tijdens de eerste 20000 iteraties was de temperatuur nog hoog waardoor de score van het model nog fluctueerde. Hierna werd enkel nog stijgingen of kleine dalingen waargenomen. Tijdens deze eerste 20000 iteraties is het gemiddeld aantal mutaties per 1000 iteraties het hoogst. Deze curve is zeer grillig van vorm maar toont toch een dalende trend naar het einde toe. De Hamming-afstand tot de geoptimaliseerde sequentie verkleint over de gehele tijdspanne ongeveer lineair met een sterkere daling voor 120000 en op het einde. De maximale score werd bereikt bij 122898 iteraties. Hierna werden nog 140 mutaties uitgevoerd die geen invloed meer hadden op de score van het model. Na de optimalisatie werd voor de geoptimaliseerde sequentie opnieuw een gevoeligheidsanalyse uitgevoerd zoals besproken in Sectie 7.3. Uit deze analyse is te zien dat voor het model waarvoor de optimalisatie is uitgevoerd geen verbetering meer mogelijk is. Voor 144 mutaties blijft de score hetzelfde. Dit is de verklaring waarom nadat de optimale score werd bekomen nog 140 mutaties werden uitgevoerd door het optimalisatie-algoritme. Hierdoor ontstaat een groep van sequenties met allemaal de zelfde score maar een verschillende sequentie. Dit model werd enkel geoptimaliseerd voor een zo goed mogelijke enzymactiviteit. Binnen deze groep van sequenties kan nu nog verder gezocht worden naar de sequentie met andere optimale eigenschappen zoals bv. thermostabiliteit. Ook voor de andere modellen kan er een verbetering opgemerkt worden, omdat voor minder posities een verbetering kan gedaan worden en voor meer posities alleen maar een slechtere score kan bereikt worden (Figuur 7.5). Door het analyseren van de gevoeligheid op elke positie kon worden waargenomen dat verschil- lende sequenties dezelfde score kunnen hebben. Om nu na te gaan welke posities belangrijk zijn voor mutatie en welke niet werd van de 1000 optimalisaties die werden uitgerekend een 68 7.5 OPTIMALISATIE VAN CYP52M1

Tabel 7.3: Alignering van CYP52M1 en zijn geoptimaliseerde sequentie. Getallen geven de posities in de sequentie aan. ‘.’ geeft een mutatie aan, ‘:’ geeft een mutatie aan door een gelijkaardig aminozuur en ‘|’ geeft een correct gealineerde aminozuren aan.

CYP52M1 1 ------MLIKDIILTPMSLSAVAGLLPLLFVAFL 28 ..:..:|||.:.:.: Geoptimaliseerd 1 NNMMAGAIHEFGWYILVGSHVLFSVLGMILTSVKVGS------37

CYP52M1 29 VLHEPIWLLWYRYAARRHKCSMPRFIEKSFPLGIQRTMDMIKTAKSYTLL 78 :.:||:|..|...... :..:..|.....:....:..||:| Geoptimaliseerd 38 ------YTQYASRLMKAGGVVNPQIDYFFGFDGVFNSASASNIYTVL 78

CYP52M1 79 E---VQY--DRVFNKFKARTYLRQAPLQYQIFTIEPENIKTILATKFNDF 123 : .:| |:..|.|:...:..:. |||::||.||.:.||:|||| Geoptimaliseerd 79 QFYLAEYFKDKNGNTFQLNIFTMEI-----IFTVDPEGIKHMSATQFNDF 123

CYP52M1 124 GLGARFHTVGKVFGQGIFTLSGNGWKQSRSMLRPQFTKDQVCRIDQISSH 173 .||.|.....|:.|.|||||:|..|..||.:|||||.|..|..::.:..| Geoptimaliseerd 124 SLGVRDILTAKLLGDGIFTLNGAKWSSSRGLLRPQFAKSAVPHLEIMDPH 173

CYP52M1 174 AAELIKEMNRAMKVDQFIDVQHYFHKLTLDTATEFLFGESCESLNPENQS 223 ...|.|.||:.||..:|.|:||...:|.:|:|||||||||||.|..:... Geoptimaliseerd 174 IPMLAKVMNKNMKQPEFFDLQHLAFRLFVDSATEFLFGESCEGLRLDKFG 223

CYP52M1 224 CIVARDGSEITAEQFVESYNFLLNYAFKRTLSSKVYWLFNSKEFRDHKKR 273 .....||.....:.|...:|:..|...:|.||..::.|:|||:|:|.|.. Geoptimaliseerd 224 KNQPSDGGRAGKDSFASQFNYSQNDNHRRALSQNMWILYNSKQFKDSKAT 273

CYP52M1 274 AQSYIDYYVDKALYATSFAAENSIAEKDAAAESSGIYVFSLEMAKVTRDP 323 ...:..|:::|.|.:.....||....|...:..|.:|||.||:.|:|||| Geoptimaliseerd 274 VHHFAKYFLNKGLRSKGPDGENRYELKAILSWDSDLYVFPLELVKLTRDP 323

CYP52M1 324 VTIRDQIFNILIAGRDTTAATLSFAIHFLARNPDVFNKLREEVLDHFGTK 373 ..:|.|:.||::.|||||:..|||.:.||||||||:..||||:|:.:|.| Geoptimaliseerd 324 EVLRSQLLNIMVPGRDTTSGLLSFVVFFLARNPDVYKWLREEMLERYGVK 373

CYP52M1 374 EEQRPLSFELLKQAPYLKQVINEVLRLAPVLPLNFRTAVRDTTLPIGGGP 423 ...... :||.||..|||:.|:||.|||.|.:|.|.:.|.::||||.|||. Geoptimaliseerd 374 ARSHWYTFEKLKNMPYLQLVLNEALRLYPPVPGNVQVATKNTTLPTGGGV 423

CYP52M1 424 EQKDPIFVPKGTAVYYSIYMVHRDIKYWGPDAHEFNPNRWENLKLDNVWA 473 :.:.||.||:|..|.||:|::|||.:.:||||.:|.|:||...|:..||. Geoptimaliseerd 424 DGQSPIVVPQGQTVGYSVYLMHRDEEIYGPDAEDFRPDRWGEPKMHLVWI 473

CYP52M1 474 FLPFNGGPRICLGQQFALTELSLTLVRLLQEYSKIEMGPDFPESPRFSTT 523 |||||||||||:|||.|||.:....||:.|...|:..|..:||||..... Geoptimaliseerd 474 FLPFNGGPRICIGQQLALTMMGYVTVRMSQTIGKLTSGDPYPESPWKMAH 523

CYP52M1 524 LTAQHAPPGVVVRFS 538 |...... |..|:.. Geoptimaliseerd 524 LGMSSLGNGTPVKLH 538 HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 69

6.5 6.0 ) 5.5

+ 1) 5.0 cat

k 4.5 (

log 4.0 3.5 3.0 Score ( 2.5 2.0 0 20000 40000 60000 80000 100000 120000 140000 160000 Aantal iteraties

350 300 250 200 150 100 Hamming afstand 50 0 0 20000 40000 60000 80000 100000 120000 140000 160000 Aantal iteraties

0.25

0.20

0.15

0.10

Gemiddeld aantal 0.05 aanvaarde mutaties

0.00 0 20000 40000 60000 80000 100000 120000 140000 160000 Aantal iteraties

Figuur 7.4: Boven: Modelscore in functie van het aantal iteraties. Midden: Hamming-afstand tot de geoptimaliseerde sequentie in functie van het aantal in- teracties. Onder: Gemiddeld aantal mutaties per 1000 iteraties in functie van het aantal iteraties. 70 7.5 OPTIMALISATIE VAN CYP52M1

0.0

0 100 200 300 400 500 0.3 −

0.6 −

0.9 0 100 200 300 400 500 −

1.2 −

1.5 − 0 100 200 300 400 500 1.8 −

2.1 −

0 100 200 300 400 500

Figuur 7.5: Gevoeligheidsanalyse van de vier verschillende modellen voor de mu- taties op elke positie in de geoptimaliseerd sequentie. Modellen van boven naar onder: model op de Sabio dataset, Brenda dataset, Sabio en Brenda datasets en Sabio, Brenda en MuteinDB datasets. mutual information circos voorstelling opgesteld via MISTIC2 (Figuur 7.6). De meest varia- bele regio bevindt zich tussen posities 295 en 304. Deze regio geeft ook een sterke correlatie met posities 34, 81, 516 en 517. Verder is positie 81 nog sterk gecorreleerd met posities 186, 228, 517 en 530, positie 517 nog met posities 36 en 186 en positie 186 nog met positie 101. Al deze posities bevinden zich op variabele regio’s. Positie 371 is sterk gecorreleerd met positie 336, positie 442 met positie 398 en positie 428 met positie 480. Deze posities bevinden zich in geconserveerde regio’s. Mutaties die plaatsvinden op een positie die gecorreleerd is met een andere, betekent dat op die andere posities ook een mutatie heeft plaatsgevonden die in verband staat met de mutatie op de eerste positie. Om de mutual information circos te vergelijken met de 3D-structuur werd een contact map op basis van de 3D-structuur opge- steld (Figuur 7.7). Hierop is te zien dat de posities rond 520 dicht in de buurt staan van de posities rond 80. Dit is ook terug te vinden op de mutual information circos voorstelling. De correlaties tussen de posities rond 300 met de posities boven de 500 en onder de 100 zijn niet te verklaren op basis van de onderlinge afstand. De posities rond 300 zitten aan de buitenkant van het enzym (Figuur 7.8). Dit kan verklaren waarom deze regio zo variabel is. Als laatste werd de PSSM van de CYP52 familie vergeleken met de PSSM opgesteld op basis van de 1000 geoptimaliseerde sequenties. Door het verschil tussen beide PSSM te bekijken, kunnen posities worden aangeduid waarop een aminozuur door het model meer werd toege- laten dan de kans dat het gesampled werd door het algoritme. Op posities 63 en 132 is de frequentie van het aminozuur verhoogd met meer dan 0.5, op posities 46 en 213 met meer dan 0.4, op posities 34, 37, 95, 164, 223, 229, 349, 431, 446 en 452 met meer dan 0.3. Op al deze posities is het aminozuur niet veranderd ten opzichte van de oorspronkelijke sequentie van CYP52M1. In Tabel 7.4 is een overzicht gegeven van alle posities waarbij een mutatie is opgetreden. Voor vier van deze mutaties is er een vervanging van lysine naar arginine of omgekeerd, beide aminozuren zijn positief geladen en verschillen niet veel van vorm. Bij drie van deze mutaties is er een hydrofoob aminozuur vervangen door een ander hydrofoob ami-

2http://mistic.leloir.org.ar/ HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 71

Figuur 7.6: Mutual information circos voor 1000 geoptimaliseerde CYP52M1 sequenties gemaakt via MISTIC. De buitenste cirkel geeft voor elke positie het aminozuur van de consensussequentie weer. De gekleurde rechthoeken in de tweede cirkel geven aan hoe geconserveerd elke positie is. Een blauwe kleur geeft een lage conservering, een rode kleur geeft een hoge conservering. De posities met een mutual information groter dan 6.5 zijn verbonden. De top 5 % is verbonden met een rode lijn, de top 30 % met een zwarte lijn en de overige 70 % met een grijze lijn. Het histogram in de derde cirkel geeft aan met hoeveel posities deze positie gecorreleerd is. 72 7.5 OPTIMALISATIE VAN CYP52M1

105 500 90 400 75 300 60 45 200

Residu index 30 100

15 Afstand (Ångström) 0 0 0 100 200 300 400 500 Residu index

Figuur 7.7: Contact map op basis van de 3D-structuur van het geoptimaliseerde CYP52M1. nozuur, ook deze aminozuren verschillen niet veel van vorm. De overige twee mutaties zijn ook telkens tussen twee aminozuren die niet veel verschillen. Al deze posities zijn aangeduid op de 3D-structuur van het geoptimaliseerde cytochroom P450 CYP52M1 (Figuur 7.8)

Tabel 7.4: Alle posities waarbij een verandering in de frequentie is opgetreden van een aminozuur met meer dan 0.15. Positie Oorpsonkelijk aminozuur Nieuw aminozuur Nieuwe frequentie Verhoging 46 Lysine Arginine 0.17 0.15 51 Arginine Lysine 0.22 0.19 133 Lysine Arginine 0.17 0.16 186 Valine Leucine 0.30 0.18 272 Arginine Lysine 0.41 0.15 323 Valine Isoleucine 0.26 0.21 342 Alanine Glycine 0.75 0.16 346 Fenylalanine Tryptofaan 0.29 0.18 418 Isoleucine Valine 0.29 0.20 HOOFDSTUK 7 OPTIMALISATIE VAN EEN CYTOCHROOM P450 73

Figuur 7.8: Voorspelde 3D-structuur van het geoptimaliseerde CYP52M1. In de katalytische site is de heemgroep, zwart, en een substraat, blauw, aanwezig. De posities rond 300 zijn in het lichtblauw aangeduid. Mutaties op basis van de verandering in frequentie bij de 1000 geoptimaliseerde sequenties zijn in het oranje aangeduid. De posities die bij het vergelijken van de PSSM van de CYP52 familie en deze van de 1000 geoptimaliseerde sequenties de grootste verschillen hadden zijn in het geel aangeduid.

HOOFDSTUK 8 Conclusie

Cytochroom P450s zijn zeer belangrijke enzymen die veelvuldig voorkomen in bijna alle soor- ten. Zoals in Hoofdstuk 2 vermeld, zijn er tal van toepassingen in de industri¨ele biotechnologie voor het optimaliseren van deze cytochroom P450s. In deze thesis werd er een workflow op- gesteld voor het optimaliseren van deze cytochroom P450s aan de hand van de beschikbare data via machine learning technieken. In een eerste fase werd er gezocht naar features voor het beschrijven van de chemische compo- nenten en de eiwitten. Na het vergelijken van de verschillende features, op basis van modellen gefit op de AID: 1851 dataset, werd gekozen voor de features opgesteld door Duvenaud et al. (2015). Deze features hebben veel potentieel. In eerste instantie vervangen ze het gebruik van lange binaire fingerprints, waardoor de verscheidenheid van veel verschillende chemische componenten kan weergegeven worden in slechts enkele features en toch voldoende variabili- teit toelaat. Een tweede voordeel van het gebruik van deze features is dat ze, indien gewenst, kunnen worden geoptimaliseerd per specifiek probleem waardoor een eenvoudiger model kan gefit worden. Naast het bepalen van de features voor de chemische componenten werd er ook gezocht naar features voor de cytochroom P450s. De gebruikte features, bij het bouwen van de verschillende modellen, waren allen op basis van de sequentie. Dit kwam omdat er nog van te weinig cytochroom P450s de 3D-structuur gekend is. Het voorspellen van de 3D- structuur op basis van de sequentie kan ook gebeuren, maar neemt veel rekentijd in beslag. De features gebruikt voor de chemische componenten kunnen ook toegepast worden op de 3D-structuur van de eiwitten. Dit kan in een later onderzoek verder worden uitgewerkt. In deze thesis werd gekozen voor de features afgeleid van de eerste drie principale componenten van de aminozuureigenschappen. Uit testen op de Sabio en MuteinDB dataset bleken deze aanleiding te geven tot het beste model. Zij vragen echter ook de minste rekentijd, wat een extra voordeel geeft voor het gebruik in optimalisatiemodellen. In een tweede deel werden op basis van de verzamelde interactiedata tussen cytochroom P450s en chemische componenten verschillende machine learning modellen gefit. Al deze modellen 76 hadden een lage ranking index en sommige van de modellen presteerden slechts even goed als een random model. Deze lage scores kunnen veel verschillende oorzaken hebben. Het eerste dat opgemerkt kan worden is dat het probleem zeer complex is. We willen niet enkel nagaan of een bepaald cytochroom P450 een interactie aangaat met een chemische component, maar ook hoe sterk deze interactie is. Hiervoor gaan we uit van de sequentie van de cytochroom P450s; een kleine mutatie maakt soms al een groot verschil. Er zijn tot nog toe 52675 cytochroom P450s beschreven (Fischer et al., 2007). Deze cytochroom P450s hebben zeer uiteenlopende sequenties (Ortiz de Montellano, 2015). Hierdoor is er een zeer grote dataset nodig om deze kleine veranderingen in een dergelijke grote verzameling van sequenties te kunnen modelle- ren. Deze thesis heeft aangetoond dat het niet onmogelijk is om met de bestaande data goede voorspellingen te doen, maar om betere resultaten te verkrijgen zullen waarschijnlijk meer specifieke data nodig zijn. Het meeste van de beschikbare data, is meestal deze waarbij er enkel een positieve interactie is. Data van onderzoek waarbij er geen interactie is, of die zeer klein is, wordt meestal niet teruggevonden in de bestaande databanken. Hierdoor is het zeer moeilijk om een model op te stellen dat ook deze negatieve interacties correct kan voorspellen. Een tweede belangrijke factor is waarschijnlijk de gebruikte features. Positiespecifieke ver- anderingen komen niet rechtstreeks voor in de features. Een verder onderzoek naar gepaste features voor modellen waarbij mutaties van belang zijn, is zeker nog nodig. Een andere stra- tegie die genomen kan worden is het gebruik van modellen die rechtstreeks overweg kunnen met de sequentie en die geen gebruik maken van de tussenstap naar features. Hier werd gewerkt met machine learning modellen, deze hebben geen voorkennis nodig over de data. Echter is er al veel onderzoek gedaan naar specifieke mutaties in deze cytochroom P450s en het reactiemechanisme van deze cytochroom P450s. De gebruikte machine learning modellen hebben hier geen rekening mee gehouden. Andere modellen zoals docking of het gebruik van de kennis van reactiviteit van de aminozuren in 3D-structuren kunnen deze mo- dellen verbeteren. Een overzicht van de reeds bestaande modellen kan terug gevonden worden in Olsen et al. (2015). In een laatste deel werd een optimalisatie uitgevoerd op CYP52M1. Daar het onderliggende model niet optimaal is, is de verbetering uit de optimalisatie niet echt betrouwbaar. Door verschillende modellen samen te leggen zijn enkele mutaties naar boven gekomen die waar- schijnlijk een positieve impact hebben. Een verdere verbetering van de procedure is zeker nog nodig. Een volledig datagedreven optimalisatie van cytochroom P450s is op dit moment nog niet mogelijk. Een combinatie van verschillende modellen en de vakkennis van moleculaire biologen en scheikundigen is nodig om de beste kennis over de interacties tussen cytochromen en chemische componenten te verwerven. Bibliografie

S. F. Altschul, T. L. Madden, A. A. Sch¨affer, J. Zhang, Z. Zhang, W. Miller & D. J. Lipman (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Research, 25(17):3389–3402.

H.-J. Asmer, S. Lang, F. Wagner & V. Wray (1988). Microbial production, structure elucida- tion and bioconversion of sophorose lipids. Journal of the American Oil Chemists’ Society, 65(9):1460–1466.

K. Auclair, P. Mo¨enne-Loccoz & P. R. Ortiz de Montellano (2001). Roles of the proximal heme thiolate ligand in cytochrome P450 cam. Journal of the American Chemical Society, 123(21):4877–4885.

A. Auton, G. R. Abecasis, D. M. Altshuler, R. M. Durbin, G. R. Abecasis, D. R. Bentley, A. Chakravarti, A. G. Clark, P. Donnelly, E. E. Eichler et al. (2015). A global reference for human genetic variation. Nature, 526(7571):68–74.

R. Bernhardt (2006). Cytochromes P450 as versatile biocatalysts. Journal of Biotechnology, 124(1):128–145.

N. Biggs, E. K. Lloyd & R. J. Wilson (1976). Graph Theory, 1736-1936. Oxford University Press.

J. H. Block & D. R. Henry (2008). Evaluation of descriptors and classification schemes to predict cytochrome substrates in terms of chemical information. Journal of Computer-Aided Molecular Design, 22(6-7):385–392.

P. Bonnabry, J. Sievering, T. Leemann & P. Dayer (2001). Quantitative drug interactions prediction system (Q-DIPS). Clinical Pharmacokinetics, 40(9):631–640.

A. Braun, B. Halwachs, M. Geier, K. Weinhandl, M. Guggemos, J. Marienhagen, A. J. Ruff, U. Schwaneberg, V. Rabin, D. E. Torres Pazmi˜no et al. (2012). MuteinDB: the mutein database linking substrates, products and enzymatic reactions directly with genetic variants of . Database : The Journal of Biological Databases and Curation, 2012:bas028. L. Breiman (1996). Bagging predictors. Machine Learning, 24(2):123–140.

D.-S. Cao, Q. Xu & Y.-Z. Liang (2013). Manual for chemopy. https: //www.researchgate.net/figure/235919348{ }fig1{ }Figure-1-Representation- of-a-molecular-substructure-fingerprint-with-a-substructure (Gelezen op: 10 mei 2016).

K. Chahed, A. Oudin, N. Guivarc’h, S. Hamdi, J.-C. Ch´enieux,M. Rideau & M. Clastre (2000). 1-Deoxy-D-xylulose 5-phosphate synthase from periwinkle: cDNA identification and induced gene expression in terpenoid indole alkaloid-producing cells. Plant Physiology and Biochemistry, 38(7-8):559–566.

A. Chang, I. Schomburg, S. Placzek, L. Jeske, M. Ulbrich, M. Xiao, C. W. Sensen & D. Schom- burg (2015). BRENDA in 2015: exciting developments in its 25th year of existence. Nucleic Acids Research, 43(D1):D439–D446.

Q. Chen & D. Wei (2015). Human cytochrome P450 and personalized medicine. In D. Wei, Q. Xu, T. Zhao & H. Dai, editors, Advance in Structural Bioinformatics, volume 827 of Advances in Experimental Medicine and Biology, pp. 341–351. Springer Netherlands, Dordrecht.

F. Cheng, Y. Yu, J. Shen, L. Yang, W. Li, G. Liu, P. W. Lee & Y. Tang (2011). Classification of cytochrome P450 inhibitors and noninhibitors using combined classifiers. Journal of Chemical Information and Modeling, 51(5):996–1011.

K.-C. Chou (2001). Prediction of protein cellular attributes using pseudo-amino acid compo- sition. Proteins: Structure, Function, and Genetics, 43(3):246–255.

S. T. Cole, R. Brosch, J. Parkhill, T. Garnier, C. Churcher, D. Harris, S. V. Gordon, K. Ei- glmeier, S. Gas, C. E. Barry et al. (1998). Deciphering the biology of Mycobacterium tuberculosis from the complete genome sequence. Nature, 393(6685):537–544.

G. Collu, A. A. Garcia, R. Van der Heijden & R. Verpoorte (2002). Activity of the cytochrome P450 geraniol 10-hydroxylase and alkaloid production in plant cell cultures. Plant Science, 162(1):165–172.

G. Collu, N. Unver, A. M. Peltenburg-Looman, R. van der Heijden, R. Verpoorte & J. Meme- link (2001). Geraniol 10-hydroxylase 1 , a cytochrome P450 enzyme involved in terpenoid indole alkaloid biosynthesis. FEBS Letters, 508(2):215–220.

N. Corcionivoschi & G. Reid (2007). Cj1411c gene of Campylobacter jenuni 11168 encodes for a cytochrome P450 involved in bacterial capsule sugar metabolism. Lucrari tiintifice Zootehnie si Biotehnologii, 40(1):42–48.

78 I. G. Denisov, T. M. Makris, S. G. Sligar & I. Schlichting (2005). Structure and chemistry of cytochrome P450. Chemical Reviews, 105(6):2253–2277.

I. Dubchak, I. Muchnik, S. R. Holbrook & S. H. Kim (1995). Prediction of protein folding class using global description of amino acid sequence. Proceedings of the National Academy of Sciences, 92(19):8700–8704.

D. Duvenaud, D. Maclaurin, J. Aguilera-Iparraguirre, R. G´omez-Bombarelli, T. Hirzel, A. Aspuru-Guzik & R. P. Adams (2015). Convolutional networks on graphs for learning molecular fingerprints. Advances in Neural Information Processing Systems, pp. 2215–2223.

R. Eglese (1990). Simulated annealing: a tool for operational research. European Journal of Operational Research, 46(3):271–281.

M. Fischer, M. Knoll, D. Sirim, F. Wagner, S. Funke & J. Pleiss (2007). The cytochrome P450 engineering database: a navigation and prediction tool for the cytochrome P450 protein family. Bioinformatics, 23(15):2015–2017.

R. Fox (2005). Directed molecular evolution by machine learning and the influence of nonlinear interactions. Journal of Theoretical Biology, 234(2):187–199.

R. J. Fox & G. W. Huisman (2008). Enzyme optimization: moving from blind evolution to statistical exploration of sequencefunction space. Trends in Biotechnology, 26(3):132–138.

Y. Freund (1995). Boosting a weak learning algorithm by majority. Information and Com- putation, 121(2):256–285.

M. G. Genton (2001). Classes of kernels for machine learning: a statistics perspective. Journal of Machine Learning Research, 2:299–312.

H. M. Girvan & A. W. Munro (2016). Applications of microbial cytochrome P450 enzymes in biotechnology and synthetic biology. Current Opinion in Chemical Biology, 31:136–145.

M. Gribskov, a. D. McLachlan & D. Eisenberg (1987). Profile analysis: detection of distantly related proteins. Proceedings of the National Academy of Sciences, 84(13):4355–4358.

J. T. Groves, G. A. McClusky, R. E. White & M. J. Coon (1978). Aliphatic hydroxyla- tion by highly purified liver microsomal cytochrome P-450. Evidence for a carbon radical intermediate. Biochemical and Biophysical Research Communications, 81(1):154–160.

F. P. Guengerich (2008). Cytochrome P450 and chemical toxicology. Chemical Research in Toxicology, 21(1):70–83.

F. Hannemann, A. Bichet, K. M. Ewen & R. Bernhardt (2007). Cytochrome P450 systems- biological variations of electron transport chains. Biochimica et Biophysica Acta (BBA) - General Subjects, 1770(3):330–344.

79 F. E. Harrell (1982). Evaluating the yield of medical tests. JAMA: The Journal of the American Medical Association, 247(18):2543.

F. E. Harrell, K. L. Lee & D. B. Mark (1996). Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Statistics in Medicine, 15(4):361–87.

J. H. Hartman, S. D. Cothren, S.-H. Park, C.-H. Yun, J. A. Darsey & G. P. Miller (2013). Predicting CYP2C19 catalytic parameters for enantioselective oxidations using artificial neural networks and a chirality code. Bioorganic & Medicinal Chemistry, 21(13):3749– 3759.

T. Hastie, R. Tibshirani, J. Friedman & J. Franklin (2009). The Elements of Statistical Learning. Springer Series in Statistics. Springer New York, New York, NY.

D. B. Hawkes, G. W. Adams, A. L. Burlingame, P. R. Ortiz de Montellano & J. J. De Voss (2002). Cytochrome P450(cin) (CYP176A), isolation, expression, and characterization. The Journal of Biological Chemistry, 277(31):27725–32.

R. Heijden, D. Jacobs, W. Snoeijer, D. Hallard & R. Verpoorte (2004). The catharanthus alkaloids: pharmacognosy and biotechnology. Current Medicinal Chemistry, 11(5):607–628.

S. Hellberg, M. Sjoestroem, B. Skagerberg & S. Wold (1987). Peptide quantitative structure-activity relationships, a multivariate approach. Journal of Medicinal Chemistry, 30(7):1126–1135.

T. K. Ho (1995). Random decision forests. In Proceedings of 3rd International Conference on Document Analysis and Recognition, volume 1, pp. 278–282. IEEE Comput. Soc. Press.

A. E. Hoerl & R. W. Kennard (1970). Ridge regression: biased estimation for nonorthogonal problems. Technometrics, 12(1):55–67.

R. H¨ofer, L. Dong, F. Andr´e, J.-F. Ginglinger, R. Lugan, C. Gavira, S. Grec, G. Lang, J. Memelink, S. Van Der Krol et al. (2013). Geraniol hydroxylase and hydroxygeraniol oxidase activities of the CYP76 family of cytochrome P450 enzymes and potential for engineering the early steps of the (seco)iridoid pathway. Metabolic Engineering, 20:221– 232.

S. Irmler, G. Schroder, B. St-Pierre, N. P. Crouch, M. Hotze, J. Schmidt, D. Strack, U. Matern & J. Schroder (2000). Indole alkaloid biosynthesis in Catharanthus roseus: new enzyme activities and identification of cytochrome P450 CYP72A1 as . The Plant Journal, 24(6):797–804.

S. Kirkpatrick, C. D. Gelatt & M. P. Vecchi (1983). Optimization by simulated annealing. Science, 220(4598):671–680.

80 M. Klingenberg (1958). Pigments of rat liver microsomes. Archives of Biochemistry and Biophysics, 75(2):376–386.

M. Lapins, A. Worachartcheewan, O. Spjuth, V. Georgiev, V. Prachayasittikul, C. Nantase- namat & J. E. S. Wikberg (2013). A unified proteochemometric model for prediction of inhibition of cytochrome P450 isoforms. PLoS ONE, 8(6):1–8.

Y. Li, D. A. Drummond, A. M. Sawayama, C. D. Snow, J. D. Bloom & F. H. Arnold (2007). A diverse family of thermostable cytochrome P450s created by recombination of stabilizing fragments. Nature Biotechnology, 25(9):1051–1056.

A. Y. Lu & M. J. Coon (1968). Role of hemoprotein P-450 in fatty acid omega-hydroxylation in a soluble enzyme system from liver microsomes. The Journal of Biological Chemistry, 243(6):1331–2.

A. Y. Lu, K. W. Junk & M. J. Coon (1969). Resolution of the cytochrome P-450-containing omega-hydroxylation system of liver microsomes into three components. The Journal of Biological Chemistry, 244(13):3714–3721.

N. Manga, J. Duffy, P. Rowe & M. Cronin (2005). Structure-based methods for the prediction of the dominant P450 enzyme in human drug biotransformation: consideration of CYP3A4, CYP2C9, CYP2D6. SAR and QSAR in Environmental Research, 16(1-2):43–61.

T. D. Meehan & C. J. Coscia (1973). Hydroxylation of geraniol and nerol by a monooxygenase from Vinca rosea. Biochemical and Biophysical Research Communications, 53(4):1043– 1048.

B. Meunier & J. Bernadou (2000). Active iron-oxo and iron-peroxo species in cytochromes P450 and peroxidases; oxo-hydroxo tautomerism with water-soluble metalloporphyrins. In Metal-Oxo and Metal-Peroxo Species in Catalytic Oxidations, volume 97 of Structure and Bonding, pp. 1–35. Springer Berlin Heidelberg, Berlin, Heidelberg.

B. Meunier, S. P. de Visser & S. Shaik (2004). Mechanism of oxidation reactions catalyzed by cytochrome P450 enzymes. Chemical Reviews, 104(9):3947–3980.

L. Michielan, L. Terfloth, J. Gasteiger & S. Moro (2009). Comparison of multilabel and single-label classification applied to the prediction of the isoform specificity of cytochrome P450 substrates. Journal of Chemical Information and Modeling, 49(11):2588–2605.

D. W. Nebert, M. Adesnik, M. J. Coon, R. W. Estabrook, F. J. Gonzalez, F. P. Guenge- rich, I. C. Gunsalus, E. F. Johnson, B. Kemper, W. Levin et al. (1987). The P450 gene superfamily: recommended nomenclature. DNA, 6(1):1–11.

D. W. Nebert & D. W. Russell (2002). Clinical importance of the cytochromes P450. The Lancet, 360(9340):1155–1162.

81 D. R. Nelson (2004). Cytochrome P450 nomenclature, 2004. In Cytochrome P450 Protocols, pp. 1–10. Humana Press, New Jersey.

D. R. Nelson (2009). The cytochrome p450 homepage. Human genomics, 4(1):59–65.

D. R. Nelson & D. W. Nebert (2011). Cytochrome P450 ( CYP ) gene superfamily. In Encyclopedia of Life Sciences. John Wiley & Sons, Ltd, Chichester, UK.

S. E. O’Connor & J. J. Maresh (2006). Chemistry and biology of monoterpene indole alkaloid biosynthesis. Natural Product Reports, 23(4):532.

L. Olsen, C. Oostenbrink & F. S. Jørgensen (2015). Prediction of cytochrome P450 mediated metabolism. Advanced Drug Delivery Reviews, 86:61–71.

I.-M. Olsson, J. Gottfries & S. Wold (2004). D-optimal onion designs in statistical molecular design. Chemometrics and Intelligent Laboratory Systems, 73(1):37–46.

T. Omura, E. Sanders, R. Estabrook, D. Cooper & O. Rosenthal (1966). Isolation from adrenal cortex of a nonheme iron protein and a flavoprotein functional as a reduced triphosphopy- ridine nucleotide-cytochrome P-450 reductase. Archives of Biochemistry and Biophysics, 117(3):660–673.

T. Omura & R. Sato (1962). A new cytochrome in liver microsomes. The Journal of Biological Chemistry, 237(4):1375–1377.

P. R. Ortiz de Montellano (2015). Cytochrome P450. Springer International Publishing, Cham.

S. Preissner, K. Kroll, M. Dunkel, C. Senger, G. Goldsobel, D. Kuzman, S. Guenther, R. Win- nenburg, M. Schroeder & R. Preissner (2009). SuperCYP: a comprehensive database on cytochrome P450 enzymes including a tool for analysis of CYP-drug interactions. Nucleic Acids Research, 38(SUPPL.1):237–243.

Y. Setot & F. P. Guengerichs (1993). Partitioning between N-dealkylation and N-oxygenation in the oxidation of N,N-dialkylarylamines catalyzed by cytochrome P450 2B1*. The Journal of Biological Chemistry, 450:9986–9997.

I. F. Sevrioukova, H. Li, H. Zhang, J. A. Peterson & T. L. Poulos (1999). Structure of a cytochrome P450-redox partner electron-transfer complex. Proceedings of the National Academy of Sciences, 96(5):1863–1868.

A. Sharma, J. Lyons, A. Dehzangi & K. K. Paliwal (2013). A feature extraction technique using bi-gram probabilities of position specific scoring matrix for protein fold recognition. Journal of Theoretical Biology, 320:41–46.

82 J. Shawe-Taylor & N. Cristianini (2004). Kernel Methods for Pattern Analysis, volume 47. Cambridge University Press.

T. Smith & M. Waterman (1981). Identification of common molecular subsequences. Journal of Molecular Biology, 147(1):195–197.

L. Terfloth, B. Bienfait & J. Gasteiger (2007). Ligand-based models for the isoform specificity of cytochrome P450 3A4, 2D6, and 2C9 substrates. Journal of Chemical Information and Modeling, 47(4):1688–1701.

The Arabidopsis Genome Initiative (2000). Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature, 408(6814):796–815.

R. Todeschini & V. Consonni, editors (2000). Handbook of Molecular Descriptors. Methods and Principles in Medicinal Chemistry. Wiley-VCH Verlag GmbH, Weinheim, Germany.

S. Uesato, S. Kanomi, A. Iida, H. Inouye & M. H. Zenk (1986). Mechanism for iridane skele- ton formation in the biosynthesis of secologanin and indole alkaloids in Lonicera tatarica, Catharanthus roseus and suspension cultures of Rauwolfia serpentina. Phytochemistry, 25(4):839–842.

S. Uesato, S. Matsuda & H. Inouye (1984). Mechanism for iridane skeleton formation from acyclic monoterpenes in the biosynthesis of secologanin and vindoline in Catharanthus ro- seus and Lonicera morrowii. Chemical and Pharmaceutical Bulletin, 32(4):1671–1674.

T. Unterthiner, A. Mayr, G. Klambauer, M. Steijaert, J. K. Wegner & H. Ceulemans (2014). Deep learning as an opportunity in virtual screening.

I. N. Van Bogaert, M. Demey, D. Develter, W. Soetaert & E. J. Vandamme (2009). Importance of the cytochrome P450 monooxygenase CYP52 family for the sophorolipid-producing Candida bombicola. FEMS Yeast Research, 9(1):87–94.

P. Vasanthanathan, O. Taboureau, C. Oostenbrink, N. P. E. Vermeulen, L. Olsen & F. S. Jorgensen (2009). Classification of cytochrome P450 1A2 inhibitors and noninhibitors by machine learning techniques. Drug Metabolism and Disposition, 37(3):658–664.

A. D. N. Vaz, G. N. Raner, S. J. Pernecky & M. J. Coon (1997). Evidence for a role of a perferryl-oxygen complex, FeO 3. Molecular Pharmacology, 151:147–151.

B. Veau, M. Courtois, A. Oudin, J.-C. Ch´enieux,M. Rideau & M. Clastre (2000). Cloning and expression of cDNAs encoding two enzymes of the MEP pathway in Catharanthus roseus. Biochimica et Biophysica Acta (BBA) - Gene Structure and Expression, 1517(1):159–163.

83 H. Veith, N. Southall, R. Huang, T. James, D. Fayne, N. Artemenko, M. Shen, J. Inglese, C. P. Austin, D. G. Lloyd et al. (2009). Comprehensive characterization of cytochrome P450 isozyme selectivity across chemical libraries. Nature Biotechnology, 27(11):1050–1055.

J. C. Venter, M. D. Adams, E. W. Myers, P. W. Li, R. J. Mural, G. G. Sutton, H. O. Smith, M. Yandell, C. A. Evans, R. A. Holt et al. (2001). The sequence of the human genome. Science, 291(5507):1304–1351.

S. P. D. Visser, F. Ogliaro, N. Harris & S. Shaik (2001). Multi-state epoxidation of ethene by cytochrome P450: a quantum chemical study. Journal of the American Chemical Society, 123(13):3037–3047.

F. Vogel (1959). Moderne Probleme der Humangenetik, In L. Heilmeyer, R. Schoen & B. Rud- der, editors, Ergebnisse der Inneren Medizin und Kinderheilkunde, pp. 52–125. Springer Berlin Heidelberg, Berlin, Heidelberg.

D. Werck-Reichhart & R. Feyereisen (2000). Cytochromes P450: a success story. Genome Biology, 1(6):1–9.

J. A. Williams (2004). Drug-drug interactions for UDP-glucuronosyltransferase substrates: a pharmacokinetic explanation for typically observed low exposure (AUCi/AUC) ratios. Drug Metabolism and Disposition, 32(11):1201–1208.

D. S. Wishart, C. Knox, A. C. Guo, S. Shrivastava, M. Hassanali, P. Stothard, Z. Chang & J. Woolsey (2006). DrugBank: a comprehensive resource for in silico drug discovery and exploration. Nucleic Acids Research, 34(Database issue):D668–D672.

I. H. Witten & E. Frank (2005). Data Mining: Practical Machine Learning Tools and Tech- niques, Second Edition.

U. Wittig, R. Kania, M. Golebiewski, M. Rey, L. Shi, L. Jong, E. Algaa, A. Weidemann, H. Sauer-Danzwith, S. Mir et al. (2012). SABIO-RK–database for biochemical reaction kinetics. Nucleic Acids Research, 40(D1):D790–D796.

Y. Yamazaki, M. Kitajima, M. Arita, H. Takayama, H. Sudo, M. Yamazaki, N. Aimi & K. Saito (2004). Biosynthesis of camptothecin. In silico and in vivo tracer study from [1-13C]glucose. Plant Physiology, 134(1):161–170.

84