7Kh Guxjjdeoh Jhqrph

2(&':25.6+23 $Q,QWHUQDWLRQDO3HUVSHFWLYHRQ3KDUPDFRJHQHWLFVWKHLQWHUVHFWLRQ EHWZHHQLQQRYDWLRQUHJXODWLRQDQGKHDOWKGHOLYHU\ 5RPH,WDO\2&72%(5

7KHGUXJJDEOH JHQRPH +RZGRZHGHOLYHURQWKHSURPLVH RIQHZGUXJWDUJHWV"

$QGUHZ/+RSNLQV 6DQGZLFK/DERUDWRULHV 3IL]HU*OREDO5HVHDUFK'HYHORSPHQW

DQGUHZKRSNLQV#SIL]HUFRP 'UXJJDEOH*HQRPH

+XPDQÃ*HQRPH

*HQHÃ)DPLOLHV ,QWHU3UR

/HDGV 'UXJV

120 374 3051 No. of genes

24000 •399 targets (Ro5, >10PM) •129 Druggable gene families •13% human genome

+RSNLQV *URRP1DWXUH5HY'UXJ'LVF(2002), 1 (9), 727-730 %DVLF 3K\VLFRFKHPLFDOOLPLWV %LQGLQJLVGHWHUPLQHGE\EXULHGVXUIDFHDUHD FRQWDFWVDQGSRODULQWHUDFWLRQV A ‘beautiful’ serine protease site: ± '* 57 OQ .L Thrombin (YHU\IROGLQFUHDVHLQSRWHQF\ (potent non-covalent Ro5 compounds) NFDOPRO

.L RIQ0 NFDOPRO ± 7KHIUHHHQHUJ\JDLQHGIURPEXU\LQJ K\GURSKRELFVXUIDFHVLVHVWLPDWHGDW NFDOPROc ,RQLQWHUDFWLRQVDQGVDOWEULGJHVPXFKVWURQJHU &RPSOHPHQWDU\SRODUVXUIDFHVLVHVWLPDWHGDW NFDOPROc ± $GUXJZLWK. Q0 An ‘ugly’ serine protease site: L CMV protease. ) 2 WKHUHIRUHQHHGVWREXU\ Larger than Ro5 or reactive c RIK\GURSKRELF ‘warheads’ required for potency VXUIDFHDUHD ± (YHU\c RIEXULHG K\GURSKRELFVXUIDFH DUHDEX\VIROG LQFUHDVHLQSRWHQF\ 0D[LPLDO DIILQLW\SHU

Molecular Surface Area (Å DWRP±NFDOPRO

Molecular Weight (Da) 0HWKRGV ,QSKDUPDWLFD3IL]HU&ROODERUDWLRQ

'DWDEDVHRIGUXJWDUJHWV 'DWDEDVHRIWDUJHWVZLWKOHDGV 3URWHLQVWUXFWXUHEDVHGDQDO\VLV ± FDOFXODWHGIURPWKHSURWHLQVWUXFWXUHVLQFOXGLQJYROXPHGHSWKFXUYDWXUHDFFHVVLELOLW\ K\GURSKRELFVXUIDFHDUHDDQGSRODUVXUIDFHDUHD ± 7KLVPHWKRGKDVDGHPRQVWUDWHGDQ>VXFFHVVUDWHZKHQSUHGLFWLQJ GUXJJDELOLW\ RQWKH SURWHLQRUDOGUXJWDUJHWV 6HTXHQFHKRPRORJ\ ± +RPRORJ\EDVHVRQ%/$67FXWRIIRI>VHTXHQFHLGHQWLW\DQG(YDOXHOHVVWKDQRUHTXDO WR )HDWXUHEDVHG%D\HVLDQ ± %D\HVLDQGUXJJDELOLW\PRGHORINQRZQGUXJWDUJHWVEDVHGRQSURWHLQSURSHUWLHVDQG IHDWXUH :RUNLVRQJRLQJDQGH[SHFWHGWREHSXEOLVKHGHDUO\ 0ROHFXODU'UXJ7DUJHWV

Class of Drug No. Molecular •Orange book, 2005 Target Targets Targets of approved 301 •26,000 drugs products which NMEs (Human and anti- reduces to 1783 unique new infectives) Human Targets of 238 molecular entities approved NMEs •of which 1415 are small molecule Human Targets of 170 chemical entities approved NCEs Targets of approved 59 •180 are biological therapeutics biologicals •18 of which are antibodies Human Targets of 15 approved antibodies

Molecular Targets of Current Drugs

By Drug Substance By Target rhodopsin-like rhodopsin-like GPCR GPCR 20.4% nuclear receptor Nuclear receptor ligand-gated ion channel + 40.6% Na /neurotransmitter 6.5% cytochrome p450 symporter 3.1% cytokine receptor, ligand-gated ion 4.5% 2.7% type 1 channel 6.7% S1 serine proteinase voltage-gated 7.3% 11.1% Na+/Ca2+ channel phosphodiesterase Data: Derived from DrugStore database by John Overington, Inpharmatica Ltd Non- Ro5 7DUJHWVZLWK/HDGV redundant Non- *HQH)DPLO\ human targets redundant <10uM human Targets <10uM Aminergic GPCRs 34 34 GPCRs Class B Aspartyl Proteases 7 3 1% Cysteine Proteases 16 14 Kinases- others 1% Enzymes- others 102 81 Others Enzymes- others Aspartyl Proteases 15% 14% GPCRs Class A- others 35 30 1% GPCRs Class C GPCRs Class B 5 2 1% GPCRs Class C 10 10 PDEs 2% Hydrolases 34 28 Protein Kinases Ion Channels- others 11% Ion Channels- Ligand 26 20 2% Gated Cysteine Proteases Ion Channels- others 14 12 2% Nuclear hormone receptors Kinases- others 7 6 3% Peptide GPCRs 7% Metalloproteases 41 39 Ion Channels- Ligand Gated 4% Nuclear hormone 22 19 receptors Serine Proteases 4% Transferases Others 108 79 Hydrolases 6% Oxidoreductases 39 37 5% Metalloproteases Aminergic GPCRs 6% PDEs 11 11 5% Oxidoreductases Peptide GPCRs 52 42 GPCRs Class A- others 6% 5% Protein Kinases 75 66 *HQH)DPLO\GLVWULEXWLRQRIQRQUHGXQGDQW Serine Proteases 27 24 KXPDQSURWHLQVZLWKVPDOOPROHFXOHFKHPLFDO Transferases 42 30 OHDGVZLWKELQGLQJDIILQLWLHV X0'DWD Total 707 587 GHULYHGIURPDQDO\VLVRI\HDUVRISXEOLVKHG G. Paolini 0HG &KHP GDWD 'UXJJDEOH*HQRPH3UHGLFWLRQV

Druggability Prediction No. Molecular Gene family distributions of predicted druggable genome Method Targets GPCRs 21% Targets of approved NCEs 170 GPCRs Kinases Proteases 32% Transporters Sequence homology to NCE 945 Ion Channels drug targets Transferases Other Enzymes Targets of chemical leads with 707 Phosphatases Cytochrome P450 activities (binding affinities) Kinases below 10uM Nuclear Hormone Receptors 15% Phospholipases Targets of Ro5 chemical leads 587 Phosphodiesterases with activities (binding affinities Other Receptors 1% Cell Adhesion <= 10uM) Chemokines Proteases Sequence homology to targets 2921 2% 7% Other/Unclassified with chemical leads* 3% 5% 6% Transporters Feature-based druggability 2325 Ion Channels sequence probability prediction 3.5 Structured-based prediction 427 Druggable 3 genome Sequence homology to proteins 3541 2.5 estimates predicted druggable by 2 increase slowly structure-based method 1.5 due to power Family) 1 Predicted Druggbable Genome 3505 law nature of (high confidence) 0.5 gene family Gene in InterPro Genes of (No populations 10 0 Human Genome Log 0123

Log10(No. of Gene Family in order of size) *HQRPHGDWDFDOFXODWHGE\%LVVDQ $O/D]LNDQL -RKQ2YHULQJWRQ ,QSKDUPDWLFD 3URWHLQ7KHUDSHXWLF $FFHVVLEOH*HQRPH

Druggability Prediction Method No. of Molecular targets Targets of approved antibodies 15 1516 genes likely to encode proteins druggable by both small molecules and Targets of approved biologicals 59 protein therapeutics

Secreted protein (high confidence) 1384

Secreted proteins (low confidence) 6560 Total number druggable Total number druggable by by small molecule protein therapeutics therapeutics Transmembrane predictions (high 973 = 3258 genes confidence) = 3505 genes 1989 genes 1516 1742 genes (small mol. only) genes (protein only) Transmembrane predictions (low 1407 (both) confidence) Unique, combined transmembrane 2287 and secreted predictions (high +XPDQ confidence) *HQRPH Feature-based biological target 1637 sequence probability prediction Total unique genes predicted to be 3258 accessible via protein therapeutics )XWXUH'UXJ7DUJHW6SDFH

+XPDQ*HQRPH

24000

6465 ~2400 ~145 160 170 578 3505

~320

1769

*Zambrowicz & Sands, Nature Drug Disc. Rev. (2003), 2,38-51C *HQHWLFDVVRFLDWLRQOLQNDJHGDWDHVWLPDWHGE\WH[WPLQLQJIURPHQWLW\FRRFFXUUHQFHZLWKLQ0HGOLQHDEVWUDFWV'DWD SURGXFHGE\$QQD*DXOWRQ DQG$QGUHZ+RSNLQVXVLQJDPRGLILHGYHUVLRQRI/XFHQHE\/HH+DUODQGWRWH[WPLQH0HGOLQH Ion Channels –ligand gated 'HJUHHVRI'UXJJDELOLW\ Metalloproteases Peptide GPCRs Nuclear hormone receptors Aminergic GPCRs Protein Kinases Serine Proteases AlogP Ro5

Median ALogP for biologically- active compounds

)

Median ALogP g

for drugs d

(

i Mean ALogP per TargetMean ALogP per

d Median MW

e for biologically-

M active compounds

Mean MW per target (Da) for all active <10PM 8QGHUVWDQGLQJWHFKQRORJLFDO OLPLWVWRVSXULQQRYDWLRQ :HDUHEHJLQQLQJWRTXDQWLI\WKHWKH WHFKQLFDOOLPLWVRIGLIIHUHQWGUXJ WHFKQRORJLHV (JVPDOOPROHFXOHVYVDQWLERGLHVYVU3URWHLQV :HDUHEHJLQQLQJWRXQGHUVWDQGWKH UHODWLRQVKLSEHWZHHQPROHFXODUWDUJHW DQGSK\VLFRFKHPLFDOSURSHUWLHVRI GUXJVLQWHUPVRISUREDELOLW\ 7KH'UXJJDEOH*HQRPHFRQFHSWLV GHVLJQHGWRIRFXVOLPLWHGUHVRXUFHVRQ SURMHFWVZLWKKLJKHVWFKDQFHRIVXFFHVV /HVVRQVIRU,QQRYDWLRQIURP RWKHULQGXVWULHV “Not only are the market applications for disruptive technologies unknown at the time of their development, they are unknowable.” ± &OD\WRQ&KULVWHQVHQ7KH,QQRYDWRU¶V'LOHPPD

0DUNHWVIRUGLVUXSWLYHWHFKQRORJLHVDUH GLVFRYHUHGWRJHWKHULQDGLDORJXHEHWZHHQ LQYHQWRUVDQGXVHUV ± $SSOLFDWLRQRIVLOLGHQDILOWRHUHFWLOHG\VWIXQFWLRQ

3ODQVIRUGLVUXSWLYHLQQRYDWLRQPXVWEHIRU OHDUQLQJ DQGGLVFRYHU\ UDWKHUWKDQH[HFXWLRQ ± 'LVFRYHU\RIEHVWDSSOLFDWLRQRIILUVWLQFODVVGUXJVZLWK QRYHOPHFKDQLVPVFKDOOHQJHVPDUNHWOHDG7$VWUDWHJLHV 'UXJVGRQ¶WDOZD\VIDOOLQWRQHDW 7KHUDSHXWLF$UHDV

'UXJVPD\H[KLELWERWKVHJPHQWHGHIILFDF\LQWKHWDUJHWGLVHDVHV DQG XQH[SHFWHGDOWHUQDWLYHLQGLFDWLRQV

>6DOHVIRU$OWHUQDWLYH 12 ,QGLFDWLRQV

10 ± >RIUHYHQXHVRIWKH7RS First-in-Class (chemical) EORFNEXVWHUVFDPHIURP New Targets VHFRQGDU\LQGLFDWLRQV New Indications 8 ± 7RSSURGXFWV >UHYHQXHVIRURULJLQDOLQGLFDWLRQ 6 >UHYHQXHVIRUVHFRQGDU\LQGLFDWLRQV >XQNQRZQ SUREDEO\QG\ LQGLFDWLRQV 4 $GHHSHURQWRORJLFDOSUREOHP

2 IRUGUXJGLVFRYHU\" No Launched Drugs/New Targets Drugs/New No Launched – Modern basis of understanding the classification of diseases (nosology) is 0 19901991199219931994199519961997199819992000 300 years old Year – Molecular and etiology-based nosology 'DWDÃ'HULYHGÃIURPÃ'UXJÃ1HZV 3HUVSHFW 3URXV 6FLHQFH is key reducing attrition due to lack of *HOLMQV HWÃDO 1HZ (QJO -Ã0HGÃÃ Ã 3ULWFKDUGÃHWÃDO µ&DSWXULQJÃWKHÃXQH[SHFWHGÃEHQHILWVÃRIÃPHGLFDOÃUHVHDUFK¶Ã2+(Ã efficacy 5HGXQGDQF\DQG(IILFDF\

7KHVFDOHIUHHQDWXUHRIELRORJLFDOQHWZRUNV DUHLQKHUHQWO\UHVLVWDQWWRUDQGRPDWWDFNV SUHGLFWVUDQGRPO\UHPRYLQJ LQKLELWLQJ PRVW WDUJHWVKDVOLWWOHHIIHFWRQV\VWHP

6\QWKHWLFOHWKDOLW\PXWDWLRQRIWZRJHQH DORQHOHDYHVDFHOOYLDEOHEXWVLPXOWDQHRXV GHOHWLRQVOHDGVWRGHDWK 5HHYDOXDWLRQRIWKHUROHRISRO\SKUDPDFRORJ\ &RPELQDWLRQWKHUDSLHVDQGSURPLVFXRXVGUXJV (QGRIWKHRQHWDUJHWRQHGUXJSDUDGLJP" &RQFOXVLRQV

µ+LJKYDOXHUHDOHVWDWH¶ ± ,QWHJUDWLQJJHQRPLFGDWDZLWKFKHPLFDOLQIRUPDWLRQ DQGSURWHLQVWUXFWXUHDQDO\VLVHQDEOHVWKH LPPHGLDWHO\LGHQWLI\ZKLFKWDUJHWVKDYHWKHKLJKHVW SUREDELOLW\RIVXFFHVVZLWKFXUUHQWWHFKQRORJLHV LQ RUGHUWRLQFUHDVHGUXJGLVFRYHU\SURGXFWLYLW\ /HDUQLQJ6WUDWHJLHV ± 3UHFOLQLFDOFOLQLFDOGLVFRYHU\DQGOHDUQLQJ VWUDWHJLHVIRULQQRYDWLQJPHGLFDODSSOLFDWLRQRI H[SHULPHQWDOGUXJVZLWKQRYHOPHFKDQLVPVLVD FKDOOHQJHWRWKHGRPLQDQW7$PDUNHWOHDGWKLQNLQJ LQWKHLQGXVWU\ 3RO\SKDUPDFRORJ\ ± 1HWZRUNELRORJ\FRQFHSWLVSURYLGLQJDEDVLV FKDOOHQJLQJWKHµRQHWDUJHWRQHGUXJ¶SDUDGLJP ± &RPELQDWRULDOH[SORVLRQRIOLPLWHGGUXJJDEOHSDOHWWH $FNQRZOHGJHPHQWV

-RKQ 2YHULQJWRQ %LVVDQ $O/D]LNDQL $QQD*DXOWRQ -HUU\/DQIHDU *DLD3DROLQL -RQDWKDQ0DVRQ &ROLQ*URRPÁ

&ROODERUDWRUVDW ,QSKDUPDWLFD/RQGRQ8. Á&XUUHQWO\DW8&%&DPEULGJH8.

(PDLO DQGUHZKRSNLQV#SIL]HUFRP