Conception et modélisation de nouvelles molécules hautement énergétiques en fonction des contraintes réglementaires et environnementales Charlotte Alliod

To cite this version:

Charlotte Alliod. Conception et modélisation de nouvelles molécules hautement énergétiques en fonc- tion des contraintes réglementaires et environnementales. Toxicologie. Université de Lyon, 2018. Français. ￿NNT : 2018LYSE1035￿. ￿tel-02918057￿

HAL Id: tel-02918057 https://tel.archives-ouvertes.fr/tel-02918057 Submitted on 20 Aug 2020

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. N°d’ordre NNT : 2018LYSE1035

THESE de DOCTORAT DE L’UNIVERSITE DE LYON opérée au sein de l’Université Claude Bernard Lyon 1

Ecole Doctorale N° 205 Ecole Doctorale Interdisciplinaire Sciences-Santé (EDISS)

Spécialité de doctorat : Biologie, médecine et santé Discipline : Toxicologie et Chémiométrie

Soutenue le 08/03/2018, par : Mlle Charlotte ALLIOD

Conception et modélisation de nouvelles molécules hautement énergétiques en fonction des contraintes réglementaires et environnementales

Devant le jury composé de :

Camproux, A-C Professeure Université Paris Diderot Rapporteuse Charrue, Pierre Chargé de mission et Expert CEA Ripault Rapporteur Nicolle Edwige MC Université Joseph Fourier Grenoble Rapporteuse Jacob, Guy Directeur adjoint LHCEP expert senior ASL Examinateur Patino, Nadia Professeure Université de Nice Examinatrice

Collet Christelle Spécialiste technique propulsion MSIAC Invité Lobreau, L-F Chef de projet ASL Invité Ierno Hélène Management des produits chimiques ASL Invité

Terreux, Raphaël Professeur Université Claude Bernard Lyon 1 Directeur de thèse  81,9(56,7(&/$8'(%(51$5'/<21  Président de l’Université 0OH3URIHVVHXU)UpGpULF)/(85<

3UpVLGHQWGX&RQVHLO$FDGpPLTXH 0OH3URIHVVHXU+DPGD%(1+$','

9LFHSUpVLGHQWGX&RQVHLOd’Administration 0OH3URIHVVHXU'LGLHU5(9(/ 9LFHSUpVLGHQWGX&RQVHLO)RUPDWLRQHW9LH8QLYHUVLWDLUH 0OH3URIHVVHXU3KLOLSSH&+(9$/,(5 9LFHSUpVLGHQWGHOD&RPPLVVLRQ5HFKHUFKH 0)DEULFH9$//e( 'LUHFWULFH*pQpUDOHGHV6HUYLFHV 0PH'RPLQLTXH0$5&+$1'  COMPOSANTES SANTE  )DFXOWpGH0pGHFLQH/\RQ(VW–&ODXGH%HUQDUG 'LUHFWHXU0OH3URIHVVHXU*52'( )DFXOWpGH0pGHFLQHHWGH0DwHXWLTXH/\RQ6XG–&KDUOHV 'LUHFWHXU0PHOD3URIHVVHXUH&%85,//21 0pULHX[ 'LUHFWHXU0OH3URIHVVHXU'%285*(2,6 Faculté d’Odontologie  'LUHFWHXU0PHOD3URIHVVHXUH&9,1&,*8(55$ ,QVWLWXWGHV6FLHQFHV3KDUPDFHXWLTXHVHW%LRORJLTXHV 'LUHFWHXU0;3(5527 ,QVWLWXWGHV6FLHQFHVHW7HFKQLTXHVGHOD5pDGDSWDWLRQ 'LUHFWHXU0PHOD3URIHVVHXUH$06&+277 'pSDUWHPHQWGHIRUPDWLRQHW&HQWUHGH5HFKHUFKHHQ%LRORJLH +XPDLQH  COMPOSANTES ET DEPARTEMENTS DE SCIENCES ET TECHNOLOGIE

)DFXOWpGHV6FLHQFHVHW7HFKQRORJLHV 'LUHFWHXU0)'(0$5&+, 'pSDUWHPHQW%LRORJLH 'LUHFWHXU0OH3URIHVVHXU)7+(9(1$5' 'pSDUWHPHQW&KLPLH%LRFKLPLH 'LUHFWHXU0PH&)(/,; 'pSDUWHPHQW*(3 'LUHFWHXU0+DVVDQ+$00285, 'pSDUWHPHQW,QIRUPDWLTXH 'LUHFWHXU0OH3URIHVVHXU6$..28&+( 'pSDUWHPHQW0DWKpPDWLTXHV 'LUHFWHXU0OH3URIHVVHXU*720$129 'pSDUWHPHQW0pFDQLTXH 'LUHFWHXU0OH3URIHVVHXU+%(1+$',' 'pSDUWHPHQW3K\VLTXH 'LUHFWHXU0OH3URIHVVHXU-&3/(1(7 8)56FLHQFHVHW7HFKQLTXHVGHV$FWLYLWpV3K\VLTXHVHW6SRUWLYHV 'LUHFWHXU0<9$1328//( Observatoire des Sciences de l’Univers de Lyon 'LUHFWHXU0%*8,'(5'21, 3RO\WHFK/\RQ 'LUHFWHXU0OH3URIHVVHXU(3(55,1 (FROH6XSpULHXUHGH&KLPLH3K\VLTXH(OHFWURQLTXH 'LUHFWHXU0*3,*1$8/7 ,QVWLWXW8QLYHUVLWDLUHGH7HFKQRORJLHGH/\RQ 'LUHFWHXU0OH3URIHVVHXU&9,721 Ecole Supérieure du Professorat et de l’Education 'LUHFWHXU0OH3URIHVVHXU$028*1,277( ,QVWLWXWGH6FLHQFH)LQDQFLqUHHWG $VVXUDQFHV 'LUHFWHXU01/(%2,61( 

2

 5HPHUFLHPHQWV   0HVSUHPLHUVremerciements s’adressent à la Direction Général de l’Armement (DGA) pour m’avoir apporté son soutien financier pour réaliser ce doctorat.  -HWLHQVjUHPHUFLHUOH3U$QQH&ODXGH&DPSURX[HWOH'U(GZLJH1LFROOHSRXUDYRLUDFFHSWp GHUDSSRUWHUOHWUDYDLOSUpVHQWpGDQVFHPDQXVFULWDLQVLTXHles membres du jury qui m’ont fait l’honneur de juger ce travail de thèse.  J’exprime toute ma gratitude au Professeur Raphaël Terreux pour m’avoir accueilli et encadré DXVHLQGHVRQpTXLSHGX3{OH5K{QH$OSLQGH%LR,QIRUPDWLTXH/\RQ*HUODQG 35$%,/*  7XDYDLVWRXMRXUVXQDYLVRXXQFRQVHLODYLVpjPHIRXUQLU,OHVWELHQpYLGHPPHQWLPSRVVLEOH GH GLVVRFLHU GH FHV UHPHUFLHPHQWV OH 3U *X\ -DFRE SDV WRXW j IDLW FRHQFDGUDQW PDLV FR encadrant quand même, qui m’a inLWLpDXGRPDLQHGHVPROpFXOHV+(0V7XDYDLVWRXMRXUV XQHDQHFGRWHjUDFRQWHUHWPHUFLHQFRUHSRXUWRXWHVFHVGpFRXYHUWHV  4XHVHUDLWFHWWHWKqVHVDQVOHVPHPEUHVGHl’pTXLSH35$%,/*qui m’ont aidé  *LOEHUW'HOpDJHWRXMRXUVGLVSRQLEOHPDLVWUqVGLVFUHWGDQVVRQEXUHDX  (PPDQXHO %HWWOHU ©PRQ SHWLW FKDWª SUpIpUp WRXMRXUV j QRXV IDLUH SHXU GDQV OH EXUHDXHWjQRXVWLWLOOHUPDLVWRXMRXUVSUrWjODQFHUGHVVFULSWVS\WKRQSRXUPRL  /DXUHQW %HUWKLHU OH PRGpUDWHXU SDU H[FHOOHQFH VHXO JDUoRQ GX EXUHDX TXL D VX H[SORUHUVRQF{WpIpPLQLQjQRWUHFRQWDFW  Stéphanie Aguéro, meilleure amie dans la vie comme au boulot, qui m’aidé sans FRPSWHUHWVRXWHQXHTXHOTXHVRLWOHVpSUHXYHV  Je remercie le Dr. Roland Denis sans quoi cette thèse n’aurait pas pris le tournant qu’elle a pris aujourd’hui. Ces expressions «2QYD\DUULYHURQYD\DUULYHUªHW©7XGHYUDLVpFULUH HQ/$7(;ªVRQWJUDYpHVHQPRLSRXUODYLH  -HWLHQVjUHPHUFLHUWRXWSDUWLFXOLqUHPHQWOHVJHVWLRQQDLUHVGXqPHpWDJH &KULVWLQH'RURWKpH HW6RXDG DLQVLTXH0DULQH0RQWPDVVRQSRXUOHXUVFRQVHLOVOHXUVJHQWLOOHVVHVHWQRVJUDQGHV GLVFXVVLRQVORUVGHQRVUHSDVGHPLGL  Je remercie Corinne Uberty pour m’avoir sauvé la vie plus d’une fois sur des missions à l’étranJHU 

3



-HUHPHUFLHpJDOHPHQWPDIDPLOOHSRXUOHXUVRXWLHQHWOHXUVHQFRXUDJHPHQWVFRQVWDQWGHSXLV SOXVGHDQVHWOHXUTXHVWLRQ©0DLVWXIDLVXQHWKqVHVXUTXRLGpMj"» qui m’a permis de WRXMRXUVJDUGHUOHVSLHGVVXUWHUUH -HWLHQVWRXWSDUWLFXOLqUHment à remercier mon frère, Geoffrey, qui, à ces heures perdues, m’a pQRUPpPHQWDLGpjODILQGHPDWKqVHORUVTXHOHWLPLQJpWDLWFRPSWp  -H UHPHUFLH PD EHOOHIDPLOOH SRXU OHXU JHQWLOOHVVH HW OHXU SUpVHQFH j WRXV OHV pYqQHPHQWV PDUTXDQWVGHFHVGHUQLqUHVDQQpHV  -H WLHQV j UHPHUFLHU 2 personnes pour m’avoir corrigée UHOXH HW pWp GH WUqV ERQV FRQVHLOV GXUDQWODUpGDFWLRQGHFHUDSSRUW0OOH&DWKOLQH5HLWDQRHW0U

4

 7DEOHGHVPDWLqUHV

7$%/('(6),*85(6……………………………………………………………………… 7$%/('(67$%/($8;………………………………………………………………… 7$%/('(6$11(;(6…………………………………………………………………… $%5(9,$7,216…………………………………………………………………………… 35e$0%8/(……………………………………………………………….……………….  &KDSLWUH,: ETAT DE L’ART………………………………………………………………  /HVPROpFXOHVKDXWHPHQWpQHUJpWLTXHV…………………………………………… 1.1. Introduction………………………………………………………………………… 1.2. Les explosifs………………………………………………………………………… /HVHEMs…………………………………………………………………………… 1.4. Les molécules les plus répandues…………………………………………………. 1.4.1. La nitrocellulose……………………………………………………………… 1.4.2. Le TNT………………………………………………………………………… 1.4.3. Le Tétryl……………………………………………………………………… /HPETN……………………………………………………………………… 1.4.5. Le RDX……………………………………………………………………… . Le HMX………………………………………………………………………  (QUHJLVWUHPHQW(YDOXDWLRQ$XWRULVDWLRQHW5HVWULFWLRQGHVVXEVWDQFHVFKLPLTXHV 5($&K ……………………………………………………………………………………… Les risques CMR…………………………………………………………………… 2.1.1. Définition et mise en contexte.………………………………………………… 2.1.2. Prévention…………………………………………………………………… 2.1.3. Évaluation des risques ……………………………………………………… 2.1.4. Classification harmonisée……………………………………………………… 2.1.4.1. Règlement CLP………………………………………………………… . Avantages………….……………………………………………………. 2.1.4.3. Étiquette……….………………………………………………………… 2.1.4.3.1. Terminologie………………………………………………………… 'angers……………………………………………………………… &ULWqUHVde classification…………………………………………… /DUpJOHPHQWDtion REACh………………………………………………………… 2.2.1. Enregistrement………………………………………………………………… 2.2.2. Évaluation……………………………………………………………………… 2.3. Autorisation…………………………………………………………………… 2.2.4. Restriction…………………………………………………………………… 0éthodes alternatives………………………………………………………… 2.3. REACh et l’OCDE………………………………………………………………… 2.3.1. Catégorie de tests……………………………………………………………… 2.3.2. Catégorie Mutagénicité……………………………………………………… 2.4. Les différents tests toxicologiques………………………………………………… 2.4.1. Test d’Ames……………………………………………………………………. 7Hst d’aberrations chromosomiques.………………………………………… 7HVWsur lignées cellulairesGHO\PSKRPHde souris…………………………… 7HVWde synthèse non programmé de l’ADN …………………………………

5



2.4.5. Test létal dominant…………………………………………………………… 2.4.6. Test de carcinogénicité……………………………………………………… 2.4.7. Test de reprotoxicité…………………………………………………………  &KpPLRPpWULH…………………………………………………………………………… /HVRXWLOVGHSUpGLFWLRQin silico…………………………………………………… 3.1.1. QSAR…………………………………………………………………………… 3.1.2. Similarité……………………………………………………………………… 3.1.3. Machine Learning…………………………………………………………… Définition………………………………………………………………… 2. Algorithme: champs et applications……………………………………… 1. L’apprentissage supervisé………………………………………… 2. L’apprentissage non supervisé……………………………………… 'pFLVLRQV……………………………...………………………………… 1. La classification…………………………………………………… /DFODVVLILFDWLRQPXOWLclasses……………………………………… 3. La régression ……………………………………………………… 4. Architecture……………………….………………………………………. 5. Évaluation de la qualité du modèle.…………………………………… 3DUWLHWKpRULTXH………………………………………………………. A. Biais………………………………………………………………… B. Variance……………………………………………………………… C. Erreur………………………………………………………………… 9DOLGDWLRQcroisée……………………………………………………. $Création d’un set de test………………………………………………. %/HDYHSout………………………………………………………… &9DOLGDWLRQFURLVpH©NIROG» ………………………………………… '/HDYHRQout…………………………………………………………….. &DVSUDWLTXH(IIHW%LDLVYDULDQFH…………………………………… 6. Les différents types de prédicteurs………………………………………… 1. Arbre de décisions…………………………………………………… A. Gain d’information………………………………………………… B. Mesure de l’impureté……………………………………………… /HVméthodes d’ensemble…………………………………………… A. Manipulation des données d’entrainement………………………… i. Random Forest………………………………………………… ii. ExtraTrees……………………………………………………… B. Manipulation des données de sortie………………………………… 0DFKLQHjYHFWHXUVde support……………………………………. A. Cas simple…………………………………………………………… B. Cas complexes……………………………………………………… 3.1.3. 6. 4. Réseaux de neurones artificiels………………………………… 0RGpOLVDWLRQPROpFXODLUH…………………………………………………  &KDSLWUH,,46$5217+()/<……………………………………………………….  5pVXPp…………………………………………………………………………………….  1HWWR\DJHGHVGRQQpHV………………………………………………………………  Critères d’inclusion des données……………………………………………………  $UWLFOH……………………………………………………………………………………

6



&KDSLWUH,,,50R6………………………………………………………………………  1RXYHOOHVWUDWpJLH……………………………………………………………………… 1.1. Tanimoto…….…………………………………………………………………… ,QGLFHGH-DFFDUG…………………………………………………………………. 0pWKRGHLQWHUPpGLDLUH……………………………………………………………. 1RXYHOOHGpILQLWLRQ………………………………………………………………  5pFXUVLYLWp……………………………………………………………………………  3UpGLFWLRQ…………………………………………………………………………….  %UHYHW…………………………………………………………………………………  &KDSLWUH,95pVXOWDWVGXV\VWqPHSUpGLFWLI………………………………………………  ,QWURGXFWLRQ…………………………………………………………………………...  5pVXOWDWV………………………………………………………………………………. 2.1. La meilleure technique de Machine Learning……………………………………. $UEUHde décisions…………………………………………………………… 3DUDPqWUHVLPSOpPHQWpVGDQVVFLNLWlearn……………………………… 2. Résultats obtenus……………………………………………………… 0pWKode d’ensembles……………………………………………………….. $OJorithme Random Forest……………………………………………. 3Dramètres fixés…………………………………………………… . Résultats obtenus…………………………………………………. 2.1.2.2. Algorithme ExtraTrees…………………………………………………….. 2.1.2.3. Algorithme Boosting…………………………………………………… 3Dramètres fixés…………………………………………………… 5pVXOtats obtenus ………………………………………………… /HVPHLOOHXUVSDUDPqWUHVde prédiction…………………………………………  &KDSLWUH9:RUNIORZ……………………………………………………………………..182  ,QWURGXFWLRQ…………………………………………………………………………  5pVXOWDWV………………………………………………………………………………  ,QWURGXFWLRQ…………………………………………………………………………..  5pVXOWDWV………………………………………………………………………………  ,QWURGXFWLRQ…………………………………………………………………………..  5pVXOWDWV………………………………………………………………………………  ,QWURGXFWLRQ…………………………………………………………………………  5pVXOWDWV………………………………………………………………………………  5()(5(1&(6%,%/,2*5$3+,48(6………………………………….……………… 5()(5(1&(63(56211(//(6………………...…………………….………………. $11(;(………………………………………………………………………………...….211 

7

 7DEOHGHVILJXUHV

)LJXUHeWDSHVFOHIVGHODFRQFHSWLRQG XQHPROpFXOH ……………………………………. Figure 2: Molécule présentant une structure alerte…………………………………………...18 Figure 3: Représentation de l'énergie d'activation d'une molécule…………………………..26 Figure 4: Découverte des matériaux énergétiques……………………………………………27 )LJXUH: Les matériaux énergétiques et leurs applications………………………………… Figure 6: Réaction pour l’obtention de la nitrocellulose……………………………………..29 Figure 7: Molécule de TNT.………………………………………………………………….30 Figure 8: Molécule de Tétryl.………………………………………………………………...31 )LJXUH0ROpFXOHGH3(71……………………………………………………………… )LJXUH0ROpFXOHGH5';………………………………………………………………… )LJXUH0ROpFXOHGH+0;……………………………………………………………… )LJXUH/HVQHXISLFWRJUDPPHVGHGDQJHUHWOHXUFRGHVXLYDQWOHUqJOHPHQW&/3……… )LJXUH/HQRXYHDXSLFWRJUDPPHGHVPROpFXOHVFRQVLGpUpHVQRFLYHVRXWR[LTXHV……… )LJXUH: Évolution de la réglementation sur les produits chimiques……………………… Figure 15: Dates limites d'enregistrement des molécules CMR……………………………….46 Figure 16: Les différents tests à devoir être effectués lorsqu’une molécule est produite ou importée en quantité supérieure à 1 t / an, 10 t / an, 100 et 1000 t / an……………………….52 )LJXUH/HVGLIIpUHQWHVpWDSHVQpFHVVDLUHVjO pODERUDWLRQGXWHVWG $PHV……………… )LJXUH: Les aberrations de type chromatidique ou de type chromosomique…………… )LJXUH: Les étapes nécessaires à l’élaboration du test d'aberrations chromosomiques… Figure 20: Thymidine monophosphate (TMP)……………………………………………….58 )LJXUH: Les différentes étapes nécessaires à l’élaboration du test MLA………………… )LJXUH: Les étapes nécessaires à l’élaboration du test UDS.…………………………… )LJXUH0pFDQLVPHGHUpSDration de l'ADN.……………………………………………… )LJXUH/HVGLIIpUHQWHVpWDSHVQpFHVVDLUHVjl’élaboration du test DLT………………… )LJXUH'HVFULSWHXUVVWUXFWXUDX[DVVRFLpVjVRn vecteur de description………………… )LJXUH6\VWqPHGHEDVHGHODVWUDtégie prédictive……………………………………… )LJXUH&RPSDUDLVRQDSSUHQWLVVDJHVXSHUYLVpHWQRQsupervisé………………………… )LJXUH: Les trois sortes de décision d’un systèmed’apprentissage automatique……… )LJXUH0RGqOHGHVRXVHWVXUapprentissage…………………………………………… )LJXUH%LDLVYDULDQFHHWHUUHXUHQIRQFWLRQGe la complexité du modèle……………… )LJXUH9DOLGDWLRQFURLVpHNfold………………………………………………………… )LJXUH&RPSURPLVELDLVYDULDQFH7UDGHRII………………………………………… )LJXUH/HVGLIIpUHQWVW\SHVG DOJRULWKPHGH0DFKLQHLearning………………………… )LJXUH$UEUHGHGpFLVLRQV………………………………………………………………… Figure 35: Description de l'arbre……………………………………………………………..81 )LJXUH: Gain d'information par l’entropie de Shannon…………………………………… )LJXUH0pWKRGHVG ensembles…………………………………………………………… )LJXUH7DLOOHGHO HVSDFHd'hypothèse…………………………………………………… )LJXUH0pWKRGHG HQVHPEOHVpar algorithme Bagging…………………………………… )LJXUH)RUPDWLRQGHVVRXVHQVHPEOHVavec l'algorithme RF…………………………… )LJXUH)RUPDWLRQGHVVRXVensembles avec l'algorithme ExtraTrees…………………… )LJXUH)RUPDWLRQGHVVRXVHQVHPEOHVDYHc l'algorithme AdaBoost…………………… )LJXUH: Comparaison de l'algorithme d’arbre de décisionVet Bagging………………… )LJXUH&DVsimple de SVM proposant deux amas distincts de données………………… )LJXUH3OXVLHXUVVpSDUDWLons possibles…………………………………………………… )LJXUH&DVFRPSOH[HQRQOLQpDLrement séparable……………………………………… )LJXUH&DVSUpVHQWDQWXQHYDOeur aberrante…….…………………………………………

8



)LJXUH: Fonction noyau linéaire………………………………………………………… )LJXUH)RQFWLRQQR\DXpolynomiale…………………………………………………… )LJXUH)RQFWLRQQoyau RBF…………………………………………………………… )LJXUH5pVHDXGHQeurones……………………………………………………………… )LJXUH/HSHUFHptron…………………………………………………………………… )LJXUH: Première phase de l’apprentissage d'un réseau de neurones…………………… )LJXUH3URFHVVXVG DSSrentissage……………………………………………………… )LJXUH6$5FODVVLTXHDSSOLTXpHVXUXQHEDVHGHGRQQées……………………………… )LJXUH27)QSAR…………………………………………………………………… )LJXUH6FKpPDUpFDSLWXODWLIG XQ46$5RQWKHfly…………………………………… )LJXUH'pILQLWLRQGHODzone douteuse………………………………………………….. )LJXUHCoefficient de Tanimoto……………………….………………………………. )LJXUHCaractéristiques ayant des niveaux d'expressions différents………………………… )LJXUHIntersection entre deux ensembles A et B……………………………………… )LJXUHNouvelle définition d'un ensemble…………………………………………… )LJXUHPrise en compte des niveaux d'expression de deux ensembles………………… )LJXUHConversion d'une distance en une valeur de similarité.………………………… ஺ )LJXUHTracé de la fonction Ž ቀ ቁ en fonction de A pour B=2.……………………… ஻ ஺ …………….ሻ ൌቚŽ ቚ en fonction de A et pour B=2ܤ ǡܣݐሺݏ݅݀ Tracé de la fonctionLJXUH( ஻ ……….ሻሻ en fonction de Aܤ ǡܣݐሺݏTracé de la mesure de similarité locale ߮ሺ݀݅LJXUH( )LJXUH3remière étape d'R.Mo.S……………………………………………………… )LJXUHGénération de la molécule signature.………………………………………… )LJXUHCréation d'une molécule signature……………………………………………… )LJXUHPremier processus d’itération…………………………………………………… )LJXUHDeuxième processus d'itération…………………………………………………. )LJXUHDernier processus d'itération.…………………………………………………… )LJXUHProcessus de prédiction grâce à l'algorithme R.Mo.S.………………………… )LJXUHGrille de la similarité en fonction du nombre de molécules similaires sélectionnées par R.Mo.S.………………………………………………………………………………… )LJXUHLarge zone de l'espace contenant des points…………………………………… )LJXUHGrille contenant des points isolés.……………………………………………… )LJXUHGrille de résultats pour la technique de ML utilisant des arbres de décisions.… )LJXUHGrille de résultats pour la technique de ML utilisant l'algorithme RF………… )LJXUHZones larges de l'espace pour la technique utilisant l'algorithme RF.…………… )LJXUHTechnique de ML utilisant l'algorithme ExtraTrees avec l’indice de Gini.…………… )LJXUHTechnique de ML utilisant l'algorithme ExtraTrees avec l’entropie de Shannon……… )LJXUHGrille de résultats pour la technique de ML utilisant l'algorithme AdaBoost…………. )LJXUHEtapes clefs enrichies de la conception d'une molécule.…………………………… )LJXUH Formules brutes fournies par ASL………………………………………………… )LJXUH  Schéma récapitulatif de la conception optimisée d’une molécule HEM réglementaire, énergétique et non toxique.……………………………………………………………………  

9

 7DEOHGHVWDEOHDX[

7DEOHDX: Niveau de confiance du système à règle………………………………………… Tableau 2: Ensemble des données de prédictions fournies par le logiciel DEREK…………..21 Tableau 3: Ensemble des données de prédictions fournies par le logiciel ACD/Percepta……21 Tableau 4: Comparaison des données toxicologiques des molécules PETN et de TNT avec les données expérimentales……………………………………………………………………….22 7DEOHDX&RPSDUDLVRQGHODFODVVLILFDWLRQHWde l’étiquetage des substances classéHV&05 DYpUpHs pour l'homme en fonction des directives DSD/DPD et CLP………………………… Tableau 6: Comparaison de la classification et de l’étiquetage des substances classées CMR présumées pour l'homme en fonction des directives DSD/DPD et CLP………………………43 Tableau 7: Comparaison de la classification et de l’étiquetage des substances classées CMR suspectées pour l'homme en fonction des directives DSD/DPD et CLP……………………..43 Tableau 8: Seuils de classification……………………………………………………………44 7DEOHDX: Critères d'inclusions……………………………………………………………. 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test d’Ames.…………………………………………………………………………………… 7DEOHDX Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test d’Ames utilisant notre système prédictif.……………………………………………… 7DEOHDX Tableau récapitulatif de l'ensemble des données utilisées par le système prédictif pour chacun des tests toxicologiques.……………………………………………………… 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test d’aberrations chromosomiques……………..……………………………………………… 7DEOHDX Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test d’aberrations chromosomiques utilisant notre système prédictif.……………………… 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test MLA………………………………………………………………………………………… 7DEOHDX Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test MLA utilisant notre système prédictif.………………………………………………… 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test UDS……………………………………………………..…………………………………….175 7DEOHDX Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test UDS utilisant notre système prédictif.………………………………………………… 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test DLT…………………………………………………………………………………………..176 7DEOHDX Résultats de la base de validation du test DLT utilisant notre système prédictif………………………………………………………………………………………177 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test de carcinogénicité……………………………………………………………………………… 7DEOHDX Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test de carcinogénicité utilisant notre système prédictif……………………………………… 7DEOHDX Tableaux récapitulatifs des molécules HEMs de la base de test pour le test de reprotoxicité.………………………………………………………………………………… 7DEOHDX Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test de reprotoxicité utilisant notre système prédictif………………………………………… 7DEOHDX Tableau récapitulatif des données.…………………………………………… 7DEOHDX Comparaison des quatre méthodes semiempiriques de MOPAC……………   

10

 7DEOHGHVDQQH[HV

$QQH[H…………………………………………………………………………………..211  

11

 $EUpYLDWLRQV  5   5pGXLUH5DIILQHUHW5HPSODFHU 5HGXFH5HILQHDQG5HSODFH  $&'  $GYDQFHG&KHPLVWU\'HYHORSPHQW $GD%RRVW  $GDSWLYH%RRVWLQJ $'0(7  $GVRUSWLRQ'LVWULEXWLRQ0pWDEROLVDWLRQ([FUpWLRQHW7R[LFLWp $'1  DFLGHGpVR[\ULERQXFOpLTXH AM1  Austin Model 1 AMBER Assisted Method Building and Energy Refinement  $11  $UWLILFLDO1HXUDO1HWZRUN $6/   $LUEXV6DIUDQ/DXFKHUV $73   $GDSWDWLRQVWR7HFKQLFDO3URJUHVV %DJJLQJ  %RRWVWUDSDJJUHJDWLQJ %(5   %DVH([FLVLRQ5HSDLU &$   &KURPRVRPHVDEHUUDWLRQV &$57  &ODVVLILFDWLRQDQG5HJUHVVLRQ7UHHV &$6   &KHPLFDO$EVWUDFWV6HUYLFH &(   &RPPLVVLRQ(XURSpHQQH &(( &RQVHLOGHVFRPPXQDXWpVHXURSpHQQHV &*;  &DUFLQRJHQLFLW\*HQRWR[LFLW\H;SHULHQFH &+$,'  &+LVTXDUHG$XWRPDWLF,QWHUDFWLRQ'HWHFWLRQ CHARMM Chemistry at HARvard Macromolecular Mechanics &+/  &KLQHVH+DPVWHU/XQJ &+2  &KLQHVHV+DPVWHU2YDULHV &/3 &ODVVLILFDWLRQ(WLTXHWDJHHW(PEDOODJHGHVVXEVWDQFHV &05  &DUFLQRJpQLFLWp0XWDJpQLFLWpHW5HSURWR[LFLWp &1$076  &DLVVH1ationale d’Assurance Maladie GHV7UDYDLOOHXUV6DODULpV CORINA COoRdINAtes &3'%  &DUFLQRJHQLF3RWHQF\'DWD%DVH &5$0  Caisses Régionales d’Assurance 0DODGLH '(5(.  'HGXFWLYH(VWLPDWLRQRI5LVNIURP([LVWLQJ.QRZOHGJH DFT  Density Functional Theory 'I:  '(5(.IRU:LQGRZV '/7   'RPLQDQW/HWKDO7HVW '3'  'DQJHURXV3UHSDUDWLRQ'LUHFWLYH '6'  'DQJHURXV6XEVWDQFHV'LUHFWLYH '7   'HFLVLRQ7UHHV ($   Energie d’Activation (&+$  (XURSHDQ&KHPLFDOV+D]DUG$JHQF\ (&9$0  (XURSHDQ&HQWUHIRUWKH9DOLGDWLRQRI$OWHUQDWLYH0HWKRGV ('40  (XURSHDQ'LUHFWRUDWHIRUWKH4XDOLW\RI0HGLFLQHVDQGKHDOWKFDUH (0   (QVHPEOH0HWKRGV ([WUD7UHHV ([WUHPHO\5DQGRPL]HG7UHHV (85/ (XURSHDQ8QLRQ5HIHUHQFH/DERUDWRU\ )$6   Fiches d’Aide à la Substitution )'6   )LFKHVGH'RQQpHVGH6pFXULWp )(,6  )RUXPG (FKDQJHVG ,QIRUPDWLRQVVXUOHV6XEVWDQFHV +(0  +LJK(QHUJ\0DWHULDOV HF  Hartree–Fock +0;  F\FORWpWUDPpWK\OqQHWpWUDQLWUDPLQHRXRFWRJqQH

12



+357  +\SR[DQWKLQHJXDQLQH3KRVSKR5LERV\O7UDQVIHUDVH ,'   ,WHUDWLYH'LFKRWRPLVHU ,Q&K,  ,QWHUQDWLRQDO&KHPLFDO,GHQWLILHU ,156  ,QVWLWXW1DWLRQDOGH5HFKHUFKHHWGH6pFXULWp ,50   ,PDJHULHj5pVRQQDQFH0DJQpWLTXH ,66%,2&  ,QVWLWXWR6XSHULRUHGL6DQLWjIRU%,2&LGHV ,66&$1  ,QVWLWXWR6XSHULRUHGL6DQLWjIRU&$1FHURJHQLFLW\ ,6672;  ,QVWLWXWR6XSHULRUHGL6DQLWj72;LFLW\GDWDEDVHV -5&   -RLQW5HVHDUFK&HQWHU /S2   /HDYHS2XW /22  OHDYH2QH2XW 0$&&6  0ROHFXODU$&&HVV6\VWHP 0/   0DFKLQH/HDUQLQJ 0/$  0RXVH/\PSKRPD$VVD\ 00   0pFDQLTXH0ROpFXODLUH 02(  0RGHOLQJ2SHUDWLQJ(QYLURQPHQW 02/*(1  Molecular Structure Generation MOPAC Molecular Orbital PACkage 04   0pFDQLTXH4XDQWLTXH 065  0HDQ6TXDUH(UURU 1&   QLWURFHOOXORVH 173   1DWLRQDO7R[LFRORJ\3URJUDP 2&'(  2UJDQLVDWLRQGH&RRSpUDWLRQHWGH'pYHORSSHPHQW(FRQRPLTXHV 2&KHP  2QOLQH&KHPLFDOGDWDEDVH 27)46$5 2Q7KH)O\46$5 PM3  Parametric Method 3 PM6  Parametric Method 6 PM7  Parametric Method 7 3(71  3HQWDHU\WKULWROGHWpWUDQLWUDWH 3/6   3DUWLDO/HDVW6TXDUHV 46$5  4XDQWLWDWLYH6WUXFWXUH$FWLYLW\5HODWLRQVKLS 5';  F\FORWULPpWK\OqQHWULQLWUDPLQHRXKH[RJqQHRXF\FORQLWH 5($&K  5HJLVWUDWLRQ(YDOXDWLRQ$XWKRUL]DWLRQDQGUHVWULFWLRQRI&KHPLFDOV 5)   5DQGRP)RUHVW RM1  Recife model 1 50R6  5HFXUVLYH0ROHFXODU6LPLODULW\ 506(  5RRW0HDQ6TXDUH(UURU 56&   5DSSRUWGH6pFXULWp&KLPLTXH 6$5   6WUXFWXUH$FWLYLW\5HODWLRQVKLS 6*+  6\VWqPH*OREDO+DUPRQLVp 60,/(6  6LPSOLILHG0ROHFXODU,QSXW/LQH(QWU\6SHFLILFDWLRQ 61&   6\VWqPH1HUYHX[&HQWUDO 690  6XSSRUW9HFWRU0DFKLQHV 7)7   WULIOXRURWK\PLGLQH 7+$,'  7+HWD$XWRPDWLF,QWHUDFWLRQ'HWHFWLRQ 7.   7K\PLGLQH.LQDVH 703  WK\PLGLQHPRQRSKRVSKDWH 717   WULQLWURWROXqQH 8'6  8QVFKHGXOHG'1$6\QWKHVLV 9/%  YDOHXUVOLPLWHVELRORJLTXHV 9/(3  valeurs limites d’exposition professionnelle

13



                   

Préambule

                   



Depuis plus de 20 ans, la recherche militaire se focalise sur l’amélioration des critères de performances des explosifs et notamment sur le développement de munitions insensibles aux chocs et à la friction, notamment appelées molécules hautement énergétiques (High Energy Materials (HEM) en anglais). Ces deux propriétés sont en effet indispensables à leurs stabilités et pourraient garantir un avantage certain dans l’élaboration des explosifs de demain. Jusqu’à présent, la recherche militaire ne se concentrait que très peu sur les conséquences environnementales et toxicologiques que pouvaient causer ces HEMs. Aujourd’hui, le développement d’explosifs dont les dangers pour la santé de l’homme et l’environnement soient réduits est devenu un sujet de préoccupation majeur.  Les HEMS utilisées dans les industries spatiales et de défense sont soumises, comme tout produit chimique, à la réglementation européenne obligatoire REACh (Registration, Evaluation, Authorization and restriction of Chemicals en anglais) adoptée depuis 2007. Cette réglementation a été mise en place afin de mieux protéger la santé humaine et l'environnement contre les risques liés aux substances chimiques. Le respect de cette dernière est primordial et représente un sujet de profonde inquiétude pour les industries du monde entier. Dans les domaines cités, les exemples de préoccupation actuelle sont la pollution au perchlorate d’ammonium (utilisé au cours des lancements de fusées Ariane 5) ainsi qu’au RDX (présent dans les nappes phréatiques et dans les centres d’essai d’armement). Il est donc nécessaire de s’adapter et de trouver des solutions originales et innovantes pour pallier ce problème.  Ce sujet de thèse porte sur le développement et la mise au point de logiciels et de méthodes de calculs permettant de concevoir, de façon théorique, de nouvelles molécules hautement énergétiques tout en tenant compte des contraintes règlementaires et environnementales. Le projet vise à développer une suite de programmes optimisés et adaptés à cette problématique dans le but de concevoir in silico une chaîne de conception rationnelle des molécules HEMs candidates et le moins toxiques possible. Quelquesunes des molécules candidates pourront être, par la suite, synthétisées par Airbus Safran Lauchers (ASL) avec qui le projet est en collaboration.   /D SUpGLFWLRQ GH OD WR[LFLWp HVW XQ FULWqUH GH SHUIRUPDQFH DLQVL qu’un RXWLO G DLGH j OD sélection de nouvelles molécules. L’objectif des travaux est d’approfondir les connaissances VXUODWR[LFLWpGHVPDWpUiaux hautement énergétiques et d’optimiser une approche rationnelle pour disposer d’une démarche de prédiction de la toxicité de ces matériaux.  Le projet, dont la stratégie est schématisée cidessous (Figure 1), s’appuie sur les étapes clefs de la conception d’une molécule qui sont: (1) la génération automatique de structures chimiques 2D puis 3D, (2) l’évaluation de leurs capacités thermodynamiques et enfin, (3) la prédiction de leurs propriétés ADMET (Adsorption, Distribution, Métabolisation, Excrétion et Toxicité), CMR (Carcinogénicité, Mutagénicité et Reprotoxicité) ainsi que de leurs écotoxicités. L’ensemble des étapes clefs seront LQWpJUpHV HW FRXSOpHV SDU GLIIpUHQWV VFULSWV permettant la création d’un pipelineLQWpJUDO

15



  Générateur de Capacité Prédiction ADMET,  structures 2D/3D thermodynamique CMR et écotoxicité Molécules  candidates   Contrainte: Contrainte: Contrainte:  Formule Enthalpie de Produit  chimique formation élevée «propre»  Figure 1: Étapes clefs de la conception d'une molécule. 3LSHOLQHGHVpWDSHVclefs de la conception d’une molécule  $SDUWLUGHPLOOLRQVGHVWUXFWXUHVSURGXLWHVORUVGHODSKDVHGHJpQpUDWLRQXQHQVHPEOHGH ILOWUHV propriétés ADMET, écotoxicité) va être mis en place SRXU VDWLVIDLUH OHV FRQWUDLQWHV LVVXHVGXFDKLHUGHVFKDUJHVGHODPROpFXOH Les filtres utilisés VHURQW PLV HQ SODFH HQ IRQFWLRQ GH OHXU WHPSV GH FRQVRPPDWLRQ HQ UHVVRXUFHV QXPpULTXHV OHV ILOWUHV OHV PRLQV FRQVRPPDWHXUV VHURQWSODFpVHQSUHPLHUHW LQYHUVHPHQWOHVSOXVFRQVRPPDWHXUVVHURQWSODFpVHQGHUQLqUHSRVLWLRQ  L’intérêt de ce projet est double. D’une part, la conception de molécules hautement énergétiques est plus simple que pour une molécule biologique car le nombre de contraintes est plus élevé et les moyens de prédiction nettement plus fiables. D’autre part, alors que la synthèse chimique de molécules pharmaceutiques peut être réalisée dans des conditions standards, la synthèse de molécules énergétiques est réalisée dans des milieux adaptés, peu répandus et sous hautes contraintes techniques donc très onéreuses. Les méthodes de prédictions sont donc d’une importance capitale.

Problématique

L’homme est quotidiennement exposé à un grand nombre GH PROpFXOHV FKLPLTXHV (peintures, pesticides, cosmétiques, colorants alimentaires…) et il devient urgent d’évaluer leurs toxicités. C’est SRXUFHODTXHOHVORJLFLHOVGHSUpGLFWLRQWR[LFRORJLTXHVJDJQHQWGHSOXV HQSOXVGHWHUUDLQ,OH[LVWHXQJUDQGQRPEUHGHFHVORJLFLHOVGLVSRQLEOHVJUDWXLWVRXSD\DQWV dont l’usage est facilité grâce à l’utilisation d’interface automatisant les calculs et l’exploitation des données/résultats. Ainsi, ilsSHUPHWWHQWGHJDJQHUHQWHPSVHWHQHIILFDFLWp GDQV l’évaluation HW OH GpYHORSSHPHQW GH VXEVWDQFHV GDQJHUHXVHV DYDQW OHXUV PLVHV VXU OH PDUFKp  'DQV XQ PRQGH KDXWHPHQW FRQFXUUHQWLHO dans les domaines de l’industrie FKLPLTXH SKDUPDFHXWLTXHHWDJURDOLPHQWDLUHLOH[LVWHjODIRLVXQHSUHVVLRQSXEOLTXHFURLVVDQWHSRXU éliminer ou réduire l’expérimentation animale et favoriser les méthodes alternatives dans les tests de toxicité et une pression commerciale considérable afin d’oSWLPLVHU DX PLHX[ l’utilisation des ressources. Ainsi, l’utilisation d’outils informatiques HVWGHYHQXHHVVHQWLHOOH QRWDPPHQW SRXU   DPpOLRUHU OH SURFHVVXV GH VpOHFWLRQ GHV VXEVWDQFHV FKLPLTXHV DILQ d’éliminer rapidement du processus de développement, leVFRPSRVpVTXLQHSRVVqGHQWSDVOHV

16



SURSULpWpV VRXKDLWpHV   IDFLOLWHU HW DFFpOpUHU OH SURFHVVXV GH YpULILFDWLRQ GHV GRQQpHV HQ HIIHFWXDQWXQHPHLOOHXUHXWLOLVDWLRQGHODFRQQDLVVDQFHVFLHQWLILTXHDFFXPXOpH  KLpUDUFKLVHU OHVULVTXHVd’emploi de ces cRPSRVpVHW  SUpGLUHODWR[LFLWpGHFHVGHUQLHUVjWUDYHUVXQH FROODERUDWLRQDYHFGHVLQIRUPDWLFLHQVHWODFRPPXQDXWpVFLHQWLILTXH  /HV V\VWqPHV H[SHUWV VRQW GHV ORJLFLHOV FRQVWUXLWV VXU GHV UpVXOWDWV GH WR[LFLWpV H[SpULPHQWDOHV XWLOLVDQW OHV FRQQDLVVDQFHV KXPDLQHV GHV SKpQRPqQHV WR[LFRORJLTXHV ,OV SUpVHQWHQW GH QRPEUHX[ DYDQWDJHV WHOV TXH GH QH SDV DYRLU EHVRLQ SK\VLTXHPHQW GH OD VXEstance chimique, d’être UDSLGHV moins chers, d’intervenir j XQ QLYHDX UHODWLYHPHQW SUpFRFHGXGpYHORSSHPHQWG XQFRPSRVpFKLPLTXHd’être utilisés lorsque l’expérience réelle HVWWURSGLIILFLOHRXWURSGDQJHUHXVHd’être FDSDEOHVGHGpWHFWHUXQJUDQGQRPEUHGHVWUXFWXUHV FDQGLGDWHVUDSLGHPHQWDYHFXQHSDUWLFLSDWLRQPLQLPHGHO HVSDFHHWGHO pTXLSHPHQWHWHQILQ d’être reproductibleVTXHOVTXHVRLHQWO RSpUDWHXURXOHVFRQGLWLRQVHQYLURQQHPHQWDOHV Ils utilisent des faits et des règles connus ainsi queODFRQQDLVVDQFHSURYHQDQWGHVSpFLDOLVWHV HWl'analyse humaine des expériences afin de prédire la toxicité d’un composé et d’pYDOXHUVD SHUIRUPDQFH &HV V\VWqPHV VRQW GHV RXWLOV d’aide à la décision SHUPHWWDQW GH répondre 1 notamment à la question: cette molécule estelle toxique?   Les systèmes experts peuvent identifier les composés qui possèdent un potentiel toxique sur la base d’alertes dans leurs structures. Une structure alerte est un fragment ou un motif de fragments moléculaires associé à une propriété chimique. La détection de structures alertes joue un rôle important dans l’établissement des informations toxicologiques des molécules. En effet, une structure alerte est identifiée dans la structure d’une molécule si celleci possède un potentiel toxique. Ce sont donc des indicateurs précieux des effets toxiques des substances chimiques. Comme nous nous intéressons ici à la toxicité des molécules, nous sommes 2 intéressés par les structures alertes responsables du comportement toxique des molécules . Lorsque ces fragments moléculaires influencent ou sont directement responsables de la toxicité d’une substance chimique, ils sont appelés «pharmacophores»3,4.   Les logiciels experts, que sont DEREK (Deductive Estimation of Risk from Existing Knowledge) et ACD/Percepta (Advanced Chemistry Development), sont les plus utilisés dans le domaine. $ Le logiciel DEREK: structures alertes Le logiciel DEREK for Windows (DfW) est un système expert conçu pour la prédiction qualitative de la toxicité et pour identifier le risque potentiel d’un produit chimique à partir d'une évaluation de sa structure5,6. Il possède une interface simple et facile à utiliser ainsi qu’un haut débit.  Pour la prédiction toxicologique de la structure chimique test, DEREK utilise une base de groupements chimiques pour indiquer si la molécule a des risques d’être toxique ou non. La prédiction est réalisée en sélectionnant la structure de la substance chimique test face aux structures alertes décrites dans la base de connaissance de DEREK. DEREK possède environ

17



360 alertes couvrant une large gamme de critères toxicologiques7 (Figure 2). D’autres logiciels tels qu’OChem (Online Chemical database) possèdent également cette capacité.  

Figure 2: Molécule présentant une structure alerte. La structure chimique de la molécule présente une structure alerte au niveau de l’aldéhyde (groupement carbonyle).  Les prédictions sont faites sur la base d’une série de règles liant la structure chimique d’une molécule à sa toxicité. Un système basé sur un système à règles ne permet pas d’obtenir une réponse chiffrée de la toxicité mais une appartenance à une classe de risques. Ces règles de connaissance d’expert sont le résultat d'une collaboration productive entre scientifiques. En effet, le logiciel indique les substances qui sont les «plus favorables» à avoir des profils toxiques. Il y a sept niveaux de confiance (classés par niveau d’importance décroissant): certain, probable, plausible, équivoque, douteux, improbable et impossible (Tableau 1). Une prédiction est considérée positive si une alerte a été identifiée avec un niveau de confiance de «plausible» ou plus (présence de preuves et d’arguments forts supportant la proposition). Un score négatif signifie qu’une alerte a été identifiée avec un niveau de confiance «douteux». Une confiance «équivoque» indique que le composé questionné ne possède ni preuve ni argument en faveur ou contre cette prédiction. Ces règles sont utilisées pour décrire la relation entre la structure chimique et la caractéristique toxicologique (ZZZOKDVDOLPLWHGRUJ .   &HUWDLQ 3UHXYHTXHODSURSRVLWLRQHVWYUDLH

,O\DDXPRLQVXQDUJXPHQWIRUWGpPRQWUDQWTXHODSURSRVLWLRQHVW 3UREDEOH YUDLHHWDXFXQDUJXPHQWFRQWUHFHOOHFL

3ODXVLEOH /HSRLGVGHODSUHXYHHVWHQIDYHXUGHODSURSRVLWLRQ

(TXLYRTXH ,O\DXQSRLGVpTXLYDOHQWSRXUHWFRQWUHODSURSRVLWLRQ

'RXWHX[ Les preuves s’opposent à la proposition

,O\DDXPRLQVXQDUJXPHQWIRUWGpPRQWUDQWTXHODSURSRVLWLRQHVW ,PSUREDEOH IDXVVHHWDXFXQDUJXPHQWHQIDYHXUGHFHOOHFL

,PSRVVLEOH Il n’y a aucune preuve qui supporte ou s’oppose à la proposition

Tableau 1: Niveau de confiance du système à règle. 

18



DfW assure une absence d’anomalies statistiques. En effet, les relations utilisées sont fondées sur des observations empiriques issues d’enquêtes rigoureuses. De plus, lDFUpDWLRQ G XQHEDVHGHFRQQDLVVDQFHVLQGLVSHQVDEOHDXIRQFWLRQQHPHQWGHFHVV\VWqPHVH[SHUWVUHTXLHUW XQHUHFKHUFKHELEOLRJUDSKLTXHLQWHQVLYHHWGHVGpYHORSSHXUV H[SHUWV FDSDEOHVGHJpQpUDOLVHU GHVFRQQDLVVDQFHVjSDUWLUGHFDVVSpFLILTXHV&HODSHUPHWGHIDLUHGHVSUpGLFWLRQVPrPHVL WUqVSHXGHGRQQpHVH[SpULPHQWDOHVVRQWGLVSRQLEOHV  Cependant, l’analyse des résultats donnés par le logiciel DEREK révèle une faiblesse des règles de connaissance d’expert. 8QH EDVH GH FRQQDLVVDQFHV LPSUpFLVH VRXYHQW GXH j GHV JpQpUDOLVDWLRQV LQDGpTXDWHV GH TXHOTXHV H[HPSOHV  SHXW rWUH XQ SLqJH LPSRUWDQW SRXU FHV V\VWqPHV H[SHUWV ,O HVW GRQF QpFHVVDLUH GH PHWWUH j MRXU UpJXOLqUHPHQW OHV EDVHV GH FRQQDLVVDQFHVHWG LQWpJUHUGHVQRXYHDX[UpVXOWDWVVFLHQWLILTXHVPDLVDXVVLGHWHQLUFRPSWHGHV UHPDUTXHV GHV XWLOLVDWHXUV IHHGEDFN  'H SOXV FH ORJLFLHO est restreint à la connaissance humaine dans la mesure où il est incapable de découvrir de nouvelles relations de manière automatique. Il possède peu d’information sur le jugement des prédictions toxicologiques et sur le développement des différentes classes de risque. DEREK possède 360 structures alertes mais qu’en estil du reste ? Par ailleurs, un toxicophore ne doit pas être considéré comme infaillible: si une molécule possède un tel fragment moléculaire dans sa structure, il se peut aussi qu’elle ne soit pas toxique. Inversement, s’il n’y a pas de toxicophore identifié dans la structure de la molécule test, cela ne veut pas dire que le composé est sans danger ou non toxique. Nous en venons à nous demander s’il n’y a réellement aucune anomalie statistique dans ce logiciel et si la présence d’un faux positif ou d’un faux négatif est à écarter8. % Le logiciel ACD Percepta  Le logiciel ACD (Advanced Chemistry Development) est un système expert, extrêmement onéreux, conçu pour la prédiction quantitative de la toxicité permettant ainsi de donner une réponse chiffrée à la prédiction. Le logiciel ACD de ACD/Lab possède trois plateformes d’utilisation dont la plateforme ACD/Percepta. Cette dernière est une des meilleures plateformes de logiciels de prédiction toxicologique in silico9. Elle offre une interface simple, unique et uniforme pour la prédiction des propriétés ADMET et les propriétés physico chimiques des molécules10.  La majorité des algorithmes utilisés par ce logiciel sont qualifiés pour refléter une meilleure efficacité de prédiction et une haute pertinence pour des projets individuels. ACD/Percepta utilise une variété d’outils pour aider au processus de prise de décision dont notamment des graphiques, des structures alertes, des probabilités pour apprécier visuellement la prédiction, un indice de fiabilité pour estimer la confiance dans le résultat de la prédiction et une échelle de couleur pour souligner les contributions atomiques (rouge pour une molécule toxique, jaune pour une molécule douteuse et vert pour une molécule non toxique). /DFDSDFLWpjIL[HUGHVVHXLOVDFFHSWDEOHVRXLQDFFHSWDEOHVSRXUOHVGLIIpUHQWHVFDUDFWpULVWLTXHV et l’attribution de couleurs facilitent l’interprétation visuelle et fait de la prédiction d’une large FROOHFWLRQGHFRPSRVpVXQHWkFKHSOXVJpUDEOHHWSOXVIDFLOHjHIIHFWXHU

19



Ce logiciel permet une identification rapide des candidats prometteurs (à l’établissement de nouveaux explosifs moins toxiques par exemple) grâce à une large base de données de structures de composés. La base de données sur laquelle repose ACD/Percepta s’appuie sur des références bibliographiques et des données issues de la littérature. Cette base de données permet notamment de tester la fiabilité du logiciel en vérifiant la toxicité de la molécule test en se basant sur des structures similaires.   Cependant, ce logiciel est un logiciel commercial, développé par des communautés non académiques, qui reste rarement transparent visàvis des algorithmes qu’il utilise. Les résultats obtenus doivent donc être examinés avec un regard critique. De plus, ce logiciel est un logiciel de prédiction qui ne reflète pas obligatoirement la vérité. L’ensemble des données doivent être prises avec du recul. Par ailleurs, il utilise une base de données interne qui contient environ 16000 structures avec plus de 31000 valeurs expérimentales. Le problème qui se pose alors est si la molécule questionnée présente des fragments qui sont absents de la base de données d’ACD? Enfin, la compréhension liée au code couleur, aux probabilités fournies et aux chiffres donnés par le logiciel (indice de fiabilité) doit néanmoins être bien comprise afin de ne pas réaliser d’erreurs d’interprétation. & Critique des deux logiciels Ces logiciels ne constituent pas des outils «clefs en main»; une amélioration des systèmes à règles et des règles de prédiction sont nécessaires. En effet, leur usage est complexe et requiert de l’expertise, ce qui constitue un autre obstacle à la banalisation de ces logiciels. De plus, ces outils informatiques sont limités par la qualité et le nombre des données utilisées ainsi que par le type de molécules visées (HEMs).  Le plus gros problème avec ces logiciels de prédictions est qu’ils ne sont pas infaillibles et qu’ils peuvent mener à aucun résultat ou pire à des erreurs (contrairement à l’expérimentation).   Prenons l’exemple de deux molécules : le pentaerythritol de tétranitrate (PETN) et le 2,4,6trinitrotoluène (TNT), dont les caractéristiques toxicologiques (mutagénicité, carcinogénicité et reprotoxicité) vont être prédites par le logiciel DEREK for Windows (Tableau 2) et ACD/Percepta 7DEOHDX           

20



Molécules PETN TNT  Structures alertes: Groupement nitro Carcinogénicité / aromatique, 5qJOH 3UpGLFWLRQ3/$86,%/( Mutagénicité chez la bactérie: Mutagénicité / PLAUSIBLE, Règle 329

Reprotoxicité / / Tableau 2: Ensemble des données de prédictions fournies par le logiciel DEREK. Les caractéristiques de carcinogénicité, mutagénicité et reprotoxicité sont exposées ici pour la molécule de PETN et de TNT. Un certain nombre de structures alertes a été trouvé pour la molécule de TNT mais aucune pour la molécule de PETN, et ce pour chacune des trois caractéristiques toxicologiques. Le niveau de confiance ainsi que la règle utilisée peuvent être indiqués.  «/» signifie qu’aucun résultat n’a été trouvé.  Molécules PETN TNT  &RQWLHQWVRXVVWUXFWXUHV  Probabilité de carcinogénicité Carcinogénicité GDQJHUHXVHVFRQQXHV chez le rat POSITIVE   Pas de structure alerte détectée  Test d’Ames positif à 62%  Structure alerte: groupement nitro (indice de confiance de 26%) aromatique   Test d’Ames positif à 99% (indice de confiance de 100%) 

Mutagénicité

    /  Probabilité de reprotoxicité Reprotoxicité  NEGATIVE  Tableau 3: Ensemble des données de prédictions fournies par le logiciel ACD/Percepta. Les caractéristiques de carcinogénicité, mutagénicité et reprotoxicité sont exposées ici pour la molécule de PETN et de TNT. Le nombre de structures dangereuses, les probabilités de toxicité ainsi que les structures alertes possibles sont indiqués. Aucun résultat n’a été trouvé pour la molécule de PETN en ce qui concerne la reprotoxicité.  «/» signifie qu’il n’y a pas de résultat.  Aucune prédiction n’est obtenue pour le PETN avec le logiciel DEREK. Cependant, pour le TNT, XQ SRWHQWLHO FDUFLQRJqQH HW PXWDJqQH DSSDUDLW DYHF XQH SUpGLFWLRQ GpILQLH FRPPH SODXVLEOH OH SRLGV GH OD SUHXYH HVW HQ IDYHXU GH OD SURSRVLWLRQ  &HV SUpGLFWLRQV VRQW HQ DFFRUGDYHFFHOOHVGRQQpHVSDUOHORJLFLHO$&'3HUFHSWD8QHSUpGLFWLRQ©SODXVLEOHªUHVWH OpJqUHPHQW fiable et des tests expérimentaux pourraient être ici d’une grande utilité./H

1 Test d’Ames : test de mutagénicité sur bactérie Salmonella typhimurium. Explication p54.

21



ORJLFLHO $&'3HUFHSWD VXJJqUH XQ HIIHW PXWDJpQLTXH GX 3(71 FKH] OHV SURFDU\RWHV Salmonella typhimurium  essentiellement dû aux groupements aromatiques nitrés. 8QH réponse positive au test d’Ames, prédite à 62%, suggère convenablement un SRWHQWLHO JpQRWR[LTXH HW PXWDJpQLTXH GX 3(71 Le logiciel ACD/Percepta prédit également une toxicité reproductive négative pour le TNT. 8Q VHXO W\SH GH VWUXFWXUH DOHUWH D pWp LGHQWLILp GDQV FKDFXQH GHV GHX[ PROpFXOHV OHV JURXSHPHQWVQLWUR  Ainsi, ces systèmes experts sont d’une aide précieuse pour obtenir des résultats de prédiction précoce et sont de plus en plus performants du fait des pressions grandissantes exercées contre l’expérimentation animale. Ils montrent un fort potentiel en ce qui concerne la prédiction de nombreuses caractéristiques telles que les propriétés ADMET, physico chimiques dangereuses (explosibilité, inflammabilité), d’irritation et de sensibilité cutanée… Cependant, en comparant les données issues de la littérature concernant ces deux molécules et les résultats obtenus par le logiciel DfW et ACD/Percepta (Tableau 4), il en découle finalement que: (1) Ces logiciels de prédictions ne sont pas adaptés aux molécules HEMs. En effet, le groupement nitro détecté comme structure alerte est le centre énergétique de toutes molécules explosives. Enlever ce groupement, c’est enlever toute capacité et énergétique à la molécule. Les HEMs sont donc tous toxiques à différents degrés du fait de la présence de ce groupement nitro; (2) Ces logiciels peuvent être une perte de temps dans certains cas car ils ne confèrent pas toujours des prédictions et l’expérimentation sera alors obligatoire; (3) Ils ne sont pas toujours en accord avec les données expérimentales car pas encore assez bien calibrés; (4) Nombre d’entre eux sont mal calibrés et fournissent encore trop d’erreurs de prédiction et (5) Leur utilisation nécessite encore des efforts pour qu’ils soient reconnus et acceptés par l’ensemble de la communauté scientifique.  

  Carcinogénicité Mutagénicité Reprotoxicité

 Données expé DfW ACD DfW ACD DfW ACD

PETN  / / / + / /

TNT + 3ODXVLEOH + 3ODXVLEOH + / 

Tableau 4: Comparaison des données toxicologiques des molécules PETN et de TNT avec les données expérimentales. $&'3HUFHSWDIRXUQLWXQLTXHPHQWXQHSUpGLFWLRQHUURQpHGHODPXWDJpQLFLWpSRXUODPROpFXOHGH3(71&HORJLFLHOpFKRXH SRXU SUpGLUH XQH DXWUH FDUDFWpULVWLTXH WR[LFRORJLTXH '(5(. pFKRXH j SUpGLUH TXRL TXH FH VRLW SRXU FHWWH PROpFXOH $&'3HUFHSWDSUpGLWXQHPXWDJpQLFLWpHWXQHFDUFLQRJpQLFLWpFRUUHFWHSRXUODPROpFXOHGH717PDLVXQHSUpGLFWLRQHUURQpH SRXUODUHSURWR[LFLWp'(5(.IRXUQLWXQHSUpGLFWLRQ©3ODXVLEOH» pour la carcinogénicité et la mutagénicité mais n’est pas FDSDEOHGHSUpGLUHODUHSURWR[LFLWp ©ªVLJQLILHTXHODPROpFXOHHVWQpJDWLYHDXWHVWGRQQp©ªVLJQLILHTXHODPROpFXOHHVWSRVLWLYHDXWHVWGRQQpHW «/» signifie qu’aucune donnée n’a été répertoriée pour la molécule et le test en question.  En effet, la plupart de la communauté scientifique est encore trop méfiante concernant ces outils in silico. Ashby et Tennant11 ont suggéré que, pour divers ensembles chimiques, la prédiction de la cancérogénicité par n'importe quelle méthode humaine ou mécanique est

22

 actuellement limitée à une précision maximale de 80% en raison de connaissances et d'incertitudes insuffisantes dans l'évaluation des données expérimentales sur les essais biologiques. En effet, la confiance qu’il est possible d’accorder à ces outils pour calculer les caractéristiques toxicologiques des substances chimiques reste une question en suspens; de même que l’évaluation des prédictions obtenues. Il peut être assez délicat de prouver leurs validités dans un cadre réglementaire. Ainsi, leurs utilisations pour prédire les effets sur les organismes biologiques invitent à la prudence.  Il est donc FUXFLDOGHELHQFRQQDLWUHOHVOLPLWHVGHFHVWHFKQLTXHVHWGHQHSDVOHVDSSOLTXHU DYHXJOHPHQWjFKDTXHFDV,OHVWVXUWRXWprimordial de les améliorer et de les rendre plus sûrs DILQGHSRXYRLUOHVDSSOLTXHUjWRXVW\SHVGHPROpFXOHVHWjWRXVW\SHVGHWHVWVGHSUpGLFWLRQ toxicologique afin d’en faire un outil fiable et incontournable. 

23



                  

Chapitre I: Etat de l’art

                  

Chapitre I: Etat de l’art

Ce chapitre introduit les concepts de base utiles à la compréhension du sujet traité dans cette thèse. La première section présente les explosifs dans un contexte général: leur description (combustion, énergie, explosif primaire et secondaire), le développement des nouveaux matériaux énergétiques (avec la notion de matériaux hautement énergétiques) et la description des explosifs les plus répandus. Dans un deuxième temps, la réglementation européenne ainsi que son évolution (la réglementation REACh) seront définies et expliquées. Enfin, seront présentés les outils de chemométrie de base permettant l’analyse et la prédiction toxicologique des molécules explosives.

 /HVPROpFXOHVKDXWHPHQWpQHUJpWLTXHV +(0 

Introduction Pendant de longues années et jusqu'à la seconde moitié du XIXème siècle, la poudre noire resta le premier et le seul agent explosif utilisé, tant pour les besoins militaires que pour les emplois civils (artifices, mines et carrières ...). La composition globale de la poudre noire (un mélange déflagrant de salpêtre, de soufre et de charbon de bois) va peu évoluer au cours des siècles. Cependant, les techniques utilisées pour sa fabrication seront en évolution constante à partir du XVème siècle. Jusqu’au XVIIème siècle, en dépit de tous les soins apportés à sa fabrication, la poudre n’est jamais totalement homogène, ce qui nuit beaucoup à la reproductibilité de sa vitesse de combustion et donc aux effets du projectile (mouvements, trajectoires, propulsions…). Pour remédier à ces inconvénients, la poudre noire est alors utilisée sous forme de grains permettant d’obtenir un résultat pour ainsi dire constant d’un tir à l’autre, pour une même masse de poudre. La qualité du produit obtenu justifiait pleinement la complication et les risques ajoutés au procédé de fabrication. Les essais pour remplacer la poudre noire par des produits plus performants ont longtemps été peu concluants. Prenons l’exemple de la tentative de Claude Berthollet en 1788 de remplacer le salpêtre de la poudre noire par du chlorate de potassium qui se solda par un accident à la Poudrerie d’Essonne.  A la même époque, l'emploi militaire de la nitroglycérine et de la dynamite fut également très rapidement abandonné en raison de la trop grande sensibilité de ces produits.  Les explosifs Une substance est dite explosive lorsqu’elleHVWseule ou en mélange, capable d’effectuer une UpDFWLRQFKLPLTXHUDSLGHGpJDJHDQW HQXQWHPSV WUqV FRXUW XQ JUDQG YROXPH GH JD] SRUWp j KDXWHWHPSpUDWXUH/DGpFRPSRVLWLon d’une substance explosive peut se faire de trois manières GLIIpUHQWHVODFRPEXVWLRQODGpIODJUDWLRQHWODGpWRQDWLRQ  8QH FRPEXVWLRQ HVW XQH UpDFWLRQ FKLPLTXH H[RWKHUPLTXH LPSOLTXDQW WURLV pOpPHQWV XQ FRPEXVWLEOHXQFRPEXUDQWHWXQHVRXUFHGHFKDOHXU /H FRPEXVWLEOH UpGXFWHXU GH OD UpDFWLRQ FKLPLTXH HVW capable de se consumer ou de brûler. Nous pouvons distinguer les combustibles solides (charbon, bois), les combustibles liquides (fioul, solvants) et les gaz combustibles (propane, butane). 

25 Chapitre I: Etat de l’art

Le comburant, l’oxydant de la réaction chimique, a pour propriété de permettre la combustion du combustible. La plupart du temps, il s’agit de l’oxygène de l’air mais il peut également s’agir, dans certains systèmes propulsifs, de peroxydes (persulfates et eau oxygénée), de chlorate, de perchlorate, d’acide nitrique, de nitrates et d’oxyde d’azote. Dans le cas très particulier des explosifs associés à l'aluminium, le comburant et le combustible sont un seul et même corps. C’est le cas de la célèbre nitroglycérine qui comporte une partie oxydante greffée sur une partie réductrice.   La réaction est déclenchée par une Energie d’Activation (EA) qui est l’énergie minimum nécessaire au démarrage de la réaction chimique de combustion (Figure 3). En effet, cette réaction ne peut s’amorcer qu’en présence d’une énergie qui permet au système d’atteindre un état activé à partir duquel l’inflammation se produit. L’EA SHXWrWUHLQLWLpHSDULPSDFWRXFKRF IULFWLRQ frottement)DFWLRQGHODFKDOHXURu compressionLa quantité d’énergie produite par la combustion (réaction chimique) est exprimée en joules (J); il s'agit de l'enthalpie de réaction

(ǻHR). Il est également possible de parler de pouvoir calorifique dans certains domaines, qui définit alors l'enthalpie de réaction par unité de masse de combustible (énergie obtenue par la combustion d'un kilogramme de combustible), exprimée en kilojoule par kilogramme (kJ.kg1).   L’enthalpie est utilisée lors de l'étude des changements d'état mettant en jeu l'énergie d'un système. Dans le cas de réactions endothermiques, la variation d’enthalpie ǻH est positive (absorbent la chaleur) et inversement dans le cas de réactions exothermiques, la variation d’enthalpie ǻH est négative (libèrent la chaleur). À température et pression constantes, l’enthalpie standard de formation d’un composé chimique (οܪ௙  HVW la différence d'enthalpie mise en jeu lors de la formation d'une mole de ce composé à partir des corps simples pris dans leurs états standards. 

 Figure 3: Représentation de l'énergie d'activation d'une molécule. L’état initial correspond à l’ensemble des espèces chimiques qui vont être transformées lors de la réaction chimique. La quantité d'énergie nécessaire au déclenchement de la réaction est représentée par l’énergie d’activation. L’énergie dégagée est très élevée. L’état de transition est l’état d’énergie maximale. L’état final correspond au réassemblage des atomes des espèces chimiques pour former de nouvelles liaisons et molécules. A la fin de la réaction, l’énergie stockée dans les liaisons des produits de réaction est plus faible que celles des espèces chimiques initiales.

26 Chapitre I: Etat de l’art

En fonction de la vitesse de l’onde qu’elles engendrent, les explosions peuvent être classées en deux autres catégories: (1) La vitesse de propagation du site d’initiation jusqu’à l’extérieur du PDWpULHOH[SORVLIHVWELHQSOXVOHQWHTXHODYLWHVVHGXVRQLes gaz brûlés se déplacent dans le sens opposé à celui de la flamme; nous parlons alors de déflagration. C’est le cas de la poudre QRLUHRXGHODQLWURFHOOXORVHSDUH[HPSOH  /HQLYHDXGHVXUSUHVVLRQGHVPDWLqUHVUpVXOWDQWHV HVWDWWHLQWGHIDoRQLQVWDQWDQpHHWODUpDFWLRQVHSURSDJHjXQHYLWHVVHVXSpULHXUHjODYLWHVVHGX VRQ  PV engendrant une onde de choc; QRXV SDUORQV DORUV GH GpWRQDWLRQ Les explosifs détonants ou brisants ont une vitesse de détonation qui dépasse 6050m/s. Nous pouvons également citer dans cette rubrique: les peroxydes organiques, les chlorates et les perchlorates, les halogénures d'azote, les azotures et les fulminates. (Le plus puissant étant l'octanitrocubane capable d’atteindre une vitesse de propagation de 10100m/s). Les explosifs détonants sont généralement utilisés dans le domaine militaire ou dans le bâtiment. Pour la pyrotechnie, on préférera les explosifs déflagrants, car les brisants sont trop complexes à manipuler.   ,OHVWQpFHVVDLUHGHGLVWLQJXHUOHVH[SORVLIVSULPDLUHVGHVH[SORVLIVVHFRQGDLUHVHQIRQFWLRQGH OHXU comportement à l’amorçage. Les explosifs primaires sont très sensibles à toute action H[WpULHXUHHWQHSRVVqGHQWqu’un régime de décomposition type déflagration. ,OVVRQWVLVHQVLEOHV qu’ils peuvent réagir avec la seule électricité statique générée par le corps humain.1RXVSRXYRQV retrouver parmi eux le fulminate de mercure, l’azoture de plomb et leVW\SKQDWHGHSORPE/HV H[SORVLIV VHFRQGDLUHV VRQW TXDQW j HX[ GLIILFLOHV j LQLWLHU HW SURGXLVHQW XQH RQGH GH FKRF permettant à l’explosif de détoner. Ainsi, l’explosif primaire, par son explosion, va provoquer XQHRQGHGHFKRFLQLWLDOLVDQWXQH[SORVLIVHFRQGDLUH Les HEMs Dans le domaine des munitions et des explosifs, un effort a été largement réalisé afin de développer des nouveaux matériaux énergétiques appelés matériaux hautement énergétiques (ou High Energetic Materials en anglais) afin de remplacer la poudre noire par des nouveaux matériaux dont les performances sont améliorées et la sensibilité réduite pour être sans danger pour l’homme et la planète12 (Figure 4).



 Figure 4: Découverte des matériaux énergétiques. Histoire de l’évolution des HEMS à travers le temps.

27 Chapitre I: Etat de l’art

Les matériaux énergétiques disposent de nombreuses applications militaires et industrielles13 et doivent posséder les propriétés suivantes: une haute stabilité thermique, une faible masse moléculaire des gaz produits lors de la combustion, une capacité à détoner (soit par allumage, soit à l’aide d’un détonateur), une insensibilité aux chocs et à la friction ainsi qu’aux stimuli 14 mécaniques . Les HEMs englobent notamment les explosifs, les poudres propulsives (propergols) ainsi que les dispositifs pyrotechniques (artifices ou signalisation lumineuse) (Figure 5). &HV WURLV EUDQFKHV GHV +(0V H[SORVLIV SURSHUJROV HW GLVSRVLWLIV S\URWHFKQLTXHV  RQW pWp GpYHORSSpHV indépendamment jusqu’DX GpEXW GHV DQQpHV  HW GXUDQW FHWWH SpULRGH OHXU QRPEUH D DXJPHQWp H[SRQHQWLHOOHPHQW L’utilisation du terme HEM a permis de dissimuler pendant longtemps les recherches sur ces matériaux énergétiques.   Le terme de matériaux énergétiques (ou Energetic Materials en anglais) est généralement utilisé pour décrire tout matériau pouvant atteindre un haut état énergétique par différentes réactions chimiques et susceptible de libérer de l’énergie chimique très rapidement. Le contenu élevé en carbone des matériaux énergétiques traditionnels des siècles précédents conduit, durant la décomposition, à la formation de dioxyde de carbone (CO2), de monoxyde de carbone (CO) et de particules de carbone imbrulées (suie). Les suies comportent différents composés toxiques qui ne sont pas rencontrés dans le cas des matériaux hautement énergétiques car ils contiennent un haut pourcentage d’azote dans leur formule chimique ޤ gaz le plus abondant dans l’atmosphère ޤ ce qui leur confère une stabilité attrayante. 



 Figure 5: Les matériaux énergétiques et leurs applications. Cette figure représente les trois branches des HEMS et leurs domaines d’application 

28 Chapitre I: Etat de l’art

La découverte de matériaux énergétiques tels que l’acide picrique, le TNT (trinitrotoluène), le 5'; cyclotriméthylène trinitramineRXKH[RJqQHRXF\FORQLWH OH+0; cyclotétraméthylène tétranitramine ou octogène), OH 3(71 SHQWDHU\WKULWRO GH WHWUDQLWUDWH  SOXV SXLVVDQWV PDLV UHODWLYHPHQW LQVHQVLEOHV DX[ GLIIpUHQWV VWLPXOL FKRFV IULFWLRQ FKDOHXU LPSDFW  SHUPHW d’améliorer la manipulation, le stockage et le transport des explosifs. De plusOHXUXWLOLVDWLRQD pWprecommandée dans l’utilisation de bombes,d’obus et d’ogives lors de la PUHPLqUHHW6HFRQGH *XHUUHPRQGLDOH Les substances les plus répandues 3DUPLOHVQRPEUHX[H[SORVLIVTXLH[LVWHQWOHVVXEVWDQFHVTXLYRQWrWUHGpFULWHVSDUODVXLWH SUpVHQWHQW XQ LQWpUrW LQGXVWULHO HW PLOLWDLUH /HV VXEVWDQFHV H[SORVLYHV OHV SOXV FRQQXHV VRQW QRWDPPHQWODQLWURFHOOXORVH 1& OH717OHWpWU\OOH3(71OH5';RXHQFRUHOH+0; /DQLWURFHOOXORVH x Propriétés physiques La nitrocellulose ou trinitrate de cellulose, de numéro CAS (Chemical Abstracts Service)

9004700 et de formule brute C6H8N2O9, a été découverte par ThéophileJules Pelouze en 1838. La nitrocellulose est un ester de cellulose, non volatile, de couleur blanche, constitué de chaines glycosidiques liées en ȕ14. C’est un polymère artificiel obtenu par modification chimique d’un polymère d’origine végétale: la cellulose. Cette dernière est traitée par un mélange d’acide nitrique et d’acide sulfurique pour donner la nitrocellulose15.  Le milieu nitrant est obtenu en mélangeant de l’acide sulfurique et de l’acide nitrique. La teneur en acide sulfurique fait croitre le pouvoir de nitration et le mélange obtenu est un mélange de mono, di et trinitrate de cellulose (Figure 6). Le mononitrate est très inflammable et le di et trinitrate sont extrêmement dangereux et explosifs. La nitrocellulose est très instable du fait de la présence de la moindre trace d’acide nitrique restée emprisonnée dans les fibres de polymère. Elle est donc rarement utilisée telle quelle en raison des risques d'incendie et d'explosion qu'elle présente. Afin d’être considérée sans danger, la nitrocellulose doit être stockée dans l’eau ou dissoute dans différents solvants et dans des conditions d’humidité importante (>25%). 

 Figure 6: Réaction pour l’obtention de la nitrocellulose. La cellulose, mélangée avec de l’acide sulfurique et de l’acide nitrique, permet d’obtenir la nitrocellulose. Ces trois + composés sont dangereux et explosifs. Les ions nitronium (NO2 ) de l’acide nitrique vont réagir avec les fonctions alcool de la cellulose (en rouge) afin d’obtenir un mélange de mono, di et trinitrate de cellulose. En fonction de la teneur en acide sulfurique, la nitration augmente déplaçant ainsi l’équilibre de la réaction. 

29 Chapitre I: Etat de l’art

La NC fut utilisée dans les munitions sous forme de fulmicoton ou coton poudre mais l’invention de la dynamite, possédant un effet brisant et une puissance plus importante, l’a rendue obsolète. C’est actuellement l’ingrédient principal des propergols double base.

x Propriétés toxicologiques La nitrocellulose est résistante à la dégradation biologique et est un composé persistant dans l’environnement. Elle cause des irritations de la peau et des yeux et peut être irritante pour les membranes des muqueuses ou l’appareil respiratoire16. Dans le cas d’une intoxication faible à modérée, la nitrocellulose peut provoquer une certaine euphorie, une ataxie, une désinhibition, un comportement agressif, des nausées et des vomissements. Dans le cas d’une intoxication forte, la nitrocellulose peut provoquer un coma, une dépression respiratoire, une hypoglycémie, une hypertension, une hypothermie et dans les cas sévères des délires17. La NC ne cause aucune mutation chez Salmonella typhimurium et est donc négative au test d’Ames18. De plus, elle est également négative au test d’aberrations chromosomiques dans les fibroblastes de rats. En effet, aucun changement n’a été remarqué concernant le nombre de tétraploïdes, de translocations, d’inversions ou de cassures de l’ADN (Acide DésoxyriboNucléique) présents chez le rat19.  /H717 x Propriétés physiques /H717RXWULQLWURWROXqQHRXWROLWHde numéro CAS 118

967 et de formule bruteC6H2(NO2)3CH3 (Figure 7), a été découvert en 1863 par Julius Wilbrand. Initialement utilisé comme colorant jaune, il n’a été utilisé comme explosif qu’en 1891 par Carl Häussermann. Il est peu sensible aux chocs et moins puissant que d’autres explosifs mais largement utilisé lors de la Première et la Seconde Guerre mondiale du fait de son pouvoir destructeur important. Sa vitesse de détonation est de 6900 m.s1 et il peut être Figure 7: Molécule de TNT. mixé avec d’autres explosifs: Amatex (nitrate d’ammonium et RDX) ou Cyclotol (RDX).  C’est un solide cristallin incolore obtenu par nitration du toluène. La synthèse du TNT est relativement ardue car la température nécessaire à son obtention est proche de la température d’explosion du composé intermédiaire immédiatement formé: le dinitrotoluène.  Le TNT est souvent utilisé comme unité pour désigner la puissance des bombes. Par exemple, la bombe nucléaire larguée sur Hiroshima en 1945 possède une puissance de 15000 tonnes de TNT ou 69 térajoules (1 kilotonne TNT = 4,6 TJ). De même, la «mère des bombes» possède une puissance de 57 millions de tonnes de TNT soit 230 TJ.  

30 Chapitre I: Etat de l’art

x Propriétés toxicologiques Le TNT est irritant pour les yeux, la peau et les voies respiratoires. Lors d’une inhalation de TNT, des maux de tête peuvent apparaître ainsi que des vomissements, des crampes abdominales, une perte de conscience, une respiration difficile et un bleuissement des ongles et des lèvres. Une absorption par la peau peut causer des rougeurs, des douleurs, des dermatites, une anémie et une coloration jaunâtre. Une ingestion de TNT peut provoquer des maladies du foie, des hypertrophies de la rate, des effets néfastes sur les organes ainsi que des dégâts 20 importants sur le système immunitaire. Une exposition prolongée peut provoquer la mort .   Le TNT est mutagène chez les souches TA100 et TA98 de Salmonella typhimurium et est donc positif au test d’Ames avec ou sans activation métabolique (S9)21,22   La puissance mutagène diminue proportionnellement au nombre de groupements nitro réduits en groupements amino. La présence d’un groupement nitro en position 4 est nécessaire au caractère mutagénique. Le TNT est carcinogène23. En effet, d’après une étude chronique sur des rats mâles et femelles de type Fischer 344, il y a une augmentation significative de la présence de leucémies et de lymphomes malins chez les espèces étudiées. Le TNT est également reprotoxique. En effet, il provoque une baisse de la fertilité masculine.  Le TNT est positif au test de lymphome de souris et négatif au test de synthèse d’ADN non 24 programmé sur des rats femelles ou mâles . /H7pWU\O x Propriétés physiques Le tétryl ou 2,4,6Trinitrophénylméthylnitramine, de numéro

CAS 479458 et de formule brute C7H5N5O8, a été découvert en 1883 par Mertens et von Romburgh (Figure 8). Il a été initialement fabriqué pour ses performances. Par la suite, il sera pressé en pastille avec d’autres éléments (graphite, acide stéarique) pour être utilisé dans les munitions. Il a été largement utilisé lors de la Première et Seconde Guerre mondiale. Depuis, ces dix dernières années, il a été remplacé par le RDX.  Figure 8: Molécule de Tétryl.  Le tétryl est un solide cristallin jaune possédant une vitesse de détonation de 7570 m.s1. C’est un explosif sensible aux chocs et aux frottements mais reste stable jusqu’à des températures élevées, ce qui facilite grandement son stockage.

x Propriétés toxicologiques Un grand nombre de produits intermédiaires de dégradation du Tétryl (1,3,5trinitrobenzene ou aniline) ne perdure pas dans la nature. En effet, bien que cette molécule soit toxique et une des plus dangereuses, ces métabolites sont dégradables. 

31 Chapitre I: Etat de l’art

Le Tetryl est toxique par ingestion et par absorption à travers la peau. C’est un composé irritant pour la peau et pour les yeux. Suite à un contact répété, il peut provoquer une irritation importante des voies respiratoires. Les caractéristiques les plus retrouvées chez les patients exposés au tétryl sont des dermatites de contact ainsi qu’une sensibilité dermique accrue (érythèmes, œdèmes, décoloration).  Les symptômes suivants peuvent prédominer: fatigue, maux de tête et maux de ventre, nausées, vomissements, irritation des muqueuses du tube respiratoire, anorexie, malaises, insomnies, perte de cheveux voire une jaunisse.   Le tétryl est un agent mutagène. En effet, le tétryl est positif au test d’Ames pour les souches TA1535, TA1538, TA1537, TA100 et TA98 avec ou sans activation métabolique par le S9 mix. Il provoque des recombinaisons mitotiques et des inversions de gènes. Le tétryl se comporte comme le TNT mais est bien plus mutagène25–27.  /H3(71 x Propriétés physiques Le PETN, de numéro CAS 78115 et de formule brute

C5H8N4O12, a été découvert en 1849 par John Stenhouse (Figure 9). C’est un solide cristallin de couleur blanche largement utilisé depuis la Seconde Guerre mondiale. C’est un explosif sensible aux chocs, à la friction, aux frottements et aux hautes températures. Il est utilisé dans de nombreux domaines: (1) l’exploitation minière, le forage ou la démolition en tant que cordon détonant. En effet, le PETN est alors utilisé afin de faire exploser de manière simultanée Figure 9: Molécule de PETN. plusieurs charges explosives, (2) dans le domaine militaire en tant que cartouche de petits calibres, et (3) dans le domaine médical en tant que vasodilatateur. En effet, le médicament Lentonitrat®, utilisé dans le traitement de maladies cardiovasculaires, se compose de PETN pur. Il participe à la composition du Semtex et sa vitesse de détonation et de 8400 m/s.

x Propriétés toxicologiques Une exposition au PETN peut provoquer de l’hypertension, une augmentation du rythme cardiaque, une tachycardie, des convulsions et des maux de tête. De rares réponses sévères telles que des nausées, des vomissements, des tremblements et un effondrement peuvent avoir lieu. Le PETN présente une sensibilité cutanée et peut provoquer des dermatites lorsqu’il est ingéré.  Le PETN est une molécule non mutagène. En effet, il est négatif au test d’Ames chez Salmonella typhimurium ainsi qu’au test d’aberration chromosomique in vitro chez des cellules d’hamster chinois26,28,29.    

32 Chapitre I: Etat de l’art

/H5'; x Propriétés physiques Le RDX (Research Department eXplosive ou Royal Demolition eXplosive an anglais), de numéro CAS 121824 et de formule brute C3H6N6 O6 (Figure 10), est un solide cristallin de couleur blanche. Il a été découvert pour la première fois en 1899 et a été considérablement utilisé comme explosif à haut impact dans les formulations de munitions militaires lors de la Seconde Guerre mondiale.  Le RDX est stable, relativement insensible aux chocs et frictions et possède une puissance explosive supérieure de 30% au TNT. Sa vitesse de détonation est de 8700m/s. Le RDX est rarement utilisé seul. En effet, il peut être combiné avec le PETN pour former le Semtex. Il peut également être mixé avec un polymère pour former le C4 (composition C) ou avec le TNT pour former la composition B. Il possède des applications à la fois civiles et militaires. Pour les Figure 10: Molécule de RDX. applications civiles, il peut être utilisé dans les feux d’artifices ou comme rodenticide. En ce qui concerne les applications militaires, il peut être utilisé comme charge de détonateurs par exemple30.

x Propriétés toxicologiques Le RDX produit une altération de la reproduction et du développement chez les rats. En effet, il a été observé une réduction de l’accouplement et de la fertilité ainsi qu’une diminution de la taille de la portée et du nombre de bébés donnés. Une toxicité parentale a été montrée notamment par une diminution du poids et de la consommation de nourriture des femelles rats et une mortalité accrue de la portée obtenue31. Un effet tératogène a également été observé. (http://www.globalsecurity.org). Une exposition répétée au RDX par absorption de la peau, par inhalation ou absorption peut causer de graves problèmes du SNC chez l’homme32. En effet, des convulsions, comas ou confusions peuvent apparaître suivis d’insomnies, d’irritabilité, voire d’amnésie ou de désorientation. Des symptômes peuvent prévenir ces problèmes tels que des maux de tête, des nausées, des étourdissements et des vomissements33. Le RDX est corrosif pour les yeux, la peau et le tube respiratoire et dans ces caslà, le RDX provoque des ulcérations, des dommages rénaux et des dermatites.  Le RDX peut produire des adénomes et carcinomes hépatocellulaires chez la souris femelle (IRIS 1995). C’est donc une substance carcinogène. Le RDX est également négatif au test de micronoyau, au test de lymphome de souris, au test létal dominant et au test de synthèse d’ADN non programmé34. +0; x Propriétés physiques Le HMX (High Melting point eXplosive en anglais), de numéro CAS 2690410 et de formule brute C4H8N8O8, est un solide cristallin incolore constitué d’un hétérocycle poly nitrés

33 Chapitre I: Etat de l’art

(Figure 11). Il possède quatre formes cristallines (Į, ȕ, Ȗ, į) mais la forme ȕ est la plus stable thermodynamiquement et donc la plus utilisée dans le milieu de l’industrie. Le HMX fut découvert accidentellement en 1940 lors de la synthèse d’un autre explosif: le RDX. Il est fabriqué à partir de produits chimiques tels que l’hexamine, le nitrate d’ammonium, l’acide nitrique et l’acide acétique. Le HMX explose violemment à haute température et possède 130% de la puissance explosive du TNT. Il est ainsi utilisé Figure 11: Molécule de HMX. dans divers types d’explosifs (missiles, bombes) et de combustibles de fusées. Sa vitesse de détonation est de 9100m/s. 

x Propriétés toxicologiques Le HMX produit une irritation modérée de la peau chez l’homme et chez les rongeurs. Chez les rongeurs (rats, souris, lapins), une toxicité du SNC (Système Nerveux Central) peut être observée à hautes doses lors d’une exposition par le HMX par voie orale, dermique ou parentérale. Des convulsions, une ataxie, une sédation, une hyperkinésie, des convulsions, une mydriase et des frissons peuvent alors apparaître35.   Le HMX est négatif aux tests in vitro du lymphome de souris et de micronoyau et au test in vivo létal dominant. Pour le moment, les informations nécessaires à la classification du HMX comme carcinogène ne sont pas suffisantes36.  Dans cette thèse, d’autres molécules que les six couramment citées précédemment seront également décrites. Par souci de clarté et de compréhension, les résultats suivants seront présentés sous forme de tableau en ANNEXE (page 211).

(QUHJLVWUHPHQW (YDOXDWLRQ $XWRULVDWLRQ HW 5HVWULFWLRQ GHV VXEVWDQFHV FKLPLTXHV 5($&K 

'HSXLVOHXUQDLVVDQFHOHVPDWpULDX[pQHUJpWLTXHVRQWSUpVHQWpXQGDQJHUSRWHQWLHOSRXUFHX[ qui avaient la charge de les élaborer et de les utiliser en raison de l’énergie stockée dans les PROpFXOHVDFWLYHV/DSUpRFFXSDWLRQGHVpFXULWpHVWGRQFGHYHQXHXQHH[LJHQFHpYLGHQWH(OOHVH GpFOLQHHQSOXVLHXUVFRPSRVDQWHV  ODFRQQDLVVDQFHGHVULVTXHVHQFRXUXVpar l’utilisation des H[SORVLIV 2) la protection de l’homme et de l’environnement par l’application de tests de VpFXULWp QRUPDOLVpV HW   l’encadrement de la sécurité du travail qui fixe les règles de 37 FODVVHPHQWGHVPDWpULDX[pQHUJpWLTXHVHWOHXUVles conditions d’exploitation  Les risques Cancérigène, Mutagène et Reprotoxique (CMR) 'pILQLWLRQHWPLVHHQFRQWH[WH /HV&05 &DQFpULJqQH0XWDJqQHHW5HSURWR[LTXH définissent, au sens de l’article R. GX &RGH GX WUDYDLO XQH FDWpJRULH GH VXEVWDQFHV VHXOHV RX HQ PpODQJHV SDUWLFXOLqUHPHQW GDQJHUHXVHVmême à de très faibles niveaux d’expositionSRXYDQWSUpVHQWHUGLYHUVHIIHWVSRXUOD VDQWpde l’hommHet l’environnement&HVVXEVWDQFHVSHXYHQWGRQFrWUH

34 Chapitre I: Etat de l’art

x &DQFpULJqQHVYR\DQWDSSDUDvWUHXQHDXJPHQWation de la fréquence d’apparition de cellules DQRUPDOHVjFURLVVDQFHLQFRQWU{OpH FDQFHUV 3RXUODJUDQGHPDMRULWpVRQWFODVVpVFRPPH FDQFpURJqQHV: les produits chimiques (amiante, poussières de bois, benzène…), les  UD\RQQHPHQWVLRQLVDQWVHWOHVDJHQWVELRORJLTXHV 

x Mutagènes ou génotoxiques provoquant la production ou l’augmentDWLRQGHODIUpTXHQFH d’apparition de défauts génétiques héréditaires (altération de la structure de l’ADN, FKDQJHPHQWGDQVOHQRPEUHRXODTXDOLWpGHVJqQHV 

x 5HSURWR[LTXHVRXWR[LTXHVSRXUODUHSURGXFWLRQSRXYDQWHQWUDvQHUXQHDXJPHQWDWLRQVRLW GHV HIIHWV VXU OHV FDSDFLWpV RX IRQFWLRQV UHSURGXFWLYHV SRVVLELOLWpV GH VWpULOLWp  VRLW GHV HIIHWVVXUOHGpYHORSSHPHQWdu fœtus ou de l’enfant (avortement, retard de développement, K\SRWURSKLH SUpPDWXULWp PDOIRUPDWLRQV  &HV HIIHWV SHXYHQW rWUH GpFRXYHUWV GDQV OD  GHVFHQGDQFHORUVGHODJURVVHVVHjODQDLVVDQFHYRLUHGHVDQQpHVSOXVWDUG  3UpYHQWLRQ /HV &05 VRQW SUpVHQWV GDQV WRXWHV VRUWHV GH SURGXLWV GLOXDQWV GpJUDLVVDQWV FRORUDQWV  HW peuvent pénétrer dans l’organisme par les voies respiratoires, la bouche ou la peauSHUWXUEHUVRQ IRQFWLRQQHPHQW HW SURYRTXHU GHV LQWR[LFDWLRQV DLJXsV FRXUWH GXUpH  RX FKURQLTXHV FRQWDFW UpSpWp   7RXVOHVGDQJHUVOLpVDX[SURGXLWVFKLPLTXHVSHXYHQWrWUHSULVHQFRPSWHGDQVXQHGpPDUFKH GH SUpYHQWLRQ KWWSZZZLQUVIU  /D SUpYHQWLRQ GX ULVTXH FKLPLTXH UpSRQG DX[ PrPHV exigences que toute démarche de prévention et s’appuie sur des règles de prévention figurant GDQV OHV DUWLFOHV OpJLVODWLIV /  DUWLFOHV / j /  HW UpJOHPHQWDLUHV 5  DUWLFOHV 5j5 GX&RGHGXWUDYDLOL’ensemble des articles du Code du travail sont GLVSRQLEOHVVXUZZZOHJLIUDQFHJRXYIU  Les règles de prévention prennent en compte la nature des agents chimiques (nocifs, toxiques, irritants), leur dangerosité ainsi que les situations de travail dans lesquelles se trouvent les utilisateurs (description, activités, gestes effectués, comportements, outils utilisés). Il est alors important de déterminer quelles règles appliquer et d’identifier l’agent chimique concerné. Ces règles se répartissent en plusieurs sections:

x les règles générales de prévention des risques (L.41116, L.41211 à L.41215) dus aux agents chimiques dangereux (R. 44121 à R. 441257)38;

x les règles particulières aux agents chimiques dangereux définis réglementairement comme CMR (R. 44116, R. 441259 à R. 441293)38;

x les valeurs limites d’exposition professionnelle (VLEP) et des valeurs limites biologiques (VLB) pour certains agents chimiques (R. 4412149 à R. 4412152)38.  Les mesures de prévention mises en place tiennent compte de la gravité du risque mais surtout d’une évaluation des risques de manière exhaustive et rigoureuse. 

35 Chapitre I: Etat de l’art

L’évaluation des risques constitue la démarche préalable à toute prévention des risques chimiques (L. 41213, R. 441212, R. 441228, R. 441229, R. 441232, R.441263)38. Cette évaluation des risques, renouvelée régulièrement (une fois par an minimum) (R. 44125, R.4412 62)38, tient compte des propriétés dangereuses des agents chimiques présents sur les lieux de travail, de la nature, du degré et de la durée de l'exposition, des conditions dans lesquelles se déroulent les activités… (R. 44126, R. 441261 à 441265)38.   &HWWHpYDOXDWLRQGHVULVTXHVSRUWHVXUWRXWHVles activités de l’entreprise pouvant exposer à des DJHQWV FKLPLTXHV HW JpQpUHU XQ ULVTXH 5  j 5   &HWWH pYDOXDWLRQ HVW REOLJDWRLUH DYDQW WRXWH QRXYHOOH DFWLYLWp LPSOLTXDQW XQ DJHQW &05 HW HVW FRQVLJQpH GDQV XQ GRFXPHQWXQLTXHSHUPHWWDQWGHPHWWUHHQSODFHGHVDFWLRQVGHSUpYHQWLRQDGDSWpHV 5 5  Plusieurs outils et sources d’information sont disponibles afin de mener à bien l’évaluation GHV ULVTXHV HW d’DLGHU j VRQ pWDEOLVVHPHQW FHUWDLQV pOpPHQWV SULPRUGLDX[ WHOV OD classification et l’étiquetage de ces produits, lHVVHXLOVGHFODVVLILFDWLRQHWODKLpUDUFKLVDWLRQGHV PHVXUHVGHSUpYHQWLRQVRQWjSUHQGUHHQFRPSWH (YDOXDWLRQGHVULVTXHV 45 L’évaluation des ULVTXHVVHGpURXOHHQTXDWUHpWDSHV   /DSUHPLqUHpWDSHHVWO’identification systématique de tous les dangers causés par les CMR présents sur le lieu de travail. C’est l’élément essentiel de la démarche de prévention. Il s’agit d’inventorier tous les produits chimiques rencontrés dans l’entreprise (matières premières, sous produits, produits finis, produits de nettoyage, déchets…) afin de disposer d’un inventaiUHSUpFLV GHVSURGXLWVXWLOLVpV&HWLQYHQWDLUHGRLWrWUHFRQVHUYpDILQGHSRXYRLUDVVXUHUODWUDoDELOLWpGHV produits qui ont pu être utilisés dans l’entreprise.  /D GHX[LqPH pWDSH HVW O’analyse des informations sur les dangers qui ont été repérés afin d’évaluer les conditions d’exposition LQKDODWLRQLQJHVWLRQFRQWDFWFXWDQp   /DWURLVLqPHpWDSHHVWODhiérarchisation des risques par priorité d’action,OH[LVWHGLIIpUHQWV RXWLOVSRXUDLGHUjXQHKLpUDUFKLVDWLRQGHVPHVXUHVGHSURWHFWLRQ et GHSUpYHQWLRQGHVGDQJHUVOLpV jFHVVXEVWDQFHVHWGHUpGXLUHOHULVTXHFKLPLTXHDXQLYHDXOHSOXVEDVSRVVLEOH&HVRXWLOVVRQW XQH JULOOH ([FHO SHUPHWWDQW GH TXDQWLILHU OH ULVTXH H[SRVLWLRQV SURIHVVLRQQHOOHV LQFHQGLH H[SORVLRQLPSDFWVHQYLURQQHPHQWDX[ GHOHGpILQLUHWGHVXLYUHOHVPHVXUHVGHSUpYHQWLRQRX GHV ORJLFLHOV GHSUpYHQWLRQGX ULVTXHFKLPLTXH /DUD %73 &HVRXWLOV GRLYHQWrWUH FKRLVLV HQ IRQFWLRQGHSOXVLHXUVFULWqUHV: la taille de l’entreprise, les compétences de la personne qui sera en charge de l’évaluation et les moyens disponibles dans l’entreprise (coûWVWHPSVSHUVRQQHV   /DTXDWULqPHpWDSHHVWO’élaboration d’un plan d’action contre les risques chimiques. En effet, XQSODQG DFWLRQDGDSWpDX[VSpFLILFLWpVGHO HQWUHSULVHGRLWrWUHpODERUp,OIL[HOHVREMHFWLIVj DWWHLQGUHOHVpFKpDQFHVOHVPHVXUHVHWOHVPR\HQVGHSUpYHQWLRQPLVen place par l’entreprise RUJDQLVDWLRQQHOV KXPDLQV WHFKQLTXHV HW ILQDQFLHUV  3OXVLHXUV DFWLRQV VRQW SRVVLEOHV DILQ GH

36 Chapitre I: Etat de l’art maitriser le risque. Il peut s’agir de la suppression ou de la substitution des produits46&05DLQVL que de la mise en place de mesures techniques (système en vase clos, assainissement de l’air, mécanisation…) ou organisationnelles (règles d’hygiène, port d’équipement…). Chaque action mise en place est fonction de l’importance du risque, de l’eIILFDFLWpGHVPHVXUHVH[LVWDQWHVGHV PHVXUHV alternatives, de leur rapidité de mise en œuvre et des PR\HQV PRELOLVDEOHV SDU l’entreprise. &HVDFWLRQVFRQWULEXHQWjla diminution des risques pour les travailleurs, la réduction des coûts liés à la prévention des risques et à l’image d’une entreprise novatrice utilisant des technologies modernes.   3OXVLHXUVDXWUHVRXWLOVVRQWGLVSRQLEOHVHWXWLOLVpVGDQVOHFDGUHGHODSUpYHQWLRQGHVULVTXHV FKLPLTXHV,O\DQRWDPPHQW

x Les Fiches d’Aide à la Substitution (FAS) des principaux agents cancérogènes utilisés dans certaines activités. Ces fiches proposent des produits de substitution pour une trentaine de substances cancérogènes émises ou utilisées dans certaines activités. Elles ont été mises à disposition par l’Institut National de Recherche et de Sécurité (INRS) et la Caisse Nationale d’Assurance Maladie des Travailleurs Salariés (CNAMTS). Elles sont rédigées avec l’aide des ingénieurs conseil, des contrôleurs et des conseillers médicaux des Caisses Régionales d’Assurance Maladie (CRAM).

x Les Fiches de Données de Sécurité (FDS) sont élaborées et transmises par le fournisseur à l’employeur qui en donne luimême accès aux travailleurs. Ces fiches indiquent la composition des produits et donnent les informations nécessaires à la prévention des risques et à la sécurité des utilisateurs. Les FDS doivent être disponibles en français et tenues à jour.

x Les fiches toxicologiques de l’INRS qui regroupent l’ensemble des informations toxicologiques, réglementaires et recommandations d’utilisation sur plus de 200 substances chimiques. Ces fiches complètent utilement les fiches de données de sécurité fournies par les fabricants. &ODVVLILFDWLRQKDUPRQLVpH /H UqJOHPHQW &/3 &ODVVLILFDWLRQ (WLTXHWDJH HW (PEDOODJH GHV VXEVWDQFHV /DGLUHFWLYHFDGUH&((GX&RQVHLOGHVFRPPXQDXWpVHXURSpHQQHVGXMXLQ HVW OH WH[WH GH UpIpUHQFH HXURSpHQ HQ FH TXL FRQFHUQH OD PLVH HQ SODFH GH PHVXUHV YLVDQW j encourager l’amélioration de la SURWHFWLRQGHODVpFXULWpHWGHODVDQWpGHVWUDYDLOOHXUVDXWUDYDLO 6XUODEDVHGHFHWWHGLUHFWLYHXQHYLQJWDLQHGHGLUHFWLYHVSDUWLFXOLqUHVRQWpWpDGRSWpHVGRQWOHV GHX[SULQFLSDOHVVRQW

x /D GLUHFWLYH &( GX &RQVHLO GX  DYULO  FRPPXQpPHQW DSSHOpH OD GLUHFWLYH $JHQWVFKLPLTXHVFRXYUDQWODSURWHFWLRQGHODVDQWpHWGHODVpFXULWpGHVWUDYDLOOHXUVFRQWUH OHV ULVTXHV OLpV j GHV DJHQWV FKLPLTXHV VXU OH OLHX GH WUDYDLO HW FH TXHOV TXH VRLHQW OHV YROXPHVXWLOLVpV

37 Chapitre I: Etat de l’art

x /D GLUHFWLYH &( GX 3DUOHPHQW HXURSpHQ HW GX &RQVHLO GX  DYULO  FRPPXQpPHQW DSSHOpH GLUHFWLYH &DQFpULJqQHV0XWDJqQHV FRQFHUQH OD SURWHFWLRQ GHV travailleurs contre les risques liés à l’exposition à des agents cancérigènes ou mutagènes au travail. Elle prévoit notamment une hiérarchisation d’obligations pour les employeurs dont ODVXEVWLWXWLRQGHV DJHQWV FDQFpURJqQHV HW PXWDJqQHV /HV GLVSRVLWLRQV GHFHWWHGLUHFWLYH RQWpWpUHWUDQVFULWHVGDQVOHGURLWIUDQoDLVYLDOHGpFUHWQƒGXHUIpYULHUGLW OH©GpFUHW&05ª&HGpFUHWa permis d’étendre HQ)UDQFHOHVGLVSRVLWLRQVSULVHVHQFDVGH risques liés à l’exposition à des agents cancérigènes PXWDJqQHV HW WR[LTXHV SRXU OD UHSURGXFWLRQSHUPHWWDQWDLQVLXQHPHLOOHXUHSURWHFWLRQGHVWUDYDLOOHXUV  /DGLUHFWLYH8(PRGLILHFHVGHX[GLUHFWLYHVUHODWLYHVjODVDQWpHWjODVpFXULWpDX WUDYDLODILQGHOHVDOLJQHUVXUOHUqJOHPHQWGHOD&RPPLVVLRQ(XURSpHQQH &( Qƒ relatif à la classification, à l’étiquetage et à l’emballage GHV VXEVWDQFHV HW GHV PpODQJHV GLW UqJOHPHQW&/3 RX&ODVVLILFDWLRQ/DEHOOLQJ3DFNDJLQJRIVXEVWDQFHVDQGPL[WXUHVHQDQJODLV   C’est à partir de cette classification HXURSpHQQH harmonisée qu’est défini l’étiquetage GHV SURGXLWV FKLPLTXHV HW que doit être mise en œuvre la réglementation pour OD SUpYHQWLRQ GHV risques. La réglementation en matière de classification, d’étiquetage et d’emballage des substances et préparations dangereuses était respectivement encadrée jusqu’en 2009 par les GLUHFWLYHV'6' 'DQJHURXV6XEVWDQFHV'LUHFWLYHDQDQJODLV HWOHVGLUHFWLYHV'3' 'DQJHURXV 3UHSDUDWLRQ'LUHFWLYHHQDQJODLV &((GX&RQVHLOGXMXLQHW&(GX 3DUOHPHQW HXURSpHQ GX &RQVHLO GX  PDL  &HV GLUHFWLYHV RQW pWp DEURJpHV SDU OH UqJOHPHQW&/3TXLHVWHQWUpHQYLJXHXUOHMDQYLHU  Le règlement CLP est fondé sur les recommandations internationales du SGH (Système Global Harmonisé). Le SGH est un ensemble de recommandations harmonisant les critères de 54 classification . Il permet d’identifier les dangers des produits chimiques et leurs effets sur la santé et sur l’environnement, la communication de leurs éléments d’informations et d’assurer une gestion, un stockage et une utilisation des produits chimiques en toute sécurité (protection des travailleurs, des consommateurs). Il sert de base et régit ainsi la classification et l’étiquetage des produits chimiques au niveau international. Ainsi, le règlement CLP est directement applicable à tous les États membres de l’Union européenne (UE) sans nécessité de texte de transposition nationale.  $YDQWDJHV Les avantages de ce règlement CLP sont multiples. Tout d’abord, il est prévu la mise en place d’une base de réglementation concernant l’étiquetage et la classification des produits chimiques pour les pays n’en possédant pas. Ensuite, le règlement CLP planifie une baisse du nombre de tests réalisés et l’amélioration de la protection humaine et environnementale par l’amélioration de la communication des informations de danger des produits chimiques. Enfin, une procédure de notification est mise en place et prévoit, pour les fabricants et importateurs, la transmission des informations sur la classification et l’étiquetage des substances qu’ils mettent sur le marché à

38 Chapitre I: Etat de l’art l’Agence Européenne des Produits Chimiques (ou European Chemicals Hazard Agency (ECHA) en anglais).  Le règlement CLP fait régulièrement l’objet de modifications et de révisions d’ordre technique, publiées sous forme d’Adaptations au Progrès Technique et scientifique (ou Adaptations to Technical Progress (ATP) en anglais) qui prennent en compte l’évolution des recommandations internationales dont il est issu, la publication de nouveaux textes ou la modification de dispositions existantes. Par exemple le 6ème ATP met à jour la classification des substances dangereuses (le formaldéhyde voit notamment sa classification cancérogène renforcée) et inclut également de nouvelles classifications harmonisées (l’acide benzoïque présenté comme un substitut potentiel au formaldéhyde possède désormais une classification harmonisée). L’étiquette L’étiquette constitue la première information pour l’utilisateur. Elle est essentielle et concise et lui fournit des repères sur les dangers et les précautions à prendre lors de l’utilisation d’un produit chimique. La réglementation décrit précisément les informations qu’elle doit comporter (taille, symbole, pictogrammes). L’étiquette, rédigée en français, doit figurer sur le récipient d’origine et sur chacun des emballages successifs après transvasement et reconditionnement et 55 doit surtout être suffisamment lisible pour pouvoir être lue et comprise de tous .  7RXV OHV SLFWRJUDPPHV SUpVHQWV VXU OHV pWLTXHWWHV VRQW UHPSODFpV SDU GH QRXYHDX[ /HV SLFWRJUDPPHVGHGDQJHUSUHVFULWVSDUOHUqJOHPHQW&/3VRQWLVVXVGX6*+HWVRQWDXQRPEUHGH QHXI&KDFXQGHVQHXISLFWRJUDPPHVSRVVqGHXQFRGHFRPSRVpGHODIDoRQVXLYDQWH ©6*+ª©ªXQFKLIIUH GHXQjQHXI  )LJXUH  

Figure 12: Les neuf pictogrammes de danger et leur code suivant le règlement CLP (provient du site de la Commission économique des Nations Unies pour l'Europe (CEEONU).  Pour les substances CMR, le pictogramme toxique ainsi que le pictogramme nocif sont remplacés par un seul et même pictogramme représentant une silhouette (Figure 13) 

39 Chapitre I: Etat de l’art

Figure 13: Le nouveau pictogramme des molécules considérées nocives ou toxiques.  L’étiquetage des agents &05HWOHYRFDEXODLUHRQWGRQFFKDQJpJUkFHjFHWWHUpJOHPHQWDWLRQ &/3(QHIIHW  ODWHUPLQRORJLH  ODGpILQLWLRQGHVGDQJHUVHW  OHVFULWqUHVGHFODVVLILFDWLRQ ILJXUDQWVXUOHVpWLTXHWWHVRQWpYROXp  La terminologie /D WHUPLQRORJLH D pYROXp (Q HIIHW OD UpJOHPHQWDWLRQ GLVWLQJXH OHV GLVSRVLWLRQV DSSOLFDEOHV DX[VXEVWDQFHVGHFHOOHVDSSOLFDEOHVDX[PpODQJHV'HSOXVFHUWDLQVWHUPHVRQWpWpFKDQJpVOH WHUPH©FDWpJRULHGHGDQJHUªHVWUHPSODFpSDUFHOXLGH©FODVVHGHGDQJHUªTXLGpILQLWDORUVOD QDWXUHGXGDQJHU SK\VLTXHVDQWpHQYLURQQHPHQW HWOHWHUPH©SUpSDUDWLRQªHVWUHPSODFpSDU l’utilisation du terme «PpODQJHª TXL GpVLJQH WRXV PpODQJHV RX VROXWLRQV FRPSRVpV GH GHX[ VXEVWDQFHVRXSOXV  Les dangers /D GpILQLWLRQ GHV GDQJHUV FDWpJRULH HW LQGLFDWLRQV définissant le niveau de l’effet CMR  D pJDOHPHQWpYROXp8Q©GDQJHUªVHORQOH&RGHGXWUDYDLOHVWODSURSULpWpLQWULQVqTXHG XQDJHQW FKLPLTXH VXVFHSWLEOH G DYRLU XQ HIIHW QXLVLEOH 8QH FODVVH GH GDQJHU SHUPHW XQH JUDGDWLRQ GX GHJUp GH GDQJHU GH FHWWH FODVVH 3RXU FKDTXH FODVVH GH GDQJHU OH UqJOHPHQW &/3 GpILQLW OHV éléments d’étiquetage qui doivent y être associés SLFWRJUDPPHV GH GDQJHU PHQWLRQ d’avertissement GDQJHUDWWHQWLRQ PHQWLRQGHGDQJHULQIRUPDWLRQVDGGLWLRQQHOOHVHWFRQVHLOVGH SUXGHQFH /H UqJOHPHQW &/3 GpILQLW DLQVL  FODVVHV GH GDQJHU GRQW  GpILQLVVDQW OH GDQJHU SK\VLTXH GL[ OHV GDQJHUV SRXU OD VDQWp XQ le danger sur l’environnement HW XQ OH GDQJHU VXSSOpPHQWDLUH,OVVRQWGpILQLVFRPPHVXLW  &ODVVHVGHGDQJHUSK\VLTXHGXUqJOHPHQW&/3 x explosifs; x gaz inflammables; x aérosols; x gaz comburants; x gaz sous pression; x liquides inflammables; x matières solides inflammables; x substances et mélanges autoréactifs; x liquides pyrophoriques; x matières solides pyrophoriques; x substances et mélanges autoéchauffants;

40 Chapitre I: Etat de l’art

x substances et mélanges qui, au contact de l’eau, dégagent des gaz inflammables; x liquides comburants; x matières solides comburantes; x peroxydes organiques; x substances ou mélanges corrosifs pour les métaux.  Classes de danger pour la santé: x toxicité aiguë; x corrosion cutanée/irritation cutanée; x lésions oculaires graves/irritation oculaire; x sensibilisation respiratoire ou cutanée; x mutagénicité sur les cellules germinales; x cancérogénicité; x toxicité pour la reproduction; x toxicité spécifique pour certains organes ciblesexposition unique; x toxicité spécifique pour certains organes ciblesexposition répétée; x danger par aspiration.  Classe de danger pour l’environnement: x GDQJHUVSRXUOHPLOLHXDTXDWLTXH  &ODVVHGHGDQJHUVXSSOpPHQWDLUH x GDQJHUpour la couche d’ozone  Les critères de classification Sous les directives DSD/DPD, des phrases de risques ou phrases R sont associées aux différentes catégories de CMR. Un «risque» est la probabilité que le potentiel de dangerosité soit atteint dans les conditions d'utilisation et/ou d'exposition selon le Code du travail. Ces phrases de risques indiquent les risques encourus lors de l’utilisation d’un CMR, de leur contact, de leur ingestion, de leur inhalation, de leur manipulation ou de leur rejet dans la nature ou l'environnement. Elles se composent de la lettre R suivie d'un numéro indiquant la nature des risques particuliers attribués à une substance dangereuse. Ces phrases, également associées à des pictogrammes ou différentes mentions sur l’étiquette du produit, permettent de faciliter l’identification des produits CMR.   Ces phrases de risques ont été abrogées le 1er juin 2015. Ces phrases R sont devenues des phrases H correspondant à différentes mentions de danger spécifiques aux produits CMR sous la réglementation CLP.   $LQVL OD FODVVLILFDWLRQ &/3 FRQVLVWH j PHWWUH XQH VXEVWDQFH RX XQ PpODQJH GDQV XQH RX  SOXVLHXUVFODVVHVGHGDQJHUHWjOXLDWWULEXHUXQHPHQWLRQGHGDQJHU 

41 Chapitre I: Etat de l’art

/D classe de danger est très souvent présentée sous la forme d’une abréviation définie UpJOHPHQWDLUHPHQW /H FODVVHPHQW GHV VXEVWDQFHV IDLW pWDW GH SOXVLHXUV VHXLOV  FHUWDLQ RX DYpUp  WUqV SUREDEOH RXSUpVXPp  VRXSoRQQpRXVXVSHFWp  /HV FDWpJRULHV  HW GHV GLUHFWLYHV '6''3' RQW pWp UHVSHFWLYHPHQW UHPSODFpHV SDU OD FODVVH  GLYLVpH HQ GHX[ VRXV FDWpJRULHV $HW% HWGXUqJOHPHQW&/3  $LQVLODUpJOHPHQWDWLRQ&/3FODVVHOHVVXEVWDQFHVFKLPLTXHVLGHQWLILpHVFRPPHDYpUpHVRX SUpVXPpV HQ FDWpJRULHV $ RX % (OOHV SRUWHQW DORUV XQH pWLTXHWWH DYHF OD PHQWLRQ d’avertissement «'DQJHUª XQH PHQWLRQ GH GDQJHU VSpFLILTXH + + RX +  HW OH SLFWRJUDPPH6*+©'DQJHUSRXUODVDQWpª 7DEOHDXHW  Pour les substances chimiques identifiées comme suspectes, la réglementation CLP classe ces substances en catégorie 2. Elles portent alors une étiquette avec la mention d’avertissement «Attention», une mention de danger spécifique (H351, H341 ou H361) et le pictogramme SGH 08 «Danger pour la santé» (Tableau 7).  Directives DSD/DPD Règlement CLP Catégorie 1: Effets CMR avérés pour Catégorie 1A: Effets CMR avérés pour l’homme l’homme Portent une étiquette comportant le symbole «Toxique» Portent une étiquette avec la mention  d’avertissement «Danger» et le pictogramme SGH 08 «Danger pour la santé».

  Accompagné des phrases de risques spécifiques:  Cancérogène Accompagné de mentions de dangers R45  Peut provoquer le cancer  spécifiques: R49  Peut provoquer le cancer par inhalation Mutagène Cancérogène R46  Peut provoquer des altérations H350  Peut provoquer le cancer génétiques héréditaires Mutagène Toxique pour la reproduction H340  Peut induire des anomalies génétiques R60  Peut altérer la fertilité  Toxique pour la reproduction R61  Risque pendant la grossesse d’effets H360  Peut nuire à la fertilité ou au fœtus néfastes pour l’enfant Tableau 5: Comparaison de la classification et de l’étiquetage des substances classés CMR avérés pour l'homme en fonction des directives DSD/DPD et CLP.        

42 Chapitre I: Etat de l’art

Directives DSD/DPD Règlement CLP Catégorie 2: Effets CMR présumés pour Catégorie 1B: Effets CMR présumés pour l’homme l’homme Portent une étiquette comportant le symbole «Toxique»  Portent une étiquette avec la mention d’avertissement «Danger» et le pictogramme SGH 08 «Danger pour la santé».   Accompagné des phrases de risques spécifiques:  Cancérogène Accompagné de mentions de dangers R45  Peut provoquer le cancer  spécifiques: R49  Peut provoquer le cancer par inhalation Cancérigène Mutagène H350  Peut provoquer le cancer R46  Peut provoquer des altérations Mutagène génétiques héréditaires H340  Peut induire des anomalies génétiques Toxique pour la reproduction Toxique pour la reproduction R60  Peut altérer la fertilité  H360  Peut nuire à la fertilité ou au fœtus R61  Risque pendant la grossesse d’effets néfastes pour l’enfant Tableau 6: Comparaison de la classification et de l’étiquetage des substances classés CMR présumés pour l'homme en fonction des directives DSD/DPD et CLP.  Directives DSD/DPD Règlement CLP Catégorie 3: Effets CMR suspectés pour Catégorie 2: Effets CMR suspectés pour l’homme l’homme 3RUWHQWXQHpWLTXHWWHFRPSRUWDQWOHV\PEROH 3RUWHQWVXQHpWLTXHWWHDYHFODPHQWLRQ ©1RFLIª d’avertissement ©$WWHQWLRQªHWOH SLFWRJUDPPH6*+©'DQJHUSRXUOD VDQWpª

 

Accompagné des phrases de risques  spécifiques: Cancérogène Accompagné de mentions de dangers R40  Effet cancérogène suspecté. Preuves spécifiques: insuffisantes Cancérogène Mutagène H351  Susceptible de provoquer le cancer R68  Possibilité d’effets irréversibles Mutagène Toxique pour la reproduction H341  Susceptible d’induire des anomalies R62  Risque possible d’altération de la génétiques fertilité  Toxique pour la reproduction R63  Risque possible pendant la grossesse H361  Susceptible de nuire à la fertilité ou au d’effets néfastes pour l’enfant fœtus Tableau 7: Comparaison de la classification et de l’étiquetage des substances classés CMR suspectés pour l'homme en fonction des directives DSD/DPD et CLP. 

43 Chapitre I: Etat de l’art

Les effets causés par les agents CMR sont considérés comme des effets dits à seuil et ne surviennent qu’audelà d’un certain niveau d’exposition. De ce fait, est classée comme cancérogène, mutagène ou toxique pour la reproduction toute substance de catégorie 1A, 1B ou 2 à une concentration égale ou supérieure à la limite de concentration indiquée dans le tableau ci dessous: (Tableau 8)  &DWpJRULH 6HXLOV $HW% • 0,1% &DQFpULJqQH  • 1% $HW% • 0,1% 0XWDJqQH  • 1% $HW% • 3% 5HSURWR[LTXH  • 3% Tableau 8: Seuils de classification. Le classement des substances fait état de plusieurs seuils. A une concentration égale ou supérieure à 0,1%, une molécule de catégorie 1A et 1B est mutagénique et carcinogènique. De même, à une concentration égale ou supérieure à 1%, une molécule de catégorie 2 est mutagénique et carcinogènique. A une concentration égale ou supérieure à 3%, une molécule de catégorie 1A, 1B ou 2 est mutagénique, carcinogènique et reprotoxique.  La prudence s’impose concernant l’utilisation des agents CMR suspectés. En effet, les informations disponibles sur ces substances sont insuffisantes et/ou insuffisamment étudiées et ne permettent pas un classement en catégorie CMR avérée. La réglementation REACh /H V\VWqPH OpJLVODWLI HXURSpHQ HQ PDWLqUH GH SURGXLWV FKLPLTXHV FRPSUHQDLW DYDQW  TXDWUH LQVWUXPHQWV MXULGLTXHV   OHV GLUHFWLYHV '6' CEE et /CE du Parlement européen52UHODWLYHVjODFODVVLILFDWLRQO HPEDOODJHHWO pWLTXHWDJHGHVVXEVWDQFHVHWSUpSDUDWLRQV GDQJHUHXVHV  OHUqJOHPHQWUHODWLIjO pYDOXDWLRQGHVVXEVWDQFHVH[LVWDQWHV57HW  OD 58 GLUHFWLYH UHODWLYHDX[UHVWULFWLRQVGHPLVHVXUOHPDUFKpGHVVXEVWDQFHVGDQJHUHXVHV  (QQRYHPEUHOD&RPPLVVLRQHXURSpHQQHSURGXLWXQUDSSRUWVRXOLJQDQWOHVIDLEOHVVHVGH FHV TXDWUH LQVWUXPHQWV MXULGLTXHV 6XLWH DX[WUDYDX[ PHQpV SRXU UHPpGLHU j FH FRQVWDW OD &( DGRSWHXQOLYUHEODQFHQIpYULHUSURSRVDQWXQHVWUDWpJLHSRXUODIXWXUHSROLWLTXHHXURSpHQQH HQ PDWLqUH GH SURGXLWV FKLPLTXHV 3RXU \ SDUYHQLU HOOH GpILQLW GLIIpUHQWV REMHFWLIV TXL SHUPHWWUDLHQWOHGpYHORSSHPHQWGXUDEOHGHO LQGXVWULHFKLPLTXHjVDYRLU x ODSURWHFWLRQGHODVDQWpKXPDLQHHWGHO HQYLURQQHPHQW x Oe soutien et la préservation/valorisation de la compétitivité et de l’innovation de l'industrie FKLPLTXHSDUXQHPHLOOHXUHFRQQDLVVDQFHGHVVXEVWDQFHV GHODSURGXFWLRQjO pOLPLQDWLRQ 

x XQHPHLOOHXUHLQIRUPDWLRQGHO HQVHPEOHGHVDFWHXUV GXSURGXFWHXUjO XWLOLVDWHXUILQDO 

x XQH DXJPHQWDWLRQ GX QLYHDX GH SURWHFWLRQ FRQWUH OHV SUREOqPHV TXH SHXYHQW FDXVHU OHV VXEVWDQFHVFKLPLTXHV

x ODSURPRWLRQGHPpWKRGHVG HVVDLDOWHUQDWLYHVEDVpHVVXUGHVRXWLOVin vivo, in vitro HW in silico

x ODOLEUHFLUFXODWLRQGHVVXEVWDQFHV

44 Chapitre I: Etat de l’art

$LQVL OD SURSRVLWLRQ GH UqJOHPHQW GH OD &RPPLVVLRQ HXURSpHQQH GHYDQW DERXWLU j OD rationalisation et l’amélioration de l’ancien cadre réglementaire des SURGXLWV FKLPLTXHV GH O 8QLRQHXURSpHQQHDFRQGXLWjODPLVHHQSODFHGHODGLUHFWLYH5($&KOHHUMXLQ59(OOH FRQFHUQHO HQUHJLVWUHPHQWO pYDOXDWLRQO DXWRULVDWLRQHWODUHVWULFWLRQGHVVXEVWDQFHVFKLPLTXHV60 5($&KDIIHFWHDXVVLELHQOHVVXEVWDQFHVFKLPLTXHVHQWDQWTXHWHOOHVTXHOHVSUpSDUDWLRQVRXOHV PpODQJHV XWLOLVpV GDQV OHV SURFpGpV LQGXVWULHOV RX GDQV QRWUH YLH TXRWLGLHQQH HW FRXYUH OD IDEULFDWLRQO LPSRUWDWLRQODPLVHVXUOHPDUFKpDLQVLTXHO XWLOLVDWLRQGHVVXEVWDQFHVFKLPLTXHV 4XLFRQTXH SURGXLW LPSRUWH GLVWULEXH RX XWLOLVH GHV VXEVWDQFHV FKLPLTXHV DX VHLQ GH O 8QLRQ (XURSpHQQHHVWFRQFHUQpSDUFHWWHUpJOHPHQWDWLRQ5($&KDpJDOHPHQWSRXUU{OHG pYDOXHUGH UHVWUHLQGUH YRLUH d’interdire l’utilisation des substances les plus préoccupantes pour la santé KXPDLQH HW O HQYLURQQHPHQW C’HVW XQH DYDQFpH PDMHXUH HQ PDWLqUH GH JHVWLRQ GHV SURGXLWV FKLPLTXHV61 )LJXUH 



Figure 14: Évolution de la réglementation sur les produits chimiques.  5($&K HVW IRQGpH VXU OH SULQFLSH GH SUpFDXWLRQ $LQVL OD UHVSRQVDELOLWp GH OD JHVWLRQ GHV ULVTXHVOLpVDX[VXEVWDQFHVFKLPLTXHVHVWWUDQVIpUpHGHVDXWRULWpVYHUVO LQGXVWULH&HQHVRQWSOXV OHV(WDWVPDLVOHVLQGXVWULHOVTXLVRQWUHVSRQVDEOHVGHVGRQQpHVIRXUQLHVVXUOHVSURSULpWpVGHV VXEVWDQFHV ,OV DXURQW j GpPRQWUHUl’innocuité des substances qu'ils importent ou fabriquent, à assurer la maîtrise des risques liés à leur usage et à informer l’utilisateur GHV GDQJHUV TX’il HQFRXUW s’il utilise FHUWDLQHV VXEVWDQFHV 5($&K PHW GH FH IDLW XQH SUHVVLRQ VXU OHV DFWHXUV LQGXVWULHOV SURGXFWHXUVLPSRUWDWHXUVIRXUQLVVHXUVGLVWULEXWHXUV 62 (QUHJLVWUHPHQW L’enregistrement des substances chimiques est une obligation réglementaire et a débuté le 1HU MXLQ(QHIIHWDXFXQHVXEVWDQFHQHSHXWrWUHQLIDEULTXpHQLLPSRUWpHVLHOOHQ DSDVpWp VRXPLVHjXQHQUHJLVWUHPHQWDXSUpDODEOH&HWWHREOLJDWLRQV DSSOLTXHjWRXWHVXEVWDQFHSURGXLWH ou importée à plus d’une tonne par DQ !WDQ /HVGRQQpHVHWLQIRUPDWLRQVjUDVVHPEOHUSRXU FHW HQUHJLVWUHPHQW FKDQJHQW HQ IRQFWLRQ GHV TXDQWLWpV IDEULTXpHV RX LPSRUWpHV ! WDQ ! 59,63,64 WDQ!WDQ!WDQ 

45 Chapitre I: Etat de l’art

5($&KSUpYRLWl’enregistrement, sur une période de RQ]HDQVGHTXHOTXHVXEVWDQFHV FKLPLTXHV VXU OHV   H[LVWDQWHV 65 DXSUqV GH l’(&+$EDVpHj+HOVLQNL KWWSVHFKDHXURSDHX &HWWHGHUQLqUHMRXHXQU{OHHVVHQWLHOdans la procédure d’enregistrement FDUHOOHFRQWULEXHjODPLVHHQFRQIRUPLWpGHVHQWUHSULVHVjFHWWHQRXYHOOHOpJLVODWLRQ(OOHIRXUQLW pJDOHPHQW GHV LQIRUPDWLRQV VXU OHV SURGXLWV FKLPLTXHV DLQVL TXH GHV RXWLOV LQIRUPDWLTXHV HQ IDYRULVDQWXQHXWLOLVDWLRQV€UHGHVVXEVWDQFHV  $LQVLXQGRVVLHUG HQUHJLVWUHPHQWGRLWrWUHIRXUQLSRXUFKDTXHVXEVWDQFHFKLPLTXH&HOXLFL GRLWFRQWHQLU

x XQGRVVLHUWHFKQLTXH LGHQWLWpGXGpFODUDQWQRPGHODVXEVWDQFHVHVSURSULpWpVLQWULQVqTXHV GRQQpHVSK\VLFRFKLPLTXHVWR[LFRORJLTXHVHWpFRWR[LFRORJLTXHV… 

x XQ5DSSRUWGH6pFXULWp&KLPLTXH 56& &HUDSSRUWHVWGHPDQGpSRXUWRXWHQUHJLVWUHPHQW G XQHVXEVWDQFHSURGXLWHRXLPSRUWpHjSOXVGHGL[WRQQHVSDUDQ  Une fois le dossier d'enregistrement complet, l’ECHA attribue, à chaque enregistrement, un QXPpURHWXQHGDWHGHUpFHSWLRQ7RXWQRXYHDXGpFODUDQWHVWWHQXGHFRQVXOWHUODEDVHGHGRQQpHV GH O (&+$ DILQGH YpULILHU TXH ODVXEVWDQFH Q D SDV GpMjpWp HQUHJLVWUpH RX Q HVW SDV HQ FRXUV G HQUHJLVWUHPHQW  /H UqJOHPHQW H[HPSWH GH FHWWH REOLJDWLRQ G HQUHJLVWUHPHQW FHUWDLQHV VXEVWDQFHV TXL IRQW O REMHW G XQH UpJOHPHQWDWLRQ DSSURSULpH DX WLWUH G XQH DXWUH OpJLVODWLRQ SDU H[HPSOH OHV médicaments). D’unePDQLqUHJpQpUDOHOHVSRO\PqUHVVRQWpJDOHPHQWH[HPSWpVHWVRXPLVjXQH FODXVHGHUpYLVLRQWRXVOHVGRX]HDQVHWHQILQOHVVXEVWDQFHVDFWLYHVGHVELRFLGHVHWSHVWLFLGHV VRQWFRQVLGpUpHVFRPPHHQUHJLVWUpHVSRXUFHWWHXWLOLVDWLRQ59  /D &RPPLVVLRQ HXURSpHQQH D SUpYX XQ FDOHQGULHU SRXU OD PLVH HQ SODFH SURJUHVVLYH GH O HQUHJLVWUHPHQWVRXV5($&KD’ici à Muin 2018, l’ensemble des 100PROpFXOHV H[LVWDQWHV GHYURQWrWUHHQUHJLVWUpHV )LJXUH $LQVLOHVVXEVWDQFHVSURGXLWHVRXIDEULTXpHVjSOXVGH WDQHWOHVVXEVWDQFHVFODVVpHV&05HW !WDQ GHYURQWrWUHHQUHJLVWUpHVGDQVOHVWURLV DQVDSUqVODPLVHHQSODFHGH5($&K/HVVXEVWDQFHVSURGXLWHVRXIDEULTXpHVjSOXVGHWDQ GHYURQWrWUHHQUHJLVWUpHVGDQVOHVVL[DQVHWOHVVXEVWDQFHVSURGXLWHVRXIDEULTXpHVjSOXVGH WDQGHYURQWrWUHHQUHJLVWUpHVGDQVOHVRQ]HDQV 

Figure 15: Dates limites d'enregistrement des molécules CMR depuis la rentrée en vigueur de REACh.

46 Chapitre I: Etat de l’art

/D FRPPXQLFDWLRQ HVW O XQ GHV IRQGHPHQWV GX IRQFWLRQQHPHQW GH 5($&K &HOD SHUPHW GH s’DVVXUHU TXH WRXV OHV XWLOLVDWHXUV GLVSRVHQW GHV GRQQpHV GRQW LOV RQW EHVRLQ HQ YXH G XQH XWLOLVDWLRQV€UHGHVVXEVWDQFHVFKLPLTXHV/HSDUWDJHG LQIRUPDWLRQVVXUOHVVXEVWDQFHVHVWSUpYX DILQGHUHQIRUFHUO HIILFDFLWpGXV\VWqPHHWGHUpGXLUHOHVFR€WVHWOHVHVVDLVVXUOHVDQLPDX[/H )RUXPG (FKDQJHVG ,QIRUPDWLRQVVXUOHV6XEVWDQFHV )(,6 HWOD)LFKHGH'RQQpHVGH6pFXULWp HQVRQWGHERQVPR\HQV eYDOXDWLRQ L’évaluation V DSSOLTXH j WRXWHV OHV VXEVWDQFHV SUpDODEOHPHQW HQUHJLVWUpHV / DXWRULWp FRPSpWHQWH HVW VRLW O (WDW PHPEUH R D OLHX OD SURGXFWLRQ soit l’Etat membre R HVW pWDEOL O LPSRUWDWHXU L’ensemble des dispositions générales à appliquer sont présentes dans la UpJOHPHQWDWLRQHQDQQH[H,HW;,,595($&KSUpYRLWWURLVW\SHVG pYDOXDWLRQ

x evaluation des dossiers d’enregistrement HOOH permet d’évaluer la qualité du dossier SUpFpGHPPHQW HIIHFWXp HW LO SHXW rWUH GHPDQGp DX GpFODUDQW GHV LQIRUPDWLRQV VXSSOpPHQWDLUHV HWRX FRPSOpPHQWDLUHV VL QpFHVVDLUH /HV UpVXOWDWV GH FHWWH pYDOXDWLRQ SHXYHQWDERXWLUjXQHpYDOXDWLRQGHODVXEVWDQFHXWLOLVpHRXjGHVSURFpGXUHVG DXWRULVDWLRQ RXGHUHVWULFWLRQGHODGLWHVXEVWDQFH

x eYDOXDWLRQ GHV VXEVWDQFHV OHV (WDWV PHPEUHV LQVFULYHQW GDQV XQ SURJUDPPH OHV VXEVWDQFHVTX LOVVRXKDLWHQWpYDOXHU&HSURJUDPPHpWDEOLSRXUXQHGXUpHGHWURLVDQVHW PLV j MRXU DQQXHOOHPHQW HVW EDVp VXU GHV FULWqUHV SHUPHWWDQW GH GpILQLU OHV VXEVWDQFHV SULRULWDLUHV/ pYDOXDWLRQGHODVXEVWDQFHGRLWrWUHUpDOLVpHGDQVOHVGRX]HPRLVTXLVXLYHQW ODSXEOLFDWLRQGHFHSURJUDPPH

x eYDOXDWLRQGHVHVVDLVHOOHpermet d’évaluer WRXWHVSURSRVLWLRQVG HVVDLVpQRQFpHVGDQVXQ dossier d'enregistrement. L’évaluationSHXWGRQQHUOLHXjWURLVSRVVLELOLWpV: soit l’essai est HIIHFWXpWHOTXHOVRLWLOGRLWrWUHPRGLILpVRLWLOHVWUHMHWp $XWRULVDWLRQ /HVVXEVWDQFHVOHVSOXVSUpRFFXSDQWHVYRLUHGDQJHUHXVHVVRQWVRXPLVHVjDXWRULVDWLRQDILQGH OLPLWHU OHV ULVTXHV SRXU O KRPPH HW O HQYLURQQHPHQW /HV IDEULFDQWVLPSRUWDWHXUV RX OHV XWLOLVateurs doivent déposer un dossier d’autorisation66&HGRVVLHUGRLWFRQWHQLUODMXVWLILFDWLRQj l’utilisation de cette substance, ses solutions de substitutions et les données relatives à la VXEVWDQFH /HV GHPDQGHV G DXWRULVDWLRQ VRQW DGUHVVpHV j O (&+$ TXL pWDEOLW XQ DYLV VRXV GL[ mois. L’ECHA transmet VHVFRQFOXVLRQVjOD&RPPLVVLRQHXURSpHQQHDX[(WDWVPHPEUHVHWDX demandeur et c’est la &RPPLVVLRQHXURSpHQQHqui rédige l’avis définitif.  &HUWDLQHV DXWRULVDWLRQV SHXYHQW rWUH DFFRPSDJQpHV G XQH SpULRGH GH UpYLVLRQ TXL SHXW LQWHUYHQLUjWRXWPRPHQWHQIRQFWLRQGHVFLUFRQVWDQFHV  &HWWH SURFpGXUH d’autorisation SHXW V DSSOLTXHU j GHV VXEVWDQFHV QRQ HQUHJLVWUpHV HW j GHV VXEVWDQFHV WDQ&HSHQGDQWFHUWDLQHVVXEVWDQFHVQHVRQWSDVVRXPLVHVjFHWWHSURFpGXUH,O s’agit notamment GHVVXEVWDQFHVXWLOLVpHVjGHVILQVGH5HFKHUFKHHW'pYHORSSHPHQW 5 ' GHV

47 Chapitre I: Etat de l’art

VXEVWDQFHV WUDLWpHV HQ WDQW TXH GpFKHWV WRXWHV VXEVWDQFHV XWLOLVpHV GDQV GHV SURGXLWV SK\WRSKDUPDFHXWLTXHV RX ELRFLGHV FRPPH OHV PpGLFDPHQWV OHV DGGLWLIV DOLPHQWDLUHV OHV DURPDWLVDQWVOHVLQWHUPpGLDLUHVLVROpVRXOHVFDUEXUDQWVL’ensemble des sXEVWDQFHVVRXPLVHVj 59 DXWRULVDWLRQ VRQW GpFULWHV GDQV OD UpJOHPHQWDWLRQ HQ DQQH[H ;,9  (Q HIIHW l’impact de ces VXEVWDQFHV VXU OD VDQWp HW O HQYLURQQHPHQW HVW GpMj FRXYHUW SDU XQH OpJLVODWLRQ FRPPXQDXWDLUH pTXLYDOHQWH  L'objectif de la démarche d’autorisation est d’assurer le contrôle des risques liés à ces VXEVWDQFHV HW d’adopter ou remplacer les substances existantes par G DXWUHV VXEVWDQFHV PRLQV SUpRFFXSDQWHV&HODJDUDQWLWXQHH[SpULPHQWDWLRQDQLPDOHDXPLQLPXPHWXQHQFRXUDJHPHQWj UHFRXULU j GHV PpWKRGHV DOWHUQDWLYHV Si l’autorisation n'est pas accordée, l'utilisation de la VXEVWDQFHGHYUDrWUHVXVSHQGXH  $XHUMuin 2009, l’ensemble des substances les plus dangereuses (soumises à autorisation) D été publié par l’ECHA. 5HVWULFWLRQ '’une PDQLqUH JpQpUDOH O DXWRULVDWLRQ HW OD UHVWULFWLRQ FRXYUHQW XQ FKDPS SOXV ODUJH TXH O HQUHJLVWUHPHQW /D SURFpGXUH GH UHVWULFWLRQ HVW SUpVHQWpH FRPPH OH ILOHW GH VpFXULWp GH OD UpJOHPHQWDWLRQ 5($&K (OOH FRQFHUQH WRXWHV VXEVWDQFHV IDEULTXpHV XWLOLVpHV RX PLVHV VXU OH PDUFKp HQWUDvQDQW XQ ULVTXH LQDFFHSWDEOH SRur la santé de l’homme ou l'environnement59 /D UHVWULFWLRQ QH V DSSOLTXH SDV DX[ VXEVWDQFHV XWLOLVpHV j GHV ILQV GH 5 ' QL DX[ SURGXLWV FRVPpWLTXHV /HVPpWKRGHVDOWHUQDWLYHV Le statut de l’animal dans notre société a très grandement évolué depuis ces derniers siècles. En effet, il y a plus de 30 siècles les animaux ont été domestiqués. Récemment, la société fait état d’être doté de sensibilité et se pose alors la question de la légitimité à expérimenter sur des animaux67. De nombreuses recherches utilisent encore l’animal (2,3 milliards par an) car le besoin de progrès (scientifique, médical) est très important. Cependant, depuis 1998, de nombreuses directives européennes sont mises en place concernant la protection des animaux (transport, élevage) dont notamment la directive UE 10/6368. Cette dernière concerne la protection des animaux à des fins scientifiques avec un objectif général d’harmonisation et de promotion de valeurs éthiques. Les animaux ne doivent alors être utilisés que de manière légitime, minimale et justifiée sous contrôle des autorités. Le bienêtre animal ainsi que la prévention de la souffrance sont primordiaux et les principes éthiques sont structurés par la règle des «3R». Russel et Burch, en 1959, établissent la règle des 3R constituant OHIRQGHPHQWGHOD démarche éthique liée à l’expérimentation animale en Europe et en $PpULTXHGX1RUG/HV5 VLJQLILHQW5pGXLUH5DIILQHUHW5HPSODFHU 5HGXFH5HILQHDQG5HSODFHDQDQJODLV 69  /H SUHPLHU GHV 5 HVW ©5pGXLUH». D’après l'article 7.3 de la GLUHFWLYH &((70 l’expérience devra être guidée par le souci de recourir à un nombre minimal d’animaux tout en

48 Chapitre I: Etat de l’art

REWHQDQWGHVUpVXOWDWVVDWLVIDLVDQWV /DQRWLRQGHUpGXFWLRQFRPSRUWHGHX[DVSHFWV /HSUHPLHU pWDQW OD UpGXFWLRQ GX QRPEUH G DQLPDX[ XWLOLVpV GDQV OHV WHVWV HW OH VHFRQG OD UpGXFWLRQ GX QRPEUH GH WHVWV QpFHVVDLUHV 3RXU SDUYHQLU j FHWWH UpGXFWLRQ XQH PHLOOHXUH JHVWLRQ ILDELOLWp KDUPRQLVDWLRQYDOLGDWLRQ DLQVLTXHGHVPpWKRGHVVWDWLVWLTXHVDGDSWpHVGHYURQWrWUHUpDOLVpHVHW GHVpWXGHVSLORWHVSRXUURQWrWUHHIIHFWXpHVGHPrPHTXHODPLVHjSURILWGHVGRQQpHVKLVWRULTXHV ou la mise en place de stratégies intégrées d’essais afin d’aider à la mise en place de cette UpGXFWLRQ  Le deuxième R est «Raffiner». Toujours d’après l'article 7.3 de la directive 86/609/CEE70, les techniques utilisées pour l’expérience devront être optimisées afin d’engendrer le moins d’inconfort, de dommages, de peur, de stress et de douleur possible à l’animal tout en obtenant des résultats satisfaisants. Le recours à l’anesthésie ou à une imagerie du petit animal (échographie, scintigraphie ou Imagerie à Résonnance Magnétique (IRM)) sont des éventualités à prendre en compte afin de diminuer la douleur. Afin de procurer un certain bienêtre à l’animal, un enrichissement de son milieu de vie (confort thermique, multiplication des zones d’alimentation, jeux…) ainsi qu’une socialisation pourront être envisagés. Ce raffinement est extrêmement important car il a été démontré qu’il améliore la qualité des résultats expérimentaux. En effet, la douleur et le stress subis par un animal sont susceptibles d'entraîner des modifications comportementales et physiologiques compromettant la validité des résultats obtenus.  Le dernier R signifie «Remplacer». Les procédures d’expérimentation animale n’ont pas lieu d’être s’il peut être recouru raisonnablement et pratiquement à une autre méthode scientifiquement acceptable n’impliquant pas l’utilisation d’un animal. Le recours à des méthodes alternatives, promu par la règlementation REACh, s’inscrit dans le cadre d’une évolution progressive des mentalités depuis le début du XIXème siècle. Le remplacement inclut notamment l’utilisation de l’espèce la moins sensible possible (invertébrés, rongeurs, poissons) tout en répondant au même objectif expérimental et de favoriser des essais in vitro, audiovisuel 71 ou in silico .  La validation (reproductibilité et crédibilité) des méthodes alternatives est effectuée en Europe par l’ECVAM (European Centre for the Validation of Alternative Methods en anglais)72HWSDU l’EDQM (European Directorate for the Quality of Medicines and healthcare). REACh et l’OCDE /’Organisation de Coopération et de Développement Economiques 2&'(  RUJDQLVDWLRQ LQWHUJRXYHUQHPHQWDOH HVW QpH DSUqV OD 6HFRQGH *XHUUH 0RQGLDOH DILQ GH FRRUGRQQHU OH SODQ Marshall. Elle a été transformée par l’arrivée de REACh et compte aujourd’hui 34 pays PHPEUHV (OOH MRXH XQ U{OH SULPRUGLDO GDQV OD VXUYHLOODQFH la validation et l’harmonisation LQWHUQDWLonale des protocoles expérimentaux et des méthodes d’évaluation des dangers. 

49 Chapitre I: Etat de l’art

Les principaux objectifs de l’OCDE sont d’éviter l’expérimentation animale, de développer des méthodes alternatives et de fournir les lignes directrices des protocoles expérimentaux internationaux71. &DWpJRULHVGHWHVWV Le nombre de nouvelles substances développées et testées a très largement augmenté ces dernières années. Par conséquent, les tests in vitro et in vivo doivent être plus efficaces, plus 73 rapides et moins coûteux . Ainsi, l’OCDE met en place, avec l’aide de la réglementation REACh (et au principe des 3R), des protocoles de tests harmonisés, les plus pertinents, reconnus internationalement, utilisés par les gouvernements, l'industrie et les laboratoires indépendants. Ceci afin d’obtenir des informations appropriées et pertinentes sur une molécule avant de la mettre sur le marché. Les lignes directrices de l’OCDE font état de dix catégories de tests de toxicité réglementaires utilisées en routine74–76. Ces dix catégories sont: la mutagénicité, la carcinogénicité, la reprotoxicité, l’écotoxicité, l’irritation/corrosion, la toxicité aigüe, la toxicité chronique, les dommages aux yeux, la sensibilité de la peau et la sensibilité respiratoire. Chacune 77,78 des dix catégories est associée à un numéro de lignes directrices dans l’OCDE . (http://www.oecdilibrary.org/environment/oecdguidelinesforthetestingofchemicalssection 4healtheffects_20745788)  ,ODUpFHPPHQWpWpUHFRQQXTXHGHQRPEUHX[SURGXLWVFKLPLTXHVGDQVQRWUHHQYLURQQHPHQW possèdent une forte activité mutagène sur une grande variété d’organismes. Il y a donc un besoin urgent d’évaluer les effets toxiques que peut produire un agent génotoxique sur le génome  KXPDLQHWGHGpWHUPLQHUTXDQWLWDWLYHPHQWOHVQLYHDX[DFFHSWDEOHVRXWROpUDEOHVjFHSURGXLW  C’est pour cela que la catégorie mutagénicité a été étudiée en premier GDQV FHWWH WKqVH /HV FDWpJRULHVFDUFLQRJpQLFLWpHWUHSURWR[LFLWpYRQWrWUHpWXGLpHVSDUODVXLWHafin d’obtenir une vision  JOREDOHGHVWHVWVTXLGHYURQWrWUHHIIHFWXpVafin d’REWHQLUXQHPROpFXOHQRQ&05  &DWpJRULHPXWDJpQLFLWp Chaque catégorie spécifie les différents tests in vitro et in vivo requis pour une substance produite ou importée à une quantité supérieure à une tonne par an. Les informations requises pour la catégorie mutagénicité sont décrites dans les annexes VI à XI de REACh82,83.  Dans la catégorie mutagénicité (Figure 16) lorsqu’une molécule est produite ou importée à une quantité supérieure à une tonne par an, seul le test d’Ames est requis.   Pour une molécule produite ou importée à une quantité supérieure à dix tonnes par an, un ensemble de tests in vitro sont nécessaires. Il s’agit notamment du test d’Ames, du test de micronoyaux ou d’aberrations chromosomiques (qui fait partie des «cytogenicity tests» en anglais) ainsi que du test de mutagenèse cellulaire de lymphome de souris (ou Mouse Lymphoma Assay (MLA) en anglais) ou du test de l’Hypoxanthineguanine PhosphoRibosyl Transferase 84,85 (HPRT) .  

50 Chapitre I: Etat de l’art

Pour une molécule produite ou importée à une quantité supérieure à 100 ou 1000 tonnes par an, un ensemble de tests in vitro et in vivo doivent être réalisés. Les tests in vitro sont les mêmes que ceux effectués à une quantité supérieure à dix tonnes par an soit le test d’Ames, le test de micronoyaux ou le test d’aberrations chromosomiques (ou Chromosomal Aberration test (CA) en anglais) et le test MLA ou le test HPRT. Les tests in vivo sont dans un premier temps le test de synthèse non programmé de l’ADN (ou Unscheduled DNA Synthesis (UDS) en anglais), le test de Comète ou le test de micronoyaux86 et dans un deuxième temps, le test létal dominant ou le test sur cellules de rongeurs transgéniques87.   Prenons l’exemple d’une molécule produite à une quantité supérieure à dix tonnes par an. Le test d’Ames est le premier test de mutagénicité à devoir être réalisé. Quel que soit le résultat de celuici, un test sur cellules de mammifère doit être effectué (test de micronoyaux ou d’aberrations chromosomiques). Si celuici est négatif, un test de mutation génique doit être exécuté (test MLA ou HPRT). Une fois encore, si ce dernier est négatif, alors la molécule testée est non génotoxique et aucun test supplémentaire n’est requis. La molécule peut passer à une autre catégorie (carcinogénicité, corrosion/irritation…).  Dans cette thèse, lorsque plusieurs tests in vitro ou in vivo étaient proposés, un seul a été gardé pour la suite de la thèse. Typiquement entre le test de micronoyaux ou le test d’aberrations chromosomiques nous avons choisi de garder le test d’aberrations chromosomiques. De même, entre le test MLA et le test HPRT nous avons choisi de garder le test MLA; entre le test UDS, le test de Comète ou le test de micronoyaux nous avons choisi le test UDS; et enfin entre le test létal dominant (ou Dominant Lethal Test (DLT) en anglais) ou le test sur cellules de rongeurs transgéniques nous avons choisi le test DLT.   Du fait du faible nombre de molécules présentes dans la littérature, les bases de données internationales et nos collaborations précédentes, nous avons privilégié les tests nous offrant le plus grand nombre de données.  Ainsi, les tests d’aberrations chromosomiques, MLA, UDS et le test létal dominant ont été sélectionnés. 

51 Chapitre I: Etat de l’art

 Figure 16: Les différents tests à devoir être effectués lorsqu’une molécule est produite ou importée à une quantité supérieure à une tonne par an, 10 tonnes par an, 100 et 1000 tonnes par an. 

52 Chapitre I: Etat de l’art

Les différents tests toxicologiques Tests d’Ames Le test d’Ames (ou bacterial reverse mutation test en anglais), décrit par Bruce Ames dans les années 1970, est un test fiable, UDSLGHSHXFR€WHX[hautement prédictifHWUHODWLYHPHQW IDFLOHjHIIHFWXHU utilisé afin de déterminer l’activité mutagénique d’un composé chimique88. Sa mise au point lui permet d’être DSSOLFDEOHjGHVVXEVWDQFHVD\DQWGHVSURSULpWpVSK\VLFR FKLPLTXHVWUqVGLYHUVHV OHVFRPSRVpVYRODWLOVSDUH[HPSOH   &HSHQGDQWFHUWDLQVSURGXLWVFKLPLTXHVPXWDJqQHVQHVRQWSDVGpFHOpVSDUFHV\VWqPHHWQH FRQYLHQQHQWSDVSRXUFHWHVW'DQVFHFDVGHILJXUHQRXVUHWURXYRQVQRWDPPHQWOHVFRPSRVpV IRUWHPHQWEDFWpULFLGHVHWFHX[TXLLQWHUIqUHQWVSpFLILTXHPHQWDYHFOHV\VWqPHGHUpSOLFDWLRQ GHVFHOOXOHVGHPDPPLIqUHV LQKLELWHXUVGHODWRSRwVRPpUDVH C’est pour cela que ce test est souvent employé comme premier test dans la détection de l’activité mutagène d’une substance chimique mais d’autres tests GH PXWDWLRQ VXU GHV FHOOXOHV GH PDPPLIqUHV SDU H[HPSOH  peuvent s’avérer plus appropriés89  Le principe du test d’Ames est décrit dans le fichier OCDE n° 471 de la réglementation européenne90. Il repose sur l’utilisation de différentes souches bactériennes de Salmonella typhimurium. Ces souches présentent une mutation dans leur gène les rendant incapables de synthétiser de l’histidine, acide aminé indispensable et nécessaire à leur développement.   Parmi les souches possibles, nombreuses sont celles qui SHXYHQWIRXUQLUGHVLQIRUPDWLRQV XWLOHVVXUOHW\SHGHPXWDWLRQVLQGXLWHVSDUOHVDJHQWVDFWLIVet leur position dans l’ADN$X PRLQV FLQT VRXFKHV GRLYHQW rWUH utilisées dans le test d’Ames: la souche TA98 (la plus utilisée et la plus sensible aux mutations qui affectent le cadre de lecture), TA100 (plus sensible aux mutations de substitutions), TA1535 (qui engendre généralement des substitutions de bases) et TA1537 (qui engendre la délétion d’un nucléotide) ou TA97. Ainsi, la souche «TA98» par exemple est nommée de la sorte pour la mutation de la thymidine (T) en Adénosine (A) en position 98 de l’ADN.  Ces souches bactériennes de Salmonella typhimurium possèdent des paires de bases GC sur leurs sites primaires de réversion. Afin de déceler également certains mutagènes oxydants, les hydrazines ou les agents de réticulation qui possèdent des SDLUHV GH EDVHV $7 VXU OH VLWH SULPDLUHGHUpYHUVLRQ, l’utilisation de la souche TA102 est également essentielle  /H WHVW évalue la facilité qu’a XQH VXEVWDQFH FKLPLTXH j LQGXLUH XQH LQYHUVLRQ GH OD PXWDWLRQGDQVOHVJqQHVQpFHVVDLUHVà la synthèse de l’histidineGDQVODVRXFKHG HVVDLDILQGH UpWDEOLUODFDSDFLWpIRQFWLRQQHOOHGHVEDFWpULHVGHV\QWKpWLVHUFHWDFLGHDPLQpLQGLVSHQVDEOH /HVVRXFKHVDXGpSDUWsont incapables de synthétiser de l’histidineHOOHVVRQWGRQF+LV6RXV l’effet de la substance WHVW GHX[ FDV VRQW j HQYLVDJHU 'DQV OH SUHPLHU FDV OD VRXFKH QH synthétise toujours pas d’histidine, elle UHVWH+LV–et n’est donc pas affectéeSDUODVXEVWDQFH

53 Chapitre I: Etat de l’art

FKLPLTXH/DVXEVWDQFHHVWGRQFQRQPXWDJqQH'DQVOHGHX[LqPHFDVODVRXFKHLQLWLDOHPHQW +LV PXWH HQ +LV &H SKpQRPqQH HVW XQH PXWDWLRQ LQYHUVpH GH OD FDSDFLWp GH OD VRXFKH bactérienne à synthétiser de l’histidine et conduit à l’apparition de bactéries mutpHV /D VRXFKH HVW GRQF DIIHFWpH SDUOD VXEVWDQFH FKLPLTXH HW FHWWH GHUQLqUHHVW FRQVLGpUpHFRPPH PXWDJqQH )LJXUH  

Figure 17: Les différentes étapes nécessaires à l'élaboration du test d'Ames.  'DQVFHUWDLQVFDVXQDFWLYDWHXUPpWDEROLTXHSHXWrWUHQpFHVVDLUHHWajouté lors du test afin de stimuler l'effet du métabolisme des bactéries. En effet, certains composés chimiques n’induisent une activité mutagénique qu’une fois leur métabolisme activé. La plus couramment utilisée est la fraction mitochondriale additionnée de cofacteur (S9) préparée à partir de foies de rongeurs (généralement le rat) traités avec des agents enzymatiques tels que l’Aroclor 1254 ou une combinaison de phénobarbital et de ȕnaphthoflavone91.   &HSHQGDQWOHFKRL[GXV\Vtème d’activation métabolique dépend de la classe chimique du FRPSRVpWHVWp(QHIIHWGDQVOHFDVGHVFRPSRVpVGLD]RXQV\VWqPHPpWDEROLTXHUpGXLWSHXW rWUHSOXVDSSURSULp  Plusieurs méthodes peuvent être réalisées lors du test d’Ames. &KDFXQHGHFHVPpWKRGHV SHXWrWUHXWLOLVpHDYHFHWVDQVDFWLYDWLRQPpWDEROLTXH/DSUHPLqUHPpWKRGHODSOXVFRXUDQWH HVWXQHPpWKRGHSDULQFRUSRUDWLRQGLUHFWHGHVEDFWpULHVGDQVODERvWHGH3pWUL PpWKRGHSDU pWDOHPHQW  /D GHX[LqPH PpWKRGH HVW XQH PpWKRGH SDU VXVSHQVLRQ R OHV EDFWpULHV VRQW

54 Chapitre I: Etat de l’art mélangées avec une couche d’agar de surface et GpSRVpHV LPPpGLDWHPHQW VXU XQ PLOLHX PLQLPXP'DQVODWURLVLqPHHWGHUQLqUHPpWKRGHTXLHVWXQHPpWKRGHSDUSUpLQFXEDWLRQOH PpODQJHGHtraitement est incubé et ensuite mélangé avec une couche d’agar de surface avant G rWUHpWDOpVXUXQPLOLHXPLQLPXP/DPpWKRGHSDUSUpLQFXEDWLRQHVWSULYLOpJLpHDYHFGHV VXEVWDQFHVFKLPLTXHV WHOOHVTXHOHVQLWURVDPLQHVDOLSKDWLTXHVjFRXUWHV FKDvQHVOHVPpWDX[ ELYDOHQWV OHV DOGpK\GHV OHV FRORUDQWV D]RwTXHV HW FRPSRVpV GLD]RwTXHV HW OHV FRPSRVpV QLWUpV92,93 /HVUpVXOWDWVVRQWGRQQpVHQIRQFWLRQGXQRPEUHGHFRORQLHVpar plaque testée. Il n’est pas QpFHVVDLUH GH IDLUH GHV YpULILFDWLRQV VXSSOpPHQWDLUHV VL OD UpSRQVH HVW FODLUHPHQW SRVLWLYH Dans le cas d’une réponse équivoque ou douteuse, d’autres tests seront nécessaires pour FODULILHU OH UpVXOWDW PRGLILFDWLRn d’une condition expérimentale, d’XQ SDUDPqWUH GH l’expérimentation RX HQ DXJPHQWDQW OHV FRQFHQWUDWLRQV SDU H[HPSOH  /HV UpVXOWDWV QpJDWLIV GRLYHQWrWUHFRQILUPpVDXFDVSDUFDV 7Hst d’aberrations chromosomiques Le test d’aberration chromosomique in vitro (CA) est un test utilisé afin de détecter les aberrations chromosomiques provoquées par un composé chimique dans les cellules de mammifères. Le principe du test est décrit dans le fichier OCDE n° 473 de la réglementation européenne94. Une aberration chromosomique modifie la séquence génomique d’un chromosome. Cette modification peut concerner soit une anomalie de structure (absence ou un nombre plus important d’un gène) soit une anomalie de nombre ou aneuploïdie (altération du caryotype avec absence ou un nombre plus important de chromosomes)95. Les conséquences biologiques des aberrations chromosomiques sont souvent plus importantes car elles peuvent entraîner la perte de gènes suppresseurs de tumeurs ou encore l’activation d’oncogènes.   Les aberrations chromosomiques peuvent être de deux types: chromosomiques ou chromatidiques. La majorité des aberrations est de type chromatidique et ne concerne donc qu’une seule chromatide, une seule partie du chromosome. Les aberrations de type chromatidique impliquent des aberrations asymétriques et peuvent ainsi provoquer des cassures ou des brèches dans l’ADN. Les aberrations de type chromosomique sont des aberrations symétriques impliquant les chromosomes et/ou les deux chromatides. Elles peuvent provoquer la formation de chromosomes dicentriques (deux centromères) (Figure 18).

55 Chapitre I: Etat de l’art

 Figure 18: Les aberrations de type chromatidiques ou de type chromosomiques. Les cassures simples et doubles brins sont provoquées par des aberrations de types chromatidiques. Les aberrations de type chromosomiques peuvent impliquer des translocations réciproques, des délétions, des inversions et des insertions.  /HVWHVWVG DEHUUDWLRQFKURPRVRPLTXHin vitroVRQWSUDWLTXpVVXUGLYHUVHVOLJQpHVFHOOXODLUHV ovaires de hamster chinois (ou Chineses Hamster Ovaries (CHO)), poumons de hamster chinois (ou Chinese Hamster Lung (CHL)) ou sur des cultures de cellules primaires (humain ou des lymphocytes de sang périphérique d’autres mammifères). Les cellules employées doivent être scientifiquement justifiées et choisies enIRQFWLRQGHOHXUFDSDFLWpGHFURLVVDQFH HQFXOWXUHHWGHODVWDELOLWpGXQRPEUHGHFKURPRVRPHV  Les essais d’aberrations chromosomiques nécessitent généralement un système exogène de PpWDEROLVDWLRQ. L’activateur S9 mix est principalement utilisé dans ce test. Cependant, pour ne pas conduire à des résultats faussement positifs (cytotoxicité excessive, changement de pH ou d’osmolarité), le système d’activation métabolique ne peut pas imiter totalement les conditions in vivo du mammifère96 (Figure 19). 

56 Chapitre I: Etat de l’art

 Figure 19: Les étapes nécessaires à l’élaboration du test d'aberrations chromosomiques.  7HVWVXUOLJQpHVFHOOXODLUHVGHO\PSKRPHGHVRXULV 0/$  Le test de mutagenèse cellulaire de lymphome de souris (MLA) fait partie des tests in vitro nécessaires à l’établissement du profil génotoxique d’une molécule. Le principe de ce test est 97 décrit dans le fichier OCDE n° 490 de la réglementation européenne . Il est conçu pour détecter des mutations au locus de la Thymidine Kinase (TK) dans une culture de cellules de mammifères induites par une substance chimique98. La lignée cellulaire est principalement des cellules de lymphome de souris L5178Y TK+/ dérivées d’un lymphome thymique induit par la méthylcholanthrène. Les mutations détectées sont essentiellement des échanges de paires de bases, des modifications du cadre de lecture et des délétions.  La thymidine monophosphate (TMP) est une des unités de base constituant l’ADN. Elle est constituée d’une base azoté «thymine» et d’un sucre de 2’déoxyribose lié à un groupement phosphate (Figure 20). 

57 Chapitre I: Etat de l’art

 Figure 20: Thymidine monophosphate (TMP).  La TMP occupe une position unique dans la réplication de l’ADN. En effet, seule, elle ne peut subir de conversion en d’autres nucléotides. Cette conservation rend la TMP constante dans des conditions normales de croissance et sert ainsi de régulateur de la synthèse de l’ADN. La phosphorylation des analogues de la TMP (analogue létal par exemple) est causée par l’enzyme de récupération de la TK. Cette dernière, phosphoryle la thymidine en TMP dans les cellules de mammifères. /HV FHOOXOHV GpILFLHQWHV HQ 7. QH SRVVqGHQW SDV FHWWH DFWLYLWpHQ]\PDWLTXHHWVRQWGRQFUpVLVWDQWHVjO HIIHWF\WRWR[LTXHGHVDQDORJXHVOpWDX[Le test de mutagenèse cellulaire de lymphome de souris, les cellules L5178Y (TK+/+ ou TK+/) sont traitées avec la substance chimique test. Après une certaine période d'expression (deux jours), les cellules sont déplacées vers un milieu sélectif contenant les analogues létaux tels que la trifluorothymidine (TFT) qui inhibent le métabolisme cellulaire et entrainent l’arrêt de la division cellulaire (1214 jours). Ainsi, la nature hétérozygote du gène TK permet de détecter les colonies viables de celles qui sont déficientes en enzyme TK après mutation de TK+/en TK/. En effet, seules les cellules mutantes TK/ peuvent survivre sous les conditions de sélections car la TFT ne peut pas être incorporée dans l’ADN de ces cellules mutantes qui survivent pour former des colonies. La mutagénicité du composé test est évidente par 99 l’augmentation du nombre de mutants .   Les deux phénotypes obtenus induisent des changements structuraux différents. En effet, les mutants TK/ qui induisent une croissance lente sont associés à des substances qui induisent des changements structuraux importants au niveau chromosomique (réarrangements, recombinaisons mitotiques…). Les mutants TK+/ qui induisent une croissance normale sont associés à des substances qui induisent des mutations au niveau des gènes (ponctuelles, délétions, modification du cadre de lecture…) (Figure 21).  Comme précédemment au test d’aberrations chromosomiques, le test de mutagenèse cellulaire de lymphome de souris peut nécessiter l’utilisation d’XQ V\VWqPH H[RJqQH GH PpWDEROLVDWLRQ. Le système recommandé et le plus couramment utilisé est le S9 mix. 

58 Chapitre I: Etat de l’art

 Figure 21: Les différentes étapes nécessaires à l’élaboration du test MLA.  Test d’UDS Le test de synthèse non programmé de l’ADN (UDS) est le premier test in vivo à devoir être effectué dans la réglementation européenne. Le principe du test est décrit dans le fichier OCDE n° 486100. Son but est d’identifier les substances chimiques capables d’effectuer une réparation de l’ADN sur des cellules de foie (hépatocytes) des animaux traités. Elle permet de mettre en évidence la réparation de la synthèse d’ADN après excision et élimination d’un segment d’ADN contenant la région endommagée par l’agent chimique testé.  Cette méthode permet d’obtenir de manière indirecte des informations sur les effets génotoxiques d’une molécule et notamment de détecter des dommages génotoxiques grâce aux mécanismes de réparations qui s’en suivent.   Le test UDS est basé sur l’incorporation de nucléosides, généralement la thymidine, marqué au tritium (3H) dans l’ADN des cellules de mammifères101. Ces cellules sont principalement des cellules de foie de rats car ce dernier est le site du métabolisme où la molécule est absorbée. C’est donc un lieu approprié pour déterminer les dommages à l’ADN in vivo. De plus, ces cellules ne doivent pas être en phase S du cycle cellulaire. En effet, bloquées en G0, les cellules prolifèrent mais ne se divisent pas. Ainsi, l’absorption de thymidine tritiée (+TdR) dans les cellules ne subissant pas de synthèse d’ADN en phase S est le critère d’évaluation du test UDS. La méthode la plus utilisée pour déterminer l’absorption de +7G5HVWO’autoradiographie. 3OXVOHILOPUDGLRJUDSKLTXHHVWQRLUSOXVOHV dommages à l’ADNVRQWLQWHQVHV )LJXUH 

59 Chapitre I: Etat de l’art

 Figure 22: Les étapes nécessaires à l’élaboration du test UDS.  Cependant le test UDS est dépendant du nombre de bases excisées ou éliminées au niveau du dommage pour permettre sa détection. En effet, il peut facilement, sous l’action d’une molécule chimique, détecter la réparation de longues séquences constituées de 20 à 30 bases (Longpatch). Il lui est plus difficile de détecter la réparation pour des petites séquences d’une à trois bases (Shortpatch). Dans le cas d’un test UDS, le mécanisme de réparation principal est un mécanisme par excision de base (Base Excision Repair (BER) en anglais) (Figure 23).

 Figure 23: Mécanisme de réparation de l'ADN en fonction du nombre de bases impliquées dans le dommage. Cette figure montre les deux voies de réparation de l’ADN en fonction du nombre de bases impliquées dans le dommage. Le mécanisme de réparation principal implique une excision de base. Lorsque l’ADN est endommagé, l’ADN glycosylase (permettant de cliver les bases impliquées dans la lésion) ainsi que l’endonucléase AP (permettant l’ouverture du brin d’ADN et la création d’un site apurique ou apyrimidique) interviennent immédiatement pour corriger le problème. L’ADN polymérase permet alors de combler les nucléotides manquant à partir du brin complémentaire. La ligase permet la fermeture et la ligature de l’ensemble du brin ou des brins corrigés. La voie Longpatch est utilisée lorsque le dommage implique 20 à 30 bases et la voie Shortpatch lorsque le dommage implique 2 ou 3 bases. Ce schéma est issu du site:  http://m.20bal.com/doc/3372/index.html.

60 Chapitre I: Etat de l’art

La réponse au test UDS ne fournit pas d’indication précise sur la fidélité du processus de réparation. En effet, il est possible qu’une molécule mutagénique réagisse avec l’ADN mais que la lésion ne soit pas réparée par un mécanisme d’excision et de réparation. C’est pour cela que l’effet mutagénique est mesuré sur l’ensemble du génome.  Toute substance génotoxique peut potentiellement induire une réparation de l’ADN et donc conduire à des résultats faussement positifs. C’est pour cela que deux doses sont généralement testées: la dose létale (ou celle qui fournit une toxicité du foie) et une dose entre 25 et 50% de la dose létale. Bien évidemment si la substance est non toxique ou qu’elle possède une activité biologique à faible dose, ces critères peuvent être modifiés et les substances évaluées au cas par cas.  7HVWOpWDOGRPLQDQW Le test de mutation létale dominant (DLT) permet de déceler, suite à l’exposition à une substance chimique, si la substance chimique en question provoque des mutations dans les cellules germinales (ovocytes et spermatozoïdes) de l’animal traité. Ce test, in vivo, FRQVWLWXH XQLQGLFDWHXUSHUWLQHQWSRXUSUpGLUHOHULVTXHGHSDWKRORJLHVJpQpWLTXHVchez l’homme Les mutations létales dominantes supposent qu’une mutation s’est produite dans l’œuf ou les spermatozoïdes SURYRTXDQWDLQVLla mort de l’embryon ou du fœtus et ce, suite à l'injection du mutagène dans le sujet test (rongeur) à un moment précis avant l'accouplement102,103. Les mutations généralement produites résultent d’anomalies numériques et structurales et donc d’aberrations chromosomiques majeures. Le principe du test de mutation létale dominant est décrit dans le fichier OCDE n° 478 de la réglementation européenne104.   En fonction de l’objectif du test de mutation létal dominant, le régime d’exposition à la substance chimique et l’accouplement ne sont pas les mêmes. En effet, si l’objectif est de déterminer si une substance chimique provoque des mutations létales dominantes alors le cycle d’exposition consistera en un accouplement en fin de cycle et un cycle entier de spermatogenèse (VRLW VHSW VHPDLQHV FKH] OD VRXULV j UDLVRQ GH FLQT j VHSW WUDLWHPHQWV SDU VHPDLQH . Si l’objectif est de UHFHQVHUOHW\SHGHFHOOXOHJHUPLQDOHVHQVLEOHjXQHLQGXFWLRQGH PXWDWLRQ OpWDOH GRPLQDQWH le cycle d’exposition sera unique ou de FLQT jours et d’un DFFRXSOHPHQWKHEGRPDGDLUH Par la suite, au cours de la seconde moitié de la gestation (13ème jour pour les souris et 15ème jour pour les rats) les femelles sont euthanasiées, l’utérus examiné et le nombre d’embryons implantés, vivants et morts, ainsi que la mortalité après implantation sont déterminés (Figure 24).

61 Chapitre I: Etat de l’art

 Figure 24: Les différentes étapes nécessaires à l’élaboration du test DLT.  Une comparaison entre le nombre d’embryons implantés dans un témoin et le nombre d’embryons implantés par femelle dans le groupe traité permet de déterminer la létalité dominante.   Ce test est utilisé en combinaison d’autres tests de toxicité car il est très fastidieux à réaliser et onéreux en termes de temps et de nombre d’animaux. Il n’a donc pas vocation à être utilisé en première intention.  &DUFLQRJpQLFLWp Les premières lignes directrices sur la carcinogénicité sont apparues en 1981. Par la suite, elles ont subi quelques modifications afin de prendre en compte le bienêtre animal et les progrès scientifiques. Le principe du test de carcinogénicité est décrit dans le fichier OCDE 105,106 n°°451 de la réglementation européenne .  Le but du test de carcinogénicité est d’identifier les substances chimiques capables d’induire des propriétés cancérigènes (néoplasmes malins) ou d’en augmenter le risque. Il peut également être utilisé pour identifier l’organe cible de cancérogénicité, caractériser la relation doseréponse de la tumeur, extrapoler les effets carcinogènes à des niveaux d’exposition faibles, fournir des informations sur les risques éventuels pour la santé susceptible d’apparaître et tester des hypothèses concernant différents modes d’action107. Afin d’évaluer au mieux ce test et sa pertinence, des informations complémentaires doivent être

62 Chapitre I: Etat de l’art obtenues avant d’effectuer ce test dont notamment des données toxicologiques (mutagénicité, tests in vitro, toxicocinétiques (dose unique, dose répétée), tests de toxicité à dose répétée sur 28 jours et 90 jours).  Ce test est basé sur une exposition journalière graduelle et répétée de la substance chimique d’essai sur des espèces telles que les rongeurs (préférentiellement le rat et la souris).  Le rat et la souris sont les modèles expérimentaux préférés du fait de leur vie courte, de leur disponibilité et de leur utilisation généralisée, ainsi que de leur susceptibilité à l’induction tumorale.  La substance est administrée durant toute la vie de l’animal (environ 24 mois) par voie orale principalement. La dose appropriée utilisée dépend de l’objectif de l’étude, de la voie et de la méthode d’administration choisie et des informations complémentaires à l’étude préalablement obtenues. Par exemple, pour une administration par voie orale et par gavage, la substance est donnée cinq jours par semaine pendant 24 mois.  Au début de l’étude, à des fins d’acclimatation et de bienêtre, les animaux doivent être laissés, pendant au moins sept jours, dans les conditions de laboratoire. La variation de poids de chaque animal doit alors être minime et ne pas dépasser “GXSRLGVPR\HQGHWRXVOHV animaux de l’étude.   L’étude s’arrête lorsque le nombre de survivants tombe en dessous de 25% dans les groupes dont la substance est administrée à faible dose, lorsque la survie de chaque sexe d’animaux doit être considérée séparément ou lorsqu’il n’y a plus de données statistiques suffisantes. Tous les animaux de l’étude sont soumis à une autopsie rigoureuse et détaillée avec un examen précis des organes (aorte, colon, cerveau), des surfaces externes du corps de l’animal (orifices, peau), de leurs formes… 5HSURWR[LFLWp Le test de reproduction et de toxicité développementale a pour but de déterminer l’effet que produit une substance chimique sur le fonctionnement de la reproduction chez le mâle et la femelle. Ceci en étudiant en particulier la fertilité (fonction gonadique, spermatogénèse (mobilité, morphologie)), l’accouplement (conception et comportement), la gravidité, le développement pré et post natal (allaitement, comportement juvénile), le développement de la descendance, le comportement maternel et la parturition62. Le principe du test de reprotoxicité 108 est décrit dans le fichier OCDE n° 421 de la réglementation européenne .  Le test de reproduction s’effectue majoritairement par voie orale (gavage, alimentation, véhicule), à des doses pFKHORQQpHVVXUSOXVLHXUVJURXSHVGHUDWVPkOHVHWIHPHOOHV'DQVFH WHVWseul le rat est utilisé et toute utilisation d’une autre espèce doit être justifiée. La variation de poids de chaque animal doit alors être minime et ne pas dépasser “GXSRLGVPR\HQ GHWRXVOHVDQLPDX[de l’étude pour chaque sexe. 

63 Chapitre I: Etat de l’art

L’ensemble des animaux sont maintenus dans leurs cages avant le début de l’étude durant au moins cinq jours à des fins d’acclimatation, de bienêtre (humidité, température, éclairage…) et protection (alimentation, nidation…). Les mâles reçoivent la substance test, chaque jour de la semaine, pendant quatre semaines minimum, correspondant à un minimum de deux semaines avant et après l’accouplement soit au minimum 28 jours (fin de la période totale d'administration). Les femelles reçoivent la substance test, chaque jour de la semaine, tout au long de l’étude en commençant au minimum deux semaines avant l’accouplement (de manière à englober au moins deux cycles œstraux complets) jusqu’au sacrifice. L’étude s’étend généralement sur environ 63 jours pour les femelles MRXUVDYDQWO DFFRXSOHPHQWXQPD[LPXPGHMRXUVSRXUO DFFRXSOHPHQW MRXUVGHJHVWDWLRQMRXUVGHODFWDWLRQ   Dès que les animaux ont atteint leur maturité sexuelle, l’accouplement est mis en place et l’étude peut commencer. La maturité sexuelle varie selon les espèces mais est généralement de dix semaines pour les rats Sprague Dawley et d’environ GRX]H VHPDLQHV SRXU OHV UDWV :LVWDU  /RUV de la fin de l’étude (VDFULILFH RX PRUW de l’animal), OHV DQLPDX[ VRQW VRXPLV j XQ H[DPHQPDFURVFRSLTXHHWKLVWRORJLTXHYLVDQWjPHWWUHHQpYLGHQFHG pYHQWXHOOHVDQRPDOLHVRX PRGLILFDWLRQV GX GpYHORSSHPHQW HWRX GH OD UHSURGXFWLRQ IHUWLOLWp IRQFWLRQQHPHQW GHV organes (ovaires, testicules, glandes), morphologie…)/ pYDOXDWLRQSRUWHUDVXUODSUpVHQFHRX O DEVHQFHO LQFLGHQFHHWODJUDYLWpGHVDQRPDOLHV OpVLRQVJURVVLqUHVFOLQLTXHVO LQIHUWLOLWpOHV SRUWpHV   Ces lignes directrices sur la reproduction et le développement permettront de décider s’il y a lieu d’approfondir d’avantage les données et les recherches mais surtout d’apporter des voies de recherches pour la conception d’études ultérieures.

 &KHPRPpWULH

Les outils de prédiction in silico 'HSXLV TXHOTXHV DQQpHV LO \ D XQ EHVRLQ XUJHQW GH GpYHORSSHU GHV WHFKQLTXHV FDSDEOHV d’identifier l’effet toxique que produira un composé chimique sur l’homme et l’environnement. En effet, les tests ADMET in vitroHWin vivo VRQW ORQJV FRPSOH[HV HW UHODWLYHPHQWFKHUVHQWHUPHVGHUHVVRXUFHVUpDFWLIVHWWHFKQLTXHVGHdétection. C’est pour cela que des techniques basées sur l’utilisation d’outils informatiques (in silico) RQW pWp GpYHORSSpHV et prennent de plus en plus d’importance109 Elles sont particulièrement bien adaptées car ce sont des techniques rapides, peu coûteuses, qui peuvent être utilisées sans posséder physiquement le composé chimique et notamment lorsque l’expérimentation réelle est trop difficile, trop dangereuse ou éthiquement inacceptable110. L’utilisation de l’approche in silico dans l’évaluation des propriétés physicochimiques et des dangers toxicologiques est en accord avec les recommandations de REACh (Règlement 1907/2006/CE).

64 Chapitre I: Etat de l’art

,O H[LVWHXQJUDQGQRPEUHGHPpWKRGHV in silico    OHVSOXV SULVpHVVRQW OHV méthodes dites à «lecture croisée» (ou read across en anglais) car elles sont simples à utiliser et capables de formuler des hypothèses sur la toxicité en comparant un petit nombre de molécules fortement analogues; (2) OHVV\VWqPHVH[SHUWVSUpFpGHPPHQWFLWpVTXLLPLWHQWOH UDLVRQQHPHQW KXPDLQ VXU OHV SKpQRPqQHV WR[LFRORJLTXHV   Oes méthodes QSAR (Quantitative Structure Activity Relationship en anglais) qui sont des outils particulièrement bien adaptés pour le calcul des propriétés physicochimiques des molécules dangereuses; (4) les méthodes de recherche de similarité et (5) les méthodes d'apprentissage automatiques (ou Machine Learning (ML) en anglais) dont les prédictions sont extrêmement précises sur des données tests, rapides et applicables à toutes tâches d’apprentissage souvent incapables d’être exprimées par d’autres moyens111. 46$5 Il existe en modélisation moléculaire, des modèles qualitatifs et quantitatifs in silico mettant en relation la structure d’une molécule avec son activité biologique. 8QH UHODWLRQ VWUXFWXUHDFWLYLWp 6WUXFWXUH$FWLYLW\ 5HODWLRQVKLS 6$5  HQ DQJODLV  HVW XQH DVVRFLDWLRQ TXDOLWDWLYHHQWUHXQHVWUXFWXUHFKLPLTXHHWOHSRWHQWLHOGHODVXEVWDQFHFKLPLTXHjPDQLIHVWHU XQHIIHWELRORJLTXH  8Q46$5D pour but de déterminer une prédiction quantitative de la molécule en mesurant 112,113 l’activité biologique de la molécule en se basant sur sa structure chimique .   Les approches qualitative et quantitative peuvent à la fois jouer un rôle important. Cependant, seule l’approche QSAR représente une véritable innovation car c’est un RXWLO flexible qui, non seulement autorise l’utilisateur à moduler sa réponse selon ses différents REMHFWLIV HW H[LJHQFHV PDLV TXL DSSRUWH pJDOHPHQW XQH DPpOLRUDWLRQ VLJQLILFDWLYH dans les modèles qui sont amenés à prédire les propriétés physicochimiques et biologiques des molécules. Un large nombre de systèmes QSAR ont été développés et décrits dans la 114 littérature .  Une molécule peut être représentée par un ensemble d’attributs numériques appelés descripteurs moléculaires. Ces descripteurs sont soit le résultat de mesures expérimentales sur des molécules soit le résultat de procédures mathématiques qui transforment l’information chimique en une valeur numérique unique caractérisant les propriétés électroniques, hydrophobes, stériques, électroniques, conformationnelles et topologiques de cellesci. Cette dernière catégorie de descripteurs peut être divisée en trois: les descripteurs à une dimension (1D) représentant les différentes SURSULpWpV FDOFXOpHV j SDUWLU GH OD IRUPXOH EUXWH GH OD PROpFXOH QRPEUH G DWRPHV SRLGV PROpFXODLUH  Oes descripteurs à deux dimensions (2D) présentant l’information structurelle à partir de la structure en 2D d’une molécule (nombre de cycles, nombre de groupements CH…) et les descripteurs à trois dimensions (3D) représentent l’information dérivée de la représentation en 3D des molécules (surface et 115,116 volume moléculaire) .

65 Chapitre I: Etat de l’art

 L’élaboration d’un modèle QSAR repose sur l’application de fonctions mathématiques à l’aide d’une série de descripteurs moléculaires pour représenter OHVFDUDFWpULVWLTXHVFOpVRXles 117 propriétés des structures chimiques des molécules (Équation 1).   (1)     –‹˜‹–±ൌ σ ‹ š†‡• ”‹’–‡—”• 

Où ܭ௜ sont les coefficients multiplicateurs des descripteurs utilisés pour l’élaboration du modèle QSAR.   La méthode de traitement des données utilise communément une régression des moindres carrés partiels (Partial Least Squares (PLS) en anglais) ou encore un algorithme génétique.  Dans les années 1960, le travail de Hansch, père de la conception de molécules assistées par ordinateur et du concept QSAR, s'est révélé décisif dans le domaine de la pharmacologie. Il a supposé que, pour une série de molécules ayant un squelette assez proche dont seuls certains substituants varient, l'activité biologique étudiée devrait, elle aussi varier en fonction de ces substituants. Cette activité est estimée par une combinaison linéaire de trois types de descripteurs (hydrophobe, électronique et stérique) décrivant les divers substituants contenus dans la molécule. L'intérêt est de permettre la comparaison des effets des divers substituants sur l'activité étudiée. Si Hansch a travaillé avec trois descripteurs dans les années 1960, les programmes QSAR disposent aujourd’hui d’une à plusieurs centaines voire milliers de descripteurs différents118,119. 6LPLODULWp /D recherche de similarité structurelle parmi les molécules est l’un des outils les plus FODVVLTXHPHQWXWLOLVpVGDQVOHVWHFKQLTXHVGHSUpGLFWLRQin silicoLe but de cette méthode est d’effectuer une recherche de similarité structurale entre la substance moléculaire dont on cherche à prédire l’activité biologique et les molécules de la base de données120. %DVpHVXU XQHVpOHFWLRQYLUWXHOOHODVLPLODULWpVXSSRVHTXHWRXVOHVFRPSRVpVFRQWHQXVGDQVXQHEDVHGH GRQQpHVDQDORJXHVjXQFRPSRVpLQWHUURJpSRVVqGHQWGHVSURSULpWpVSK\VLFRFKLPLTXHVHWRX 121 XQHDFWLYLWpELRORJLTXHVLPLODLUH   3RXUDWWHLQGUHXQHKDXWHHIILFDFLWpGHVLPLODULWpTXLUHSRVHVXUODVpOHFWLRQGHPLOOLRQVGH FRPSRVpVGDQVXQHEDVHGHGRQQpHVODVWUXFWXUHPROpFXODLUHGHVPROpFXOHVHVWJpQpUDOHPHQW UHSUpVHQWpHSDUGHVFOHIVVWUXFWXUDOHVRXHPSUXQWHVPROpFXODLUHV ILQJHUSULQWVHQDQJODLV TXL SHXYHQW FRQWHQLU j OD IRLV GHV LQIRUPDWLRQV ' HW ' Ces clefs sont des descripteurs constitués d’une pluralité de valeurs de caractéristiques structurales (appelés ici «vecteurs de description»), permettant de caractériser les structures moléculaires et notamment de les discriminer entre elles. Les descripteurs 2DGRPLQHQWGDQVFHGRPDLQHFDULOVSHXYHQWWUDLWHU GH ODUJHV EDVHV GH GRQQpHV GH VWUXFWXUHV FKLPLTXHV DYHF XQH Gensité d’information 116 VXSpULHXUH 

66 Chapitre I: Etat de l’art

L’une des meilleures clefs structurales connues pour caractériser une molécule est la clef structurale MACCS 166 (pour Molecular ACCess System), publiée par la société MDL Information Systems. Cette clef structurale caractérise chaque molécule en s’appuyant sur une table de 166 fragments moléculaires choisis de manière suffisamment complexe pour espérer discriminer différentes molécules entre elles. Ainsi, un vecteur correspondant au nombre de 166 fragments moléculaires du MACCS est généré, dans lequel chaque valeur est un entier naturel (positif ou nul) traduisant les occurrences de chacun des 166 fragments moléculaires dans la molécule considérée. Une caractéristique de valeur nulle traduit donc l’absence du fragment correspondant dans la structure de la molécule. Au contraire, une valeur positive indique le nombre de fois où le fragment correspondant est présent au sein de la molécule, ou simplement sa présence au sein de la molécule (Figure 25). 

  Figure 25: Descripteurs structuraux associés à son vecteur de description. Le descripteur MACCS utilisé dans cette thèse est un descripteur possédant un vecteur de 166 fragments moléculaires caractérisant les occurrences de chaque fragment dans la molécule test. Le cycle aromatique correspond au 2ème fragment moléculaire présenté dans le vecteur. La présence de ce fragment dans la molécule test provoque l’apparition d’un 1 (présence) à la position deux dans le vecteur. Le groupement nitro correspond au 8ème fragment moléculaire présenté dans le vecteur. La présence de ce fragment dans la molécule test provoque l’apparition d’un 1 à la position huit dans le vecteur. Il en est de même pour le dernier groupement cétone en position 166 du vecteur.  Afin de comparer deux molécules entre elles, et une fois leurs MACCS respectifs obtenus, une métrique est nécessaire pour produire une mesure numérique de la similarité entre ces deux molécules. 'LIIpUHQWHV PHVXUHV SHXYHQW rWUH XWLOLVpHV SRXU GpILQLU OD VLPLODULWp HQWUH REMHWV GLVWDQFH HXFOLGLHQQH SDU H[HPSOH  PDLV OD PpWULTXH OD SOXV populaire HVW FHOOH GX FRHIILFLHQW GH 7DQLPRWR (T) Équation 2). La similarité est mesurée en comparant, deux à deux, la présence ou l’absence de chaque caractéristique d’un MACCS entre les deux molécules.  ஺௫஻ (2)    T=  ԡ஺ԡమାԡ஻ԡమି஺௫஻

67 Chapitre I: Etat de l’art

Un coefficient de 0 signifie que les deux structures n’ont pas d’intersection. Un coefficient de 1 signifie que les deux structures ont des fingerprints identiques. La finalité consiste alors à classer par ordre de similarité croissant ou décroissant l’ensemble des molécules et former ainsi des clusters de propriétés physicochimiques et de toxicité proches. En sortie, il en résulte une liste triée dans laquelle les structures des molécules les plus similaires à la structure cible sont placées en tête de liste.  0DFKLQH/HDUQLQJ  Définition / DSSUHQWLVVDJH DXWRPDWLTXH DSSDUWLHQW DX GRPDLQH GHV VFLHQFHV FRPSXWDWLRQQHOOHV ,O concerne l’élaboration, l'étude, l’amélioration et l'implémentationd’algorithmes permettant de UpSRQGUHjGHVSUREOpPDWLTXHVGLIILFLOHVDX[TXHOOHVXQV\VWqPHFODVVLTXHQHVDWLVIHUDLWSDV/H U{OHGHFHVDOJRULWKPHVHVWGHGLVFHUQHUHWGHPRGpOLVHUODUHODWLRQH[LVWDQWHHQWUHXQHQVHPEOH GHGRQQpHVDILQGHSUHQGUHGHVGpFLVLRQVVWUDWpJLTXHVHWSHUPHWWUHODSUpGLFWLRQGHODWR[LFLWp d’une nouvelle molécule inconnue. La mise au point de l’algorithme est donc une étape HVVHQWLHOOH HW OLPLWDQWH GDQV OH VHQV R HOOH SHUPHWWUD GH UpVRXGUH XQH SUREOpPDWLTXH OD PROpFXOHHVWHOOHWR[LTXH" WRXWHQPLQLPLVDQWOHULsque d’erreur )LJXUH  

  Figure 26: Système de base de la stratégie prédictive. À partir d’une base de données initiale, l’utilisation d’un algorithme approprié permet l’apprentissage et la modélisation d’une relation entre l’ensemble de ces données et, lors de l’application d’une molécule test, de permettre la détermination de son activité (propriété toxique). L’étape de validation permet de justifier de la qualité du modèle.   &HWWHPpWKRGHDQDO\WLTXHJpQpUDOHPHQWLPSOpPHQWpHVXUGHVRUGLQDWHXUVRXGHVPDFKLQHV système, trouve plusieurs domaines d’applications tels que   SHUFHSWLRQ GH l’HQYLURQQHPHQW YLVLRQUHFRQQDLVVDQFHG REMHWV   DLGHDX[GLDJQRVWLFVPpGLFDX[ PDODGLH d’Alzheimer) HW FKpPRLQIRUPDWLTXH   FODVVLILFDWLRQ GHV VpTXHQFHV G $'1 RX HQFRUH   DQDO\VHSUpGLFWLYH Il existe de nombreux avantages à l’utilisation de l’apprentissage automatique dont notamment d’obtenir des prédictions extrêmement SUpFLVHV VXU GHV GRQQpHV WHVWV HW XQH LQWHUDFWLRQULFKHHQWUHWKpRULHHWSUDWLTXH SUpdiction/expérimentation), d’être peu onéreuseHW

68 Chapitre I: Etat de l’art flexible ainsi que de pouvoir s’appliquer à toutes tâches d’apprentissage souvent incapableV d’être expriméHVpar d’autres moyens.L’apprentissage automatique permet aux scientifiques GHSURGXLUHGHVUpVXOWDWVILDEOHVHWUpSpWDEOHVDYHFXQFHUWDLQGHJUpGHSHUIHFWLRQQHPHQW  Algorithmes: champs et applications /HEXW GX0DFKLQH /HDUQLQJHVW GRQF GHGpWHUPLQHUOHPHLOOHXUDOJRULWKPHDSSOLFDEOHj QRWUHFDVTXHOOHqu’en soit sa complexité/HVDOJRULWKPHVXWLOLVpVHQ0/VRQWW\SLTXHPHQW FODVVLILps selon le mode d’apprentissage qu’ils emploienW,OVSHUPHWWHQWjXQV\VWqPHGDQV XQH FHUWDLQH PHVXUH G DGDSWHU VHV DQDO\VHV HW VHV UpSRQVHV HQ VH IRQGDQW VXU O DQDO\VH GH GRQQpHVHPSLULTXHVSURYHQDQWG XQHEDVHGHGRQQpHV données d’apprentissage   L’apprentissage supervisé  L’apprentissage supeUYLVpHVWXQSURFHVVXVG DSSUHQWLVVDJHDXWRPDWLTXHFRQVLVWDQWFRPPH H[SOLTXp SUpFpGHPPHQW j DQDO\VHU HW GpJDJHU XQ PRGqOH j SDUWLU G XQ HQVHPEOH d’apprentissage FRQVWLWXp GH SDLUHV HQWUpHVRUWLH et d’appliquer ce modèle préalablement DSSULVVXUGHQRXYHOOHVdonnées. L’apprentissage VXSHUYLVpIRXUQLWOHVGRQQpHVQpFHVVDLUHVj ODFODVVLILFDWLRQGHQRXYHOOHVGRQQpHV SURFKDLQHVYDOHXUVSUpGLWHV  )LJXUHE 'DQVFHFDV Oj OHV FODVVHV DLQVL TXH OHV FULWqUHV GH FODVVLILFDWLRQ VRQW SUpGpWHUPLQpV 1RXV FRQQDLVVRQV H[DFWHPHQWFHTXHQRXVVRXKDLWRQVDSSUHQGUHFODVVHUHWSUpGLUHIl s’agit d’uQDSSUHQWLVVDJH VWUXFWXUp DSSUHQDQW GHV GpFLVLRQV SDVVpHV SRXU SUpGLUH HW pWDEOLU OHV GpFLVLRQV VXLYDQWHV ,O H[LVWHGHQRPEUHXVHVPpWKRGHVd’apprentissage superviséHV TXHQRXVYHUURQVSDUODVXLWH  DQDO\VH GLVFULPLQDQWH OLQpDLUH DUEUH GH GpFLVLRQV RX 'HFLVLRQ 7UHHV '7  HQ DQJODLV  méthodes d’ensemble (ou Ensemble Methods (EM) en anglais), réseaux de neurones (ou $UWLILFLDO 1HXUDO 1HWZRUN $11  HQ DQJODLV  HW PDFKLQHV j YHFWHXUV GH VXSSRUW 6XSSRUW 9HFWRU0DFKLQHV 690 HQDQJODLV   L’apprentissage non supervisé  L’apprentissage non supervisé VHGLVWLQJXHGHO DSSUHQWLVVDJHVXSHUYLVpSDUOHIDLWTX LOQ \ DSDVGHVRUWLHa priori(QHIIHWOHV\VWqPHQHGLVSRVHSOXVGHFODVVHVSUpGpWHUPLQpHV HQ QRPEUHRXHQQDWXUH PDLVXQLTXHPHQWGHFULWqUHVGHFODVVLILFDWLRQ )LJXUHF / DOJRULWKPH WUDLWHFHVGRQQpHVFRPPHGHVYDULDEOHVDOpDWRLUHVHWGRLWGpFRXYULUSDUOXLPrPHODVWUXFWXUH JpQpUDOH GHV GRQQpHV OHV GpILQLU VHORQ OHXUV FDUDFWpULVWLTXHV GLVSRQLEOHV HW OHV FODVVHU HQ JURXSHVKRPRJqQHVGHFDUDFWqUHVFRQQXV3DUODVXLWHF HVWjO H[SHUWGHGpWHUPLQHUTXHOVHQV GRQQHU j FKDTXH JURXSH HW FKDTXH PRWLI G DSSDULWLRQ REWHQXV 'LYHUV ORJLFLHOV HW RXWLOV PDWKpPDWLTXHV SHXYHQW faciliter l’DLGH à l’analyse. Il existe GH QRPEUHXVHV PpWKRGHV d’apprentissage QRQVXSHUYLVpGRQWQRWDPPHQWOHSDUWLWLRQQHPHQWGHGRQQpHV RXFOXVWHULQJ HQDQJODLV 

69 Chapitre I: Etat de l’art

 Figure 27: Comparaison apprentissage supervisé et non supervisé. (b) Pour l’apprentissage supervisé, àpartir d’un ensemble différentHWSUpGpWHUPLQpGHFODVVHVGHGRQQpHV LFLGHVQXDJHVGHV pOpSKDQWVGHVpWRLOHVHWGHVFKDWV l’algorithme apprend à reconnaitre les données les unes par rapport aux autres de manière plus ou moins correcte. Lorsqu’une nouvelle donnée lui sera fourni, il dégagera un modèle à partir de ce qu’il aura appris SUpFpGHPPHQWHWpWDEOLUDXQUpVXOWDWGHSUpGLFWLRQSDUUDSSRUWjFHPRGqOH (c) Pour l’apprentissage non supervisé, aucune classe n’est prédéterminée. / DOJRULWKPH GRLW GpFRXYULU SDU OXLPrPH OD VWUXFWXUHJpQpUDOHGHVGRQQpHVOHVFDUDFWpULVHUHWOHVFODVVHUHQJURXSHVKRPRJqQHVGHFDUDFWqUHVFRQQXVSRXUTXHOorsqu’une QRXYHOOHGRQQpHOXLHVWIRXUQLHLOSXLVVHODFODVVHU &HWWHILJXUHHVWLVVXHGXVLWHKWWSVIUVOLGHVKDUHQHW   Décisions ,O H[LVWH WURLV VRUWHV GH GpFLVLRQV ORUVTXH O RQ FRQVLGqUH OD VRUWLH VRXKDLWpH G XQ V\VWqPH G DSSUHQWLVVDJHDXWRPDWLTXHIl s’agit de la classification, de la classification multiFODVVHVHW HQILQGHODUpJUHVVLRQ  La classification C’est la décision la plus basiqueSRXUFHW\SHGHPpWKRGHin silicoOHEXWpWDQWGHJURXSHU HWGHFODVVHUFKDTXHGRQQpHHQO DVVRFLDQWjXQHFODVVHVSpFLILTXHGXSUREOqPHjUpVRXGUH/D UpSRQVH HVW VRXYHQW GX W\SH ELQDLUH RXL  QRQ RX    'DQV QRWUH FDV OHV HQWUpHV VRQW GLYLVpHVHQGHX[FODVVHVPXWDJqQH RXL QRQPXWDJqQH QRQ RXFDUFLQRJpQLTXH RXL QRQ FDUFLQRJpQLTXH QRQ … 'DQVFHUWDLQVFDVLOHVW SRVVLEOHTXHOHVGRQQpHVQHVRLHQWQLVpSDUDEOHVQLFODVVLILDEOHV même dans le cas où un très bon algorithme d’apprentissage est appliqué. 8Q PDQTXH GH données d’HQWUpHVVXIILVDQWHVGHTXDOLWpVHWSHUWLQHQWHVSRXUUDLHQWHQrWUHODFDXVH  La classification multiclasses La classification multiclasses est utilisée dans les cas où les objets s’organisent en plus de deux catégories. Le but ici est d’apprendre d’un jeu de données finales. Ce type de classification impose que les classes forment une partition c’estàdire que chaque donnée ne possède qu’une unique classe associée. La technique de classification multiclasses la plus courante est la classification hiérarchique (ascendante ou descendante) souvent utilisée dans les arbres phylogénétiques.

70 Chapitre I: Etat de l’art

 La régression La régression est un processus permettant d’analyser et d’estimer les relations entre différentes variables expérimentales (variables indépendantes) et prédites (variables dépendantes). Son objectif est de WURXYHUODPHLOOHXUHUHODWLRQHQWUHOHVYDULDEOHVTXLVRQWHQ parfaite adéquation avec l’ensemble des données. En apprentissage automatique, les problèmes de prédiction d'une variable quantitative sont des problèmes de régression (données de sortie numérique) alors que les problèmes de prédiction d'une variable qualitative sont des problèmes de classification (données de sortie catégorielle). Le modèle de régression le plus connu est le modèle de régression linéaire (࢟ൌࢇ࢞൅࢈). La régression linéaire est une méthode simple et rapide souvent utilisée en première intention. Un modèle typique de régression linéaire est typiquement une droite affine qui décrit au mieux la relation existant entre des variables d’entrées (x) et des variables de sorties (y) en trouvant des pondérations spécifiques (coefficients) aux variables d’entrées.  Le but ici est de prédire la variable de sortie y en connaissant l’ensemble des variables x grâce à un algorithme d’apprentissage qui doit déterminer les coefficients a et b. Différents algorithmes peuvent être utilisés pour déterminer ces derniers: algorithme génétique, recuit simulé ouGHVFHQWHGHJUDGLHQW JUDGLHQWGHVFHQW 124 (Figure 28). 



 Figure 28: Les trois sortes de décision d’un système d’apprentissage automatique.   Architecture L’architecture générale d’un système d’apprentissage commence tout d’abord par la construction et la génération des données. Pour tirer parti de la puissance de l’apprentissage automatique, il est important d’avoir des données relatives au cas à traiter. Le Machine Learning est une méthode robuste qui ne requiert que peu de préparation au niveau des données. Cependant, il est important de comprendre la relation qui existe entre un ensemble de données et les différents paramètres qui entrent en jeu. Ceci permettra de prendre des décisions stratégiques et d’effectuer une prédiction de la toxicité d’une nouvelle molécule inconnue cohérente avec les données d’apprentissage.

71 Chapitre I: Etat de l’art

Une fois les données récupérées, il est important de procéder à un traitement de ces dernières. En effet, il est nécessaire de convertir les données en une forme «modélisable». Plusieurs transformations peuvent être appliquées: le nettoyage des données (élimination des doublons par exemple) ou l’application de formules mathématiques pour rendre lisibles et visibles les données à tout utilisateur. L’étape suivante est la modélisation. Elle permet de générer un modèle lorsque les données sont dans leur forme spécifique afin de trouver un motif qui fonctionnera sur l’ensemble du système et ce, grâce à un algorithme. Ce dernier permet de prendre des décisions, séparer les données en classes spécifiques (dans le cas d’apprentissage automatique par classification par exemple) et permettre la prédiction d’une donnée inconnue sur le problème posé. La partie «test du modèle» peut être longue et difficile.  La dernière étape est l’application du modèle obtenu à l’étape précédente pour la génération d’une nouvelle donnée. Cette étape est extrêmement rapide.  Evaluation de la qualité du modèle L’évaluation de la qualité du modèle est une étape primordiale à la réalisation de l’étude. Plusieurs procédés sont possibles et envisageables: (1) confronter la prédiction du modèle avec les valeurs observées sur un échantillon de la population (set de test ou de validation), (2) comparer les méthodes d’apprentissage sur un problème donné (biais, variance, taux d’erreur) et (3) estimer la fiabilité du modèle lorsqu’il est appliqué sur une nouvelle donnée inconnue au système (validation croisée)125.   Partie théorique $Biais Le terme de biais mesure l’écart entre la vraie valeur d’une variable et la valeur estimée statistiquement. Il répond à cette question: «De combien, en moyenne, les valeurs prédites diffèrentelles de la valeur réelle ?».   /HSUREOqPHGXELDLVHVWOLpjODFRPSOH[LWpGXPRGqOHFKRLVL. Si le modèle est trop simple SDUUDSSRUWDXSKpQRPqQHTXHQRXVYRXORQVPRGpOLVHU, le biais sera élevé. Inversement, si le modèle est plus complexe, le biais va diminuer. Lorsque le biais est égal à zéro, le modèle est dit «sans biais». %Variance Le terme de variance mesure la variabilité des prédictions de l’estimateur lorsqu’il est ajusté sur différentes instances du problème. C’est une mesure permettant de définir la dispersion d’un échantillon (ou d’une distribution) en fonction des données d’apprentissage. Elle répond à cette question principale: «'DQV TXHOOH PHVXUH OHV SUpGLFWLRQV GX PRGqOH VHURQWGLIIpUHQWHVVLGHVpFKDQWLOORQVSUpOHYpVVRQWGLIIpUHQWVVXUODPrPHSRSXODWLRQ"ªElle permet donc de déterminer la variabilité des différentes valeurs de l’échantillon par rapport à la moyenne. En effet, la variance calcule la moyenne des carrés des écarts. La moyenne arithmétique est définie comme suit (Équation 3):

72 Chapitre I: Etat de l’art

ଵ  ݔҧ ൌ σ௡ ݔ     (3) ௡ ௜ୀଵ ௜   .où ݊ est la taille de l’échantillon et ݔ௜ l’écart moyen à la variable݅  La notation habituelle de la variance d’une distribution est la suivante (Équation 4):  ଵ ߪଶ ൌ σ௡ ሺݔ െݔҧሻଶ      (4) ௫ ௡ ௜ୀଵ ௜  .Où ݔҧ est l'espérance du carré de la variable X et ݔ௜ le carré de l'espérance de X  La variance est toujours positive ou nulle. Dans ce dernier cas, cela signifie que l’ensemble des valeurs sont identiques.   D’une manière générale, une variance élevée indique que les valeurs de l’échantillon sont très écartées les unes des autres. Inversement, une variance faible indique que les valeurs de l’échantillon sont très proches les unes des autres. Le problème lié à la variance est qu’il est important de rendre le modèle moins dépendant aux variations du set d’apprentissage et donc, de diminuer la variance. CHWWH EDODQFH j WURXYHU HQWUH OD YDULDQFH WURS IRUWH HW OH ELDLV WURS pOHYp HVW DSSHOpH FRPSURPLVELDLVYDULDQFH RXELDVYDULDQFHWUDGHRII HQDQJODLV  &Erreur La provenance de l’erreur vient souvent du fait que les résultats sont généralisés à des molécules qui ne font pas partie de l’ensemble initial. Étant donné la variabilité chimique qui existe entre les molécules, il reste possible que cette généralisation mène à de fausses conclusions. Le résultat des prédictions est valide mais ne s'appliquera peutêtre pas à une autre population, même semblable. Lors de la planification d’une étude, il est important d’établir le risque d’erreur que nous pouvons tolérer126.   L’erreur de prédiction ou erreur quadratique, également appelée erreur quadratique moyenne (Mean Square Error (MSR) en anglais) ou risque quadratique, caractérise la précision du résultat obtenu. Elle SHXWrWUHGpFRPSRVpHHQWHUPHVGHELDLVHWGHYDULDQFH  La modélisation prédictive vise principalement à minimiser l’erreur d’un modèle afin de UHQGUHOHVSUpGLFWLRQVSOXVSUpFLVHV  'HX[QRWLRQVVRQWLPSRUWDQWHVjMXVWLILHULFLOHVRXVDSSUHQWLVVDJHHWOHVXUDSSUHQWLVVDJH ,O\DVRXVapprentissage (ou underfitting en anglais) lorsque le modèle n’a presque rien appris des données d’apprentissage. Dans cette situation, le modèle se comporte presque comme un JpQpUDWHXUDOpDWRLUH )LJXUHD ,O\DVXUDSSUHQWLVVDJH RXRYHUILWWLQJHQDQJODLV TXDQGOH PRGqOHSUpGLWSDUIDLWHPHQWOHUpVXOWDWGHVdonnées d’apprentissage, mais qu’il est incapable GH SUpGLUH FRUUHFWHPHQW GH QRXYHOOHV GRQQpHV ,O VXUYLHQW ORUVTX XQ PRGqOH FRPPHQFH j

73 Chapitre I: Etat de l’art

©PpPRULVHUª OHV GRQQpHs d’apprentissage plutôt que d’«DSSUHQGUHª j SDUWLU G’exemples précédents ou d’XQHWHQGDQFHSRXUJpQpUDOLVHUGHQRXYHOOHVVLWXDWLRQV )LJXUHF  

 Figure 29: Modèle de sous et surapprentissage. /HVpWRLOHVHQURXJHHWOHVSRLQWVHQYHUWGpILQLVVHQWGHX[FODVVHVGHGRQQpHV (a) Lors d’un sousapprentissage, le modèle obtenu n’a pas permis d’obtenir une classification optimale des données /H modèle n’a presque rien appris GXSURFHVVXVd’apprentissage E  Lors d’un surDSSUHQWLVVDJH OH PRGqOH DSSUHQG VXU une trop large gamme de données et d’informations. LorsquH OH modèle doit classer les données d’apprentissage, la classification est parfaite. En effet, le modèle n’apprend plus et mémoriVH l’ensemble des UpSRQVHVSRXUDERXWLUjODFODVVLILFDWLRQGHVGRQQpHV&HSHQGDQWORUVTX’une nouvelle donnée lui est IRXUQLH il n’arrive pas à généraliser et la classification de la nouvelle donnée est généralement fausse.  6XUOHVFKpPDFLGHVVRXV )LJXUH QRXVFRPSrenons aisément qu’au fur et à mesure que la complexité du modèle augmente, l’erreur de prédiction se réduit du fait d’un faible biais GDQVOHPRGqOHau détriment d’une haute variance/HPRGqOHFRPPHQFHDORUVjVRXIIULUGH VXUDSSUHQWLVVDJH/HPRGqOHVWDWLVWLTXHGpFULWXQHHUUHXUDOpDWRLUHDXOLHXGHODUHODWLRQVRXV MDFHQWH&HSHQGDQWORUVTXHODFRPSOH[LWpGXPRGqOHHVWWURSIDLEOHFHOXLFLSHXWVRXIIULUGH VRXVapprentissage c’estjGLUHd’un haut biais mais d’une faible YDULDQFH8QELDLVpOHYpSHXW rWUHOLpjXQDOJRULWKPHTXLPDQTXHGHUHODWLRQVSHUWLQHQWHVHQWUHOHVGRQQpHVHQHQWUpHHWOHV VRUWLHVSUpYXHVRXjGHVPRGqOHVWURSVLPSOHV/HVPRGqOHVDYHFXQIDLEOHELDLVSHUPHWWHQW quant à eux de représenter les données d’apprentissage avec plus dHSUpFLVLRQV

 

  Figure 30: Biais, variance et erreur en fonction de la complexité du modèle. &HWWHILJXUHHVWUHWURXYpH VXUOH VLWHKWWSVRSHQFODVVURRPVFRPFRXUVHVLQLWLH]YRXVDXPDFKLQHOHDUQLQJWURXYH]OHERQ FRPSURPLVHQWUHELDLVHWYDULDQFHLGU

74 Chapitre I: Etat de l’art

8Q PRGqOH VLPSOH permet d’pYLWHU GHV GRQQpHV DEHUUDQWHV SRXU REWHQLU XQ PRGqOH TXL SRVVqGH GHV FDSDFLWpV GH JpQpUDOLVDWLRQ VDWLVIDLVDQWHV 2U XQ PRGqOH FRPSOH[H HVW SDUIDLWHPHQW DGDSWp DX[ données d’apprentissage mais il a deV FDSDFLWpV GH JpQpUDOLVDWLRQ IDLEOHV  (QILQGHFRPSWHSRXUWURXYHUXQERQFRPSURPLVSOXVLHXUV DFWLRQVVRQWSRVVLEOHV   Wout d’abord réduire les dimensions du modèle (le nombre de variables en entrée) lorsque la YDULDQFHHVWH[FHVVLYHDILQGHVLPSOLILHUOHPRGqOH  QHSDVXWLOLVHUGHPRGqOHWURSVLPSOH SRXYDQWELDLVHUOHUpVXOWDWILQDOGHODSUpGLFWLRQ HQQHFDSWXUDQWSDVWRXWHODFRPSOH[LWpGX SUREOqPH  Qe pas devenir trop dépendant aux données d’entrainement et aux fluctuations DOpDWRLUHV SRXU QH SDV DXJPHQWHU OD FRPSOH[LWp GX PRGqOH HW   XWLOLVHU XQH PpWKRGH d’entrainement adaptéeau modèle (méthodes d’ensemble). 8Q ERQPRGqOH HVW XQ PRGqOHTXL FRQVHUYHXQHFHUWDLQH FRPSOH[LWp WRXWHQFRQVHUYDQW XQ pTXLOLEUHDFFHSWDEOHELDLVYDULDQFH&HODSHUPHWWUDGHGLPLnuer l’erreurpYLWHUOHVXUHWVRXV DSSUHQWLVVDJHHWREWHQLU GHERQQHVFDSDFLWpVGHJpQpUDOLVDWLRQSRXUGLVFULPLQHUOHVGRQQpHV HQWUHHOOHV  Il est difficile d’estimer directement le biais et la variance d'un estimateur dans un cas réel. En effet, pour mesurer le biais d’un estimateur (avec une taille N de l'échantillon), il faut pouvoir mesurer son espérance et donc pouvoir calculer son résultat sur l'ensemble des échantillons possibles des N réalisations de notre variable aléatoire, pondéré par la probabilité de chaque échantillon. De plus, il faut savoir quel est l'ensemble de toutes les valeurs de caractéristiques possibles (l'ensemble de toutes les molécules) et savoir comment l'activité en est déduite. Si tout cela était connu et possible, la prédiction serait facile et il n’y aurait plus besoin d’utiliser le QSAR ou le Machine Learning pour prédire la toxicité des molécules HEMs.  Or, dans notre cas, il faut se baser sur d'autres données pour estimer la qualité du modèle. En particulier, il est possible de se baser sur l'évolution de l'erreur d'entraînement et de l'erreur de validation (validation croisée) en fonction de la taille de l'échantillon d'apprentissage et 128 l'aspect général de ces courbes en présence d'un fort biais ou d'une forte variance .   Validation croisée La fiabilité du modèle ainsi que sa généralisation à un ensemble de données indépendantes peut être estimée par la technique de validation croisée. Elle est le plus souvent utilisée quand l’objectif est la prédiction et que la précision du modèle prédictif doit être évaluée. Plusieurs techniques de validations croisées existent: $Création d’un set de test Cette technique de validation croisée est très simple. Il suffit tout simplement de diviser la base de données initiale en deux sousensembles: 

75 Chapitre I: Etat de l’art

Le premier correspond au set d’apprentissage utilisé pour entraîner le modèle. Ce set permet de généraliser et classer correctement les données liées au problème donné. Ce set permet de répondre aux questions suivantes: (VWFHTXHOHPRGqOHDDSSULVTXHOTXHFKRVHj SDUWLU des données d’apprentissage ? (VWFH TXH OH PRGqOH SRVVqGH GH ERQQHV FDSDFLWpV GH JpQpUDOLVDWLRQ " 3HXWLO SUpGLUH FRUUHFWHPHQW XQH GRQQpH QRQ XWLOLVpH DX FRXUV GH VD SKDVH d’apprentissage ? Le deuxième correspond à un set de données inconnues pour le modèle appelé «set de test» utilisé pour tester et valider le modèle. 8QH IRLV TXH OH PRGqOH D XQH SHUIRUPDQFH FRQYHQDEOH VXU OHV GRQQpHV d’apprentissage LO IDXW vérifier qu’il possède une capacité de JpQpUDOLVDWLRQjWRXVW\SHVGHPROpFXOHVQRQFRPSULVHVdans le set d’DSSUHQWLVVDJH L’erreur quadratique moyenne intervient également ici afin de déterminer la performance du modèle sur ce set de test.   Le partitionnement des données en deux sousensembles se fait généralement à hauteur de 70% pour le set d’apprentissage et à 30% pour le set de test.   La validation croisée a pour objectif ici de définir un ensemble de données pour «tester» le modèle après sa phase d’apprentissage, REWHQLU XQH HVWLPDWLRQ SOXV SUpFLVH GH OD SHUIRUPDQFH GH OD SUpGLFWLRQ GX PRGqOH et limiter certains problèmes tels que l’ajustement (erreur de prédictions) et la variabilité (des réponses).   /HSURFHVVXVG DMXVWHPHQWRSWLPLVHOHVSDUDPqWUHVGXPRGqOHDILQTXHFHOXLci s’adapte le mieux possible aux données d’apprentissage. /HSUREOqPHPDMHXUTXLSHXWVHSURGXLUHDYHF FHW DMXVWHPHQW HW GX IDLW d’un manque de données d’apprentissage est le VXU RX VRXV DSSUHQWLVVDJH %Leavepout /DYDOLGDWLRQFURLVpH/HDYHS2XW /S2 LPSOLTXHO XWLOLVDWLRQG REVHUYDWLRQVpFRPPHVHW GHYDOLGDWLRQHWOHVREVHUYDWLRQVUHVWDQWHVcomme set d’HQWUDvQHPHQW/HSURFHVVXVHVWUpSpWp GH PDQLqUH j UpGXLUH O pFKDQWLOORQ RULJLQDO HQ XQ VHW GH YDOLGDWLRQ G REVHUYDWLRQV S HW G XQ ௡ ensemble d’apprentissage /D YDOLGDWLRQ FURLVpH HVW UpSpWpH ܥ௣  IRLV R Q HVW OH QRPEUH d’observations de l’échantillon orLJLQDO /DYDOLGDWLRQFURLVpH/S2SRVVqGHVRXYHQWGHVSUREOqPHVGHWHPSVGHFDOFXOH[FHVVLIV(Q HIIHWORUVTXHS!HWTXHQHVWJUDQGOHVFDOFXOVGHYDOLGDWLRQGHYLHQQHQWSUHVTXHLQIDLVDEOHV &Validation croisée “kfold”  &HWWHPpWKRGHGHYDOLGDWLRQFURLVpHHVWXQHDSSUR[LPDWLRQGHODYDOLGDWLRQFURLVpHOHDYHS RXW'DQVO’DSSURFKHGHYDOLGDWLRQFURLVpHEDVLTXHDSSHOpHNIROGle set d’apprentissage HVW GLYLVpDXKDVDUGHQNVRXVJURXSHVSOXVSHWLWVGHWDLOOHpJDOHVDQVUHPSODFHPHQW/DSURFpGXUH HVWVXLYLHSDUFKDFXQGHVNJURXSHV )LJXUH  x /HPRGqOHHVWHQWUDLQpHQXWLOLVDQWN1 groupes comme données d’entrainement

76 Chapitre I: Etat de l’art

x /H JURXSH UHVWDQW HVW XWLOLVp FRPPH VHW GH WHVW SRXU YDOLGHU HW FDOFXOHU OD PHVXUH GH SHUIRUPDQFHWHOOHTXHODSUpFLVLRQGXPRGqOH x /HSURFHVVXVHVWUpSpWpNIRLV ©NIROGª DYHFFKDFXQGHVNVRXVJURXSHVXWLOLVpV XQH VHXOH HW XQLTXH IRLV  FRPPH VHW GH YDOLGDWLRQ *pQpUDOHPHQW OD YDOHXU VWDQGDUG GH UpSpWLWLRQHVWGL[de sorte d’obtenir «IROGªPDLVNUHVWHXQSDUDPqWUHQRQIL[p(Q effet, lorsque la base d’apprentissage est petite, il peut être utile d’augmenter le nombre GHVRXVJURXSHV x Le résultat de l’ensemble GX SURFHVVXV UpSpWp N IRLV SHXW DORUV rWUH PR\HQQp SRXU SURGXLUHXQHHVWLPDWLRQXQLTXHGHODSHUIRUPDQFHGXPRGqOH 

 Figure 31: Validation croisée kfold. Nous voyons qu’à la première itération, les données d’entrainements sont divisées en deux: un groupe (75%) sera utilisé pour l’entrainement et l’autre (25%) pour la validation du modèle obtenu. A l’itération deux, les données d’entrainement sont toujours divisées en deux mais les groupes ne sont plus réparties de la même manière. En effet, chaque groupe n’est utilisé qu’une seule fois. C’est un processus itératif où l’ensemble des résultats sera moyenné pour produire une estimation unique de la performance du modèle.  Cette figure est issue du site: KWWSVHQZLNLSHGLDRUJZLNL)LOH.IROGBFURVVBYDOLGDWLRQB(1MSJ  L’avantage de cette méthode est le souspFKDQWLOORQQDJHDOpDWRLUHUpSpWpHWVXUWRXWOHIDLW que chaque groupe n’est utilisé qu’une seule fois SRXUODYDOLGDWLRQet l’apprentissage. L’LQFRQYpQLHQWPDMHXUGHFHWWHPpWKRGHHVWl’augmentation de la valeur de k. En effet, si la valeur de k augmente, le nombre de données d’apprentissage XWLOLVpHVjFKDTXHLWpUDWLRQVHUD SOXVJUDQG&HODHQWUDLQHUDXQ IDLEOHELDLVSRXUHVWLPHUOHVSHUIRUPDQFHVGHJpQpUDOLVDWLRQ une augmentation très importante du temps d’exécution de la validation croisée et une YDULDQFHSOXVJUDQGHFDUOHVVRXVJURXSHVVHURQWSOXVVHPEODEOHVOHVXQVDX[DXWUHV129 'Leaveoneout /DYDOLGDWLRQFURLVpH©OHDYH2QH2XWª /22 HVWXQFDVSDUWLFXOLHUGHYDOLGDWLRQFURLVpH /HDYHSRXW S   HW XQH YDOLGDWLRQ FURLVpH VLPSOLILpH GX NIROG N Q  &KDTXH JURXSH d’apprentissage apprend sur Q REVHUYDWLRQV HQSUHQDQWWRXWHVOHVGRQQpHVVDXIXQH SXLV OHPRGqOHHVWYDOLGpVXUODQLqPHobservation mise de côté (set de test). L’opération est répétée ௡ autant de fois qu’il y a d’observaWLRQGDQVODEDVHGHGRQQpHV n ܥଵ  La LOO est plus cher en termes de calcul que la validation kfold. 

77 Chapitre I: Etat de l’art

/DPpWKRGHGHYDOLGDWLRQFURLVpHSDU /22HVW VRXYHQW SOXV XWLOLVpHTXHODPpWKRGHSDU SDUWLWLRQQHPHQW (Q HIIHW FHWWH GHUQLqUH SHXW souffrir d’un manque de données disponibles SRXU HIIHFWuer le partitionnement en set distinct. Le nombre de données n’est pas suffisant pour les séparer en set d’apprentissage et set de test sans perdre de capacité significative de SUpGLFWLRQHWGHYDOLGDWLRQ  Cas pratique: Effet du biais et de la variance Comme expliqué précédemment, lorsqu’un modèle est trop complexe, il a tendance à surestimer les données d’apprentissage et à ne pas généraliser correctement les nouvelles données inconnues. Pour illustrer les effets du biais ou de la variance, il est possible de tracer les courbes de la précision du modèle d’apprentissage et de validation en fonction de la taille du set d’apprentissage. Il est alors facile de détecter si le modèle souffre d’une variance ou d'un biais élevé (Figure 32).   Si le modèle souffre d’un biais élevé, la précision des données (d’apprentissage et de validation) est faible ce qui indique un sousapprentissage. L'erreur d'entraînement et de validation tendent rapidement vers la valeur voulue mais l'erreur est globalement trop élevée. Deux moyens pour résoudre ce problème sont d'augmenter le nombre de paramètres du modèle (collecter ou construire des fonctionnalités supplémentaires) ou de diminuer le degré de régularisation.  Si le modèle souffre d’une variance élevée, il y a alors un grand écart entre la précision de l’apprentissage et la précision de validation croisée. Ainsi, l'erreur d'entraînement est excellente mais l’erreur de validation est catastrophique ce qui conduit à un surapprentissage.  Dans ce cas, collecter plus de données d’apprentissage peut se montrer utile ou réduire la complexité du modèle (augmenter le paramètre de régularisation ou compresser les données par une réduction de dimensionnalité) afin de diminuer le surapprentissage et améliorer la généralisation. Cependant, cela peut s’avérer impossible voire inutile dans certains cas où les données d’apprentissages sont extrêmement bruyantes ou que le modèle est déjà très proche de l'optimum125. 

78 Chapitre I: Etat de l’art

Figure 32: FRPSURPLVELDLVYDULDQFH7UDGHRII Cette figure est issue du livre: «Python Machine Learning» de Sebastian Raschka.   Les différents types de prédicteurs 

  Figure 33: Les différents types d'algorithme de Machine Learning. Cette figure est issue du site: https://machinelearningmastery.com/

79 Chapitre I: Etat de l’art

La figure cidessus (Figure 33) donne un aperçu des différents prédicteurs qui existent actuellement. Dans cette thèse nous aborderons essentiellement: les arbres de décision, les méthodes d’ensemble, les réseaux de neurones et les machines à vecteurs de support (SVM) non représentées sur le schéma cidessous.  Arbre de décisions Un arbre de décisions est un outil simple d'aide à la décision représentant un ensemble de choix sous la forme graphique d'un arbre117. Il décrit comment répartir un jeu de données en groupes homogènes selon un ensemble de variables discriminantes aussi appelées attributs (mutagènes / non mutagènes, présence / absence de telle ou telle caractéristique…) en fonction d’une variable de sortie, aussi appelée variable d’intérêt (Figure 34c). Un avantage majeur des arbres de décisions est qu'ils peuvent être générés automatiquement à partir de bases de données par des algorithmes d’apprentissage supervisé. En définitive, ils modélisent une hiérarchie de tests HQ GpWHUPLQDQW GHV UqJOHV GH GpFLVLRQ VLPSOHV GpGXLWHV GHV FDUDFWpULVWLTXHVRXVRXVJURXSHVGHGRQQpHVSUpFpGHQWHVJUkFHjun algorithme (Figure 34a et b). A l’issue de ces tests, le prédicteur produit une valeur numérique dans un ensemble discret de conclusions permettant de classer les données dans telle ou telle classe et d’aboutir à la prédiction de la variable d’intérêt pour une nouvelle donnée130,131. 

 Figure 34: Arbre de décisions. (a) Répartition d’un jeu de données en groupe homogène en fonction d’une hiérarchie de tests discriminants (b) permettant la formation d’un arbre et la détermination de la classe de la nouvelle donnée (point vert). (c) Représentation de la meilleure répartition des données.

80 Chapitre I: Etat de l’art

Un arbre de décisions n’est pas toujours en parfaite adéquation avec l’ensemble des GRQQpHV (Q HIIHW l’DOJRULWKPH d’apprentissage supervisé HVVDLH GH GpWHUPLQHU OH PHLOOHXU DUEUHGHGpFLVLRQVTXLFRQYLHQGUDOHPLHX[jQRVGRQQpHV  De plus, un arbre de décisions est une méthode d’apprentissage supervisée non paramétrique. Un test statistique (paramétrique), fondé sur des lois de distribution, possède des contraintes fortes dont il convient de vérifier et confirmer les conditions d'application à l’ensemble des données. Ici, l’arbre de décisions ne repose donc pas sur des distributions statistiques ni sur aucune hypothèse a priori et peut être utilisé même si les conditions de validité des tests statistiques ne sont pas vérifiées. Ainsi, la présence de valeurs aberrantes n’est pas un problème pour ce type de méthode car les arbres de décisions sont résistants aux données atypiques. Ainsi, en plus de posséder l'avantage d'être robuste et rapide à exécuter, ils peuvent s'appliquer dans un très grand nombre de situations.   L'arbre de décisions se lit intuitivement de haut en bas et est constitué de nœuds, de branches (reliant ces nœuds) et de feuilles (extrémités des branches); ces derniers correspondant aux nœuds terminaux. (Figure 35) L’arbre commence à un nœud représentant toutes les données que nous appelons la racine de l’arbre. Chaque nœud de l’arbre décrit la distribution de la variable et teste les variables discriminantes. Chaque branche représente un résultat du test correspondant à un ensemble de valeurs d'une variable d'entrée, de sorte que l'ensemble des branches couvre toutes les valeurs possibles de la variable d'entrée. Chaque feuille est représentée par le chemin du nœud racine jusqu'à la feuille et constitue les différentes décisions (sorties) possibles atteintes en fonction des décisions prises à chaque étape. 

  Figure 35: Description de l'arbre.  8VXHOOHPHQW OHV DOJRULWKPHV XWLOLVpV SRXU la construction d’DUEUHV GH GpFLVLRQ GLYLVHQW O DUEUHGXVRPPHWYHUVOHVIHXLOOHVWRXWHQFKRLVLVVDQWjFKDTXHpWDSHXQHYDULDEOHG HQWUpHTXL UpDOLVHUDOHPHLOOHXUSDUWDJHGHO HQVHPEOHGHVGRQQpHVFRPPHGpFULWSUpFpGHPPHQW

81 Chapitre I: Etat de l’art

Ce processus est répété de manière récursive afin de créer l’arbUHGDQVVRQHQVHPEOH/D récursivité s’effectue de manière descendante (de la racine aux feuilles), ce qui est un SURFHVVXV pJDOHPHQW QRPPp ©WRSGRZQ». La récursion s’achève à un nœud soit lorsque WRXWHV OHV IHXLOOHV RQW OD PrPH YDOHXU TXH OD YDULDEOHFLEOH VRLW ORUVTXH OD VpSDUDWLRQ Q DPpOLRUHSOXVODSUpGLFWLRQ  3RXUFKRLVLUODYDULable de séparation sur un nœudLOQRXVIDXWGRQFXQLQGLFDWHXU XQH mesure) qui permet d’évaluer quelle variable d’entrée va le mieux découper le sousHQVHPEOH GHGpWHUPLQHUobjectivement la qualité d’une segmentation et ainsiGHVpOHFWLRQQHUOHPHLOOHXU SDUPL OHV FULWqUHV FDQGLGDWV j OD VpSDUDWLRQ VXU XQ VRPPHW /HV DOJRULWKPHV WHVWHQW OHV GLIIpUHQWHVYDULDEOHVG HQWUpHSRVVLEOHVHWVpOHFWLRQQHQWFHOOHTXLPD[LPLVHOHFULWqUHGRQQp  'DQVOHFDVGHVDUEUHVGHFODVVLILFDWLRQpour choisir la variable de séparation sur un nœud, OH FULWqUH GH VpSDUDWLRQ FDUDFWpULVH OH JDLQ HQ KRPRJpQpLWp GHV VRXVHQVHPEOHV REWHQXV SDU GLYLVLRQGHO HQVHPEOH,OH[LVWHXQJUDQGQRPEUHGHFULWqUHVGHFHW\SHPDLVOHVSOXVXWLOLVpV VRQW la mesure du gain d’information basée sur l’HQWURSLH GH 6KDQQRQ HW OD PHVXUH GH l’impuretéGH*LQL $Gain d’information Shannon propose en 1949 une mesure de l’entropie en théorie de l’information c’estjGLUH une mesure du désordre existant, de l’incertitude ou de l’imprévisibilité GDQVXQHQVHPEOHGH données. L’entropie en 0DFKLQH /earning représente le gain d’information ou la quaQWLWp d’LQIRUPDWLRQ H[SULPpHHQELWV ORJ QpFHVVDLUHSRXUPRGpOLVHUOHVGRQQpHV En prenant l’exemple ciGHVVRXV )LJXUH d’un ensemble de donnéeVABRXCLOHVW facile de voir que l’ensemble qui peut être le plus facilement décritUHTXpUDQWXQPLQLPXP d’information est l’ensemble C (Q HIIHW FHV GRQQpHV VRQW SDUIDLWHPHQW XQLIRUPHV L’ensemble BTXDQWjOXLUHTXLHUWSlus d’informations pour être décrit et AHQFRUHSOXV DYHF une chance sur deux d’obtenir la bonne information). Nous pouvons donc dire que CHVWXQ HQVHPEOHSXUBXQHQVHPEOHOpJqUHPHQWLPSXU HWAWRWDOHPHQWLPSXU$LQVLXQHQVHPEOH SXUnécessite moins d’informationSRXUOHGpFULUHHWORUVTXHWRXVOHVREMHWVDSSDUWLHQQHQWjOD PrPHFODVVH HQVHPEOHWRWDOHPHQWKRPRJqQH l’entropie vaut zéro. L’entropie d’information est d’autant plus grande que les classes sont équiprobables 

  Figure 36: Gain d'information par l’entropie de Shannon. 

82 Chapitre I: Etat de l’art

L’équation (Équation 5)définit l’entropie d’informationGH6KDQQRQ6RLWXQHQVHPEOH(

FRPSRVpGHNFODVVHVGLVWLQFWHV&&&NGHSUREDELOLWpVUHVSHFWLYHVSSSN+ (  GpILQLVVDQW l’entropie d’information DVVRFLpH j OD FRQQDLVVDQFH GH OD FODVVH UpSRQG j OD TXHVWLRQ©&RPPHQWPRQHQVHPEOH(HVWLOGpVRUJDQLVp"ªHWVHGpILQLWGHODIDoRQVXLYDQWH  ௞       ሺሻ ൌ Ǧ σ௜ୀଵ ݌௞ሺܥ௞ሻšŽ‘‰ଶ ݌௞ሺܥ௞   6RLW XQ WHVW 7 GLYLVDQW ( HQ m VRXVHQVHPEOHV (M, caractérisé par l’entropie H(EM  L’entropie conditionnelle de E sachant T, qui caractérise l’entropie moyenne des sous HQVHPEOHVHWUpSRQGDQWjODTXHVWLRQ©&RPPHQWHVWGpVRUJDQLVpPRQHQVHPEOH(VDFKDQWOH WHVW7"ªHVWGpILQLHFRPPHVXLW Équation 6         + (|7  σ௝ ܲ൫ܧ௝൯šܪሺܧ௝   /Hgain d’informationHVWGpILQLFRPPHVXLW Équation 7         *DLQ (7  + ( –+ (|7   %Mesure de l’impureté L’indice de Gini (ou coefficient Gini en pourcentage) est une mesure alternative au gain d’information et également la plus populaire. Il est utilisé pour calculer l’impureté d’une partition de données c’estàdire l’impureté des sousensembles obtenus à partir d’un ensemble de données d’apprentissage. Le coefficient de Gini est généralement appliqué sur des arbres de décisions binaires (en utilisant ou non l’algorithme CART (Classification and Regression Trees)). L'indice de Gini est calculé comme la somme pondérée des probabilités pour chacun des sousensembles obtenus. C’est le sousensemble au plus petit indice de Gini qui sera sélectionné. La valeur minimum de zéro est atteinte lorsque tous les éléments de l'ensemble sont dans une même classe de la variablecible. L’indice de Gini se définit comme suit (Équation 8):  ଶ (8)     Gini Index = ͳെσ௜ ݌௜   3UHQRQVXQH[HPSOHVLPSOHVRLWXQpFKDQWLOORQd’apprentissage EHWXQDUEUHGHGpFLVLRQV REWHQXjSDUWLUGHE'HX[VRXVHQVHPEOHV$HW% SDUWLWLRQ GHFHWDUEUHGHGpFLVLRQVSHXYHQW alors potentiellement se former. Chaque élément de l’arbre généré est sRLWGDQV$VRLWGDQV% ,O HVW QpFHVVDLUH GH GpWHUPLQHU OHV pOpPHQWV TXL VHURQW GDQV OH VRXVHQVHPEOH $ HW OHV pOpPHQWVGDQVOHVRXVHQVHPEOH%HWFHJUkFHDXcritère de séparation du nœud courant3RXU HVWLPHUODTXDOLWpGHFHWWHVpSDUDWLRQOHVLQGLFHVGH*LQLGH$SXLVGH%VRQWFDOFXOpVSXLV FRPELQpV (en prenant la moyenne des deux par exemple). Ainsi, l’impureté de chaque SDUWLWLRQHVWHVWLPpHHQIDLVDQWODPR\HQQHGHO LQGLFHGH*LQLDSSOLTXpjFKDFXQHGHVGHX[ SDUWLHVGHFHWWHSDUWLWLRQjVDYRLU$HW%/ LQGLFHGH*LQLGH$GpSHQGDORUVGHODVRPPH SRQGpUpHGHVSUREDELOLWpVGHSUpVHQFHGDQV$GHFKDTXHFODVVHGHODYDULDEOHFLEOH

83 Chapitre I: Etat de l’art

Dans le cas d’une classification binaire, GHX[ FODVVHV  HW   VRQW FRQVLGpUpHV 3RXU

FDOFXOHUO LQGLFHGH*LQLGH$LOIDXWGRQFHVWLPHUODSUREDELOLWp݌ଵGHSUpVHQFHGHODFODVVH

GDQV$HW݌ଶODSUREDELOLWpGHSUpVHQFHGHODFODVVHGDQV$%DVLTXHPHQWODSUREDELOLWp݌ଵ HVW HVWLPpH HQ GLYLVDQW OH QRPEUH G pFKDQWLOORQV GH OD FODVVH  GDQV $ SDU OH QRPEUH WRWDO

G pFKDQWLOORQVGDQV$LGHPSRXU݌ଶ  'DQVQRWUHH[HPSOHLPDJLQRQVTXHOHVRXVHQVHPEOH$HVWFRPSRVpGHODFODVVHHW%

XQLTXHPHQWFRPSRVpGHODFODVVH'DQV$RQD݌ଵ HW݌ଶ G RXQLQGLFHGH*LQL $  pJDOj'HPrPHGDQV%RQD݌ଵ HW݌ଶ G R,B* %  (QIDLVDQWODPR\HQQHGHV GHX[LQGLFHVGH*LQLREWHQXVXQLQGLFHG LPSXUHWpGHODSDUWLWLRQ $% pJDOjHVWH[WUDLW VRLWGHX[VRXVHQVHPEOHSDUIDLWV 

6LDXFRQWUDLUH$HW%FRQWLHQQHQWFKDFXQOHVGHX[FODVVHVjDORUV ݌ଵ ݌ଶ  SRXU$HW%G RGHVLQGLFHVGH*LQL,B* $   ,B* %  HWGRQFXQHLPSXUHWpGHOD SDUWLWLRQpJDOHjòVRLWGHVVRXVHQVHPEOHVJpQpUpVSOXW{WPDXYDLV 'DQVXQDXWUHH[HPSOH$SHXWn’rWUHFRPSRVpTXHGHODFODVVHHW%FRPSRVpGHODFODVVH

HWjSDUWVpJDOHV'HFHIDLW݌ଵ HW݌ଶ GDQVO HQVHPEOH$G R,B* $  HW݌ଵ ݌ଶ   SRXU O HQVHPEOH % G R ,B* %    / LPSXUHWp GH OD SDUWLWLRQ VHUD DORUV  OD PR\HQQH GH  HW   GRQF GHV VRXVHQVHPEOHV JpQpUpV XQ SHX PLHX[ TXH O H[HPSOH SUpFpGHQW  Il existe de nombreuses familles d’algorithmes pour les arbres de décisions dont notamment les arbres de Quinlan et les arbres CART.  Le premier algorithme d’arbre de classification est le THAID (THeta Automatic Interaction Detection) développé dans les années 1960 et 1970. Puis c’est l’DOJRULWKPH &+$,' &+L VTXDUHG$XWRPDWLF,QWHUDFWLRQ'HWHFWLRQ GpYHORSSpSDU*RUGRQ.DVVHQTXLDpWpl’XQ GHVSUHPLHUVjDYRLUpWpLPSOpPHQWpGDQVGHVORJLFLHOVFRPPHUFLDX[  ID3 (Iterative Dichotomiser 3) a été développé en 1986 par Ross Quinlan. L'algorithme, de manière gloutonne, crée un arbre multivoie, en trouvant pour chaque nœud le critère de séparation qui produira le gain d'information le plus important pour l’ensemble des données. La récursivité est appliquée jusqu'à ce que l’arbre atteigne sa taille maximale. Une étape d'élagage est généralement appliquée pour supprimer les branches peu représentatives et ne garder que les bonnes performances prédictives. Ceci permet ainsi d’améliorer la capacité de l'arbre à se généraliser vers les nouvelles données. ID3 aspire à construire des arbres relativement simples mais ne garantit pas de produire le plus simple.  C4.5 est un algorithme également développé par Ross Quinlan et certainement le plus connu. Il est basé sur l’algorithme ID3 auquel il apporte de nombreuses améliorations dont notamment l’utilisation de la mesure de l’entropie. De ce fait, l’algorithme peut opérer sur des données catégorielles ou numériques discrètes132. 

84 Chapitre I: Etat de l’art

C5.0 est la version la plus récente développée par Quinlan. Dans cette version, iPSOpPHQWpH GDQV XQ ORJLFLHO FRPPHUFLDO, il améliore C4.5 au niveau de la rapidité en utilisant moins de mémoire et en définissant un ensemble de règles plus petit à respecter tout en étant plus précis.  CART a été introduit par Breiman, Friedman, Ohlson et Stone en 1984 pour parler d’arbres de décisions binaires à la fois de classification et de régression utilisant l’indice de Gini comme critère de partitionnement. En effet, il supporte des variables cibles continues et numériques (régression). Cet algorithme n’est pas impacté significativement par des valeurs aberrantes dans les variables d’entrées et peut utiliser les mêmes variables plusieurs fois dans différentes parties de l'arbre. Cette capacité peut révéler des interdépendances complexes entre des ensembles de variables133.   Les arbres de décisions possèdent de nombreux inconvénients: (1) Ils peuvent être instables car de petites variations dans les données peuvent générer un arbre complètement différent, (2) Les problèmes de l’apprentissage optimal qui ne peuvent être garantis par les algorithmes d’arbre de décisions, (3) Certains concepts ou problèmes sont difficiles à expliquer et à apprendre et (4) Création d’arbres beaucoup trop complexes provoquant ainsi le phénomène de surapprentissage.  A partir d’un certain niveau de complexité et donc d’un certain nombre de feuilles dans l’arbre, l’arbre de décisions ne commet pratiquement plus aucune erreur d’ajustement pour effectuer la prédiction. Cependant, si l’erreur décroît constamment sur l’échantillon d’apprentissage, le modèle lui s'éloigne alors de la réalité que nous cherchons à estimer sur l'échantillon de validation. Il faut donc générer des arbres qui assurent le meilleur compromis entre qualité et robustesse du modèle (v. sur et sousapprentissage p54.).   Des mécanismes tels que la définition du nombre minimum d'échantillons requis dans un nœud feuille ou la profondeur maximale de l'arbre ainsi que l'élagage sont nécessaires pour éviter ce problème. 

x / HQMHXGHWRXWHWHFKQLTXHGH0DFKLQH/HDUQLQJHVWGHGpWHUPLQHUO LQIRUPDWLRQXWLOHVXU ODVWUXFWXUHGHODSRSXODWLRQ3OXVO DUEUHDGHEUDQFKHVSOXVLODGHIHXLOOHVSOXVLOHVW JUDQGSOXVLOHVWFRPSOH[HHWSOXVQRXVFRXURQVOHULVTXHGHYRLUOHPRGqOHLQFDSDEOHGH SUpGLUHGHQRXYHOOHVGRQQpHV. L’arbre doit donc être construit de manière à être le plus SHWLWSRVVLEOHHQDVVXUDQWODPHLOOHXUHSHUIRUPDQFHSRVVLEOH

x De plus, pour éviter le surapprentissage, une technique consiste à proposer des critères d’arrêt lors de la phase d’expansion: (1) un nombre trop faible de données, il est donc nécessaire d’évaluer si la segmentation introduit un apport d’informations significatif pour la prédiction, (2) diviser la base de données en deux: un set de test et un set de validation, et enfin (3) remplacer les parties de l’arbre qui ne semblent pas performantes pour prédire le nouveau cas par un nœud terminal.

85 Chapitre I: Etat de l’art

&RPPHWRXWHPpWKRGHOHVDUEUHVGHGpFLVLRQVSHXYHQWVRXIIULUGXELDLVHWGHODYDULDQFH L’analyse de la variance et du biais apporte un outil à l’étude des algorithmes d’apprentissage. C’est d’ailleurs au début des années TXHOHVQRWLRQVGHYDULDQFHHWGHELDLVDSSOLTXpHVDX 0DFKLQH /HDUQLQJ RQW pWp pWXGLpHV (Q JpQpUDO OHV DOJRULWKPHV SDUDPpWULTXHV RQW XQ ELDLVpOHYpce qui leur permet d’êtreUDSLGHVHWSOXVIDFLOHVjFRPSUHQGUH&HSHQGDQWLOVVRQW JpQpUDOHPHQWPRLQVIOH[LEOHVHWOHXUVSHUIRUPDQFHVSUpGLFWLYHVSOXVIDLEOHVVXUGHVSUREOqPHV FRPSOH[HV  / REMHFWLI GH WRXW DOJRULWKPH G DSSUHQWLVVDJH GH PRGpOLVDWLRQ SUpGLFWLYH HVW G REWHQLU XQ IDLEle biais et une faible variance. /HSDUDPpWUDJHGHVDOJRULWKPHVG DSSUHQWLVVDJHHVWVRXYHQW XQHEDWDLOOHSRXUpTXLOLEUHUOHELDLVHWODYDULDQFH(QHIIHWJpQpUDOHPHQWO DXJPHQWDWLRQGX ELDLVGLPLQXHODYDULDQFHHWO DXJPHQWDWLRQGHODYDULDQFHGLPLQXHOHELDLV Les arbres de décisions sont un exemple typique où l’algorithme possède un faible biais et une haute variance. En effet, les modèles induits par les méthodes de Machine Learning sont dans une large mesure aléatoires. Les divisions, les attributs et les points de séparation choisis à chaque nœud interne dépendent essentiellement de la nature aléatoire de l'échantillon d'apprentissage. Il a d’ailleurs été démontré par Wehenkel et al., 1997136 que la variance du point de séparation est très élevée et que la séparation optimale dépend fortement de l'échantillon d'apprentissage utilisé. De plus, cette variance du point de séparation semble être responsable d'une partie importante des taux d'erreur des méthodes basées sur les arbres de décisions137.   C’est à la fin des années 1990 que diverses idées visant à combiner plusieurs modèles ont émergé dans le but de réduire la variance ou le biais.   Finalement, c’est durant les années TXHOHVDUEUHVGHGpFLVLRQVRQWFRQQXXQHSpULRGH IDVWH avec l’amélioration dHV SHUIRUPDQFHV HW GH QRPEUHXVHV SXEOLFDWLRQV VXU OH VXMHW &HSHQGDQWforce est de constater qu’aucune avancée décisive n’a été produite GHSXLVODPLVH HQSODFHGHVDOJRULWKPHVGHUpIpUHQFH&&RX&$57. Il paraît illusoire aujourd’hui de SUpWHQGUHSURGXLUHXQHQRXYHOOHWHFKQLTXHd’arbre de décisionVVXUFODVVDQWOHVDXWUHVGDQVXQ schéma d’apprentLVVDJHVLPSOHVXUXQpFKDQWLOORQGHGRQQpHV  Les méthodes d’ensemble Les méthodes d’ensemble (ou Ensemble Methods (EM) en anglais) sont des méthodes de Machine Learning utilisant un ensemble (ou collection) d’algorithmes d’apprentissage supervisés qui implémentent la classification et conduisent les données à être classées dans telle ou telle catégorie (ou classe). Ces algorithmes se nomment classiquement: des FODVVLILFDWHXUV. Un ensemble de classificateurs est une série d’algorithmes dont les décisions individuelles (hypothèses) sont combinées (en ajustant le poids ou par vote majoritaire) pour n’en former une seule (meilleure). Ceci permet ainsi d’obtenir des performances de prédiction augmentées et une meilleure classification de nouvelles données138 (Figure 37). 

86 Chapitre I: Etat de l’art

  Figure 37: Méthodes d'ensembles.  Les méthodes d’ensemble sont WUqV DWWUDFWLYHV HQ WHUPHV GH WHPSV GH FDOFXOV HW souvent plus précises que les méthodes n’utilisant qu’un seul type d’algorithme. La raison principale pour laquelle il est possible de construire d’excellentes méthodes d’ensemble est statistique. En effet, les algorithmes d’apprentissage recherchent dans un espace de données X à identifier la meilleure hypothèse pour la prédiction d’une nouvelle donnée. Il est important de noter qu’une mauvaise prédiction peut apparaître lorsque la quantité de données d’apprentissage est inférieure à la taille de l’espace d’hypothèse considéré (Figure 38). 

   Figure 38: Taille de l'espace d'hypothèse. La courbe rouge représente le set d’hypothèses qui donne la meilleure prédiction pour l’ensemble des données d’apprentissage. Le point f(vert) est l’hypothèse vraie. Nous pouvons voir que fHVWXQHERQQHDSSUR[LPDWLRQGHODPR\HQQH GHVK\SRWKqVHV 

87 Chapitre I: Etat de l’art

$Manipulation des données d’entrainement &HSURFpGpconstruit des méthodes d’ensemble en manipulant les données d’entrainement SRXU JpQpUHU Ges hypothèses multiples. L’algorithme d’apprentissage HVW DSSOLTXp SOXVLHXUV IRLV j FKDTXH IRLV DYHF XQ VRXVensemble de données d’apprentissage différent. Cette WHFKQLTXH IRQFWLRQQH SDUIDLWHPHQW SRXU GHV DOJRULWKPHV LQVWDEOHV WHOV TXH OHV DUEUHV GH GpFLVLRQV FODVVLILFDWLRQRXUpJUHVVLRQ RXOHVUpVHDX[GHQHXURQHV8QDOJRULWKPHLQVWDEOHHVW XQ DOJRULWKPH GRQW OHV FODVVLILFDWHXUV SHXYHQW VXELU GHV FKDQJHPHQWV PLQHXUV GDQV OHV données d’apprentissage provoquant DLQVL GHV FKDQJHPHQWV PDMHXUV GDQVOHXUUpSRQVH HW OD FRQVWUXFWLRQ GX PRGqOH ,OV VRQW GRQF VHQVLEOHV DX[ SHUWXUEDWLRQV GX VRXVHQVHPEOH /HV DOJRULWKPHV VWDEOHV HW GRQF UREXVWHV DX[ SHUWXUEDWLRQV  VHUDLHQW SDU H[HPSOH OD UpJUHVVLRQ OLQpDLUHRXODPpWKRGHdes plus proches voisins et n’aSSRUWHQWGRQFDXFXQHDPpOLRUDWLRQ /DPHLOOHXUHPpWKRGHGHPDQLSXODWLRQGes données d’entrainement est appeléHHQDQJODLV OH %RRWVWUDS DJJUHJDWLQJ pJDOHPHQW DEUpJp %DJJLQJ &HWWH PpWKRGH GpYHORSSpH SDU /HR %UHLPDQHQSHUPHWGHPDQLqUHHIILFDFHd’améliorer la FODVVLILFDWLRQHQFRPELQDQWGHV VRXVHQVHPEOHV GH données d’apprentissage. $LQVL OH %DJJLQJ SURGXLW SOXVLHXUV VRXV HQVHPEOHV de données d’apprentissage différents PDLV GH PrPH WDLOOH  HW FRQVWUXLW SDU OD VXLWHun modèle pour chacun d’eux en utilisant le même schéma de 0DFKLQH/HDUQLQJ (QILQ LOFRPELQHOHVSUpGLFWLRQVVRLWSDUXQYRWHjSRLGVpJDOVRLWSDUXQHPR\HQQH  3UHQRQV XQ H[HPSOH VLPSOH  PROpFXOHV SUpFLVDQW OHXU WR[LFLWp au test d’Ames VRQW SUpVHQWHVGDQV XQH EDVH GH GRQQpHV /H EXW pWDQW GH GpWHUPLQHUVL XQH IXWXUH PROpFXOH HVW SRVLWLYH RX QRQ au test d’Ames. L’approche par agrpJDWLRQ YD FUpHU GH QRPEUHX[ VRXV HQVHPEOHV GH PROpFXOHV modèles d’arbres  HW GH YDULDEOHV FUpDQW SDU H[HPSOH  DUEUHV avec 150 molécules et 20 variables au hasard dans chaque arbre. L’ensemble des 150 arbres SURGXLVDQWFKDFXQXQPRGqOH VHUDDORUVSRQGpUpSHUPHWWDQWDLQVLODSUpGLFWLRQfinale d’une QRXYHOOHPROpFXOH )LJXUH   

88 Chapitre I: Etat de l’art

  Figure 39: Méthode d'ensembles par algorithme Bagging. L’algorithme %DJJLQJSURGXLWà partir d’un jeu de données initial,SOXVLHXUVVRXVHQVHPEOHVd’arbres deGRQQpHVGLIIpUHQWV &KDFXQSURSRVHDORUVOHXUSURSUHUpVXOWDWGHSUpGLFWLRQ(prédiction mutagène (rond rouge) pour l’arbre 1 et non mutagène pour l’arbre 2 et n (rond vert)./DSUpGLFWLRQILQDOHVHUDREWHQXHSDUYRWHPDMRULWDLUH  /H%DJJLQJHVWXQHPpWKRGHVLPSOHTXLcorrige plusieurs défauts des arbres de décisions. En effet, il DPpOLRUH notamment la stabilité (de petites modifications dans l’ensemble d’apprentissage peuvent entraîner des arbres très différents) HWODSUpFLVLRQGHVDOJRULWKPHVGH 0DFKLQH/HDUQLQJEn règle générale, plus il y a un nombre important d’arbres construit, plus la forêt est robuste et plus les résultats auront une haute précision.  'ifférents algorithmes d’apprentissage SHXYHQWrWUHXWLOLVpVSDUODPpWKRGHGH%DJJLQJ(Q effet, il peut s’agirVRLWGHl’algorithme IRUrWVDOpDWRLUHV RX5DQGRP)RUHVW 5) HQDQJODLV  VRLW GH l’algorithme extrêmement randomisé (ou ([WUHPHO\ 5DQGRPL]HG 7UHHV DEUpJp ([WUD7UHHV HQDQJODLV /HVGLIIpUHQWHVIRUrWVDOpDWRLUHVGLIIqUHQWGDQVODIDoRQGRQWOHKDVDUG HVWLQWURGXLWGDQVOHSURFHVVXVGHFRQVWUXFWLRQGHO DUEUH139 L 5DQGRP)RUHVW /’algorithme de forêts aléatoiresWUqVSXLVVDQWSURSRVpSDU7LP.DP+RHWLPSOpPHQWp SDU/HR%UHLPDQHW$GqOH&XWOHUHQQHGLIIqUHTXHWUqVOpJqUHPHQWGXVFKpPDJpQpUDO GX%agging. Il n’utilise pasOHJDLn d’information ou l’indice de GLQLFRPPHGDQVOHVDXWUHV DUEUHVGHGpFLVLRQVn’utilisant qu’XQVHXODOJRULWKPH

89 Chapitre I: Etat de l’art

/DSURFpGXUHFRQVLVWHjGpYHORSSHUun ensemble d’arbres de décisionVPRGLILpVGHGHX[  PDQLqUHVVLJQLILFDWLYHV  /DSUHPLqUHHVWGHJpQpUHUOHVVRXVensembles de données d’apprentissageDXKDVDUGDYHF UHPSODFHPHQW de l’ensemble d’entrainement j FKDTXH JpQpUDWLRQ $LQVL FKDTXH DUEUH IRQFWLRQQH DYHF XQ HQVHPEOH GH IRUPDWLRQ OpJqUHPHQW GLIIpUHQW GH WHOOH VRUWH TXH OHV SUpGLFWLRQV UpVXOWDQWHV GH WRXV OHV VRXVDUEUHV QH VRQW TXH SHX RX SDV FRUUpOpHV rééchantillonage préalable à la construction de l’arbre) L’algorithme combine ensuite l’ensemble des arbUHVJpQpUpVDYHFFHWDMXVWHPHQWWUqVOpJHUGX%DJJLQJFRPSHQVDQWDLQVLOH VXUDSSUHQWLVVDJH HW OD VHQVLELOLWp DX EUXLW TXL HQ UpVXOWHUDLHQW Ceci permet d’atteindre une  SUpFLVLRQGHFODVVLILFDWLRQpOHYpH   /D VHFRQGH HVW GH WURXYHU OD meilleure séparation du nœud racine HW OHV FRXSXUHV VXFFHVVLYHVHIIHFWXpHVORUVGHODFRQVWUXFWLRQGHO DUEUH/RUVGHODSURFpGXUHGHFRQVWUXFWLRQ HW G RSWLPLVDWLRQ GH O DUEUH XQ VHXLO RSWLPDO SRXU GLYLVHU O HQVHPEOH GH IRUPDWLRQ HVW VpOHFWLRQQpFUpDQWXQHUqJOHGHGpFLVLRQ$LQVLOHSURFHssus se poursuit jusqu’à atteindre un critère d’arrêtou jusqu'à ce que chaque nœud terminal ne contienne pas plus de données que OHQRPEUHGHGRQQpHVLQLWLDOHV )LJXUH 



 Figure 40: Formation des sousensembles avec l'algorithme RF. L’algorithme RF JpQqUH GHV VRXVensembles de données d’apprentissage au hasard, avec réutilisation de l’ensemble d’entrainement à chaque génération/HYRWHPDMRULWDLUHHVWIDYRULVp  &HVGHX[SHWLWHVPRGLILFDWLRQVHQWUDvQHQWXQHDXJPHQWDWLRQVLJQLILFDWLYHGHODFDSDFLWpGH JpQpUDOLVDWLRQGHVDUEUHVGHGpFLVLRQV/DSUpGLFWLRQILQDOHSRXUXQpFKDQWLOORQGRQQpHVWOD SUpGLFWLRQ PR\HQQH GH WRXV OHV DUEUHV LQGLYLGXHOV +DELWXHOOHPHQW j OD VXLWH GX KDVDUG OH ELDLVGHODIRUrWDXJPHQWHOpJqUHPHQW SDUUDSSRUWDXELDLVG XQVHXODUEUHQRQDOpDWRLUH PDLV HQ UDLVRQ GH VD SRQGpUDWLRQ (avec l’ensemble des arbres générés) VD YDULDQFH GLPLQXH

90 Chapitre I: Etat de l’art pJDOHPHQWJpQpUDOHPHQWSOXVTXHSRXUFRPSHQVHUO DXJPHQWDWLRQGXELDLVFHTXLGRQQHXQ PHLOOHXUPRGqOHJOREDO 8QDOJRULWKPH5DQGRP)RUHVWIRQFWLRQQHUDSLGHPHQWRIIUHGHVSHUIRUPDQFHVH[FHOOHQWHV VXU XQ FHUWDLQ QRPEUH GH SUREOqPHV SUDWLTXHV UHQFRQWUpV DYHF OHV 690 HW HVW SDUPL OHV PpWKRGHVOHVSOXVSUpFLVHVGLVSRQLEOHV  L’inconvénient certain des forets aléatoires est qu’elles sont difficilement interprétables et qu’elles peuvent être considérées comme une «blackbox». En effet, nous n’avons qu’un contrôle limité sur ce que le modèle fait et choisit. LL ([WUD7UHHV 3RXU UpVRXGUH OHV SUREOqPHV OLpV DX[ WHPSV GH FDOFXO XQH DSSURFKH G DSSUHQWLVVDJH H[WUrPHPHQWUDQGRPLVpHDpWpDSSOLTXpHDILQG DPpOLRUHUODSUpFLVLRQGHODSUpGLFWLRQHWGH UpGXLUHOHWHPSVHWODFRPSOH[LWpGHVFDOFXOV  La très grande variance de décision d’arbres aléatoires suggère d'étudier si des niveaux de randomisation plus élevés pourraient améliorer la précision par rapport aux méthodes d'ensemble existantes. À cette fin, un nouvel algorithme «ExtraTrees» peut être utilisé. &H GHX[LqPHDOJRULWKPHHVWVLPLODLUHjFHOXLGHVIRUrWVDOpDWRLUHV en ce sens qu'il est basé sur la sélection, à chaque nœud, d'un sousensemble au hasard (leur structure ne dépend pas des sorties dans l'échantillon d'apprentissage). &HSHQGDQW OD VpSDUDWLRQ GHV GRQQpHV d’apprentissage de l’arbre se fait de manière extrêmement UDQGRPLVpH, c’estjGLUH TXH contrairement à l’algorithme RF (basé sur un critère d’arrêt), chaque arbre est construit à partir de l'échantillon d'apprentissage complet sans remise.   Dans ce type d’arbres, le hasard va un peu plus loin dans la façon dont les séparations sont calculées. Dans chaque sous ensemble, au lieu de choisir le meilleur point de séparation basé sur l'échantillon local (comme dans la méthode Random Forest), le point de séparation est sélectionné au hasard. Ainsi, la méthode choisit un point de séparation à chaque nœud, et crée donc des arbres totalement aléatoires dont les structures sont indépendantes de la variable cible de l'échantillon d'apprentissage. Il utilise l'ensemble de l'échantillon d'apprentissage (plutôt qu'un remplacement) pour développer les arbres (Figure 41). 

91 Chapitre I: Etat de l’art

 Figure 41: Formation des sousensembles avec l'algorithme ExtraTrees. L’algorithme ([WUD7UHHVJpQqUHGHVVRXVensembles de données d’apprentissage au hasard, VDQVréutilisation de l’ensemble d’entrainement à chaque génération/HYRWHPDMRULWDLUHHVWIDYRULVp  &HWWH PpWKRGH HVW OD SOXSDUW GX WHPSV FRPSpWLWLYH DYHF OHV IRUrWV DOpDWRLUHV QRWDPPHQW SDUFH TX HOOH SRVVqGH GH PHLOOHXUHV FDSDFLWpV GH JpQpUDOLVDWLRQ UpGXFWLRQ VLPXOWDQpH GH OD FRPSOH[LWpFRPSXWDWLRQQHOOHGXPRGqOH HWXQDYDQWDJHpYLGHQWHQWHUPHVGHSUpFLVLRQGH WHPSV GH FDOFXO GH IDFLOLWp G LPSOpPHQWDWLRQ HW GH UREXVWHVVH j GHV YDULDEOHV QRQ SHUWLQHQWHV  /HV SUpGLFWLRQV GHV DUEUHV VRQW DJUpJpHV SRXU SURGXLUH OD SUpGLFWLRQ ILQDOH SDU YRWH PDMRULWDLUH GDQV OHV SUREOqPHV GH FODVVLILFDWLRQ HW OD PR\HQQH DULWKPpWLTXH GDQV OHV SUREOqPHVGHUpJUHVVLRQ  $LQVL OD PpWKRGH ([WUD7UHHV SHXW rWUH FRQVLGpUpH FRPPH XQH DSSURFKH SRXU pFKDQWLOORQQHU GH PDQLqUH QHXWUH O HQVHPEOH GHV DUEUHV SRVVLEOHV SDUIDLWHPHQW DGDSWpV j O pFKDQWLOORQG DSSUHQWLVVDJH– %La manipulation des données de sorties  La troisième technique de construction de méthodes d’ensemble est la manipulation des données fournit à l’algorithme d’apprentissage et donc la manipulation des données de sorties144. Cette technique, nommée le Boosting, n’est souvent efficace et applicable que si le nombre de données d’apprentissage disponible est grand. Bien que le Boosting permette d'obtenir une meilleure précision que le Bagging, il est généralement plus susceptible de provoquer du surapprentissage des données de formation.  Si nous prenons l’exemple d’images contenant divers objets connus dans le monde, un FODVVLILFDWHXUSHXWDSSUHQGUHGHFHVREMHWVSRXUOHVFODVVHUDXWRPDWLTXHPHQWGDQVGHIXWXUHV LPDJHV 'HV FODVVLILFDWHXUV RX DSSUHQDQWV  VLPSOHV FRQVWUXLWV HQ IRQFWLRQ GH FHUWDLQHV FDUDFWpULVWLTXHVG LPDJHGHO REMHWRQWWHQGDQFHjrWUH©IDLEOHVªGDQVOHXUVSHUIRUPDQFHVGH

92 Chapitre I: Etat de l’art

Flassification c’est à dire qu’ils ne sonWTXHOpJqUHPHQWFRUUpOpVDYHFODFODVVLILFDWLRQUpHOOH $XFRQWUDLUHXQDSSUHQDQWIRUWHVWXQFODVVLILFDWHXUDUELWUDLUHPHQWELHQFRUUpOpDYHFODYUDLH FODVVLILFDWLRQ 'H FH IDLW OH EXW GX %RRVWLQJ HVW GH FRQYHUWLU GHV DSSUHQDQWV IDLEOHV HQ DSSUHQDQWV IRUWV ,O FRQVLVWH j DSSUHQGUH GH IDoRQ LWpUDWLYH GHV FODVVLILFDWHXUV IDLEOHV SDU UDSSRUWjXQHGLVWULEXWLRQG XQLILHUOHVFODVVLILFDWHXUVIDLEOHVG XQHPDQLqUHSDUWLFXOLqUHSRXU DXJPHQWHUOHXUVFDSDFLWpVJOREDOHVGHFODVVLILFDWLRQHWGHOHVDMRXWHUjXQFODVVLILFDWHXUILQDO IRUW&HSHQGDQWODTXHVWLRQSRVpHSDU0LFKDHO.HDUQVHQIDLWUpIOpFKLU8QHQVHPEOH G DSSUHQDQWVIDLEOHVSHXWLOFUpHUXQDSSUHQDQWIRUW"5REHUW6FKDSLUHHQUpSRQGjFHWWH TXHVWLRQHQSURGXLVDQWOHSUHPLHUDOJRULWKPHVLPSOHHWSRO\YDOHQWTXLXQLILHOHVDSSUHQDQWV IDLEOHV$GD%RRVW SRXU$GDSWLYH%RRVWLQJ   L’algorithme Ada%RRVW VH EDVH VXU GHV H[HPSOHV GH FODVVLILFDWHXUV ELQDLUHV SRVLWLIQpJDWLI SUpVHQFHDEVHQFH  afin d’optimiser la performance de FHV GHUQLHUV 3RXU FRQYHUWLUXQDSSUHQDQWIDLEOHHQDSSUHQDQWIRUW$GD%RRVWYDGHPDQLqUHDGDSWDWLYHPRGLILHU OD GLVWULEXWLRQ GHV GRQQpHV GHV VRXVHQVHPEOHV REWHQXH HQ IRQFWLRQ GHV GRQQpHV TXL ©DSSUHQQHQW IDFLOHPHQWª GH FHOOHV TXL ©DSSUHQQHQW GLIILFLOHPHQWª HW FH HQ DMRXWDQW GHV SUREDELOLWpV GH SRLGV VXU FKDTXH GRQQpH $LQVL ORUVTXH O DSSUHQDQW IDLEOH FODVVH PDO XQ H[HPSOHQRXVDXJPHQWRQVOHSRLGVGHFHWH[HPSOHFHTXLVLJQLILHTXHQRXVDXJPHQWRQVOD SUREDELOLWpTX LOVHUDWLUpGDQVOHVF\FOHVIXWXUV(QSDUWLFXOLHUDILQGHPDLQWHQLUXQHERQQH SUpFLVLRQ O DSSUHQDQW IDLEOH GHYUD pYHQWXHOOHPHQW SURGXLUH XQH K\SRWKqVH TXL FRUULJH VHV HUUHXUV GDQV OHV VRXVHQVHPEOHV SUpFpGHQWV 'H PrPH ORUVTXH GHV H[HPSOHV VRQW FRUUHFWHPHQW FODVVpV QRXV UpGXLVRQV OHXUV SRLGV 'RQF OHV H[HPSOHV TXL VRQW ©IDFLOHVª j DSSUHQGUH VRQW PRLQV DFFHQWXpV $LQVL pour les données dont on a la garantie qu’elles DSSUHQQHQW IDFLOHPHQW ELHQ FODVVpHV  OHV SRLGV VHURQW GLPLQXpV HW DX FRQWUDLUH SRXU OHV données dont on a la garantie qu’elles apprennent difficilement (mal classées), les SRLGV VHURQWDXJPHQWpV3DUODVXLWHOHVSUpGLFWLRQVGHFKDTXHDSSUHQDQWIDLEOHVHURQWFRPELQpHVHQ XWLOLVDQWXQYRWHPDMRULWDLUHSRQGpUp&HWWHWHFKQLTXHSHUPHWGHUpGXLUHOHELDLVHWODYDULDQFH de l’apprentissage supervisé  /HV pWDSHV SULQFLSDOHV VRQW 1) la formation d’un large ensemble de caractéristiques VLPSOHV 2) l’initialisation des poids, la formation d’un classificateur et l’éYDOXDWLRQ GH l’erreur de formation,   OD PLVH j MRXU GHV SRLGV GHV LPDJHV GH IRUPDWLRQ SDU FH FODVVLILFDWHXU DXJPHQWHU VL FODVVp j WRUW HW GLPLQXHU VL FRUUHFWHPHQW FODVVp  HW   OD IRUPDWLRQGXFODVVLILFDWHXUIRUWILQDO )LJXUH 

93 Chapitre I: Etat de l’art

  Figure 42: Formation des sousensembles avec l'algorithme AdaBoost. A l’étape 1, le système d’hypothèse H contLHQWXQODUJHHQVHPEOHGHFDUDFWpULVWLTXHVVLPSOHV'LIIpUHQWVVRXVHQVHPEOHVVRQW ensuite crées grâce à l’utilisation de classificateurs faibles. A l’étape 2, l’initialisation des poids et l’évaluation de l’erreur de formation est effectuées en partitionnant l’espace pour réduire les erreurs de prédiction éventuelles. A l’étape ODPLVHjMRXU GHV SRLGV VH IDLW HQ DXJPHQWDQW OH SRLGV VL XQ SRLQW HVW LQFRUUHFW PDO FODVVp  HW HQ GLPLQXDQW OH SRLGV VL OH SRLQW HVW correctement classé. A l’étape 4, nous avons l’unification des classificateurs faibles en un classificateur fort final DUELWUDLUHPHQWELHQFRUUpOpFRQVWUXLWFRPPHXQHFRPELQDLVRQOLQDLUHGHWRXVOHVFODVVLILFDWHXUVIDLEOHV  L’analyse de la variance et du biais apporte un outil à l’étude des algorithmes d’apprentissage et permet d’expliquer les propriétés des classificateurs. /HELDLVHWODYDULDQFH VRQW GHV SURSULpWpV LQWULQVqTXHV GHV HVWLPDWHXUV HW QRXV DYRQV JpQpUDOHPHQW j FKRLVLU GHV DOJRULWKPHVG DSSUHQWLVVDJHHWGHVSDUDPqWUHVGHVRUWHTXHOHELDLVHWODYDULDQFHVRLHQWDXVVL EDVTXHSRVVLEOH Y 'HX[SRVVLELOLWpVVRQWHQYLVDJHDEOHV

x /H QRPEUH d’observations dans les nœuds terminaux diminue, la tendance est à se rapprocher d’un choix “aléatoire” des variables de découpe des arbres. Ainsi, la FRUUpODWLRQHQWUHOHVDUEUHVYDDYRLUWHQGDQFHjGLPLQXHUpJDOHPHQWFHTXLHQWUDvQHUD

94 Chapitre I: Etat de l’art

XQHEDLVVHGHODYariance de l’estimateur final. De plus, du fait de la découpe “aléatoire” GHV YDULDEOHV GHV DUEUHV une moins bonne qualité d’ajustement des arbres sur l’échantillon d’apprentissage va se faire UHVsentir, d’où une augmentation du biais pour FKDTXHDUEUHJpnéré ainsi que pour l’estimateur final.

x /e nombre d’observations dans les nœuds terminaux augmente, les phénomènes LQYHUVHVVHSURGXLVHQW KDXWHYDULDQFHIDLEOHELDLV  C’est pourquoi, en pratique, le nombre maximum d’observations dans les nœuds est par GpIDXWSULVUHODWLYHPHQWSHWLW FLQTHQUpJUHVVLRQXQHQFODVVLILFDWLRQ   A la fin des années 1990, cHUWDLQHVPpWKRGHVG HQVHPEOHWHOOHTXHOH%RRVWLQJUpGXLVHQWOH ELDLV HQ DXJPHQWDQW OH SRXYRLU H[SUHVVLI GHV DOJRULWKPHV G DSSUHQWLVVDJH146 ' DXWUHV PpWKRGHV G HQVHPEOH WHOOH TXH OH %DJJLQJ147 UpGXLVHQW SULQFLSDOHPHQW OD FRPSRVDQWH GH YDULDQFHGHO HUUHXUHQFRQVHUYDQWOHELDLVHWpYLWDQWOHVXUDSSUHQWLVVDJH(QHIIHWODYDULDQFH diminuera d’autant plus que les classificateurs agrégés sHUont “différents” (décorrélés).  /H %DJJLQJ est d’ailleurs déconseillé VXU GHV PRGqOHV FRPSRUWDQW XQ KDXW ELDLV /D GpFRPSRVLWLRQ GH O HUUHXU HQ ELDLV HW HQ YDULDQFH SHXW JXLGHU j OD FRQFHSWLRQ HW j l’optimisation des performances GHV PpWKRGHV G HQVHPEOH HQ DVVRFLDQW OHV SURSULpWpV 148 PHVXUDEOHVGHVDOJRULWKPHVjODSHUIRUPDQFHDWWHQGXHGHVHQVHPEOHV   Comparons la méthode d’arbres de décisions simple avec la méthode d’ensemble Bagging en ce qui concerne la décomposition biais/variance (Figure 43). La prédiction principale donnée pour chacune des deux méthodes est représentée en rouge foncé. L’ensemble des SUpGLFWLRQV SRVVLEOHV G DXWUHV DUEUHV GH GpFLVLRQV LQGLYLGXHOV IRUPpV j SDUWLU GHV GRQQpHV LQLWLDOHVWLUpHVDXKDVDUGHWUHSUpVHQWDQWODYDULDQFHVRQWUHSUpVHQWpVHQURXJHFODLU3OXVOD YDULDQFH HVW JUDQGH SOXV OHV SUpGLFWLRQV VRQW VHQVLEOHV j GH SHWLWV FKDQJHPHQWV GH [ GDQV l'ensemble d’apprentissage. La prédiction moyenne de l’estimateur eVWUHSUpVHQWpHHQF\DQHW OHPHLOOHXUPRGqOHSRVVLEOHHQEOHXIRQFp&HVGHX[FRXUEHVFRUUHVSRQGHQWDXELDLV  ,OHVWSRVVLEOHGHconstater (courbes supérieurs) que pour une méthode d’arbre de décisionV VLPSOHOHELDLVHVWDVVH]IDLEOH OHVFRXUEHVF\DQVHWEOHXHVVRQWSURFKHVOHVXQHVGHVDXWUHV  DORUV TXH OD YDULDQFH HVW JUDQGH OH IDLVFHDX URXJH HVW DVVH] ODUJH  &HSHQGDQW SRXU XQH méthode d’ensemble %DJJLQJ OH ELDLV HVW SOXV ODUJH TXH GDQV OH FDV SUpFpGHQW GLIIpUHQFH SOXVJUDQGHHQWUHODSUpGLFWLRQPR\HQQHHWOHPHLOOHXUPRGqOHSRVVLEOH   En ce qui concerne la décomposition SRQFWXHOOHGHO HUUHXUTXDGUDWLTXHPR\HQQHDWWHQGXH FRXUEHVLQIpULHXUHV SRXUXQHPpWKRGHn’utilisant qu’un arbre de décisionVOHWHUPHGHELDLV HQEOHX HVWIDLEOHDORUVTXHODYDULDQFHHVWJUDQGH HQYHUW 3RXUXQHPpWKRGHXWLOLVDQWXQH méthode d’ensemble, la courbe de biais est légèrement supérieure à celle de la méthode SUpFpGHQWHORUVTXHODYDULDQFHHVWSOXVIDLEOH IDLVFHDXSOXVpWURLW  

95 Chapitre I: Etat de l’art

'DQV O HQVHPEOH OD GpFRPSRVLWLRQ ELDLVYDULDQFH HVW PHLOOHXUH SRXU OH %DJJLQJ OD PR\HQQHGHSOXVLHXUVDUEUHVGHGpFLVLRQVDXJPHQWHOpJqUHPHQWOHWHUPHGHELDLVPDLVSHUPHW XQH UpGXFWLRQ SOXV ODUJH GH OD YDULDQFH FH TXL HQWUDvQH XQH HUUHXU TXDGUDWLTXH PR\HQQH JOREDOHSOXVIDLEOHet permet d’éviter le surapprentissage. 

  Figure 43: Comparaison de l'algorithme d’arbre de décisions et Bagging. Cette figure provient du livre «The Elements of Statistical Learning: Data Mining, Inference, and Prediction”149   La méthode d’ensemble utilisDQWXQDOJRULWKPH([WUD7UHHVSHUPHWJpQpUDOHPHQWGHUpGXLUH la variance du modèle, au détriment d'une augmentation très légère du biais. L’algorithme de randomisation permet ainsi un équilibrage parfait des données et surtout de s’adapter aux LPSpUDWLIVGHFKDTXHpWXGH  Machine à vecteurs de support La machine à vecteurs de support ou séparateur à vastes marges (SVM), développée dans les années 1990, est une des techniques de Machine Learning les plus populaires117. C’est une technique d’apprentissage supervisé, la plupart du temps utilisée pour résoudre des problématiques de discrimination, de classification et de régression. Cette technique est parmi les meilleures dans le cas où les données sont limitées. Cependant, elle perd face au Boosting et aux forêts aléatoires dans les cas de larges sets de données.  

96 Chapitre I: Etat de l’art

/HVVpSDUDWHXUVjYDVWHVPDUJHVVRQWGHVFODVVLILFDWHXUVGRQFGHVDOJRULWKPHVTXLUHSRVHQW VXUGHX[LGpHVFOpV: la marge maximale et la transformation de l’espace de représentation des données d’entrées en un espace de plus grande dimension. $Cas simples 'DQVOHVFDVVLPSOHVFRPSRVpVGHGHX[DPDVGHGRQQpHVGLVWLQFWV )LJXUH ODPDUJHHVW ODGLVWDQFHdHQWUHOHVSRLQWVOHVSOXVSURFKHVde l’hyperplan séparateur de deux classes. 8Q hyperplan séparateur est une partie non vide de l’espace qui permet de séparer les données HQWUHHOOHV 

  Figure 44: Cas simple de SVM proposant deux amas distincts de données. /HVSRLQWVURXJHVHWYHUWVGpILQLVVHQWGHX[FODVVHVGHGRQQpHVGLIIpUHQWHV/DGpWHUPLQDWLRQGHODPDUJHSHUPHWGHVDYRLU lorsqu’une molécule est difficile à classer dans l’une ou l’autre des deX[FDWpJRULHVjTXHOOHFODVVHHOOHDSSDUWLHQW  &HVSRLQWVOHVSOXVSURFKHVVRQWDSSHOpVYHFWHXUVVXSSRUWV0DLVFRPPHQWGpWHUPLQHUOD PHLOOHXUH PDUJH HQWUH GHX[ JURXSHV GH GRQQpHV GLIIpUHQWV" FDU ILQDOHPHQW SOXVLHXUV VpSDUDWLRQVVRQWSRVVLEOHV )LJXUH  

  Figure 45: Plusieurs séparations possibles. Les 3 courbes A, B et C sélectionnent un hyperplan qui sépare les points verts et rouges en deux classes distinctes. Il est nécessaire de déterminer le meilleur hyperplan pour une séparation optimale des deux classes.  /HSUHPLHUREMHFWLIGX690HVW GRQFGHPD[LPLVHUFHWWHGLVWDQFHHWGRQFGH WURXYHUOD IURQWLqUHVpSDUDWULFHRSWLPDOHjSDUWLUG XQHQVHPEOHG DSSUHQWLVVDJH'LIIpUHQWVDOJRULWKPHV 690 SHXYHQW UpVRXGUH FH SUREOqPH en trouvant les coefficients permettant d’obtenir la PHLOOHXUHVpSDUDWLRQGHVFODVVHVSDUFHWK\SHUSODQ 

97 Chapitre I: Etat de l’art

% Cas complexes 'DQVOHFDVVXLYDQW )LJXUH LOHVWLPSRVVLEOHGHWURXYHUXQHGURLWHTXLVpSDUHOHVGHX[ FDWpJRULHVFRUUHFWHPHQW&HFDVFRPSOH[HHVWGLW©QRQOLQpDLUHPHQWVpSDUDEOHª,OIDXWGRQF trouver un moyen pour transformer les données pour qu’elles puissent être séparables.  

;  Figure 46: Cas complexe non linéairement séparable.  'DQVOHVFDVGLIILFLOHPHQWVpSDUDEOHVGHX[SRVVLELOLWpVVRQWDORUVHQYLVDJpHV/DSUHPLqUH est d’ignorer une donnée aberrante si elle est unique ()LJXUH  

   Figure 47: Cas présentant une valeur aberrante.  /DGHX[LqPHSRVVLELOLWpUHSRVHVXUODGHX[LqPHLGpHFOpGX690FRQVLGpUHUOHSUREOqPH GDQVXQHVSDFHGHGLPHQVLRQVXSpULHXU'DQV FHQRXYHOHVSDFH OHVGRQQpHVSRXUURQWDORUV rWUHVpSDUpHVOLQpDLUHPHQWL’astuce pour effectuer ce changement de dimensionnalité consiste jXWLOLVHUXQHIRQFWLRQ©QR\DXª&HWWHPpWKRGHHVWDSSHOpH©DVWXFHGXQR\DXª RXNHUQHO WULFNHQDQJODLV /DIRQFWLRQQR\DXHVWXQSODQGHVpSDUDWLRQH[SULPpFRPPHXQHIRQFWLRQGH VLPLODULWp HQWUH GHX[ YHFWHXUV TXL SHUPHW GH WUDQVIRUPHU XQ SURGXLW VFDODLUH x,y  GDQV XQ HVSDFHGHJUDQGHGLPHQVLRQ  Il existe plusieurs fonctions noyaux (package scikitlearn de python). La première fonction noyau est le «noyau linéaire» qui projette tous les points sur une droite. Tous les points le long du plan de séparation du vecteur orthogonal seront similaires (Figure 48). 

98 Chapitre I: Etat de l’art

  Figure 48: Fonction noyau linéaire. La fonction noyau linéaire permet de transformer les données initiales difficilement séparables suivant un plan séparateur (bleu clair) permettant la projection des points et la classification des données.  Il existe également le «noyau polynomial» qui introduit, comme son nom l’indique, un polynôme de degrés un, deux ou trois. Le plan de séparation dans ce caslà est une parabole. Si le degré du polynôme est de 1, alors le noyau polynôme n’est rien d’autre qu’un noyau linéaire.  

 Figure 49: Fonction noyau polynomiale. La fonction noyau polynomiale permet de transformer les données initiales difficilement séparables suivant un plan séparateur de type parabole permettant la classification des données.  La troisième fonction noyau qui existe est le «noyau RBF» (Radial Basis Function en anglais) qui introduit une distance euclidienne dans les coordonnées x et y. Le plan de séparation est un cercle (Figure 50). 

99 Chapitre I: Etat de l’art

  Figure 50: Fonction noyau RBF. La fonction noyau RBF permet de transformer les données initiales difficilement séparables suivant un plan séparateur de type cercle permettant la classification des données.  Les avantages du SVM sont une haute performance et précision, une forte résistance au surapprentissage, une robustesse notamment par rapport aux points aberrants et une capacité à traiter des problèmes non linéaires (de plus haute dimensionnalité). Cependant les inconvénients de cette technique sont qu’elle est difficile à interpréter, non adaptée lorsqu’il y a du bruit dans les données, sollicite de manière intensive la mémoire (de l’ordinateur) et la fonction noyau est coûteuse en termes de temps de calcul151.  Réseaux de neurones artificiels Les réseaux de neurones (ANN) sont des outils d’apprentissage qui sont généralement utilisés pour l’analyse d’une très grande quantité de données complexes. Ils sont appliqués dans de nombreux domaines tels que la physique, les sciences médicales et la bio informatique dans la modélisation moléculaire par exemple. C’est un ensemble de techniques 117 inspirées du fonctionnement des neurones biologiques .  Fondamentalement, un réseau de neurones se compose de couches interconnectées d’unités que nous appelons «neurones» ou nœuds.  La couche qui reçoit les données d’entrées (variables indépendantes du système) est, comme son nom l’indique, la «couche d’entrée». Le dernier nœud (ou dernière couche) est ce que nous appelons la «couche de sortie». Il génère les variables dépendantes du système. La couche connectant la couche d’entrée avec la couche de sortie est la «couche cachée» contenant de ce fait des neurones cachés (Figure 51). Ainsi, chaque couche (i) est constituée

100 Chapitre I: Etat de l’art de Ni neurones prenant leurs entrées sur les Ni-1 neurones de la couche précédente. Chaque unité travaille à l’unisson pour résoudre des problèmes spécifiques propres à son architecture152.  

  Figure 51: Réseau de neurones. Chaque neurone est représenté en bleu et est interconnectés les uns aux autres. Les neurones d’entrée constituent la couche d’entrée et se composent de Ni neurones. La couche cachée contient des neurones cachés et peut contenir un nombre variable de neurones et de couches; variable et propre au problème à résoudre. La couche de sorties génère les variables dépendantes du système et détermine la réponse au problème.   Il existe un très grand nombre de types de réseaux de neurones en fonction de la tâche à effectuer, la nature des données, le temps de calcul et les logiciels utilisés. Chacun possède ses propres avantages et inconvénients. Il est donc très important de sélectionner l’architecture appropriée du réseau (nombre de couches cachées, de neurones cachés et de neurones de sorties) qui caractérise au mieux notre problématique153.   Franck Rosenblatt a développé le premier modèle de réseau de neurones en 1957 constitué d’une seule couche cachée et d’un seul neurone de sortie: le «perceptron» (Figure 52). 

  Figure 52: Le perceptron. Un perceptron est constitué d’une couche d’entrée, d’une seule couche cachée et d’une couche de sortie composé d’un seul neurone.  

101 Chapitre I: Etat de l’art

Un réseau de neurones est doté d’une «fonction de transfert» (ou fonction d’activation) qui transforme les entrées en sortie selon des règles bien précises. C’est une fonction de seuil qui calcule l’état de sortie du neurone en renvoyant un réel proche de 1 quand les informations d'entrée sont «bonnes» et un réel proche de 0 quand elles sont «mauvaises». Les fonctions de transfert utilisées sont contenues dans l'intervalle réel [0,1]. Quand le réel est proche de 1, le neurone est alors dit «actif» et inversement quand le réel est proche de 0, le neurone est dit «inactif». Il existe différentes fonctions de transfert mais les trois plus fréquemment utilisées sont la fonction linéaire (Équation 9), la fonction sigmoïde (Équation 10) et la fonction tangente hyperbolique (Équation 11).  ሺݔሻ ൌܽݔ൅ܾ݂ (9)  ଵ  ሺݔሻ ൌ݂ (10) ሺଵା௘ೣሻ  ௦௜௡ሺσ ௪ ே ሻ ሺݔሻ ൌ ೔ ೔ ൌ–ƒŠሺݔሻ݂(11) ୡ୭ୱሺ σ ௪೔ே೔ሻ  Une fois l’architecture et la fonction d’activation déterminées, le réseau est soumis à apprentissage. La première phase consiste en l’apprentissage des relations précédentes entre les neurones d’entrée et les neurones de sortie dans le sens direct. La fonction d’activation opère alors une somme pondérée des signaux d’entrée (fonction de combinaison) afin de déterminer l’état du neurone (actif/inactif). Cette combinaison est déterminée par un vecteur poids associé à chaque neurone qui code l’information liée aux connections et dont les valeurs sont estimées durant cette phase d’apprentissage. Un poids est simplement un coefficient wi lié à l'information Ni. Un poids supplémentaire va être ajouté représentant le «coefficient de biais». Nous le noterons w0 et le supposerons lié à une information N0 = 1. Les poids sont initiés à des valeurs quelconques au hasard. (Figure 53)  

  Figure 53: Première phase de l’apprentissage d'un réseau de neurones. 

102 Chapitre I: Etat de l’art

Le but de l’apprentissage est d’adapter les poids en fonction des stimuli présentés à l’entrée du réseau. Ainsi, par la suite, le processus d’apprentissage ajustera le poids de chaque connexion neuronale jusqu’à ce que la différence entre les données observées et les prédictions du neurone de sortie deviennent suffisamment faibles. Cette phase dite de propagation permet de calculer la sortie du réseau (Figure 54).  

  Figure 54: Processus d'apprentissage.  Le critère d’arrêt de l’apprentissage est souvent calculé à partir d’une fonction de coût, FDUDFWpULVDQWl’écart entre les valeurs de sortie obtenXHVHWOHVYDOHXUVGHUpIpUHQFH UpSRQVHV VRXKDLWpHVSRXUFKDTXHH[HPSOHSUpVHQWp   Il existe différents algorithmes d’optimisation de cet apprentissage et la plupart du temps ils sont basés sur une évaluation du gradient de l’erreur par rétropropagation. C’est la deuxième phase de l’apprentissage. La rétropropagation permet de rétropropager l'erreur commise par un neurone à ses synapses et aux neurones qui y sont reliés. L’algorithme de rétropropagation effectue, de manière itérative, XQH PRGLILFDWLRQ GHV SRLGV VXLYDQW FHWWH GLUHFWLRQ afin que les erreurs soient corrigées selon l'importance des éléments qui ont justement participé à la réalisation de ces erreurs. IOHIIHFWXHFHVPRGLILFDWLRQVjusqu’à arriver à un minimum sur la fonction de coût représentant l’écart entre les sorties obtenues et les VRUWLHVGHUpIpUHQFHDe la sorte, les poids qui contribuent à engendrer une erreur importante se verront modifiés de manière plus significative que les poids qui ont engendré une erreur marginale154155.  L’avantage des réseaux de neurones est qu’ils sont rapides, nonOLQpDLUHV DGDSWDWLIV IOH[LEOHVLQGpSHQGDQWVGHVK\SRWKqVHVVWDWLVWLTues, minimisent l’erreur/biais HWIRQFWLRQQHQW HQWHPSVUpHO,OVSRVVqGHQWGHPHLOOHXUHVFDSDFLWpVSUpGLFWLYHVTXHOHVPRGqOHVVWDQGDUGVGH UpJUHVVLRQHWGHVSHUIRUPDQFHVLGHQWLTXHVYRLUHVXSpULHXUHVDX690  /HJURVLQFRQYpQLHQWGHFHW\SHGHWHFKQLTXHVest qu’elleVQHSDUYLHQQHQWSDVjDSSUHQGUH GHV LQWHUDFWLRQV HQWUH OHV YDULDEOHV (Q HIIHW OD RX OHV FRXFKHV FDFKpHV VRQW FRQVLGpUpHV

103 Chapitre I: Etat de l’art

FRPPH GHV ©EODFNER[ª OHV UHODWLRQV VRQW DORUV GLIILFLOHV j DSSUHQGUH 'H SOXV OH WHPSV d’apprentissage d’XQ $11 SHXW rWUH H[WUrPHPHQW ORQJ (Q HIIHW O HQVHPEOH GH WRXVOHV FRPSRUWHPHQWV SRVVLEOHV DVVRFLp j WRXWHV OHV HQWUpHV SRVVLEOHV GHYLHQW UDSLGHPHQW WUqV FRPSOH[H2QSDUOHDORUVG H[SORVLRQFRPELQDWRLUH– /DPRGpOLVDWLRQPROpFXODLUH La modélisation moléculaire est une méthode in silico qui consiste à construire des modèles de molécules ou d'ensemble de molécules afin de prévoir et de mieux en comprendre la structure, les propriétés et la réactivité.   Il existe trois grandes méthodes de calcul en modélisation moléculaire qui ont pour but d’obtenir une structure d’énergie minimum, correspondant à la conformation la plus probable et la plus stable. La Mécanique Quantique (MQ), basée sur l’équation de Schrödinger, est celle qui nous intéressera plus particulièrement.   Le résultat de cette équation permet d’obtenir des renseignements précis sur les propriétés et distributions électroniques / géométriques de la molécule ainsi que sur son énergie. Cependant cette équation ne peut être résolue exactement. Afin de palier à ce problème, plusieurs approximations peuvent être effectuées: la première est l’approximation de Born Oppenheimer qui fixe la position des noyaux. Malgré cela, la résolution de l’équation reste impossible et des approximations supplémentaires sont nécessaires.  À cette fin, deux approches de traitement peuvent être utilisées en MQ: une approche qui combine les orbitales atomiques en orbitales moléculaires (méthode ab initio ou semi empirique) et une approche par la méthode de la théorie de la fonctionnelle de la densité (ou Density Functional Theory (DFT) en anglais).  La méthode ab initio se divise en deux sous familles: les méthodes HartreeFock (HF) et les méthodes post HartreeFock. Les méthodes HF négligent les interactions électroniques et ne s’appliquent que sur des systèmes contenant plusieurs dizaines d’atomes. À l’inverse les méthodes post HF, très coûteuses en termes de temps de calcul, réintroduisent les interactions électroniques et ne s’appliquent que sur des systèmes contenant une dizaine d’atomes.   La méthode semiempirique résulte de l’extrême simplification des méthodes HF par des termes empiriques ajustés des résultats expérimentaux ou sur les résultats obtenus par des méthodes plus avancées. Elles ne peuvent être appliquées qu’à des systèmes de quelques centaines d’atomes.   La méthode DFT est une méthode développée sur les bases de L. Thomas et E. Fermi. Elle n’a cependant pu être développée que dans le milieu des années 1960 par P. Hohenberg, W. Kohn et L. Sham. Cette méthode est une méthode corrélative c’estàdire que les électrons évoluent seuls. La répulsion électronique n’existe pas et est donc incalculable. Ainsi, cette

104 Chapitre I: Etat de l’art méthode traite les électrons comme un nuage de gaz d’électrons qui englobe les noyaux de la molécule. La densité de ce nuage de gaz est représentée par une fonction unique, d’où le nom de DFT. Cette méthode permet de traiter des systèmes de quelques dizaines d’atomes en un temps raisonnable.   La mécanique quantique est limitée aux molécules de moins de 1000 atomes. C’est une technique exigeante en termes de temps de calcul (plusieurs semaines pour un problème de 75 atomes) qui demande des ordinateurs très puissants, et requiert de l’expertise de la part de l’utilisateur.  Il existe plusieurs méthodes quantiques semiempiriques:

x AM1 (Austin Model 1 en anglais) développées par M. Dewar en 1985159; x PM3 (Parametric Method 3 en anglais) qui est une paramétrisation de la méthode AM1160; x PM6 (Parametric Method 6 en anglais)161; x PM7 (Parametric Method 7 en anglais) qui est la forme modifiée de PM6162; x RM1 (Recife model 1 en anglais) développé par le groupe A.M. Simas, Recife du Brésil163.



105 

                  

Chapitre II: QSAR onthefly

                 

Chapitre II: QSAR onthefly

 5pVXPp

/D FRQVWUXFWLRQ HW OD JpQpUDWLRQ GH GRQQpHV FRQVWLWXHQW OH SRLQW FHQWUDO HW OD UHVVRXUFH SULQFLSDOH SRXU HIIHFWXHU XQ WUDYDLO FRUUHFWHPHQW (Q HIIHW OHV GRQQpHV FRQVWLWXHQW OD FRQQDLVVDQFHO H[SpULHQFHOHVH[HPSOHVVXUOHVTXHOVVHIL[HXQV\VWqPHDILQTX LOVSXLVVHQW DSSUHQGUHHWGHYHQLUSOXVSHUIRUPDQWV  Une fois qu’un projet est lancé, la première chose à faire est de passer au crible et d'explorer toutes les pistes possibles pour récupérer les données liées au problème à résoudre (les bases de données existantes, les publications, les logiciels, les données de collaboration...). La qualité de l’analyse dépend du nombre de données acquises en amont. En effet, moins il y a de données, plus l’analyse est difficile et plus se pose la question du bien fondé et de la pertinence de l’étude. A l’inverse, plus il y a de données, plus l’analyse est en adéquation avec le sujet à traiter et plus le travail sera pertinent. A noter que trop de données conduisent à un besoin supérieur en mémoire informatique et à une analyse plus longue.  Au début de cette thèse, le premier problème que nous avons soulevé est lié au manque de molécules HEMs évaluées et le manque de données expérimentales pour ces mêmes molécules pour les différents tests toxicologiques. Il existait des données toxicologiques dans la littérature pour plusieurs molécules HEMs mais ces données n’étaient pas suffisantes pour pouvoir créer une base de données et effectuer des travaux sur ces dernières (prédictions, tests…). Afin de pallier ce problème et d'obtenir des données expérimentales pour un grand nombre de molécules, très diversifiés et harmonisées avec les principes énoncés par REACh et l’OCDE, cinq bases de données européennes et un programme ont été récupérés et fusionnés164. Les bases de données choisies ont compilé les données de mutagénicité disponibles pour l’ensemble des tests toxicologiques décrit par REACh et l’OCDE. Les cinq bases de données sont: 

x Base de données EURLECVAM La base de données EURLECVAM (Laboratoire de référence de l'Union européenne  Commission européenne pour les alternatives aux tests sur les animaux ou European Union 165 Reference LaboratoryEuropean Commission for Alternatives to Animal Testing en anglais) est XQHEDVHGHGRQQpHVVWUXFWXUpHTXLFRPSLOHOHVGRQQpHVGLVSRQLEOHVVXUOHVWHVWVin vitroHW in vivo GH OD JpQRWR[LFLWp HW GH OD FDQFpURJpQLFLWp /HV GRQQpHV SURYLHQQHQW GH GLIIpUHQWHV VRXUFHV DJHQFHV GH UpJOHPHQWDWLRQ EDVHV GH GRQQpHV GH O LQGXVWULH HW GH OD OLWWpUDWXUH  VH SUpVHQWHQWFRPPHXQWDEOHDX([FHOFRQWHQDQWSURGXLWVFKLPLTXHVLGHQWLILpVSDUQRPHW QXPpUR&$6HWVRQWFODVVpVSDURUGUHDOSKDEpWLTXH

x Base de données JRCQSAR La base de données des modèles QSAR du Centre commun de recherche (ou Joint Research Center (JRC) en anglais)HVWXQHEDVHGHGRQQpHVpOHFWURQLTXHFRPSOqWH(contenant 93 documents) HW DFFHVVLEOH OLEUHPHQW http://qsardb.jrc.it/qmrf/  Elle D pWp GpYHORSSpeHW

107 Chapitre II: QSAR onthefly

PLVeen œuvre en 2008 par le service scientiILTXHLQWHUQHGHOD&RPPLVVLRQHXURSpHQQH/H -5& HIIHFWXH XQ FRQWU{OH GH TXDOLWp DGpTXDWLRQ HW H[KDXVWLYLWp GH OD GRFXPHQWDWLRQ  GHV informationsVRXPLVes

x Base de données CGX La base de données sur la génotoxicité et la carcinogénicité (Carcinogenicity Genotoxicity eXperience (CGX) en anglais)HVWOHUpVXOWDWGHODSHUIRUPDQFHG XQHEDWWHULHGHWURLVGHVWHVWV GH JpQRWR[LFLWp in vitro OHV SOXV FRXUDPPHQW XWLOLVpV $PHV O\PSKRPH GH VRXULV HW DEHUUDWLRQV FKURPRVRPLTXHV  &HWWH EDVH GH GRQQpHV D pWp JpQpUpH SDU .LUNODQG HW DO  85,OFRQWLHQWSURGXLWVFKLPLTXHV GHX[WDEOHDX[([FHOFRQWHQDQWPROpFXOHVHW PROpFXOHVVRXVWUD\DQWOHVGRXEOHVHPSORLV FRPSLOpVjSDUWLUGHGLIIpUHQWVSURJUDPPHVHW SXEOLFDWLRQV

x Base de données CPDB La base de données sur la capacité de carcinogénicité (Carcinogenic Potency DataBase (CPDB) en anglais) est une base de données gratuite et accessible électroniquement (http://toxnet.nlm.nih.gov/cpdb/cpdb.html). Elle contient une ressource unique et internationale sur les résultats de 6540 tests de cancérogènes à long terme sur les animaux sur 1547 produits chimiques. Pour chaque expérience, l'information est normalisée et comprend des détails approfondis sur l'espèce, la souche, le sexe de l'animal testé, le protocole expérimental (voie d'administration, durée, dose journalière, organe cible, potentiel cancérogène (TD50), citation dans la littérature, etc.), le nom chimique, le numéro CAS, les codes SMILES (Simplified Molecular Input Line Entry Specification en anglais) RX ,Q&K, ,QWHUQDWLRQDO&KHPLFDO,GHQWLILHUHQDQJODLV HWOHVSRLGVPROpFXODLUHV166

x Base de données ISSTOX Les bases de données toxicologiques ISSTOX ont été mises en place par l'Institut Supérieur de Sanita (Instituto Superiore di Sanità TOXicity databases (ISSTOX)). Ces bases de données contiennent les résultats et les critères expérimentaux de divers tests toxicologiques. Nous avons spécifiquement utilisé les bases ISSTY (mutagénicité in vitro chez Salmonella Typhimurium) et ISSBIOC (analyse à long terme de la cancérogénicité sur les rongeurs et la mutagénicité chez Salmonella typhimurium des BIOCides), car elles contiennent des données sur le test d’Ames. Nous avons également utilisé la base ISSCAN (analyse de la CANcérogénicité sur les rongeurs) pour ses données sur la carcinogénicité. /HV EDVHV GH GRQQpHV ,6672; RQW pWp VSpFLILTXHPHQW FRQoXHV FRPPH XQ RXWLO d’aide à la GpFLVLRQHWOHVUpVXOWDWVGHWR[LFLWpRQWpWppYDOXpVGHPDQLqUHFULWLTXH167

x Programme NTP /HSURJUDPPHWR[LFRORJLTXHQDWLRQDO RX1DWLRQDO7R[LFRORJ\3URJUDP 173 HQDQJODLV  HVW XQ SURJUDPPH LQWHU LQVWLWXWLRQV 6RQ REMHFWLI HVW GH GpYHORSSHU G DPpOLRUHU HW GH FRRUGRQQHU OHV PpWKRGHV GH WHVW GH JpQpUHU GHV GRQQpHV HW GH FRPPXQLTXHU DYHF OHV

108 Chapitre II: QSAR onthefly

JRXYHUQHPHQWVOHVLQGXVWULHVOHVPLOLHX[XQLYHUVLWDLUHVHWOHSXEOLFVXUOHVpYDOXDWLRQVGHV SURGXLWVFKLPLTXHVGHVDQWpSXEOLTXH KWWSQWSQLHKVQLKJRY  La nécessité d'un programme comme le NTP est apparue en raison de l'augmentation des préoccupations scientifiques, réglementaires et du congrès concernant les effets sur la santé humaine des agents chimiques dans notre environnement168.

 1HWWR\DJHGHVGRQQpHV

Le nettoyage des données n’est pas une étape agréable car extrêmement fastidieuse. Cependant, elle est indispensable à l’obtention d’une base de données consistante, propre, VDQVGRXEORQHWVDQVYDOHXUDEHUUDQWH&HWWHétape est d’autant plus importante TX’HOOHDLGHUD HWVLPSOLILHUDJUDQGHPHQWOHVpWDSHVVXLYDQWHVGXWUDYDLO  Dans les cinq bases de données européennes et le programme utilisés, les résultats SRVLWLIV HWQpJDWLIV PXWDJqQHQRQPXWDJqQH; carcinogène / non carcinogène…) ont été UpFXSpUpV /HVGRQQpHV©,QFRQQXHVª O ©eTXLYRTXHVª ( ©7HFKQLTXHPHQW&RPSURPLVHVª 7& HW ©IDLEOHPHQWSRVLWLYHVªRQWpWppOLPLQpHV/ REMHFWLIHVWLFLG DXJPHQWHUODTXDOLWpGHVGRQQpHV H[SpULPHQWDOHV HQ GLPLQXDQW OH ELDLV OHV IDXVVHV UpSRQVHV RX OHV HUUHXUV (QVXLWH O LQIRUPDWLRQ PXWDJqQH HW QRQ PXWDJqQH D pWp FKDQJpH SDU GHV YDOHXUV GH  HW  UHVSHFWLYHPHQW (Q HIIHW OHV GRQQpHV VRXV OD IRUPH GH ©FDUDFWqUHª PXWDJqQH  QRQ PXWDJqQH VRQWFRQYHUWLHVHQQRPEUHHQWLHU  DILQG REWHQLUGHVUpVXOWDWVKRPRJqQHVHW FRKpUHQWV SRXU l’extrapolation (QILQ WRXWHV OHV GRQQpHV H[SpULPHQWDOHV GHV FLQT EDVHV GH GRQQpHV HW GX SURJUDPPH SRXU FKDTXH WHVW WR[LFRORJLTXH VSpFLILTXH GH OD FDWpJRULH PXWDJpQLFLWp RQW pWp IXVLRQQpV DILQ GH FUpHU XQH QRXYHOOH EDVH GH GRQQpHV VSpFLILTXH j FKDFXQ GHV WHVWV &KDFXQH GHV EDVHV GH GRQQpHV D pWp JpQpUpH DYHF OH ORJLFLHO 02( 0RGHOLQJ 2SHUDWLQJ (QYLURQPHQW  (Q pOLPLQDQW WRXV OHV GRXEORQV YRLFL OH QRPEUH GH PROpFXOHVTXHQRXVREWHQRQVSRXUFKDFXQHGHVEDVHVGHGRQQpHVFUppHV

x /DEDVHGHGRQQpHVdu test d’Ames contient 7723 molécules

x /D EDVH GH GRQQpHV GX WHVW d’aberration chromosomique (CA) in vitro FRQWLHQW  PROpFXOHV

x /D EDVH GH GRQQpHV GX WHVW de mutagenèse cellulaire de lymphome de souris (MLA) FRQWLHQWPROpFXOHV

x /DEDVHGHGRQQpHVGXWHVWde synthèse non programmé de l’ADN (UDS) FRQWLHQW PROpFXOHV

x /DEDVHGHGRQQpHVGXWHVWde mutation létale dominant '/7 FRQWLHQWPROpFXOHV

x /DEDVHGHGRQQpHVGXWHVWGHFDUFLQRJpQLFLWpFRQWLHQWPROpFXOHV

x /DEDVHGHGRQQpHVGXWHVWGHUHSURWR[LFLWpFRQWLHQWPROpFXOHV  

109 Chapitre II: QSAR onthefly

 &ULWqUHVd’inclusionGHVGRQQpHV

Rappelons ici que pour une molécule produite ou importée à une quantité supérieure à 100 tonnes par an (qui est la quantité principalement utilisée par Airbus Safran), un ensemble de test in vitro et in vivo sont nécessaires. Pour les tests in vitro nous avons le test d’Ames, le test CA ainsi que le test MLA et pour les tests in vivo nous avons le test UDS et le test DLT.   Sont présentés cidessous les critères d’inclusion des données inhérentes à la constitution des bases de données précédentes (en accord avec les lignes directrices de l’OCDE):  Les critères d’inclusion sont les suivants (Tableau 9):   Tests toxicologiques Critères d’inclusion

 Présence des termes suivants dans le texte: positif ou négatif  Les souches utilisées doivent être mentionnées Test d’Ames  Préciser la substance chimique utilisée (OCDE n°471)  Utilisation ou non d’un système d’activation métabolique  Validation des données si présence d’au moins trois critères sur quatre avec présence obligatoire du critère un et deux

 Présence des termes suivants dans le texte: positif ou négatif. Résultat clairement positif ou négatif si la molécule test produit ou une augmentation statistiquement significative du nombre d’aberrations chromosomiques (comparé aux contrôles). Dans le cas de résultat douteux (la réponse ni clairement négative ni clairement Test CA positive): Avis d’expert ou tests supplémentaires. (OCDE n°473)  Préciser la lignée cellulaire utilisée  Préciser la substance chimique utilisée  Utilisation ou non d’un système d’activation métabolique  Mesures cytotoxiques et de précipitations s’il y en a  Validation des données si présence d’au moins trois critères sur cinq avec présence obligatoire du critère un

110 Chapitre II: QSAR onthefly

  Présence des termes suivants dans le texte: positif ou négatif. La réponse est positive si au moins une concentration du produit chimique testé présente une augmentation statistiquement significative de la fréquence des mutants par rapport au témoin négatif. Le produit chimique testé est alors considéré comme capable d’induire des mutations dans ce système d’essai. La réponse est négative s’il n’y a pas de réponse liée à la concentration ou s’il Test MLA n’y a pas d’augmentation significative de la fréquence des mutants. (OCDE n°490) Dans le cas de résultat douteux: Avis d’expert ou recherches approfondies (répétition de l’expérience, conditions expérimentales modifiées)  Préciser la lignée cellulaire utilisée  Préciser la substance chimique utilisée  Utilisation ou non d’un système d’activation métabolique  Analyses statistiques si présentes  Validation des données si présence d’au moins trois critères sur cinq avec présence obligatoire du critère un et deux   Présence des termes suivants dans le texte: positif ou négatif. 8Q UpVXOWDWSRVLWLILQGLTXHTX XQHVXEVWDQFHLQGXLWXQHOpVLRQGHO $'1 VXU GHV KpSDWRF\WHV GH PDPPLIqUH in vivo 8Q UpVXOWDW QpJDWLI LQGLTXHTXHGDQVOHVFRQGLWLRQVGHO HVVDLODVXEVWDQFHpWXGLpHQ D SDVSURYRTXpGHOpVLRQVGHO $'1VXVFHSWLEOHVG rWUHGpWHFWpHVSDU FHWHVW  Préciser la lignée cellulaire utilisée Test UDS  Préciser la substance chimique utilisée (OCDE n°486)  / pYDOXDWLRQGHVUpVXOWDWVSHXWUHSRVHUVXUGHVFULWqUHVELRORJLTXHV WHOV TXH OD YDULDWLRQ HQWUH DQLPDX[ OD UHODWLRQ GRVHUpSRQVH HW OD F\WRWR[LFLWp  Routes d’administration orale, dermique, inhalation  Analyses statistiques si présentes Nombre de cellules en réparation, s’il a été déterminé Nombre de cellules en phase S, s’il a été déterminé  Validation des données si présence d’au moins cinq critères sur huit avec présence obligatoire du critère un

111 Chapitre II: QSAR onthefly

  Présence des termes suivants dans le texte: positif ou négatif. Une substance chimique est considérée comme clairement négative ou positive si aucune ou au moins une des doses d’essai présente une augmentation statistiquement significative (loi de Poisson ou binomiale) par rapport au témoin négatif ou si l’augmentation est liée à la dose dans au moins une condition d’exposition. La substance test est considérée comme capable d’induire des mutations létales dominantes dans les cellules germinales des animaux testés. Dans le cas de résultat douteux: Avis d’expert ou recherches approfondies (répétition de l’expérience, conditions Test DLT expérimentales modifiées) (OCDE n°478)  L’accouplement se fait à intervalles prédéterminés et successifs.   Un nombre suffisant de souris mâles et femelles est nécessaire afin de garantir une efficacité statistique pour pouvoir détecter la fréquence des mutations létales dominantes.   Préciser l’espèce utilisée et le nombre  Préciser la substance chimique utilisée  Justification du choix du véhicule (si présent)  Routes d’administration orale, dermique, inhalation  Analyses des données statistiques  Validation des données si présence d’au moins cinq critères sur huit avec présence obligatoire du critère un   Est considérée comme élément carcinogène, tout élément présentant les caractéristiques suivantes: o Formation d’une tumeur ou apparition de cellules tumorales suite à l’injection du produit («tumeur maligne» dans le texte) o Incidence des néoplasmes malins ou réduction du temps d’apparition des néoplasmes par rapport au groupe contrôle  Préciser l’espèce utilisée, le nombre et l’âge (en majorité, de 65 à Carcinogénicité 110 jours) (OCDE n°451)  Préciser la substance chimique utilisée  Doses administrées de façon journalière et graduelles  Routes d’administration orale, dermique, inhalation  Justification du choix du véhicule (si présent)  Test se déroulant sur une durée de 24 mois  Autres données toxicologiques si présentes   Analyses des données statistiques quand applicable   Validation des données si présence d’au moins cinq critères sur neuf avec présence obligatoire du critère un

112 Chapitre II: QSAR onthefly

  Est considérée comme élément reprotoxique, tout élément présentant les caractéristiques suivantes: o Altération de la fertilité féminine et masculine (spermatogénèse et cycle œstral anormale, tumeurs) o Altération des organes reproductifs (malformations, déformations, lésions) o Altération du comportement maternel (gestation (durée), allaitement, avortement spontané, mortnés, modifications du poids corporel) o Altération du développement de l’enfant à naître (malformations, anomalies évidentes, croissance altérée, performances affectées) o Sont inclus les cas d’embryotoxicité et de fœtotoxicité   Est inclue comme résultat positif toute tumeur présente sur les glandes mammaires ou les gonades, dans le sens ou ces tumeurs, Reprotoxicité bien que se rapportant au test de carcinogénicité, entravent la (OCDE n°421) fonction reproductrice  Doses administrées de façon journalière et répétée tout le long de l’étude  Principalement chez le rat mature (autres espèces devant être justifiées)  Préciser le nombre et l’âge (maturité entre dixdouze semaines suivant les espèces)  Administration par voie orale (autres voie sous justification)   Préciser la substance chimique utilisée  Justification du choix du véhicule (si présent)  Description des signes de toxicité observés (types, gravités, durées des manifestations cliniques observées (réversibles ou non), modifications histopathologiques apportées)  Analyses des données statistiques possibles (valeur limitée)  Validation des données si présence d’au moins six critères sur dix avec présence obligatoire du critère un ou deux Tableau 9: Critères d'inclusions.  Dans l’article au paragraphe 4, le test d’Ames a été spécifiquement utilisé comme exemple car c’est le test le plus utilisé, le plus connu et surtout le premier à devoir être effectué dans la réglementation européenne (1er test de la catégorie mutagénicité).   Un set de 17 molécules constitué de molécules HEMs, dont le résultat expérimental pour le test d’Ames est garanti et avéré dans la littérature et corrélé aux exigences définies par REACh et l’OCDE, a été récupéré et utilisé comme base de test (Table 1). Ce set de molécules dont nous connaissons le résultat expérimental pour le test d’Ames est inconnu pour le système prédictif.   Le QSAR est l’outil de prédiction in silico le plus utilisé en bioinformatique. Comme nous utilisons des valeurs expérimentales binaires (0 pour une molécule non mutagène et 1 pour une molécule mutagène), cet article utilise plus particulièrement le SAR. Ce dernier a pour

113 Chapitre II: QSAR onthefly but de réaliser une prédiction qualitative des molécules en mesurant l’activité biologique de la molécule basée sur sa structure chimique.   Il est utile ici d’expliquer le développement de notre stratégie afin de mieux comprendre les résultats de prédiction que nous avons obtenus.  Un SAR classique a été appliqué sur l’ensemble de la base de données Ames pour prédire l’activité biologique de chacune des molécules de la base de test (query en anglais) précédemment citées (Figure 55). 

  Figure 55: SAR classique appliquée sur une base de données. Un QSAR est appliqué sur la molécule test (cycle pyrazole). Ce dernier est basé sur l’apprentissage de la base de données et l’établissement d’une équation permettant la prédiction de la toxicité de la molécule test.  L’inconvénient d’appliquer un SAR directement sur l’ensemble d’une base de données constituée de mesures expérimentales réside dans le fait qu’elle peut contenir des molécules trop éloignées de la substance moléculaire que nous tentons de prédire (ici des HEMs), de sorte que la prédiction qui en découle peut s’avérer erronée. Ici l’ensemble des molécules sont prédites douteuses (Table 4 avec T=0). Le système prédictif ne sait pas dire si les molécules sont mutagènes ou non mutagènes. Notre article (cité cidessous 4.) a donc pointé le fait que l’utilisation d’un simple QSAR (ou SAR) sur une base de données entière pouvait être lacunaire. Nous avons donc voulu revisiter cette question en trouvant une idée nous permettant d’obtenir une meilleure prédiction et surtout une méthode plus fiable pour les molécules HEMs. Ceci nous a amené à étudier plus précisément le QSAR OnTheFly (OTF QSAR).  Le QSAR OnTheFly (OTFQSAR) est un cas particulier de QSAR. Sa stratégie consiste, à partir de la base de données de référence, en la sélection de molécules qui présentent une similarité minimale avec la molécule dont nous cherchons à prédire l’activité biologique et d’effectuer par la suite un QSAR classique sur ce nouveau sousensemble obtenu (Figure 56). La fiabilité d'un modèle OTFQSAR dépend de la similarité de la molécule prédite. Il est possible d’établir une mesure de similarité entre deux molécules par comparaison de leurs vecteurs descriptifsJUkFHDXFRHIILFLHQW7DQLPRWR 

114 Chapitre II: QSAR onthefly

  Figure 56: OTFQSAR. Une similarité est appliquée sur la base de données totale afin de ne récupérer que des molécules similaires à la molécule query. Cet ensemble de molécules similaires constitue la nouvelle base de données sur lequel se base le QSAR pour la prédiction de la toxicité.  L’inconvénient d’appliquer un OTFQSAR sur une molécule cible et notamment une molécule HEM réside dans le fait que (1) les molécules similaires sélectionnées peuvent soit être toutes positives (mutagènes) ou toutes négatives (non mutagènes) rendant le QSAR inutile; (2) les molécules similaires sélectionnées peuvent ne pas être suffisamment nombreuses pour effectuer un QSAR et (3) les molécules récupérées peuvent être très éloignées de la molécule initialement testée en fonction du taux de similarité utilisé. Ce qui est souvent le cas des molécules explosives avec les bases de données classiques. Ce constat nous a donc mené à étudier une autre stratégie.  La stratégie finale adoptée dans cet article pour améliorer la prédiction des molécules HEMs a été l’utilisation d’une sousbase de molécules HEMs fournie par ASL sur laquelle se base chacune des molécules de la base de test. En effet, ASL nous a fourni une base de données de 54 molécules HEMs sur laquelle s’est basée l’OTFQSAR. L’ensemble des molécules contenues dans la base de données test ont été évaluées pour mettre en évidence un potentiel mutagénique des molécules HEMs. La stratégie est représentée cidessous (Figure 57). Dans cette publication, différentes similarités ont été utilisées (0,7; 0,8; 0,85; 0,9 et 0,95 et le rôle de chacune a été discuté. De plus, les deux types de QSAR (QSAR classique et OTFQSAR) ont été évalués et la performance de chacun expliquée.   /H SUHPLHU FRQVWDW TXL D pWp IDLW 7DEOH   HVW TXH OH QRPEUH GH PROpFXOHV VLPLODLUHV VpOHFWLRQQpHV GpFURLW UDSLGHPHQW ORUVTXH OH WDX[ GH VLPLODULWp DXJPHQte. D’autant plus lorsqu’il s’agit de molécules explosives car très peu d’entre elles trouvent des molécules VLPLODLUHVGDQVODbase de données d’Ames.  /HGHX[LqPHFRQVWDWHVWTXHODVpOHFWLYLWpODSHUIRUPDQFHODTXDOLWpHWOHVFRPSpWHQFHVGX modèle basé sur l’OTF46$5 VRQW ELHQV PHLOOHXUHV TXH OD 46$5 FODVVLTXH (Q HIIHW OH 506( 5RRW0HDQ6TXDUH(UURUHQDQJODLV XWLOLVpSRXUPHVXUHUODGLIIpUHQFHHQWUHODYDOHXU SUpGLWHHWODYDOHXUUpHOOH H[SpULPHQWDOH GpFURLWTXDQGODVLPLODULWpDXJPHQWH$LQVLSOXVOD

115 Chapitre II: QSAR onthefly

VLPLODULWp DXJPHQWH SOXV OH V\VWqPH SUpGLFWLI HVW SHUIRUPDQW /D VLPLODULWp HVW XQ JDJH GH SHUIRUPDQFH'HSOXVO 27)46$5HVWEHDXFRXSSOXVSUpFLVTXHOH46$5 

 Figure 57: Schéma récapitulatif d'un QSAR onthefly. Le principe est d’effectuer une recherche de similarité dans toute la base de données (ici la base de données Ames) pour la première molécule fournie par ASL. Ainsi, toutes les molécules similaires à la première molécule d’ASL sont récupérées. Ensuite, la recherche de similarité dans toute la base de données pour la deuxième molécule fournie par ASL est effectuée. Toutes les molécules similaires à la deuxième molécule d’ASL sont récupérées. Le même processus est réitéré sur l’ensemble de la base de données test, et l’ensemble des molécules de la base de données Ames similaires aux 54 molécules d’ASL sont récupérées. Nous obtenons ainsi une toute nouvelle base de données contenant uniquement des molécules similaires aux molécules d’ASL et donc uniquement des molécules explosives. Le QSAR est effectué par la suite sur ce sousensemble filtré ne contenant que des molécules HEMs. 

116 Chapitre II: QSAR onthefly

Grâce à l’analyse des GLIIpUHQWHVGLVWULEXWLRQVSUpGLWHVGHVPROpFXOHVREWHQXHVHQIRQFWLRQ GHODVLPLODULWp )LJde l’article  OH V\VWqPH SUpGLFWLI HVW FDSDEOH GH UHFRQQDLWUH HW G LGHQWLILHUOHVPROpFXOHVPXWDJqQHVGHVPROpFXOHVQRQPXWDJqQHV,OHVWpJDOHPHQWFDSDEOH GH GLVWLQJXHU XQH ]RQH DSSHOpH ]RQH GRXWHXVH TXL HVW OD ]RQH GH VXSHUSRVLWLRQ GHV molécules. C’HVWXQH]RQHROHV\VWqPHSUpGLFWLIQHVDLWSDVVLXQHPROpFXOHHVWPXWDJqQHRX QRQ 3OXW{W TXH GH IDLUH XQH IDXVVH SUpGLFWLRQ OH V\VWqPH SUpGLFWLI SUpIqUH QH SDV VH SURQRQFHU/DIRUFHGHFHV\VWqPHHVWGHQHSDVVHSURQRQFHUSOXW{WTXHGHIDLUHGHVHUUHXUV  &ROOHFWLYHPHQWOHVGLVWULEXWLRQVSUpGLWHVSHUPHWWHQWGHPHWWUHHQpYLGHQFHO LPSRUWDQFHGH ODVLPLODULWpDLQVLTXHOHQRPEUHGHPROpFXOHVVLPLODLUHVVpOHFWLRQQpHVPDLVVXUWRXWGHGpILQLU OHPHLOOHXUWDX[GHVLPLODULWpj 7  (QHIIHWjXQHVLPLODULWpGH )LJF  PROpFXOHVVLPLODLUHVRQWpWpVpOHFWLRQQpHVODVpSDUDWLRQHQWUHOHVPROpFXOHVPXWDJqQHV FHQWUp HQ HWQRQPXWDJqQHV FHQWUpHQ HVWODSOXVVDWLVIDLVDQWHHWDGpTXDWHjFHTXLpWDLWYRXOX UHFRQQDLWUHHWLGHQWLILHUOHVPROpFXOHVPXWDJqQHVGHVPROpFXOHVQRQPXWDJqQHVQHSDVIDLUH d’erreur de prédiction…) /D VLPLODULWp j  TXL SRVVqGH pJDOHPHQW WRXV FHV FULWqUHVGH VDWLVIDFWLRQ, n’a pas été choisie car trop peu de molécules ont été sélectionnées pour effectuer OH46$5  Une meilleure zone douteuse a également été déterminée afin de distinguer au mieux les molécules mutagènes des molécules non mutagènes, et de déterminer dans quelle zone le système prédictif ne se prononce pas. La meilleure zone sera celle qui possède un large pourcentage de prédictions correctes et un faible pourcentage de prédictions incorrectes.  &RPPH H[SOLTXp SUpFpGHPPHQW O’ensemble des données de mutagéniciWp SRXU FKDFXQH GHVPROpFXOHVGHODEDVHGHWHVWRQWpWpUpFXSpUpHVGDQVODOLWWpUDWXUH/HSUREOqPHH[LVWDQW j FH QLYHDX HVW TXH PrPH VL OH UpVXOWDW H[SpULPHQWDO HVW DYpUp HW FRUUpOp DX[ H[LJHQFHV GpILnies par REACh et l’OC'(VRXYHQWOHVODERUDWRLUHVn’utilisent pas le même protocole de test. En effet, en ce qui concerne le test d’Ames, dans les publications, les cinq souches de Salmonella typhimurium SHXYHQW YDULHU RX QH SDV rWUH pQRQFpHV FODLUHPHQW RX HQFRUH OD FRQFHQWUDWLRQGHODPROpFXOHWHVWSHXWQHSDVWRXMRXUVrWUHLQGLTXpH'HPrPHSRXUFKDTXH résultat de mutagénicité, la marge d’erreur variable ou la significativité (p  GH FKDTXH WHVW n’est pas toujours SUpVHQWpH. Ainsi, lors de ma prédiction utilisant l’OTF46$5GHVHUUHXUV peuvent s’accumuler sans que j’en aie connaissance.   8VXHOOHPHQWOHVORJLFLHOVGHSUpGLFWLRQFRQVLGqUHQWqu’une molécule est mutagène ou non mutagène à partir d’une valeur ponctuelle de 0.2UDILQGHSUHQGUHHQFRPSWHOHSUREOqPH GHVHUUHXUVFXPXODWLYHVDLQVLTXHFHWWHYDOHXUVHXLOGHEHDXFRXSWURSVWULFWHQRXVDYRQV décidé d’élargir cette valeur seuil. (QHIIHWla prédiction d’une nouvelle molécule peut être RXHQXWLOLVDQWXQHDXWUHWHFKQLTXHGH$ILQGHSUHQGUHHQFRPSWHFHWWHWUqVOpJqUH YDULDWLRQ TXL SHXW rWUH GXH DX[ IDX[ SRVLWLIV DX[ IDX[ QpJDWLIV RX j OD YDULDELOLWp GH OD

117 Chapitre II: QSAR onthefly

WHFKQLTXHGHSUpGLFWLRQXWLOLVpHQRXVDYRQVGpILQLXQH]RQH©GRXWHXVHªSOXVODUJHTXLHVWOD ]RQHROHV\VWqPHSUpGLFWLISUpIqUHQHSDVVHSURQRQFHU ]RQHGRXWHXVH  )LJXUH .  

  Figure 58: Définition de la zone douteuse. 'HX[ FDWpJRULHV VRQW UHSUpVHQWpHV LFL QRQ PXWDJqQH FURL[ QRLUHV  HW PXWDJqQH FURL[ URXJHV  /D GLVWULEXWLRQ GHVGHX[ FDWpJRULHV SHUPHW OD UHSUpVHQWDWLRQ VRXV IRUPH GH JDXVVLHQQH /D PXWDJpQicité d’une molécule est définie à partir d’une YDOHXUSRQFWXHOOHGH$XGHVVXVXQHPROpFXOHHVWPXWDJqQHHWHQGHVVRXVXQHPROpFXOHHVWQRQPXWDJqQH&HWWHYDOHXU GHHVWWURSVWULFWH$ILQGHSUHQGUHHQFRPSWHGHVYDULDWLRQVTXLSHXYHQWrWUHGXHVDXIDX[SRVLWLIVIDX[QpJDWLIVRXjOD YDULDELOLWpGHODWHFKQLTXHGHSUpGLFWLRQXWLOLVpHXQH]RQHGRXWHXVHHVWGpILQLH ]RQHKDFKXUpHHQEOHX). C’est une zone où le V\VWqPHSUpGLFWLIQHVHSURQRQFHSDVHWSUpIqUHQHSDVSUHQGUHGHGpFLVLRQFRQFHUQDQWOHUpVXOWDWGHSUpGLFWLRQGHODPROpFXOH  (QUHVWDQWVXUOHIDLWTXHODPHLOOHXUHSUpGLFWLRQHVWVLWXpHjXQHVLPLODULWpGH7 OD PHLOOHXUH ]RQH GRXWHXVH DYHF OH 27)46$5 HVW VLWXpH HQWUH  HW  (Q HIIHW OH SRXUFHQWDJHGHSUpGLFWLRQVFRUUHFWHVDXJPHQWHORUVTXHO’intervalleHVWSHWLW   7DEOH   &HSHQGDQW OH SRXUFHQWDJH GH SUpGLFWLRQV LQFRUUHFWHV DXJPHQWH pJDOHPHQW ORUVTXH l’intervalle est petit ,O HVW GRQF préférable d’avoir un pourcentage de prpGLFWLRQV FRUUHFWHV OpJqUHPHQWSOXVIDLEOH DXOLHXGH HWXQSRXUFHQWDJHGHPDXYDLVHVSUpGLFWLRQVGH DYHFXQHEDUULqUHODUJH  SOXW{WTX’un pourcentage de bonnes réponses très élevp  PDLVXQSRXUFHQWDJHGHPDXYDLVHVUpSRQVHVpOHYppJDOHPHQW  DYHFl’intervalle  'H SOXV Slus la zone douteuse est petite, plus la discrimination des molécules mutagènes et non mutagènes est peu efficace (car toutes les molécules sont contenues dans l’une ou l’autre des catégories) et inversement, plus la zone douteuse est grande et plus le système prédictif possède une grande capacité de discrimination des molécules mutagènes et non mutagènes.   Ainsi avec un intervalle large (0,25/0,75) où les molécules mutagènes sont situées dans une prédiction entre 0,75 ou plus et les molécules non mutagènes entre 0,25 ou moins, nous garantissons un système prédictif qui ne fait aucune erreur, qui possède une grande capacité de discrimination des molécules mutagènes et non mutagènes et qui possède également un pourcentage de prédictions correctes à environ 81%. 

118 Chapitre II: QSAR onthefly

En parallèle, nous avons entrepris une évaluation du système prédictif afin de comparer les prédictions obtenues avec les données expérimentales de la base de test et de confirmer les résultats précédents. Le but étant de percevoir la force et l’efficacité de notre système et de voir ce qu’il se passe lorsqu’il fonctionne sur des molécules qu’il n’a jamais vu (Table 4). Nous avons identifié plusieurs sources d’erreur possible du système. La première source d’erreur possible est que le système prédictif a appris sur des incohérences. En effet, le système a fait des erreurs dans le choix des molécules similaires récupérées durant la partie «onthefly» du système. Le système a donc gardé de mauvaises molécules sur lesquelles s’est basé le QSAR.  L’autre possibilité de la présence d’erreur est le phénomène de surapprentissage. Ce dernier indique généralement qu’il y a soit trop de paramètres utilisés par le système le rendant incapable d’apprendre ou de généraliser d’une tendance (il mémorise) soit qu’il y a un manque de relations pertinentes entre les données (nombre de molécules trop faibles pour que le système s’exécute correctement).   Grace à cette comparaison, nous avons pu confirmer que la similarité à T=0,85 est bien la meilleure similarité au regard du nombre de bonnes réponses fournies par le système prédictif. Cependant, trois molécules chlorées restent incorrectes. Nous en avons conclu que cela venait du fait qu’il n’y avait pas ou peu de molécules chlorées incorporées dans la sous base de données utilisées par le QSAR. Ainsi, le système n’a pas récupéré suffisamment de molécules similaires à ce type précis de molécules pour effectuer un QSAR efficace ou les molécules récupérées étaient très éloignées de la molécule initialement testée tendant ainsi vers une fausse prédiction.   Nous avons également comparé notre système prédictif avec des logiciels couramment utilisés dans la communauté scientifique. Ceci nous a permis d’évaluer la qualité de nos prédictions (Table 6) et surtout de valider notre système. Nous avons pu mettre en exergue que FHVORJLFLHOVQHVRQWSDVUpHOOHPHQWDGDSWpVDX[FRPSRVpV+(0VHWTXHnotre système prédictif SRVVqGHGHELHQVPHLOOHXUVUpVXOWDWV   Cette étude nous a permis d’améliorer nos prédictions grâce à l’utilisation d’une nouvelle technique in silico. /DIRUFHGHO 27)46$5HVWTX LOHVWWUqVIOH[LEOHet qu’il possèdeXQH JUDQGHFDSDFLWpG DGDSWDWLRQVHORQOHVPROpFXOHVTXHQRXVYRXORQVpWXGLHU 

119 Chapitre II: QSAR onthefly

 $UWLFOH



120 Chapitre II: QSAR onthefly





121 Chapitre II: QSAR onthefly

 

122 Chapitre II: QSAR onthefly



123 Chapitre II: QSAR onthefly

 

124 Chapitre II: QSAR onthefly



125 Chapitre II: QSAR onthefly



126 Chapitre II: QSAR onthefly

 

127 Chapitre II: QSAR onthefly

 

128 Chapitre II: QSAR onthefly

 

129 Chapitre II: QSAR onthefly

 

130 Chapitre II: QSAR onthefly



131 

                  

&KDSLWUH,,,50R6

                  

Chapitre III: R.Mo.S

Ce chapitre est dédié au développement d’un algorithme nommé R.Mo.S (Récursive 0ROHFXODU6LPLODULW\ /DSUHPLqUHSDUWLHSUpVHQWHODQRXYHOOHVWUDWpJLHSRXUODVpOHFWLRQGHV PROpFXOHVVLPLODLUHVGDQVODEDVHGHGRQQpHV(OOHSUpVHQWHpJDOHPHQWOHVPRGLILFDWLRQVTXH nous avons apportées aux techniques habituelles afin d’obtenir une nouvelle mesure de VLPLODULWpHQWUHGHX[PROpFXOHV&HWWHSDUWLHSDUGHVH[HPSOHVFODLUVSHUPHWGHSUHQGUHWRXWH ODGLPHQVLRQGHFHWDOJRULWKPH 'DQVXQHVHFRQGHSDUWLHOHSULQFLSHGHUpFXUVLYLWpHVWSUpVHQWpDILQGHPRQWUHUFRPPHQW l’invention permettra une meilleure prédiction de ODWR[LFLWpGHVPROpFXOHV+(0V

1RXYHOOHVWUDWpJLH

Bien que la stratégie de l’OTF46$5 SUpVHQWH GH PHLOOHXUHV SHUIRUPDQFHV TXH FHOOH GX 46$5FODVVLTXHGHVHUUHXUVGHSUpGLFWLRQSHUVLVWHQW(QHIIHWODSUpVHQFHGHVHUUHXUVGH SUpGLFWLRQPLVHVHQDYDQWVXUOHVPROpFXOHVFKORUpHVGDQVODSXEOLFDWLRQSUpFpGHQWH $OOLRGHW DO QRXVDFRQGXLWjUHSHQVHUOHSURFHVVXVJpQpUDODLQVLTXHOHVpWDSHVGHSUpGLFWLRQV &HOXLFL SDVVH SDU OD VpOHFWLRQ SOXV PLQXWLHXVH GHV PROpFXOHV VLPLODLUHV j OD PROpFXOH WHVW grâce au développement d’une méthode de calcul de la similarité entre deux moOpFXOHV VH basant sur leurs MACCS et d’une sélection récursive, totalement nouvelle et inédite dans le GRPDLQH  1RWUH QRXYHOOH VWUDWpJLH TXL D GRQQp OLHX j XQ EUHYHW XWLOLVH OD UHFKHUFKH GH VLPLODULWp VWUXFWXUDOH GH PDQLqUH VpOHFWLYH LWpUDWLYH HW DIILQpH DYHF GHV SDUDPqWUHV SURSUHV FOHIV VWUXFWXUDOHV PpWULTXH FDUDFWpULVWLTXHV  &HFL DSSRUWH DLQVL GH QRPEUHX[ DYDQWDJHV GRQW notamment ceux d’augmenter le nombre de molécules sélectionnées, d’obtenir une sélection SOXVFRPSOqWHHWSOXVSUpFLVHGHVPROpFXOHVGHODEDVHGHGRQQpHVGHVWLQpHVjrWUHXWLOLVpHV pour la prédiction et d’améliorer la performance ainsi que la qualité des prédictions. Cette PpWKRGHHVWDYDQWDJHXVHPHQWDGDSWDWLYHFDUHOOHSRXUUDrWUHDLVpPHQWXWLOLVpHSRXUWRXWWHVW ELRORJLTXHHWWRXt type de molécules (pharmaceutiques, cosmétiques…).  'DQV OH SURFHVVXV JpQpUDO OH ORJLFLHO XWLOLVp SRXU OD FUpDWLRQ GHV EDVHV GH GRQQpHV OH FDOFXO GHV 0$&&6 DLQVL TXH GH OD SUpGLFWLRQ WR[LFRORJLTXH GHV PROpFXOHV +(0V HVW XQ VWDQGDUGGDQVOHGRPDLQHQRPPp02( 0ROHFXODU2SHUDWLQJ(QYLURQPHQWHQDQJODLV   'DQVOHEXWGHFRPSDUHUGHX[PROpFXOHVXQHPpWULTXHSUpGpWHUPLQpHHWDSSOLTXpHjOHXUV 0$&&6 HVW XWLOLVpH DILQ GH FDOFXOHU OD PHVXUH QXPpULTXH GH VLPLODULWp HQWUH OHXUV GHX[ VWUXFWXUHV5DSSHORQVTXHOH0$&&6HVWXQYHFWHXULQGLTXDQWOHVRFFXUUHQFHVGHIUDJPHQWV PROpFXODLUHVGHUpIpUHQFHGDQVODVWUXFWXUHGHODPROpFXOH&KDFXQHGHFHVYDOHXUVHVWDSSHOpH ©FDUDFWpULVWLTXHªGHODPROpFXOH8QHPHVXUHGHVLPLODULWpHVWXQQRPEUHUpHOFRPSULVHQWUH HWRODYDOHXUVLJQLILHTXHOHVGHX[PROpFXOHVVRQWFRQVLGpUpHVFRPPHGLIIpUHQWHV LH non similaires), et la valeur 1 qu’elles sont considérées comme identiques (i.e. similaires).  

133

Chapitre III: R.Mo.S

 7DQLPRWR /HVORJLFLHOVVWDQGDUGV GRQW02( IRQWVRXYHQWPHQWLRQGHODPpWULTXHGH7DQLPRWRSRXU OHFDOFXOGHFHWWHVLPLODULWp1RXVUDSSHORQVTXHFHWWHPpWULTXHQHGLVFHUQHTXHGHX[QLYHDX[ d’expression d’un fragment moléculaire (présence ou absence). Dans le cas présent, cela VLJQLILHTXHFHWWHPpWULTXHHVWDSSOLTXpHVXUODFOHIVWUXFWXUDOH0$&&6GHFKDTXHPROpFXOH sous la forme d’un vecteur de 166 valeurs. Une valeur de 0 correspond à l’DEVHQFH GX IUDJPHQWGDQVODVWUXFWXUHGHODPROpFXOHHWXQHYDOHXUHQWLqUHN FRUUHVSRQGjVDSUpVHQFH &HWWHYDOHXUNse base sur le nombre d’occurrences de ce fragment au sein de la molécule. Y )LJXUH  

  3OXV SUpFLVpPHQW OHFRHIILFLHQW GH7DQLPRWR HVW GpILQL FRPPHOH UDSSRUW GX QRPEUHGH FDUDFWpULVWLTXHV H[SULPpHV FRPPXQHV DX[ GHX[ PROpFXOHV YDOHXU GH 0$&&6 VWULFWHPHQW SRVLWLYHSRXUOHVPROpFXOHV VXUOHQRPEUHWRWDOGHFDUDFWpULVWLTXHVH[SULPpHVSDUFHVGHX[ molécules (valeur de MACCS strictement positive pour au moins l’une des 2 molécules). Il HVW j QRWHU TXH OD QRQexpression d’une même caractéristique dans les deux molécules n’influence pas la similarité calculée par la formule de Tanimoto (valeur de MACCS nulle SRXUOHVPROpFXOHV  )LJXUH  

134

Chapitre III: R.Mo.S

Figure 59: Coefficient de Tanimoto 5DSSRUW HQWUH OH QRPEUH GH FDUDFWpULVWLTXHV H[SULPpHV FRPPXQHV DX[ GHX[ PROpFXOHV HW OH QRPEUH GH FDUDFWpULVWLTXHVH[SULPpHVGDQVOHVGHX[PROpFXOHV  'HSOXV OHFRHIILFLHQW GH7DQLPRWR QHSHUPHW SDV GHWHQLU FRPSWHGXIDLWTXHOHVGHX[ PROpFXOHV FRPSDUpHV RQW GHV YDOHXUV GH FDUDFWpULVWLTXHV D\DQW GHV QLYHDX[ GLIIpUHQWV GH SUpVHQFH SDU H[HPSOH GHX[ YDOHXUV GH FDUDFWpULVWLTXHV pJDOHV j  HW  VRQW VLPSOHPHQW FRQVLGpUpHV FRPPH WRXWHV GHX[ pJDOHV j   )LJXUH ). Les niveaux d’expression sont VLPSOHPHQWWUDGXLWVHQpWDWELQDLUH RX  

Figure 60: Caractéristiques ayant des niveaux d'expressions différents   ,QGLFHGH-DFFDUG L’indice de Jaccard, dont le score de Tanimoto est un cas particulier, peut également être utilisé pour étudier la similarité entre molécules. Il s’énonce pour deux ensembles ࡭HW࡮HWVH GpILQLWFRPPHVXLW Équation 12    ȁܤתܣȁ ȁܤתܣȁ ܬሺܣǡ ܤሻ ൌ ൌ  ȁܤתܣȁ െ ȁܤȁ ൅ ȁܣȁ ȁܤ׫ܣȁ  2ȁܣȁ UHVSȁܤȁ) désigne la mesure de l’ensemble A UHVSB  

135

Chapitre III: R.Mo.S

(QVLPSOLILDQW XQHPHVXUHHVW DXVHQV PDWKpPDWLTXHGXWHUPHXQH IRQFWLRQTXL jWRXW HQVHPEOHDVVRFLHXQHYDOHXUSRVLWLYHHWYpULILHOHVSURSULpWpVVXLYDQWHV  x la mesure de l’ensemble vide est nulle : ȁ׎ȁ ȁܤתܣȁ െ ȁܤȁ ൅ ȁܣȁ ȁܤ׫ܣQRXVDYRQVȁܤHWܣx SRXUGHX[HQVHPEOHV 8QHGHV PHVXUHV FRXUDPPHQW XWLOLVpHV HVW ODPHVXUHGHFRPSWDJHTXL FRPPHVRQ QRP l’indique, est le nombre d’éléments présents dans l’ensemble. L’indice de Jaccard de ܣHWܤ exprime donc le rapport entre les mesures de l’intersection et de l’union de ces GHX[ HQVHPEOHV(OOHSHXWVHUHSUpVHQWHUFRPPHVXLW )LJXUH   



Figure 61: Intersection entre deux ensembles A et B.  (Q GpILQLVVDQW ܣ UHVS ܤ) comme l’ensemble des numéros de descripteurs MACCS H[SULPpVSDUODSUHPLqUHPROpFXOH UHVSODVHFRQGH HWHQFKRLVLVVDQWODPHVXUHGHFRPSWDJH nous retrouvons l’expression du score de Tanimoto.   Prenons l’exemple suivant (Exemple 1  H[HPSOH VLPSOLILp GH GHX[ HQVHPEOHV ࡭HW࡮ définis par un descripteur MACCS de 33 valeurs n’indiquant que la présence d’une FDUDFWpULVWLTXH   ܣൌሼͳǡ ͳͳǡ ʹ͵ǡ ʹͷǡ ͵ͳǡ ͵ʹሽ ܤൌሼʹǡ ͳͳǡ ͳͷǡ ʹ͵ǡ ʹͶǡ ͵ͳǡ ͵ʹǡ ͵͵ሽ  $ORUV  ൌሼͳͳǡ ʹ͵ǡ ͵ͳǡ ͵ʹሽܤתܣ ൌሼͳǡ ʹǡ ͳͳǡ ͳͷǡ ʹ͵ǡ ʹͶǡ ʹͷǡ ͵ͳǡ ͵ʹǡ ͵͵ሽܤ׫ܣ  /HVPHVXUHV ȁ ൌͶܤתܣȁ ȁ ൌͳͲܤ׫ܣȁ ȁܣȁ ൌ͸ ȁܤȁ ൌͺ  QRXVSHUPHWWHQWde calculer l’indice de Jaccard (identique au score de Tanimoto) 

136

Chapitre III: R.Mo.S

ȁ Ͷܤתܣȁ ܬሺܣǡ ܤሻ ൌ ൌ ൌͲǡͶ ȁ ͳͲܤ׫ܣȁ   0pWKRGHLQWHUPpGLDLUH 8QH DXWUH GpILQLWLRQ GHV HQVHPEOHV ܣHWܤ ainsi qu’un autre choix de mesure peuvent mener à de toutes autres valeurs de l’indice de Jaccard. Par exemple, définissons l’ensemble ܣ UHVS ܤ  comme l’ensemble des couples TXL DVVRFLHQW FKDTXH QXPpUR GH FDUDFWpULVWLTXH 0$&&6jOHXUDEVHQFH RXSUpVHQFH RX GDQV ODSUHPLqUHPROpFXOH UHVS ODVHFRQGH  )LJXUH  

 Figure 62: Nouvelle définition d'un ensemble.  Si nous reprenons l’exemple ciGHVVXV ([HPSOH HQ\DVVRFLDQWODPHVXUHGHFRPSWDJH QRXVDYRQV  ܣൌሼሺ૚ǡ ͳሻǡ ሺʹǡͲሻǡ ሺ͵ǡͲሻǡǥǡሺ૚૚ǡ ͳሻǡ ሺͳʹǡͲሻǡǥǡሺ૛૜ǡ ͳሻǡ ሺʹͶǡͲሻǡ ሺ૛૞ǡ ͳሻǡǥǡሺ૜૚ǡ ͳሻǡ ሺ૜૛ǡ ͳሻሽ  ܤൌሼሺͳǡͲሻǡ ሺ૛ǡ ͳሻǡ ሺ͵ǡͲሻǡǥǡሺ૚૚ǡ ͳሻǡǥǡሺ૚૞ǡ ͳሻǡǥǡሺ૛૜ǡ ͳሻǡ ሺ૛૝ǡ ͳሻǡǥǡሺ૜૚ǡ ͳሻǡ ሺ૜૛ǡ ͳሻǡሺ૜૜ǡͳሻሽ  Alors, leur intersection s’exprime  ൌሼሺ͵ǡͲሻǡ ሺͶǡͲሻǡ ሺͷǡͲሻǡǥǡሺͳͳǡͳሻǡ ሺͳʹǡͲሻǡǥǡሺʹ͵ǡͳሻǡ ሺʹ͸ǡͲሻǡǥǡሺ͵ͳǡͳሻǡ ሺ͵ʹǡͳሻሽܤתܣ  1RXVREWHQRQVOHVPHVXUHVVXLYDQWHV       ȁܣȁ ൌ͵͵  ȁܤȁ ൌ͵͵ ȁ ൌʹ͹ܤתܣȁ       L’indice de Jaccard de l’ensemble ܣHWܤYDXWDORUV  ȁ ʹ͹ܤתܣȁ ܬሺܣǡ ܤሻ ൌ ൌ ൎͲǡ͹ ȁ ͵ͻܤ׫ܣȁ  Cette autre manière d’exprimer l’indice de Jaccard permet d’obtenir un tout autre résultat TXH SUpFpGHPPHQW L’intérêt de cette interprétation est de prendre en compte, dans le FRHIILFLHQWGHVLPLODULWpOHV0$&&6TXLRQWpFKRXpSRXUOHVGHX[PROpFXOHVHWDLQVLSUHQGUH HQFRPSWHODGLVVLPLODULWpHQWUHOHVHQVHPEOHV(QRXWUHFHWWHPHVXUHGHVLPLODULWpFRQVLGqUH DYDQWDJHXVHPHQW TXH OD QRQexpression commune d’une même caractéristique (i.e. valeur QXOOH SRXU OHV GHX[ PROpFXOHV FRPSDUpHV  HVW XQH PDUTXH GH VLPLODULWp HQWUH OHV GHX[ PROpFXOHVFRPSDUpHV

137

Chapitre III: R.Mo.S

 &HSHQGDQW OHSUREOqPH OLpDXIDLWTXH GHX[PROpFXOHV FRPSDUpHV SHXYHQW SRVVpGHUGHV valeurs de caractéristiques ayant des niveaux différents de présence n’est toujours pas résolu. 3RXUQRXVLOpWDLWSULPRUGLDOd’exprimer le niveau d’expression de chaque caractéristique.   Reprenant l’exemple de la Figure 59, en remplaçant simplement l’absence/présence (0 ou  GHVFDUDFWpULVWLTXHVGDQVFKDTXHFRXSOHSDUOHXUQLYHDXGHSUpVHQFH, l’intersection de ܣHW ܤVHUDLWtrès restreinte (il faudrait un même niveau d’expression d’une caractéristique dans les deux molécules) et n’aboutirait donc pas à la mesure de similarité recherchée ()LJXUH      ܣൌሼሺͳǡͳͲሻǡ ሺʹǡͲሻǡǥǡሺͺǡͷሻǡ ǥ ሺͳ͵ǡͳሻሽ    ܤൌሼሺͳǡͲሻǡ ሺʹǡ͹ሻǡǥǡሺͷǡͳሻǡ ሺ͸ǡͳሻǡǥǡሺͺǡ͸ሻǡǥǡሺͳ͵ǡͳሻሽ ൌሼሺ͵ǡͲሻǡ ሺͶǡͲሻǡ ሺ͹ǡͲሻǡ ሺͻǡͲሻǡ ሺͳͲǡͲሻǡ ሺͳͳǡ Ͳሻǡ ሺͳʹǡͲሻǡ ሺͳ͵ǡͳሻሽܤתܣ  

   Figure 63: Prise en compte des niveaux d'expression de deux ensembles.  D’où une similarité avec l’indice de Jaccard de  ͺ ܬሺܣǡ ܤሻ ൌ ൎͲǡͶͶ ሺͳ͵ ൅ ͳ͵ െ ͺሻ   1RXYHOOHGpILQLWLRQ /D GpILQLWLRQ H[SOLFLWH GHV HQVHPEOHV ܣHWܤ VDWLVIDLVDQW QRV FRQWUDLQWHV pWDQW WURS technique, nous proposons de ne définir que la mesure de l’intersection de ܣHWܤ, c’estjGLUH ȁ QRXV SRXYRQV DORUV H[SULPHU OH FRHIILFLHQW GHܣתܣȁ ȁܣȁ (Q UHPDUTXDQW TXH ȁܤתܣȁ Jaccard en n’utilisant que des mesures d’intersection (Équation 13):    ȁܤתܣȁ ȁܤתܣȁ ܬሺܣǡ ܤሻ ൌ ൌ  ȁܤתܣȁ െ ȁܤתܤȁ ൅ ȁܣתܣȁ ȁܤ׫ܣȁ  138

Chapitre III: R.Mo.S

Nous définissons alors la mesure d’intersection de ܣHWܤSDU  ே

ሻሻሻܤ௜ሺܵܥܥܣܯሻǡሺܣ௜ሺܵܥܥܣܯݐሺݏȁ ൌ෍߮ሺ݀݅ܤתܣȁ ௜ୀଵ  qPH 2 0$&&6i ܣሻ UHVS 0$&&6i ܤሻ) la valeur d’expression de la i  FDUDFWpULVWLTXH 0$&&6 GH OD SUHPLqUH PROpFXOH UHVS OD VHFRQGH  ࡺ OH QRPEUH WRWDO GH FDUDFWpULVWLTXH 0$&&6 WRWDOH ࢊ࢏࢙࢚ሺ࡭ǡ ࡮ሻ OD IRQFWLRQ DVVLPLODEOH j XQH GLVWDQFH DOJpEULTXH HQWUH OHV GHX[ HQVHPEOHVܣHWܤHW࣐ODIRQFWLRQFRQYHUWLVVDQWFHWWHGLVWDQFHHQXQHYDOHXUGHVLPLODULWp  /HEXWDORUVHVWGHGpWHUPLQHUODGLVWDQFHHQWUHOHVGHX[HQVHPEOHVܣHWܤHWGHWUDQVIRUPHU FHWWHGLVWDQFHHQVLPLODULWpJUkFHjODIRQFWLRQGHFRQYHUVLRQ࣐  /D IRQFWLRQ ࢊ࢏࢙࢚ est assimilable à une distance entre deux valeurs d’expression d’une même caractéristique MACCS. Elle associe, à tout couple d’entiers naturels, un nombre de la droite réelle positive achevée (l’ensemble des réels, adjoint de la valeur extrémale +λ HWGRLW VDWLVIDLUHOHVSURSULpWpVVXLYDQWHV

x ݀ሺܣǡ ܣሻ ൌͲ pour tout A (deux niveaux d’expression identiques correspondent à XQHGLVWDQFHQXOOH  x ݀ሺܣǡ ܤሻ ൌ݀ሺܤǡ ܣሻ x ݀ሺܣǡ ܤሻ ൌേλTXDQG$HW%VRQWFRQVLGpUpVFRPPHQRQVLPLODLUHV  /DIRQFWLRQGHFRQYHUVLRQ࣐TXDQWjHOOHFRQYHUWLWXQHGLVWDQFHHQXQHYDOHXUGHVLPLODULWp locale, c’estjGLUHXQHYDOHXUUpHOOHFRPSULVHHQWUHHWWHOOHTXH )LJXUH 

x ߮ሺͲሻ ൌͳǡ x ߮ሺേλሻ ൌͲ 

 Figure 64: Conversion d'une distance en une valeur de similarité.  $LQVL j GHX[ YDOHXUV GH FDUDFWpULVWLTXHV 0$&&6 LGHQWLTXHV HVW DVVRFLpH XQH GLVWDQFH QXOOH HW GRQF XQH VLPLODULWp ORFDOH PD[LPDOH GH  ,QYHUVHPHQW j GHX[ YDOHXUV GH

139

Chapitre III: R.Mo.S

FDUDFWpULVWLTXHV 0$&&6 FRQVLGpUpHV FRPPH WRWDOHPHQW QRQ VLPLODLUHV HVW DVVRFLpH XQH GLVWDQFHLQILQLHHWGRQFXQHVLPLODULWpORFDOHPLQLPDOHGH  /HVFRQWUDLQWHVVXUࢊ࢏࢙࢚HW࣐SHUPHWWHQWGHUHWURXYHUXQUpVXOWDWDWWHQGX  ே ே ே ሻሻሻ σ௜ୀଵ ߮ሺͲሻ σ௜ୀଵ ͳ Nܣ௜ሺܵܥܥܣܯሻǡሺܣ௜ሺܵܥܥܣܯ ݐሺݏȁ σ௜ୀଵ ߮ሺ݀݅ܣתܣȁ ȁܣȁ  (WGRQFde reformuler l’indice de Jaccard en  ே ሻሻሻܤ௜ሺܵܥܥܣܯሻǡሺܣ௜ሺܵܥܥܣܯ ݐሺݏσ௜ୀଵ ߮ሺ݀݅ ܬሺܣǡ ܤሻ ൌ ே  ሻሻሻܤ௜ሺܵܥܥܣܯሻǡሺܣ௜ሺܵܥܥܣܯ ݐሺݏെσ௜ୀଵ ߮ሺ݀݅ ܰʹ  'LVWDQFHFODVVLTXH 8Q FKRL[ GH GLVWDQFH FODVVLTXH VHUDLW GH FRQVLGpUHU OD GLIIpUHQFH HQWUH OHV QLYHDX[ d’expression des ensembles ܣHWܤSRXUXQHFDUDFWpULVWLTXH0$&&6࢏WHOOHTXH  ሻȁܤ௜ሺܵܥܥܣܯሻ െܣ௜ሺܵܥܥܣܯሻ ൌ ȁܤ ǡܣݐሺݏ݅݀  &HWWH GpILQLWLRQ UHVSHFWH ELHQ OHV FRQWUDLQWHV LPSRVpHV SOXV KDXW PDLV QH SHUPHW SDV GH traduire l’idée de similarité. En effet, elle ne fait que traduire un écart entre les valeurs et PqQHGRQFDX[LQFRKpUHQFHVVXLYDQWHV x $GHX[YDOHXUVGHFDUDFWpULVWLTXHVHWHVWDVVRFLpHODPrPHGLVWDQFH HWGRQFOD même similarité locale) qu’à deux valeurs 9 et 10 par exemple. Le premier cas traduit un niveau d’expression radicalement différent (absence et présence) alors que le second cas correspond à un niveau d’expression plutôt similaire. x 'HPrPHjGHX[YDOHXUVGHFDUDFWpULVWLTXHVHWHVWDVVRFLpHODPrPHGLVWDQFH qu’entre deux valeurs de caractéristiques 99 et 100 alors que le deuxième cas WUDGXLWXQHSOXVJUDQGHVLPLODULWp SOXVGHIUDJPHQWVVLPLODLUHV  'LVWDQFHUDSSRUWHQWUHGHX[QLYHDX[d’expression )LQDOHPHQWSDUPLOHVSRVVLELOLWpVGHIRUPXODWLRQGHFHWWHIRQFWLRQࢊ࢏࢙࢚QRXVDYRQVFKRLVL GH QRXV EDVHU VXU OH UDSSRUW entre les deux niveaux d’expression d’une caractéristique MACCS. Afin de respecter les contraintes d’une fonction disWDQFH QRXV DSSOLTXRQV OD IRQFWLRQ ORJDULWKPH j FH UDSSRUW )LJXUH   $LQVL HQ SUHQDQW HQ FRPSWH GH PDQLqUH FRKpUHQWHOHVFDVH[WUrPHVQRXVDERXWLVVRQVjODGpILQLWLRQVXLYDQWH  ܣ Ͳǡ ് ܤͲ݁ݐ ് ܣ݅ݏ ܤ Ž െ ܣ Ž ฬŽ ൬ ൰ฬ ൌ  ൌͲǡܤൌܣ݅ݏ  ܤ ሻ ൌ൞ܤ ǡܣݐሺݏ݅݀ Ͳ ݐ݊݋݊݊ݑ݈Ǥݏ݁ܤ݋ݑܣݑ݈݁ݏ݅ݏ λ  8WLOLVHUODIRQFWLRQORJDULWKPHSHUPHWGHVHUDSSURFKHUGHODIRQFWLRQGHGLVWDQFHHWGHV VXEWLOLWpVGRQWQRXVYRXORQVPHWWUHHQH[HUJXH

140

Chapitre III: R.Mo.S

'DQVXQUHSqUHRUWKRQRUPpO DOOXUHGHODFRXUEHUHSUpVHQWDWLYHGHODIRQFWLRQORJDULWKPH SHUPHWGHUHWURXYHUOHVSURSULpWpVVXLYDQWHV

x ݈݊ ͳ ൌ Ͳ ௫ x ݈݊௫՜଴ ൌെλ ௫ x ݈݊௫՜ାஶ ൌ൅λ 

 ࡭ Figure 65: Tracé de la fonction ܔܖ ቀ ቁ en fonction de A pour B=2.  ࡮ ࡭ L'axe des ordonnées correspond à la valeur de la fonction tracée ܔܖ ቀ ቁ (en pointillés) et l'axe des abscisses représente la ࡮ valeur A.  1RXVREWHQRQVDLQVLOHVSURSULpWpVDWWHQGXHV non nul, c’estjdire que l’absence d’une ܣ ሻ = ’ pour toutܣ ݐሺͲǡݏ݅݀ ǡ Ͳሻܣݐሺݏ݅݀ x caractéristique est totalement non similaire à sa présence, quel qu’en soit le niveau. c’estjdire qu’un niveau d’expression identique ,ܣ ሻ   SRXU WRXWܣ ǡܣݐሺݏ݅݀ x FRUUHVSRQGWRXMRXUVjXQHVLPLODULWpPD[LPDOH )LJXUH  

141

Chapitre III: R.Mo.S

 ࡭ Figure 66: Tracé de la fonction ࢊ࢏࢙࢚ሺ࡭ǡ ࡮ሻ ൌቚܔܖ ቚ en fonction de A et pour B=2. ࡮ D[H GHV DEVFLVVHV UHSUpVHQWH OD YDOHXU D ሻ HW Oܤ ǡܣݐሺݏ݅݀ D[HGHVRUGRQQpHVFRUUHVSRQGjODYDOHXUGHOD IRQFWLRQWUDFpH / / LGpHHVWGHYRLUFRPPHQWVHFRPSRUWHODGLVWDQFHHQWUHDHWETXDQGDYDULH DYHFEIL[pj   &RQFHUQDQW OD IRQFWLRQ ࣐ GH FRQYHUVLRQ HQ VLPLODULWp ORFDOH QRXV DYRQV FKRLVL XQH IRUPXODWLRQLQVSLUpHGHODIRQFWLRQGH*DXVVjVDYRLU  ିௗమ ൬ ൰  ݐሻ ൌ‡š’ଶఙమݏ߮ሺ݀݅  Rߪreprésente l’écartW\SHGDQVODIRQFWLRQGH*DXVVHWSHUPHWLFLGHFRQWU{OHUjTXHOOH vitesse la similarité diminue quand les niveaux d’expression diffèrent. En pratique, nous FKRLVLURQVߪൌͳ )LJXUH  

 Figure 67: Tracé de la mesure de similarité locale ࣐ሺࢊ࢏࢙࢚ሺ࡭ǡ ࡮ሻሻ en fonction de A. ష೏మ ஺ ൬ ൰  ݐሻ ൌ‡š’మ഑మݏሻ ൌቚŽ ቚHW߮ሺ݀݅ܤ ǡܣݐሺݏሻሻHQIRQFWLRQGH$DYHFሺ݀݅ܤ ǡܣݐሺݏ7UDFpGHODPHVXUHGHVLPLODULWpORFDOH߮ሺ݀݅ ஻ SRXU% HWߪൌͳ

142

Chapitre III: R.Mo.S

$SSOLTXpVXUOHVH[HPSOHVSUpFpGHQWVFHFKRL[QRXVGRQQH ሻ൯ൌͲSRXUWRXW$QRQQXOܣ ݐሺͲǡݏǡ Ͳሻ൯ൌ߮൫݀݅ܣݐሺݏx ߮൫݀݅ ܣሻ൯ൌͳSRXUWRXWܣ ǡܣݐሺݏx ߮൫݀݅ 1RXVDYRQVpJDOHPHQWGpILQLODVLPLODULWp©JOREDOHªHQWUHGHX[PROpFXOHVGpILQLHjSDUWLU de l’ensemble de leurs caractéristiques MACCS.  (QUHYHQDQWVXUOHVPROpFXOHVGHQRWUHSUHPLHUH[HPSOH ([HPSOH   OLQpDLUH  HW OD ሻሻ DYHF XQH GLVWDQFH FODVVLTXHܤ ǡܣݐሺݏx SRXU XQH PpWKRGH XWLOLVDQW ߮ሺ݀݅ IRQFWLRQGH*DXVVSRXUODFRQYHUVLRQQRXVREWHQRQVOHVGLVWDQFHVVXLYDQWHV 

ሻ൯ ൌ ሾͳͲǡ ͹ǡ Ͳǡ Ͳǡ ͳǡ ͳǡ Ͳǡ ͳǡ Ͳǡ Ͳǡ Ͳǡ Ͳǡ Ͳሿܤ௜ሺܵܥܥܣܯሻǡ൫ܣ௜ሺܵܥܥܣܯݐሺݏ݅݀  (WOHVVLPLODULWpVORFDOHVVXLYDQWHV 

ሻ൯ቁሻܤ௜ሺܵܥܥܣܯሻǡ൫ܣ௜ሺܵܥܥܣܯݐ ቀݏ߮ሺ݀݅ ൌ ሾͳǤͻ͵‡ିଶଶǡʹǤʹͻ‡ିଵଵǡ ͳǤͲͲǡ ͳǤͲͲǡ ͲǤ͸Ͳ͹ǡ ͲǤ͸Ͳ͹ǡ ͳǤͲͲǡ ͲǤ͸Ͳ͹ǡ ͳǤͲͲǡ ͳǤͲͲǡ ͳǤͲͲǡ ͳǤͲͲǡ ͳǤͲͲሿ  La mesure de l’intersection est alors (en considérant ͳǤͻ͵‡ିଶଶHWʹǤʹͻ‡ିଵଵpJDOj  ே

ʹሻሻሻ ൎ ͻǡͺܤ௜ሺܵܥܥܣܯሻǡሺܣ௜ሺܵܥܥܣܯݐሺݏȁ ൌ෍߮ሺ݀݅ܤתܣȁ ௜ୀଵ  D’où une similarité globale GH  ͻǡͺʹ ܬሺܣǡ ܤሻ ൌ ൌൎ Ͳǡ͸Ͳ͹ ͳ͵ ൅ ͳ͵ െ ͻǡͺʹ  ሻሻDYHFXQHGLVWDQFHORJDULWKPLTXHHWODIRQFWLRQܤ ǡܣݐሺݏx SRXUXQHPpWKRGHXWLOLVDQW߮ሺ݀݅ GH*DXVV FKRL[ILQDOXWLOLVpHGDQV50R6 QRXVREWHQRQVOHVGLVWDQFHVVXLYDQWHV 

ሻ൯ ൌ ሾ݂݅݊ǡ ݂݅݊ǡ Ͳǡ Ͳǡ ݂݅݊ǡ ݂݅݊ǡ Ͳǡ Ͳǡͳͺʹǡ Ͳǡ Ͳǡ ሿܤ௜ሺܵܥܥܣܯሻǡ൫ܣ௜ሺܵܥܥܣܯݐሺݏ݅݀  (WOHVVLPLODULWpVORFDOHVVXLYDQWHV 

ሻ൯ቁሻ ൌ ሾͲǤͲǡ ͲǤͲǡ ͳǤͲǡ ͳǤͲǡ ͲǤͲǡ ͲǤͲǡ ͳǤͲǡ ͲǤͻͺͶǡ ͳǤͲǡ ͳǤͲǡ ͳǤͲǡ ͳǤͲǡ ͳǤͲሿܤ௜ሺܵܥܥܣܯሻǡ ൫ܣ௜ሺܵܥܥܣܯݐ ቀݏ߮ሺ݀݅  La mesure de l’intersection est alors  ே

ሻሻሻ ൎ ͺǡͻͺܤ௜ሺܵܥܥܣܯሻǡሺܣ௜ሺܵܥܥܣܯݐሺݏȁ ൌ෍߮ሺ݀݅ܤתܣȁ ௜ୀଵ

143

Chapitre III: R.Mo.S

D’où une similarité globale de  ͺǡͻͺ ܬሺܣǡ ܤሻ ൌ ൌൎ Ͳǡͷʹͺ ͳ͵ ൅ ͳ͵ െ ͺǡͻͺ  En résumé, nous voyons bien ici qu’à partir des mêmes caractéristiques MACCS ()LJXUH  QRXVREWHQRQVGHVVLPLODULWpVWRWDOHPHQWGLIIpUHQWHV

x 6FRUHGH7DQLPRWR 

x -DFFDUGFODVVLTXH 

x -DFFDUGDPpOLRUpDYHFGLVWDQFHFODVVLTXH 

x -DFFDUGDPpOLRUpDYHFXQHGLVWDQFHORJDULWKPLTXH   $LQVL FHWWH GHUQLqUH PHVXUH GH VLPLODULWp JOREDOH SUHQG ELHQ HQ FRPSWH OHV GLIIpUHQWV niveaux d’expression commune d’une caractéristique MACCS et considère également que la QRQexpression commune d’une caractéristique est une marque de similarité entre ces deux PROpFXOHV  50R6 SUpVHQWH GRQF XQH QRXYHOOH IDoRQ GH VpOHFWLRQQHU OHV PROpFXOHV GH OD EDVH GH données initiale utilisées pour prédire les propriétés d’une substance moléculaire dite cible. &HOOHFL SHUPHW GH VpOHFWLRQQHU XQ VRXVHQVHPEOH SOXV LPSRUWDQW HW SOXV SHUWLQHQW GH PROpFXOHV VLPLODLUHV j OD VXEVWDQFH PROpFXODLUH FLEOH SRXU OD SUpGLFWLRQ GH VHV SURSULpWpV Ainsi, l’invention propose une stratégie de prédiction des propriétés d’une substance moléculaire alternative aux stratégies proposées actuellement et permettant d’obtenir une SUpGLFWLRQGHPHLOOHXUHTXDOLWp

5pFXUVLYLWp

R.Mo.S. propose d’associer à cette mesure de similarité, une nouvelle méthode d’extraction du sousHQVHPEOHGHPROpFXOHVGLWGHUpIpUHQFHjSDUWLUGHODEDVHGHGRQQpHV LQLWLDOHFRPSUHQDQWXQHSOXUDOLWpGHPROpFXOHVDVVRFLpHVFKDFXQHjXQHYDOHXUGHGHVFULSWHXU 0$&&6SUpGpWHUPLQp&HWWHQRXYHOOHIDoRQGHVpOHFWLRQQHUOHVPROpFXOHVHVW EDVpHVXUXQ SURFHVVXVLWpUDWLIGHUHFKHUFKHGHVLPLODULWpLQLWLDOLVpHQSUHPLHUOLHXDYHFODPROpFXOHFLEOH GRQWQRXVFKHUFKRQVjSUpGLUHOHVSURSULpWpV  La première étape d’R.Mo.S. vise à récupérer un certain nombre de molécules similaires à ODPROpFXOHFLEOHFRQWHQXHVGDQVODEDVHGHGRQQpHVLQLWLDOH GXWHVWWR[LFRORJLTXHVSpFLILTXH  JUkFHjODWHFKQLTXHSUpFpGHPPHQWpQRQFpH PHVXUHGHVLPLODULWpORFDOHJOREDOH  )LJXUH  7RXWHVOHVPROpFXOHVGRQWODVLPLODULWpJOREDOHDYHFODPROpFXOHFLEOHHVWVXSpULHXUHjXQVHXLO IL[p SDUH[HPSOHGDQVOHVILJXUHV VRQWVpOHFWLRQQpHV 

144

Chapitre III: R.Mo.S

  Figure 68: Première étape d'R.Mo.S Récupération de toutes les molécules similaires à la molécule cible supérieur à un seuil fixé.  $ODILQGHFHWWHSUHPLqUHpWDSHXQHQRXYHOOHPROpFXOHFLEOH ILFWLYH DSSHOpH©PROpFXOH VLJQDWXUHªYDVHGpJDJHUGHVPROpFXOHVVLPLODLUHVSUpFpGHPPHQWUpFXSpUpHV$ILQGHJpQpUHU FHWWHPROpFXOHYLUWXHOOHGpILQLHSDUVRQ0$&&6HWTXLVHUYLUDGHUHTXrWHSRXUODSURFKDLQH LWpUDWLRQGXSURFpGpGHX[SRVVLELOLWpVRQWpWpHQYLVDJpHV )LJXUH   la valeur associée pour chacune des caractéristiques MACCS de l’ensemble des PROpFXOHVWURXYpHVHVWGpILQLHFRPPHODPR\HQQHGHVYDOHXUVFRUUHVSRQGDQWHVSRXUOHV molécules sélectionnées (à l’entier le plus proche)   ODYDOHXUDVVRFLpHjFKDFXQHGHVFDUDFWpULVWLTXHV0$&&6HVWGpILQLHFRPPHODYDOHXU FRUUHVSRQGDQWjODYDOHXUODSOXVFRXUDQWHSUpVHQWHSDUPLOHVPROpFXOHVVpOHFWLRQQpHV En cas d’ambiguïté ou si deux valeurs sont présentes le même nombre de fois, la valeur ODSOXVpOHYpHHVWSUpIpUpH  'XUDQWODPLVHDXSRLQWGXSURFpGpODSUHPLqUHSRVVLELOLWpQRXVDVHPEOpPRLQVFRKpUHQWH puisque pouvant générer des valeurs non présentes parmi l’ensemble des molécules sélectionnées. A contrario, la seconde possibilité permet d’obtenir une signature de la

145

Chapitre III: R.Mo.S molécule cible ¿ctive ayant un plus fort pourcentage de similarité avec la moOpFXOH FLEOH initiale. C’est cette seconde méthode que nous utiliserons par défaut.  

 Figure 69: génération de la molécule signature.  Une telle étape de calcul permet avantageusement d’obtenir une mesureGHVLPLODULWpSOXV précise que dans l’état actuel. La nouvelle molécule signature obtenue contient un fort SRXUFHQWDJHGHVLPLODULWpDYHFODPROpFXOHFLEOHLQLWLDOH  La deuxième étape de R.Mo.S consiste en un procédé d’itération faisant en sorte que la Polécule signature, en passant par le même procédé que l’étape précédente, récupère à QRXYHDX XQ FHUWDLQ QRPEUH GH PROpFXOHV VLPLODLUHV j HOOHPrPH GDQV OD EDVH GH GRQQpHV LQLWLDOH VXSpULHXUHjXQVHXLOIL[p  )LJXUH 

146

Chapitre III: R.Mo.S

 Figure 70: Création d'une molécule signature.  $X ILO GHV LWpUDWLRQV GHV PROpFXOHV VLJQDWXUHV ILFWLYHV VRQW FRQVWUXLWHV j SDUWLU GHV GHVFULSWHXUV 0$&&6 GHV PROpFXOHV VpOHFWLRQQpHV GDQV OD EDVH GH GRQQpHV LQLWLDOH HW XQH QRXYHOOH UHFKHUFKH GH VLPLODULWp HVW UpDOLVpH j SDUWLU GH FHV PROpFXOHV YLUWXHOOHV 50R6 FRQGXLW DLQVL JUkFH j FHWWH VpOHFWLRQ UpFXUVLYH j XQH VpOHFWLRQ SOXV FRPSOqWH HW SOXV PLQXWLHXVH GHV PROpFXOHV GH OD EDVH GHVWLQpHV j rWUH XWLOLVpHV SRXU SUpGLUH OHV SURSULpWpV ELRORJLTXHVGHODVXEVWDQFHPROpFXODLUHFLEOH  Plusieurs processus d’itération ont été envisagés  /H SUHPLHU SURFHVVXV HQYLVDJp HVW TXH ORUVTXH OD PROpFXOH VLJQDWXUH à l’itération i  UpFXSqUH GHV PROpFXOHV VLPLODLUHV VHXOHV OHV PROpFXOHV QRXYHOOHPHQW VpOHFWLRQQpHV HW n’appartenant pas déjà à l’ensemble de référence avant cette étape de sélection constituent le

147

Chapitre III: R.Mo.S

QRXYHDX VRXVensemble pour la formation d’une nouvelle molécule signature (à l’itération i+1  )LJXUH   &HWWH SUHPLqUH YDULDQWH SHXW WRXWHIRLV FRQGXLUH j VpOHFWLRQQHU GDQV l’ensemble de référence des molécules un peu trop éloignées en termes de similarité de la VWUXFWXUHPROpFXODLUHFLEOH

 Figure 71: Premier processus d’itération. Seules les molécules nouvellement sélectionnées constituent le nouveau sousensemble.  /H GHX[LqPH SURFHVVXV HQYLVDJp HVW TXH ORUVTXH OD PROpFXOH VLJQDWXUH à l’itération i  UpFXSqUH GH QRXYHOOHV PROpFXOHV VLPLODLUHV GDQV OD EDVH GH GRQQpHV OHV PROpFXOHV VpOHFWLRQQpHV j FHWWH LWpUDWLRQ VRQW JDUGpHV HW DVVHPEOpHV DX[ PROpFXOHV QRXYHOOHPHQW sélectionnées à l’itération i+1 )LJXUH 'HVRUWHTXHOHVRXVHQVHPEOHGHUpIpUHQFHXWLOLVp comprend à la fois les molécules sélectionnées lors de l’étape de sélection à l’itération SUpFpGHQWHHWOHVPROpFXOHVQRXYHOOHPHQWVpOHFWLRQQpHV&HGHUQLHUSURFHVVXVFRQGXLWjGHV UpVXOWDWVELHQPHLOOHXUVTXHODSUHPLqUHYDULDQWH 

 Figure 72: Deuxième processus d'itération. /’ensemble desPROpFXOHVVpOHFWLRQQpHVjFHWWHLWpUDWLRQet à l’itération précédente VRQWJDUGpHVHWDVVHPEOpHVSRXUIRUPHUOH QRXYHDXVRXVHQVHPEOH  /H GHUQLHU SURFHVVXV HQYLVDJp HVW TXH ORUVTXH OD PROpFXOH VLJQDWXUH à l’itération i  UpFXSqUH GH QRXYHOOHV PROpFXOHV VLPLODLUHV GDQV OD EDVH GH GRQQpHV VHXOHV OHV PROpFXOHV VpOHFWLRQQpHVjFHWWHLWpUDWLRQVRQWJDUGpHV )LJXUH  

148

Chapitre III: R.Mo.S

  Figure 73: Dernier processus d'itération. 6HXOHVOHVPROpFXOHVVpOHFWLRQQpHVjFHWWHLWpUDWLRQVRQWJDUGpHV  Après expérimentations, il s’avère que la première solution amène à sélectionner trop de molécules n’ayant que peu de similarités avec la molécule requête fournie en entrée. 'HSOXV QRXVDYRQVUHPDUTXpTXHFHSURFHVVXVPqQHjXQSKpQRPqQHGH©IXLWHHQDYDQWª(QHIIHWj la fin du processus d’itération, l’ensemble des molécules de la base de données initiale sont récupérées. Il n’y a alors plus aucun bénéfice à R.Mo.S. /HV GHX[ DXWUHV VROXWLRQV RQW XQ FRPSRUWHPHQW WUqV SURFKH HW GRQQHQW WRXWHV GHX[ GH ELHQ PHLOOHXUV UpVXOWDWV 0rPH VL OH choix est laissé à l’utilisateur, le procédé décrit ici utilise par défaut la solution numéro 2.  Le nombre d’itérations considéré pour sélHFWLRQQHUOHVRXVHQVHPEOHGHUpIpUHQFHSHXWrWUH fixé au moyen d’un critère d’arrêt paramétrable qui peut être x un nombre maximal d’itérations réalisé x XQQRPEUHGHPROpFXOHVSUpGpWHUPLQpDWWHLQWGDQVOHVRXVHQVHPEOHGHUpIpUHQFH x l’absence de molécules nouvellement sélectionnées lors de l’itération courante. En d’autres mots, l’ensemble de référence n’est plus enrichi au fil des itérations, de sorte qu’il est inutile de continuer à itérer. 

3UpGLFWLRQ

L’algorithme R.Mo.S YLVH pJDOHPHQW VHORQ XQ GHX[LqPH DVSHFW OH SUHPLHU pWDQW OD recherche de similarité), en un procédé de prédiction d’au moins une propriété de la substance PROpFXODLUH FLEOH LQLWLDOH IRXUQLH HQ HQWUpH  j SDUWLU GX VRXVHQVHPEOH GH PROpFXOHV VpOHFWLRQQpjODILQdu processus d’itération ()LJXUH  

149

Chapitre III: R.Mo.S

  Figure 74: Processus de prédiction grâce à l'algorithme R.Mo.S.  Nous noterons que la prédiction réalisée par l’invention est avantageusement adaptative. (OOH SHXW DLVpPHQW XWLOLVHU GHV EDVHV GH GRQQpHV SXEOLTXHV UpJXOLqUHPHQW PLVHV j MRXU HW UpSHUWRULDQWOHVSURSULpWpVGHGLIIpUHQWHVPROpFXOHVDXUHJDUGGHGLIIpUHQWVWHVWVHIIHFWXpVVXU FHVPROpFXOHV 

150

Chapitre III: R.Mo.S

%UHYHW  /HEUHYHWQƒVRXVODGpQRPLQDWLRQ ©3URFpGpHWGLVSRVLWLIGHsélection d’un VRXVHQVHPEOH GH PROpFXOHV GHVWLQpHV j rWUH XWLOLVpHV SRXU SUpGLUH DX PRLQV XQH SURSULpWp d’une structure moléculaireª D pWp GpSRVp HQ -XLQ  &HOXLci n’est pas classifié par la DGA et en attente d’examen par l’Institut Nationale de la 3URSULpWp,QGXVWULHOOH ,13,          

151



                    Chapitre IV: Résultats du système   prédictif                           

Chapitre IV: Résultats

&HFKDSLWUHLQWURGXLWOHVUpVXOWDWVGHVUpVHDX[GHQHXURQHVDLQVLTXHGHV690'DQVXQH GHX[LqPHSDUWLHFHFKDSLWUHH[SOLTXHOHVUpVXOWDWVGHVDXWUHVWHFKQLTXHVGH0/DLQVLTXHOHV GLIIpUHQWV SDUDPqWUHV TXH QRXV DYRQV XWLOLVpV &HWWH SDUWLH PRQWUH VXUWRXW HQ TXRL 50R6 DVVRFLpjXQHWHFKQLTXHGH0/ ODPHLOOHXUH SHUPHWXQHSUpGLFWLRQHIILFDFHGHVPROpFXOHV +(0VHWFHTXHOTXHVRLWOHW\SHGHPROpFXOHVXWLOLVpHV

Introduction

Après mise au point de l’algorithme R.Mo.S, nous avons laissé derrière nous notre ancienne méthodologie. Celleci utilisait le QSAR, l’OTFQSAR et permettait de générer des prédictions via le logiciel MOE, dont les résultats n’étaient pas satisfaisants. Il était ainsi nécessaire de concevoir une nouvelle méthode in silico capable d’effectuer des prédictions correctes et rapides.   / DSSUHQWLVVDJHDXWRPDWLTXHDJUDQGHPHQWIDLWSDUOHUGHOXLFHVGHUQLqUHVDQQpHVGXIDLWGHV applications uniques qu’il a permis. En effet, HQOLHQDYHFl’augmentation constante de la taille GHVEDVHVGHGRQQpHVOHWHPSVQpFHVVDLUHSRXUFRQVWUXLUHXQPRGqOHSUpGLFWLIUHQGVRXYHQW XQHpWXGHQRQUHQWDEOHYRLUHmême impossible. L’objectif de la recherche s'est déplacé non VHXOHPHQWYHUVOHGpYHORSSHPHQWG DOJRULWKPHVGHIRUWHSXLVVDQFHSUpGLFWLYHPDLVDXVVLYHUV OD VLPSOLILFDWLRQ GHV PpWKRGHV SUpFpGHPPHQW H[LVWDQWHV afin d’REWHQLU GHV UpVXOWDWV SOXV 169 UDSLGHPHQW  C’est donc tout naturellement que nous avons choisi cette méthode pour HIIHFWXHUQRVSUédictions à la suite de l’algorithme R.Mo.S.  1RXVDYRQVXWLOLVple test d’Ames comme exemple de test de mutagénicité. Jusqu’à présent QRWUHEDVHGHWHVW VHFRPSRVDLW GHPROpFXOHVFKDUJHV GRQW OHUpVXOWDW H[SpULPHQWDOpWDLW DYpUpGDQVODOLWWpUDWXUH¬FHWWHEDVHGHWHVWVHUDMRXWHjSUpVHQWXQHQVHPEOHGHPROpFXOHV W\SLTXHV GHV +(0V GRQW OH UpVXOWDW H[SpULPHQWDO HVW pJDOHPHQW DVVXUp  PROpFXOHV SODVWLILDQWHV  PROpFXOHV R[\GDQWHV  PROpFXOHV OLTXLGHV  PROpFXOHV VWDELOLVDQWHV HW  PROpFXOHVS\URWHFKQLTXHV$LQVLODEDVHGHWHVWHVWFRQVWLWXpHGHPROpFXOHV  La prédiction, réalisée à la suite d’R.Mo.S par le Machine Learning, est effectuée à l’aide GH VFLNLWOHDUQ 6FLNLWlearn est une librairie python dédiée à l’apprentissage automatique. C’est un outil simple, efficace pour l’analyse de données et accessible à tous. Dans notre cas, FHWWH ELEOLRWKqTXH FRPSUHQG QRWDPPHQW GHV VFULSWV HW GHV IRQFWLRQV S\WKRQ SHUPHWWDQW GH paramétrer nos modèles, d’estimer les algorithmes de classification (arbres GHGpFLVLRQ690 forêts aléatoires, méthodes d’ensemble) et de déterminer à quelle classe appartiennent nos GRQQpHV /D JUDQGH PDMRULWp GH FHWWH ELEOLRWKqTXH HVW pFULWH HQ S\WKRQ HW GRQF UpXWLOLVDEOH GDQVGHQRPEUHX[FRQWH[WHV  'LIIpUHQWVSDUDPqWUHVVRQWjFRQILJXUHUGDQVFKDTXHPpWKRGHGH0DFKLQH/HDUQLQJDYDQW GHODQFHUOHVSUpGLFWLRQV

153

Chapitre IV: Résultats

7RXWHV OHV PpWKRGHV GH 0DFKLQH /HDUQLQJ GpFULWHV GDQV OH FKDSLWUH ,  RQW pWp WHVWpHV&HSHQGDQWOHVPpWKRGHVXWLOLVDQWOHVUpVHDX[GHQHXURQHV DLQVLTXHOHV PDFKLQHVj vecteurs de support n’ont jamais permis d’obtenir des prédictions satisfaisantes.  (QHIIHWLOH[LVWHXQWUqVJUDQGQRPEUHGHW\SHVGHUpVHDX[GHQHXURQHVHQIRQFWLRQGHOD WkFKHjHIIHFWXHUODQDWXUHGHVGRQQpHVODFRPSOH[LWpGXSUREOqPHjUpVRXGUHOHWHPSVGH calcul et les logiciels utilisés. Il est donc très important de sélectionner l’architecture DSSURSULpH GX UpVHDX QRPEUH GH FRXFKHV FDFKpHV GH QHXURQHV FDFKpV HW GH QHXURQHV GH VRUWLHV  TXL FDUDFWpULVH DX PLHX[ QRWUH SUREOpPDWLTXH (Q SUDWLTXH WRXV FHV SDUDPqWUHV QH SHXYHQW rWUH UpJOpV VLPXOWDQpPHQW. C’est pour cela que les réseaux de neurones prennent VRXYHQWEHDXFRXSGHWHPSVjrWUHPLVHQSODFHHWGRQFjrWUHHIILFDFHV  /H SUHPLHU SUREOqPH dans la modélisation d’un réseau neuronal EDVp VXU O LQIRUPDWLRQ FKLPLTXH est qu’il y a un nombre très important de descripteurs moléculaires pouvant être utilisés (en tant que neurones d’entrées). Le choix d’un nombre approprié de descripteurs SUHQG VRXYHQW pQRUPpPHQW GH WHPSV j PHWWUH HQ SODFH 'H SOXV XQ SOXV SHWLW QRPEUH GH GHVFULSWHXUV HVW SUpIpUDEOH FDU OD WDLOOH GHV GRQQpHV G HQWUpH GpWHUPLQH HQ JUDQGH SDUWLH OH WHPSVQpFHVVDLUHSRXUPRGpOLVHUOHVUpVHDX[QHXURQDX[ $LQVLLOHVWSUpIpUDEOHGHOLPLWHUOHQRPEUHGHQHXURQHVRXODGXUpHGHl’apprentissage du réseau afin d’éviter le surDSSUHQWLVVDJH  1RXVDYRQVSDVVpXQFHUWDLQWHPSVjWHVWHUGHQRPEUHXVHVFRPSRVLWLRQVGHUpVHDX[HQVH EDVDQW VXU GLIIpUHQWHV SXEOLFDWLRQV 'H QRPEUHX[ DXWHXUV RQW SURSRVp OHXUV PpWKRGHV GH FDOFXO-DPHV'HYLOOHUV170SURSRVHGHFRPPHQcer sa stratégie avec peu de neurones et d’en ajouter de plus en plus au fur et à mesure de l’expérience (ou inversement) (EHUKDUW HW 'REELQV (EHUKDUWHWDOE 171SURSRVHQWGHFKRLVLUOHQRPEUHGHFRXFKHVFDFKpHVFRPPH OD UDFLQH FDUUpH GX QRPEUH GH QHXURQHV HQ HQWUpH SOXV OH QRPEUH GH QHXURQHV HQ VRUWLH =DUHPED  170 SURSRVH XQ QRPEUH GH FRXFKHV FDFKpHV GH Q  DYHF Q QRPEUH GH neurones de la couche d’entrée)%DLOH\HW7KRPSVRQ  172SURSRVHTXHODFRXFKHFDFKpH FRUUHVSRQGHà 75% de la taille de la couche d’entrée et enfin Sigillito et Hutton (Sigillito and +XWWRQ  173 DYDQFHQW TXH OH QRPEUH GH QHXURQHV FDFKpV VRLW LQIpULHXU j OD PRLWLp GX QRPEUHGHQHXURQHVHQHQWUpH Finalement, en ayant essayé toutes ces topologies et en faisant en sorte d’éviter le sur et le VRXV DSSUHQWLVVDJH HQ SOXV GX IDLW TXH OHV VLPXODWLRQV VRLHQW H[WUrPHPHQW ORQJXHV QRXV DYRQVDEDQGRQQpFHWWHPpWKRGH  /DPDFKLQHjYHFWHXUVGHVXSSRUW RX6XSSRUW9HFWRU0DFKLQH 690 HQDQJODLV HVWXQH méthode d’apprentissage supervisée. /D 690 XWLOLVH GHV DOJRULWKPHV HIILFDFHV GDQV OHV espaces de dimension élevés (3D, 4D…), possédant une haute capacité d’apprentissage. Dans notre cas, à partir d’un set d’apprentissage (base de données Ames), l’algorithme d’apprentissage SVM construit uneSUpGLFWLRQGHVGRQQpHVVRXVIRUPHGHSRLQWVGDQVO HVSDFH

154

Chapitre IV: Résultats en fonction de l’appartenance à l’une ou l’autre des catégories de classification PXWDJqQHQRQPXWDJqQH  &HSHQGDQW FHWWH PpWKRGH SHXW GRQQHU GH SLqWUHV SHUIRUPDQFHV VL OH QRPEUH GH FDUDFWpULVWLTXHVXWLOLVpHVHVW ELHQVXSpULHXUDXQRPEUHG pFKDQWLOORQV(QHIIHWFHWWHWHFKQLTXH HVWSDUPLOHVPHLOOHXUHVGDQVOHFDVROHVGRQQpHVVRQWOLPLWpHV'HSOXVPDOJUpOHIDLWTXHOD 690VRLWXQRXWLOSXLVVDQWOHVH[LJHQFHVGHVWRFNDJHHWGHFDOFXODXJPHQWHQWWUqVUDSLGHPHQW avec le nombre de données d’apprentissage. (QHIIHWODFRPSOH[LWpG XQH690HVWDXPRLQV TXDGUDWLTXHHQODWDLOOHGHVGRQQpHVG DSSUHQWLVVDJHDe ce fait, en faisant croître la taille des données, un algorithme quadratique sera systématiquement plus lent qu’un algorithme de complexité inférieur. Dans notre cas, nous avons une base de données d’apprentissageGH  PROpFXOHV pour le test d’Ames  PROpFXOHV FKDUJHV XWLOLVpHV FRPPH EDVH GH WHVW FKDFXQHUHSUpVHQWpHSDUFDUDFWpULVWLTXHV0$&&6  $LQVLPDOJUpQRVHIIRUWVOD690DpWpWUqVFRPSOLTXpHjLQWHUSUpWHUHWjPHWWUHHQSODFH sur notre problématique. En effet, cette méthode n’est pas adaptée à nos données car notre ensemble d’apprentissage est trop grandl’algorithmHWURSOHQWHWEHDXFRXSWURSFR€WHX[HQ WHUPHVGHWHPSVGHFDOFXO 1RXV DYRQV GRQF WHVWp OHV DXWUHV PpWKRGHV GH 0DFKLQH /HDUQLQJ DUEUH GH GpFLVLRQV HW méthode d’ensemble).

 5pVXOWDWV

,O\DGHX[SDUDPqWUHVLPSRUWDQWVVXUOHVTXHOVQRXVSRXYRQVLQWHUYHQLUDYHFl’algorithme 50R6OHSRXUFHQWDJHGHVLPLODULWpHWOHQRPEUHGHPROpFXOHVVpOHFWLRQQpHVGDQVODEDVHGH GRQQpHVVLPLODLUHVjQRWUHPROpFXOHWHVW )LJXUH ¬FHVWDGHGXGpYHORSSHPHQWHWGHOD prédiction, nous ne savons pas quel paramètre d’R.Mo.S (dH VLPLODULWp HW GH QRPEUH  IRQFWLRQQHUD SRXU HIIHFWXHU XQH SUpGLFWLRQ FRUUHFWH DYHF OH 0DFKLQH /HDUQLQJ VXU OHV  PROpFXOHVGHODEDVHGHWHVW(QHIIHW QRXV UHFKHUFKRQV GHV SDUDPqWUHVGHVLPLODULWpHW GH QRPEUHGHPROpFXOHVVLPLODLUHVVpOHFWLRQQpHVSDU50R6YDODEOHVSRXUXQWHVWVSpFLILTXHHW TXLDERXWLUDLWDYHFXQHWHFKQLTXHGH0DFKLQH/HDUQLQJDSSURSULpHjXQHSUpGLFWLRQFRUUHFWH TXHOOHTXHVRLWODPROpFXOH 

155

Chapitre IV: Résultats

 Figure 75: Grille de la similarité en fonction du nombre de molécules similaires sélectionnées par R.Mo.S.  1RXVDYRQVGRQFWHVWpGHPDQLqUHHPSLULTXHHWDXWRPDWLTXH SDUOH0DFKLQH/HDUQLQJ  WRXVOHVSDUDPqWUHVGHVLPLODULWp GHjGHVLPLODULWp HWGXQRPEUHGHPROpFXOHV VLPLODLUHV VpOHFWLRQQpHV SRVVLEOHV GH  j  PROpFXOHV  TXL QRXV GRQQHUDLHQW XQH prédiction correcte pour l’ensemble de la base de test. Nous avons tout d’abord effectué cette VWUDWpJLHSRXUOHVPROpFXOHVFKDUJHVGHODEDVHGHWHVW  1RXVDYRQVFKRLVLGHQHSDVGHVFHQGUHHQGHVVRXVGHGHVLPLODULWpDILQGHJDUGHUOH V\VWqPHOHSOXVSUpFLVSRVVLEOH(QHIIHWHQGHVVRXVGHGHVLPLODULWpQRXVFRQVLGpURQV TXHl’algorithme R.Mo.S ne ferait plus la distinction entre des molécules très différentes. De SOXV QRXV DYRQV UHPDUTXp ORUV GH SUpFpGHQWHV FDOLEUDWLRQV HIIHFWXpHV DYHF l’OTF46$5 qu’auGHOj GH  PROpFXOHV VpOHFWLRQQpHV VLPLODLUHV j OD PROpFXOH WHVW OHV SUpGLFWLRQV GHYHQDLHQWGHPRLQVHQPRLQVSUpFLVHV1RXVDYRQVGRQFGpFLGpGHUHVWHUVXUFHWWHJDPPHGH VpOHFWLRQ  Sur une grille, paramétrée par le pourcentage de similarité et le nombre maximal de molécules sélectionnées, nous représenterons par un point un paramètre menant à une prédiction correcte des 21 molécules charges de la base de test. &KDTXH SRLQW VXU OD JULOOH UHSUpVHQWHUDGRQFXQHSUpGLFWLRQFRUUHFWHSRXUOHVPROpFXOHVFKDUJHV GHODEDVHGHWHVW ,GpDOHPHQW FH TXH QRXV UHFKHUFKRQV est une large zone de l’espace contenant des points )LJXUH TXLLQGLTXHUDLWTXHODWHFKQLTXHGH0DFKLQH/HDUQLQJXWLOLVpH HWVHVSDUDPqWUHV SURSUHV HVWUREXVWHHWHIILFDFHjFHSRXUFHQWDJHGHVLPLODULWpHWDYHFFHQRPEUHGHPROpFXOHV similaires sélectionnées. Cette zone de l’espace correspond au domaine de validation de la WHFKQLTXHGH0/

156

Chapitre IV: Résultats

 Figure 76: Large zone de l'espace contenant des points. Chaque point rouge de l’espace constitue une prédiction correcte pour les 21 molécules de la base de test. Cette large zone dH l’espace contenant des SRLQWVJDUDQWLHXQHUREXVWHVVHHWXQHHIILFDFLWpGHODPpWKRGH(QHIIHWHQSUHQDQWXQSRLQWFHQWUDOVXU ODJULOOHFHODSHUPHWWUDLWGHIRXUQLUXQHSUpGLFWLRQFRUUHFWHTXHOTXHVRLWOHW\SHGHPROpFXOH  'HVSRLQWVLVROpVLQGLTXHQWTXHODSUpGLFWLRQGHVmolécules charges n’est valideTXHVXU FH SDUDPqWUH VSpFLILTXH GH VLPLODULWp DYHF FH QRPEUH SDUWLFXOLHU GH PROpFXOHV VLPLODLUHV VpOHFWLRQQpHV )LJXUH   6XU FHWWH ILJXUH SDU H[HPSOH DYHF  PROpFXOHV VpOHFWLRQQpHV GDQV OD EDVH GH GRQQpHV j XQH VLPLODULWp GH  DYHF OD PROpFXOH FLEOH OHV  PROpFXOHV FKDUJHVVHURQWSUpGLWHVFRUUHFWHPHQW

 Figure 77: Grille contenant des points isolés.  $LQVLVLQRXVFKangeons le type de molécules (d’une molécule explosiveGHW\SHFKDUJHj XQH PROpFXOH SKDUPDFHXWLTXH SDU H[HPSOH  FHV SDUDPqWUHV GH QRPEUH HW GH VLPLODULWp VSpFLILTXHVSRXUUDLHQWQHSOXVrWUHYDOLGHVHWODSUpGLFWLRQQHSOXVrWUHFRUUHFWH 

157

Chapitre IV: Résultats

Avec une large zone de l’espace  QRXVPD[LPLVRQVOHVFKDQFHVGHSUpGLFWLRQVFRUUHFWHV pour toutes sortes de molécules, (2) nous garantissons la configuration de l’algorithme et (3) QRXVQRXVDVVXURQVTXHOHV\VWqPHHVWUREXVWHDX[YDULDWLRQVHWDX[FKDQJHPHQWV  /D SUHPLqUH pWDSH GH OD GpPDUFKH HQWUHSULVH GDQV FH FKDSLWUH D pWp GH GpWHUPLQHU OD PHLOOHXUHWHFKQLTXHGH0DFKLQH/HDUQLQJDSSOLFDEOHjQRWUHEDVHGHWHVW FKDUJHVVXUOHWHVW spécifique de mutagénicité. Nous avons identifié la zone d’occurrence (nombre de FRPELQDLVRQVTXLDVVRFLHܰPROpFXOHVVLPLODLUHVVpOHFWLRQQpHVSDU50R6jݔSRXUFHQWVGH VLPLODULWp SRXUODTXHOOHODWHFKQLTXHGH0DFKLQH/HDUQLQJDERXWLUDjXQHSUpGLFWLRQFRUUHFWH GHVPROpFXOHV La deuxième étape a été d’appliquer le procédé précédent à l’ensemble de la baVHGHWHVW (plastifiants, oxydants, stabilisants, liquides et pyrotechnies) afin d’obtenir une zone d’occurrence optimale (nombre réduit de combinaisons) pour une prédiction correcte. Cette étape a permis la calibration de l’ensemble du système prédictif.  La dernière étape a été d’exécuter ces combinaisons sur une base de validation afin de JDUDQWLUODTXDOLWpGXV\VWqPH  /DPHLOOHXUHWHFKQLTXHGH0DFKLQH/HDUQLQJ $UEUHGHGpFLVLRQV 8QDUEUHGHGpFLVLRQVHVWXQHPpWKRGHGH0DFKLQH/HDUQLQJUHSUpVHQWDQWXQHQVHPEOHGH FKRL[ VRXV OD IRUPH G XQ DUEUH ,O SHXW rWUH JpQpUp DXWRPDWLTXHPHQW SDU GHV DOJRULWKPHV d’apprentissage superviséV j SDUWLU GH EDVHV GH GRQQpHV $ILQ GH GpWHUPLQHU OD PHLOOHXUH découpe de l’arbre, les indicateurs Gini et l’entropie de Shannon sRQWXWLOLVpV5DSSHORQVTXH WRXVGHX[FDUDFWpULVHQWOHJDLQHQKRPRJpQpLWpGHVVRXVHQVHPEOHVREWHQXVSDUGLYLVLRQGH l'ensemble de l’arbrele premier par la mesure de l’impureté et le deuxième par la mesure du gain d’information. L’algorithme d’apprentissage teste l’ensemble des combinaisons possibleV de l’arbre et sélectionnent celle dont l’indicateur est maximisé DILQ GH IRXUQLU OD PHLOOHXUH SUpGLFWLRQ SRVVLEOH /D SUpGLFWLRQ IRXUQLW XQH YDOHXU QXPpULTXH SHUPHWWDQW GH FODVVHU OHV GRQQpHVGDQVWHOOHRXWHOOHFODVVH PXWDJqQHQRQPXWDJqQH   8Q DUEUH GH GpFLVLRQV HVW VLPSOH j LQWHUSUpWHU HW j FRPSUHQGUH HW UHTXLHUW TXH SHX GH SUpSDUDWLRQ6FLNLWOHDUQRIIUHXQHLPSOpPHQWDWLRQHIILFDFHGHODFRQVWUXFWLRQ GHFHVDUEUHV 'LIIpUHQWV SDUDPqWUHV RX YDOHXUV GH SDUDPqWUHV  QRXV pWDLHQW FRQVHLOOpV GDQV OD QRWLFH d’utilisation de scikitlearn, mais nous avons préféré garder à l’esprit TXHFHVYDOHXUVQHVRQW SDVQpFHVVDLUHPHQWRSWLPDOHVSRXUQRWUHSUREOpPDWLTXH  3DUDPqWUHVLPSOpPHQWpVGDQVVFLNLWOHDUQ 'LIIpUHQWVSDUDPqWUHVGHFHWWHWHFKQLTXHGH0DFKLQH/HDUQLQJGRLYHQWrWUHSULVHQFRPSWH SRXUSRXYRLUHIIHFWXHUODSUpGLFWLRQ

x /HVLQGLFDWHXUV: Gini et l’entropie de Shannon

x /HFDUDFWqUHDléatoire de l’algorithme définiSDU©UDQGRPBVWDWHª 158

Chapitre IV: Résultats

/DSrofondeur de l’arbre, le nombre minimal de données requis à un nœud pour pouvoir les VpSDUHU OH QRPEUH GH FDUDFWpULVWLTXHV j FRQVLGpUHU ORUVTXH QRXV FKHUFKRQV OD PHLOOHXUH VpSDUDWLRQ OH QRPEUH minimal de données requis à un nœud feuille, le poids de chaqXH échantillon et de chaque classe, le nombre maximal de nœudV IHXLOOHV HW OD YLWHVVH GX processus d’apprentissage, n’ont pas été modifiés. En effet, dans ce cas, les paramètres par GpIDXWSHUPHWWHQWXQDSSUHQWLVVDJHRSWLPLVpde l’arbre de décisionV  $ILn d’obtenir un comportement déterministe durant la construction de l’arbre et l’obtention de la prédiction, le caractère aléatoire de l’algorithme doit être IL[p/HSDUDPqWUH ©UDQGRPBVWDWHª FDUDFWpULVH DLQVL OD capacité de l’algorithme à refaire la même SUpGLFWLRQ TXHOTXHVRLWOHFKHPLQHPSUXQWp,OVHUDSODFpVXU©1RQHª  5pVXOWDWVREWHQXV 9RLFLOHVUpVXOWDWVTXHQRXVDYRQVREWHQXVSRXUODWHFKQLTXHGH0DFKLQH/HDUQLQJXWLOLVDQW GHVDUEUHVGHGpFLVLRQVDYHFOHVLQGLFDWHXUV*LQLHWHQWURSLHGH6KDQQRQ TXLVRQWOHVVHXOV SDUDPqWUHVYDULDEOHVGHODWHFKQLTXH  )LJXUH 

 Figure 78: Grille de résultats pour la technique de ML utilisant des arbres de décisions. /HV SDUDPqWUHV utilisés ici sont l’indicateur (*LQLHQWURSLH GH 6KDQQRQ) et le caractère aléatoire. L’indicateur est le seul SDUDPqWUHYDULDEOHGHFHWWHWHFKQLTXHLa grille associée à l’entropie de Shannon trouve 39 combinaisons FRQGXLVDQWjXQH SUpGLFWLRQFRUUHFWHGHVPROpFXOHVFKDUJHVLa grille associée à l’indice de Gini n’en propose, quant à elle, que 13. 

159

Chapitre IV: Résultats

1RXV SRXYRQV YRLU DLVpPHQW TXH OD JULOOH Dssociée à l’entropie de Shannon SURSRVH  FRPELQDLVRQVFRQGXLVDQWjXQHSUpGLFWLRQFRUUHFWHGHVPROpFXOHVFKDUJHVDORUVTXHFHOOH associée à l’indice de Ginin’en propose que 13. En effet, par exemple, à une similarité de  DYHF  PROpFXOHV VLPLODLUHV VpOHFWLRQQpHV GDQV OD EDVH GH GRQQpHV WRWDOH GX WHVW d’Ames, la technique de Machine Learning utilisant des arbreV GH GpFLVLRQV FRQGXLW j XQH SUpGLFWLRQFRUUHFWHGHVPROpFXOHVGHODEDVHGHWHVW  /HPHLOOHXUDUEUHGHGpFLVLRQVHVWFHOXLXWLOLVDQWSUpIpUHQWLHOOHPHQWl’entropie de Shannon. Cependant, avec cette méthode, aucune zone large de l’espace n’est visible aboutissant à un HQVHPEOHGHSDUDPqWUHVd’R.Mo.S optimal. Méthode d’ensemble Les méthodes d’ensemble ont pour but de créer différents arbres de décisions grâcHjXQ algorithme d’apprentissage particulier puis de combiner les prédictions des arbres individuels afin de former une prédiction finale. Cette méthode permet d’améliorer la stabilité et la UREXVWHVVHGHODSUpGLFWLRQSDUUDSSRUWjODPpWKRGHGHVDUEUHVGHGpFLVLRQVVHXOH  L’algorithme utilisé dépend de la façon dont les données sont modifiées quand l’arbre est créé. En effet, si la modification des données s’effectue sur les données d’apprentissage alors l’algorithme utilisé est le%DJJLQJ$XFRQWUDLre si la modification des données s’effectue sur les données de sortie alors l’algorithme utilisé est le%RRVWLQJ  Il existe deux types d’algorithmes Bagging: l’algorithme forêts aléatoires (Random Forest (RF)) et l’algorithme extrêmement randomisé (ExtraTrees).   'DQV VFLNLWOHDUQ OHV PpWKRGHV GH %DJJLQJ SURSRVHQW GHV VRXVHQVHPEOHV FRPELQpV SDU YRWHPDMRULWDLUHDILn d’améliorer la précision prédictive et contrôler le surDSSUHQWLVVDJH  $OJRULWKPH5DQGRP)RUHVW Différents paramètres de la technique de Machine Learning utilisant l’algorithme RF GRLYHQWrWUHSULVHQFRPSWHSRXUSRXYRLUHIIHFWXHUODSUpGLFWLRQ

x /H nombre d’arbreV GDQV OD IRUrW GpILQL par le nombre d’estimateurs ©QBHVWLPDWRUVª

x /DWDLOOHGHVVRXVHQVHPEOHVGpILQLHSDU©%RRWVWUDSª

x /HFDUDFWqUHDléatoire de l’algorithme définiSDU©UDQGRPBVWDWHª /’indicateur, la stratégie utilisée pour choisir la profondeur de l’arbre, le nombre minimal de données requis à un nœud pour pouvoir les séparer, le nombre de caractéristiques à FRQVLGpUHU ORUVTXH QRXV FKHUFKRQV OD PHLOOHXUH VpSDUDWLRQ OH QRPEUH PLQLPDO GH GRQQpHV requis à un nœud feuille, la précision de généralisation, OH SRLGV PLQLPDO GH FKDTXH VRXV ensemble et de chaque classe, le nombre maximal de nœudVIHXLOOHVHWODYLWHVVHGXSURFHVVXV d’apprentissage, n’ont pas été modifiés. En effet, dans ce cas, OHV SDUDPqWUHV SDU GpIDXW 160

Chapitre IV: Résultats

SHUPHWWHQWXQDSSUHQWLVVDJHRSWLPLVpGHODPpWKRGHHWFRQGXLVHQWjGHVDUEUHVFRPSOqWHPHQW GpYHORSSpV  De plus, lors de la division d'un nœud lors de la construction d’un arbre, la répartition choisie n'est plus la meilleure, mais la meilleure parmi un sousensemble aléatoire des caractéristiques. En raison de ce caractère aléatoire, le biais de la forêt augmente habituellement légèrement (par rapport au biais d'un seul arbre non aléatoire) mais, grâce au vote majoritaire, la variance diminue également, suffisamment pour compenser l'augmentation du biais, donnant ainsi un meilleur modèle global.  3DUDPqWUHVIL[pV Pour effectuer la séparation à chaque nœud, l’algorithme RF utilise un critère d’arrêt. &HOXLFL GpFRXSH un nœud lorsqu’il contient un nombre minimum d’observations fixé au SUpDODEOH3DUGpIDXWFHQRPEUHHVWIL[pjFLQTSRXUODUpJUHVVLRQHWjXQSRXUODFODVVLILFDWLRQ GDQVOHSDFNDJHVFLNLWOHDUQ  /D FRPSOH[LWp HW OD WDLOOH GHV DUEUHV GRLYHQW rWUH FRQWU{OpHV DILQ GH UpGXLUH OD FRQVRPPDWLRQGHPpPRLUH&HODHVWSRVVLEOHHQGpILQLVVDQWOHVYDOHXUVGHFHUWDLQVSDUDPqWUHV dont notamment le nombre d’estimateurs. Ce paramètre est GLIILFLOHjFKRLVLUORUVGX%DJJLQJ car il définit le nombre d’arbres à créer et donc à combiner (le nombre d’estimateurs) pour obtenir la meilleure prédiction possible. Le nombre d’estimateurV SHXW rWUH FKRLVL HQ augmentant le nombre d’arbres, calibration après calibration, jusqu’à ce que la précision DUUrWHGHPRQWUHUGHVDPpOLRUDWLRQV&HSHQGDQWFHODSHXWSUHQGUHXQWHPSVFRQVLGpUDEOH(Q UqJOHJpQpUDOHSOXVLO\DXQQRPEUHLPSRUWDQWGHVRXVensembles d’arbres construisSOXVOD IRUrW HVW UREXVWH HW SOXV OHV UpVXOWDWV RQW XQH KDXWH SUpFLVLRQ 1RXV DYRQV GRQF WHVWp OHV QRPEUHVd’estimateurs suivantsHW  ,OHVWLPSRUWDQWGHQRWHUTXHODWDLOOHGHVVRXVHQVHPEOHVIRUPpVHVWWRXMRXUVODPrPHTXH FHOOHGHO pFKDQWLOORQRULJLQDOHWFHODTXHOHVGRQQpHVVRLHQWUpXWLOLVpHVRXQRQ/HSDUDPqWUH ©%RRWVWUDSªFRQWU{OHVLOHVGRQQpHVVRQWGHVWLQpHVjrWUHUpXWLOLVpVRXQRQ'DQVOHFDVGH l’algorithme Bagging, FH SDUDPqWUH HVW SODFp VXU ©9UDL» car l’entièreté des données d’entrainement sont réutiliséHVjFKDTXHVRXVHQVHPEOHIRUPp  De même qu’avec les arbres de décisions, un comportement déterministe est nécessaire et fixé par le caractère aléatoire de l’algorithme. Le paramètre «UDQGRPBVWDWHªFDUDFWpULVDQWOD capacité de l’algorithme à refaire la même prédiction quel que soit le cKHPLQHPSUXQWpHVW SODFpVXU©1RQHª  5pVXOWDWVREWHQXV Voici les résultats que nous avons obtenus avec l’algorithme RF en fonction du nombre d’estimateurs (nombre d’arbres généUpVSRXUFKDTXHVRXVHQVHPEOHVHXOSDUDPqWUHYDULDEOH GHODWHFKQLTXH  )LJXUH 

161

Chapitre IV: Résultats







 

 

162

Chapitre IV: Résultats

 

  Figure 79: Grille de résultats pour la technique de ML utilisant l'algorithme RF. Les paramètres utilisés ici sont l’indicateur (*LQLHQWURSLHGH6KDQQRQ OHFDUDFWqUHDOpDWRLUHet le nombre d’estimateurs&H GHUQLHUHVWOHVHXOSDUDPqWUHYDULDEOHGHFHWWHWHFKQLTXH/HQRPEUHGHFRPELQDLVRQVSRVVLEOHVDXJPHQWHQWVLJQLILFDWLYHPHQW avec le nombre d’estimateurs jusqu’à un nombre critique de sousensemble d’arbres crées. En effet, lH QRPEUH GH FRPELQDLVRQVGLPLQXHDXGHOjGHHVWLPDWHXUV  En testant un nombre d’estimateurs de 10, 50, 100, 200, 300 et 400, nous nous sommes UHQGXVcompte qu’audelà d’un certain nRPEUHFULWLTXHGHVRXVensemble d’arbres créés, les UpVXOWDWV GH prédiction cessent de s’améliorer significativement et la précision diminue à nouveau. Ce nombre critique a été déterminé à 300 estimateurs pour la méthode d’ensemble utilisant l’algorithme RF. Ce nombre critique de 300 correspond à la taille des sousHQVHPEOHV aléatoires de caractéristiques à prendre en compte lors de la division d'un nœud. (QHIIHWDXGHVVXVHWHQGHVVRXVGHHVWLPDWHXUVVHXOHPHQWHWFRPELQDLVRQV VRQWREWHQXHVFRQWUDLUHPHQWDX[DYHFHVWLPDWHXUV  'HSOXVQRXVSRXYRQs voir qu’à 300 estimateurs plusieurs larges zones de l’espace sont SUpVHQWHVSHUPHWWDQWGHJDUDQWLUODUREXVWHVVHGHODWHFKQLTXH )LJXUH  

163

Chapitre IV: Résultats

  Figure 80: Zones larges de l'espace pour la technique utilisant l'algorithme RF.   $OJRULWKPH([WUD7UHHV Ce qui distingue l’algorithme Bagging ExtraTrees du RF est SUHPLqUHPHQW TXH l’ensemble des données utilisées pour générer un sousensemble n’est pas FRQVHUYpORUVGHOD IRUPDtion d’un autre sousensemble. Il n’y a pas de réutilisation des données une fois qu’elles ont été utilisées dans la formation d’un arbre. Le paramètre «%RRWVWUDSªHVWGRQFSODFpVXU ©)DX[ª Deuxièmement, la meilleure séparation à un nœud est faite de manière aléatoire ce qui n’était pas le cas pour l’algorithme RF basé sur un critère d’arrêt. Ainsi, pour un sous ensemble formé, la séparation à un nœud est faite de PDQLqUHDOpDWRLUHHWFKRLVLHFRPPHUqJOH de fractionnement pour l’ensemble de l’arbre.   0LVjSDUWOHVGHX[SDUDPqWUHVSUpFpGHQWVOHVPrPHVSDUDPqWUHVTXHFHX[XWLOLVpVSDUOD 5)RQWpWpWHVWpVHWOHVPrPHVSDUDPqWUHVSDUGpIDXWRQWpWpJDUGpV  Voici les résultats que nous avons obtenus avec l’algorithme ExtraTrees utilisant VRLW l’indice de *LQL )LJXUH soit l’HQWURSLHGH6KDQQRQ )LJXUH HQIRQFWLRQGXQRPEUH d’estimateurs (nombre d’arbres générés pour chaque sousHQVHPEOH 



164

Chapitre IV: Résultats





 Figure 81: Technique de ML utilisant l'algorithme ExtraTrees avec l’indice de Gini. 

165

Chapitre IV: Résultats







 

166

Chapitre IV: Résultats

 Figure 82: Technique de ML utilisant l'algorithme ExtraTrees avec l’entropie de Shannon.  Cette technique de Machine Learning montre en tout premier lieu qu’elle surpasse de très loin l’ensemble des autres techniques. En effet, nous passons d’un nombre de combinaisons SRVVLEOHV GH  SRXU OHV DUEUHV GH GpFLVLRQV HW GH  SRXU OD WHFKQLTXH XWLOLVDQW OH 5) j environ 223 pour la technique utilisant l’ExtraTrees.   Nous voyons qu’à la fois en utilisant l’indice de Gini ou l’entropie de Shannon, le nombre GH FRQILJXUDWLRQV SRVVLEOHV DXJPHQWH avec le nombre d’estimateurs. AuGHOj GH  HVWLPDWHXUVOHQRPEUHGHFRQILJXUDWLRQVGLPLQXHjQRXYHDXPRQWUDQWFRPPHODWHFKQLTXHGH 5)qu’audelà d’un FHUWDLQQRPEUHFULWLTXHGHVRXVHQVHPEOHVd’arbres créés, les résultats de prédiction cessent de s’améliorer significativement. Ce nombre critique est GHHVWLPDWHXUV SRXUODWHFKQLTXHGH0/XWilisant l’algorithme ExtraTrees  De plus, nous pouvons voir qu’il y a un nombre de combinaisons possibles légèrement supérieur avec l’indice de Gini.  8QWUqVJUDQGQRPEUHGH]RQHVODUJHVGHl’espace sont présentes SHUPHWWDQWGHJDUDQWLUOD UREXVWHVVHGHODWHFKQLTXH  $OJRULWKPH%RRVWLQJ Le principe de base de l’algorithme de Boosting AdaBoost HVW GH JpQpUHU GLIIpUHQWHV GLVWULEXWLRQVGHVGRQQpHVSXLVGHPRGLILHUGHPDQLqUHDGDSWDWLYHFHVGLVWULEXWLRQVHQDMXVWDQW OHSRLGVGHVDSSUHQDQWVIDLEOHVHWIRUWV,OIDXWDORUVDXJPHQWHUOHSRLGVGHVSRLQWVTXLVRQWPDO FODVVpVHWGLPLQXHUOpJqUHPHQWOHSRLGVGHFHX[TXLVRQWFRUUHFWHPHQWFODVVpV$LQVLDXIXUHW jPHVXUHOHVH[HPSOHVGLIILFLOHVjSUpGLUHUHoRLYHQWXQHLQIOXHQFHWRXMRXUVSOXVJUDQGH&HOD SHUPHWGHFRQYHUWLUGHVDSSUHQDQWVIDLEOHVHQDSSUHQDQWVIRUWVHWJUkFHjXQYRWHPDMRULWDLUH GHIRUPHUXQHGLVWULEXWLRQILQDOHIRUWH  Contrairement aux réseaux de neurones et à la SVM, le processus d’apprentissage ne VpOHFWLRQQH TXH OHV FDUDFWpULVWLTXHV TXL DXJPHQWHQW OH SRXYRLU SUpGLFWLI &H TXL GLPLQXH considérablement le temps d’exécution.

167

Chapitre IV: Résultats

'LIIprents paramètres doivent être pris en compte pour l’algorithme AdaBoost DILQ GH SRXYRLUHIIHFWXHUODSUpGLFWLRQ

x /H QRPEUH GH GLVWULEXWLRQV JpQpUpHV GpILQL par le nombre d’estimateurs ©QBHVWLPDWRUVª

x Le caractère aléatoire de l’algorithme. /H taux d’apprentissage HW OH FKRL[ GH O’estimateur de base SUHPLqUH GLVWULEXWLRQ FRQVWUXLWH RQWpWpODLVVpVSDUGpIDXWLe taux d’apprentissage UpGXLWODFRQWULEXWLRQGHFKDTXH GLVWULEXWLRQ,OFRQWU{OHODFRQWULEXWLRQGHVDSSUHQDQWVIDLEOHVGDQVODFRPELQDLVRQILQDOH&H SDUDPqWUHSDUGpIDXWSHUPHWXQDSSUHQWLVVDJHRSWLPLVpGHODPpWKRGH  3DUDPqWUHVIL[pV De même qu’avec les arbres de décisions et les méthodes d’ensemble utilisant un DOJRULWKPH %DJJLQJ XQ FRPSRUWHPHQW GpWHUPLQLVWH HVW QpFHVVDLUH /H SDUDPqWUH ©UDQGRPBVWDWHªHVWSODFpVXU©1RQHª  5pVXOWDWVREWHQXV 9RLFL OHV UpVXOWDWV TXH QRXV DYRQV REWHnus avec l’algorithme AdaBoost en fonction du nombre d’estimateurs (nombre de distributions générées) ()LJXUH  



 

168

Chapitre IV: Résultats



 Figure 83: Grille de résultats pour la technique de ML utilisant l'algorithme AdaBoost.  'H nombreuses configurations sont possibles et la meilleure d’entre elles est celle SURSRVDQWGLVWULEXWLRQVJpQpUpHV(QHIIHWLO\DFRPELQDLVRQVSRVVLEOHVFRQGXLVDQWj XQH SUpGLFWLRQ FRUUHFWH &HSHQGDQW FHW DOJRULWKPH QH VXUSDVVH SDV OD WHFKQLTXH XWLOLVDQW l’ExtraTrees.  )LQDOHPHQW OHV DUEUHV GH GpFLVLRQV VLPSOHV $GD%RRVW HW 5) GRQQHQW GH ELHQ PHLOOHXUV UpVXOWDWVTXHOHV$11HWOD690PDLVUHVWHQWHQFRUHLQDGpTXDWV/HVUpVXOWDWVVRXOLJQHQWTXH OD PHLOOHXUH WHFKQLTXH GH 0DFKLQH /HDUQLQJ HVW VDQV pTXLYRTXH OD WHFKQLTXH XWLOLVDQW OD méthode d’ensemble avec l’algorithme ExtraTrees. Elle permet d’obtenir un grand nombre de FRPELQDLVRQVSRVVLEOHVGHSUpGLFWLRQVILDEOHV$LQVL  %RRVWLQJ([WUD7UHHV!%RRVWLQJ5)!%DJJLQJ!$UEUHGHGpFLVLRQVVLPSOH 169

Chapitre IV: Résultats

 /HVPHLOOHXUVSDUDPqWUHVGHSUpGLFWLRQ $FHVWDGHQRXVDYRQVGpWHUPLQpTXHOOHpWDLWODPHLOOHXUHWHFKQLTXHGH0DFKLQH/HDUQLQJ à effectuer à la suite d’R.Mo.S pour obtenir une prédiction correcte des 21 molécules de la EDVHGHWHVW  1RXV DYRQV WHVWp j QRXYHDX l’ensemble des paramètres de similarité et du nombre de molécules sélectionnées avec la meilleure technique de ML (méthode d’ensemble utilisant l’algorithme ExtraTrees) déterminée à l’étape précédente, sur l’ensemble de la base de GRQQpHVWHVW SODVWLILDQWVR[\GDQWVVWDELOLVDQWVOLTXLGHVHWS\URWHFKQLHV  7DEOHDX 1RXV DYRQV DMRXWp GDQV OHV SDUDPqWUHV GH OD WHFKQLTXH GH 0/ OH QRPEUH GH FDUDFWpULVWLTXHV ©PD[BIHDWXUHV») qui n’avait pas été pris en compte précédemment. 1RXVSRXYRQVYRLUTXH l’ensembOHGHVPROpFXOHVGHODEDVHGHWHVWVRQWSUpGLWHVFRUUHFWHPHQW GRQWGHX[PROpFXOHV GRXWHXVHV   Le nombre de caractéristiques n’a pas été utilisé lors de la détermination de la meilleure technique de Machine Learning. En effet, c’est un paramètre très sélectif qui, s’il était utilisé HQSUHPLqUHLQWHQWLRQDXUDLWpOLPLQppQRUPpPHQWGHSDUDPqWUHVSRVVLEOHVHWDXUDLWUHQGXOD comparaison des techniques bien plus compliquée. C’est pourquoi elle est utilisée ici (en deuxième intention) afin d’affiner la zone d’occurrence et la rendre la plus précise possible.  /HVPHLOOHXUHVYDOHXUVGHSDUDPqWUHVVRQWVRXYHQWYDOLGpHVSDUUHFRXSHPHQW$LQVLQRXV avons identifié la zone d’occurrence pour laquelle la technique de Machine Learning aboutit à XQHSUpGLFWLRQFRUUecte des 61 molécules pour le test d’Ames. La zone d’occurrence optimale ILQDOHHVWVLWXpHjXQHVLPLODULWpGHDYHFXQQRPEUHGHPROpFXOHVFRPSULVHQWUHHW 425. Les paramètres de la technique de Machine Learning permettant d’aboutir ensuite à une SUpGLFWLRQFRUUHFWHTXHOTXHVRLWOHW\SHGHPROpFXOHVRQWLQGLFDWHXUV*LQLPD[BIHDWXUHV VTUWUDQGRPBVWDWH1RQH%RRWVWUDS7UXH $LQVLjGHVLPLODULWpDYHFPROpFXOHVVpOHFWLRQQpHVSDU50R6GDQVODEDVHGH données totale du test d’APHVODWHFKQLTXHGH0/SHUPHWWDQWODSUpGLFWLRQGHODWR[LFLWpGH PROpFXOHVVHUDFRUUHFWH  5DSSHORQVTXHSUpFpGHPPHQW FKDS,,46$5RQWKHIO\ QRXVDYRQVGpILQLXQHQRXYHOOH ]RQH SRXU ODTXHOOH OH V\VWqPH SUpGLFWLI SUpIqUH QH SDV VH SURQRQFHU HW QH SDV SUHQGUH GH GpFLVLRQ FRQFHUQDQW OH UpVXOWDW GH SUpGLFWLRQ GH OD PROpFXOH OD ]RQH GRXWHXVH &HWWH ]RQH SHUPHWGHSUHQGUHHQFRPSWHOHVYDULDWLRQVGXHVDX[IDX[SRVLWLIVDX[IDX[QpJDWLIVRXjOD YDULDELOLWpGHODWHFKQLTXHGHSUpGLFWLRQXWLOLVpH 'DQs le chapitre II, cette zone douteuse, avec la technique de l’OTF46$5DpWpGpILQLH HQWUH  HW  &HSHQGDQW FHWWH ]RQH GRXWHXVH D pWp UpGXLWH(QHIIHWFHWWH]RQHHVW EHDXFRXSWURSVpOHFWLYHHWQRXVIRXUQLVVDLWTXHWURSSHXGHGRQQpHVGHSUpGLFWLRQV&RPPHOH système prédictif est maintenant plus fiable, il n’a donc plus besoin d’avoir une marge d’erreur aussi large. Cette zone a été définie entre 0,4 et 0,6. Elle reste suffisamment large

170

Chapitre IV: Résultats pour que le système prédictif possède une grande capacité de discrimination des molécules mutagènes et non mutagènes. 



 Tableau 10: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test d’Ames. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQHHW©» qu’elle HVWQRQPXWDJqQH 

171

Chapitre IV: Résultats

La dernière étape a été d’exécuter OD FRPELQDLVRQ RSWLPDOH 7   *LQL  VTUW   HVWLPDWHXUV  VXU XQH EDVH GH YDOLGDWLRQ DILQ GH JDUDQWLU OD TXDOLWp GX V\VWqPH 1RXV DYRQV pJDOHPHQW HIIHFWXp XQH pYDOXDWLRQ GX V\VWqPH SUpGLFWLI HQ FRPSDUDQW QRV UpVXOWDWV REWHQXV DYHFFHX[GRQQpVSDUOHORJLFLHO$&'3HUFHSWDTXLHVWXQHUpIpUHQFHHQPDWLqUHGHSUpGLFWLRQ GDQVODFRPPXQDXWpVFLHQWLILTXH 7DEOHDX  

 Tableau 11: Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test d’Ames utilisant notre système prédictif. ©ª VLJQLILH TXH OD PROpFXOH HVW PXWDJqQH ©» qu’elle HVW QRQ PXWDJqQH HW ©» qu’aucune prédiction n’est possible. 50R6QHVpOHFWLRQQHDXFXQHPROpFXOHVVLPLODLUHVjODPROpFXOHFLEOHDYHFXQSRXUFHQWDJHGHVLPLODULWpGH

172

Chapitre IV: Résultats

Nous avons recommencé l’intégralité des étapes d’R.Mo.S, de Machine Learning et de validation sur l’ensemble des tests de la catégorie mutagénicité (Test CA, test MLA, test UDS, test DLT), de la catégorie carcinogénicité et de la catégorie reprotoxicité. Voici les paramètres que nous avons utilisés pour chaque test (Tableau 12): Test Test  Test CA Test MLA Test UDS Test DLT Carcinogénicité Reprotoxicité Meilleure ExtraTrees ExtraTrees ExtraTrees ExtraTrees ExtraTrees ExtraTrees technique

Similarité 0,68 0,76 0,63 0,65 0,7 0,66 Nombre de molécules 325 175 450 40 150 80 sélectionnées Indicateur Gini Entropie Gini Gini Gini Gini

Nombre 200 200 200 200 200 200 d’estimateurs

Max_features None None None Log2 Log2 Log2

Random_state None None None None None None

Tableau 12: Tableau récapitulatif de l'ensemble des données utilisées par le système prédictif pour chacun des tests toxicologiques.  Et voici les données que nous avons obtenues (Tableau 13, 14, 15, 16, 17, 18, 19, 20, 21, 22,23 et 24): 

 Tableau 13: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test d’aberrations chromosomiques. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQHHW©» qu’elle est non mutagène. 173

Chapitre IV: Résultats

 Tableau 14: Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test d’aberrations chromosomiques utilisant notre système prédictif. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQH©» qu’elle est non mutagène 

  Tableau 15: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test MLA. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQHHW©ªqu’elle est non mutagène.

174

Chapitre IV: Résultats

 Tableau 16: Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test MLA utilisant notre système prédictif. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQH©» qu’elle est non PXWDJqQH 

 Tableau 17: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test UDS. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQHHW©» qu’elle est non mutagène.     

175

Chapitre IV: Résultats

 Tableau 18: Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test UDS utilisant notre système prédictif. ©ª VLJQLILH TXH OD PROpFXOH HVW PXWDJqQH ©» qu’elle est non mutagène et «» qu’aucune prédiction n’est possible. 50R6QHVpOHFWLRQQHDXFXQHPROpFXOHVVLPLODLUHVjODPROpFXOHFLEOHDYHFXQSRXUFHQWDJHGHVLPLODULWpGH 

 Tableau 19: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test DLT. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQHHW©» qu’elle est non mutagène.    

176

Chapitre IV: Résultats

 Tableau 20: Résultats de la base de validation du test DLT utilisant notre système prédictif. Le logiciel ACD/Percepta ne fournit pas de résultat concernant le test DLT. ©ª VLJQLILH TXH OD PROpFXOH HVW PXWDJqQH ©» qu’elle est non mutagène et «» qu’aucune prédiction n’est possible. R.Mo.S ne sélectionne aucune PROpFXOHVVLPLODLUHVjODPROpFXOHFLEOHDYHFXQSRXUFHQWDJHGHVLPLODULWpGH 

 Tableau 21: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test de carcinogénicité. ©ªVLJQLILHTXHODPROpFXOHHVWPXWDJqQHHW©» qu’elle est non mutagène.      

177

Chapitre IV: Résultats

 Tableau 22: Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test de carcinogénicité utilisant notre système prédictif ©ª VLJQLILH TXH OD PROpFXOH HVW PXWDJqQH ©» qu’elle est non mutagène et «» qu’aucune prédiction n’est possible. 50R6QHVpOHFWLRQQHDXFXQHPROpFXOHVVLPLODLUHVjODPROpFXOHFLEOHDYHFXQSRXUFHQWDJHGHVLPLODULWpGH 

178

Chapitre IV: Résultats

 Tableau 23: Tableaux récapitulatifs des molécules HEMs de la base de test pour le test de reprotoxicité. 

 Tableau 24: Résultats comparaison du logiciel ACD/Percepta avec la base de validation du test de reprotoxicité utilisant notre système prédictif 179

Chapitre IV: Résultats

Il est important de mentionner que la base de données de reprotoxicité crée et utilisée pour la prédiction contenait essentiellement des molécules mutagènes. Ne contenant pas suffisamment de molécules non mutagènes, les molécules tests ou cibles étaient alors toutes prédites reprotoxiques même des molécules telles que l’eau ou l’éthanol. Il était donc nécessaire de rajouter des molécules non reprotoxiques dans la base de données.   La première idée a été de reprendre les bases de données initiales (CGX, ISSTOX, JRC QSAR…) et de vérifier si de nouvelles données avaient été mises à jour. En effet, récupérer des informations complémentaires dans ces bases de données permettrait de garantir une harmonisation des données. Cela a été le cas pour la base de données JRC QSAR qui contient maintenant 147 documents accessibles (au lieu des 93 jusqu’à présent) dont un concernant la reprotoxicité. Le document Q174160041 concernant la toxicité du développement prénatal a donc été récupéré et ajouté à la base de données de reprotoxicité initiale.  De plus, un tableau (au format Excel), proposé par l’INRS, recense de manière harmonisée des substances classées CMR associées à leur catégorie (1A: CMR avéré, 1B: CMR supposé et 2: CMR suspecté) (http://www.inrs.fr/actualites/tableaucmr.html). Il est bien évident que nous n’avons retenu que les molécules classées en catégorie 1A (avérée) afin de ne pas fausser la base de données ou les résultats.  Ainsi, d’une base de données contenant essentiellement des molécules reprotoxiques (341 sur 379 molécules), nous sommes passé à une base de données de 511 molécules contenant un équilibre (1/3; 2/3) de molécules reprotoxiques et non reprotoxiques.  Voici le tableau récapitulatif de l’ensemble des données obtenues par le système prédictif sur la base de test, la base de validation ainsi que les données obtenues avec le logiciel ACD/Percepta (Tableau 25):   Base de test Base de Validation ACD/Percepta Test d’Ames 59/61 39/45 39/45 (dont 1 impossible) (dont 2 impossibles) Test CA 26/30 22/22 16/22 (dont 1 impossible) Test MLA 16/18 15/15 14/15

Test UDS 15/16 17/25 11/25 (dont 2 impossibles) Test DLT 13/16 11/12 IRRÉALISABLE (dont 1 impossible) Test Carcinogénicité 30/32 34/38 19/38 (dont 5 impossibles) Test Reprotoxicité 18/21 23/27 1/27 Nombre de bonnes 177/194 161/184 100/184 réponses  Pourcentage (%) de 91,2 87,5 54,4 bonnes réponses Tableau 25: Tableau récapitulatif des données. 180

Chapitre IV: Résultats

En définissant la zone douteuse entre 0,4 et 0,6, nous pouvoir voir que (mis à part quelques molécules prédites douteuses (17/194)) l’ensemble des molécules de la base de test sont correctement prédites.   En ce qui concerne la base de validation, nous avons deux tests (CA et MLA) dont les molécules sont toutes prédites correctement. Les deux tests Ames et DLT possèdent une molécule impossible à prédire. Avec notre système prédictif, une molécule impossible est, en réalité, une molécule où R.Mo.S n’a pas trouvé de molécule similaire à cette molécule ci dans la base de données. La prédiction n’est donc pas faisable. Dans ce cas, un enrichissement de la base de données peut être une solution convenable ou de procéder au test suivant dans la réglementation pour avoir des informations complémentaires sur cette molécule.  ACD/Percepta ne permet pas la prédiction du test DLT. En effet, ce test ne fait pas parti des tests effectués par ce logiciel. La prédiction est tout bonnement irréalisable. De nombreuses molécules sont impossibles à prédire. Dans ce cas, cela peut être dû au fait que la molécule est inorganique. En effet ACD/Percepta n’effectue de prédiction sur les molécules inorganiques. Aucune donnée n’est fournie lorsque la molécule est organique mais impossible à prédire. Le résultat de test le plus marquant est celui de la reprotoxicité. En effet, ACD/Percepta ne parvient à prédire qu’une seule molécule correctement sur les 27 demandées.  En conclusion de ce chapitre, nous voyons clairement que notre système prédictif est bien meilleur que le logiciel ACD/Percepta couramment utilisé dans la littérature ou par la communauté scientifique. En effet, en plus de ne pas être capable de prédire la toxicité des molécules inorganiques, le logiciel ACD/Percepta fait de nombreuses erreurs de prédictions.  Notre système prédictif donne un pourcentage de bonnes réponses de 91,2% pour la base de test et de 87,5% pour la base de validation contre 54,4%. Pour le logiciel ACD/Percepta.   

   

181



                      Chapitre V: Workflow &KDSLWUH9:RUNIORZ                        

Chapitre V: Workflow

&H FKDSLWUH HVW FRQVDFUp DX GpYHORSSHPHQW UDWLRQQHO GH QRXYHOOHV PROpFXOHV KDXWHPHQW pQHUJpWLTXHVHWSHUPHWWUDGHFRQFOXUHVXUODVWUDWpJLHJOREDOHGHODWKqVH(OOHPHWWUDHQDYDQW ODVXLWHGHVWkFKHVjGHYRLUHIIHFWXHU RX:RUNIORZHQDQJODLV SRXUGpYHORSSHUGHQRXYHOOHV PROpFXOHVHQFRUHLQFRQQXHVVXUOHPDUFKpHWVXUWRXWIRXUQLUj$6/OHVFDQGLGDWV+(0VOHV SOXVSURPHWWHXUV

Introduction

Ce Workflow est constitué de deux parties distinctes: la génération de molécules et leurs filtrations. Nous avons assemblé les modules précédents (tests CMR, R.Mo.S, Machine Learning…) et, associées à de nouveaux modules que je vais vous décrire dans la suite de ce chapitre (génération et traitement de structures, détermination d’enthalpie de formation etc), cela permettra d’aboutir à la conception de nouvelles molécules réglementaires et énergétiques.   /HSURMHWGRQWODVWUDWpJLHHVWVFKpPDWLVpHVXUOD)LJXUHGXSUpDPEXOH S), s’appuie sur les étapes clefs de la conception d’une molécule  ODJpQpUDWLRQDXWRPDWLTXHGHVWUXFWXUHV chimiques 2D puis 3D, (2) l’évaluation de l’enthalpie de formation et enfin, (3) la prédiction GHVSURSULpWpV&05  1RXV DYRQV TXHOTXH SHX HQULFKL ces étapes pour s’assurer d’une conception optimisée )LJXUH  

 Figure 84: Etapes clefs enrichies de la conception d'une molécule.  L’ensemble des étapes clefs seront LQWpJUpHV HW FRQQHFWpHV SDU GLIIpUHQWV VFULSWV YLD OH ODQJDJH3\WKRQDILQGHSRXYRLUWUDLWHUXQJUDQGQRPEUHGHPROpFXOHVGHIDoRQDXWRPDWLTXH &HFLSHUPHWWUDla création d’un pipeline.

*pQpUDWLRQH[KDXVWLYH

/D JpQpUDWLRQ H[KDXVWLYH GH OD FRQQHFWLTXH GHV DWRPHV D pWp FKRLVLH GDQV FH SURMHW /H SURJUDPPH 02/*(1 02/HFXODU VWUXFWXUH *(1HUDWLRQ  HVW XWLOLVp SHUPHWWDQW DLQVL GH

183

Chapitre V: Workflow  JpQpUHUWRXWHVOHVVWUXFWXUHVSRVVLEOHV FRQQHFWLYLWpLVRPqUHVFRQVWLWXWLRQV FRUUHVSRQGDQWj une formule brute donnée, contenant les quatre atomes principaux d’un HEM&[+\1]2W L’avantage de ce type de programme est d’essayer n’importe TXHOOHVWUXFWXUHFKLPLTXHHW donc d’explorer de larges possibilités.  $6/ QRXV D IRXUQL TXDWUH IRUPXOHV EUXWHV GH PROpFXOHV +(0V GpMj H[LVWDQWHV GRQW LO YRXGUDLWVHUDSSURFKHUSRXUOHVIXWXUHVPROpFXOHV+(0VOHVSOXVSURPHWWHXVHV &HVTXDWUHIRUPXOHVEUXWHVGHPROpFXOHV+(0VVRQWOHVVXLYDQWHV )LJXUH      2 2 2 2  2   1 1  2 2 1 2 2   1 1 1  2 2 &+12 1 &+12 1 1  2 1 + +  2  2 1  2 2 1 2  2  1 2 1  2   1 2 1 &12 &12  1  2 1  2 2 2  Figure 85: Formules brutes fournies par ASL.  ¬SDUWLUGHFHVTXDWUHIRUPXOHVEUXWHVQRXVHQDYRQVGpGXLWXQHIRUPXOHEUXWHjJpQpUHU GDQV02/*(1  ଷି଺ ଵି଺ଵି଺ଵି଺  8Q FHUWDLQ QRPEUH GH FRQWUDLQWHV RQW pWp UDMRXWpHV j OD IRUPXOHEUXWHLQLWLDOHDILQGH garantir le respect des règles de valence ainsi qu’un maximum de PROpFXOHVH[SORVLYHVGDQV la liste des structures fournies par MOLGEN. Dans notre cas, il s’agit x pas d’atome métallique x SDVGHUDGLFDX[ x SDVGHOLDLVRQSpUR[\GH RRR  H[WUrPHPHQWLQVWDEOHV  x SDVGHOLDLVRQ1111 x SDVGHOLDLVRQ121212 x XQHEDODQFHHQR[\JqQHFRPSULVHHQWUHHW x une masse moléculaire d’un minimum de 600g/mol

2 Une balance en oxygène est la masse d'oxygène restant après l'oxydation du carbone en CO2 et de l'hydrogène en vapeur d'eau. C'est une valeur qui s'exprime en % en divisant cette masse d'oxygène par la masse molaire de la molécule. Elle sert à équilibrer les compositions de formulation.

184

Chapitre V: Workflow  x XQQRPEUHGHF\FOHDURPDWLTXHFRPSULVHQWUHHW x XQnombre d’atomes dans le cycle aromatique FRPSULVHQWUHHW x XQQRPEUe d’atome d’azote et d’oxygène égalj

5HPSODFHPHQWGHVJURXSHPHQWV12

L’énergie d’un HEMs est essentiellement stockée dans sHVF\FOHVK\SHUWHQGXVRXGDQVVHV

JURXSHPHQWVQLWUR 12 ,OQRXVDpWpau départ difficile d’obtenir un nombre de molécules

UDLVRQQDEOHV FRQWHQDQW GHV JURXSHPHQWV 12 ORUVTXH OD IRUPXOH EUXWH pWDLW DSSOLTXpH GDQV 02/*(1(QHIIHWODYDOHQFHGHVJURXSHPHQWVQLWUROHXUHPSODFHPHQWGDQVOHVVWUXFWXUHV DLQVL TXH OHV PROpFXOHV HQ HOOHVPêmes n’étaient pas satisfaisantV La conception de MOLGEN, nous a obligé à développer une stratégie de remplacement. $LQVLDILQGHJDUDQWLU OHV FRQWUDLQWHV GH OD PROpFXOH OD YDOHQFH GH FKDTXH DWRPH DLQVL TXH GHV PROpFXOHV QH

FRQWHQDQWTXHGHVDtomes d’oxygènes dans les JURXSHPHQWV12QRXVDYRQVUHPSODFpGDQV

ODIRUPXOe initiale les atomes d’oxygèneVSDUGHVJURXSHPHQWV12Notre formule a donc été définie comme la suivante:   ଷି଺ ଵି଺ଵି଺ሺଶሻଵି଺  &HSHQGDQW OD WDLOOH GX ILFKLHU GH VRUWLH pWDLW HQFRUH ELHQ WURS LPSRUWDQWH (Q HIIHW HQ garantissant un nombre d’atome d’azote et de groupements NOpJDOjFRPPHpQRQFpGDQV la liste des contraintes, la combinatoire n’est pas la même si nous avons 1 atome d’azote et 

JURXSHPHQWV 12 RX LQYHUVHPHQW  DWRPHV d’azote et  JURXSHPHQW 12 /H QRPEUH GH

JURXSHPHQWV12FRQWHQXHQWUHHWIRXUQLWainsi un nombre d’atomes SRXYDQWDOOHUGHj IDLVDQWDORUVH[SORVHUODFRPELQDWRLUH  $ILQ GH UpGXLUH GUDVWLTXHPHQW OD FRPELQDWRLUH JpQpUpH SDU 02/*(1 QRXV DYRQV

UHPSODFpGDQVODIRUPXOHEUXWHLQLWLDOHOHVJURXSHPHQWV12SDUGHVDWRPHVGHFKORUH &O   ଷି଺ ଵି଺ଵି଺Žଵି଺  En effet, l’atome de chlore eVt monovalent et ne peut former qu’une seule liaison FRYDOHQWH&HWWHFDUDFWpULVWLTXHQRXVSHUPHWDORUVGHQRXVUDSSURFKHUGHPROpFXOHVFRQWHQDQW

GHV JURXSHPHQWV 12liés au motif central GH OD PROpFXOH +(0V par des liaisons simples )LQDOHPHQWOHUHPSODFHPHQWGHWURLVDWRPHV XQd’D]RWHHWGHX[d’oxygène SDUXQDWRPHGH chlore, nous a permis d’obtenir XQHFRPELQDWRLUHFRQYHQDEOHHWXQHWDLOOHGHILFKLHUGHVRUWLH VDWLVIDLVDQWH  /RUVGHFHWWHSKDVHGHJpQpUDWLRQH[KDXVWLYHGHWRXWHVOHVVWUXFWXUHVSRVVLEOHVjSDUWLUGHOD VWUXFWXUH EUXWH pQRQFpH SOXV KDXW 02/*(1 D UpXVVL j JpQpUHU SUqV GH  PLOOLRQV GH PROpFXOHV   &HWWHOLEUDLULHGH PROpFXOHVHVW REWHQXHVRXV XQIRUPDWFRQQXGHV EDVHVGHGRQQpHVGHVWUXFWXUHVFKLPLTXHV VGI PDLVVDQVJpRPpWULHSDUWLFXOLqUH

185

Chapitre V: Workflow   /H ILFKLHU pWDQW GH SUqV GH *R QRXV DYRQV G€ OH GpFRXSHU HQ ILFKLHUV GH  molécules chacun (le dernier n’en contenant que 19 

5HPSODFHPHQWGHVDWRPHVGHFKORUHGDQVXQILFKLHU60,/(6

/DSUHPLqUHDFWLRQHIIHFWXpHORUVGHODUpFXSpUDWLRQGHFHVILFKLHUVDpWpGHUHPSODFHUOHV

DWRPHVGHFKORUHSDUOHVJURXSHPHQWV12LQLWLDX[3RXUFHODOHVILFKLHUVDXIRUPDWVGIRQW pWp WUDQVIRUPpV HQ IRUPDW 60,/(6 FKDTXH DWRPH GH FKORUH D HQVXLWH pWp UHPSODFp SDU OD IRUPXOH60,/(6VXLYDQWH1 2 2 HWHQILQUpWDEOLDXIRUPDWVGI

*pQpUDWLRQGHVWUXFWXUHV'&25,1$

&25,1$ &2R5G,1$WHV  HVW XQ SURJUDPPH SDU OLJQH GH FRPPDQGH TXLJpQqUHGHV VWUXFWXUHV'GHKDXWHTXDOLWpGHPDQLqUHUDSLGHHWSXLVVDQWH/DSRUWpHGHFHSURJUDPPHVD ILDELOLWp HW VD UREXVWHVVH DLQVL TXH FHUWDLQHV FDUDFWpULVWLTXHV VSpFLDOHV WLHQW FRPSWH GHV LQIRUPDWLRQV VWpUpRFKLPLTXHV JpQqUH GHV VWpUpRLVRPqUHV GpILQLV WUDLWH OHV VWUXFWXUHV FRQWHQDQW GHV DWRPHV D\DQW MXVTX j VL[ YRLVLQV YpULILH TXH OD FRQVWUXFWLRQ GHV OLDLVRQV HVW FRUUHFWH OHUHQGHQWH[WUrPHPHQWXWLOHSRXUWRXWHpWXGHQpFHVVLWDQWGHVLQIRUPDWLRQV'VXU OHVPROpFXOHVpWXGLpHV&25,1$HVWGHYHQXXQVWDQGDUGGDQVOHPRQGHHQWLHU 'H FH IDLW OHV  PLOOLRQV GH VWUXFWXUHV SURGXLWHV SDU 02/*(1 VRQW WUDQVIRUPpHV HQ VWUXFWXUHV'SDU&25,1$  &HSHQGDQW j FDXVH GH VWUXFWXUHV WURS DEHUUDQWHV HW WURS LQVWDEOHV &25,1$ D H[FOX GH PDQLqUHDXWRPDWLTXHPLOOLRQVGHPROpFXOHV  $LQVL SDUPL OHV  PLOOLRQV GH VWUXFWXUHV SURGXLWHV SDU 02/*(1 HW WUDQVIRUPpHV HQ VWUXFWXUHV'SDU&25,1$VHXOHVPLOOLRQVRQWpWpFRQVHUYpHV  

2SWLPLVDWLRQHWPLQLPLVDWLRQ

L’objectif LFLest d’effectuer une minimisation énergétique afin d’obtenir une structure 3D FRUUHFWHHWVWDEOHJpRPpWULTXHPHQWJUkFHjODPRGpOLVDWLRQPROpFXODLUH  /HEXWHVWGHFRPPHQFHUjILOWUHUOHVPLOOLRQVGHPROpFXOHVDILQGHQHUHWHQLUTXHOHV FDQGLGDWVTXLVHURQWVWDEOHVFKLPLTXHPHQWKDXWHPHQWpQHUJpWLTXHVHWQRQWR[LTXHV  3RXU ILOWUHU OHV PROpFXOHV VXU OHXU WR[LFLWp PROpFXOHV QRQ &05  QRXV DYRQV HPSOR\p FRPPHPRGXOHQRWUHV\VWqPHSUpGLFWLI 50R60DFKLQH/HDUQLQJ  0DLVDYDQWDfin de filtrer les molécules de manière plus drastique, d’autres modules ont pWpPLVHQSODFHGRQWQRWDPPHQWun module d’optimisationJpRPpWULTXHGHVPROpFXOHVDYHF XQHPpWKRGHTXDQWLTXHVHPLHPSLULTXH 

186

Chapitre V: Workflow  Nous avons souhaité disposer d’un temps de calcul limité par molécule ce qui a éliminé de facto la méthode DFT et ab initio. /HV VL[ PpWKRGHV TXDQWLTXHV OHV SOXV PRGHUQHV VRQW LPSOpPHQWpHV GDQV 023$& TXL HVW XQ ORJLFLHO GH FKLPLH TXDQWLTXH XWLOLVp SRXU OD PLQLPLVDWLRQ ZZZRSHQPRSDFQHW  Afin de déterminer la meilleure méthode, nRXV DYRQV évalué quatre d’entre elles303030HW50.  1RWre évaluation s’est basée sur OHFDOFXOGHODJpRPpWULHGHPROpFXOHV+(0V associées

à leurs variations d’enthalpie de formation en phase Gaz (ǻHf(g))GRQWQRXVDYRQVFRPSDUp OHVUpVXOWDWV à leurs valeurs de référence déterminées expérimentalement174OHVYLWHVVHVHWOD SUpFLVLRQ 7DEOHDX (QHIIHWGHVORJLFLHOVEDVpVVXUODFKLPLHTXDQWLTXHFRPPH023$& peuvent calculer, avec une très bonne cohérence expérimentale, la variation d’enthalSLH GH formation (ǻHI GHGLIIpUHQWHVPROpFXOHV  Erreur Name Hf(Exp) Hf(PM3) Hf(PM6) Hf(RM1) Hf(PM7) Hf(PM3) Hf(PM6) Hf(RM1) Hf(PM7) tetranitromethane 19,70 6,27 33,63 18,06 28,34 13,43 13,93 1,64 8,64 Fluorure de methyle -56,00 -53,82 -53,56 -52,89 -49,38 2,18 2,44 3,11 6,62 Nitromethane -17,80 -15,99 -16,31 -12,42 -17,19 1,81 1,49 5,38 0,61 nitrate de methyle -29,20 -32,48 -36,85 -28,43 -31,44 3,28 7,65 0,77 2,24 methylamine -5,50 -5,21 -2,40 -4,23 -3,43 0,29 3,10 1,27 2,07 cyanogene 73,30 77,44 74,16 73,23 71,49 4,14 0,86 0,07 1,81 nitroethane -24,50 -21,46 -21,69 -19,04 -22,66 3,04 2,81 5,46 1,84 nitrate d'ethyle -37,00 -38,04 -45,12 -35,52 -39,50 1,04 8,12 1,48 2,50 dimethylether -44,00 -48,35 -45,77 -45,11 -45,00 4,35 1,77 1,11 1,00 dimethylamine -4,40 -7,93 -3,08 -3,83 -4,25 3,53 1,32 0,57 0,15 nitroglycerine -66,70 -77,21 -99,63 -69,92 -82,34 10,51 32,93 3,22 15,64 propionaldehyde -45,10 -49,30 -42,31 -45,86 -45,81 4,20 2,79 0,76 0,71 npropylamine -16,70 -16,55 -13,45 -15,28 -14,18 0,15 3,25 1,42 2,52 isopropylamine -20,00 -18,78 -18,29 -19,29 -17,58 1,22 1,71 0,71 2,42 trimethylamine -5,70 -10,92 -4,44 -5,70 -6,19 5,22 1,26 0,00 0,49 terbuthylnitro -42,30 -32,35 -36,04 -36,41 -35,68 9,95 6,26 5,89 6,62 PETN -92,70 -96,90 -133,38 -92,58 -111,28 4,20 40,68 0,12 18,58 nitrobenzene 16,40 14,43 18,51 18,24 18,18 1,97 2,11 1,84 1,78 trinitrotoluene 5,80 3,16 9,03 12,62 10,78 2,64 3,23 6,82 4,98 cyanure d'hydrogene 31,50 32,94 33,24 30,54 29,85 1,44 1,74 0,96 1,65 acide nitrique -32,10 -38,06 -37,06 -32,64 -34,27 5,96 4,96 0,54 2,17 nitroforme -3,20 -4,79 9,32 6,40 7,82 1,59 12,52 9,60 11,02 dinitromethane -14,10 -9,88 -6,28 -3,40 -7,05 4,22 7,82 10,70 7,05 RDX 45,80 40,89 10,04 45,70 21,80 4,91 35,76 0,10 24,00 2-nitropropane -33,50 -27,21 -28,77 -27,34 -29,17 6,29 4,73 6,16 4,33 1-nitropropane -29,80 -26,85 -26,69 -24,07 -27,71 2,95 3,11 5,73 2,09 nitrate-n-propyl -41,60 -43,23 -49,79 -40,53 -44,47 1,63 8,19 1,07 2,87 nitrate isopropyl -45,60 -42,20 -53,15 -42,24 -47,34 3,40 7,55 3,36 1,74 1,4-dinitopiperazine 13,90 16,87 -5,38 18,40 4,47 2,97 19,28 4,50 9,43 HMX 59,90 65,84 19,75 70,82 35,71 5,94 40,15 10,92 24,19 1-nitrobutane -34,40 -32,23 -31,63 -29,04 -32,67 2,17 2,77 5,36 1,73 2-nitrobutane -39,10 -31,96 -33,93 -32,08 -34,32 7,14 5,17 7,02 4,78 1-nitropiperidine -10,60 -7,41 -17,74 -6,51 -12,23 3,19 7,14 4,09 1,63 m-nitroaniline 14,90 12,42 16,45 11,53 16,64 2,48 1,55 3,37 1,74 o-dinitrotoluene 7,90 1,90 5,81 9,59 7,04 6,00 2,09 1,69 0,86 p-nitrotoluene 7,40 4,56 7,19 8,37 7,55 2,84 0,21 0,97 0,15 nitroxylene 2,10 0,18 -0,77 2,01 0,44 1,92 2,87 0,09 1,66 fluorure nitrile -26,00 -25,65 -28,49 -17,89 -21,38 0,35 2,49 8,11 4,62 dinitrate-4,5-furanodimethanol 2,60 22,76 -10,85 19,43 -3,95 20,16 13,45 16,83 6,55

Moyenne 4,22 8,24 3,66 5,01  Tableau 26: Comparaison des quatre méthodes semiempiriques de MOPAC L’erreur est calculée par la valeur absolue de la différence entre le résultat expéULPHQWDOHWODYDOHXUFDOFXOpHSDUOHVTXDWUH PpWKRGHVVHPLHPSLULTXHVSRXUFKDTXHPROpFXOH+(0/DPR\HQQHGHVHUUHXUVHVWHQVXLWHFDOFXOpHDILQGHGpWHUPLQpHOD PHLOOHXUHWHFKQLTXH RUDQJH /H5';HWOH+0;PROpFXOHVOHVSOXVFRXUDPPHQWXWLOLVpHVGDQVOHGRPDLQHRQWVHUYL GH EDVHSRXUOHUpVXOWDWGHVTXDWUHPpWKRGHVVHPLHPSLULTXHV URXJH   187

Chapitre V: Workflow  Il s’est avérp TXH OD PpWKRGH XWLOLVDQW 50 HVW OD PHLOOHXUH (Q HIIHW FHWWH PpWKRGH SRVVqGHXQHHUUHXUGH“NFDOPRO  La méthode 50 permet ainsi d’obtenir une optimisation géométrique finale stable des molécules ainsi que son ǻHf.   $LQVLQRXVDYRQV GRQFHIIHFWXpXQHPLQLPLVDWLRQGHVPLOOLRQV GHPROpFXOHVDYHFOH ORJLFLHO023$&XWLOLVDQWODPpWKRGHVHPLHPSLULTXH50  Nous avons ainsi développé des scripts en langage Python qui ont automatisé les taches suivantes: /HV ILFKLHUV FRQWHQDQW OHV VWUXFWXUHV ' LVVXV GH &25,1$ VRQW H[SRUWpV GDQV %DEHO RSHQEDEHORUJ  TXL HVW XQ ORJLFLHO GH FRQYHUVLRQ GH IRUPDW GH ILFKLHUV GH VWUXFWXUHV FKLPLTXHV/HVILFKLHUVVRQWJUkFHj%DEHOFRQYHUWLVHQPRSDILQGHSRXYRLUSDUODVXLWH rWUHHQYR\pVGDQV023$& $SUqV PLQLPLVDWLRQ SDU 023$& OHV ILFKLHUV VRQW DX IRUPDW SGE ,OV VRQW GRQF retransformés par Babel en format .sdf afin d’être transférés à nouveau dans le fichier de VRUWLHGH&25,1$LQLWLDO,O\DDORUVGHX[SRVVLELOLWpV x 023$& D SHUPLV XQH RSWLPLVDWLRQ JpRPpWULTXH FRUUHFWH GH OD VWUXFWXUH HW FHWWH GHUQLqUHHVWFRQVHUYpHHWGRQFWUDQVIpUpHGDQVOHILFKLHUGHVRUWLHGH&25,1$ x MOPAC n’a pas permis une optimisation géoméWULTXHFRUUHFWHGHODVWUXFWXUHFHWWH dernière n’est pas conservée dans le fichier de sortie de CORINA (=éliminé).  $FHVWDGHXQHWUHQWDLQHGHVWUXFWXUHVGHPROpFXOHV+(0VSRWHQWLHOOHVRQWpWppOLPLQpHV VXUOHVPLOOLRQV  car MOPAC n’a pasUpXVVLjOHVRSWLPLVHU

)LOWUHGHVWDELOLWp

$ILQ GH ILOWUHU d’avantage OHV PROpFXOHV UHVWpHV VWDEOHV FKLPLTXHPHQW OD PDVVH PROpFXODLUHGHVPLOOLRQVGHVWUXFWXUHVREWHQXHVDYDQWHWDSUqVPLQLPLVDWLRQHWRSWLPLVDWLRQ JpRPpWULTXH D pWp FDOFXOpH /H FDOFXO GH OD PDVVH PROpFXODLUH HVW QpFHVVDLUH HW SULPRUGLDO SRXUODVXLWHGHVpWDSHVGHFRQFHSWLRQGHVIXWXUHVPROpFXOHV+(0VSRWHQWLHOOHV&HFDOFXOVH IDLWJUkFHDXORJLFLHO02(  3DU OD VXLWH OHV ILFKLHUV DX IRUPDW VGI RSWLPLVpHV SDU 50 RQW VXEL OHV FKDQJHPHQWV VXLYDQWV x Lavage des structures obtenues après l’étape de minimisation. Lors de la PLQLPLVDWLRQ FHUWDLQHV VWUXFWXUHV ELHQ TXH SRVVpGDQW XQH RSWLPLVDWLRQ JpRPpWULTXHFRUUHFWHRQWSXrWUHFDVVpHVFDUJpRPpWULTXHPHQWLQVWDEOHV/HEXWGH Fette étape est donc d’éliminer les IUDJPHQWVTXLDXUDLHQWpWpFRXSpVRXPRUFHOpVHW VHUDLHQWGHFHIDLWHQGHKRUVGHODVWUXFWXUHSULQFLSDOH&HWWHpWDSHSHUPHWGRQFGH Fonserver l’entité moléculaire la plus lourde.  x $MRXWOHVK\GURJqQHV 188

Chapitre V: Workflow  x &DOFXO GH OD PDVVH ILQDOH S’il existe une différence de masse entre la molécule LVVXHGH&25,1$(à l’étape 5) HWODPROpFXOHDSUqVRSWLPLVDWLRQ50(à l’étape 6) FHODVLJQLILHTXHODPROpFXOHn’est pas stable. En effet, elle a réagi chimiquement et VD VWUXFWXUH QH FRUUHVSRQG SOXV j OD IRUPXOH EUXWH GH GpSDUW LQLWLDOLVpH GDQV 02/*(1 6XU OHV  PLOOLRQV GH PROpFXOHV RSWLPLVpHV HW FKLPLTXHPHQW VWDEOHV VHXOHV  PLOOLRQV  VRQWUHVWpVWDEOHV

Calcul de l’enthalpie de formation

L’obtention de l’enthalpie de formation (ǻHI SHUPHWd’approximer l’énergie stockée dans la molécule qui est libérée lors dans la réaction de combustion explosive.   Le code de détonique Cheetah est un code LQIRUPDWLTXH WKHUPRFKLPLTXH LVVX GX /DERUDWRLUH 1DWLRQDOH GH /DZUHQFH /LYHUPRUH DX[ eWDWVUnis. C’est un outil de FDOFXO SRXYDQWSUpGLUHGHPDQLqUHILDEOHOHVFDUDFWpULVWLTXHVGHGpWRQDWLRQDLQVLTXHODSHUIRUPDQFH GHVH[SORVLIVHWIRUPXODWLRQVH[SORVLYHV  En utilisant le code Cheetah et en se basant sur la formule brute de chacune des molécules ainsi que sur la densité du RDX, VWDQGDUG GDQV OH GRPDLQH GHV H[SORVLIV DILQ GH JDUDQWLU l’explosivité des futurs HEMs potentiels, nous avons déterminé à partir de quel seuil le ǻHf autorise une détonation considérée comme performante. 

Ce seuil est fixé à ǻHf > +25 kcal/mol.  &HWWH pWDSH SHUPHW GRQF d’éliminer les molécules qui ne possèdent pas au moins l’enthalpie de formation de laPROpFXOHGH5'; NFDOPRO   $LQVLVXUOHVPLOOLRQV  GHPROpFXOHVSRVVLEOHVHWVWDEOHVREWHQXHVjODILQGH l’étape , il n’en UHVWHSOXVTXHPLOOLRQV  jGHYRLUrWUHWUDLWpHVSDUOHV\VWqPH SUpGLFWLI

3UpGLFWLRQ&05

$SDUWLUGHVPLOOLRQVGHVWUXFWXUHVSURGXLWHVORUVGHODSKDVHGHJpQpUDWLRQXQHQVHPEOHGH ILOWUHVYDrWUHPLVHQSODFHSRXUVDWLVIDLUHOHVFRQWUDLQWHVLVVXHVGXFDKLHUGHVFKDUJHVGHOD PROpFXOH&HVILOWUHVFRUUHVSRQGHQWDX[GLIIpUHQWVWHVWVGHWR[LFLWpjGHYRLUrWUHHIIHFWXpVSRXU REWHQLUXQHPROpFXOHUpJOHPHQWDLUHHWQRQWR[LTXH  /HV ILOWUHV XWLOLVpV VHURQW PLV HQ SODFH HQ IRQFWLRQ GH OHXU WHPSV GH FRQVRPPDWLRQ HQ UHVVRXUFHV QXPpULTXHV OHV ILOWUHV OHV PRLQV FRQVRPPDWHXUV VHURQW SODFpV HQ SUHPLHU HW LQYHUVHPHQWOHVSOXVFRQVRPPDWHXUVVHURQWSODFpVHQGHUQLqUHSRVLWLRQ 

189

Chapitre V: Workflow  C’est donc à ce niveau qu’intervient notre système prédictif (R.Mo.6DVVRFLpDX0DFKLQH /HDUQLQJ . L’ensemble des 3 millions molécules ' VWDEOHV JpRPpWULTXHPHQW HW FKLPLTXHPHQW SDVVHURQW DX WUDYHUV GH QRWUH V\VWqPH SUpGLFWLI 1H VHURQW FRQVHUYp TXH OHV PROpFXOHVTXLDXURQWVXEVLVWpHVDX[GLIIpUHQWVWHVWVWR[LFRORJLTXHVDILQGHQHJDUGHUTXHOHV PROpFXOHVQRQWR[LTXHVHWGRQFQRQ&05(Figure 86). 

De plus, à la suite des prédictions, nous n’avons conservé que les molécules dont le ǻHf était supérieur à 40 kcal/mol pour que la puissance de la future molécule HEMs réglementaire et non toxique soit aussi élevée que le RDX, référence dans le domaine.  Par la suite d’autres filtres pourront être rajoutés pFRWR[LFLWp LUULWDWLRQ FRUURVLRQ SURSULpWpV $'0( SHUWXUEDWHXUV HQGRFULQLHQV…) pour permettre d’affiner encore plus le QRPEUHGHPROpFXOHVUHVWDQWHV  Le résultat des molécules candidates issues de ce Worflow sera transmis à l’industriel (Airbus Safran Launchers) de façon séparée à ce manuscrit de thèse et sera confidentiel. Nous avons pu sélectionner plusieurs centaines de milliers de structures candidates (596921). Le

ǻHf varie entre 40 et 1232 kcal/mol (avec une moyenne de 162 kcal/mol).   $LQVLJUkFHDX[ORJLFLHOVH[LVWDQWVHWjQRWUHSXEOLFDWLRQ $OOLRGHWDO QRXVDYRQV SXGpPRQWUHUTXHOHVSUpGLFWLRQVHWOHVRXWLOVXWLOLVpVSRXU\SDUYHQLUQpFHVVLWDLHQWHQFRUHGHV DPpOLRUDWLRQV &HFRQVWDWDSHUPLVd’orienter notre recherche sur l’optimisation GHVRXWLOVGHSUpGLFWLRQV GHODtoxicité des molécules HEMs afin de permettre d’aboutir àXQUpVXOWDWSOXVILQHWSOXV proche de l’expérimental. $XVVLen plus d’avoir FUppXQV\VWqPHSUpGLFWLIWRWDOHPHQWQRXYHDXUREXVWHHWSXLVVDQW QRXV DYRQV GpPRQWUp qu’il IRQFWLRQQDLWWUqV ELHQVXU GHV EDVHV GHWHVWVHW GHYDOLGDWLRQVHW prouvé qu’il pRXYDLW s’appliquer sur tout type de molécules et servir pour toutes sortes dH WDFKHV(réglementation, élimination prédiction…)(QHIIHWJUkFHjFHOXLFLQRXVDYRQVUpXVVL DpOLPLQpSUqVGHPLOOLRQVGHPROpFXOHV  +(0VSRWHQWLHOOHV

190

Chapitre V: Workflow

 Figure 86: Schéma récapitulatif de la conception optimisée d’une molécule HEM réglementaire, énergétique et non toxique.           

191



                       Références bibliographiques  &KDSLWUH9:RUNIORZ                        

Références bibliographiques

1. Benfenati E. & Gini G. Computational predictive programs (expert systems) in toxicology. Toxicology 213–22 (1997). 2. Enoch, S. J. et al. Development of MechanismBased Structural Alerts for Respiratory Sensitization Hazard Identification. Chem. Res. Toxicol. 25, 2490–2498 (2012). 3. Jackson, P. Introduction to Expert Systems. AddisonWesley Longman Publishing Co., Inc., (1998). 4. Ignizio, J. P. An Introduction to Expert Systems: The Development and Implementation of Rule-based Expert Systems. McGrawHill. (1991). 5. Ridings J.E. Computer Prediction of Possible Toxic Action From Chemical Structure: An Update on the DEREK System. Toxicology 267–279 (1996). 6. Egan W.J., Zlokarnik G. & Grootenhuis P. D. J. In silico prediction of drug safety: despite progress there is abundant room for improvement. Drug Discovery Today Technologies (2004). 7. Judson, P. The Application of Structure–Activity Relationships to the Prediction of the Mutagenic Activity of Chemicals. in Genetic Toxicology 1–19 (Springer, New York, NY, 2012). doi:10.1007/9781617794216_1 8. Greene N., Judson P.N., Langowski J. J. & Marchant C. A. KnowledgeBased Expert Systems for Toxicity and Metabolism Prediction: DEREK, StAR and METEOR. SAR QSAR Environ Res 299–314 (1999). 9. Bennett, E. R., Clausen, J., Linkov, E. & Linkov, I. Predicting physical properties of emerging compounds with limited physical and chemical data: QSAR model uncertainty and applicability to military munitions. Chemosphere 77, 1412–1418 (2009). 10. Liao, C. & Nicklaus, M. C. Comparison of Nine Programs Predicting pKa Values of Pharmaceutical Substances. J. Chem. Inf. Model. 49, 2801–2812 (2009). 11. Ashby, J. & Tennant, R. W. Definitive relationships among chemical structure, carcinogenicity and mutagenicity for 301 chemicals tested by the U.S. NTP. Mutat. Res. Genet. Toxicol. 257, 229–306 (1991). 12. Agrawal, J. P. High Energy Materials: Propellants, Explosives and Pyrotechnics. John Wiley & Sons, (2010). 13. Nair, U. ., Asthana, S. ., Subhananda Rao, A. & Gandhe, B. Advances in High Energy Materials. Defence Science Journal 137–151 14. Klapötke, T. M. Chemistry of High-Energy Materials. (2012). 15. Nitrocelluloseௗ: Health Advisory. 16. Mammalian toxicity of munition compounds. Phase I. Acute oral toxicity, primary skin and eye irritation, dermal sensitization and disposition and metabolism. Environmental Protection Research Division, U.S. Army Medical Research and Development Command. Midwest Research Center. (1975). 17. Dr. Jack C. Dacre. Mammalian toxicity of munition compounds. Phase II: Effects of multiple doses. Part IV: Nitrocellulose. Environmental Protection Research Division U.S. Army, Medical Bioengineering Research and Development Laboratory.

193

Références bibliographiques

18. Mammalian toxicity of munition compounds. Phase I: Acute oral toxicity, primary skin and eye irritation, dermal sensitization, disposition and metabolism, and Ames tests of additional compounds. Midwest Research Institute. (1978). 19. Data summary for nitrocellulose. Army Medical Bioengineering Research and Development Lab Fort Detrick. (1986). 20. Agency for Toxic Substances and Disease Registry. Toxicological profil of TNT. Division of Toxicology and Human Health Sciences. (1995). 21. Honeycutt, M. E., Jarvis, A. S. & McFarland, V. A. Cytotoxicity and Mutagenicity of 2,4,6Trinitrotoluene and Its Metabolites. Ecotoxicol. Environ. Saf. 35, 282–287 (1996). 22. Lachance, B. et al. Cytotoxic and genotoxic effects of energetic compounds on bacterial and mammalian cells in vitro. Mutat. Res. Toxicol. Environ. Mutagen. 444, 25–39 (1999). 23. Li K., Sherman C.D, Beaumont J. & Sandy M.S. 2,4,6Trinitrotoluene: Evidence on the Carcinogenicity. (2010). 24. Roubaud S. Étude rétrospective sur la prédisposition des chiens de recherche de stupéfiants et d’explosifs de la gendarmerie aux tumeurs malignes des voies respiratoires et digestives hautes. Ecole Nationale Vétérinaire de Toulouse. (2012). 25. Agency for Toxic Substances and Disease Registry. Toxicological profil for Tetryl. U.S. Department of Health and human services. (1995). 26. Whong, W. Z., Speciner, N. D. & Edwards, G. S. Mutagenic activity of tetryl, a nitroaromatic explosive, in three microbial test systems. Toxicol. Lett. 5, 11–17 (1980). 27. McGregor, D. B., Riach, C. G., Hastwell, R. M. & Dacre, J. C. Genotoxic activity in microorganisms of tetryl, 1,3dinitrobenzene and 1,3,5trinitrobenzene. Environ. Mutagen. 2, 531–541 (1980). 28. National Toxicology Program. NTP Toxicology and Carcinogenesis Studies of Pentaerythritol Tetranitrate (CAS No. 78115) with 80% DLactose Monohydrate (PETN, NF) in F344/N Rats and B6C3F1 Mice (Feed Studies). Natl. Toxicol. Program Tech. Rep. Ser. 365, 1–190 (1989). 29. Dart, R. C. Medical toxicology. Philadelphiaௗ: Lippincott, Williams & Wilkins, (2004). 30. Roberts, W. C. & Hartley, W. R. Drinking Water Health Advisory: Munitions. CRC Press, (1992). 31. Cholakis J.M et al. Mammalian Toxicoligcal evaluation of RDX. Midwest Research Institute. 32. Kaplan, A. S., Berghout, C. R. & Peczenik, A. Human intoxication from RDX. Arch. Environ. Health 10, 877–883 (1965). 33. Knepshield J.H. & Stone W.J. Toxic effects following ingestion of C4 plastic explosive. in Drug Abuse: Current Concepts and Research. 296–300 (1972). 34. Agency for Toxic Substances and Disease Registry. Toxicological Profile for RDX. Division of Toxicology and Human Health Sciences. (2012). 35. Cuthbert J.A, D’ArcyBurt KJ & Carr S.M.A. HMX: Acute Toxicity Tests in Laboratory Animals. U.S. Army Medical Research and Development Command. (1985).

194

Références bibliographiques

36. Agency for Toxic Substances and Disease Registry. Toxicological profil for HMX. Division of Toxicology and Human Health Sciences. (1997). 37. J.G. Hengstler et al. The REACH concept and its impact on toxicological sciences. Toxicology 220, 232–239 (2006). 38. Etat français. Code du travail. Code du travail (2017). 39. Fardel O., Vernhet L., Nouvel V., Jung A.V. & LegrandLorans A. Utilisation des tests de génotoxicité pour la surveillance de l’exposition des travailleurs dans l’industrie du traitement et recyclage des déchets. Association RECORD – REseau COopératif de Recherche sur les Déchets et l’Environnement. (2009). 40. Dares Analyses. Les expositions aux produits chimiques cancérogènes en 2010. (2013). 41. DARES. Première synthèse: Les expositions aux produits mutagènes et reprotoxiques. (2005). 42. Dares Analyses. Les expositions aux cancérogènes, mutagènes et reprotoxiques. (2015). 43. Guide pratique d’évaluation et de prévention du risque chimique en entreprise. (2003). 44. Margossian, N. Risques professionnels - Caractéristiques, réglementation, prévention. Dunod. (2011). 45. Vincent R. & Bonthoux F. Evaluation simplifiée des risques chimiques sur les lieux de travail: un outil d’aide à la décision. (2005). 46. ANSES. Guide CMR de repérage à la substitution. (2015). 47. Directive 89/391/CEE du Conseil des communautés européennes. L 183/1, (1989). 48. Directive 98/24/CE du Conseil Européen. L 131/11, (1998). 49. Directive 2004/37/CE du Parlement et du Conseil européen. L 158/50, (2004). 50. Décret n°2001-97. (2001). 51. Directive 2014/27/UE du Parlement européen et du Conseil modifiant les directives du Conseil 92/58/CEE, 92/85/CEE, 94/33/CE, 98/24/CE et la directive 2004/37/CE du Parlement européen et du Conseil afin de les aligner sur le règlement (CE) no 1272/2008. L 65/1 (2014). 52. Directives DSD 67/548/CEE du Conseil européen. 196/1 (1967). 53. Directive 1999/45/CE du Parlement européen. L 200/1, (1999). 54. Organisation des Nations Unies. Système général harmonisé de classification et d’étiquetage des produits chimiques (SGH). (2011). 55. CNRS. Répertoire des éléments d’étiquetage du règlement CLP. (2013). 56. CNRS. Produits chimiques cancérogènes, mutagènes, toxiques pour la reproduction  critères CLP. (2011). 57. Règlement 793/93 relatif à l’évaluation des substances existantes. L 84/1, (1993). 58. Directive 76/769 relative aux restrictions de mise sur le marché des substances dangereuses. L 262/201, (1976). 59. Parlement et Conseil Européen. Réglementation REACh. L 396/46, (2006). 60. Fédération Nationale des Travaux Publics. REACh  guide pratique. (2008).

195

Références bibliographiques

61. Hubert P., Thybaud E. & Braun A. Sécurité des produits chimiques et ouverture à la société. (2013). 62. Leeuwen, C. J. van & Vermeire, T. G. Risk Assessment of Chemicals: An Introduction. Springer Science & Business Media. (2007). 63. ECHA. Guidance on registration. (2016). 64. Pedersen, F., de Bruijn, J., Munn, S. & van Leeuwen K. Assessment of additional testing needs under REACHEffects of (Q)SARS, risk based testing and voluntary industry initiatives. (2003). 65. Jay R. Niemelä, Eva B. Wedebye, Nikolai G. Nikolov, Gunde E. Jensen & Tine Ringsted. The Advisory list for selfclassification of dangerous substances. (2009). 66. Gabbert, S., Scheringer, M., Ng, C. A. & Stolzenberg, H.C. Socioeconomic analysis for the authorisation of chemicals under REACH: a case of very high concern? Regul. Toxicol. Pharmacol. RTP 70, 564–571 (2014). 67. Communication de la commission sur l’initiative citoyenne européenne ‘Stop Vivisection. (Commission Européenne, 2015). 68. Directive 2010/63/UE du Parlement européen et du Conseil du 22 septembre 2010 relative à la protection des animaux utilisés à des fins scientifiques. L 276/33, (2010). 69. Tannenbaum, J. & Bennett, B. T. Russell and Burch’s 3Rs Then and Now: The Need for Clarity in Definition and Purpose. J. Am. Assoc. Lab. Anim. Sci. JAALAS 54, 120–132 (2015). 70. Conseil Européen. Directive 86/609/CEE. L 358/1, (1986). 71. Van der Jagt, K., Munn, S., Tørsløv, J. & de Bruijn, J. Alternative approaches can reduce the use of test animals under reach. (2004). 72. Pfuhler, S. et al. Reduction of use of animals in regulatory genotoxicity testing: Identification and implementation opportunities—Report from an ECVAM workshop. Mutat. Res. Toxicol. Environ. Mutagen. 680, 31–42 (2009). 73. Eisenbrand, G. et al. Methods of in vitro toxicology. Food Chem. Toxicol. 40, 193–236 (2002). 74. Thybaud, V. et al. Strategy for genotoxicity testing: Hazard identification and risk assessment in relation to in vitro testing. Mutat. Res. Toxicol. Environ. Mutagen. 627, 41– 58 (2007). 75. Müller, L. et al. Strategy for genotoxicity testing and stratification of genotoxicity test results—report on initial activities of the IWGT Expert Group. Mutat. Res. Toxicol. Environ. Mutagen. 540, 177–181 (2003). 76. Blakey, D., Galloway, S. M., Kirkland, D. J. & MacGregor, J. T. Regulatory aspects of genotoxicity testing: from hazard identification to risk assessment. Mutat. Res. Toxicol. Environ. Mutagen. 657, 84–90 (2008). 77. European Chemicals Agency. Guidance on Information Requirements and Chemical Safety Assessment Chapter R.7a: Endpoint specific guidance. (2015).

196

Références bibliographiques

78. OECD. Guidance document on revision to OECD genetic toxicology test guidelines. (2015). 79. Singer, T. M. & Yauk, C. L. Germ cell mutagens: Risk assessment challenges in the 21st century. Environ. Mol. Mutagen. 51, 919–928 (2010). 80. MacGregor, J. T., Casciano, D. & Müller, L. Strategies and testing methods for identifying mutagenic risks. Mutat. Res. Mol. Mech. Mutagen. 455, 3–20 (2000). 81. Inouye, L., Gong, P. & Lachance, B. Genotoxicity of Explosives. in Ecotoxicology of Explosives 177–209 (CRC Press, 2009).  82. Kirkland, D. J. et al. Testing strategies in mutagenicity and genetic toxicology: An appraisal of the guidelines of the European Scientific Committee for Cosmetics and Non Food Products for the evaluation of hair dyes. Mutat. Res. Toxicol. Environ. Mutagen. 588, 88–105 (2005). 83. Gollapudi, B. B. & Krishna, G. Practical aspects of mutagenicity testing strategy: an industrial perspective. Mutat. Res. Mol. Mech. Mutagen. 455, 21–28 (2000). 84. Kirkland, D. J. et al. Summary of major conclusions from the 4th IWGT, San Francisco, 9–10 September, 2005. Mutat. Res. Toxicol. Environ. Mutagen. 627, 5–9 (2007). 85. Kirkland, D., Aardema, M., Müller, L. & Hayashi, M. Evaluation of the ability of a battery of three in vitro genotoxicity tests to discriminate rodent carcinogens and non carcinogens: II. Further analysis of mammalian cell results, relative predictivity and tumour profiles. Mutat. Res. Toxicol. Environ. Mutagen. 608, 29–42 (2006). 86. Krishna, G. & Hayashi, M. In vivo rodent micronucleus assay: protocol, conduct and data interpretation. Mutat. Res. Mol. Mech. Mutagen. 455, 155–166 (2000). 87. Nohmi, T., Suzuki, T. & Masumura, K. Recent advances in the protocols of transgenic mouse mutation assays. Mutat. Res. Mol. Mech. Mutagen. 455, 191–215 (2000). 88. Kristien Mortelmans & Errol Zeiger. The Ames Salmonella/microsome mutagenicity assay. Mutation Research 29–60 (2000). 89. Kirkland, D. et al. Can in vitro mammalian cell genotoxicity test results be used to complement positive results in the Ames test and help predict carcinogenic or in vivo genotoxic activity? I. Reports of individual databases presented at an EURL ECVAM Workshop. Mutat. Res. Toxicol. Environ. Mutagen. 775–776, 55–68 (2014). 90. OECD. OECD guideline for testing of chemicals: Bacterial Reverse Mutation Test. (1997). 91. Elliott, B. M. et al. Alternatives to Aroclor 1254induced S9 in in vitro genotoxicity assays. Mutagenesis 7, 175–177 (1992). 92. Zeiger, E. Bacterial Mutation Assays. in Genotoxicity Assessment 3–26 (Humana Press, Totowa, NJ, 2013).  93. Zeiger, E., Anderson, B., Haworth, S., Lawlor, T. & Mortelmans, K. Salmonella mutagenicity tests: V. Results from the testing of 311 chemicals. Environ. Mol. Mutagen. 19 Suppl 21, 2–141 (1992).

197

Références bibliographiques

94. OECD. OECD guideline for the testing of chemicals: In vitro Mammalian chromosomal aberration test. (2016). 95. Mosesso, P., Cinelli, S., Natarajan, A. T. & Palitti, F. In Vitro Cytogenetic Assays: Chromosomal Aberrations and Micronucleus Tests. in Genotoxicity Assessment 123–146 (Humana Press, Totowa, NJ, 2013).  96. Kim, S.J., Rim, K.T., Kim, J.K., Kim, H.Y. & Yan g, J . S. Evaluation of the Genetic Toxicity of Cyclopentane and Ammonium Nitrate  In vitro Mammalian Chromosomal Aberration Assay in Chinese Hamster Ovary Cells. Saf. Health Work 2, 17 (2011). 97. OECD. OECD guideline for the testing of chemicals: In vitro Mammalian cell gene mutation tests using TK gene. (2016). 98. Lloyd, M. & Kidd, D. The mouse lymphoma assay. Methods Mol. Biol. Clifton NJ 817, 35–54 (2012). 99. Schisler, M. R., Moore, M. M. & Gollapudi, B. B. In Vitro Mouse Lymphoma (L5178Y Tk+/í) Forward Mutation Assay. in Genotoxicity Assessment 27–50. (2013).  100. OECD. OECD guideline for the testing of chemicals: Unscheduled DNA Synthesis (UDS) Test with Mammalian Liver Cells In Vivo. (2016). 101. Nesslany, F. Unscheduled DNA Synthesis (UDS) Test with Mammalian Liver Cells In Vivo. in Genotoxicity Assessment 373–387. (2013).  102. Epstein, S. S. Use of the dominantlethal test to detect genetic activity of environmental chemicals. Environ. Health Perspect. 6, 23–26 (1973). 103. Bateman, A. J. & Epstein, S. S. Dominant Lethal Mutations in Mammals. SpringerLink 541–568 (1971).  104. OECD. OECD guideline for the testing of chemicals: Rodent Dominant Lethal Test. (2016). 105. OECD. OCDE guideline for the testing of chemicals: Carcinogenicity Studies. (2009). 106. Choy, W. N. Genetic Toxicology and Cancer Risk Assessment. CRC Press. (2001). 107. Hsu, C.H. & Stedeford, T. Cancer Risk Assessment: Chemical Carcinogenesis, Hazard Evaluation, and Risk Quantification. John Wiley & Sons. (2010). 108. OECD. OCDE guideline for the testing of chemicals: Reproduction/Developmental Toxicity Screening Test. (2016). 109. van de Waterbeemd, H. & Gifford, E. ADMET in silico modelling: towards prediction paradise? Nat. Rev. Drug Discov. 2, 192–204 (2003). 110. Nendza, M. et al. A comparative survey of chemistrydriven in silico methods to identify hazardous substances under REACH. Regul. Toxicol. Pharmacol. 66, 301–314 (2013). 111. Matthews, E. J., Kruhlak, N. L., Cimino, M. C., Benz, R. D. & Contrera, J. F. An analysis of genetic toxicity, reproductive and developmental toxicity, and carcinogenicity data: II. Identification of genotoxicants, reprotoxicants, and carcinogens using in silico methods. Regul. Toxicol. Pharmacol. 44, 97–110 (2006).

198

Références bibliographiques

112. Grammatica, P. A short history of QSAR evolution.(QSAR Research Unit in Environmental Chemistry and Ecotoxicology. 113. Cherkasov, A. et al. QSAR Modeling: Where have you been? Where are you going to? J. Med. Chem. 57, 4977–5010 (2014). 114. Cronin, M. T. D. et al. Use of QSARs in international decisionmaking frameworks to predict health effects of chemical substances. Environ. Health Perspect. 111, 1391–1401 (2003). 115. Advances in Mathematical Chemistry and Applications. 1, Bentham Science Publishers. (2015). 116. Poezevara, G. Fouille de graphes pour la découverte de contrastes entre classesௗ: application à l'estimation de la toxicité des molécules. Université de Caen. (2011). 117. Roy, K. Advances in QSAR modeling: Applications in Pharmaceutical, Chemical, Food, Agricultural and Environmental Sciences. Springer). (2017). 118. Benigni, R. & Richard, A. M. Quantitative StructureBased Modeling Applied to Characterization and Prediction of Chemical Toxicity. Methods 14, 264–276 (1998). 119. Eriksson, L. et al. Methods for reliability and uncertainty assessment and for applicability evaluations of classification and regressionbased QSARs. Environ. Health Perspect. 111, 1361–1375 (2003). 120. Andreas Bender. Studies on molecular similarity. (Darwin College, 2005). 121. Karakoc, E., Cherkasov, A. & Cenk Sahinalp, S. Distance based algorithms for small biomolecule classification and structural similarity search. Bioinformatics 22, 243–251 (2006). 122. Kotsiantis, S. B. Supervised Machine Learning  A Review of Classification Techniques. Informatica 249–268 (2007). 123. WeiYin Loh. Classification and regression trees. WIREs Data Mining and Knowledge Discovery 17–23 (2010). 124. Breiman, L., Friedman, J., Stone, C. J. & Olshen, R. A. Classification and Regression Trees. Taylor & Francis. (1984). 125. Raschka, S. Python Machine Learning. Packt Publishing Ltd. (2015). 126. Nizou, P. Y. Interprétation statistique des erreurs de mesure. 339–353 Institut de Physique. 127. Hawkins, D. M. The Problem of Overfitting. J. Chem. Inf. Comput. Sci. 44, 1–12 (2004). 128. Monari, G. Sélection de modèles non linéaires par ‘“leaveoneout”’: étude théorique et application des réseaux de neurones au procédé de soudage par points. Université Pierre et Marie Curie. (1999). 129. Kohavi, R. A Study of Crossvalidation and Boostrap for Accuracy Estimation and Model Selection. 14, 1137–1145 (1995). 130. Ricco Rakotomalala. Arbres de décision. Modulad 163–187 (2005). 131. J.R. Quinlan. Induction of Decision Trees. 81–106 (1986).

199

Références bibliographiques

132. Salzberg, S. L. C4.5: Programs for Machine Learning. Mach. Learn. 16, 235–240 (1994). 133. Timofeev, R. Classification and Regression Trees (CART): theory and applications. Center of Applied Statistics and Economics, Humboldt University, Berlin. (2004). 134. Kong, B. E. & Dietterich, G. T. Errorcorrecting output coding corrects bias and variance. 313–321 (1995). 135. Breiman, L. Bias, variance and arcing classifiers. University of California Berkeley. (1996). 136. Wehenkel, L. Discretization of continuous attributes for supervised learning: variance evaluation and variance reduction. in In Proc. of The Int. Fuzzy Systems Assoc. World Congress. (1997). 137. Geurts, P. Contributions to decision tree induction: Bias/variance tradeoff and time series classification. Université de Liège. (2002). 138. Dietterich, G. T. Ensemble Methods in Machine Learning. First International Workshop on Multiple Classifier Systems. 1–15 (2000). 139. Thomas G. Dietterich. An Experimental Comparison of Three Methods for Constructing Ensembles of Decision Trees: Bagging, Boosting, and Randomization. Machine Learning 1–22 (1999). 140. Biau, G., Devrye, L. & Jugosi, G. Consistency of Random Forests and Other Averaging Classifiers. Journal of Machine Learning Research 2015–2033 (2008). 141. Geurts, P., Ernst, D. & Wehenkel, L. Extremely randomized trees. Mach. Learn. 63, 3– 42 (2006). 142. Wehenkel, L., Ernst, D. & Geurts, P. Ensembles of extremely randomized trees and some generic applications. Proc. Robust Methods Power Syst. State Estim. Load Forecast. 143. Czarnecki, W., Podlewska, S. & Bojarski, A. Extremely Randomized Machine Learning Methods for Compound Activity Prediction. Molecules 20, 20107–20117 (2015). 144. Dietterich, G. T. & Bakiri, G. Solving Multiclass Learning Problems via Error Correcting Output Codes. Journal of Artificial Intelligence Research 263–286 (1995). 145. Thomas G. Dietterich, Guohua Hao & Adam Ashenfelter. Gradient Tree Boosting for Training Conditional Random Fields. Journal of Machine Learning Research 2113–2139 (2008). 146. Schapire, E. R., Freund, Y., Bartlett, P. & Sun Lee, W. Boosting the margin: A new explanation for the effectiveness of voting methods. The Annals of Statistics 26, 1651–1686 (1998). 147. Breiman, L. Random Forests. Mach. Learn. 45, 5–32 (2001). 148. Valentini, G. & Dietterich, T. G. Bias—Variance Analysis and Ensembles of SVM. in Multiple Classifier Systems 222–231 (Springer, Berlin, Heidelberg, 2002).  149. Hastie, T., Tibshirani, R. & Friedman, J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. Springer Science & Business Media. (2009).

200

Références bibliographiques

150. Valentini, G. & Dietterich, T. G. Low bias bagged support vector machines. 752–759. AAAI Press. (2003). 151. Valentini, G. & Dietterich, T. G. BiasVariance Analysis of Support Vector Machines for the Development of SVMBased Ensemble Methods. J. Mach. Learn. Res. 5, 725–775 (2004). 152. Wang, R., Jiang, J., Pan, Y., Cao, H. & Cui, Y. Prediction of impact sensitivity of nitro energetic compounds by neural network based on electrotopologicalstate indices. J. Hazard. Mater. 166, 155–186 (2009). 153. Baccouche, M. Apprentissage Neuronal de Caractéristiques Spatiotemporelles pour la Classification Automatique de Séquences Vidéo. INSA. (2013). 154. Bolanþa, T., CerjanStefanoviü, Š., Ukiü, Š., Rogošiü, M. & Luša, M. Application of different training methodologies for the development of a back propagation artificial neural network retention model in ion chromatography. J. Chemom. 22, 106–113 (2008). 155. Tetko, V. I., Livingstone, J.D. & Luik, I. A. Neural Network Studies. 1. Comparison of Overfitting and Overtraining. J. Chem. Inf. Comput. Sci. 826–833 (1995). 156. Nestorov, I., Rowland, M., Hadjitodorov, S. T. & Petrov, I. Empirical versus mechanistic modelling: Comparison of an artificial neural network to a mechanistically based model for quantitative structure pharmacokinetic relationships of a homologous series of barbiturates. AAPS PharmSci 1, 5–13 (1999). 157. Karelson, M., Dobchev, D. A., Kulshyn, O. V. & Katritzky, A. R. Neural Networks Convergence Using Physicochemical Data. J. Chem. Inf. Model. 46, 1891–1897 (2006). 158. Quinlan, J. R. Learning Efficient Classification Procedures and Their Application to Chess End Games. in Machine Learning 463–482 (Springer, Berlin, Heidelberg, 1983).  159. Dewar, M. J. S., Zoebisch, E. G., Healy, E. F. & Stewart, J. J. P. Development and use of quantum mechanical molecular models. 76. AM1: a new general purpose quantum mechanical molecular model. J. Am. Chem. Soc. 107, 3902–3909 (1985). 160. Galvão, D. S., Soos, Z. G., Ramasesha, S. & Etemad, S. A parametric method 3 (PM3) study of transǦstilbene. J. Chem. Phys. 98, 3016–3021 (1993). 161. Jr, A. C., Santos, R. P. B. dos, Coluci, V. R. & Galvão, D. S. Comparative parametric method 6 (PM6) and Recife model 1 (RM1) study of transstilbene. Mol. Simul. 38, 1–7 (2012). 162. Stewart, J. J. P. Optimization of parameters for semiempirical methods VI: more modifications to the NDDO approximations and reoptimization of parameters. J. Mol. Model. 19, 1–32 (2013). 163. Rocha, G. B., Freire, R. O., Simas, A. M. & Stewart, J. J. P. RM1: A reparameterization of AM1 for H, C, N, O, P, S, F, Cl, Br, and I. J. Comput. Chem. 27, 1101–1111 (2006). 164. Gold, L. S. & Zeiger, E. Handbook of Carcinogenic Potency and Genotoxicity Databases. CRC Press. (1996). 165. Kirkland, D., Kasper, P., Müller, L., Corvi, R. & Speit, G. Recommended lists of genotoxic and nongenotoxic chemicals for assessment of the performance of new or

201

Références bibliographiques

improved genotoxicity tests: A followup to an ECVAM workshop. Mutat. Res. Toxicol. Environ. Mutagen. 653, 99–108 (2008). 166. Gold, L. S., Manley, N. B., Slone, T. H., Rohrbach, L. & Garfinkel, G. B. Supplement to the Carcinogenic Potency Database (CPDB): Results of Animal Bioassays Published in the General Literature through 1997 and by the National Toxicology Program in 1997–1998. Toxicol. Sci. 85, 747–808 (2005). 167. Benigni, R., Battistelli, C. L., Bossa, C., Tcheremenskaia, O. & Crettaz, P. New perspectives in toxicological information management, and the role of ISSTOX databases in assessing chemical mutagenicity and carcinogenicity. Mutagenesis 28, 401–409 (2013). 168. Tennant, R. W. The genetic toxicity database of the National Toxicology Program: evaluation of the relationships between genetic toxicity and carcinogenicity. Environ. Health Perspect. 96, 47–51 (1991). 169. Mitchell, M. T. Machine Learning. McGrawHill Science. (1997). 170. Devillers, J. Neural Networks in QSAR and Drug Design. Academic Press. (1996). 171. Dobbins, R. W. & Eberhart, R. C. CHAPTER 4  Software Tools. in Neural Network PC Tools 81–110. Academic Press. (1990).  172. Bailey, D. & Thompson, D. How to develop neuralnetwork applications. AI Expert 5, 38–47 (1990). 173. Sigillito, V. G. & Eberhart, R. C. CHAPTER 8  Network Analysis. in Neural Network PC Tools 177–188 (Academic Press, 1990).  174. Osmont, A. Elaboration d’une méthode théorique de calcul des enthalpies de formation en phase gazeuse et condensée des molécules et radicaux de masse molaire élevéeௗ: application à l’énergétique. (Orléans, 2007). 175. Agrawal J.P. & Hodgson R. Organic Chemistry of Explosives. Wiley. (2006). 176. Mattie, D. R. & Sterner, T. R. Review of Ammonium Dinitramide Toxicity Studies. H. M Jackson Foundation for the Advancement of military Medicine wright. (2011). 177. R. Kinkead, E. et al. Reproductive Toxicity Screen of Ammonium Dinitramide Administered in the Drinking Water of Sprague-Dawley Rats. 11, (1995). 178. Larsson A. & Wingborg N. Green Propellants Based on Ammonium Dinitramide (ADN). (2011). 179. Zhu, S., Korytynski, E. & Sharma, S. Genotoxicity Assays Of Ammonium Dinitramode I. Salmonella/Microsome Mutagenesis II. Mouse Lymphoma Cell Mutagenesis III. In Vivo Mouse Bone Marrow Micronuclei Test. (1994). 180. Kinkead, E. R., Salins, S. A., Wolfe, R. E. & Marit, G. B. Acute and Subacute Toxicity Evaluation of Ammonium Dinitramide. (1994). 181. Bottaro, J. C., Penwell, P. E. & Schmitt, R. J. 1,1,3,3Tetraoxo1,2,3triazapropene Anion, a New Oxy Anion of :ௗ The Dinitramide Anion and Its Salts. J. Am. Chem. Soc. 119, 9405–9410 (1997).

202

Références bibliographiques

182. Sebastin, S. E. & Korte, D. W. Mutagenic Potential of Nitroguanidine in the Ames Salmonella/Mammalian Microsome Mutagenicity Test. Letterman Army Institute of Research Presidio of San Francisco, CA. (1988). 183. Harbell J.W. & Korte D. W. Mutagenic Potential of Nitroguanidine in the Mouse Lymphoma Forward Mutation Assay. Genetic and Cellular Toxicology Branch Division of Toxicology. (1987). 184. Ishidate, M. & Odashima, S. Chromosome tests with 134 compounds on Chinese hamster cells in vitroa screening for chemical carcinogens. Mutat. Res. 48, 337–353 (1977). 185. Picric acid. in The MAK-Collection for Occupational Health and Safety. WileyVCH Verlag GmbH & Co. KGaA. (2002). 186. Haseman, J. K., Huff, J. E., Zeiger, E. & McConnell, E. E. Comparative results of 327 chemical carcinogenicity studies. Environ. Health Perspect. 74, 229–235 (1987). 187. Wyman, J. F., Serve, M. P., Hobson, D. W., Lee, L. H. & Uddin, D. E. Acute toxicity, distribution, and metabolism of 2,4,6trinitrophenol (picric acid) in Fischer 344 rats. J. Toxicol. Environ. Health 37, 313–327 (1992). 188. Rickert, D. E., Butterworth, B. E., Popp, J. A. & Krahn, D. F. Dinitrotoluene: Acute Toxicity, Oncogenicity, Genotoxicity, and Metabolism. CRC Crit. Rev. Toxicol. 13, 217– 234 (1984). 189. OECD SIDS. Dinitrotoluene. (2004). 190. Harry V., I., Ellis, H. Hagensen, J., R. Hodgson, J., L. Minor, J. & Hong, C.B. Mammalian Toxicity of Munition Compounds. Phase III. Effects of Lifetime Exposure. Part I. 2,4-Dinitrotoluene. (1979). 191. Styles, J. A. & Cross, M. F. Activity of 2,4,6trinitrotoluene in an in vitro mammalian gene mutation assay. Cancer Lett. 20, 103–108 (1983). 192. Bermudez, E., Tillery, D. & Butterworth, B. E. The effect of 2,4diaminotoluene and isomers of dinitrotoluene on unscheduled DNA synthesis in primary rat hepatocytes. Environ. Mutagen. 1, 391–398 (1979). 193. Rickert D. E. Toxicity of Nitroaromatic Compounds. (1985). 194. US EPA, NEPIS. Health Advisory for 2,4 and 2,6dinitrotoluene (DNT). (1992). 195. Dixit, R., Schut, H. A., Klaunig, J. E. & Stoner, G. D. Metabolism and DNA binding of 2,6dinitrotoluene in Fischer344 rats and A/J mice. Toxicol. Appl. Pharmacol. 82, 53–61 (1986). 196. Mirsalis, J. C. & Butterworth, B. E. Induction of unscheduled DNA synthesis in rat hepatocytes following in vivo treatment with dinitrotoluene. Carcinogenesis 3, 241–245 (1982). 197. Goldsworthy, T. L., Hamm, T. E., Rickert, D. & Popp, J. A. The effect of diet on 2,6- dinitrotoluene hepatocarcinogenesis. 7, (1986). 198. Ellenhorn, M. J. Ellenhorn’s medical toxicology: diagnosis and treatment of human poisoning. Williams & Wilkins. (1997).

203

Références bibliographiques

199. Couch, D. B., Allen, P. F. & Abernethy, D. J. The mutagenicity of dinitrotoluenes in Salmonella typhimurium. Mutat. Res. 90, 373–383 (1981). 200. OECD SIDS. 1chloro4nitrobenzene. (2002). 201. Bucher, J. NTP technical report on the toxicity studies of 2Chloronitrobenzene (CAS No. 88733) and 4Chloronitrobenzene (CAS No. 100005) Administered by Inhalation to F344/N Rats and B6C3F1 Mice. Toxic. Rep. Ser. 33, 1F25 (1993). 202. Painter P. Evidence on the carcinogenicity of 1chloro4nitrobenzene. (1999). 203. pChloronitrobenzene. in The MAK-Collection for Occupational Health and Safety (WileyVCH Verlag GmbH & Co. KGaA, 2002).  204. Gilbert, P., SaintRuf, G., Poncelet, F. & Mercier, M. Genetic effects of chlorinated anilines and azobenzenes onSalmonella typhimurium. Arch. Environ. Contam. Toxicol. 9, 533–541 (1980). 205. OECD SIDS. 1,2dichloro4nitrobenzene. 206. Basketter, D. A. et al. Dichloronitrobenzene: a reappraisal of its skin sensitization potential. Contact Dermatitis 34, 55–58 (1996). 207. Strobel, R. & Röhrborn, G. Mutagenic and cell transforming activities of 1Chlor2,4 dinitrobenzene (DNCB) and squaricaciddibutylester (SADBE). Arch. Toxicol. 45, 307– 314 (1980). 208. Dunnick, J. NTP Technical report on the toxicity studies of ortho, meta, and para Nitrotoluenes (CAS Nos. 88722, 99081, 99990) Administered in Dosed Feed to F344/N Rats And B6C3F1 Mice. Toxic. Rep. Ser. 23, 1E4 (1992). 209. IARC monographs 101. 2nitrotoluene. (1995). 210. Dunnick, J. K., Burka, L. T., Mahler, J. & Sills, R. Carcinogenic potential of o nitrotoluene and pnitrotoluene. Toxicology 183, 221–234 (2003). 211. Galloway, S. M. et al. Chromosome aberrations and sister chromatid exchanges in Chinese hamster ovary cells: evaluations of 108 chemicals. Environ. Mol. Mutagen. 10 Suppl 10, 1–175 (1987). 212. Mortelmans, K. et al. Salmonella mutagenicity tests: II. Results from the testing of 270 chemicals. Environ. Mutagen. 8 Suppl 7, 1–119 (1986). 213. Agency for Toxic Substances and Disease Registry. Toxicological profil 1,3- dinitrobenzene and 1,3,5-trinitrobenzene. U.S. Department of Health and human services. (1995). 214. Reddy, T. V. et al. Subchronic Toxicity of 1,3,5Trinitrobenzene in Fischer 344 Rats. Int. J. Toxicol. 17, 393–411 (1998). 215. Furukawa. H., Kawai. N. & Kawai. K. Frameshift mutagenicity of dinitrobenzene derivatives on Salmonella typhimurium TA98 and Tm elevation of calf thymus DNA by dinitrobenzene derivatives. (1985). 216. Linder, R. E., Hess, R. A. & Strader, L. F. Testicular toxicity and infertility in male rats treated with 1,3dinitrobenzene. J. Toxicol. Environ. Health 19, 477–489 (1986).

204

Références bibliographiques

217. Evenson, D. P., Janca, F. C., Baer, R. K., Jost, L. K. & Karabinus, D. S. Effect of 1,3 dinitrobenzene on prepubertal, pubertal, and adult mouse spermatogenesis. J. Toxicol. Environ. Health 28, 67–80 (1989). 218. Philbert, M. A., Gray, A. J. & Connors, T. A. Preliminary investigations into the involvement of the intestinal microflora in CNS toxicity induced by 1,3dinitrobenzene in male F344 rats. Toxicol. Lett. 38, 307–314 (1987). 219. Ellis, H. V., Hagensen, J. H., Hodgson, J. R., Minor, J. L. & Hong, C.B. Mammalian Toxicity of Munitions Compounds Phase III: Effects of Life-Time Exposure Part II: Trinitroglycerin. (1978). 220. Maragos, C. M., Andrews, A. W., Keefer, L. K. & Elespuru, R. K. Mutagenicity of glyceryl trinitrate (nitroglycerin) in Salmonella typhimurium. Mutat. Res. 298, 187–195 (1993). 221. Trinitroglycerol. 222. Patty’s Toxicology. Bingham, E., Cohrssen, B. and Powell. C. (2000). 223. US EPA, NEPIS. ocrésol. (1989). 224. OECD SIDS. mpcresols. (2003). 225. Srinivasan, A. & Viraraghavan, T. Perchlorate: Health Effects and Technologies for Its Removal from Water Resources. Int. J. Environ. Res. Public. Health 6, 1418–1442 (2009). 226. Diethyl ether. in The MAK-Collection for Occupational Health and Safety (WileyVCH Verlag GmbH & Co. KGaA, 2002).  227. Reddy, G., Song, J., Mecchi, M. S. & Johnson, M. S. Genotoxicity assessment of two hypergolic energetic propellant compounds. Mutat. Res. 700, 26–31 (2010). 228. Mecchi, M. S. Salmonella Escherichia coli Mammalian microsome reverse mutation assay with a confirmatory assay with DMAZ. US Army Center for Health Promotion and Preventive Medicine. (1999). 229. De Flora, S., Zanacchi, P., Camoirano, A., Bennicelli, C. & Badolati, G. S. Genotoxic activity and potency of 135 compounds in the Ames reversion test and in a bacterial DNA repair test. Mutat. Res. 133, 161–198 (1984). 230. Hydrazine. Chemicals Evaluation and Research Institute (CERI). (2007). 231. Council, N. R., Studies, D. on E. and L., Toxicology, B. on E. S. and, Toxicology, C. on & Contaminants, S. on E. and C. E. G. L. for S. S. Emergency and Continuous Exposure Guidance Levels for Selected Submarine Contaminants. National Academies Press. (2007). 232. Agency for Toxic Substances and Disease Registry. Toxicological Profile for hydrazines. U.S. Department of Health and human services. (1997). 233. von Wright, A. & Tikkanen, L. The comparative mutagenicities of hydrazine and its mono and dimethyl derivatives in bacterial test systems. Mutat. Res. 78, 17–23 (1980). 234. IARC monographs Supplement 7. Hydrazine. (1974). 235. Stoner, G. D. et al. A comparison of the lung adenoma response in strain A/J mice after intraperitoneal and oral administration of carcinogens. Toxicology and Applied Pharmacology 72, 313–323 (1984).

205

Références bibliographiques

236. MalcaMor, L. & Stark, A. A. Mutagenicity and toxicity of carcinogenic and other hydrazine derivatives: correlation between toxic potency in animals and toxic potency in Salmonella typhimurium TA1538. Appl. Environ. Microbiol. 44, 801–808 (1982). 237. Ferrer, M., SánchezLamar, A., LuÕғs Fuentes, J., Barbé, J. & Llagostera, M. Antimutagenic mechanisms of Phyllanthus orbicularis when peroxide is tested using Salmonella assay. Mutat. Res. Toxicol. Environ. Mutagen. 517, 251–254 (2002). 238. Arroyo, P. L., HatchPigott, V., Mower, H. F. & Cooney, R. V. Mutagenicity of nitric oxide and its inhibition by antioxidants. Mutat. Res. 281, 193–202 (1992). 239. Zeiger, E. et al. Salmonella mutagenicity tests: III. Results from the testing of 255 chemicals. Environ. Mutagen. 9 Suppl 9, 1–109 (1987). 240. Tokiwa, H., Nakagawe, R., Morita, K. & Ohnishi, Y. Mutagenicity of nitro derivatives induced by exposure of aromatic compounds to nitrogen dioxide. Mutation Research/Environmental Mutagenesis and Related Subjects 85, 195–205 (1981). 241. National Research Council. Acute Exposure Guideline Levels for Selected Airborne Chemicals. 14, (2013). 242. Agency for Toxic Substances and Disease Registry. Toxicological profile for perchlorates. U.S. Department of Health and human services. (2008). 243. Baden, J. M. & Monk, S. J. Mutagenicity and toxicity studies with high pressure nitrous oxide. Toxicol. Lett. 7, 259–262 (1981). 244. Nitrous oxide. in The MAK-Collection for Occupational Health and Safety 9. Wiley VCH Verlag GmbH & Co. KGaA. (2002). 245. Kayraldiz, A., Kaya, F. F., Canimoƣlu, S. & Rencüzoƣullari, E. Mutagenicity of five food additives in Ames/Salmonella/microsome test. Ann. Microbiol. 56, 129–133 (2006). 246. Kinkead, E. R. et al. General toxicity and reproductive screen of liquid propellant XM46 administered in the drinking water of SpragueDawley rats. Toxicol. Ind. Health 11, 199–215 (1995). 247. Husain, S., Sharma, S, Gao, P., Mattie, D. & Frazier, J. In vitro rat hepatocyte toxicity and bacteria genotoxicity evaluation of high energy chemicals for replacement of hydrazine. United States Air Force Research Laboratory. (2002). 248. Zeiger, E. et al. Prediction of Salmonella mutagenicity. Mutagenesis 11, 471–484 (1996). 249. Material Safety Data Sheet: Temozolomide Related Compound B. (2010). 250. Mutagenicity evaluation of FDA 75-97 (Calcium Carbonate). Genetic toxicology branch Division of toxicology. (1977). 251. GPS Safety Summary: Calcium Carbonate. The Chemical Compagny BASF. (2012). 252. Deutsche Forschungsgemeinschaft. Carcinogenic Substances. in List of MAK and BAT Values 2016: Permanent Senate Commission for the Investigation of Health Hazards of Chemical Compounds in the Work Area. Report 52 165–183. WileyVCH Verlag GmbH & Co. KGaA. (2016). 

206

Références bibliographiques

253. Règlement (CE) n°1272/2008 du Parlement Européen et du Conseil du 16 Décembre 2008. L 353/1, 643 (2008). 254. The National Institute for Occupational Safety and Health (NIOSH). N,N diphenylamine. 255. Klopman, G., Frierson, M. R. & Rosenkranz, H. S. The structural basis of the mutagenicity of chemicals in Salmonella typhimurium: The GeneTox Data Base. Mutat. Res. Mol. Mech. Mutagen. 228, 1–50 (1990). 256. Boddu, V. M., Abburi, K., Maloney S.W. & Damavarapu, R. Physicochemical properties of an insensitive munitions compound, Nmethyl4nitroaniline (MNA). Journal of Hazardous Materials 155, 288–294 (2008). 257. Zeiger, E. & Hoffmann, G. R. An illusion of hormesis in the Ames test: statistical significance is not equivalent to biological significance. Mutat. Res. 746, 89–93 (2012). 258. Monaco, M., Dominici, R., Barisano, P. & Di Palermo, G. Mutagen activity of barium chloride in Salmonella typhimurium. Med. Lav. 81, 54–64 (1990). 259. National Toxicology Program. NTP Toxicology and Carcinogenesis Studies of Barium Chloride Dihydrate (CAS No. 10326279) in F344/N Rats and B6C3F1 Mice (Drinking Water Studies). Natl. Toxicol. Program Tech. Rep. Ser. 432, 1–285 (1994). 260. EPA. Toxicological Review of Barium and Compounds. Integrated Risk Information System (IRIS). (1998). 261. Wu, R. & Felton, J. Analysis of HNS and DPE for mutagenicity by the Ames/Salmonella Assay. U.S Department of Energy. (2007). 262. Mutagenicity. Health Risk Assessment Guidance for Metals (HERAG). (2007). 263. Fujii, N., Yano, S. & Takeshita, K. Selective enhancing effect of metal ions on mutagenicity. Genes Environ. 38, (2016). 264. Kodama, F., Umeda, M. & Tsutsui, T. Mutagenic effect of sodium nitrite on cultured mouse cells. Mutat. Res. 40, 119–124 (1976). 265. Maekawa, A. et al. Carcinogenicity studies of sodium nitrite and sodium nitrate in F 344 rats. Food Chem. Toxicol. Int. J. Publ. Br. Ind. Biol. Res. Assoc. 20, 25–33 (1982). 266. EFSA Panelon Food Additives and Nutrient Sources added to Food (ANS) et al. Re evaluation of sodium nitrate (E 251) and potassium nitrate (E 252) as food additives. EFSA J. 15, (2017). 267. The National Institute for Occupational Safety and Health (NIOSH). Nitrate de sodium. (2015). 268. Strontium and its inorganic compounds. in The MAK-Collection for Occupational Health and Safety 25. WileyVCH Verlag GmbH & Co. KGaA. (2002). 269. Watts, P. & Howe, P. Strontium and Strontium compouds. 270. Safety Data Sheet: Strontium nitrate. Solvay. 2015). 271. Fishbein, L. Potential Industrial Carcinogens and Mutagens. Elsevier. (2011). 272. Agency for Toxic Substances and Disease Registry. Hexachloroethane. (1997).

207

Références bibliographiques

273. IARC monographs on the evaluation of Carcinogenic Risks to Humans volume 100C. Arsenic, metals, fibres and dusts. World Health Organization. (2012). 274. KirschVolders, M. Mutagenicity, Carcinogenicity, and Teratogenicity of Industrial Pollutants. Springer Science & Business Media. (2012). 275. Dunnick, J.K. NTP Technical Report on Toxicity Studies of Cadmium Oxide Administered by Inhalation to F344/N Rats and B6C3F1 Mice. U.S. Department of Health and human services. (1995). 276. NTP Toxicity Studies of Cadmium Oxide (CAS No. 1306190) Administered by Inhalation to F344/N Rats and B6C3F1 Mice. Toxic. Rep. Ser. 39, 1D3 (1995).      

208



                       Références personnelles &KDSLWUH9:RUNIORZ                        

Références personnelles

3XEOLFDWLRQV

$OOLRG&&KHPHOOH-$-DFRE*7HUUHX[5$PHVWHVWSUHGLFWLRQRQ+LJK(QHUJ\0ROHFXOHV E\ 2Q7KH)O\ 46$5 27)46$5  3URSHOODQWV ([SORVLYHV DQG S\URWHFKQLFV   S  %UHYHW Qƒ  3URFpGp HW GLVSRVLWLI GH Vplection d’un VRXVHQVHPEOH GH PROpFXOHV destinées à être utilisées pour prédire au moins une propriété d’une structure PROpFXODLUH

&RPPXQLFDWLRQV2UDOHV

&$OOLRG-$&KHPHOOH*-DFRE-*XLWWRQ/3D\HQ*D\57HUUHX[6WXG\DQGSUHGLFWLRQ RIWKHWR[LFLW\RIKLJKHQHUJ\PROHFXOHV;,LQWHUQDWLRQDO&RQIHUHQFH+(0V$MDFFLR &RUVLFD2FWREHU  C. Alliod, JA Chemelle, G. Jacob, R. Terreux. AMES test prediction by “onthefly” QSAR applied to highenergy molecules. 251st National Meeting of the American Chemical Society. San Diego, California, USA, March 2016.  $OOLRG&&KHPHOOH-$-DFRE*7HUUHX[5AMES test prediction by “onWKHfly” QSAR DSSOLHG WR KLJKHQHUJ\ PROHFXOHV WK ,QWHUQDWLRQDO 6HPLQDU RQ 1HZ 7UHQGV LQ 5HVHDUFK RI (QHUJHWLF 0DWHULDOV 175(0  8QLYHUVLW\ RI 3DUGXELFH ,QVWLWXWH RI (QHUJHWLF0DWHULDO&]HFK5HSXEOLF$SULO  Alliod C, Chemelle JA, Jacob G, Terreux R 3UHGLFWLRQ RI UHJXODWLRQ WR[LFRORJLFDO WHVWV DSSOLHG WR KLJK HQHUJ\ PROHFXOHV WK ,QWHUQDWLRQDO $QQXDO &RQIHUHQFH RI WKH )UDXQKRIHU,&7Karlsruhe, Germany June 2016.  C. Alliod, JA Chemelle, G. Jacob, J. Guitton, L. PayenGay, R. Terreux.Study and prediction of the toxicity of high energy molecules. Internal seminar IBCP Lyon November 2016.  $OOLRG&'HQLV5&KHPHOOH-$-DFRE*7HUUHX[53UHGLFWLRQRIUHJXODWLRQWR[LFRORJLFDO WHVWVDSSOLHGWR+LJK(QHUJ\0ROHFXOHVWK,QWHUQDWLRQDO6HPLQDURQ1HZ7UHQGVLQ 5HVHDUFK RI (QHUJHWLF 0DWHULDOV 175(0  8QLYHUVLW\ RI 3DUGXELFH ,QVWLWXWH RI (QHUJHWLF0DWHULDO&]HFK5HSXEOLF$SULO  Alliod C, Denis R, Jacob G, Terreux R. Prediction of regulation toxicological tests applied to High Energy Molecules.WK,QWHUQDWLRQDO$QQXDO&RQIHUHQFHRIWKH)UDXQKRIHU,&7 Karlsruhe, Germany June 2017.  $OOLRG&'HQLV5-DFRE*7HUUHX[53UHGLFWLRQRIUHJXODWLRQWR[LFRORJLFDOWHVWVDSSOLHGWR +LJK (QHUJ\ 0ROHFXOHV WK ,QWHUQDWLRQDO 6\PSRVLXP RQ +LJK (QHUJ\ 0DWHULDOV .,6+(0    ,QWHUQDWLRQDO $XWXPQ 6HPLQDU RQ 3URSHOODQWV ([SORVLYHV DQG 3\URWHFKQLFV ,$63(3 6HRXO6RXWK.RUHD6HSWHPEHU

3RVWHU

$OOLRG&'HQLV5&KHPHOOH-$-DFRE*7HUUHX[5$PHVWHVWSUHGLFWLRQRQ+LJK(QHUJ\ 0ROHFXOHV E\ 2Q7KH)O\ 46$5 27)46$5  eFROH 'RFWRUDOH ,QWHUGLVFLSOLQDLUH 6FLHQFHV6DQWp (',66 2FWREUH

210



                       Annexes  &KDSLWUH9:RUNIORZ                        

Noms N° CAS Formule  Propriétés physiques Données CMR Toxicité 175 176 Ammonium 140456786 H4N4O4  Synthétisé pour la première fois en 1971   Toxique pour la reproduction   Modérément toxique  dinitramide  Sel de cristal jaune   (PEU\RWR[LTXH177  Aucune preuve d'irritation ou de  Ergol solide oxydant   Mutagène: OHWHVWG $PHV178OHWHVWGH toxicité cutanée180.  Présente un très grand intérêt au PXWDJHQqVHGHFHOOXOHVGHO\PSKRPHGH  L’inhalation de poussière provoque remplacement de l’hydrazine et du perchlorate VRXULV 0/$ 179. des irritations des muqueuses des d’ammonium dans les propergols organes respiratoires181   182 1LWURJXDQLGLQH  &+12  6ROLGHFULVWDOOLQLQFRORUH Non mutagène au test d’Ames , au  7oxique voire mortelle s’il est 1*X   /DUJHPHQW utilisé lors de la I et II guerre WHVWMLA27 et au test létal dominant183 LQKDOpDYDOpRXDEVRUEp mondiale Mutagène: GpJkWVFKURPRVRPLTXHV  %U€OXUHVJUDYHVSDUVLPSOHFRQWDFW  3UpSDUpjSDUWir d’urée et d’acide sulfamique VLJQLILFDWLIVGDQVOHVILEUREODVWHVGH DYHFODSHDXRXOHV\HX[  Vitesse de détonation de 7650m/s  KDPVWHUFKLQRLV30  /pVLRQVGHVYRLHVUHVSLUDWRLUHV  Faible sensibilité explosive  Carcinogène184  3URGXLW GHV HIIHWV WR[LTXHV VXU OH   61&  $FLGHSLFULTXH  C6H3N3O7  Découvert en 1885 par le chimiste Eugène  ([WUrPHPHQW PXWDJqQH SRVLWLI WHVW  Produit irritant pour les yeux Turpin  d’Ames (conjonctivites sévères, des œdèmes  Une des substances chimiques les plus  &DUFLQRJqQH  palpébraux, des kératites et une dangereuses utilisées aujourd’hui   vision jaune)  Applications dans l’industrie du cuir, dans  Irritant pour la peau (dermatites les batteries électriques, dans les fabriques de intenses) verres colorés et comme réactif dans les  Irritant pour les voies respiratoires  laboratoires de recherche.   Toxiques par inhalation et/ou par  Solide cristallin de couleur jaune  ingestion (douleurs abdominales  Très sensible aux chocs, à la chaleur et à la sévères, nausées, vomissements…)187  friction   Possède une puissance dépassant légèrement celle du TNT  '17 602017 C7H6N2O4 Utilisés dans la production de toluène  Mutagène au test d’Ames, au test Irritation de la peau et des yeux  diisocyanate et de mousses flexibles d’aberration chromosomique188  Toxique si inhalé ou ingéré polyuréthanes Carcinogène189 Symptômes: lèvres, ongles et peau   bleues, maux de tête, nausées, convulsion et inconscience.  Les isomères 2,4, 2,6 & 3,4sont bien plus toxiques chez le rat 

 2,4 DNT 121142 C7H6N2O4 Solide cristallin de couleur jaune  Mutagène: positif au test d’Ames, au Toxique par inhalation et ingestion  Précurseur du TNT test d’aberrations chromosomiques190, au (causes une irritation des membranes Il fait partit des déchets toxiques et test MLA191 et au test de synthèse muqueuses) dangereux dénoncé par l’EPA (Environmental d’ADN non programmé (UDS)192  Vertiges, nausées, vomissements, Protection Agency) sous le n° D030 Non mutagène au test létal dominant insomnies, paralysie, douleurs  Non carcinogène. Il agit comme un thoraciques, anorexie, lèvres, lobes promoteur du processus carcinogène193. d’oreille et nez bleus, tachycardie  Reprotoxicité (foetotoxicité et entrave Substance dangereuse pour à la fertilité)194. l’environnement aquatique.    2,5 DNT 619158 C7H6N2O4 Solide cristallin de couleur jauneorange Mutagène: positif au test d’Ames Potentiel d’irritation de la peau  possédant une odeur caractéristique  Carcinogène modérée   Pas d’irritation des yeux189  Affecte le SNC et peut causer des dommages du foie (hépatite). Maux de tête, insomnie, douleur aux articulations, perte d’appétit.  2,6 DNT 606202 C7H6N2O4 Poudre cristalline de couleur jaune voir  Mutagène au test d’Ames, au test  Irritant pour la peau et les yeux  rouge d’aberrations chromosomiques et au test  Toxique si ingéré, inhalé et absorbé Emet des fumées d’oxydes d’azote toxique d’UDS196.  Disfonctionnement des fonctions Sensible à la chaleur.   Négatif au test MLA191. du sang, du SNC et du foie198. Incompatible avec des oxydants forts des  Carcinogène193,197  Maux de tête, nausées, confusion, agents caustiques ou les métaux. (NTP, 5HSURWR[LTXH194 lèvres, ongles et peau bleus, 1992)195  convulsions et inconscience.   &RQWDPLQDQWV GDQJHUHX[ SRXU l’environnement  3,4 DNT 610399 C7H6N2O4 Poudre cristalline de couleur jaune Mutagène au test d’Ames et au test Faible irritation de la peau  d’aberrations chromosomiques Pas d’irritation des yeux Carcinogène Disfonctionnement du SNC et du foie189   199 3,5 DNT 618859 C7H6N2O4 Poudre cristalline de couleur jaune orange  Mutagène au test d’Ames . Ne cause pas d’irritation des yeux  possédant une odeur particulière 1pJDWLIDXWHVWOpWDOGRPLQDQW ni de la peau Carcinogène  Disfonctionnement du SNC et des  fonctions du sang  217

 1chloro4 100005 C6H4ClNO2 Solide cristallin jaune clair possédant une  Mutagène au test d’Ames, au test Extrêmement toxique  nitrobenzene odeur sucrée d’aberration chromosomique et au test Irritante pour la peau et les yeux Utilisé comme insecticide et dans la MLA201  Anoxie, anémie partielle, nausées, production de colorants, de médicaments et de  Carcinogène202  vomissements, lèvres, ongles et peau produits chimiques photographiques200. Toxicité reproductive et maternelle203  bleu.     204 GLFKORUR 99547 C6H3Cl2NO2 Solide jaune pale  Mutagène au test d’Ames . Très toxique pour la vie aquatique  QLWUREHQ]HQH Intermédiaire de la synthèse de molécule Induit des aberrations Toxique si ingéré et inhalé chimique agricole chromosomiques mais seulement à des Irritation légère des yeux doses cytotoxiques (donc non Signes d’intoxication: léthargie, mutagène) grande faiblesse, coma206 Non carcinogène205   FKORUR 97007 C6H3ClN2O4 Solide jaune clair à l’odeur caractéristique Mutagène au test d’Ames et au test Irritant pour la peau (dermatites) GLQLWUREHQ]HQH Se décompose sous l’action de la chaleur d’aberrations chromosomiques207 Maux de tête, nausée, Utilisé dans les fongicides, les composés  vomissements, difficulté respiratoire, photographiques et dans la production de douleurs abdominales solvants   PHWK\O 88722 C7H7NO2 Liquide jaune pale Non mutagène au test d’Ames Anoxie, maux de tête, ataxie, QLWUREHQ]HQH Synonyme: 2nitrotoluène Mutagène au test d’aberrations nausées, vomissements, tachycardie, Utilisé dans l’industrie militaire, agricole et chromosomiques et au test UDS30,208,209. difficultés respiratoires des teintures  Carcinogène210. PHWK\O 99990 C7H7NO2 Solide cristallin jaune Mutagène au test d’aberration Toxique par inhalation, ingestion et QLWUREHQ]HQH Synonyme 4nitrotoluène chromosomique, test MLA et au test absorption Utilisé dans l’industrie militaire et des UDS 30,211. Hypoxie et anémie teintures  212  86577 C10H7NO2 Solide cristallin de couleur jaune Mutagène: positif au test d’Ames  Peut causes des irritations des voies QLWURQDSKWKDOqQH Utilisé dans l’industrie militaire, des  respiratoires, du tube digestif, de la colorants et comme rodenticide peau et des yeux   22,27 214  99354 C6H3N3O6 Solide cristallin incolore (deux isomères)  Mutagène au test d’Ames . Irritant pour la peau et les yeux  WULQLWUREHQ]HQH Sensible à la friction et à l’impact  Carcinogène213  Décoloration de la peau, vertiges, Plus puissant que le TNT  nausées, maux de tête, transpiration,  Cher à produire Dans les cas sévères: tachycardie, Utilisé dans le domaine militaire et médical crampes, coma, inconscience, paralysie, arrêt cardiovasculaire 218

 27,215 1,3 99650 C6H4N2O4 Poudre cristalline de couleur jauneorange  Mutagène au test d’Ames  Maux de tête, nausées, vertiges, dinitrobenzene Utilisé dans le domaine militaire et dans la Non mutagène au test UDS213  anémie et somnolences218.  (1,3DNB) fabrication de lubrifiants et d’inhibiteur de Non carcinogène  polymérisation. Reprotoxique216,217   219,220 Trinitroglycerol 55630 C3H5N3O9 Aussi appelé nitroglycérine Mutagène au test d’Ames  Hautement toxique et instable Découverte par Ascanio Sobrero en 1847 Non mutagène au test d’aberrations Décoloration, anoxie, maux de tête, Liquide visqueux très légèrement jaune chromosomiques et au test létal crampes abdominales, vertiges, Utilisé dans l’industrie militaire et médicale dominant nausées, vomissements, respiration (vasodilatateur) Carcinogène difficile voire coma Vitesse de détonation 7000m.s1 Non reprotoxique221 Irritante pour les yeux222    ocresol 95487 C7H8O7 Solide incolore Non mutagène au test d’Ames, au test Irritant pour les yeux Utilisé dans la production de peinture, de létal dominant, au test MLA et au test Corrosif pour la peau fumigeants, d’herbicides, d’antiseptiques et de UDS223 Dépression du SNC, confusions, désinfectants Reprotoxique224 léthargie, dommages aux reins, au  foie et au pancréas, coma et dermatites.

Les liquides

Noms N° CAS Formule  Propriétés physiques Données CMR Toxicité 225 Acide perchlorique  +&O2 Liquide huileux incolore  Mutagène au test d’Ames   Fortement corrosif Extrêmement instable  Nausées et vomissements  226 Diethyl ether 60297 (C2H5)2O  /LTXLGHLQIODPPDEOHLQFRORUH  Non mutagène au test d’Ames    +DXWHPHQWYRODWLO  &RXUDPPHQWXWLOLVpFRPPHVROYDQWGDQVOHV ODERUDWRLUHVHWFRPPHIOXLGHGHGpPDUUDJHSRXU FHUWDLQVPRWHXUV  227 DMAZ 86147048 C4H10N4  Alternative moins toxique et aussi puissante que  Mutagène au test d’Ames   la MMH   Non mutagène au test d’aberrations chromosomiques  Non carcinogène228

219

 Hydrazine hydrate 7803578 H6N2O  Propergols liquides de certains lanceurs  Mutagène au test d’Ames, au test  spatiaux. d’aberrations chromosomiques et au test UDS229–231  hydrazine 302012 N2H4  Liquide incolore, avec odeur ammoniacal  Mutagène au test d’Ames et au test  Hautement toxique et  Production annuelle: 260000 tonnes UDS229,232,233 extrêmement instable  Utilisée comme agent moussant pour la  Non mutagène au test létal dominant231  Irritant (yeux, nez et gorge) production de polymères expansés, comme agent  Carcinogène 178,234  Corrosif  de gonflage des airbags, comme carburant des  Reprotoxique  Étourdissements, nausées, moteurs de fusée. mal de tête, convulsions, coma

Methylhydrazine 60344 CH6N2 Utilisé dans la propulsion spatiale  Mutagène au test d’Ames et au test  Inactive la vitamine B6 (MMH) d’aberrations chromosomiques229,232,233   Carcinogène  1,1 57147 C2H8N2 Propergol liquide  Non mutagène au test d’Ames et au test  dimethylhydrazine Vire au jaune à l'air libre (absorbe l'oxygène et létal dominant233 (UDMH) le CO2)  Mutagène au test d’aberrations Préféré à l’hydrazine chromosomiques, au test MLA et au test UDS229,232  Carcinogène235  Reprotoxique  236 Tetrafluoro 10036472 N2F4 Gaz incolore très réactif  Mutagène au test d’Ames   Dangereuse à manipuler hydrazine  Corrosif  Très toxique  237 Hydrogène 7722841 H2O2  Liquide incolore  Mutagène au test d’Ames  Toxique (variable selon la peroxide  Utilisé comme agent de blanchiment,  Carcinogène dose) antiseptique et comme ergols dans l’aéronautique 

Nitrogène 10544726 N2O4 Liquide incolore jaune  Mutagène au test d’Ames, au test Toxique tetroxides Principalement utilisé dans la propulsion d’aberrations chromosomiques238 Corrosif spatiale Irritant (NTO) Perturbateur endocrinien

220

 TMEDA 110189 C6H16N2   Non mutagène au test d’Ames et au test  d’aberrations chromosomiques227,239

Les oxydants

Noms N° CAS Formule  Propriétés physiques Données CMR Toxicité Acide nitrique  +12  Liquide incolore et inodore  Mutagène au test d’Ames240  Très corrosif  Utilisé dans la production d’engrais et comme  Modérément toxique241 décapant industriel.  Ammonium  NH4NO3  Utilisé comme fertilisant dans l’industrie agricole,  Non mutagène au test d’Ames et au test  Rougeurs, maux de gorge, nitrate comme oxydant dans l’industrie militaire, chimique d’aberrations chromosomiques96 toux, démangeaisons et pharmaceutique   Irritant

Ammonium 7790989 NH4ClO4 - Solide incolore cristallin  Non mutagène au test d’Ames et au test  perchlorate - Utilisé dans les boosters d’Ariane 5 MLA225,242  243,244 Oxide nitrous 10024972 N2O  Gaz incolore  Mutagène au test d’Ames   Vomissements, nausées,  Utilisé en anesthésie, dans les moteurs à hypoxie, vertiges, combustion et dans les compétitions automobiles  hallucinations.  245 Potassium 7757791 KNO3  Poudre cristalline incolore  Non mutagène au test d’Ames   nitrate  Aussi connu sous le nom de salpêtre  Un des composants de la poudre noire  Utilisé comme propergol de fusée, comme diurétique et dans le domaine alimentaire (coloration et conservation)  246 HAN 13465082 H4N2O4  Solide incolore  Non mutagène au test d’Ames   Toxique   Mutagène au test MLA  Irritant/Corrosif  Dangereux pour l’environnement 247 Hydrazine 13464976 N3H5O3  Liquide inorganique qui possède deux formes  Mutagène au test d’Ames   nitrate cristallines  Possède une stabilité thermique

221

 Les stabilisants

Noms N° CAS Formule Propriétés physiques Données CMR Toxicité 248 2nitro 119755 C12H10N2O2 Solide cristallin rouge  Non mutagène au test d’Ames   diphenylamine Utilisé comme propergol, dans les plastiques, dans les lubrifiants et dans les colorants  93,249 3methyl1,1 612011 C14H14N2O   Non mutagène au test d’Ames   Irritant pour les yeux diphenylurée  Allergies 250,251 Calcium ǦǦ &+2&D   Non mutagène au test d’Ames   Non irritant carbonate  Carcinogène  Sensible pour la peau  253 Diphenylamine 122394 C12H11N  Solide cristallin brun  Non mutagène au test d’Ames  Dangereux pour l’environnement   Utilisé dans la fabrication de  Carcinogène252  Irritant/Corrosif254 colorant et possède des propriétés  Dommage aux reins  fongicides  Vomissements, nausées, vertiges,  Se colore à la lumière confusions lorsqu’il est inhalé. Nmethyl4 100152 CΒHΓN΍O΍  Poudre jaune  Mutagène au test d’Ames255  Toxique si avalé ou inhalé nitroaniline  Dangereux pour l’environnement256 239,257 Triphenylamine 603349 C18H15N  Utile dans la bioluminescence et la  Non mutagène au test d’Ames  Irritant conductivité électrique 

Les molécules pyrotechniques

Noms N° CAS Formule  Propriétés physiques Données CMR Toxicité 258,259 Barium chlorate 10361372 BaCl2  Solide cristallin (2 formes)  Non mutagène au test d’Ames   Toxique  Coloration légèrement verte à la flamme  Non carcinogène260  Irritant  Peu cher donc utilisé dans de nombreux  Reprotoxique domaines: pigments, feux d’artifices…  http://www.inchem.org/documents/cicads/c icads/cicad33.htm

222

 261 Hexanitrostilbène  C14H6N6O12   Mutagène au test d’Ames   (HNS) 262 Paris Green 12002038 Cu(C2H3O2  Poudre cristalline verte  Non mutagène au test d’Ames   Hautement toxique ) ·3Cu(As  Utilisé comme rodenticide, insecticide,  Conjonctivite, anémie, atteinte 2  Mutagène au test d’aberrations O )  colorant et dans les feux d’artifices hépatique 2 2 chromosomiques263  Synonyme: acétoarsénite de cuivre 229 266 Sodium nitrate 7631994 NaNO3  Solide blanc  Non mutagène au test d’Ames   Irritant   Utilisé dans la production d’engrais,  Mutagène au test d’aberrations  Vertiges, convulsions, poteries, bombes fumigènes, conservateurs chromosomiques264 vomissements, maux de tête, alimentaires   Non carcinogène265 dépression267 http://www.inchem.org/documents/jecfa/jec  mono/v35je14.htm 268,269 Strontium 1633052 SrCO3  Poudre blanche inodore  Non mutagène au test d’Ames   Stable carbonate  Utilisé dans les fusées éclairantes, le verre  Pas de risque majeur  irisé, les peintures lumineuses et les médicaments Strontium chloride 10476854 6U&O  Emet une flamme rouge  Non mutagène au test d’Ames, au test http://ec.europa.eu/health/scientific_c   Utilisé en petite quantité dans la d’aberrations chromosomiques et au test ommittees/consumer_safety/opinions métallurgie MLA268,269 /sccnfp_opinions_97_04/sccp_out02 _en.htm  Strontium nitrate 10042769 6U 12   Effet de couleur rouge  Non mutagène au test d’Ames268,270 

Strontium sulfate 7759026 6U62   Non mutagène au test d’Ames, au test  d’aberrations chromosomiques et au test MLA268,269

Styphnic acide 82713 C6H3N3O8  Semblable à l’acide picrique  Non mutagène au test d’Ames  Extrêmement sensible à la chaleur  Utilisé dans la synthèse d’encres, de  Irritant https://toxnet.nlm.nih.gov/cgi médicaments, pigments…  Vomissements, nausées, maux de bin/sis/search2/f?./temp/~PvsNQ7:2 tête et dommages aux riens 271,272 Hexachloroethane 67721 C2Cl6  Solide incolore (existe sous deux formes)  Carcinogène   Irritant  Utilisé dans la fabrication des fumigènes.  Reprotoxique  Cadmium oxide 1306190 CdO Solide cristallin de couleur brun  Carcinogène273–276  Utilisé dans les vernis minéraux  Reprotoxique 223

 

224