Logiciel MPSA Et Ressources Bioinformatiques Client- Serveur Web Dédiés À L’Analyse De Séquences De Protéine
Total Page:16
File Type:pdf, Size:1020Kb
N° d’ordre 139-99 Année 1999 THÈSE présentée devant l’UNIVERSITÉ CLAUDE BERNARD – LYON 1 pour l’obtention du DIPLÔME DE DOCTORAT (arrêté du 30 mars 1992) présentée et soutenue publiquement le 31 mai 1999 par M. Christophe BLANCHET TITRE : Logiciel MPSA et ressources bioinformatiques client- serveur Web dédiés à l’analyse de séquences de protéine. Directeur de thèse : Pr Gilbert DELEAGE JURY : Dr Marc-André DELSUC, Rapporteur Dr Philippe DESSEN, Rapporteur Dr Jean-Jacques CODANI Pr Alain-Jean COZZONE, Président Pr Gilbert DELÉAGE Avant-propos Avant-Propos Avant de commencer, j'aimerais attirer l'attention du lecteur sur deux notions. Tout d'abord je trouve qu'il est toujours très difficile de présenter un logiciel ou un site Web par écrit : que ce soit dans un document relié, avec des transparents ou avec des diapositives. C'est pourquoi, je ne saurais que conseiller au lecteur d'essayer les logiciels et de visiter les sites Web que je présente dans cet ouvrage. Notamment en ce qui concerne MPSA, le lecteur pourra trouver toutes les informations disponibles sur le site Web (http://www.ibcp.fr/mpsa) et y télécharger un exécutable pour son système d'exploitation. La deuxième notion sur laquelle je voudrais attirer votre attention est la mise sur le Web de cette thèse. En effet, cet ouvrage traitant de bioinformatique et du World-Wide Web, il contient de nombreuses références à d'autres documents répartis sur Internet. C'est pourquoi je publierai la version finale de ma thèse au format HTML sur ma page personnelle (http://www.ibcp.fr/~blanchet). - 3 - Remerciements Remerciements En premier lieu mes remerciements vont à mes rapporteurs, les Dr Phillipe Dessen et Marc-André Delsuc, pour avoir accepté de juger le travail que j’ai effectué au cours de ma thèse. Mes remerciements sont également adressés au Dr Jean-Jacques Codani, au Pr Alain-Jean Cozzone et au Pr Gilbert Deléage pour leur participation à mon jury. J’ai une attention particulière pour Gilbert Deléage qui m’a accueilli depuis mon stage de DEA dans son équipe, le Laboratoire de Conformation des Protéines (sans oublier François Penin). Sans lui, je ne serais peut-être pas revenu à une de mes passions un moment délaissée : l’informatique. En effet le champ de recherche qu’il m’avait proposé alors, la Bioinformatique, m’a permis de concilier et d’imbriquer deux disciplines qui m’intéressent au plus haut point : la Biologie et l’Informatique. De la même manière, je remercie le Pr A.J. Cozzone tout d’abord pour m’avoir accueilli au sein de l’Institut de Biologie et Chimie des Protéines (CNRS – UPR 412), mais également pour la confiance qu’il m’a accordée en me confiant la création et l’administration du serveur Web de l’EDISS, École Doctorale Interdisciplinaire Sciences- Santé, qu’il dirige et à laquelle j’ai appartenu au cours de ma formation doctorale. Je remercie tous les membres du Laboratoire de Conformation de Protéines pour leur bonne humeur et leur disponibilité, gages d'un climat de travail de qualité: Anja Böckmann, Christophe Combet, Christophe Geourjon, Laurent Ladavière, Roland Montserret, François Penin, Tetsuya Takahashi, mais également le presque-de-la-famille "Xav. le graveur fou". Je ne peux remercier les gens de mon équipe sans remercier un autre Xavier que je n'ai pas eu la joie de connaître plus longtemps car il nous a quitté beaucoup trop rapidement. La coutume veut de dire que ce sont toujours les meilleurs qui s'en vont, parfois c'est tragiquement vrai… Je citais tout à l'heure l’EDISS, tous mes remerciements vont également aux membres etudiants du bureau avec qui j’ai pris plaisir - 5 - Table des matières à travailler : Olivier N., Marie-Caroline N.-D., Pierre H., Frédéric B., Bruno C., pour ne citer qu’eux. Ces mêmes personnes et toute leur petite famille se retrouvent également ici remerciées au même titre que de nombreuses autres personnes que je considère comme mes amis. Je ne saurai terminer sans adresser tous mes chaleureux remerciements à mes parents et à ma famille, mais également à mes beaux-parents et à la famille de Christelle. Christelle, que je remercie ici de tout mon cœur pour son amour et son soutien. Sans oublier le petit bout de chou trognon que nous avons la chance d'avoir pour fille, notre petite Alice. Christophe - 6 - Table des matières Table des Matières Avant-Propos.................................................................................................................. 3 Remerciements............................................................................................................... 5 Table des Matières ......................................................................................................... 7 Table des illustrations.................................................................................................. 13 Abréviations ................................................................................................................. 15 1 Introduction .............................................................................................................. 17 2 Rappels bibliographiques ......................................................................................... 21 2.1 Le Web : le nouvel outil du biologiste....................................................................21 2.2 Les bases de données relatives aux protéines .........................................................23 2.2.1 DBcat : la banque des banques de données biologiques...........................................................24 2.2.2 Les banques de séquences de protéines généralistes ................................................................24 2.2.2.1 SWISS–PROT......................................................................................................................24 2.2.2.2 TrEMBL...............................................................................................................................26 2.2.2.3 PIR International..................................................................................................................27 2.2.3 Les banques de séquences de protéine spécialisées ..................................................................28 2.2.4 Autres bases de données biologiques utiles en analyse de séquences.....................................28 2.2.4.1 Banques de motifs protéiques.............................................................................................28 2.2.4.1.1 PROSITE ......................................................................................................................29 2.2.4.1.2 PRODOM, DOMO et Pfam ........................................................................................29 2.2.4.1.3 BLOCKS et PRINTS ...................................................................................................29 2.2.4.2 Banque de structures tridimensionnelles : la PDB ............................................................30 2.2.4.3 Banque de domaines structuraux : SCOP, CATH, etc. .....................................................30 2.2.5 Outils d’interrogation de bases de données ...............................................................................30 2.3 Alignement de séquences de protéine.....................................................................31 2.3.1 Algorithme de programmation dynamique de Smith et Waterman .........................................31 2.3.2 Recherche de protéines similaires : alignement par paire ........................................................33 2.3.2.1 FASTA..................................................................................................................................33 2.3.2.2 BLAST..................................................................................................................................34 2.3.2.3 Efficacité relative des méthodes .........................................................................................34 2.3.3 Étude d’une famille de protéines : alignement multiple ...........................................................35 2.3.3.1 Quelques méthodes disponibles : Clustal W, Multalin, etc. .............................................35 2.3.3.1.1 Les algorithmes fondamentaux d’alignement multiple.............................................35 2.3.3.1.2 Algorithmes optimisant les fondamentaux.................................................................36 2.3.3.2 Validation de ces méthodes ................................................................................................36 2.4 Prédiction de structure secondaire ........................................................................38 2.4.1 Prédiction à partir de la seule séquence de la protéine..........................................................39 2.4.2 Incorporation de l'information relative à l’évolution de la séquence .....................................39 2.4.2.1 En utilisant la notion de similarité de séquences...............................................................39 2.4.2.2 En utilisant les alignements multiples................................................................................40 2.4.2.3 En utilisant la Phylogénie ...................................................................................................40 - 7 - Table des matières 2.4.3 Comparaison des qualités de prédiction ...................................................................................40 2.4.3.1 Nouvelles perspectives........................................................................................................40