DEMOCRITUS UNIVERSITY OF THRACE SCHOOL OF HEALTH SCIENCIES DEPARTMENT OF MOLECULAR BIOLOGY & GENETICS

Master’s Programme of Studies «Translational Research in Molecular Biology and Genetics»

Comparative genomic survey of NAT homologues in

Olmpasalis Ioannis (Ολμπασάλης Ιωάννης)

Supervisor: Dr. Sotiria Boukouvala, Assistant Professor.

MASTER THESIS October2015

ΠΕΡΙΛΗΨΗ

Εισαγωγή: Ξενοβιοτικές είναι οι οργανικές χημικές ενώσεις που δεν παράγονται από έναν οργανισμό, αλλά αυτός τις προσλαμβάνει από το περιβάλλον στο οποίο ζει. Οι ουσίες αυτές, που συχνά είναι βλαπτικές, μεταβολίζονται από τον οργανισμό έτσι ώστε να αποτοξικοποιηθούν και να απεκκριθούν πιο εύκολα. Οι αντιδράσεις του ξενοβιοτικού μεταβολισμού καταλύονται από πληθώρα διαφορετικών ενζύμων τα οποία καταλύουν αντιδράσεις υδρόλυσης, αναγωγής, οξείδωσης (αντιδράσεις Φάσης Ι) ή σύζευξης (αντιδράσεις Φάσης ΙΙ). Οι Ν-ακετυλοτρανσφεράσες των αρυλαμινών (ΝΑΤ, E.C. 2.3.1.5) είναι ένζυμα της Φάσης ΙΙ του ξενοβιοτικού μεταβολισμού και απαντούν στις περισσότερες ευρείες ταξινομικές ομάδες οργανισμών, εκτός από τα φυτά. Καταλύουν τη βιομετατροπή αρωματικών αμινών και υδραζινών, συμπεριλαμβανομένης πληθώρας συνθετικών ξενοβιοτικών ουσιών που μπορεί να έχουν είτε φαρμακευτική είτε καρκινογόνο δράση. Σκοπός της παρούσας μελέτης ήταν η διεξοδική γονιδιωματική επισκόπηση των αλληλουχημένων προκαρυωτικών γονιδιωμάτων, ώστε να επιτευχθεί η ανάκτηση και ταυτοποίηση (annotation) του πλήρους ανοιχτού πλαισίου ανάγνωσης (open reading frame - ORF) όλων των πιθανών γονιδίων ΝΑΤ. Ακολούθως, διενεργήθηκε φυλογενετική ανάλυση των ταυτοποιημένων προκαρυωτικών αλληλουχιών ΝΑΤ που χαρακτηρίστηκαν με την κατασκευή φυλογενετικών δέντρων.

Μέθοδοι: Για την ανάκτηση των νουκλεοτιδικών αλληλουχιών ΝΑΤ από γονιδιώματα αλληλουχημένων προκαρυωτικών οργανισμών πραγματοποιήθηκε γονιδιωματική επισκόπηση στη βάση δεδομένων Entrez-Genomes, χρησιμοποιώντας κατάλληλες αμινοξικές αλληλουχίες αναφοράς για βακτήρια ή αρχαία και εφαρμόζοντας το πρόγραμμα αναζήτησης tBLASTn. Στα τμήματα των νουκλεοτιδικών αλληλουχιών που ανασύρονταν από την αρχική επισκόπηση BLAST, πολύ συχνά παρατηρήθηκε ότι δεν περιλαμβανόταν ολόκληρο το ORF του πιθανού γονιδίου ΝΑΤ (παρά μόνο το πιο συντηρημένο κεντρικό τμήμα) και για το λόγο αυτό η αναζήτηση επαναλαμβανόταν με πιο ομόλογες ανακτημένες αλληλουχίες ή ακόμη και χειροκίνητα, απευθείας από τη σελίδα της GenBank που περιείχε την αντίστοιχη γονιδιωματική αλληλουχία του οργανισμού. Για την ταυτοποίηση (annotation) των ανακτημένων προκαρυωτικών αλληλουχιών ΝΑΤ εφαρμόστηκε η διαδικασία Local Blastp στο πρόγραμμα Bioedit με το οποίο και έγινε η πλήρης διαχείριση και επεξεργασία των ανακτημένων νουκλεοτιδικών και αντίστοιχων αμινοξικών αλληλουχιών, σύμφωνα με τα κριτήρια που έχει ορίσει η Διεθνής Επιτροπή Ονοματολογίας των Γονιδίων ΝΑΤ (http://nat.mbg.duth.gr). Για την πολλαπλή γραμμική στοίχιση των αμινοξικών αλληλουχιών ΝΑΤ χρησιμοποιήθηκε το πρόγραμμα CLUSTALW και η κατασκευή των αντίστοιχων φυλογενετικών δένδρων έγινε με το πρόγραμμα MEGA6, εφαρμόζοντας τη μέθοδο της «Ένωσης Γειτόνων» (Neighbor Joining), με αξιολόγηση Bootstrap και πρότυπο αντικατάστασης Jones, Taylor & Thornton (JTT).

1

Αποτελέσματα: Κατά την περίοδο διεξαγωγής της παρούσας μελέτης (Νοέμβριος 2014 - Ιούλιος 2015), πραγματοποιήθηκε επισκόπηση περίπου 30.000 αλληλουχημένων προκαρυωτικών γονιδιωμάτων από τη βάση δεδομένων Entrez- Genome. Στα βακτήρια ανακτήθηκαν και ταυτοποιήθηκαν συνολικά 3009 γονίδια ΝΑΤ από 141 γένη που ανήκουν στα φύλα των (Alpha-proteobacteria, Beta-proteobacteria, Gamma-proteobacteria), , Firmicutes, Chlamidiae, Verrucomicrobia, Chloroflexi, Cyanobacteria, Nitrospinae, Planctomycetes και Spirochaetes. Στα αρχαία ανακτήθηκαν και ταυτοποιήθηκαν συνολικά 5 γονίδια ΝΑΤ από 5 διαφορετικά γένη, που όμως όλα ανήκουν στο φύλο Euryarchaeota, κλάση Halobacteria. Για τα υπόλοιπα φύλα βακτηρίων και αρχαίων διαπιστώθηκε ότι δεν υπάρχουν γονίδια ΝΑΤ στα διαθέσιμα γονιδιώματα των αλληλουχημένων εκπροσώπων τους, οι οποίοι είναι ωστόσο αναλογικά λιγότεροι σε αριθμό. Τα αποτελέσματα παρουσιάζονται σε αναλυτικούς πίνακες, όπου παρέχεται η επίσημη επιστημονική ονομασία κάθε είδους, καθώς και οι αντίστοιχοι επίσημοι κωδικοί ταυτοποίησης (taxon mnemonic) και κωδικοί αριθμοί ταξινόμησης ( identifiers), όπως αυτοί αναγράφονται στη βάση δεδομένων UniProt Taxonomy. Για κάθε ταυτοποιημένο γονίδιο ΝΑΤ παρέχεται το μήκος της νουκλεοτιδικής και αντίστοιχης αμινοξικής αλληλουχίας, καθώς και η ομολογία κάθε αμινοξικής αλληλουχίας ΝΑΤ, σε σχέση με την αντίστοιχη αλληλουχία αναφοράς. Η ονοματολογία των γονιδίων ΝΑΤ είναι σύμφωνη προς τους επίσημους κανόνες της Διεθνούς Επιτροπής Ονοματολογίας των γονιδίων ΝΑΤ. Για τη φυλογενετική ανάλυση προτιμήθηκαν οι περισσότερο συντηρημένες αμινοξικές αλληλουχίες των προκαρυωτικών πρωτεϊνών ΝΑΤ και η κατασκευή των φυλογενετικών δένδρων έγινε για καθένα φύλο ξεχωριστά και ενδεικτικά για επιλεγμένους εκπροσώπους όλων των φύλων μαζί.

Συζήτηση: Μεταξύ των βακτηρίων με γονίδια ΝΑΤ περιλαμβάνονται πολλά είδη σημαντικού κλινικού ενδιαφέροντος, δεδομένου ότι προκαλούν σοβαρές ασθένειες στον άνθρωπο. Για πολλά από αυτά τα παθογόνα είδη έχει αλληλουχηθεί πληθώρα στελεχών, όπου τα γονίδια ΝΑΤ μπορεί να εμφανίζονται ως πολυμορφικά. Τα βακτηριακά ένζυμα ΝΑΤ έχει βρεθεί ότι μεταβολίζουν κάποια φάρμακα που χορηγούνται για την καταπολέμηση των λοιμώξεων, ενώ στα μυκοβακτήρια διερευνώνται ως πιθανοί φαρμακευτικοί στόχοι για επίδραση με αναστολείς. Ενδεχομένως η πολυμορφικότητα που εμφανίζουν διαφορετικά στελέχη στα γονίδια ΝΑΤ να σχετίζεται με κάποιες κλινικές παραμέτρους της λοίμωξης, όπως π.χ. η ανθεκτικότητα σε αντιμικροβιακά φάρμακα. Μεγάλης φαρμακευτικής σημασίας είναι το ακτινοβακτήριο Amycolatopsis mediterranei (όπου το ισοένζυμο ΝΑΤ2 είναι γνωστό ότι συμμετέχει στο μεταβολικό μονοπάτι βιοσύνθεσης του αντιβιοτικού ριφαμυκίνη), όπως και κάποια είδη του γένους από τα οποία παρασκευάζονται διάφορα αντιβιοτικά (όπως π.χ. η στρεπτομυκίνη από το Streptomyces griseus). Ανάλογης σημασίας είναι και το είδος Brevibacillus brevis των Firmicutes που βιοσυνθέτει τα αντιβιοτικά τυρομισίνη και γραμισιδίνη. Γενικά, βακτήρια που είναι γνωστό ότι διαθέτουν πλούσιο δευτερογενή μεταβολισμό (π.χ. στρεπτομύκητες, βάκιλλοι) φέρουν πολλαπλά παράλογα γονίδια ΝΑΤ στα αλληλουχημένα γονιδιώματά τους, γεγονός που υποδηλώνει ότι κάποια από τα γονίδια αυτά μπορεί να εμπλέκονται σε αντίστοιχα βιοσυνθετικά μονοπάτια. Προς αυτήν την κατεύθυνση, η παρούσα γονιδιωματική επισκόπηση μπορεί να αποτελέσει αφετηρία για μελλοντική διερεύνηση της ύπαρξης πιθανών βακτηριακών οπερονίων στα οποία μπορεί να εδράζονται γονίδια ΝΑΤ, π.χ. στα ακτινοβακτήρια. Μια άλλη ενδιαφέρουσα κατεύθυνση μελλοντικής έρευνας είναι η διεξοδική λειτουργική μελέτη των ενζύμων ΝΑΤ σε βακτήρια που βιοαποικοδομούν ξενοβιοτικές ουσίες, οι οποίες είναι επικίνδυνες για την ανθρώπινη υγεία και το περιβάλλον.

2

Τέτοιες μελέτες ενδεχομένως να οδηγήσουν στην ανάπτυξη νέων στρατηγικών για καλύτερη διαχείριση του περιβάλλοντος. Τέλος, αρκετά προκαρυωτικά είδη με γονίδια ΝΑΤ εμφανίζουν ικανότητα προσαρμογής σε ακραίες περιβαλλοντικές συνθήκες, οπότε ενδέχεται να έχουν ενδιαφέρον σε οικολογικές μελέτες. Χαρακτηριστικό είναι ότι στα αρχαία βρέθηκαν γονίδια ΝΑΤ μόνο σε Halobacteria τα οποία αναπτύσσονται σε περιβάλλοντα με πολύ υψηλή αλατότητα. Από την παρατήρηση των φυλογενετικών δένδρων που κατασκευάστηκαν, τα γονίδια ΝΑΤ φαίνεται να εμφανίζονται νωρίς στη εξέλιξη των προκαρυωτών και να διαφοροποιούνται κατά τη διάρκειά της, ενδεχομένως οδηγώντας σε αντίστοιχη λειτουργική διαφοροποίηση των ενζύμων που κωδικοποιούν. Η ομαδοποίηση (clustering) των αλληλουχιών ΝΑΤ γενικώς δεν φαίνεται να αποκλίνει από την συναινετική επιστημονική ταξινόμηση των αντίστοιχων ειδών στα οποία απαντούν. Ωστόσο, έχει αξία να διερευνηθεί το ενδεχόμενο σε κάποιες περιπτώσεις να έχει πραγματοποιηθεί οριζόντια μεταφορά γονιδίων μεταξύ ταξινομικά απομακρυσμένων προκαρυωτών.

3

SUMMARY

Introduction: Xenobiotics are organic compounds that enter a living organism from the environment and, therefore, are not products of an organism's endogenous metabolism. Many xenobiotics can cause damage to the basic molecular functions of cells; organisms are, thus, well-adapted to metabolize and detoxify such compounds, avoiding their effects and facilitating their excretion. The reactions of xenobiotic metabolism are catalyzed by various enzymes, typically classified in one of two categories: Phase I enzymes catalyze hydrolysis, reduction or oxidation reactions; Phase II enzymes catalyze different conjugation reactions. Phase II arylamine N- acetyltransferases (ΝΑΤ, E.C. 2.3.1.5) constitute a conserved family of enzymes found in every major taxonomic group surveyed, except plants. The NAT enzymes catalyze the biotransformation of aromatic amines and hydrazines, including xenobiotics of synthetic origin that may have pharmacological or carcinogenic effects. The purpose of the present study was to conduct a thorough genomic survey of available sequenced prokaryotic genomes, in order to reconstruct and annotate the full open reading frame (ORF) of putative NAT genes. Subsequently, a phylogenetic analysis of all characterized NAT amino acid sequences was performed, supported by the construction of phylogenetic trees.

Methods: For the retrieval of putative NAT nucleotide sequences from all accessible prokaryotic genomes, an exhaustive survey of all Entrez-Genome prokaryotic databases was conducted, using the tBLASTn search programme. Consensus amino acid sequences for bacterial and archaeal NAT proteins were used to search the database. The initial tBLASTn screens very often retrieved incomplete ORFs, corresponding to the more conserved central part of the sequence essential for catalytic activity of NAT enzymes. In those cases, the tBLASTn search was repeated multiple times, using query sequences with increasing homology to the recovered NAT gene. In cases when this approach was ineffective, manual reconstruction of the ORF was performed, directly from the GenBank-deposited genomic sequence of each organism. For full annotation of all reconstructed prokaryotic NAT genes, the Local Blastp feature of Bioedit software was used, employing consensus criteria. Gene symbols were assigned according to the guidelines of the International N- acetyltransferase Gene Nomenclature Committee (http://nat.mbg.duth.gr). For multiple alignment of the deduced NAT amino acid sequences, the CLUSTALW software was used, while the construction of phylogenetic trees was carried out using the MEGA6 software. The Neighbor-Joining method was employed and the Bootstrap test (1000 replicates) was used to validate each tree. For the substitution model, the Jones, Taylor & Thornton (JTT) parameter was applied.

Results: During the period of the study (November 2014 - July 2015), a survey of approximately 30.000 sequenced prokaryotic genomes was performed, available in the Entrez-Genome database. In bacteria, a total of 3009 NAT genes from 141 genera were annotated, belonging to the phyla of Proteobacteria (classes of Alpha- proteobacteria, Beta-proteobacteria, Gamma-proteobacteria), Actinobacteria, Firmicutes, Chlamidiae, Verrucomicrobia, Chloroflexi, Cyanobacteria, Nitrospinae, Planctomycetes and Spirochaetes. In archaea, only 5 NAT genes were annotated from 5 different genera, all belonging to the phylum of Euryarchaeota, specifically the class of Halobacteria. Νo NAT genes were found in other bacterial and archaeal phyla, although the number of sequenced genomes was substantially lower for those particular taxonomic groups. 4

The results are presented in comprehensive tables, providing each NAT gene annotation together with the official scientific name, the taxon mnemonic and the taxon identifier of each corresponding species retrieved from the UniProt Taxonomy database. For each annotated NAT gene, the length of the determined nucleic acid and deduced amino acid sequence is provided. The amino acid sequence homology to the reference NAT protein is also included. The nomenclature of annotated NAT genes is provided in line with the guidelines of the International N-acetyltransferase Gene Nomenclature Committee. For the phylogenetic analyses, the more conserved NAT protein sequences were preferred and phylogenetic trees were constructed for each phylum separately. Representatives of all phyla were finally combined in a single tree.

Discussion: It was observed that many bacteria with NAT genes belong to species of significant clinical relevance, as they are known to cause serious human illnesses. For many of those pathogens, the genome sequence is available for a plethora of strains/clinical isolates, where the NAT genes may appear as polymorphic. Bacterial NAT enzymes effectively metabolize certain drugs (e.g. isoniazid, sulphonamides) that are used against microbial infections, while mycobacterial NATs have also been studied as possible drug targets for inhibition with small molecules. It is possible that polymorphisms in bacterial NAT genes may be related to specific clinical characteristics of the infection, such as resistance to antimicrobial drugs. Of great pharmaceutical importance is the actinobcterium Amycolatopsis mediterranei (where the NAT2 isoenzyme is known to catalyze the final step of the biosynthetic pathway of rifamycin), as well as certain antibiotic-producing species of Streptomyces, such as Streptomyces griseus which produces streptomycin. Of similar importance is also the the Brevibacillus brevis species of Firmicutes, which synthesizes the antibiotics tyromycin and gramicidin. It was observed that bacterial species known for their rich secondary metabolism, like the streptomycetes and bacilli, tend to harbor more than one NAT paralogue in their sequenced genomes, potentially implicating NAT enzymes in such biosynthetic pathways. In that context, the present study can be used as a starting point for future research into the possible association of NAT genes with biosynthetic gene clusters or operons, for example in actinobacteria. Another interesting line of future investigation is the postulated role of NAT enzymes in bacteria capable of detoxifying xenobiotics that are hazardous to humans and the environment. Such studies may lead to the development of novel strategies for better environmental management. Finally, several identified species with NAT genes are extremophiles of significant ecological interest. For instance, it is intriguing that all archaeal NAT genes belong to species of Halobacteria, which can survive environments with very high salinity. From the observation of the constructed phylogenetic trees, it appears that NAT genes emerged early in prokaryotic evolution, diverging over time, potentially leading to considerable functional diversification of their encoded enzyme products. The clustering of prokaryotic NAT protein sequences does not seem to substantially deviate from the consensus species taxonomy. However, it would be useful to further refine our phylogenetic analyses, looking into the possibility of horizontal gene transfer events involving NAT genes among prokaryotes.

5

ΕΥΧΑΡΙΣΤΙΕΣ

Χωρίς την παρουσία, την υποστήριξη και την ανεκτικότητα κάποιων ανθρώπων δεν θα ήταν δυνατή η ολοκλήρωση της μεταπτυχιακής μου διατριβής.

Πρώτα από όλους θα ήθελα να ευχαριστήσω την επιβλέπουσα Δρ. Σωτηρία Μπουκουβάλα, Επίκουρη Καθηγήτρια του τμήματος Μοριακής Βιολογίας και Γενετικής για την επιστημονική, πνευματική και ηθική υποστήριξη που μου παρείχε καθ’ όλη τη διάρκεια της εκπόνησης της μεταπτυχιακής διατριβής. Επίσης, ευχαριστώ, τα υπόλοιπα μέλη της τριμελούς επιτροπής, την κ. Χατζάκη Μαρία, Επίκουρη Καθηγήτρια και τον κ. Αγιανιάν Παύλο, Επίκουρο Καθηγητή, για την αποτελεσματική συνεργασία και συμβολή τους στην ολοκλήρωση της παρούσας εργασίας. Θα ήθελα ακόμη να ευχαριστήσω όλα τα μέλη του εργαστηρίου για τη συνεργασία και την υποστήριξή τους.

Ιδιαίτερα, θα ήθελα να ευχαριστήσω τη γυναίκα μου Άννα Γκαζέμπα για την αμέριστη κατανόηση και τη συνεχή συμπαράστασή της κατά τη διάρκεια των σπουδών που μου έδινε δύναμη να συνεχίσω και να προσπαθώ πάντα για το καλύτερο.

Τέλος, δεν θα μπορούσα να μην ευχαριστήσω τους γονείς μου Κωνσταντίνο και Γραμματούλα για τη διαχρονική ανιδιοτελή, αμείωτη υλική και ηθική στήριξη των επιλογών μου.

6

Στη γυναίκα μου Άννα και στην οικογένειά μου.

7

ΠΕΡΙΕΧΟΜΕΝΑ

ΠΕΡΙΛΗΨΗ……………………………………………………………..1-3

SUMMARY………………………………………………………………………..4-5

ΕΥΧΑΡΙΣΤΙΕΣ……………………………………………………………………6-7

ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ

1.1. Ξενοβιοτικές ουσίες...... 8

1.2. Ξενοβιοτικός μεταβολισμός...... 9-10

1.3. Ξενοβιοτικός μεταβολισμός στους μικροοργανισμούς...... 11-12

1.4. Τα ένζυμα του ξενοβιοτικού μεταβολισμού...... 2-13

1.5. Οι Ν-ακετυλοτρανσφεράσες των αρυλαμινών (NAT)...... 14

1.5.1. Η ενζυμική λειτουργία των πρωτεϊνών ΝΑΤ...... 14-16

1.5.2. Τα υποστρώματα των ενζύμων ΝΑΤ...... 16-18

1.5.3. Η δομή των πρωτεϊνών ΝΑΤ...... 19-20

1.5.4. Ο μηχανισμός κατάλυσης των ενζύμων ΝΑΤ...... 21-22

1.6. Γονίδια και ένζυμα ΝΑΤ σε διαφορετικές ταξινομικές ομάδες οργανισμών...... 23

1.6.1. ΝΑΤ στους ευκαρυώτες...... 23

1.6.1.1. ΝΑΤ στον άνθρωπο και άλλα ζώα...... 23-24

1.6.1.2 ΝΑΤ σε ευκαρυωτικούς μικροοργανισμούς...... 24-25

1.6.2. ΝΑΤ στους προκαρυώτες...... 25-28

1.7. Φυλογενετική ανάλυση αλληλουχιών ΝΑΤ...... 29-30

1.8. Σκοπός της παρούσας μελέτης...... 31-32

ΚΕΦΑΛΑΙΟ 2: ΜΕΘΟΔΟΙ

2.1. Παρουσίαση υπολογιστικών εργαλείων βιοπληροφορικής ανάλυσης που χρησιμοποιήθηκαν κατά την παρούσα διατριβή…………………...... 32

2.1.1. Οι δημόσιες βάσεις βιολογικών δεδομένων……………………………………….32

2.1.1.1. Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών………………………………32

2.1.1.2. Βάσεις δεδομένων αλληλουχημένων γονιδιωμάτων……………………………33

2.1.1.3. Βάσεις δεδομένων πρωτεϊνικών αλληλουχιών………………………………33-34

2.1.1.4. Βάσεις δεδομένων Ταξινομικής…………………………………………………...34

2.1.1.5. Ανάκτηση δεδομένων από δημόσιες βάσεις βιολογικών δεδομένων………….34

2.1.2. Στοίχιση αλληλουχιών………………………………………………………………...35

2.1.2.1. Στοίχιση αλληλουχιών ανά ζεύγη………………………………………………….36

2.1.2.2. Συστήματα βαθμολόγησης των στοιχίσεων ανά ζεύγη………………………….36

2.1.2.3. Πίνακες αντικατάστασης καταλοίπων PAM και BLOSUM………………..36-37

2.1.2.4. Ποινές εισαγωγής κενών (gap penalties)………………………………………..37

2.1.2.5. Το λογισμικό πακέτο BLAST (Basic Local Alignment Search Tool)...... 37-39

2.1.2.6. Πολλαπλή γραμμική στοίχιση αλληλουχιών……………………………………...40

2.1.2.7. Λογισμικά πακέτα πολλαπλής γραμμικής στοίχισης αλληλουχιών…………….40

2.1.2.8. Συστήματα βαθμολόγησης πολλαπλής γραμμικής στοίχισης αλληλουχιών…...41 2.1.2.9. Επεξεργασία νουκλεοτιδικών και αμινοξικών αλληλουχιών - Το πρόγραμμα

Βioedit……………………………………………………………………………………...41-42

2.1.3 Φυλογενετική ανάλυση…………………………………………………………….42-43

2.1.3.1. Ομόλογες αλληλουχίες………………………………………………………….43-44

2.1.3.2. Επιλογή αλληλουχιών για φυλογενετική ανάλυση…………………………...44-45 2.1.3.3 Μέθοδοι κατασκευής φυλογενετικών δένδρων…………………………………...45

2.1.3.3.1 Μέθοδοι βασισμένες στην απόσταση…………………………………………….45

2.1.3.3.2 Μέθοδοι βασισμένες σε χαρακτήρες…………………………………………45-46

2.1.3.4 Πρότυπα αντικατάστασης…………………………………………………………...46

2.1.3.5. Φυλογενετικά δένδρα με ρίζα και χωρίς ρίζα……………………………………46

2.1.3.6. Αξιολόγηση φυλογενετικών δένδρων - Η μέθοδος Bootstrap………………….47

2.1.3.7. Λογισμικά πακέτα φυλογενετικής ανάλυσης - Το πρόγραμμα MEGA6…….47 2.1.3.8 Διαδικτυακές πλατφόρμες φυλογενετικής ανάλυσης και υπολογιστικά

προγράμματα γραφικής αναπαράστασης φυλογενετικών δένδρων……………………48

2.2. Στρατηγικές βιοπληροφορικής ανάλυσης στο πλαίσιο της παρούσας διατριβής……………………………………………………………………………………..49 2.2.1. Ανάκτηση προκαρυωτικών αλληλουχιών ΝΑΤ από γονιδιωματικές βάσεις

Δεδομένων……………………………………………………………………………….49-50

2.2.2. Ταυτοποίηση (annotation) προκαρυωτικών γονιδίων ΝΑΤ…………….....50-52 2.2.3. Κατασκευή φυλογενετικών δένδρων των προκαρυωτικών πρωτεϊνών ΝΑΤ με

τη μέθοδο αποστάσεων της «Ένωσης Γειτόνων» (Νeighbor Joining)…………………52

2.2.4. Αναζήτηση οριζόντιας μεταφοράς γονιδίων NAT…………………………...53-54

ΚΕΦΑΛΑΙΟ 3: ΑΠΟΤΕΛΕΣΜΑΤΑ

3.1. Επισκόπηση γονιδιωματικών βάσεων δεδομένων και ταυτοποίηση (annotation) προκαρυωτικών γονιδίων ΝΑΤ………………………………………………………55-108

3.2. Φυλογονενετική ανάλυση των ταυτοποιημένων (annotated) προκαρυωτικών αλληλουχιών ΝΑΤ……………………………………………………………………109-120

ΚΕΦΑΛΑΙΟ 4: ΣΥΖΗΤΗΣΗ……………………………………………….121-131 ΒΙΒΛΙΟΓΡΑΦΙΑ...... 132-144 ΚΕΦΑΛΑΙΟ 1: ΕΙΣΑΓΩΓΗ

1.1. Ξενοβιοτικές ουσίες

Ξενοβιοτικές είναι όλες οι οργανικές χημικές ενώσεις που δεν παράγονται από έναν οργανισμό, αλλά αυτός τις προσλαμβάνει από το περιβάλλον στο οποίο ζει (Eyers et al., 2004).

Οι ξενοβιοτικές ουσίες βρίσκονται παντού στο περιβάλλον και περιλαμβάνουν:

 Συνθετικές χημικές ενώσεις ανθρωπογενούς προέλευσης (π.χ. φάρμακα, βιομηχανικά προϊόντα και παραπροϊόντα, συμπεριλαμβανομένων χημικών ενώσεων που ρυπαίνουν το περιβάλλον).

 Χημικές ενώσεις φυσικής προέλευσης (π.χ. βιολογικώς δραστικά προϊόντα του δευτερογενούς μεταβολισμού των φυτών, μυκήτων και βακτηρίων, τα οποία απελευθερώνονται στο περιβαλλον).

Ορισμένες ξενοβιοτικές ουσίες είναι δυνατό να προκαλούν βλάβες σε βασικές κυτταρικές λειτουργίες των οργανισμών που εκτίθενται σε αυτές, διότι:

 Συνδέονται με πρωτεΐνες (δομικές και ένζυμα) και τους προκαλούν βλάβες.  Συνδέονται στο DNA (DNA adducts) και του προκαλούν μεταλλάξεις.  Συνδέονται με λιπίδια των κυτταρικών μεμβρανών και τους προκαλούν βλάβες.  Ευνοούν το σχηματισμό ελευθέρων ριζών που προκαλούν βλάβες στις πρωτεΐνες, το DNA και τα λιπίδια.

Αντιθέτως, ορισμένες ξενοβιοτικές ουσίες μπορεί να προορίζονται ώστε να έχουν

θετική επίδραση, όπως π.χ. τα φάρμακα στον ανθρώπινο οργανισμό (Teixeira et al., 2013).

Παραδείγματα ξενοβιοτικών ουσιών συνθετικής προέλευσης είναι οι αλκυλοφαινόλες (περιέχονται π.χ. σε καλλυντικά και απορρυπαντικά), η δισφαινόλη-Α (περιέχεται π.χ. σε πλαστικά προϊόντα), οι φθαλικοί εστέρες (περιέχονται σε πλαστικά και εντομοκτόνα), τα πολυχλωριωμένα διφαινύλια, οι πολυκυκλικοί αρωματικοί υδρογονάνθρακες, τα φυσικά αντιβιοτικά από βακτήρια και μύκητες κ.ά (Εικόνα 1).

8

Εικόνα 1: Χημικές δομές αντιπροσωπευτικών ξενοβιοτικών ουσιών (Gianfreda, 2008)

1.2. Ξενοβιοτικός μεταβολισμός

To 1949 o Williams με το βιβλίο του «Detoxication Mechanisms: The Metabolism of Drugs and Allied Organic Compounds» καθιέρωσε τη μελέτη του μεταβολισμού των φαρμάκων και των πάσης φύσεως τοξικών ουσιών στους οργανισμούς ως έναν επιστημονικό κλάδο (Williams, 1949). Ως ξενοβιοτικό μεταβολισμό ορίζουμε τη βιοχημική διαδικασία με την οποία οι ξενοβιοτικές ουσίες μετατρέπονται από λιπόφιλες σε υδρόφιλες χημικές ενώσεις, έτσι ώστε να μπορούν να απεκκριθούν πιο εύκολα από τον οργανισμό.

Οι αντιδράσεις του ξενοβιοτικού μεταβολισμού διακρίνονται σε δύο κατηγορίες (Williams, 1959):

 Στις αντιδράσεις της Φάσης Ι.  Στις αντιδράσεις της Φάσης ΙΙ.

Οι αντιδράσεις της Φάσης Ι, ή αντιδράσεις λειτουργικοποίησης (functionalization reactions), περιλαμβάνουν τις αντιδράσεις υδρόλυσης, αναγωγής και οξείδωσης. Οι

αντιδράσεις αυτές δημιουργούν μια λειτουργική ομάδα (π.χ. -ΟΗ, -ΝΗ2, -SH, -COOH) στην ξενοβιοτική ουσία και συνήθως οδηγούν σε μικρή αύξηση της υδροφιλικότητάς της (Εικόνα 2). 9

Τα ενδιάμεσα προϊόντα που προκύπτουν από την παραπάνω μεταβολική διαδικασία συνήθως περνούν στη Φάση ΙΙ, προκειμένου να αποτοξικοποιηθούν και να απομακρυνθούν από τον οργανισμό. Επισημαίνεται ότι οι ξενοβιοτικές ουσίες που φέρουν από τη φύση τους τις παραπάνω λειτουργικές ομάδες είναι δυνατό να προσπερνούν τις αντιδράσεις της Φάσης Ι και να εισέρχονται απευθείας στη Φάση ΙΙ. Ακόμη, οι αντιδράσεις της Φάσης Ι, ιδιαίτερα εκείνες που καταλύονται από τα κυτοχρώματα Ρ450, είναι δυνατό να οδηγούν σε βιοενεργοποίηση της ξενοβιοτικής ουσίας και μετατροπή της σε καρκινογόνο (Ioannides, 2002).

Οι αντιδράσεις της Φάσης ΙΙ περιλαμβάνουν τις αντιδράσεις σύζευξης (conjugation reactions). Σε αυτές, η ενεργή ομάδα της ξενοβιοτικής ουσίας αναλόγως υφίσταται προσθήκη γλυκουρονικών ομάδων, θειϊκών ομάδων, σύνδεση με γλουταθειόνη, σύνδεση με αμινοξέα, ακετυλίωση ή μεθυλίωση (Jančovα and Šiller, 2012). Οι αντιδράσεις της Φάσης ΙΙ καταλήγουν συνήθως σε μεγάλη αύξηση της υδροφιλικότητας των ξενοβιοτικών ουσιών και διευκολύνουν την απέκκρισή τους από τον οργανισμό (Ioannides, 2001) (Εικόνα 2). Τυπικά, οι ενώσεις που παράγονται κατά τη Φάση ΙΙ πρόκειται στη συνέχεια να εξαχθούν από το κύτταρο μέσω των κυτταρικών μεμβρανών. Αυτή η διαδικασία καλείται από ορισμένους ειδικούς ως Φάση ΙΙΙ, ωστόσο ο όρος αυτός δεν έχει καθιερωθεί επίσημα διεθνώς (Josephy et al., 2005).

Εικόνα 2: Οι αντιδράσεις της Φάσης Ι και Φάσης ΙΙ του ξενοβιοτικού μεταβολισμού (http://www.medbullets.com/2015)

10

1.3. Ξενοβιοτικός μεταβολισμός στους μικροοργανισμούς

Οι μικροοργανισμοί, χάρη στη μεγάλη εξελικτική ποικιλομορφία και προσαρμοστικότητά τους, είναι σε θέση να επιβιώνουν ακόμη και στα πιο ακραία ενδιαιτήματα. Οι δε μεταβολικές δυνατότητές τους είναι τεράστιες, επιτρέποντάς τους να καταλύουν τη διάσπαση και αποτοξικοποίηση ακόμη και σύνθετων ξενοβιοτικών ουσιών, με επακόλουθη εισαγωγή των προϊόντων στους φυσικούς βιογεωχημικούς κύκλους της βιόσφαιρας (Eyers et al., 2004).

Οι όροι βιοαποικοδόμηση (biodegradation), βιομετατροπή (biotransformation) και συμμεταβολισμός (co-metabolism) χρησιμοποιούνται από την επιστημονική κοινότητα για να περιγράψουν τις διεργασίες διάσπασης των ξενοβιοτικών ουσιών από τους μικροοργανισμούς. Ως βιοαποικοδόμηση ορίζεται η διαδικασία ολοκληρωτικής αποικοδόμησης της οργανικής ύλης σε ανόργανα στοιχεία από μικροοργανισμούς, με ταυτόχρονη απόθεση βιομάζας. Ο όρος βιομετατροπή χρησιμοποιείται για να περιγράψει τη μετατροπή ενός χημικού μορίου σε ένα παράγωγο που διαφέρει από το αρχικό μόριο ως προς τις χημικές ιδιότητες, τη βιολογική δραστικότητα, τη

βιοδιαθεσιμότητα, τη διαλυτότητα ή το επίπεδο τοξικότητάς του (Grén, 2012). Κατά το συμμεταβολισμό, το ενδιάμεσο προϊόν μιας χημικής ουσίας, που έχει υποστεί μερική βιομετατροπή αλλά δεν μπορεί να χρησιμοποιηθεί ως πηγή θρεπτικών, οδηγεί στην ενεργοποίηση ενός μεταβολικού μονοπατιού το οποίο αναλαμβάνει τελικά τη βιομετατροπή μιας άλλης ξενοβιοτικής ουσίας (Fetzner, 2011).

11

Εικόνα 3: Διαφορετικές πορείες βιολογικών μετασχηματισμών των ξενοβιοτικών ουσιών στο περιβάλλον (Grén, 2012).

1.4. Τα ένζυμα του ξενοβιοτικού μεταβολισμού

Οι αντιδράσεις του ξενοβιοτικού μεταβολισμού καταλύονται από πληθώρα διαφορετικών ενζύμων τα οποία έχουν μελετηθεί εκτενώς στον άνθρωπο κυρίως από φαρμακολόγους (π.χ. φαρμακοκινητικές μελέτες), αλλά και από τοξικολόγους (π.χ. μελέτες των βιολογικών επιδράσεων τοξικών και καρκινογόνων ουσιών). Τα ένζυμα του ξενοβιοτικού μεταβολισμού των μικροοργανισμών εμφανίζουν επίσης σημαντικό ενδιαφέρον και μελετώνται κυρίως από βιοτεχνολόγους και περιβαλλοντολόγους (π.χ. μελέτες περιβαλλοντικής βιοαποκατάστασης). Τα ένζυμα του ξενοβιοτικού μεταβολισμού εμφανίζουν μεγάλη λειτουργική ετερογένεια και χωρίζονται σε 4 κατηγορίες με βάση το είδος της αντίδρασης που καταλύουν: υδρόλυση, αναγωγή, οξείδωση (αντιδράσεις Φάσης Ι) ή σύζευξη (αντιδράσεις Φάσης ΙΙ).

Φαίνεται ότι παρόμοια λειτουργικώς ένζυμα καταλύουν τις αντιδράσεις του ξενοβιοτικού μεταβολισμού σε όλους τους οργανισμούς (Ioannides, 2002). Οι διαφορετικές κατηγορίες των ενζύμων αυτών παρουσιάζονται στον Πίνακα 1. 12

Πίνακας 1: Τα ένζυμα της Φάσης Ι και ΙΙ του ξενοβιοτικού μεταβολισμού στον άνθρωπο, το είδος της αντίδρασης που καταλύουν και η θέση τους στο κύτταρο (Ioannides, 2002).

ΑΝΤΙΔΡΑΣΗ ΕΝΖΥΜΟ ΘΕΣΗ ΣΤΟ ΚΥΤΤΑΡΟ

ΑΝΤΙΔΡΑΣΕΙΣ ΦΑΣΗΣ Ι

Υδρόλυση Καρβολυεστεράση Μικροσώματα, κυτοσόλιο

Πεπτιδάση Αίμα, λυσοσωμάτια

Εποξειδική υδρολάση Μικροσώματα, κυτοσόλιο

Αναγωγή Αζω- και νιτρο-αναγωγή Μικροχλωρίδα, μικροσώματα, κυτοσόλιο

Καρβονυλική αναγωγή Κυτοσόλιο

Δισουλφιδική αναγωγή Κυτοσόλιο

Σουλφοξειδική αναγωγή Κυτοσόλιο

Αναγωγή κινονών Κυτοσόλιο, μικροσώματα

Αναγωγική αφαλογόνωση Μικροσώματα

Οξείδωση Αλκοολική αφυδρογονάση Κυτοσόλιο

Αλδεϋδική αφυδρογονάση Μιτοχόνδρια, κυτοσόλιο

Αλδεϋδική οξειδάση Κυτοσόλιο

Οξειδάση ξανθίνης Κυτοσόλιο

Μονοάμινο οξειδάση Μιτοχόνδρια

Προσταγλαδινο Η συνθάση Μικροσώματα

Κυτόχρωμα Ρ450 Μικροσώματα

ΑΝΤΙΔΡΑΣΕΙΣ ΦΑΣΗΣ ΙΙ

Σύζευξη Γλουκουρονιδική σύζευξη Μικροσώματα

Σουλφονική σύζευξη Κυτοσόλιο

Συζευξη Γλουταθειόνης Κυτοσόλιο, μικροσώματα

Σύζευξη αμινοξέων Μιτοχόνδρια, μικροσώματα

Ακετυλίωση Κυτοσόλιο

Μεθυλίωση Κυτοσόλιο

13

1.5. Οι Ν-ακετυλοτρανσφεράσες των αρυλαμινών (NAT)

Οι Ν-ακετυλοτρανσφεράσες των αρυλαμινών (ΝΑΤ, E.C. 2.3.1.5) είναι ένζυμα της Φάσης ΙΙ του ξενοβιοτικού μεταβολισμού και απαντούν στις περισσότερες ταξινομικές ομάδες οργανισμών, εκτός από τα φυτά (Boukouvala and Fakis, 2005). Παρουσιάζουν ιδιαίτερο ενδιαφέρον, διότι καταλύουν τη βιομετατροπή αρωματικών αμινών και υδραζινών, συμπεριλαμβανομένης πληθώρας ξενοβιοτικών ουσιών που προέρχονται είτε από την ανθρώπινη δραστηριότητα (π.χ. φάρμακα, βιομηχανικά προϊόντα, περιβαλλοντικοί ρύποι), είτε παράγονται με φυσικό τρόπο στο περιβάλλον από τους μικροοργανισμούς (Sim et al., 2012). Η βιολογική σημασία των ενζυμων ΝΑΤ αποτελεί πεδίο μελέτης των φαρμακολόγων-τοξικολόγων και φαρμακογενετιστών επί πολλές δεκαετίες, οδηγώντας σε σημαντικά ευρήματα (Sim et al., 2012). Με βάση τα παραπάνω, στις επόμενες ενότητες θα επιχειρηθεί η συνοπτική παρουσίαση του ρόλου των ενζύμων ΝΑΤ, με μεγαλύτερη έμφαση στους προκαρυωτικούς οργανισμούς.

1.5.1. Η ενζυμική λειτουργία των πρωτεϊνών ΝΑΤ

Η τυπική αντίδραση των ενζύμων ΝΑΤ είναι η μεταφορά μίας ακετυλομάδας από το ακέτυλο-συνένζυμο Α (ακετυλο-CoA) σε ένα ευρύ φάσμα αρυλαμινών, υδροξυαρυλαμινών, αρυλυδραζινών κ.ά. (Westwood and Sim, 2007), σύμφωνα με τη γενική αντίδραση της Εικόνας 4.

ακετυλο-CoA + αρυλαμίνη  CoA-SH + N-ακετυλο-αρυλαμίνη

Εικόνα 4: Η τυπική αντίδραση ακετυλομεταφοράς που καταλύουν τα ένζυμα ΝΑΤ (Sikora et al., 2008)

14

Η Ν-ακετυλίωση των αρωματικών αμινών από τα ένζυμα ΝΑΤ οδηγεί συνήθως στην αποτοξικοποίηση ξενοβιοτικών ουσιών φαρμακολογικής ή τοξικολογικής σημασίας (McDonagh et al., 2014). Ωστόσο, μελέτες σε εργαστηριακά τρωκτικά-μοντέλα (ποντικός, αρουραίος, χάμστερ) έδειξαν ότι τα ένζυμα ΝΑΤ συμμετέχουν επίσης σε αντιδράσεις βιοενεργοποίησης προ-καρκινογόνων ουσιών (Boukouvala and Fakis, 2005). Συγκεκριμένα, οι αντιδράσεις Ο-ακετυλίωσης των υδρόξυ-αρυλαμινών ή Ν,Ο- ακετυλομεταφοράς των αρυλυδροξαμικών οξέων, οι οποίες καταλύονται από τα ένζυμα ΝΑΤ αφού προηγηθούν οι αντιδράσεις οξείδωσης της Φάσης Ι από τα κυτοχρώματα P450, μπορούν να οδηγούν στην παραγωγή ασταθών ακετόξυ εστέρων. Αυτοί διασπώνται στη συνέχεια σε πολύ δραστικές ενώσεις οι οποίες συνδέονται με το DNA και προκαλούν μεταλλάξεις επάγοντας τη δημιουργία διαφόρων τύπων καρκίνου (Εικόνα 5) (Hein, 2000, Hein, 2002). Επιπλέον, τα ένζυμα ΝΑΤ στα θηλαστικά έχει προταθεί ότι συμμετέχουν στο καταβολισμό του φυλλικού οξέος (Minchin, 1995, Minchin et al., 2007, Laurieri et al., 2014).

Στα Μycobacteriaceae, τα ένζυμα ΝΑΤ φαίνεται να διαδραματίζουν σημαντικό ενδογενή ρόλο στην ομαλή σύνθεση των μυκολικών οξέων και κάποιων παραγώγων τους που είναι απαραίτητα για τη σύνθεση του βακτηριακού κυτταρικού τοιχώματος (Bhakta et al., 2004). Η μελέτη της δράσης των ενζύμων ΝΑΤ σε μύκητες του είδους Podospora anserina και Trichoderma spp. έδειξε ότι ακετυλιώνουν αρκετές αρωματικές αμίνες προστατεύοντας τους οργανισμούς αυτούς από τις τοξικές επιδράσεις τους

(Martins et al., 2009, Cocaign et al., 2013). Αντίθετα, σε φυτοπαθογόνους μύκητες του γένους Fusarium, τα ένζυμα ΝΑΤ φαίνεται να καταλύουν αντιδράσεις με διαφορετικά ακυλο-CoA, που επιτρέπουν στον εισβολέα να υπερνικήσει το τοξικό μικροπεριβάλλον του ξενιστή στα σημεία της μόλυνσης (Glenn and Bacon, 2009; Karagianni et al., 2015).

15

Εικόνα 5: Τυπικές αντιδράσεις που καταλύονται από τα ένζυμα ΝΑΤ. i) Ακετυλίωση αρυλαμίνης με υπόστρωμα-δότη το ακέτυλο-CoA και υπόστρωμα-δέκτη το p- αμινοβενζοϊκό οξύ. ii) Ακετυλίωση αρυλυδραζίνης με υπόστρωμα-δότη το ακέτυλο- CoA και υπόστρωμα-δέκτη το φάρμακο ισονιαζίδη. iii) O-ακετυλίωση N-υδρόξυ- αρυλαμίνης με υπόστρωμα-δότη το ακέτυλο-CoA και υπόστρωμα-δέκτη την καρκινογόνο ουσία N-υδρόξυ-4-αμινοδιφαινύλιο. iv) N,O-ακετυλομεταφορά στο καρκινογόνο υπόστρωμα N-υδρόξυ-2-(ακετυλάμινο-φθορένιο), χωρίς ανάγκη υποστρώματος-δότη ακετυλομάδας (ενδομοριακή ακετυλομεταφορά χωρίς ακέτυλο- CoA) (Sim et al., 2008).

1.5.2. Τα υποστρώματα των ενζύμων ΝΑΤ

Η σημασία της Ν-ακετυλίωσης στο φαρμακολογικό μεταβολισμό αναγνωρίστηκε κατά τη δεκαετία του 1950 για το φάρμακο ισονιαζίδη, το οποίο χρησιμοποιείται μέχρι και σήμερα στη θεραπεία κατά της φυματίωσης (Weber and Hein, 1985). Ένας σημαντικός αριθμός άλλων φαρμάκων και ξενοβιοτικών ουσιών έχουν επίσης προσδιοριστεί ως υποστρώματα των ενζύμων ΝΑΤ. Σε αυτά περιλαμβάνονται π.χ. η προκαϊναμίδη που είναι φάρμακο κατά της αρρυθμίας, αρκετά σουλφοναμίδια με αντιβακτηριακή δράση (π.χ. σουλφαμεθοξαζόλη), το αντιφλεγμονώδες φάρμακο 5-αμινοσαλικυλικό οξύ, το αντί-υπερτασικό φάρμακο υδραλαζίνη, καθώς και η δαψόνη, ένα φάρμακο κατά της λέπρας και της ελονοσίας.

16

Η δράση των ενζύμων ΝΑΤ είναι όμως σημαντική και για το μεταβολισμό καρκινογόνων ουσιών βιομηχανικής ή φυσικής προέλευσης, όπως η 2-ναφθυλαμίνη, η βενζιδίνη, το 2-αμινοφθορένιο, το 4-αμινοδιφαινύλιο, καθώς και για το μεταβολισμό των εν δυνάμει καρκινογόνων ετεροκυκλικών αμινών που βρίσκονται στο ψημένο κόκκινο κρέας και στον καπνό του τσιγάρου (Weber and Hein., 1985, Boukouvala and Fakis, 2005).

Πίνακας 2: Η χημική δομή μερικών κοινών υποστρωμάτων των ενζύμων ΝΑΤ και οι ιδιότητες τους (Boukouvala and Fakis, 2005).

ΥΠΟΣΤΡΩΜΑ ΧΗΜΙΚΗ ΔΟΜΗ ΟΝΟΜΑ ΙΔΙΟΤΗΤΕΣ

ΦΑΡΜΑΚΑ ΙΣΟΝΙΑΖΙΔΗ ΘΕΡΑΠΕΙΑ

ΥΔΡΑΖΙΝΗΣ ΦΥΜΑΤΙΩΣΗΣ

ΥΔΡΑΛΑΖΙΝΗ ΦΑΡΜΑΚΟ ΚΑΤΑ ΤΗΣ ΥΠΕΡΤΑΣΗΣ

ΦΑΙΝΕΛΖΙΝΗ ΑΝΑΣΤΟΛΕΑΣ ΤΗΣ ΟΞΕΙΔΑΣΗΣ ΤΗΣ ΜΟΝΟΑΜΙΝΗΣ

ΦΑΡΜΑΚΑ p-ΑΜΙΝΟΒΕΝΖΟΪΚΟ ΑΝΤΙΦΛΕΓΜΟΝΩΔΕΣ ΑΡΥΛΑΜΙΝΗΣ ΟΞΥ ΦΑΡΜΑΚΟ

5-ΑΜΙΝΟ ΑΝΤΙΦΛΕΓΜΟΝΩΔΕΣ ΣΑΛΙΚΥΛΙΚΟ ΟΞΥ ΦΑΡΜΑΚΟ

17

ΠΡΟΚΑΪΝΑΜΙΔΗ ΦΑΡΜΑΚΟ ΚΑΤΑ ΤΗΣ ΑΡΡΥΘΜΙΑΣ

ΣΟΥΛΦΑΜΕΘΑΖΙΝΗ ΑΝΤΙΒΑΚΤΗΡΙΑΚΟ ΦΑΡΜΑΚΟ

ΣΟΥΛΦΑ ΑΝΤΙΒΑΚΤΗΡΙΑΚΟ ΜΕΘΟΞΑΖΟΛΗ ΦΑΡΜΑΚΟ

ΔΑΨΟΝΗ ΦΑΡΜΑΚΟ ΚΑΤΑ ΤΗΣ ΛΕΠΡΑΣ ΚΑΙ ΤΗΣ

ΕΛΟΝΟΣΙΑΣ

ΚΑΡΚΙΝΟΓΟΝΕΣ 2-ΑΜΙΝΟ ΑΡΥΛΑΜΙΝΕΣ ΦΘΟΡΕΝΙΟ

ΒΕΝΖΙΔΙΝΗ ΧΡΗΣΙΜΟΠΟΙΟΥΝΤΑΙ ΣΤΗΝ ΠΑΡΑΓΩΓΗ

ΠΛΑΣΤΙΚΩΝ ΚΑΙ 2-ΝΑΦΘΥΛΑΜΙΝΗ ΧΡΩΜΑΤΩΝ Ή ΠΕΡΙΕΧΟΝΤΑΙ ΣΤΟΝ

ΚΑΠΝΟ ΤΟΥ ΤΣΙΓΑΡΟΥ

4-ΑΜΙΝΟ- ΔΥΦΑΙΝΥΛΙΟ

ΕΤΕΡΟΚΥΚΛΙΚΕΣ 2-ΑΜΙΝΟ- ΔΙΑΤΡΟΦΙΚΟ 1-ΜΕΘΥΛ- ΑΜΙΝΕΣ 6-ΦΑΙΝΥΛΑΜΙΔΑΖΟ [4,5-Β]ΠΥΡΙΔΙΝΗ ΠΡΟ-ΚΑΡΚΙΝΟΓΟΝΟ

18

1.5.3. Η δομή των πρωτεϊνών ΝΑΤ

Οι πρωτεΐνες ΝΑΤ είναι σφαιρικές πρωτεϊνες μοριακού βάρους 30-40 kDa, πολυπεπτιδικής αλυσίδας μήκους 250-350 αμινοξέων και με τον πυρήνα της καταλυτικής ενεργότητάς τους εντός σχισμής στο εσωτερικό του μορίου της πρωτεΐνης (Sim et al., 2008). Διάφορες μελέτες έχουν προσδιορίσει τις τρισδιάστατες δομές κυρίως των βακτηριακών πρωτεϊνών ΝΑΤ, με χρήση κρυσταλλογραφίας ακτινών Χ. Σήμερα είναι γνωστές οι δομές των πρωτεϊνών ΝΑΤ σε προκαρυωτικά είδη όπως Salmonella typhimurium (Sinclair et al., 2000), Mycobacterium smegmatis (Sandy et al., 2002), Mesorhizobium loti (Holton et al., 2004), Pseudomonas aeruginosa (Westwood et al., 2005), Nocardia farcinica (Martins et al., 2008), Mycobacterium tuberculosis (Abuhammad et al., 2013) κ.ά. Οι παραπάνω μελέτες φανέρωσαν την ύπαρξη συντηρημένων αμινοξικών καταλοίπων και άνοιξαν το δρόμο για την αποσαφήνιση της καταλυτικής λειτουργίας των ενζύμων ΝΑΤ στα βακτήρια και όχι μόνο. Πιο συγκεκριμένα, το τυπικό μονομερές του ενζύμου στους προκαρυώτες αποτελείται από τρία αυτοτελή δομικά στοιχεία (domains) σχεδόν ίσου μήκους. Το πρώτο στοιχείο είναι μία ελικοειδής δέσμη (helical bundle), το δεύτερο είναι ένα στοιχείο με δομή β- βαρελιού (b-barrel) και το τρίτο σχηματίζει ένα καπάκι α/β (α-έλικας και β-πτυχωτής επιφάνειας). Τα δύο πρώτα στοιχεία κατευθύνονται προς το τρίτο μέσω μιας διατμηματικής έλικας που τα διατρέχει. Το ενεργό κέντρο της πρωτεΐνης περιέχει τα συντηρημένα αμινοξέα Cys-His-Asp, τα οποία παίζουν κομβικό ρόλο στην κατάλυση και χαρακτηρίζονται ως η "καταλυτική τριάδα" των ενζύμων ΝΑΤ (Sinclair et al., 2000, Sandy et al., 2005). Εξαίρεση αποτελεί μέχρι στιγμής η χαρακτηρισμένη δομή του ομολόγου ΝΑΤ3 στο βακτήριο Bacillus cereus, όπου τα αμινοξέα της καταλυτικής τριάδας περιέχουν Glu αντί για Asp, υποδηλώνοντας ότι το συγκεκριμένο αμινοξύ μπορεί να είναι λιγότερο συντηρημένο (Kubiak et al., 2012).

Μελέτες της δομής των ισοενζύμων ΝΑΤ1 και ΝΑΤ2 του ανθρώπου με κρυσταλλογραφία ακτίνων Χ (Wu et al., 2007), καθώς και του ισοενζύμου ΝΑΤ2 του χάμστερ με χρήση πυρηνικού μαγνητικού συντονισμού (NMR) (Zhang et al., 2006), αποκάλυψαν την δομή των πρωτεϊνών ΝΑΤ στα θηλαστικά. Συγκρίνοντας τα ανθρώπινα ένζυμα ΝΑΤ με τα αντίστοιχα βακτηριακά, παρατηρούμε ότι οι δομές τους είναι εν πολλοίς παρόμοιες, εκτός από δύο σημαντικά σημεία που φαίνεται να επηρεάζουν την ενζυμική λειτουργία (Εικόνα 6).

19

Πιο αναλυτικά, στα ανθρώπινα ένζυμα ΝΑΤ υπάρχει μια περιοχή 17 αμινοξέων (κατάλοιπα 167-183), η οποία φαίνεται πως επηρεάζει τη σταθερότητα του ενζύμου, ενώ τα βακτηριακά ένζυμα ΝΑΤ στερούνται αυτής της περιοχής.Η δεύτερη διαφορά μεταξύ ευκαρυωτικών και προκαρυωτικών πρωτεϊνών ΝΑΤ εντοπίζεται στη στερεοδιάταξη του καρβόξυτελικού άκρου των ενζύμων. Στους προκαρυώτες, το τμήμα της πρωτεΐνης που ξεκινά από το κατάλοιπο 274 βρίσκεται περιφερειακά και μακριά από το ενεργό κέντρο του ενζύμου, ενώ στα ευκαρυωτικά ένζυμα ΝΑΤ εκτείνεται κατά μήκος του ενεργού κέντρου. Η δομή αυτή περιορίζει την πρόσβαση στο ενεργό κέντρο των ευκαρυωτικών ΝΑΤ και γι’ αυτό απαιτείται μεγαλύτερη αλληλεπίδραση με το ακέτυλο-CoA (Sim et al., 2008) (Eικόνα 5).

Α. M. smegmatis NAT1. Β. Human NAT1

Εικόνα 5: Σύγκριση των δομών αντιπροσωπευτικών ευκαρυωτικών και προκαρυωτικών πρωτεϊνών ΝΑΤ. Α. Απεικόνιση της δομής του προκαρυωτικού ομολόγου NAT από το βακτήριο Mycobacterium smegmatis (PDB: 1W6F). Β. Απεικόνιση της δομής του ανθρώπινου ισοενζύμου NAT1 (PDB: 2IJA) στον ίδιο προσανατολισμό. Η σύγκριση των δομών αποκαλύπτει ότι τα καρβοξυτελικά άκρα των δύο πρωτεϊνών διαφέρουν σημαντικά. Το καρβοξυτελικό άκρο του ανθρώπινου ενζύμου ΝΑΤ εκτείνεται κατά μήκος της καταλυτικής κοιλότητας, ενώ αυτό του προκαρυωτικού ενζύμου ΝΑΤ τοποθετείται μακριά και περιφερειακά από την καταλυτική κοιλότητα. Η δομική αυτή διαφορά έχει ως αποτέλεσμα τα προκαρυωτικά ένζυμα ΝΑΤ να έχουν μια περισσότερο εκτεθειμένη καταλυτική κοιλότητα. Στις εικόνες, τα κατάλοιπα των καρβοξυτελικών άκρων τονίζονται με σκούρο χρώμα, ενώ φαίνονται και οι πλευρικές αλυσίδες τους. Επίσης, παρουσιάζονται οι ιστιδίνες της καταλυτικής τριάδας κάθε ενεργού κέντρου (His 110 στη δομή NAT του M. smegmatis και His 107 στην αντίστοιχη δομή της ανθρώπινης πρωτεϊνης NAT1). Διακρίνεται ότι η ιστιδίνη 110 στο ένζυμο ΝΑΤ του M. smegmatis είναι εκτεθειμένη, σε αντίθεση με την ιστιδίνη 107 του ανθρώπινου ΝΑΤ1 η οποία καλύπτεται μερικώς από τα κατάλοιπα του καρβοξυτελικού άκρου (Sim et al., 2008).

20

1.5.4. Ο μηχανισμός κατάλυσης των ενζύμων ΝΑΤ

Τα ένζυμα ΝΑΤ διαφέρουν από τις υπόλοιπες ακέτυλο-CoA εξαρτώμενες τρανσφεράσες λόγω του ιδιαίτερου μηχανισμού των δύο βημάτων (ping-pong bi-bi mechanism) της αντίδρασης που καταλύουν, ενώ το καρβόξυτελικό άκρο του ενζύμου ελέγχει την επιλεκτικότητα για το υπόστρωμα-δέκτη της ακετυλομάδας (Mushtaq et al., 2001). Ο μηχανισμός φαίνεται να είναι ο ίδιος για τα ένζυμα ΝΑΤ όλων των οργανισμών που έχουν μελετηθεί μέχρι σήμερα. Αρχικά, η ακετυλομάδα του ακέτυλο- CoA συνδέεται με ομοιοπολικό δεσμό με τη σουλφυδρυλομάδα της κυστεΐνης της καταλυτικής τριάδας του ενζύμου, σχηματίζοντας έναν ενδιάμεσο θειοεστέρα. Έπειτα, απελευθερώνεται το συνένζυμο Α. Στο πρώτο αυτό βήμα της αντίδρασης συμμετέχουν τα πρώτα 200 αμινοξέα της πρωτεΐνης (Sim et al., 2008) και, σε ορισμένες πρωτεϊνες ΝΑΤ θηλαστικών, το βήμα αυτό μπορεί να λάβει χώρα ακόμη και απουσία υποστρώματος-δέκτη (Butcher et al., 2001). Το δεύτερο βήμα της αντίδρασης περιλαμβάνει την αλληλεπίδραση του ακετυλιωμένου ενζύμου με το υπόστρωμα-δέκτη, και την επακόλουθη ακετυλομεταφορά και απελευθέρωση του ακετυλιωμένου προϊόντος από το ένζυμο (Butcher et al., 2001). Σε αυτό το βήμα, φαίνεται πως το καρβοξυτελικό άκρο του ενζύμου ρυθμίζει την μεταφορά της ακετυλομάδας μέσω έκθεσής της σε κάποιο επιλεκτικό υπόστρωμα-δέκτη, ανάλογα με το εκάστοτε ένζυμο ΝΑΤ που καταλύει την αντίδραση (Sim et al., 2008) (Εικόνα 6).

21

Εικόνα 6: Ο μηχανισμός ακετυλίωσης των δύο βημάτων (ping-pong bi-bi mechanism) με συμμετοχή της καταλυτικής τριάδας Cys-His-Asp των ενζύμων ΝΑΤ (Minchin et al., 2007).

22

1.6. Γονίδια και ένζυμα ΝΑΤ σε διαφορετικές ταξινομικές ομάδες οργανισμών

1.6.1. ΝΑΤ στους ευκαρυώτες

1.6.1.1. ΝΑΤ στον άνθρωπο και άλλα ζώα

Στον άνθρωπο εκφράζονται δύο ισοένζυμα ΝΑΤ, τα οποία κωδικοποιούνται από τα γονίδια ΝΑΤ1 και ΝΑΤ2 που εδράζονται στη χρωμοσωμική θέση 8p22. Επιπλέον, στο ανθρώπινο γονιδίωμα υπάρχει και ένα μη λειτουργικό ψευδογονίδιο (NATP), στην ίδια χρωμοσωμική θέση (Blum et al., 1990, Ohsako and Deguchi, 1990). Και τα δύο γονίδια ΝΑΤ του ανθρώπου είναι υψηλά πολυμορφικά. Μέχρι σήμερα, έχουν αναφερθεί 28 ΝΑΤ1 και 88 ΝΑΤ2 αλληλόμορφα στους ανθρώπινους πληθυσμούς παγκοσμίως (http://nat.mbg.duth.gr). Αρκετοί από τους πολυμορφισμούς που έχουν αναφερθεί, ιδιαίτερα για το ισοένζυμο ΝΑΤ2, έχει βρεθεί ότι επηρεάζουν την ενζυμική λειτουργία, έτσι ώστε διαφορετικά άτομα να κατατάσσονται είτε ως αργοί, είτε ως ενδιάμεσοι, είτε ως ταχείς ακετυλιωτές, ανάλογα με το γονότυπό τους (Walraven et al., 2008).

Παρόμοια χρωμοσωμική οργάνωση έχουν τα γονίδια ΝΑΤ και στα άλλα πρωτεύοντα (Sabbagh et al., 2013), ενώ πολυμορφισμοί έχουν ανιχνευθεί στα γονίδια ΝΑΤ1 και ΝΑΤ2 του είδους Macaca mulatta (πίθηκος ρέζους), ο οποίος χρησιμοποιείται στη βιοϊατρική έρευνα ως πειραματόζωο (Fakis et al., 2007, Tsirka et al., 2014; Διδακτορική Διατριβή Θ. Τσίρκα, ΔΠΘ). Γονίδια ΝΑΤ έχουν ταυτοποιηθεί επιπλέον σε άλλα είδη θηλαστικών, συμπεριλαμβανομένων οργανισμών-μοντέλων όπως το κουνέλι, ο ποντικός, ο αρουραίος, το χάμστερ και το ινδικό χοιρίδιο. Και στα ζώα αυτά έχουν αναφερθεί πολυμορφισμοί που επηρεάζουν την ενζυμική λειτουργία των πρωτεϊνών ΝΑΤ, καθιστώντας τα αντίστοιχα πολυμορφικά στελέχη χρήσιμα σε εργαστηριακές φαρμακολογικές και τοξικολογικές έρευνες (Boukouvala and Fakis, 2005). Επίσης, έχουν παραχθεί διαφορετικά στελέχη διαγονιδιακών ποντικών που είτε στερούνται, είτε υπερεκφράζουν γονίδια Nat (Sim et al., 2008).

Τα δεδομένα από γονιδιωματικές επισκοπήσεις των τελευταίων ετών (Boukouvala and Fakis, 2005, Vagena et al., 2008, Glenn et al., 2010) συμπληρώνουν τον μέχρι τώρα κατάλογο των ανώτερων θηλαστικών με γονίδια ΝΑΤ στο γονιδίωμά τους (βλ. http://nat.mbg.duth.gr/). Οι ίδιες συστηματικές μελέτες αλληλουχημένων γονιδιωμάτων έχουν προσδιορίσει γονίδια ΝΑΤ σε είδη ζώων με ιδιαίτερη σημασία από εξελικτικής απόψεως.

23

Για παράδειγμα, τα πιο πρωτόγονα θηλαστικά, όπως ο πλατύπους Ornithorhynchus anatinus (μονοτρήματα) και το οπόσουμ Monodelphis domestica (μαρσιποφόρα), φαίνεται να έχουν μόνο ένα γονίδιο ΝΑΤ, ενώ τα πλακουντοφόρα έχουν έως και 3 γονίδια ΝΑΤ. Τέλος, η σάρωση των διαθέσιμων γονιδιωμάτων των κατώτερων σπονδυλωτών αποκάλυψε την ύπαρξη γονιδίων ΝΑΤ σε ερπετά (σαύρα Anolis carolinensis), πτηνά (π.χ. Gallus gallus, Taeniopygia guttata) και ψάρια (π.χ. Danio rerio, Gasterosteus aculeatus, Oryzias latipes, Fugu rubripes, Tetraodon nigroviridis κ.α.) (Vagena et al., 2008, Glenn et al., 2010). Αλληλουχίες ΝΑΤ έχουν ταυτοποιηθεί και σε κατώτερα χορδωτά, όπως το ουροχορδωτό Ciona intestinalis και το κεφαλοχορδωτό Branchiostoma floridae, καθώς και το ημιχορδωτό Saccoglossus kowalevskii. Γονίδια ΝΑΤ υπάρχουν και στα κατώτερα δευτεροστόμια (π.χ. στο εχινόδερμο Strongylocentrotus purpuratus), αλλά φαίνεται να εκλείπουν στα φύλα των πρωτοστομίων Mollusca και Arthropoda καθώς και σε φύλα ακοιλωματικών (π.χ. Platyhelminthes) και ψευδοκοιλωματικών (π.χ. Nematoda) οργανισμών (Glenn et al., 2010).

1.6.1.2 ΝΑΤ σε ευκαρυωτικούς μικροοργανισμούς

Στους ευκαρυώτες, γονίδια ΝΑΤ έχουν βρεθεί και σε αρκετούς μικροοργανισμούς. Για παράδειγμα, έχουν ταυτοποιηθεί γονίδια ΝΑΤ σε αρκετά είδη της πολυφυλετικής ταξινομικής ομάδας των πρωτίστων, κάποια από τα οποία φαίνεται να έχουν μέχρι και 6 γονίδια ΝΑΤ στο γονιδίωμά τους (Glenn et al., 2010). Ενδιαφέρον από εξελικτική άποψη παρουσιάζει η εύρεση γονιδίου ΝΑΤ στα χοανομαστιγωτά Monosiga brevicollis and Monosiga ovata, διότι το φύλο αυτό των πρωτίστων θεωρείται ως το πιο συγγενές προς τα μετάζωα (King et al., 2008).

Το ενδιαφέρον έχουν προσελκύσει τα τελευταία χρόνια τα γονίδια ΝΑΤ στους μύκητες, λόγω των ιδιαίτερων λειτουργιών που φαίνεται να επιτελούν τα αντίστοιχα ένζυμα (Sim et al., 2012). Η πρώτη ένδειξη για την παρουσία αλληλουχιών ΝΑΤ στους μύκητες προήλθε από τη γονιδιωματική επισκόπηση των Vagena et al. (2008). Η μελέτη αυτή προσδιόρισε τη μερική αλληλουχία πιθανών γονιδίων ΝΑΤ σε 24 είδη ασκομυκήτων (Ascomycota) και 2 βασιδιομυκήτων (Basidiomycota). Η μελέτη αυτή επεκτάθηκε στη συνέχεια με υπολογιστική σάρωση 145 αλληλουχημένων γονιδιωμάτων μυκήτων, η οποία προσδιόρισε το πλήρες ανοιχτό αναγνωστικό πλαίσιο των γονιδίων ΝΑΤ σε δεκάδες ασκομύκητες, τέσσερις βασιδιομύκητες και έναν χυτριδιομύκητα (Glenn et al., 2010, Martins et al., 2010).

24

Παράλληλα, λειτουργικές μελέτες άρχισαν να αποκαλύπτουν το ρόλο των γονιδίων ΝΑΤ σε διαφορετικούς ασκομύκητες. Μελέτες των ενζύμων ΝΑΤ των Podospora anserina (Martins et al., 2009) και Trichoderma sp. (Cocaign et al., 2013) κατέδειξαν ότι η δράση τους προστατεύει τους μύκητες από την τοξική επίπτωση των αρυλαμινών, συμπεριλαμβανομένων χημικών ενώσεων που απαντούν ευρέως στο περιβάλλον ως συστατικά φυτοπροστατευτικών αγροχημικών προϊόντων.

Μια αναπάντεχη λειτουργία των ενζύμων ΝΑΤ έχει παρατηρηθεί σε μύκητες του γένους Fusarium οι οποίοι μολύνουν τα δημητριακά (καλαμπόκι, σιτάρι, σίκαλη). Ως παθογόνοι, οι συγκεκριμένοι μύκητες μπορεί να προκαλέσουν τεράστιες καταστροφές στις καλλιέργειες, ενώ επιπλέον παράγουν μυκοτοξίνες οι οποίες καθιστούν τις σοδειές ακατάλληλες για βρώση. Προκειμένου να προστατευτούν, τα φυτά είναι προσαρμοσμένα να παράγουν τον δευτερογενή μεταβολίτη 2-βενζοξαζολινόνη, ο οποίος έχει αντιμικροβιακή δράση. Ωστόσο, ανθεκτικά στελέχη του είδους Fusarium verticillioides (παθογόνος μύκητας του καλαμποκιού) και Fusarium graminearum (παθογόνος μύκητας του σιταριού) είναι σε θέση να αποτοξικοποιούν τη 2- βενζοξαζολινόνη, μέσω ενός μονοπατιού που περιλαμβάνει τουλάχιστον ένα ένζυμο ΝΑΤ. Το αξιοσημείωτο είναι ότι το συγκεκριμένο ένζυμο καταλύει τη σύζευξη με μαλόνυλο- αντί για ακέτυλο-ομάδα, χρησιμοποιώντας επιλεκτικά μαλονυλο-CoA, αντί για ακέτυλο-CoA (Glenn and Bacon, 2009). Ξεκινώντας από το παραπάνω εύρημα, πρόσφατα διενεργήθηκε ευρεία συγκριτική μελέτη 12 ομολόγων ισοενζύμων ΝΑΤ διαφορετικών φυτοπαθογόνων ασκομυκήτων, η οποία κατέδειξε τις ενδιαφέρουσες λειτουργικές ιδιαιτερότητές τους (Karagianni et al., 2015).

1.6.2. ΝΑΤ στους προκαρυώτες

Στους προκαρυώτες, τα ένζυμα ΝΑΤ αρχικά αναγνωρίστηκαν στο εντεροβακτήριο S. typhimurium, στο πλαίσιο της τοξικολογικής δοκιμασίας του Ames (Ames et al., 1973). Tο γονίδιο ΝΑΤ του S. typhimurium ήταν το πρώτο προκαρυωτικό γονίδιο ΝΑΤ που κλωνοποιήθηκε και εκφράστηκε ως ανασυνδυασμένη πρωτεϊνη (Watanabe et al., 1992). Η πρωτεϊνη ΝΑΤ του S. typhimurium παρείχε επίσης την πρώτη τρισδιάστατη δομή ισοενζύμου ΝΑΤ που επιλύθηκε κρυσταλλογραφικά (Sinclair et al., 2000), παρέχοντας μια πλήρη εικόνα του καταλυτικού μηχανισμού του ενζύμου και του ρόλου της καταλυτικής τριάδας που γνωρίζουμε σήμερα ότι είναι συντηρημένη σε όλες τις πρωτεϊνες ΝΑΤ προκαρυωτών και ευκαρυωτών που έχουν μελετηθεί.

25

Σημαντική συμβολή στην κατανόηση του βιολογικού ρόλου των προκαρυωτικών ενζύμων ΝΑΤ έχουν διαδραματίσει ακόμη τα μυκοβακτήρια, τα οποία έχουν την ικανότητα να ακετυλιώνουν το φάρμακο ισονιαζίδη. Το εν λόγω φάρμακο χορηγείται για τη θεραπεία της φυματίωσης, δηλ. για την καταπολέμιση του παθογόνου μυκοβακτηρίου Mycobacterium tuberculosis (Payton et al., 1999). Πιστεύεται ότι η ισονιαζίδη, μέσω της αποτοξικοποίησής της από το μυκοβακτηριακό ένζυμο ΝΑΤ, μπορεί να εμφανίζει μειωμένη θεραπευτική απόδοση έναντι της ασθένειας. Η απαλοιφή του γονιδίου ΝΑΤ από το μυκοβακτηριακό γονιδίωμα έχει διαπιστωθεί ότι επηρεάζει την ομαλή βιοσύνθεση του μυκολικού οξέος και οδηγεί σε σοβαρές βλάβες του κυτταρικού τοιχώματος, ενώ ταυτόχρονα αυξάνει την ευαισθησία των μεταλλαγμένων στελεχών στην ισονιαζίδη, καθώς και την ταχύτητα καταστροφής τους από τα μακροφάγα (Bhakta et al., 2004). Σε ορισμένα μυκοβακτήρια, τα γονίδια ΝΑΤ εδράζονται εντός ενός οπερονίου, τα γονίδια του οποίου είναι απαραίτητα για τον καταβολισμό της χοληστερόλης ως θρεπτικού μέσου κατά τη διαβίωση του παθογόνου στα μακροφάγα του ξενιστή (Anderton et al., 2006, Van Der Geize et al., 2007). Τα παραπάνω ευρήματα παρείχαν στους ερευνητές μια πληρέστερη εικόνα για τον ενδογενή ρόλο των πρωτεϊνών ΝΑΤ στα Μycobacteriaceae. Επίσης, επέτρεψαν την χημική σύνθεση και δοκιμασία ειδικών μικρομοριακών αναστολέων, θεωρώντας ότι τα ένζυμα ΝΑΤ θα μπορούσαν να αποτελούν δυνητικούς φαρμακευτικούς στόχους για την ανάπτυξη νέων θεραπειών κατά της φυματίωσης (Ballester et al., 2010, Fullam et al., 2011, Abuhammad et al., 2012, Fullam et al., 2013). Ως μοντέλα στις έρευνες αυτές έχουν χρησιμοποιηθεί τα μη παθογόνα μυκοβακτήρια Mycobacterium smegmatis (Sandy et al., 2002), Mycobacterium bovis BCG (Bhakta et al., 2004) και Mycobacterium marinum (Fullam et al., 2008).

Ιδιαίτερης φαρμακολογικής σημασίας ήταν και η ανακάλυψη του γονιδίου ΝΑΤ του ακτινομύκητα Amycolatopsis mediterranei, το οποίο εδράζεται πάνω στη συστοιχία των γονιδίων που κωδικοποιούν τα ένζυμα που καταλύουν το βιοσυνθετικό μονοπάτι του αντιβιοτικού ριφαμυκίνη Β. Το συγκεκριμένο ομόλογο ένζυμο ΝΑΤ καταλύει μια εντελώς διαφορετική αντίδραση, δηλ. την ενδομοριακή κυκλοποίηση της ώριμης πολυκετιδικής αλυσίδας του αντιβιοτικού, έτσι ώστε αυτό να λάβει την τελική δομή του.

26

Η αντίδραση αυτή αποτελεί το τελευταίο βήμα στη βιοσύνθεση της ριφαμυκίνης Β και είναι μη αναμενόμενη για τα ένζυμα ΝΑΤ, αφενός διότι δεν έχει ανάγκη ακετυλο-CoA και αφετέρου γιατί το υπόστρωμα (δηλ. η πολυκετιδική αλυσίδα της ριφαμυκίνης) είναι εξαιρετικά ογκώδες (Pompeo et al., 2002).

Ενεργότητα ενζύμων ΝΑΤ έχει παρατηρηθεί και σε άλλα φύλα βακτηρίων (Payton et al., 2001), συμπεριλαμβανομένων και βακτηρίων της εντερικής μικροχλωρίδας του ανθρώπου (Deloménie et al., 2001). Τα τελευταία 10 χρόνια, οι γονιδιωματικές βάσεις δεδομένων εμπλουτίζονται συνεχώς με τις αλληλουχίες νέων προκαρυωτικών γονιδιωμάτων, καθιστώντας εφικτή την ταυτοποίηση (annotation) όλο και περισσότερων προκαρυωτικών γονιδίων ΝΑΤ, με πιο πρόσφατη τη διεξοδική επισκόπηση από τους Vagena et al. (2008). Μέσα από τέτοιου είδους υπολογιστικές αναλύσεις έχει βρεθεί ότι κάποια βακτηριακά γονιδιώματα μπορεί να περιέχουν περισσότερα του ενός γονίδια ΝΑΤ, όπως π.χ. συμβαίνει στην περίπτωση του συμβιωτικού αζωτοδεσμευτικού α-πρωτεοβακτήριου Mesorhizobium loti που βρέθηκε να φέρει δύο ισοένζυμα ΝΑΤ1 και ΝΑΤ2 (Rodrigues-Lima et al., 2006, Holton et al., 2005, Dairou et al., 2006). Άνω του ενός ισοενζύμου ΝΑΤ έχει βρεθεί να διαθέτουν και είδη του γένους Bacillus, όπως τα παθογόνα Βacillus cereus (Takenaka et al., 2006, Mulyono et al., 2007) και Bacillus anthracis (Pluvinage et al., 2007). Επίσης, έχει διερευνηθεί η τρισδιάστατη δομή και η ενζυμική κινητική των πρωτεϊνών ΝΑΤ της ψευδομονάδας Pseudomonas aeruginosa (Westwood et al., 2005, Westwood and Sim, 2007) και της λεγιονέλλας Legionella pneumophila (Kubiak et al., 2012).

Πέραν του φαρμακολογικού ενδιαφέροντός τους, τα ένζυμα ΝΑΤ των προκαρυωτικών οργανισμών θεωρούνται σημαντικά και για το ρόλο τους στον ξενοβιοτικό μεταβολισμό, μέσω του οποίου είναι σε θέση να αποτοξικοποιούν δυνητικά βλαβερές ουσίες του περιβάλλοντος. Για παράδειγμα, μέσω αναζήτησης σε γονιδιωματικές βάσεις δεδομένων έχουν ταυτοποιηθεί γονίδια ΝΑΤ σε ελεύθερα ζώντα βακτήρια, τα οποία εμπλέκονται στη βιοαποικοδόμηση περιβαλλοντικών ρύπων. Βακτήρια με ένζυμα ΝΑΤ, όπως τα Mycobacterium vandbaalenii και Labrenzia aggregata, είναι σε θέση να μεταβολίζουν ετεροκυκλικούς αρωματικούς υδρογονάνθρακες. Αντίστοιχα, βακτήρια του γένους Rhodococcus ή το είδος Desulfitobacterium hafniense μπορούν και αποτοξικοποιόυν πολυχλωριωμένα διφαινίλια, ενώ το Sphingomonas wittichii αποτοξικοποιεί διοξίνες.

27

Θεωρείται ότι τα ένζυμα ΝΑΤ σε αυτές τις κατηγορίες βακτηρίων θα μπορούσαν να διαδραματίζουν σημαντικό ρόλο στην βιο-αποτοξικοποίηση βλαπτικών ρύπων, με δυνητική εφαρμογή σε διαδικασίες περιβαλλοντικής βιοαποκατάστασης (Vagena et al., 2008).

Επίσης, μέσω υπολογιστικών μελετών, έχουν ταυτοποιηθεί γονίδια ΝΑΤ σε βακτήρια τα οποία διαβιούν σε ενδιαιτήματα όπου επικρατούν ακραίες περιβαλλοντικές συνθήκες. Παραδείγματα αποτελούν τα θερμόφιλα βακτήρια Synechococcus sp. και Chloroflexus aurantiacus, τα ψυχρόφιλα Exiguobacterium sibiricum, Colwellia psychrerythraea και Psychrobacter sp., καθώς και τα είδη Hahella chejuensis και Ralstonia metallidurans τα οποία διαβιούν σε περιβάλλοντα με υψηλή αλατότητα και υψηλές συγκεντρώσεις μετάλλων, αντίστοιχα (Vagena et al., 2008). Αξίζει επίσης να σημειωθεί η ταυτοποίηση γονιδίου ΝΑΤ και στο γονιδίωμα ενός αρχαίου, του Halogeometricum borinquense, το οποίο διαβιεί σε περιβάλλοντα με ακραίες συνθήκες αλατότητας (Glenn et al., 2010). Οι παρατηρήσεις αυτές ενισχύουν την άποψη ότι τα ένζυμα ΝΑΤ πιθανόν λειτουργούν ως προσαρμοστικοί χαρακτήρες των μικροοργανισμών σε ακραία χημικά ή άλλα περιβάλλοντα.

Η σημασία της συστηματικής αναζήτησης σε γονιδιωματικές βάσεις δεδομένων ομολόγων αλληλουχιών ΝΑΤ, σε συνδυασμό με την ενδελεχή ταυτοποίηση, επαλήθευση και επικύρωσή τους από ειδικούς (βλ. ιστοσελίδα της Διεθνούς Επιτροπής Ονοματολογίας των Γονιδίων ΝΑΤ, http://nat.mbg.duth.gr), έχει αποτυπωθεί σε πρόσφατες μελέτες του εργαστηρίου (Boukouvala and Fakis, 2005, Vagena et al., 2008, Glenn et al., 2010). Αναφορικά προς την παρουσία αλληλουχιών ΝΑΤ στα γονιδιώματα προκαρυωτών, μέχρι την εκπόνηση της παρούσας εργασίας, είχε αναφερθεί η επισκόπηση 986 προκαρυωτικών γονιδιωμάτων και η ταυτοποίηση/επικύρωση συνολικά 274 ανοιχτών πλαισίων ανάγνωσης γονιδίων ΝΑΤ, τα οποία αντιστοιχούσαν σε 171 είδη βακτηρίων από 60 διαφορετικά γένη (Vagena et al., 2008). Η γνώση αυτή επεκτάθηκε, καλύπτοντας επιπλέον 89 γονιδιώματα αρχαίων και συνολικά 2019 βακτηρίων (Glenn et al., 2010), επικαιροποιώντας και εμπλουτίζοντας τον προηγούμενο κατάλογο.

28

1.7. Φυλογενετική ανάλυση αλληλουχιών ΝΑΤ

Η πρόοδος της γονιδιωματικής και της βιοπληροφορικής επέτρεψε την ταυτοποίηση νέων ορθόλογων και παράλογων γονιδίων ΝΑΤ στους οργανισμούς, βοηθώντας τη διερεύνηση των εξελικτικών σχέσεών τους. Μια αρχική σύγκριση της αλληλουχίας του ανθρώπινου γονιδιώματος προς τα γονιδιώματα των πρώτων προκαρυωτικών μικροοργανισμών που είχαν αλληλουχηθεί μέχρι το 2000, οδήγησε τους ερευνητές να συμπεριλάβουν τα γονίδια ΝΑΤ στον κατάλογο πιθανών γονιδίων που θα μπορούσαν να έχουν εισαχθεί στο προγονικό γονιδίωμα των σπονδυλοζώων από τα βακτήρια, μέσω οριζόντιας μεταφοράς (horizontal gene transfer).

Η υπόθεση αυτή βασίστηκε στο ότι γονίδια, όπως τα ΝΑΤ, απαντούν μεν σε βακτήρια και ανώτερα ζώα, αλλά απουσιάζουν από άλλες ενδιάμεσες ταξινομικές ομάδες των ευκαρυωτών (Salzberg et al., 2001). Φυσικά, με την πρόοδο της γονιδιωματικής αλληλούχησης, η υπόθεση αυτή τέθηκε υπό αμφισβήτηση (Rodrigues-Lima and Dupret, 2002) και σήμερα γνωρίζουμε ότι γονίδια ΝΑΤ υπάρχουν επίσης σε ευκαρυωτικούς μικροοργανισμούς και πιθανόν και σε άλλα ευκαρυωτικά taxa για τα οποία δεν υπάρχει μέχρι στιγμής διαθέσιμος μεγάλος αριθμός αλληλουχημένων εκπροσώπων (Glenn et al., 2010).

Κάποιες πρώτες απόπειρες στοιχειώδους φυλογενετικής ανάλυσης της οικογένειας των ενζύμων ΝΑΤ πραγματοποιήθηκαν από τους Butcher et al. (2002), οι οποίοι παρουσίασαν ένα φυλογενετικό δένδρο σχετικών αποστάσεων με τις έως τότε 22 γνωστές αλληλουχίες ΝΑΤ που αντιστοιχούσαν σε 14 είδη οργανισμών και περιελάμβαναν τόσο προκαρυώτες όσο και ευκαρυώτες. Πιο εξειδικευμένα φυλογενετικά δένδρα κατασκευάστηκαν αργότερα από τους Vagena et al. (2008) με τη μέθοδο της ένωσης γειτόνων (neighbor-joining), χρησιμοποιώντας είτε 88 αμινοξικές αλληλουχίες NAT από 35 γονιδιώματα του βακτηριακού γένους Bacillus, είτε 51 αμινοξικές αλληλουχίες NAT από 26 γονιδιώματα ζώων. Αργότερα, δημοσιεύτηκε φυλογενετική ανάλυση ειδικά για τα γονίδια ΝΑΤ των μυκήτων, η οποία βασίστηκε επίσης σε εκτεταμένη επισκόπηση γονιδιωματικών βάσεων δεδομένων και κατασκεύασε δένδρα με τη μέθοδο της μέγιστης πιθανοφάνειας (maximum likelihood) (Martins et al., 2010).

29

Η πιο εμπεριστατωμένη μέχρι σήμερα φυλογενετική μελέτη της οικογένειας ΝΑΤ έχει διενεργηθεί από τους Glenn et al. (2010), η οποία έχει καλύψει όλες τις ταξινομικές επικράτειες οργανισμών όπου είναι γνωστή η ύπαρξη γονιδίων ΝΑΤ, δηλ. ιούς, βακτήρια, αρχαία, πρώτιστα, μύκητες και ζώα. Μέχρι σήμερα δεν έχει αναφερθεί η ύπαρξη γονιδίων ΝΑΤ στα φυτά (Glenn et al., 2010). Για τη μελέτη αυτή διενεργήθηκε υπολογιστική σάρωση 2445 γονιδιωμάτων και πλήρης ταυτοποίηση (annotation) εκατοντάδων αλληλουχιών ΝΑΤ. Τα δεδομένα αυτά χρησιμοποιήθηκαν για μια ολοκληρωμένη φυλογενετική μελέτη με τη μέθοδο της ένωσης γειτόνων και Μπαεσιανής (Bayesian) ανάλυσης, από την οποία προέκυψαν φυλογενετικά δέντρα των αλληλουχιών ΝΑΤ για καθεμιά από τις παραπάνω ευρείες ταξινομικές ομάδες οργανισμών. Από τη μελέτη αυτή συνάγεται το συμπέρασμα ότι τα ένζυμα ΝΑΤ στους μύκητες και τα ανώτερα ζώα παρουσιάζουν μονοφυλετική καταγωγή, ενώ πολυφυλετική καταγωγή παρατηρήθηκε στα βακτήρια και τα πρώτιστα.

Επίσης, τα ευρήματα της ίδιας φυλογενετικής ανάλυσης υποστηρίζουν την οριζόντια μεταφορά γονιδίων ΝΑΤ από βακτήρια (πιθανόν Firmicutes) σε πρώτιστα (πιθανόν μυξομύκητες) (Glenn et al,. 2010). Πιθανή οριζόντια μεταφορά γονιδίου ΝΑΤ προβλέπεται επίσης μεταξύ βακτηρίων και βασιδιομυκήτων (συγκεκριμένα το δερματόφυτο Malassezia globosa) (Glenn et al., 2010, Martins et al., 2010).

Ο διαρκής εμπλουτισμός των βάσεων δεδομένων με όλο και περισσότερα αλληλουχημένα γονιδιώματα οργανισμών από το πλήρες φάσμα του έμβιου κόσμου αναμένεται να επιτρέψει την όλο και μεγαλύτερη κατανόηση της εξελικτικής ιστορίας της οικογένειας των πρωτεϊνών ΝΑΤ, ενδεχομένως αποκαλύπτοντας νέες ιδιότητες και λειτουργίες.

1.8. Σκοπός της παρούσας μελέτης

Οι προκαρυωτικοί οργανισμοί και ιδιαίτερα τα βακτήρια καταλαμβάνουν στο περιβάλλον όλα τα δυνατά ενδιαιτήματα, ζώντας ελεύθερα, παρασιτικά ή συμβιωτικά με πληθώρα άλλων οργανισμών. Μεταξύ άλλων λειτουργιών, παράγουν μέσω του δευτερογενούς μεταβολισμού τους χρήσιμες για τον άνθρωπο ουσίες, όπως τα αντιβιοτικά. Επιπλέον, μέσω του ξενοβιοτικού μεταβολισμού τους κατορθώνουν να επιβιώνουν σε αντίξοα χημικά περιβάλλοντα, βιομετατρέποντας δυνητικά τοξικές ουσίες προς αδρανή ή ακόμη και χρήσιμα μεταβολικά προϊόντα.

30

Στις ξενοβιοτικές ουσίες που αποτοξικοποιούνται από βακτήρια περιλαμβάνονται φυσικές τοξίνες ή προϊόντα της ανθρώπινης δραστηριότητας όπως βιομηχανικοί ρύποι, αστικά λύματα, φάρμακα κ.ά. Τα βακτήρια έχουν ακόμη χρησιμοποιηθεί ευρέως σε βιοτεχνολογικές εφαρμογές, όπως στην παραγωγή ή βιοαποικοδόμηση χημικών ενώσεων, στην παραγωγή κατεργασμένων τροφίμων κ.λ.π.

Με δεδομένο το ρόλο των ενζύμων ΝΑΤ στον ξενοβιοτικό μεταβολισμό, είναι εύλογη η σημασία της διερεύνησης του ρόλου τους σε όσο το δυνατό μεγαλύτερο ταξινομικό εύρος μικροοργανισμών, προκειμένου να κατανοηθούν και αξιοποιηθούν οι διαφορετικές ιδιότητες που μπορεί να εμφανίζουν. Επιπλέον, δεν πρέπει να παραβλέπεται και η φαρμακευτική σημασία των βακτηριακών ΝΑΤ, είτε ως δυνητικών φαρμακευτικών στόχων (π.χ. Mycobacterium tuberculosis), είτε ως ένζυμων των βιοσυνθετικών μονοπατιών αντιβιοτικών όπως η ριφαμυκίνη (π.χ. Amycolatopsis mediterranei). Παράλληλα, έχει αρχίσει να διαφαίνεται ο ρόλος των ενζύμων ΝΑΤ και στη διαμόρφωση της ισορροπίας μικροβιακών κοινοτήτων π.χ. σε φυτά (ιστοί, ρίζες) ή ζώα (εντερικός σωλήνας) (Bacon et al. 2007, Deloménie et al., 2001).

Στο παραπάνω πλαίσιο, η παρούσα μελέτη είχε τους εξής στόχους:

 Τη διεξοδική γονιδιωματική επισκόπηση των αλληλουχημένων προκαρυωτικών γονιδιωμάτων με σκοπό την ανάκτηση και τον προσδιορισμό του ανοιχτού πλαισίου ανάγνωσης (open reading frame - ORF) όλων των πιθανών γονιδίων ΝΑΤ.

 Την ταυτοποίηση (annotation) των ανακτημένων γονιδίων ΝΑΤ από τα διαθέσιμα προκαρυωτικά γονιδιώματα, σύμφωνα με διεθνώς αποδεκτά επιστημονικά κριτήρια και την επίσημα κατοχυρωμένη ονοματολογία (Vagena et al., 2008, Glenn et al., 2010, http://nat.mbg.duth.gr).

 Τη φυλογενετική ανάλυση της οικογένειας των προκαρυωτικών αλληλουχιών ΝΑΤ που χαρακτηρίστηκαν με την κατασκευή φυλογενετικών δέντρων.

31

ΚΕΦΑΛΑΙΟ 2: ΜΕΘΟΔΟΙ

2.1. Παρουσίαση υπολογιστικών εργαλείων βιοπληροφορικής ανάλυσης που χρησιμοποιήθηκαν κατά την παρούσα διατριβή

2.1.1. Οι δημόσιες βάσεις βιολογικών δεδομένων

Οι δημόσιες βάσεις βιολογικών δεδομένων λειτουργούν ως ελεύθερα προσβάσιμες ηλεκτρονικές βιβλιοθήκες βιολογικών δεδομένων από διαφορετικές πηγές. Τα δεδομένα αυτά μπορεί να είναι πρωτογενή πειραματικά αποτελέσματα (π.χ. GenBank, dbSNP, dbVar, dbEST κ.λ.π.), αποτελέσματα μεγάλων προγραμμάτων γονιδιωματικής χαρτογράφησης και αλληλούχησης (π.χ. Genome, MapViewer), επεξεργασμένη παρουσίαση πρωτογενούς πληροφορίας (π.χ. νουκλεοτιδικών ή πρωτεϊνικών αλληλουχιών όπως Clusters of Orthologous Genes, HomoloGene, Conserved Domains Database κ.α., ή γενετικών πολυμορφισμών όπως dbClinVar, HapMap κ.α.), ταξινομικής κατάταξης οργανισμών (π.χ. Taxonomy), χημικών ενώσεων με βιολογική δράση (π.χ. PubChem), επιστημονικές δημοσιεύσεις ή ανάλογη πληροφορία (π.χ. PubMed, OMIM κ.λ.π.), κ.α. Οι βάσεις αυτές δέχονται πρωτότυπες επιστημονικές καταχωρήσεις, ανανεώνονται και αναβαθμίζονται συνεχώς και παρέχουν τα κατάλληλα εργαλεία για την αναζήτηση και την ανάκτηση των δεδομένων που περιέχουν (Koonin and Galperin, 2003).

2.1.1.1. Βάσεις δεδομένων νουκλεοτιδικών αλληλουχιών

Υπάρχουν αρκετές δημόσιες βάσεις νουλεοτιδικών αλληλουχιών. Οι σημαντικότερες είναι η GenBank (Η.Π.Α.) του National Center for Biotechnology Information (NCBI - http://www.ncbi.nlm.nih.gov/Genbank/) (Benson et al., 2009), η EMBL (European Molecular Biology Laboratory) του European Bioinformatics Institute (EBI - http://www.ebi.ac.uk/embl/index.html) (Kulikova et al., 2007) και η DDBJ (Ιαπωνία) του CIB (Center for Information Biology - http://www.ddbj.nig.ac.jp/) (Sugawara et al., 2008). Οι βάσεις αυτές διέπονται από κοινούς κανόνες, όσον αφορά το είδος της καταχώρησης και το είδος της παρεχόμενης πληροφορίας, ενώ παράλληλα συνεργάζονται μεταξύ τους ανταλλάσσοντας συνεχώς δεδομένα, ώστε να ενημερώνονται σχεδόν ταυτόχρονα και να συμβαδίζουν με τα τρέχοντα επιστημονικά δεδομένα (Koonin and Galperin, 2003).

32

2.1.1.2. Βάσεις δεδομένων αλληλουχημένων γονιδιωμάτων

Στις βάσεις δεδομένων γονιδιωμάτων καταχωρούνται πλήρως ή μερικώς αλληλουχημένα γονιδιώματα, μαζί με διάφορες άλλες σχετικές πληροφορίες, όπως τη συστηματική κατάταξη των οργανισμών, την υπολογιστική πρόβλεψη γονιδίων κ.α. Μία από τις καλύτερα ενημερωμένες και ευρέως χρησιμοποιούμενες γονιδιωματικές βάσεις δεδομένων είναι η Εntrez-Genome (http://www.ncbi.nlm.nih.gov/genome) (NCBI Resource Coordinators, 2014), η οποία περιέχει χιλιάδες γονιδιώματα από πλασμίδια, ιούς, αρχαία και βακτήρια, έως και όλους τους ευκαρυωτικούς οργανισμούς που έχουν αλληλουχηθεί. Η αντίστοιχη Ευρωπαϊκή βάση δεδομένων γονιδιωμάτων είναι προσβάσιμη μέσω του Ensembl (http://www.ensembl.org/index.html) του EMBL, και περιέχει επεξεργασμένη πληροφορία για αλληλουχημένα γονιδιώματα ανώτερων ευκαρυωτικών οργανισμών με έμφαση στο ανθρώπινο γονιδίωμα (Hubbard et al., 2009).

2.1.1.3. Βάσεις δεδομένων πρωτεϊνικών αλληλουχιών

Οι πρωτεϊνικές βάσεις δεδομένων περιέχουν τις αμινοξικές αλληλουχίες των πρωτεϊνών που έχουν προκύψει είτε από υπολογιστική μετάφραση των νουκλεοτιδικών αλληλουχιών των γονιδιακών βάσεων δεδομένων, είτε από πειραματικά αποτελέσματα. Υπάρχουν δύο είδη πρωτεϊνικών βάσεων δεδομένων, οι πρωτογενείς και οι δευτερογενείς. Οι πρωτογενείς περιλαμβάνουν τη βιολογική πληροφορία στην πρωτογενή μορφή της, δηλαδή χωρίς επιπλέον ανάλυση, ενώ οι δευτερογενείς περιέχουν τα αποτελέσματα της επεξεργασίας των βιολογικών δεδομένων που είναι αποθηκευμένα στις πρωτογενείς (Koonin and Galperin, 2003).

Οι κυριότερες πρωτογενείς βάσεις πρωτεϊνικών δεδομένων είναι η PIR, η SwissProt και η συμπληρωματική της TrEMBL. Το αποτέλεσμα της συνεργασίας των τριών παραπάνω είναι η δημιουργία της UniProt (http://www.uniprot.org/), η οποία είναι μία πλήρως οργανωμένη βάση δεδομένων, ενημερωμένη και διασυνδεόμενη με τις υπόλοιπες πρωτεϊνικές βάσεις δεδομένων (Bairoch et al., 2005). Οι θεωρούμενες ως αλληλουχίες αναφοράς διαφορετικών πρωτεϊνών καταχωρούνται επίσης στην πολύ χρήσιμη βάση δεδομένων RefSeq του NCBI (http://www.ncbi.nlm.nih.gov/refseq/) (Pruitt et al., 2007).

33

Οι δευτερογενείς βάσεις δεδομένων πρωτεϊνών χρησιμοποιούν διαφορετικές επιστημονικές προσεγγίσεις για την ταξινόμηση και παρουσίαση των δεδομένων τους, όπως το προφίλ των πρωτεϊνών, τα κοινά μοτίβα μεταξύ τους (αποτύπωμα - fingerprint) τις αμινοξικές «υπογραφές» τους (protein signature databases) κ.α. Οι κυριότερες είναι οι BLOCKS, PRINTS, PROSITE και Conserved Domains Database (CDD) (Koonin and Galperin, 2003).

2.1.1.4. Βάσεις δεδομένων Ταξινομικής

Οι βάσεις δεδομένων ταξινομικής παρέχουν τη συστηματική κατάταξη των οργανισμών που καταχωρούνται σε αυτές. Παράλληλα, παραπέμπουν σε άλλους συνδέσμους για περαιτέρω πληροφορίες. Στο πλαίσιο γονιδιωματικών μελετών, χρησιμοποιείται ευρέως η βάση δεδομένων Taxonomy του NCBI (Sayers et al., 2008), όπου η ταξινόμηση των οργανισμών είναι ιεραρχική και ακολουθεί την ευρέως αποδεκτή συστηματική κατάταξη των οργανισμών των οποίων είναι γνωστό έστω και μέρος της γονιδιωματικής αλληλουχίας τους ως καταχώρηση στη βάση δεδομένων GenBank. Άλλη χρήσιμη βάση δεδομένων ταξινομικής είναι η UniProt Taxonomy, η οποία βασίζεται στη χρήση των δεδομένων του Taxonomy Browser (NCBI), αλλά παρέχει επιπλέον πληροφορίες σχετικά με συνώνυμα ονόματα ειδών, καθώς και τον μοναδικό κωδικό ταυτοποίησης ταξινομικών βαθμίδων (taxon mnemonic) (The UniProt Consortium, 2014). Και στις δύο βάσεις δεδομένων, οι διάφοροι οργανισμοί και οι αντίστοιχες ταξινομικές βαθμίδες καταχωρούνται με μοναδικό αριθμό πρόσβασης (taxon identification number).

2.1.1.5. Ανάκτηση δεδομένων από δημόσιες βάσεις βιολογικών δεδομένων

Η ανάκτηση βιολογικών δεδομένων από τις βάσεις δεδομένων γίνεται π.χ. με λέξεις κλειδιά, τη νουκλεοτιδική αλληλουχία ενός γονιδίου, την αμινοξική αλληλουχία μίας πρωτεΐνης ή τον αριθμό καταχώρησης μίας αλληλουχίας κ.ο.κ., ανάλογα με τη στρατηγική και τα συμπεράσματα που επιθυμεί να εξάγει ο χρήστης (Koonin and Galperin, 2003). Η μηχανή αναζήτησης Entrez του NCBI αποτελεί διαδεδομένο και εύχρηστο εργαλείο ανάκτησης βιολογικών δεδομένων, το οποίο παρέχει τη δυνατότητα εφαρμογής του σε όλες τις βάσεις δεδομένων του NCBI και επιτρέπει εξαγωγή των δεδομένων σε διάφορες μορφές αρχείων όπως fasta, txt, genbank κ.α., ανάλογα με το είδος της ανάλυσης που εξυπηρετεί το χρήστη (NCBI Resource Coordinators, 2014).

34

2.1.2. Στοίχιση αλληλουχιών

Η μέθοδος που ακολουθείται για σύγκριση δύο ή περισσότερων αλληλουχιών νουκλεοτιδίων ή αμινοξέων είναι η στοίχισή τους. Με τον τρόπο αυτό επιτυγχάνεται ο υπολογισμός του βαθμού ομοιότητας των αλληλουχιών και η εξαγωγή συμπερασμάτων για την ομολογία τους. Ως ομοιότητα ορίζεται το ποσοστό των ταυτόσημων καταλοίπων μεταξύ δύο αλληλουχιών. Οι αλληλουχίες που παρουσιάζουν σημαντικό βαθμό ομοιότητας ενδέχεται να είναι ομόλογες, δηλαδή να προέρχονται από κοινή προγονική αλληλουχία και να έχουν κοινή εξελικτική ιστορία. Ειδικά η βιολογική λειτουργία μιας πρωτεΐνης καθορίζεται από τη στερεοδιαμόρφωσή της. Άρα, όσο μεγαλύτερο βαθμό ομοιότητας παρουσιάζουν δύο πρωτεΐνες τόσο μεγαλύτερη πιθανότητα υπάρχει να έχουν παρόμοια στερεοδιαμόρφωση και παρόμοια βιολογική λειτουργία.

Η στοίχιση που γίνεται από τους υπολογιστικούς αλγόριθμους είναι γραμμική, έτσι ώστε τα όμοια ή παρόμοια κατάλοιπα να βρίσκονται στην ίδια στήλη (matches). Τα ανόμοια κατάλοιπα (mismatches) θεωρούνται αποκλίσεις που συνέβησαν στη διάρκεια της εξέλιξης. Στις στοιχίσεις πρωτεϊνών, όταν διαπιστωθεί ότι έγινε αντικατάσταση ενός αμινοξέος από ένα άλλο με παρόμοιες φυσικοχημικές ιδιότητες, χωρίς να προβλέπεται μεταβολή στη στεροδιαμόρφωση ή τη βιολογική λειτουργία, τότε λέμε ότι πρόκειται για μία συντηρητική αντικατάσταση (π.χ. ασπαρτικό οξύ αντί γλουταμινικού οξέος ή λυσίνη αντί αργινίνης). Από την άλλη, όταν υπάρχουν κενά στη στοίχιση αλληλουχιών τότε θεωρούμε ότι αυτά μπορεί να προέκυψαν από ελλείψεις ή προσθήκες καταλοίπων. Θα πρέπει να σημειωθεί ότι πάντα υπάρχει ένα ελάχιστο ποσοστό ομοιότητας μεταξύ δύο αλληλουχιών, κάτω από το οποίο η εξαγωγή συμπερασμάτων δεν μπορεί να θεωρηθεί ασφαλής. Στις στοιχίσεις πρωτεϊνών αυτό το ποσοστό κυμαίνεται από 20-30% (Koonin and Galperin, 2003). Ωστόσο, η λειτουργική ομολογία πρωτεϊνών μπορεί να υποστηρίζεται σε περιπτώσεις χαμηλής μεν ομοιότητας (σε επίπεδο πλήρους αμινοξικής αλληλουχίας), αλλά με τις αλληλουχίες των κύριων λειτουργικών επικρατειών (π.χ. ενεργό κέντρο ενζύμων) να εμφανίζονται ως επαρκώς συντηρημένες.

35

2.1.2.1. Στοίχιση αλληλουχιών ανά ζεύγη

Η αναζήτηση ομοιότητας μεταξύ αλληλουχιών, π.χ. σε μία βάση δεδομένων, περιλαμβάνει τη στοίχιση της αλληλουχίας αναφοράς (query sequence) με κάθε αλληλουχία της βάσης δεδομένων (subject sequence). Η διαδικασία αυτή ονομάζεται στοίχιση αλληλουχιών ανά ζεύγη (pairwise sequence alignment). Υπάρχουν δύο τύποι τέτοιων στοιχίσεων, η τοπική στοίχιση (local alignment) και η ολική στοίχιση (global alignment). Κατά την τοπική στοίχιση συγκρίνονται επιμέρους αλληλουχίες που εμφανίζουν υψηλό βαθμό ομοιότητας. Όταν η στοίχιση είναι ολική επιδιώκεται η βέλτιστη ευθυγράμμιση των αλληλουχιών συμπεριλαμβάνοντας όσο το δυνατό περισσότερους χαρακτήρες καθ’ όλο το μήκος τους (Koonin and Galperin, 2003).

2.1.2.2. Συστήματα βαθμολόγησης των στοιχίσεων ανά ζεύγη

Η βαθμολόγηση των στοιχίσεων ανά ζεύγη καθορίζεται από τα ταυτόσημα και μη ταυτόσημα κατάλοιπα, τις αντικαταστάσεις και τα κενά. Στις ταυτόσημες ακολουθίες αποδίδεται μεγαλύτερη βαθμολογία από τις αντικαταστάσεις. Στην περίπτωση αμινοξικών αλληλουχιών, οι συντηρητικές αντικαταστάσεις παίρνουν μεγαλύτερη βαθμολογία από τις μη συντηρητικές, διότι η πιθανότητα να αντικατασταθεί ένα αμινοξύ από ένα άλλο με παρόμοιες φυσικοχημικές ιδιότητες είναι πιθανότερο να συμβεί στη διάρκεια της εξέλιξης απ’ ότι μια μη συντηρητική αντικατάσταση (Koonin and Galperin, 2003).

2.1.2.3. Πίνακες αντικατάστασης καταλοίπων PAM και BLOSUM

Οι πίνακες αντικατάστασης προσφέρουν το βιολογικό υπόβαθρο στους μαθηματικούς τύπους που ορίζουν την ομοιότητα μεταξύ νουκλεοτιδίων ή αμινοξέων. Επίσης, περιέχουν τη βαθμολογία των αντικαταστάσεων και είναι τετραγωνικοί. Επιπλέον, είναι συμμετρικοί, αφού η πιθανότητα αντικατάστασης ενός καταλοίπου Α από ένα άλλο Β είναι η ίδια με αυτή της αντικατάστασης του Β από το Α. Οι πίνακες που χρησιμοποιούνται περισσότερο από τα προγράμματα βιοπληροφορικής ανάλυσης είναι οι PAM (Point Accepted Mutation) (Dayhoff et al., 1978) και BLOSUM (BLOck SUbstitution Matrix) (Henikoff and Henikoff, 1992).

36

Οι πίνακες αντικατάστασης PAM (Dayhoff et al., 1978) προκύπτουν από τις στοιχίσεις εξελικτικά κοντινών αλληλουχιών. Η κατασκευή τους βασίζεται στην παραδοχή ότι οι αλληλουχίες που χρησιμοποιούνται απέκλιναν από τις προγονικές μέσω αποδεκτών σημειακών μεταλλάξεων (point accepted mutations) ως αποτέλεσμα φυσικής επιλογής. Οι πίνακες PAM-v αναφέρονται σε μία εξελικτική απόσταση ν αποδεκτών σημειακών μεταλλαγών για κάθε 100 κατάλοιπα. Έτσι, οι πίνακες PAM με μεγαλύτερους αριθμούς αντικατοπτρίζουν μεγαλύτερες εξελικτικές αποκλίσεις και ενδείκνυνται για τη σύγκριση απομακρυσμένων εξελικτικά αλληλουχιών και αντιστρόφως.

Οι πίνακες BLOSUM (Henikoff and Henikoff, 1992) υπολογίζουν την πιθανότητα αντικατάστασης ενός καταλοίπου βασιζόμενοι σε πειραματικά αποδεδειγμένες πιθανότητες. Σε αντίθεση με τους PAM, οι πίνακες BLOSUM προκύπτουν από στοιχίσεις συντηρημένων αμινοξέων χωρίς κενά (BLOCKS). Ένας πίνακας BLOSUM-ν σχηματίζεται από τις παρατηρούμενες αντικαταστάσεις πρωτεϊνικών αλληλουχιών που έχουν ν% ταυτόσημα αμινοξικά κατάλοιπα. Οπότε, οι πίνακες BLOSUM με μικρότερους αριθμούς αντικατοπτρίζουν μεγαλύτερες εξελικτικές αποκλίσεις και αντίστροφα.

2.1.2.4. Ποινές εισαγωγής κενών (gap penalties)

Για να γίνει εφικτή η υπολογιστική σύγκριση δύο στοχασμένων αλληλουχιών είναι αναγκαία η εισαγωγή κενών (gaps). Τα κενά αυτά επιδέχονται ποινές (penalties) κειμένου να μη γίνεται κατάχρηση τους. Το σύστημα ποινών που εφαρμόζεται είναι αυτό της «ομοιόμορφης παραμόρφωσης» (affine gap penalty), στο οποίο η ποινή εισαγωγής του κενού είναι μεγαλύτερη από αυτή της επέκτασής του (Mount, 2004). Η επιλογή των παραμέτρων για τις ποινές των κενών εξαρτάται από τον πίνακα αντικατάστασης που χρησιμοποιείται και τις περισσότερες φορές έχουν προεπιλεχθεί αυτόματα από το λογισμικό που επιλέχθηκε για την ανάλυση.

2.1.2.5. Το λογισμικό πακέτο BLAST (Basic Local Alignment Search Tool)

Η αναζήτηση ομοιότητας στις βάσεις δεδομένων επιδιώκει τη βέλτιστη δυνατή στοίχιση των ακολουθιών ανά ζεύγη. Συνήθως, στις βάσεις δεδομένων χρησιμοποιούνται μέθοδοι που επιδιώκουν γρήγορη και αποτελεσματική αναζήτηση των πιθανότερων στοιχίσεων, χωρίς όμως να εγγυώνται τη βέλτιστη δυνατή στοίχιση.

37

Το λογισμικό πακέτο BLAST (Basic Local Alignment Search Tool; http://blast.ncbi.nlm.nih.gov/Blast.cgi) (Altschul et al., 1990) είναι το πιο δημοφιλές εργαλείο για την εύρεση τοπικών ομοιοτήτων μεταξύ μίας αλληλουχίας αναφοράς και όλων των αλληλουχιών που υπάρχουν διαθέσιμες στη βάση δεδομένων. Αρχικά ο αλγόριθμος BLAST διαιρεί την αλληλουχία αναφοράς σε επιμέρους αλληλουχίες μήκους 3 στοιχείων για τις πρωτεϊνικές και 11 για τις νουκλεοτιδικές αλληλουχίες. Έπειτα, εντοπίζει παρόμοια στοιχεία στη βάση δεδομένων, με βαθμολογία στοίχισης μεγαλύτερη από μία οριακή τιμή (threshold) (Altschul et al., 1990; Pertsemlidis and Fondon, 2001). Έτσι, προκύπτουν στοιχίσεις με τη μεγαλύτερη βαθμολογία για μία αλληλουχία (HSPs, High Scoring Pairs). Τα αποτελέσματα της ανάλυσης περιλαμβάνουν έναν κατάλογο με τις παρόμοιες αλληλουχίες που βρέθηκαν στη βάση δεδομένων, τις στοιχιζόμενες περιοχές των αλληλουχιών αυτών και στατιστικά στοιχεία. Το αν είναι στατιστικά σημαντική ή όχι μία τιμή καθορίζεται από την τιμή του E-value (Expectation value), η οποία υποδεικνύει την πιθανότητα οι στοιχίσεις να έχουν προκύψει τυχαία. Όσο μικρότερη η E-value τόσο μεγαλύτερη η πιθανότητα οι στοιχίσεις να μην έχουν προκύψει τυχαία. Αύξηση της E-value μπορεί να συνεπάγεται μεγαλύτερη πιθανότητα εύρεσης εξελικτικά απομακρυσμένων αλλά ομόλογων αλληλουχιών (Altschul et al., 1990; Pertsemlidis and Fondon, 2001).

Υπάρχουν πολλά προγράμματα BLAST. Από αυτά, πέντε είναι τα πιο βασικά και το καθένα εμφανίζει πλεονεκτήματα για τον συγκεκριμένο τύπο ανάλυσης που δύναται να επιτελεί (Πίνακας 1). Πέραν αυτών, έχουν αναπτυχθεί διάφορες παραλλαγές, οι οποίες είναι αυστηρά εξειδικευμένες για πολύ στοχευμένες αναζητήσεις. Μία εξειδικευμένη παραλλαγή του BLAST είναι το PSI-BLAST (Position Specific Iterated-BLAST), η οποία αποτελεί αναβαθμισμένη έκδοση του BLAST, κατάλληλη για τον εντοπισμό ασθενών στοιχίσεων (Altschul et al., 1997). Άλλη τέτοια παραλλαγή είναι το αμφίδρομο BLAST (reciprocal BLAST), που χρησιμοποιείται για αναζήτηση βέλτιστων αμφίδρομων στοιχίσεων (Altschul et al., 1997). Όλες οι ειδικές μορφές του BLAST είναι διαθέσιμες στην ηλεκτρονική διεύθυνση http://blast.ncbi.nlm.nih.gov/Blast.cgi, ενώ συνεχώς προστίθενται καινούργιες και αναβαθμίζονται οι παλαιότερες.

38

Πίνακας 1: Τα κυριότερα προγράμματα BLAST, το είδος των αλληλουχιών που χρησιμοποιούν και ο τύπος της μελέτης για την οποία χρησιμοποιούνται.

ΠΡΟΓΡΑΜΜΑ ΑΛΛΗΛΟΥΧΙΑ ΑΛΛΗΛΟΥΧΙΑ ΤΥΠΟΣ ΜΕΛΕΤΗΣ ΑΝΑΦΟΡΑΣ ΣΤΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ

BLASTn Νουκλεοτιδική Νουκλεοτιδική Αναγνώριση ομόλογων νουκλεοτιδικών αλληλουχιών

BLASTp Αμινοξική Αμινοξική Αναγνώριση ομόλογων αμινοξικών αλληλουχιών

BLASTx Νουκλεοτιδική Αμινοξική Αναγνώριση πιθανών γονιδιακών προϊόντων (πρωτεϊνών) στη βάση δεδομένων, βάσει της νουκλεοτιδικής αλληλουχίας τους

tBLASTn Αμινοξική Νουκλεοτιδική Αναγνώριση γονιδιακών αλληλουχιών στη βάση δεδομένων, οι οποίες κωδικοποιούν πρωτεΐνες παρόμοιες με την αμινοξική αλληλουχία αναφοράς

tBLASTx Νουκλεοτιδική Νουκλεοτιδική Αναγνώριση γονιδιακών αλληλουχιών στη βάση δεδομένων, οι οποίες είναι παρόμοιες με την αλληλουχία αναφοράς, λαμβάνοντας υπόψη μεταφραστικό τους δυναμικό

39

2.1.2.6. Πολλαπλή γραμμική στοίχιση αλληλουχιών

Η πιο έγκυρη και διαδεδομένη μέθοδος για τη συγκριτική μελέτη νουκλεοτιδικών και αμινοξικών αλληλουχιών είναι η πολλαπλή γραμμική στοίχισή τους (multiple sequence alignment). Μία τέτοια στοίχιση επιτρέπει την εξαγωγή συμπερασμάτων για την εξελικτική ιστορία πολλών υπό μελέτη αλληλουχιών ταυτόχρονα. Πιο συγκεκριμένα, η πολλαπλή γραμμική στοίχιση αποτελεί αναγκαία προϋπόθεση για τη διεξαγωγή φυλογενετικών αναλύσεων. Επίσης, με τη στοίχιση αυτή, μπορούν να προβλεφθούν μεταλλάξεις (προσθήκες / απαλοιφές και αντικαταστάσεις) και οριζόντιες μεταφορές γονιδίων που έχουν προκύψει κατά τη διαδικασία της εξέλιξης. Επιπλέον, μπορούν να προσδιοριστούν συντηρημένα αμινοξέα σε μια πρωτεϊνική αλληλουχία, τα οποία είναι απαραίτητα για τη δομική και λειτουργική μορφή μιας οικογένειας πρωτεϊνών (Edgar and Batzoglou, 2006).

2.1.2.7. Λογισμικά πακέτα πολλαπλής γραμμικής στοίχισης αλληλουχιών

Ένα από τα πιο δημοφιλή και εύχρηστα προγράμματα πολλαπλής γραμμικής στοίχισης αλληλουχιών, το οποίο διατίθεται δωρεάν στο διαδίκτυο, είναι το CLUSTALW (http://www.ebi.ac.uk/Tools/clustalw2/) (Thompson et al.,1994). Το γράμμα W στο όνομα του προγράμματος συμβολίζει τη λέξη στάθμιση (weighting). Αυτό σημαίνει ότι οι αλληλουχίες με τη μεγαλύτερη ομοιότητα σταθμίζονται με τέτοιον τρόπο, ώστε να μην επηρεάζεται η τελική στοίχιση. Μια άλλη αυτοματοποιημένη λειτουργία του προγράμματος είναι η επιλεκτική εισαγωγή κενών στις θέσεις που οι χαρακτήρες δεν μπορούν να στοιχηθούν, ενώ οι ποινές κενών στις αμνοξικές αλληλουχίες είναι διαβαθμισμένες (υψηλότερη τιμή ποινής σε απομονωμένο κενό απ’ ότι σε κενό που βρίσκεται δίπλα σε άλλο κενό). Ακόμη, το πρόγραμμα παρέχει τη δυνατότητα επαναστοίχισης των ακολουθιών προς βελτιστοποίηση της στοίχισης, ενώ περιλαμβάνει και γραφική αναπαράσταση των αποτελεσμάτων για επεξεργασία από το χρήστη (Barton, 1993). Άλλο ευρέως διαδεδομένο πρόγραμμα πολλαπλής γραμμικής στοίχισης αλληλουχιών είναι το MUSCLE (http://www.ebi.ac.uk/Tools/muscle/index.html), το οποίο είναι γρήγορο, ακριβές και ενδείκνυται για την πολλαπλή στοίχιση μεγάλου αριθμού αλληλουχιών (Edgar, 2004). Δύο ακόμη προγράμματα που χρησιμοποιούνται και αξίζει να αναφερθούν είναι το T-COFFEE (Notredame et al., 2000) και το MAFFT (Katoh et al., 2002), τα οποία λαβάνουν επιπλέον υπόψη τα προβλεπόμενα δομικά στοιχεία (π.χ. α-έλικες, β-πτυχωτές επιφάνειες) των αμινοξικών αλληλουχιών των οποίων επιχειρείται η στοίχιση.

40

2.1.2.8. Συστήματα βαθμολόγησης πολλαπλής γραμμικής στοίχισης αλληλουχιών

Η βιολογική σημασία μιας πολλαπλής στοίχισης εξαρτάται από τη βαθμολόγησή της. Υπάρχουν διαφορετικές προσεγγίσεις βαθμολόγησης πολλαπλών στοιχίσεων, όμως καμία δεν μπορεί να θεωρηθεί βέλτιστη, διότι σε κάθε στήλη βρίσκονται πολλοί χαρακτήρες. Ωστόσο, τα συνήθη λογισμικά πακέτα στοίχισης χρησιμοποιούν δύο συστήματα βαθμολόγησης πολλαπλών στοιχίσεων. Το πρώτο είναι το sum of pairs (SP). Γενικά υψηλό SP-score υποδηλώνει ότι η στοίχιση έχει καλή βιολογική σημασία (Thompson et al., 1999). Εναλλακτικό σύστημα βαθμολόγησης είναι το Ζ (Z-score). Συμβατικά, μια τιμή Ζ=6 υποδηλώνει πιθανή ομολογία, ενώ τιμές Z ≥ 9 αντιπροσωπεύουν σαφή ομολογία (Barton and Sternberg, 1987).

2.1.2.9. Επεξεργασία νουκλεοτιδικών και αμινοξικών αλληλουχιών - Το πρόγραμμα Βioedit

Μετά την ανάκτηση των επιθυμητών αλληλουχιών από τις βάσεις δεδομένων, συνήθως ακολουθεί η επεξεργασία και ανάλυσή τους. Αυτή η διαδικασία διευκολύνεται με χρήση προγραμμάτων επεξεργασίας αλληλουχιών, τα οποία πλέον αποτελούν αναπόσπαστο εργαλείο στη σύγχρονη βιολογική έρευνα. Ένα διαδεδομένο, εύχρηστο και δωρεάν διαθέσιμο πρόγραμμα επεξεργασίας και ανάλυσης νουκλεοτιδικών και αμινοξικών αλληλουχιών είναι το Bioedit (http://www.mbio.ncsu.edu/bioedit/bioedit.html) (Hall, 1999). Το πρόγραμμα αυτό παρέχει πολλαπλές δυνατότητες απεικόνισης, χειρισμού και τροποποίησης βιολογικών αλληλουχιών σε ένα φιλικό για το χρήστη περιβάλλον εργασίας, ενώ το πρόγραμμα υποστηρίζει διάφορους τύπους αρχείων (Genbank, Fasta, Phylip 3.2, Phylip 4, NBRF/PIR και Clustal), τόσο για τη εισαγωγή και επεξεργασία, όσο και για την εξαγωγή των δεδομένων. Για παράδειγμα, ο χρήστης μπορεί να παρεμβαίνει χειροκίνητα στις αλληλουχίες και να τις τροποποιεί βρίσκοντας τα ανοιχτά πλαίσια ανάγνωσης (Open Reading Frames - ORF) των γονιδίων που τον ενδιαφέρουν και να προχωράει σε ταυτοποίησή τους (annotation). Επίσης, δίνεται η δυνατότητα διασύνδεσης τοπικά και διαδικτυακά με το BLAST. Ακόμη, το πρόγραμμα παρέχει την επιλογή της πολλαπλής στοίχισης αλληλουχιών, τοπικά μέσω του προγράμματος CLUSTALW (Εικόνα 1). Επιπλέον, υπάρχει δυνατότητα απευθείας σύνδεσης με βάσεις δεδομένων, όπως οι GenBank, Prosite κ.α., καθώς και με χρήσιμες ιστοσελίδες και προγράμματα, όπως π.χ. NCBI, Phylip, Net primer PCR analysis κ.α.

41

Αξίζει τέλος να αναφερθεί ότι το Bioedit διαθέτει ενσωματωμένα προγράμματα φυλογενετικής ανάλυσης με μεθόδους αποστάσεων (distance methods) και ευρετικές μεθόδους (heuristic methods) παρέχοντας παράλληλα τη δυνατότητα απεικόνισης και επεξεργασίας τους με το πρόγραμμα TreeView.

Εικόνα 1: Διασύνδεση του προγράμματος Bioedit με το CLUSTALW, για πολλαπλή στοίχιση αλληλουχιών, μαζί με το αναδυόμενο παράθυρο επιλογής εντολών για ρύθμιση των παραμέτρων. Στο επάνω μέρος της εικόνας φαίνεται το βασικό μενού των επιλογών που παρέχει το Bioedit στο χειριστή.

2.1.3 Φυλογενετική ανάλυση

Η φυλογενετική ανάλυση αποτελεί επιστημονική προσέγγιση με την οποία μελετάμε την εξελικτική ιστορία των οργανισμών ή χαρακτήρων τους. Βασίζεται στην πολλαπλή στοίχιση νουκλεοτιδικών ή αμινοξικών αλληλουχιών, με επακόλουθη κατασκευή φυλογενετικών δένδρων που αντικατοπτρίζουν τις εξελικτικές σχέσεις γονιδίων ή πρωτεϊνών, αντίστοιχα. Πολλαπλή στοίχιση με υψηλή βαθμολογία υποδηλώνει ότι η πιθανότητα οι αλληλουχίες να προέρχονται από κοινό πρόγονο είναι μεγάλη.

42

Σε αντίθετη περίπτωση, οι εξελικτική απόσταση είναι μεγάλη και προβλέπει χαμηλή εξελικτική συγγένεια μεταξύ των συγκρινόμενων αλληλουχιών. Μετά την πολλαπλή στοίχιση των αλληλουχιών, τα δεδομένα εισάγονται με τον κατάλληλο τύπο αρχείου σε προγράμματα υπολογισμού φυλογενετικών δένδρων. Υπάρχουν πολλές μέθοδοι φυλογενετικής ανάλυσης, στις οποίες περιλαμβάνονται εκτός από τη μοριακή και συστηματική προσέγγιση και μελέτες βιοποικιλότητας, επιδημιολογικές μελέτες κ.ο.κ. (Graur and Li, 1999).

2.1.3.1. Ομόλογες αλληλουχίες

Ο ολοένα αυξανόμενος αριθμός νέων αλληλουχημένων γονιδιώματων διευρύνει τις δυνατότητες για ταυτοποίηση των γονιδίων τους, καθώς και τον προσδιορισμό της έκφρασής τους και της βιοχημικής λειτουργίας των παραγόμενων πρωτεϊνών. Σημαντικό ρόλο προς αυτήν την κατεύθυνση παίζουν οι μελέτες συγκριτικής γονιδιωματικής και φυλογενετικής ανάλυσης, οι οποίες βασίζονται στην αναζήτηση, εύρεση και ταυτοποίηση ομόλογων αλληλουχιών, δηλαδή αλληλουχιών που έχουν προέλθει από κάποιον κοινό εξελικτικό πρόγονο. Η σύγκριση των ομολόγων αλληλουχιών επιτρέπει τη διατύπωση υποθέσεων σχετικά με τις εξελικτικές σχέσεις και τη λειτουργία των γονιδίων ή πρωτεϊνών ενδιαφέροντος, αντλώντας δεδομένα από γνωστά ομόλογα γονίδια ή πρωτεΐνες πειραματικά αποδεδειγμένης λειτουργίας. Οι ομόλογες αλληλουχίες μπορεί να είναι είτε ορθόλογες, είτε παράλογες, είτε ξενόλογες (Πίνακας 2), η δε διάκρισή τους είναι απαραίτητη σε μελέτες συγκριτικής γονιδιωματικής και φυλογενετικής ανάλυσης. Περαιτέρω διάκριση μπορεί να γίνει και σε άλλες υποκατηγορίες, π.χ. ορθόλογων αλληλουχιών οι οποίες μπορεί να χαρακτηρίζονται ως ψευδοορθόλογες (pseudo-orthologs) ή συνορθόλογες, (co- orthologs) ή παράλογων αλληλουχιών οι οποίες μπορεί να χαρακτηρίζονται ως συμπαράλογες (symparalogs), αλλοπαράλογες (alloparalogs) ή ψευδοπαράλογες (pseudoparalogs). Ωστόσο, η ταυτοποίηση των αλληλουχιών στο επίπεδο αυτών των υποκατηγοριών απαιτεί γνώση εξειδικευμένων τεχνικών υψηλού υπολογιστικού κόστους και ενδεχομένως αμφιβόλου αποτελεσματικότητας. Πάντως, μία τέτοια βελτιστοποιημένη προσέγγιση θα είχε ενδεχομένως αξία σε περιπτώσεις όπου μελετώνται συγκριτικά ολόκληρα γονιδιώματα κι όχι μεμονωμένα γονίδια ή πρωτεϊνες (Koonin, 2005).

43

Πίνακας 2: Οι βασικές κατηγορίες των ομόλογων αλληλουχιών και οι ορισμοί τους.

ΟΜΟΛΟΓΕΣ ΑΛΛΗΛΟΥΧΙΕΣ (ΚΑΤΑΓΩΓΗ ΑΠΟ ΚΟΙΝΟ ΕΞΕΛΙΚΤΙΚΟ ΠΡΟΓΟΝΟ)

Ορθόλογες Ομόλογες αλληλουχίες που προκύπτουν από γεγονότα ειδογένεσης (Orthologs) (speciation). Προέρχονται από ένα μοναδικό προγονικό γονίδιο του τελευταίου κοινού προγόνου των ειδών που περιλαμβάνονται στη συγκριτική γονιδιωματική μελέτη. Τείνουν να έχουν παρόμοια λειτουργία.

Παράλογες Ομόλογες αλληλουχίες που προκύπτουν από γονιδιακό (Paralogs) διπλασιασμό (gene duplication). Προέρχονται από ένα κοινό προγονικό γονίδιο το οποίο αφού διπλασιάστηκε απέκλινε από το αρχικό, πάνω στο ίδιο γονιδίωμα. Μπορεί να έχουν διαφορετικές λειτουργίες.

Ξενόλογες Ομόλογες αλληλουχίες που προέρχονται από οριζόντια μεταφορά (Xenologs) γονιδιακού υλικού (Horizontal Gene Transfer).

2.1.3.2. Επιλογή αλληλουχιών για φυλογενετική ανάλυση

Η επιλογή των αλληλουχιών που χρησιμοποιούνται για φυλογενετική ανάλυση εξαρτάται από τους σκοπούς της εκάστοτε μελέτης. Για παράδειγμα, σε πληθυσμιακές μελέτες ενός ευκαρυωτικού οργανισμού μπορεί να επιλέγονται αλληλουχίες μιτοχονδριακού DNA και τούτο διότι ο ρυθμός συσσώρευσης πολυμορφισμών σε αυτό είναι σημαντικά μεγαλύτερος σε σχέση με το γενωμικό DNA (δηλαδή, το μιτοχονδριακό DNA εξελίσσεται γρηγορότερα από το γενωμικό). Αντίθετα, η φυλογενετική μελέτη γονιδίων συγγενικών ειδών μπορεί να γίνει με χρήση των αντίστοιχων γονιδιωματικών αλληλουχιών. Για μελέτη της εξελικτικής ιστορίας γονιδίων λιγότερο συγγενικών ειδών, είναι συχνά καλύτερο να αναλυθούν οι αντίστοιχες πρωτεϊνικές αντί για τις γονιδιακές αλλήλουχίες. Οι αλλαγές στις πρωτεΐνες υιοθετούνται σε βάθος χρόνου από τους οργανισμούς, μόνο εφόσον δεν επιφέρουν σοβαρές αλλαγές στη δομή και τη λειτουργία του μορίου.

44

Αυτό σχετίζεται και με τον εκφυλισμό του γενετικού κώδικα, όπου οι αλλαγές στην τρίτη θέση ενός κωδικονίου συνήθως δεν επηρεάζουν την αμινοξική ακολουθία (Hashimoto et al., 1994).

2.1.3.3 Μέθοδοι κατασκευής φυλογενετικών δένδρων

Οι μέθοδοι που χρησιμοποιούνται για την κατασκευή φυλογενετικών δένδρων διακρίνονται σε μεθόδους αποστάσεων (distance methods) και σε ευρετικές μεθόδους (heuristic methods) ή μεθόδους χαρακτήρων. Οι μέθοδοι απόστασης υπολογίζουν τις αποστάσεις των χαρακτήρων του συνόλου. Στη συνέχεια, οι χαρακτήρες ομαδοποιούνται σύμφωνα με τις προκαθορισμένες αποστάσεις και κατασκευάζεται ένα φυλογενετικό δένδρο (Farris, 1972). Οι ευρετικές μέθοδοι καταλήγουν στην κατασκευή φυλογενετικών δένδρων μετά από βέλτιστη προσαρμογή των δεδομένων των χαρακτήρων. Αυτό στην πράξη σημαίνει ότι η θέση ενός χαρακτήρα εκτιμάται βάσει της θέσης των υπόλοιπων χαρακτήρων (Hasegawa and Fujiwara, 1993).

2.1.3.3.1 Μέθοδοι βασισμένες στην απόσταση

Οι πιο γνωστές μέθοδοι αποστάσεων είναι η UPGMA (Unweighted Pair Group Method with Arithmetic Mean) και η Νeighbor Joining (Ένωσης Γειτόνων) (Saitu and Nei., 1987). Τόσο η μία, όσο και η άλλη μέθοδος χρησιμοποιούνται ευρύτατα από τις διαδυκτιακές πλατφόρμες και τα προγράμματα φυλογενετικής ανάλυσης. Ωστόσο, η πιο διαδεδομένη είναι αυτή της «Ένωσης Γειτόνων». Η δόμηση του εξελικτικού δένδρου ξεκινάει με ένα «δένδρο-αστέρι» όπου όλες οι ταξινομικές μονάδες συνδέονται σε έναν εσωτερικό κόμβο. Στη συνέχεια, το κοντινότερο ζεύγος ταξινομικών μονάδων («γείτονες») συνδέεται με ένα διαφορετικό κόμβο. Η διαδικασία επαναλαμβάνεται μέχρις ότου το «δένδρο-αστέρι» αποσυντεθεί σε ένα πλήρως δομημένο δένδρο (Brinkman and Leipe, 2001).

2.1.3.3.2 Μέθοδοι βασισμένες σε χαρακτήρες

Οι κυριότερες μέθοδοι χαρακτήρων είναι η μέθοδος της μέγιστης φειδωλότητας (maximum parsimony) και η μέθοδος της μέγιστης πιθανοφάνειας (maximum likelihood). Η πρώτη βασίζεται στην παραδοχή ότι η απλούστερη εξήγηση των δεδομένων είναι και η πιο πιθανή και αποσκοπεί στη κατασκευή ενός φυλογενετικού δένδρου που απαιτεί τις ελάχιστες δυνατές αντικαταστάσεις χαρακτήρων για την ερμηνεία των διαφορών των εξεταζόμενων αλληλουχιών.

45

H δεύτερη αναζητά το εξελικτικό μονοπάτι που έχει τη μεγαλύτερη πιθανότητα να οδηγήσει στην ύπαρξη των αναλυόμενων δεδομένων και κατασκευάζει το αντίστοιχο φυλογενετικό δένδρο (Brinkman and Leipe, 2001).

2.1.3.4 Πρότυπα αντικατάστασης

Τα πρότυπα αντικατάστασης βασίζονται στην υπόθεση ότι η εξέλιξη είναι μια τυχαία διαδικασία που βασίζεται στις αντικαταστάσεις μεταξύ νουκλεοτιδίων (μεταπτώσεις και μεταστροφές) ή μεταξύ αμινοξικών καταλοίπων και στη φυλογενετική ανάλυση είναι εξίσου σημαντικά με την ταυτοποίηση των αλληλουχιών και την πολλαπλή στοίχισή τους (Brinkman and Leipe, 2001). Ο ρυθμός αντικατάστασης ενός αμινοξέος από ένα άλλο για ένα μεγάλο αριθμό αμινοξικών αλληλουχιών υπολογίζεται με το πρότυπο αντικατάστασης JTT των ερευνητών Jones, Taylor, και Thornton (Jones et al., 1992). Από ένα σύνολο πρωτεϊνικών ακολουθιών που είναι ταυτόσημες κατά 85%, τα περισσότερο όμοια ζεύγη ακολουθιών στοιχίζονται. Όσες αντικαταστάσεις παρατηρούνται μεταξύ αμινοξέων για κάθε ζεύγος στοιχιζόμενων αλληλουχιών καταγράφονται και κανονικοποιούνται σύμφωνα με το μοντέλο του Dayhoff (Dayhoff et al., 1978). Το πρόγραμμα JTT συνιστάται για συγγενικές ακολουθίες (Brinkman and Leipe, 2001).

2.1.3.5. Φυλογενετικά δένδρα με ρίζα και χωρίς ρίζα

Οι διάφορες μέθοδοι κατασκευής φυλογενετικών δένδρων παράγουν είτε δένδρα με ρίζα, είτε χωρίς ρίζα. Στα δένδρα με ρίζα φαίνεται ο πιο κοντινός κοινός πρόγονος από τον οποίο προήλθαν οι υπό εξέταση ταξινομικές μονάδες, ενώ σε εκείνα χωρίς ρίζα περιγράφεται η συσχέτιση μεταξύ των ταξινομικών μονάδων. Η τοποθέτηση ρίζας σε φυλογενετικό δένδρο γίνεται με διάφορους τρόπους. Για παράδειγμα, εάν δεχθούμε την ύπαρξη ενός μοριακού ρολογιού (ίδιος ρυθμός εξελικτικής διαφοροποίησης για όλες τις αλληλουχίες), τότε η ρίζα βρίσκεται στο ενδιάμεσο σημείο του μακρύτερου βραχίονα του φυλογενετικού δένδρου. Η τοποθέτηση της ρίζας μπορεί επίσης να γίνει με βάση μια ταξινομική μονάδα αναφοράς (outgroup) η οποία σχετίζεται λιγότερο με την ομάδα των εξεταζόμενων ταξινομικών μονάδων (Felsenstein, 2004)

46

2.1.3.6. Αξιολόγηση φυλογενετικών δένδρων - Η μέθοδος Bootstrap

Η μέθοδος Bootstrap είναι μία πολύ διαδεδομένη διαδικασία αξιολόγησης της σημαντικότητας των φυλογενετικών δένδρων, η οποία μπορεί να εφαρμοστεί σε όλες τις μεθόδους κατασκευής φυλογενετικών δένδρων. Επινοήθηκε το 1979 από τον Efron (Efron, 1979) και καθιερώθηκε ως μέθοδος αξιολόγησης στη φυλογενετική ανάλυση από τον Felsenstein (Felsenstein, 1985). Η διαδικασία διεξάγεται σε δύο βήματα: Πρώτα, δημιουργούνται νέα σύνολα δεδομένων με δειγματοληψία στηλών τυχαίων χαρακτήρων από το αρχικό σύνολο. Η δειγματοληψία είναι τυχαία, οπότε μερικές θέσεις μπορεί να επιλεγούν περισσότερες από μία φορά, ενώ άλλες τυχαίες θέσεις μπορεί να μην επιλεγούν καμία φορά. Έπειτα, κατασκευάζονται δένδρα βασισμένα στα νέα σύνολα και το αρχικό σύνολο δεδομένων, και υπολογίζεται ο αριθμός που αντιπροσωπεύει πόσες φορές ένας συγκεκριμένος βραχίονας εμφανίζεται στο δένδρο. Αυτός ο αριθμός είναι η τιμή bootstrap. Τιμές bootstrap από 70% και πάνω υποδηλώνουν ότι η φυλογενετική σχέση που απεικονίζεται στο δένδρο είναι η σωστή με πιθανότητα 95%. Ωστόσο, θα πρέπει να σημειωθεί ότι, για να έχει καλύτερα αποτελέσματα, η συγκεκριμένη μέθοδος αξιολόγησης θα πρέπει να χρησιμοποιείται μετά από βελτιστοποίηση των παραμέτρων της φυλογενετικής ανάλυσης (Brinkman and Leipe, 2001).

2.1.3.7. Λογισμικά πακέτα φυλογενετικής ανάλυσης - Το πρόγραμμα MEGA6

Στο διαδίκτυο υπάρχει διαθέσιμος ένας πολύ μεγάλος αριθμός προγραμμάτων φυλογενετικής ανάλυσης. Το πρόγραμμα MEGA6 (Tamura et al., 2013) είναι ένα ευρέως χρησιμοποιούμενο και εύχρηστο λογισμικό πακέτο φυλογενετικής ανάλυσης, το οποίο υποστηρίζει σχεδόν όλα τα είδη αρχείων δεδομένων. Ο χρήστης έχει την επιλογή της πολλαπλής στοίχισης αλληλουχιών με το CLUSTALW ή το MUSCLE. Επίσης, έχει τη δυνατότητα να κατασκευάζει φυλογενετικά δένδρα είτε με τη μέθοδο απόστασης είτε με τη μέθοδο μέγιστης φειδωλότητας. Επιπλέον, παρέχεται η δυνατότητα γραφικής αναπαράστασης των δένδρων. Σημαντικό είναι και το γεγονός ότι, ο χρήστης μπορεί να παρεμβαίνει χειροκίνητα σε κάθε στάδιο της ανάλυσης και να αλλάζει τις όποιες παραμέτρους τον ενδιαφέρουν.

47

2.1.3.8 Διαδικτυακές πλατφόρμες φυλογενετικής ανάλυσης και υπολογιστικά προγράμματα γραφικής αναπαράστασης φυλογενετικών δένδρων

Τα τελευταία χρόνια, είναι διαθέσιμη μια πληθώρα από διαδικτυακές πλατφόρμες φυλογενετικής ανάλυσης με ελεύθερη πρόσβαση. Οι περισσότερες παρέχουν τη δυνατότητα πλήρους δωρεάν επεξεργασίας των δεδομένων μίας φυλογενετικής ανάλυσης και ανάκτησης των αποτελεσμάτων, οπότε η χρήση τους αποτελεί πλέον αναπόσπαστο εργαλείο σχεδόν για κάθε μελέτη αυτού του είδους. Μερικές από τις διαδικτυακές αυτές πλατφόρμες παρέχουν ιδιαίτερα χρήσιμα συνοδά προγράμματα, όπως για παράδειγμα είναι το πρόγραμμα εντοπισμού οριζόντιας μεταφοράς γονιδίων του Τ-REX ή το πρόγραμμα βελτιστοποίησης της πολλαπλής στοίχισης αλληλουχιών Gblocks του Phylogeny.fr. Ενδεικτικά, αναφέρονται η πλατφόρμα Phylogeny.fr (http://www.phylogeny.fr/, Dereeper et al., 2008) του γαλλικού Réseau National des Génopoles (RNG), η πλατφόρμα T-REX (http://www.trex.uqam.ca/, Boc et al., 2012) του Université du Québec à Montréal (UQAM) και η Interactive Tree Of Life (iTOL) (http://itol.embl.de/index.shtml, Letunic and Bork, 2006) του EMBL, διότι αποδείχθηκαν πολύ χρήσιμες στην παρούσα μελέτη.

Υπάρχουν διάφορα προγράμματα γραφικής αναπαράστασης φυλογενετικών δένδρων, ελεύθερα διαθέσιμα στο διαδίκτυο, όπως το Dendroscope (http://www- ab.informatik.uni-tuebingen.de/software/dendroscope; Huson and Scornavacca., 2012), το TreeView (http://taxonomy.zoology.gla.ac.uk/rod/treeview/treeview, Page, 1996) και άλλα, τα οποία διαχειρίζονται τα τυπικά αρχεία δεδομένων φυλογενετικών δένδρων. Τα προγράμματα αυτά, πέραν από το σχεδιασμό δένδρων, παρέχουν τη δυνατότητα στο χρήστη να πραγματοποιεί διάφορους γραφικούς χειρισμούς. Για παράδειγμα, το Dendroscope επιτρέπει στο χρήστη να χειριστεί την εμφάνιση της κατάταξης των διακλαδώσεων του δένδρου, την τοποθέτηση της ρίζας στο δένδρο, την εμφάνιση ενός συγκεκριμένου κλάδου και των διαφόρων ειδών δένδρων κ.ο.κ.

Τέλος, χρήσιμο είναι να αναφερθούν μερικές ιστοσελίδες που περιέχουν λίστες με αυτόνομα και διαδικτυακά προγράμματα για μοριακές και φυλογενετικές αναλύσεις, αλλά και για μελέτες ευρύτερου βιολογικού ενδιαφέροντος, όπως η http://omictools.com/,ηhttp://molbiol-tools.ca/ και η http://evolution.genetics.washington.edu/phylip/software.html.

48

2.2. Στρατηγικές βιοπληροφορικής ανάλυσης στο πλαίσιο της παρούσας διατριβής

2.2.1. Ανάκτηση προκαρυωτικών αλληλουχιών ΝΑΤ από γονιδιωματικές βάσεις δεδομένων

Για την ανάκτηση των νουκλεοτιδικών αλληλουχιών ΝΑΤ από γονιδιώματα προκαρυωτικών οργανισμών χρησιμοποιήθηκαν τα βιοπληροφορικά εργαλεία που παρέχει το NCBI. Αρχικά έγινε γονιδιωματική επισκόπηση στη βάση δεδομένων Entrez-Genomes, χρησιμοποιώντας ως πρόγραμμα αναζήτησης το tBLASTn και ως πρόγραμμα εισόδου της αλληλουχίας αναφοράς το NCBI-Entrez.

Ως αλληλουχία αναφοράς για την ανάκτηση γονιδίων ΝΑΤ από τα γονιδιώματα αρχαίων έχει οριστεί από τη Διεθνή Επιτροπή Ονοματολογίας των Γονιδίων ΝΑΤ (http://nat.mbg.duth.gr/, Hein et al., 2008) η αμινοξική αλληλουχία της πρωτεΐνης ΝΑΤ1 του αρχαίου Halogeometricum borinquense DSM 115 (Glenn et al., 2010). Για τα βακτήρια, η αντίστοιχη αλληλουχία αναφοράς είναι εκείνη της πρωτεΐνης ΝΑΤ1 του εντεροβακτηρίου Salmonella typhimurium LT2 (Vagena et al., 2008; Glenn et al., 2010). Οι αλληλουχίες αυτές ανακτήθηκαν από την βάση δεδομένων Protein του NCBI, μέσω της επίσημης ιστοσελίδας των ΝΑΤ (http://nat.mbg.duth.gr/), και οι αριθμοί καταχώρησής τους είναι για το Halogeometricum borinquense DSM 115 ο BN001449 και για τη Salmonella typhimurium LT2 ο BAA14331.

Τα αποτελέσματα της επισκόπησης tBLASTn, τα οποία περιελάμβαναν τα περισσότερο συντηρημένα τμήματα των πιθανών γονιδίων ΝΑΤ κάθε οργανισμού (σε σχέση πάντοτε με την εκάστοτε αλληλουχία αναφοράς), αποθηκεύονταν στοιχισμένα σε αρχείο μορφής FASTA (.fas). Στα τμήματα των νουκλεοτιδικών αλληλουχιών που ανασύρονταν από την αρχική επισκόπηση tBLASTn, πολύ συχνά παρατηρήθηκε ότι δεν περιλαμβανόταν ολόκληρο το ανοιχτό πλαίσιο ανάγνωσης (ORF) του πιθανού γονιδίου ΝΑΤ (παρά μόνο το πιο συντηρημένο κεντρικό τμήμα). Για το λόγο αυτό, η διαδικασία επαναλαμβανόταν αρκετές φορές ακόμη, χρησιμοποιώντας όμως σε κάθε επανάληψη ως νέα αλληλουχία αναφοράς κάποια προηγούμενη πλήρη αλληλουχία που είχε ανασυρθεί και εμφάνιζε τη μεγαλύτερη ομολογία προς την ημιτελή αλληλουχία που επιθυμείτο να αποκατασταθεί.

49

Στις περιπτώσεις που ούτε αυτή η στρατηγική ήταν αρκετή για ανάκτηση της πλήρους γονιδιακής αλληλουχίας ΝΑΤ από τη βάση δεδομένων, τότε γινόταν μετάβαση από τη σελίδα των αποτελεσμάτων tBLASTn απευθείας στη σελίδα της GenBank που περιείχε την αντίστοιχη γονιδιωματική αλληλουχία του οργανισμού. Εκεί, με χειροκίνητη παρέμβαση γινόταν αναζήτηση ανοδικά ή/και καθοδικά της ανακτημένης ημιτελούς αλληλουχίας, μέχρι να προσδιοριστούν τα πλησιέστερα κωδικόνια έναρξης και λήξης, τα οποία όριζαν ένα πλήρες ORF, του οποίου η μεταφραζόμενη αμινοξική αλληλουχία ήταν τεκμηριωμένα ομόλογη προς την αλληλουχία αναφοράς ΝΑΤ. Τέλος, υπήρχαν και περιπτώσεις όπου το τμήμα της ανακτημένης με tBLASTn ημιτελούς γονιδιακής αλληλουχίας παρουσιάζονταν σε αντινοηματική (antisense), δηλαδή μη κωδικοποιούσα, φορά πάνω στην καταχωρημένη αλληλουχία του αντίστοιχου γονιδιώματος. Τα τμήματα αυτά αναγνωρίζονταν κατά τη μετάβαση στην αντίστοιχη σελίδα της GenBank και μετατρέπονταν στη συμπληρωματική νοηματική (sense) αλληλουχία, χρησιμοποιώντας τη διαθέσιμη επιλογή reverse complement. Κατόπιν, ακολουθούσαν οι κατάλληλες χειροκίνητες παρεμβάσεις για ανάκτηση του πλήρους ORF, όπως περιγράφηκε παραπάνω. Λοιπές αλληλουχίες πολύ χαμηλής ομολογίας προς την αλληλουχία αναφοράς ΝΑΤ εξετάστηκαν δια του οφθαλμού και είτε επιλέχθηκαν ως πιθανές αλληλουχίες ΝΑΤ προς επεξεργασία, είτε απορρίφθηκαν ως άσχετες.

Τελικά, με τις παραπάνω προσεγγίσεις κατέστη εφικτή η ανάσυρση και αποκατάσταση της πλήρους κωδικής αλληλουχίας όλων των πιθανών γονιδίων ΝΑΤ από τις γονιδιωματικές βάσεις δεδομένων χιλιάδων αλληλουχημένων γονιδιωμάτων προκαρυωτών.

2.2.2. Ταυτοποίηση (annotation) προκαρυωτικών γονιδίων ΝΑΤ

Η ταυτοποίηση των προκαρυωτικών γονιδίων ΝΑΤ πραγματοποιήθηκε με τη βοήθεια του προγράμματος Bioedit - version 7.2.5. (Hall, 1999). Πιο αναλυτικά, τα πιθανά προκαρυωτικά γονίδια ΝΑΤ που ανακτήθηκαν από τις βάσεις δεδομένων υπέστησαν περαιτέρω χειροκίνητη επεξεργασία, στοιχήθηκαν και τελικά αποθηκεύτηκαν ανά ταξινομική βαθμίδα σε επίπεδο φύλου (π.χ. Proteobacteria, Actinobacteria κ.ο.κ.) ως αρχείο FASTA (.fas). Στη συνέχεια, στο πρόγραμμα Bioedit πραγματοποιήθηκε περαιτέρω επεξεργασία των αλληλουχιών, ώστε να επαληθευτεί καθένα από τα ORF που ανακτήθηκαν από τις γονιδιωματικές βάσεις δεδομένων. Πιο συγκεκριμένα, για κάθε γονίδιο ακολουθήθηκε ξεχωριστά η εξής σειρά χειρισμών:

50

Αριστερό κλικ πάνω στην αλληλουχία για επιλογή της → Επιλογή από το βασικό μενού του Bioedit της εντολής Sequence → Επιλογή από το αναδυόμενο υπομενού της εντολής Nucleic Acids → Επιλογή από το δεύτερο υπομενού της εντολής Find Next ORF → Χειροκίνητη διαγραφή τυχόν βάσεων εκατέρωθεν του ORF → Αποθήκευση ως αρχείο FASTA (.fas).

Με τον τρόπο αυτό επιβεβαιώθηκαν σταδιακά όλα τα πιθανά ORF των ανακτημένων γονιδίων ΝΑΤ. Στη συνέχεια, αφού επιλέχθηκαν όλες οι επεξεργασμένες νουκλεοτιδικές αλληλουχίες, μετατράπηκαν σε αμινοξικές. Ακολούθησε πολλαπλή γραμμική στοίχιση των αλληλουχιών επιλέγοντας στο μενού του Bioedit την εντολή Accessory Application και από το υπομενού την εντολή CLUSTALW multiple alignment. Σε κάθε μία πιθανή πρωτεΐνη ΝΑΤ της πολλαπλής γραμμικής στοίχισης ανιχνεύθηκαν τα χαρακτηριστικά συντηρημένα αμινοξέα Cys-His-Asp της καταλυτικής τριάδας των ενζύμων ΝΑΤ (Sinclair et al., 2000), καθώς και τα ημισυντηρημένα μοτίβα VPFENL (στις πρώτες 100 βάσεις κάθε αλληλουχίας), RGGYC (όπου C η καταλυτική κυστεϊνη) και VDV (όπου D το καταλυτικό ασπαρτικό οξύ). Τα κριτήρια αυτά είναι κοινώς αποδεκτά από τους ειδικούς στο επιστημονικό πεδίο των ΝΑΤ και θεωρούνται επαρκή για να τεκμηριώσουν την ταυτότητα μιας πρωτεϊνικής αλληλουχίας ως ενζύμου ΝΑΤ. Όσες αλληλουχίες πληρούσαν τα συγκεκριμένα κριτήρια επιλέχθηκαν και αποθηκεύθηκαν ανά ταξινομική ομάδα σε μορφή αρχείου FASTA (.fas), μέσω της διαδρομής Accessory Application → BLAST → create a local protein database file, δημιουργώντας έτσι μια τοπική βάση δεδομένων όλων των ταυτοποιημένων πρωτεϊνικών αλληλουχιών. Όσες αλληλουχίες απέκλιναν από το παραπάνω μοτίβο διαγράφηκαν.

Για να προσδιοριστεί η ομοιότητα (identity) των ταυτοποιημένων αμινοξικών αλληλουχιών ΝΑΤ προς τις αλληλουχίες αναφοράς (BN001449 του Halogeometricum borinquense DSM 115 για τα αρχαία και BAA14331 της Salmonella typhimurium LT2 για τα βακτήρια) ακολουθήθηκε η εξής διαδρομή: Accessory Application → BLAST → Local BLAST → BLASTp. Οι παράμετροι που χρησιμοποιήθηκαν στο BLASTp ήταν οι εξ ορισμού επιλεγμένοι από το πρόγραμμα, πλην της τιμής Εxpectation (E) value, η οποία ορίστηκε σε 1.0Ε-10. Ως βάση δεδομένων επιλεγόταν κάθε φορά διαφορετική τοπική πρωτεϊνική βάση δεδομένων, ανάλογα με την εξεταζόμενη ταξινομική ομάδα.

51

Οπότε, από τα αποτελέσματα του BLASTp και σύμφωνα με τους κανόνες ονοματολογίας των αλληλουχιών ΝΑΤ (http://nat.mbg.duth.gr/), έγινε η πλήρης ταυτοποίηση (annotation) κάθε γονιδίου. Σε περιπτώσεις γονιδιωμάτων οργανισμών με άνω του ενός παράλογα γονίδια ΝΑΤ, εκείνο που κωδικοποιούσε την πρωτεΐνη με τη μεγαλύτερη ομολογία προς την αντίστοιχη αλληλουχία αναφοράς χαρακτηρίζονταν ως ΝΑΤ1, εκείνο που κωδικοποιούσε πρωτεΐνη με την αμέσως μικρότερη ομολογία προς την αλληλουχία αναφοράς ως ΝΑΤ2 κ.ο.κ., μέχρι να ταυτοποιηθούν όλες οι υπό χαρακτηρισμό παράλογες αλληλουχίες. Τα πλήρως ταυτοποιημένα (annotated) γονίδια ΝΑΤ τελικά αποθηκεύτηκαν και αρχειοθετήθηκαν στον υπολογιστή ως αρχεία FASTA (.fas) και είναι διαθέσιμα ανά ταξινομική ομάδα.

2.2.3. Κατασκευή φυλογενετικών δένδρων των προκαρυωτικών πρωτεϊνών ΝΑΤ με τη μέθοδο αποστάσεων της «Ένωσης Γειτόνων» (Νeighbor Joining)

Η κατασκευή των φυλογενετικών δένδρων των πρωτεϊνικών αλληλουχιών ΝΑΤ που ταυτοποιήθηκαν έγινε με το πρόγραμμα MEGA6 (Tamura et al., 2013), εφαρμόζοντας τη μέθοδο της «Ένωσης Γειτόνων» (Νeighbor Joining) (Saitu and Nei, 1987). Αναλυτικότερα, η πορεία της εργασίας ήταν η εξής: Μετατροπή του αρχείου της πολλαπλής στοίχισης των πρωτεϊνικών αλληλουχιών της κάθε ταξινομικής ομάδας από FASTA (.fas) σε MEGA (.meg), που υποστηρίζεται από το πρόγραμμα MEGA6, και κατασκευή του φυλογενετικού δένδρου ακολουθώντας τη σειρά εντολών file → convert file format to MEGA → Phylogeny → Construct/test Νeighbor Joining tree → Αποθήκευση ως αρχεία φυλογενετικού δένδρου Newick (.nwk), κειμένου (.pdf) και εικόνας (.png). Επιπρόσθετα, το αρχικό δένδρο μετατρεπόταν με την εντολή condensed tree σε συμπτυγμένο δένδρο, το οποίο περιείχε τα μήκη των στατιστικά αποδεκτών βραχιόνων (δηλαδή αυτών με τιμή bootstrap >50%) και μόνο την τοπολογία των στατιστικά μη σημαντικών βραχιόνων. Το δένδρο αυτό αποθηκεύονταν εκ νέου σε είδη αρχείων φυλογενετικού δένδρου (.nwk), κειμένου (.pdf) και εικόνας (.png). Σημειώνεται, τέλος, ότι οι παράμετροι που χρησιμοποιήθηκαν για την ανάλυση ήταν οι προεπιλεγμένοι από το MEGA6 πλην του πρότυπου αντικατάστασης όπου επιλέχθηκε το JTT (Jones et al., 1992).

52

2.2.4. Αναζήτηση οριζόντιας μεταφοράς γονιδίων NAT

Η αναζήτηση πιθανής οριζόντιας μεταφοράς γονιδίων NAT (HGT) πραγματοποιήθηκε με το πρόγραμμα HGT-Detection (Boc et al., 2010), το οποίο προσφέρεται δωρεάν στη διαδικτυακή πλατφόρμα φυλογενετικής ανάλυσης T-REX (http://www.trex.uqam.ca/, Boc et al., 2012). Αρχικά, κατασκευάστηκαν τα φυλογενετικά δένδρα των ειδών των προκαρυωτών στα οποία βρέθηκαν και ταυτοποιήθηκαν γονίδια ΝΑΤ, χρησιμοποιώντας το πρόγραμμα Taxonomy Browser της βάσης δεδομένων του NCBI Taxonomy (http://www.ncbi.nlm.nih.gov/Taxonomy/CommonTree/wwwcmt.cgi) . Τα επιστημονικά ονόματα των ειδών που συμπεριλήφθηκαν στη μελέτη εισήχθησαν στο πρόγραμμα περιήγησης και στη συνέχεια σχηματίστηκε αυτόματα το φυλογενετικό δένδρο τους, το οποίο αποθηκεύτηκε σε μορφή αρχείου PHYLIP (.phy, .txt). Κατόπιν, έγινε εισαγωγή του αρχείου αυτού στο πρόγραμμα Phylot του iTOL (Letunic&Bork, 2006) (http://itol.embl.de/other_trees.shtml,http://phylot.biobyte.de/). Το αποτέλεσμα της διαδικασίας ήταν κάθε φορά ένα φυλογενετικό δένδρο των εκάστοτε προκαρυωτικών ειδών, το οποίο αποθηκεύονταν σε μορφή αρχείου Newick (.nwk). Παράλληλα, με το πρόγραμμα MEGA6 (Tamura et al., 2013), οι ταυτοποιημένες αλληλουχίες ΝΑΤ κάθε ταξινομικής ομάδας στοιχίζονταν πολλαπλά με το CLUSTALW και μετά χρησιμοποιώντας τη μέθοδο της «Ένωσης Γειτόνων» (Νeighbor Joining) με τις προεπιλεγμένες παραμέτρους ανακατασκευάζονταν τα αντίστοιχα φυλογενετικά δένδρα, τα οποία και αποθηκεύονταν ως αρχεία Newick (.nwk). Τέλος, τα δύο αρχεία Newick (.nwk), δηλαδή το ένα με τα δένδρα των προκαρυωτικών ειδών και το άλλο με τις αλληλουχίες ΝΑΤ φορτώθηκαν στο προγραμμα HGT-Detection του T-REX (http://www.trex.uqam.ca/) για διερεύνηση της πιθανότητας να υφίσταται οριζόντια μεταφορά γονιδίων NAT ανάμεσα στα είδη των συγκρινόμενων προκαρυωτικών οργανισμών (Εικόνα 2).

53

Εικόνα 2: Το πρόγραμμα πρόβλεψης οριζόντιας μεταφοράς γονιδίων της διαδικτυακής πλατφόρμας T- REX, όπου παρουσιάζεται ο τρόπος λειτουργίας του. Στο επάνω παράθυρο εισάγεται το φυλογενετικό δένδρο των ειδών που αναλύονται και στο κάτω παράθυρο εισάγεται το φυλογενετικό δένδρο των αντίστοιχων αλληλουχιών (και τα δύο σε μορφή αρχείου Newick (.nwk)). Έπειτα, με το πλήκτρο Compute διερευνάται η οριζόντια μεταφορά γονιδίων, ενώ τα αποτελέσματα μπορούν να αποθηκευτούν σε αρχείο κειμένου (.txt) και εικόνας (.svg).

54

ΚΕΦΑΛΑΙΟ 3: ΑΠΟΤΕΛΕΣΜΑΤΑ

3.1. Επισκόπηση γονιδιωματικών βάσεων δεδομένων και ταυτοποίηση (annotation) προκαρυωτικών γονιδίων ΝΑΤ

Κατά την περίοδο διεξαγωγής της παρούσας μελέτης (Νοέμβριος 2014 - Ιούλιος 2015), στη βάση δεδομένων Entrez-Genomes του NCBI υπήρχε διαθέσιμος μεγάλος αριθμός αλληλουχημένων προκαρυωτικών γονιδιωμάτων, όπως παρουσιάζεται στον Πίνακα 1. Περίπου το 10% των γονιδιωμάτων αυτών αναφέρονται ως πλήρη (complete), δηλ. οι διαδικασίες αλληλούχησης (sequencing), συγκρότησης (assembly) και ταυτοποίησης (annotation) έχουν ολοκληρωθεί. Τα υπόλοιπα γονιδιώματα βρίσκονται σε κάποιο ενδιάμεσο στάδιο επεξεργασίας (π.χ. contig ή scaffold) και αναφέρονται ως πρόχειρα (draft). Ο πλήρης κατάλογος των αλληλουχημένων προκαρυωτικών γονιδιωμάτων στη βάση δεδομένων Entrez-Genome είναι διαθέσιμος στο σύνδεσμο http://www.ncbi.nlm.nih.gov/genome/browse/#, με τους αντίστοιχους οργανισμούς ταξινομημένους σε φυλογενετικό δένδρο στο σύνδεσμο http://www.ncbi.nlm.nih.gov/genomes/MICROBES/microbial_taxtree.html. Τα αλληλουχημένα προκαρυωτικά γονιδιώματα (draft και complete) είναι στη μεγάλη πλειοψηφία τους προσβάσιμα μέσω BLAST.

Πίνακας 1: Η πρόοδος της αλληλούχησης προκαρυωτικών γονιδιωμάτων κατά την περίοδο διεξαγωγής της μελέτης. Στην τελευταία γραμμή αποτυπώνεται η κατάσταση κατά την κατάθεση της παρούσας διατριβής.

ΜΗΝΑΣ ΚΑΤΑΓΡΑΦΗΣ ΒΑΚΤΗΡΙΑ ΑΡΧΑΙΑ

Νοέμβριος 2014 22390 337

Μάρτιος 2015 31777 468

Ιούλιος 2015 33959 553

Οκτώβριος 2015 48500 599

55

Ακολουθώντας τη μεθοδολογία που περιγράφηκε στην Ενότητα 2.2.1, στα διαθέσιμα προκαρυωτικά γονιδιώματα έγινε εκτενής αναζήτηση για την εύρεση ομολόγων γονιδίων ΝΑΤ, χρησιμοποιώντας το πρόγραμμα tBLASTn. Ως αλληλουχίες αναφοράς χρησιμοποιήθηκαν για τα μεν Archaea η αλληλουχία της πρωτεϊνης ΝΑΤ1 του Ευρυαρχαιωτού (Euryarchaeota) Halogeometricum borinquense DSM 115 (GenBank ID: BN001449), για τα δε Bacteria αυτή της πρωτεϊνης ΝΑΤ1 του γ-πρωτεοβακτηρίου (Gamma-proteobacteria) Salmonella typhimurium LT2 (GenBank ID: BAA14331). Ακολούθως, όπως αναλύεται στην Ενότητα 2.2.2, όλες οι ανακτηθείσες αλληλουχίες των πιθανών γονιδίων ΝΑΤ υπέστησαν επεξεργασία, τόσο υπολογιστικά, όσο και με χειροκίνητη παρέμβαση, ώστε να προσδιοριστεί το κάθε πλήρες ORF. Επιπλέον, εξετάζοντας τη μεταφραζομενη αμινοξική αλληλουχία κάθε γονιδίου, επιβεβαιώθηκε η ύπαρξη της χαρακτηριστικής διάταξης των συντηρημένων αμινοξικών καταλοίπων Cys- His-Asp της καταλυτικής τριάδας (Sinclair et al., 2000), η οποία είναι παρούσα σε όλα τα γνωστά ένζυμα ΝΑΤ. Τέλος, επιβεβαιώθηκε και η ύπαρξη των ημισυντηρημένων μοτίβων αμινοξικών καταλοίπων VPFENL, RGGYC και VDV.

Στα βακτήρια ανακτήθηκαν και ταυτοποιήθηκαν συνολικά 3009 γονίδια ΝΑΤ από 141 γένη που ανήκουν στα φύλα των Proteobacteria (κλάσεις Alpha-proteobacteria, Beta- proteobacteria, Gamma-proteobacteria), Actinobacteria, Firmicutes, Chlamidiae, Verrucomicrobia, Chloroflexi, Cyanobacteria, Nitrospinae, Planctomycetes και Spirochaetes. Στα αρχαία ανακτήθηκαν και ταυτοποιήθηκαν συνολικά 5 γονίδια ΝΑΤ από 5 διαφορετικά γένη, που όμως όλα ανήκουν στο φύλο Euryarchaeota, κλάση Halobacteria. Τα αποτελέσματα συνοψίζονται στον Πίνακα 2. Για τα υπόλοιπα φύλα βακτηρίων και αρχαίων διαπιστώθηκε ότι δεν υπάρχουν γονίδια ΝΑΤ στα διαθέσιμα γονιδιώματα των αλληλουχημένων εκπροσώπων τους, όπως συνοψίζεται στον Πίνακα 3. Ωστόσο, πρέπει να σημειωθεί ότι τα φύλα στα οποία δεν εντοπίστηκαν γονίδια ΝΑΤ έχουν αλληλουχημένους πολύ λιγότερους εκπροσώπους, συγκριτικά προς τα φύλα όπου εντοπίστηκαν γονίδια ΝΑΤ. Επομένως, δεν μπορεί να αποκλειστεί η παρουσία γονιδίων ΝΑΤ στα εν λόγω φύλα, μια και υπάρχει πιθανότητα μελλοντικής ταυτοποίησής τους καθώς θα αλληλουχούνται όλο και περισσότερα γονιδιώματα και άλλων προκαρυωτικών οργανισμών.

56

Πίνακας 2: Σύνοψη αποτελεσμάτων της γονιδιωματικής επισκόπησης για τα προκαρυωτικά γονίδια ΝΑΤ στη βάση δεδομένων Entrez-Genomes.

ΕΥΡΥΤΕΡΗ ΤΑΞΙΝΟΜΙΚΗ ΓΕΝΗ ΜΕ ΑΡΙΘΜΟΣ ΒΑΘΜΙΔΑ ΓΟΝΙΔΙΑ ΝΑΤ ΓΟΝΙΔΙΩΝ ΝΑΤ ΒΑΣΙΛΕΙΟ BACTERIA Proteobacteria (φύλο) 69 1059 Alpha-proteobacteria (κλάση) 22 47 Beta-proteobacteria ( κλάση ) 15 74 Gamma-proteobacteria ( κλάση ) 32 938 Actinobacteria (φύλο) 35 641 Firmicutes (φύλο) 21 1291 Chlamidiae/Verrucomicrobia (υπερφύλο) 5 5 Chloroflexi (φύλο) 1 2 Cyanobacteria (φύλο) 7 8 Nitrospinae (φύλο) 1 1 Planctomycetes (φύλο) 1 1 Spirochaetes (φύλο) 1 1 ΣΥΝΟΛΟ 141 3009 ΒΑΣΙΛΕΙΟ ARCHAEA Euryarchaeota (φύλο) 5 5 ΣΥΝΟΛΟ 5 5

57

Πίνακας 3: Φύλα προκαρυωτών με αλληλουχημένους εκπροσώπους, στα γονιδιώματα των οποίων δεν εντοπίστηκαν πιθανά γονίδια ΝΑΤ κατά την γονιδιωματική επισκόπηση της βάσης δεδομένων Entrez-Genomes.

ΦΥΛΑ ΒΑΚΤΗΡΙΩΝ ΧΩΡΙΣ ΓΟΝΙΔΙΑ ΝΑΤ Armatimonadetes Chrysiogenetes Deferribacteres Deinococcus-Thermus Dictyoglomi Elusimicrobia Fusobacteria Gemmatimonadetes Synergistetes Thermodesulfobacteria Thermotogae Fibrobacteres Acidobacteria Marinimicrobia ΦΥΛΑ ΑΡΧΑΙΩΝ ΧΩΡΙΣ ΓΟΝΙΔΙΑ ΝΑΤ Aenigmarchaeota Bathyarchaeota Crenarchaeota Diapherotrites Korarchaeota Lokiarchaeota Nanoarchaeota Nanohaloarchaeota Thaumarchaeota

58

Αναλυτικά, το σύνολο των αποτελεσμάτων της αναζήτησης για τα προκαρυωτικά γονίδια ΝΑΤ, η ταυτοποίηση (annotation) και η ονοματολογία τους παρουσιάζονται στους Πίνακες 4-10. Σε κάθε πίνακα αναφέρεται η επίσημη επιστημονική ονομασία κάθε είδους (organism scientific name, στήλη 1), όπως αναγράφεται στη βάση δεδομένων Entrez-Genome. Οι επίσημοι κωδικοί ταυτοποίησης κάθε είδους (taxon mnemonics, στήλη 2) και οι αντίστοιχοι κωδικοί αριθμοί ταξινόμησης (taxonomy identifiers, στήλη 3) προέρχονται από τη βάση δεδομένων UniProt Taxonomy (http://www.uniprot.org/taxonomy) και παρέχονται εφόσον είναι διαθέσιμοι. Για κάθε οργανισμό παρέχεται το σύμβολο καθένος γονιδίου ΝΑΤ που ταυτοποιήθηκε στο γονιδίωμά του (στήλη 4), καθώς και το μήκος της αντίστοιχης νουκλεοτιδικής (στήλη 5) και αμινοξικής (στήλη 6) αλληλουχίας. Τέλος, αναφέρεται η ταυτότητα (% identity, στήλη 6) και η ομοιότητα (% similarity, στήλη 7) κάθε αμινοξικής αλληλουχίας ΝΑΤ, σε σχέση με την αλληλουχία αναφοράς, καθώς και τα αντιστοιχα κενά (gaps, στήλη 8) που προκύπτουν κατά τη στοίχηση των δύο αλληλουχιών (τα δεδομένα αυτά προκύπτουν από τη διαδικασία Local BLASTp στο πρόγραμμα Bioedit, όπως περιγράφεται στην Ενότητα 2.2.2). Στις περιπτώσεις όπου έχουν αλληλουχηθεί πολλαπλά στελέχη του ίδιου βακτηριακού είδους και οι αντίστοιχες αλληλουχίες ΝΑΤ είναι σχεδόν ταυτόσημες, τότε αναφέρεται μόνο το όνομα του είδους και μέσα σε παρένθεση ο αριθμός των αλληλουχημένων στελεχών ή απλώς η ένδειξη "multiple strains" (όταν πρόκειται για πολύ μεγάλο αριθμό). Όταν οι αλληλουχίες ΝΑΤ των διαφορετικών στελεχών του ίδιου είδους διαφοροποιούνται σημαντικά, τότε αναφέρονται μία προς μία. Επισημαίνεται ότι η ονοματολογία των γονιδίων ΝΑΤ είναι σύμφωνη προς τους επίσημους κανόνες της Διεθνούς Επιτροπής Ονοματολογίας των γονιδίων ΝΑΤ (NAT Gene Nomenclature Committee, http://nat.mbg.duth.gr) (Hein et.al., 2008).

59

Πίνακας 4: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν στην κλάση Alpha-proteobacteria του φύλου Proteobacteria. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) ALPHA-PROTEOBACTERIA NAT1 729 242 37 56 1 Agromonas oligotrophica S58 N/A 1245469 ΝΑΤ2 816 271 35 52 1 NAT1 816 271 36 54 1 Bradyrhizobium sp. BTAi1 BRASB 288000 NAT2 816 271 36 50 0 Bradyrhizobium sp. DOA9 N/A 1126627 NAT1 855 284 31 53 3 NAT1 816 271 35 52 0 Bradyrhizobium sp. ORS 278 BRASO 114615 ΝΑΤ2 816 271 35 50 3 Caulobacter crescentus CB15 CAUCR 190650 NAT1 828 275 37 53 2 Caulobacter crescentus NA1000 CAUCN 565050 NAT1 828 275 37 53 2 Caulobacter segnis ATCC 21756 CAUST 509190 NAT1 852 283 38 52 3 Caulobacter sp. K31 CAUSK 366602 NAT1 876 291 40 52 3 Ensifer adhaerens OV14 N/A 1416753 NAT1 852 283 32 46 0 Henriciella marina DSM 19595 N/A 1121949 NAT1 825 274 35 49 10 Hyphomicrobium nitrativorans N/A 1029756 NAT1 831 276 38 56 0 NL23 Maritimibacter alkaliphilus N/A 314271 NAT1 816 271 33 50 4 HTCC2654 Mesorhizobium australicum MESAW 754035 NAT1 834 277 36 55 0

60

WSM2073 Mesorhizobium loti NAT1 813 270 39 54 1 RHILO 266835 MAFF303099 ΝΑΤ2 837 278 37 54 0 Mesorhizobium loti NZP2037 N/A 935546 NAT1 837 278 37 54 0 Mesorhizobium loti R7A N/A 935547 NAT1 837 278 36 53 0 Mesorhizobium loti R88b N/A 935548 NAT1 837 278 37 54 0 Mesorhizobium opportunistum MESOW 536019 NAT1 834 277 37 55 0 WSM2075 Methylobacterium extorquens METEX 408 NAT1 1131 376 40 55 5 DM4 Methylopila sp. M107 N/A 1101190 NAT1 1131 376 38 53 1 Microvirga sp. WSM3557 N/A 864069 NAT1 819 272 34 51 1 Novosphingobium ΝΑΤ1 846 281 36 48 1 NOVAD 279238 aromaticivorans DSM 12444 ΝΑΤ2 882 293 26 41 3 Novosphingobium sp. PP1Y N/A 702113 NAT1 912 303 36 48 8 Parvibaculum lavamentivorans PARL1 402881 NAT1 837 278 35 55 0 DS-1 Phenylobacterium zucineum NAT1 804 267 39 50 1 PHEZH 450851 HLK1 NAT2 744 247 35 50 3 Ponticaulis koreensis DSM 19734 N/A 551789 ΝΑΤ1 831 276 34 51 7 Rhizobium etli CFN 42 RHIEC 347834 ΝΑΤ1 792 263 30 45 3 Rhizobium mesoamericanum N/A 1211777 ΝΑΤ1 846 281 27 43 3

61

STM3625 Rhodospirillum centenum SW RHOCS 414684 ΝΑΤ1 822 273 35 49 4 Sinorhizobium fredii NGR234 RHISN 394 NAT1 711 236 29 43 2 Sphingobium sp. SYK-6 N/A 627192 NAT1 870 289 35 46 8 Sphingomonas melonis C3 N/A 1090316 NAT1 819 272 36 47 6 Sphingomonas melonis DAPP-PG N/A 1090320 NAT1 819 272 36 47 6 224 Sphingomonas melonis FR1 N/A 1090317 NAT1 819 272 36 47 6 Sphingomonas phyllosphaerae N/A 1090318 NAT1 843 280 35 46 7 5.2 Sphingomonas phyllosphaerae N/A 1090319 NAT1 834 277 34 46 8 FA2 Sphingomonas sp. MM-1 N/A 745310 NAT1 834 277 37 49 2 Sphingomonas wittichii RW1 SPHWW 392499 NAT1 1131 376 37 49 2 Sphingopyxis alaskensis RB2256 SPHAL 317655 NAT1 879 292 39 56 0 Sphingopyxis sp. MWB1 N/A 1537715 NAT1 843 280 42 53 0 Stappia stellulata DSM 5886 N/A 1123294 NAT1 603 200 39 57 3

62

Πίνακας 5: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν στην κλάση Beta-proteobacteria του φύλου Proteobacteria. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) BETA-PROTEOBACTERIA Achromobacter insuavis AXX-A N/A 1003200 NAT1 810 269 32 50 4 Achromobacter xylosoxidans A8 ACHXA 762376 NAT1 858 285 41 55 0 Advenella kashmirensis WT001 ADVKW 1036672 NAT1 894 297 40 58 1 Azoarcus sp. BH72 AZOSB 62928 NAT1 795 274 39 55 0 Bordetella sp. FB-8 9BORD 1159870 NAT1 825 273 36 51 6 Burkholderia ambifaria (2 strains) BURCM 339670 NAT1 834 277 39 55 1 Burkholderia cenocepacia (6 BURCA 331271 NAT1 831 276 42 59 1 strains) Burkholderia cepacia (3 strains) N/A 983594 NAT1 831 276 38 54 1 Burkholderia gladioli BSR3 BURGS 999541 NAT1 870 289 40 54 1 Burkholderia glumae BGR1 BURGB 626418 NAT1 873 290 39 54 2 Burkholderia mallei (6 strains) BURMA 243160 NAT1 873 290 37 52 1 Burkholderia multivorans ATCC BURM1 395019 NAT1 831 276 41 56 1 17616 Burkholderia phenoliruptrix N/A 1229205 NAT1 837 258 40 57 1 BR3459a Burkholderia phytofirmans PsJN BURPP 398527 NAT1 840 279 42 57 3

Burkholderia pseudomallei (10 strains) BURP6 320373 NAT1 873 290 37 52 1

63

Burkholderia sp. 383 BURL3 482957 NAT1 831 276 41 58 1 Burkholderia sp. CCGE1001 N/A 640510 NAT1 837 278 40 57 1 Burkholderia sp. CCGE1002 BURSC 640511 NAT1 837 278 40 58 2 Burkholderia sp. CCGE1003 BURSG 640512 NAT1 837 278 42 61 1 Burkholderia sp. Ch1-1 N/A 243261 NAT1 837 278 46 56 2 Burkholderia sp. KJ006 N/A 416344 NAT1 834 277 38 54 1 Burkholderia sp. RPE64 N/A 758793 NAT1 840 279 44 60 4 Burkholderia sp. YI23 N/A 1097668 NAT1 837 278 43 60 4 Burkholderia thailandensis (3 BURTA 271848 NAT1 873 290 37 51 1 strains) Burkholderia vietnamiensis G4 BURVG 269482 NAT1 834 277 37 54 1 Burkholderia xenovorans LB400 BURXL 266265 NAT1 837 278 42 56 2 Cupriavidus metallidurans CH34 CUPMC 266264 NAT1 879 292 35 46 8 Cupriavidus necator N-1 CUPNN 1042878 NAT1 867 288 36 49 6 Cupriavidus taiwanensis LMG N/A 977880 NAT1 867 288 39 50 6 19424 Delftia acidovorans SPH-1 DELAS 398578 NAT1 795 264 30 47 2 Delftia sp. Cs1-4 DELSC 742013 NAT1 795 264 31 48 3 Janthinobacterium sp. CG3 N/A 1075768 NAT1 831 256 31 51 4 Methyloversatilis sp. FAM1 N/A 1119528 NAT1 825 274 37 52 1 Methyloversatilis sp. RZ18-153 N/A 983954 NAT1 825 274 37 54 1 Methyloversatilis universalis EHg5 N/A 999628 NAT1 816 271 40 54 2

64

Nitrosomonas eutropha C91 NITEC 335283 NAT1 813 270 39 52 0 Oxalobacteraceae bacterium AB_14 N/A 1158293 NAT1 825 274 38 53 0 Pandoraea pnomenusa (2 strains) N/A 1416914 NAT1 858 285 38 54 3 Pandoraea sp. RB-44 N/A 1380774 NAT1 858 285 37 53 3 Pusillimonas sp. T7-7 PUSST 1007105 NAT1 810 269 39 56 1 Ralstonia eutropha H16 CUPNH 381666 NAT1 867 288 37 50 6 Ralstonia eutropha JMP134 CUPPJ 264198 NAT1 846 281 37 50 8 Ralstonia pickettii DTP0602 (2 9RALS 1366050 NAT1 857 285 38 52 6 strains) Ralstonia sp. UNC404CL21Col 9RALS 1380362 NAT1 810 269 37 50 5 Rhodocyclaceae bacterium RZ94 N/A 998429 NAT1 825 274 37 52 1

65

Πίνακας 6: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν την κλάση Gamma-proteobacteria του φύλου Proteobacteria. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) GAMMA-PROTEOBACTERIA Acinetobacter sp. CIP 56.2 N/A 1144672 NAT1 852 283 34 50 8

Acinetobacter sp. CIP 64.2 N/A 1217694 NAT1 852 283 32 50 6

Acinetobacter sp. NIPH 1847 N/A 1217697 NAT1 855 284 33 50 7

Acinetobacter sp. NIPH 1867 N/A 1217702 NAT1 852 283 33 50 10 Acinetobacter sp. NIPH 3623 N/A 1217698 NAT1 852 283 31 49 7 Acinetobacter sp. NIPH 298 N/A 1217692 NAT1 852 283 30 49 6 Acinetobacter sp. NIPH 809 N/A 1217713 NAT1 852 283 29 48 6 Acinetobacter sp. NIPH 2100 N/A 1217708 NAT1 852 283 29 48 6 Acinetobacter rudis CIP 110305 N/A 421052 NAT1 858 285 25 49 6 Acinetobacter beijerinckii CIP N/A 1217648 NAT1 852 283 34 50 8 110307 Acinetobacter gyllenbergii NIPH N/A 1217658 NAT1 852 283 31 48 6 230 Acinetobacter haemolyticus ATCC N/A 707232 NAT1 858 285 33 50 6 19194 Alcanivorax sp. DG881 N/A 236097 NAT1 1026 341 36 53 2 Alcanivorax dieselolei B5 ALCDB 930169 NAT1 828 275 33 52 1

66

Alcanivorax pacificus W11-5 N/A 391936 NAT1 858 285 34 51 0 Cedecea neteri strain M006 N/A 158822 NAT1 813 270 43 58 3 Cedecea neteri strain ND14a N/A 158822 NAT1 813 270 43 57 3 Cedecea neteri strain SSMD04 N/A 158822 NAT1 813 270 41 58 7 Cedecea neteri strain ND14b N/A 158822 NAT1 816 271 30 46 1 Citrobacter koseri ATCC BAA- CITK8 290338 NAT1 846 281 80 88 0 895 Citrobacter sp. 30_2 N/A 469595 NAT1 846 281 78 87 0 Citrobacter freundii UCI 31 N/A 1400136 NAT1 846 281 78 88 0 Citrobacter freundii 4_7 N/A 742730 NAT1 846 281 77 87 0 Citrobacter freundii UCI 32 N/A 1400137 NAT1 846 281 78 87 0 Citrobacter youngae ATCC 29220 N/A 500640 NAT1 846 281 77 87 0 Citrobacter sp. KTE30 N/A 1169319 NAT1 846 281 78 87 0 Citrobacter sp. KTE32 N/A 1169350 NAT1 846 281 77 87 0 Citrobacter rodentium ICC168 CITRI 637910 NAT1 846 281 77 86 0 Cronobacter turicensis z3032 CROTZ 693216 NAT1 822 273 44 59 1 Cronobacter turicensis 564 N/A 1208590 NAT1 822 273 45 59 1 Cronobacter sakazakii CMCC N/A 1401659 NAT1 822 273 44 57 1 45402 Cronobacter sakazakii Sp291 N/A 956149 NAT1 822 273 44 57 1 Cronobacter sakazakii 8399 N/A 1397689 NAT1 822 273 43 57 1

Cronobacter sakazakii ATCC CROS8 290339 NAT1 822 273 43 57 1

67

BAA-894 Cronobacter sakazakii ES15 N/A 1138308 NAT1 822 273 43 57 1 Cronobacter sakazakii strain N/A N/A NAT1 822 273 43 57 1 HPB5174 Cronobacter malonaticus 507 N/A 1208662 NAT1 822 273 44 57 1 Cronobacter malonaticus 681 N/A 1208591 NAT1 822 273 44 57 1 Cronobacter dublinensis 582 N/A 1208661 NAT1 822 273 43 56 1 Cronobacter universalis NCTC N/A 1074000 NAT1 828 275 44 58 1 9529 Colwellia psychrerythraea 34H COLP3 167879 NAT1 822 273 30 50 3 Dyella jiangningensis strain SBZ N/A 1379159 NAT1 822 273 36 57 1 3-12 Dyella japonica A8 N/A 1217721 NAT1 828 275 41 59 0 Enterobacter lignolyticus SCF1 ENTLS 701347 NAT1 846 281 72 83 0 Enterobacter cloacae UCI 49 N/A 1400154 NAT1 846 281 70 83 0 Enterobacter cloacae subsp. N/A 1211025 NAT1 846 281 69 83 0 cloacae ENHKU01 (15 strains) Enterobacter cloacae UCICRE 3 N/A 1329852 NAT1 846 281 69 82 0 Enterobacter cloacae BIDMC 8 N/A 1329846 NAT1 846 281 69 82 0 Enterobacter cloacae ECNIH3 N/A 1333851 NAT1 846 281 69 82 0 Enterobacter cloacae ECR091 N/A 1333849 NAT1 846 281 69 82 0 Enterobacter cloacae CHS 79 N/A 1439326 NAT1 846 281 68 81 0

68

Enterobacter cloacae subsp. N/A 1104326 NAT1 837 278 68 83 0 Dissolvens SDM Enterobacter cloacae subsp. ENTCC 716541 NAT1 837 278 68 83 0 cloacae ATCC 13047 Enterobacter cloacae P101 N/A 1354030 NAT1 846 281 67 81 0 Enterobacter cloacae EcWSU1 N/A 1045856 NAT1 846 281 67 80 0 Enterobacter cloacae subsp. N/A 1211025 NAT1 768 255 31 48 3 cloacae ENHKU01 Enterobacter aerogenes EA1509E N/A 935296 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 27 N/A 1400140 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 45 N/A 1400142 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 28 N/A 1400141 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 15 N/A 1400138 NAT1 846 281 72 82 0 Enterobacter aerogenes KCTC ENTAK 1028307 NAT1 846 281 72 82 0 2190 Enterobacter aerogenes UCI 47 N/A 1400144 NAT1 846 281 72 82 0 Enterobacter aerogenes FGI35 N/A 685445 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 48 N/A 1400145 NAT1 846 281 72 82 0 Enterobacter aerogenes MGH 78 N/A 1439323 NAT1 846 281 72 82 0 Enterobacter aerogenes MGH 62 N/A 1439321 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 16 N/A 1400139 NAT1 846 281 72 82 0 Enterobacter aerogenes UCI 46 N/A 1400143 NAT1 846 281 72 82 0

69

Enterobacter aerogenes MGH 61 N/A 1439320 NAT1 846 281 72 82 0 Enterobacter aerogenes MGH 77 N/A 1439322 NAT1 846 281 72 82 0 Enterobacter cancerogenus ATCC N/A 500639 NAT1 846 281 69 82 0 35316 Enterobacter cancerogenus YZ1 N/A 1260277 NAT1 846 281 69 82 0 NAT1 846 281 70 83 0 Enterobacter sp. MGH 25 N/A 1329829 NAT2 768 255 31 49 3 NAT1 846 281 70 83 0 Enterobacter sp. MGH 37 N/A 1329833 NAT2 768 255 31 49 3 Enterobacter sp. MGH 22 N/A 1329826 NAT1 846 281 69 83 0 Enterobacter sp. BWH 27 N/A 1329835 NAT1 846 281 69 82 0 Enterobacter sp. DC1 N/A 314330 NAT1 846 281 69 82 0 Enterobacter sp. FB N/A 1571816 NAT1 846 281 69 82 0 Enterobacter sp. 638 ENT38 399742 NAT1 846 281 67 80 0 Enterobacter sp. R4-368 N/A 1166130 NAT1 837 278 64 77 0 Enterobacter sp. DC4 N/A 1395580 NAT1 768 255 29 47 3 Enterobacter hormaechei YT3 N/A 1260282 NAT1 846 281 69 82 0 Enterobacter hormaechei ATCC N/A 888063 NAT1 846 281 68 81 0 49162 Enterobacter sp. BIDMC 27 N/A 1329839 NAT1 846 281 69 82 0 Enterobacter asburiae L1 N/A 1421338 NAT1 768 255 31 49 2 Enterobacter asburiae LF7a ENTAL 640513 NAT1 846 281 67 80 0

70

Enterobacter ludwigii strain EN- NAT1 846 281 67 81 0 N/A 299767 119 NAT2 768 255 31 48 2 Enterobacter massiliensis JC163 N/A 1095768 NAT1 822 273 65 78 0 Enterobacteriaceae bacterium ENTBF 693444 NAT1 846 281 74 85 0 strain FGI 57 Escherichia coli (multiple strains, only representative strains ECOLX 562 presented) Escherichia coli 5-172-05_S1_C1 N/A 1444046 NAT1 846 281 77 87 0 Escherichia coli KOEGE 71 N/A 1281168 NAT1 846 281 76 85 0 Escherichia coli KTE33 N/A 1169351 NAT1 846 281 76 85 0 Escherichia coli BWH 40 N/A 1328434 NAT1 846 281 75 85 0 Escherichia coli HVH 65 N/A 1281008 NAT1 846 281 75 85 0 Escherichia coli SMS-3-5 ECOSM 439855 NAT1 846 281 75 85 0 Escherichia coli UCI 65 N/A 1438695 NAT1 846 281 75 85 0 Escherichia coli UMEA 3163-1 N/A 1281201 NAT1 846 281 75 85 0 Escherichia coli HVH 128 (4- N/A 1281063 NAT1 846 281 74 85 0 7030436) Escherichia coli BIDMC 72 N/A 1438676 NAT1 846 281 74 85 0 Escherichia coli TA206 N/A 656440 NAT1 846 281 74 85 0 Escherichia coli strain N/A N/A NAT1 846 281 74 85 0 UCD_JA17_pb Escherichia sp. KTE114 N/A 1169321 NAT1 846 281 76 85 0

71

Escherichia albertii TW07627 ESCAT 502347 NAT1 846 281 75 85 0 Hahella chejuensis KCTC 2396 HAHCH 349521 NAT1 816 271 34 53 3 anticariensis FP35 = N/A 1121939 NAT1 1140 379 40 55 1 DSM 16096 Halomonas elongata DSM 2581 HALED 768066 NAT1 1167 388 38 51 2 Halomonas sp. BJGMM-B45 N/A 1178482 NAT1 828 275 34 51 1 Klebsiella pneumoniae (multiple strains, only representative KLEPN 573 strains presented) Klebsiella pneumoniae BIDMC N/A 1329843 NAT1 846 281 73 83 0 33B Klebsiella pneumoniae MGH 65 N/A 1438788 NAT1 846 281 73 83 0 Klebsiella pneumoniae CHS 75 N/A 1438779 NAT1 846 281 73 83 0 Klebsiella pneumoniae UCI 43 N/A 1400184 NAT1 846 281 73 83 0 Klebsiella pneumoniae BWH 41 N/A 1328387 NAT1 846 281 73 83 0 Klebsiella pneumoniae UHKPC45 N/A 1284819 NAT1 846 281 73 83 0 Klebsiella pneumoniae Kb140 N/A 1310158 NAT1 846 281 73 83 0 Klebsiella pneumoniae UCICRE 1 N/A 1328389 NAT1 846 281 73 83 0 Klebsiella pneumoniae JM45 N/A 1380908 NAT1 846 281 73 83 0 Klebsiella pneumoniae 342 KLEP3 507522 NAT1 846 281 72 83 0 Klebsiella pneumoniae B2390 N/A N/A NAT1 846 281 72 83 0 Klebsiella pneumoniae LAU-KP1 N/A 1389422 NAT1 846 281 72 83 0

Klebsiella pneumoniae LCT-KP289 N/A 1352933 NAT1 846 281 72 83 0

72

Klebsiella pneumoniae LCT- N/A 1352932 NAT1 846 281 72 83 0 KP182 Klebsiella pneumoniae CG43 N/A 1244085 NAT1 846 281 72 83 0 Klebsiella pneumoniae 160_1080 N/A 1304917 NAT1 846 281 72 82 0 Klebsiella pneumoniae strain N/A N/A NAT1 846 281 72 82 0 ATCC 13883 Klebsiella pneumoniae subsp. KLEP7 272620 NAT1 846 281 73 83 0 pneumoniae MGH 78578 Klebsiella pneumoniae subsp. N/A 272620 NAT1 846 281 72 83 0 pneumoniae WGLW2 Klebsiella pneumoniae subsp. N/A 1226680 NAT1 846 281 72 83 0 pneumoniae Ecl8 Klebsiella pneumoniae KCTC N/A 1049565 NAT1 846 281 72 83 0 2242 Klebsiella pneumoniae subsp. N/A 1379689 NAT1 846 281 72 83 0 pneumoniae T69 Klebsiella pneumoniae subsp. N/A 1193292 NAT1 846 281 72 83 0 pneumoniae 1084 Klebsiella pneumoniae subsp. N/A 1162297 NAT1 846 281 72 83 0 pneumoniae LCT-KP214 Klebsiella pneumoniae subsp. N/A 484021 NAT1 846 281 72 83 0 pneumoniae NTUH-K2044 Klebsiella pneumoniae subsp. N/A 1379688 NAT1 846 281 72 83 0 73 pneumoniae SA1 Klebsiella pneumoniae subsp. N/A 1226115 NAT1 846 281 72 82 0 pneumoniae KpQ3 Klebsiella pneumoniae subsp. N/A 1379687 NAT1 846 281 72 82 0 pneumoniae BJ1-GA Klebsiella oxytoca (multiple strains, only representative KLEOX 571 strains presented ) Klebsiella oxytoca G54 N/A 1409787 NAT1 846 281 72 83 0 Klebsiella oxytoca 10-5243 N/A 883118 NAT1 846 281 72 83 0 Klebsiella oxytoca 10-5245 N/A 883120 NAT1 846 281 71 83 0 Klebsiella oxytoca 10-5248 N/A 883123 NAT1 846 281 71 83 0 NAT1 846 281 71 83 0 Klebsiella oxytoca MGH 27 N/A 1328428 NAT2 768 255 32 49 4 Klebsiella oxytoca MGH 42 N/A 1328431 NAT1 846 281 71 83 0 NAT1 846 281 71 83 0 Klebsiella oxytoca KCTC 1686 KLEOK 1006551 NAT2 768 255 32 49 4 NAT1 846 281 71 83 0 Klebsiella oxytoca MGH 41 N/A 1328430 NAT2 768 255 32 49 4 NAT1 846 281 72 84 1 Klebsiella oxytoca SA2 N/A 1350470 NAT2 768 255 34 51 2 NAT1 846 281 71 83 0 Klebsiella oxytoca 10-5242 N/A 883117 NAT2 768 255 32 49 4

74

NAT1 846 281 71 83 0 Klebsiella oxytoca 10-5250 N/A 883125 NAT2 768 255 35 50 3 Klebsiella oxytoca 10-5246 N/A 883121 NAT1 846 281 70 82 0 NAT1 846 281 71 83 0 Klebsiella oxytoca E718 N/A 1191061 NAT2 768 255 32 49 4 NAT1 846 281 72 84 1 Klebsiella michiganensis SA2 N/A 1134687 NAT2 768 255 34 51 2 Klebsiella sp. BRL6-2 N/A 1168170 NAT1 846 281 72 83 0 Klebsiella sp. 1_1_55 N/A 469608 NAT1 846 281 72 83 0 Klebsiella variicola At-22 KLEVT 640131 NAT1 846 281 72 82 0 Klebsiella sp. 4_1_44FAA N/A 665944 NAT1 846 281 73 83 0 Klebsiella sp. KTE92 N/A 1182695 NAT1 846 281 72 82 0 Legionella pneumophila str. Lens LEGPL 297245 NAT1 969 322 25 46 7 Legionella pneumophila str. Paris LEGPA 297246 NAT1 969 322 25 47 7 Legionella pneumophila 2300/99 LEGP2 423212 NAT1 969 322 25 46 7 Alcoy Legionella pneumophila str. Corby LEGPC 400673 NAT1 969 322 25 46 7 Legionella pneumophila subsp. N/A 1199191 NAT1 969 322 25 47 7 pneumophila str. Thunder Bay Legionella pneumophila subsp. N/A 1312904 NAT1 969 322 25 47 7 pneumophila LPE509 Legionella pneumophila subsp. LEGPH 272624 NAT1 969 322 25 47 7

75 pneumophila str. Philadelphia 1 Legionella pneumophila subsp. N/A 933093 NAT1 969 322 25 47 7 pneumophila ATCC 43290 Legionella pneumophila subsp. LEGPH 272624 NAT1 969 322 25 47 7 pneumophila ATCC 33152 Legionella pneumophila subsp. N/A N/A NAT1 969 322 25 46 7 pneumophila ATCC 33152 Legionella pneumophila subsp. N/A N/A NAT1 969 322 25 46 7 pneumophila ATCC 43703 Legionella pneumophila subsp. N/A 91890 NAT1 969 322 25 47 7 Pascullei ATCC 33737 Marinobacter salarius strain N/A 1420917 NAT1 810 269 38 51 2 R9SW1 Marinomonas posidonica IVIA- MARPP 491952 NAT1 828 275 33 52 2 Po-181 Marinomonas mediterranea MARM1 717774 NAT1 804 267 34 51 2 MMB-1 Methylobacter marinus A45 N/A 674036 NAT1 822 273 35 50 4 Methylobacter luteus IMV-B-3098 N/A 1095552 NAT1 822 273 35 52 2 Methylomonas sp. 11b N/A 1168169 NAT1 804 267 36 53 2 Methylomonas sp. MK1 N/A 1131552 NAT1 804 267 35 53 2 Methylomonas methanica MC09 METMM 857087 NAT1 804 267 34 51 3

76

Nitrococcus mobilis Nb-231 N/A 314278 NAT1 825 274 38 53 1 Photobacterium sp. SKA34 N/A 121723 NAT1 804 267 32 50 2 Pluralibacter gergoviae strain FB2 PLUGE 61647 NAT1 846 281 69 84 0 Pseudomonas fluorescens R124 N/A 743713 NAT1 828 275 41 59 2 Pseudomonas fluorescens Pf0-1 PSEPF 205922 NAT1 828 275 40 57 0 Pseudomonas fluorescens NCIMB N/A 1221522 NAT1 828 275 37 54 0 11764 Pseudomonas fluorescens F113 N/A 1114970 NAT1 825 274 37 54 0 Pseudomonas fluorescens WH6 N/A 746360 NAT1 828 275 36 53 1 Pseudomonas fluorescens Q2-87 N/A 1038922 NAT1 819 272 37 54 0 Pseudomonas fluorescens A506 N/A 1037911 NAT1 834 277 35 53 2 Pseudomonas fluorescens SBW25 PSEFS 216595 NAT1 828 275 34 55 3 Pseudomonas fluorescens SS101 N/A 1038924 NAT1 834 277 34 53 2 Pseudomonas fluorescens strain N/A N/A NAT1 840 279 35 55 1 AU12271 Pseudomonas sp. UW4 N/A 1207075 NAT1 831 276 38 55 2 Pseudomonas moraviensis R28-S N/A 1395516 NAT1 834 277 39 58 2 Pseudomonas protegens Pf-5 PSEF5 220664 NAT1 825 274 38 55 2 Pseudomonas protegens CHA0 PSEPH 1124983 NAT1 825 274 38 54 2 Pseudomonas sp. N/A 1283285 NAT1 825 274 37 54 0 URIL14HWK12:I7 Pseudomonas sp. GM41 N/A 659160 NAT1 828 275 38 55 0

77

Pseudomonas sp. TKP N/A 1415630 NAT1 825 274 34 53 2 Pseudomonas sp. Eur1 9.41 N/A 378534 NAT1 834 277 35 53 2 Pseudomonas sp. R81 N/A 1144885 NAT1 828 275 35 56 3 Pseudomonas synxantha BG33R N/A 96901 NAT1 834 277 35 53 2 Pseudomonas sp. BRG-100 N/A 1524267 NAT1 834 277 35 53 2 Pseudomonas mendocina NK-01 PSEMN 1001585 NAT1 828 275 38 56 0 Pseudomonas mendocina str. Ymp PSEMY 399739 NAT1 828 275 38 55 0 Pseudomonas aeruginosa N/A 1402526 NAT1 840 279 31 47 2 BWHPSA026 Pseudomonas taeanensis MS-3 N/A 1395571 NAT1 846 281 34 48 5 Pseudomonas resinovorans NBRC NAT1 837 278 32 46 4 N/A 1245471 106553 NAT2 774 257 29 47 1 Pseudomonas sp. 2-92 N/A 915099 NAT1 828 275 36 55 3 Pseudomonas chlororaphis O6 N/A 1037915 NAT1 837 278 34 53 0 Pseudomonas chlororaphis subsp. N/A 1038921 NAT1 837 278 35 55 0 aureofaciens 30-84 Pseudomonas chlororaphis subsp. N/A 1415170 NAT1 837 278 35 54 0 aurantiaca PB-St2 Pseudomonas brassicacearum PSEBN 994484 NAT1 825 274 37 54 0 subsp. brassicacearum NFM421 Rahnella sp. Y9602 RAHSY 741091 NAT1 789 262 30 50 2 Rahnella aquatilis HX2 N/A 1151116 NAT1 789 262 30 50 2

78

NAT1 846 281 70 83 0 Raoultella ornithinolytica B6 N/A 1286170 NAT2 777 258 33 50 3 Rhodanobacter sp. 2APBS1 N/A 666685 NAT1 816 271 38 55 0 Salmonella enterica (multiple strains, only representative strains presented) Salmonella enterica subsp. enterica serovar Typhimurium SALTY 99287 NAT1 846 281 100 100 0 LT2 Salmonella enterica subsp. N/A 523831 NAT1 846 281 93 95 0 houtenae str. ATCC BAA-1581 Salmonella bongori serovar N/A 1382510 NAT1 846 281 85 91 0 48:z41: str. RKS3044 Salmonella bongori NCTC 12419 SALBC 218493 NAT1 846 281 85 91 0 Salmonella bongori N268-08 N/A 1197719 NAT1 846 281 85 90 0 Serratia sp. S4 N/A 768491 NAT1 762 253 34 54 3 Serratia sp. AS12 N/A 768490 NAT1 762 253 34 53 3 Serratia sp. AS13 N/A 768493 NAT1 762 253 34 53 3 Serratia proteamaculans 568 SERP5 399741 NAT1 762 253 34 54 3 Serratia plymuthica 4Rx13 N/A 682634 NAT1 762 253 34 53 4 Serratia plymuthica S13 N/A 1348660 NAT1 762 253 34 53 4 Serratia plymuthica AS9 SERSA 768492 NAT1 762 253 34 53 3 Serratia marcescens BIDMC 80 N/A 1445864 NAT1 765 254 35 51 5

79

Serratia marcescens BIDMC 44 N/A 1400186 NAT1 765 254 35 51 5 Serratia marcescens LCT-SM213 N/A 1162294 NAT1 765 254 35 52 5 Serratia marcescens LCT-SM166 N/A 1348336 NAT1 765 254 35 52 5 Serratia marcescens strain N/A N/A NAT1 765 254 35 52 5 CDC_813-60 Serratia marcescens WW4 N/A 435998 NAT1 765 254 35 51 5 Serratia marcescens BIDMC 50 N/A 1400187 NAT1 765 254 35 51 5 Serratia liquefaciens ATCC 27592 N/A 1346614 NAT1 762 253 33 54 2 Shigella sonnei 53G N/A 216599 NAT1 846 281 74 85 0 Shigella sonnei Ss046 SHISS 300269 NAT1 846 281 74 85 0 Shimwellia blattae DSM 4481 = SHIBC 630626 NAT1 834 277 45 59 0 NBRC 105725 Stenotrophomonas rhizophila N/A 216778 NAT1 822 273 37 52 0 strain DSM14405 Stenotrophomonas maltophilia STRM5 391008 NAT1 840 279 37 52 2 R551-3 Stenotrophomonas maltophilia STRMK 522373 NAT1 840 279 37 52 2 K279a Stenotrophomonas maltophilia STEMA 40324 NAT1 840 279 37 52 2 strain 13637 Stenotrophomonas maltophilia N/A 868597 NAT1 843 280 35 52 2 JV3

80

Stenotrophomonas maltophilia N/A 1163399 NAT1 840 279 36 52 2 D457 Vibrio parahaemolyticus N/A 1238215 NAT1 807 268 33 50 4 NIHCB0757 Vibrio parahaemolyticus RIMD VIBPA 223926 NAT1 807 268 32 50 4 2210633 Vibrio parahaemolyticus N/A 1238213 NAT1 807 268 32 50 4 NIHCB0603 Vibrio parahaemolyticus 949 N/A 1238199 NAT1 807 268 32 50 4 Vibrio parahaemolyticus AN-5034 N/A 563773 NAT1 807 268 32 50 4 Vibrio parahaemolyticus VP-NY4 N/A 1238218 NAT1 807 268 32 50 4 Vibrio parahaemolyticus 10290 N/A 1238231 NAT1 807 268 32 50 4 Vibrio parahaemolyticus 10329 N/A 745023 NAT1 807 268 32 50 4 Vibrio parahaemolyticus O1:K33 N/A 1338032 NAT1 807 268 33 50 3 Vibrio parahaemolyticus N/A 1441609 NAT1 807 268 32 50 4 TUMSAT_D06_S3 Vibrio parahaemolyticus VPTS- N/A 1238222 NAT1 807 268 32 50 4 2010 Vibrio parahaemolyticus BB22OP N/A 1211705 NAT1 807 268 32 50 4 Vibrio parahaemolyticus O1:Kuk N/A 1338034 NAT1 807 268 32 50 4 str. FDA_R31 Vibrio parahaemolyticus strain Ν/Α Ν/Α NAT1 807 268 32 50 4

81

FIM-S1392 Vibrio angustum S14 PHOAS 314292 NAT1 804 267 31 48 2 (Photobacterium angustum) Vibrio sp. Ex25 VIBSE 150340 NAT1 807 268 32 50 4 Vibrio alginolyticus 12G01 N/A 314288 NAT1 807 268 32 50 3 Vibrio campbellii (Vibrio harveyi) VIBCB 338187 NAT1 816 271 34 49 3 ATCC BAA-1116 Vibrio harveyi AOD131 N/A 1287887 NAT1 798 265 34 50 3 Vibrio nigripulchritudo SnF1 N/A 1260221 NAT1 798 265 33 49 2 Yokenella regensburgei ATCC N/A 1002368 NAT1 846 281 71 83 0 43003

82

Πίνακας 7: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν στο φύλο Actinobacteria. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) ACTINOBACTERIA Acidimicrobidae bacterium YM16- N/A 1313172 NAT1 804 267 31 45 8 304 NAT1 831 276 34 48 8 Actinomadura flavalba DSM 45200 N/A 561175 NAT2 813 270 32 48 2 Actinoplanes sp. SE50/110 ACTS5 134676 NAT1 729 242 34 46 3 Actinopolyspora halophila DSM N/A 1089546 NAT1 834 277 39 55 5 43834 NAT1 831 276 38 55 4 Actinopolyspora mortivallis DSM NAT2 804 267 32 46 6 N/A 1050202 44261 NAT3 891 296 31 46 10 NAT4 861 286 30 47 2 NAT1 855 284 35 50 9 Actinosynnema mirum DSM 43827 ACTMD 446462 NAT2 777 258 31 48 4 NAT3 780 259 30 44 13 Amycolatopsis thermoflava N1165 N/A 1068979 NAT1 789 262 37 52 3 Amycolatopsis methanolica 239 N/A 1068978 NAT1 789 262 37 52 3 Amycolatopsis balhimycina FH NAT1 804 267 35 49 4 N/A 1089545 1894 NAT2 759 252 32 49 4

83

NAT3 663 220 33 46 4 Amycolatopsis orientalis NAT1 759 252 37 49 4 N/A 1156913 HCCB10007 NAT2 873 290 34 48 4 Amycolatopsis alba DSM 44262 N/A 1125972 NAT1 759 252 33 47 4 NAT1 792 263 35 48 6 NAT2 852 283 32 44 6 Amycolatopsis mediterranei RB N/A 1221524 NAT3 822 273 29 45 3 NAT4 783 260 29 45 3 NAT1 792 263 35 48 6 NAT2 852 283 32 44 6 Amycolatopsis mediterranei S699 AMYMS 713604 NAT3 783 260 29 45 3 NAT4 822 273 29 35 3 NAT1 792 263 35 48 6 NAT2 852 283 32 44 6 Amycolatopsis mediterranei U32 AMYMU 749927 NAT3 822 273 29 45 3 NAT4 783 260 29 45 3 Amycolatopsis benzoatilytica AK NAT1 801 266 32 45 3 N/A 1089544 16/65 NAT2 774 257 29 46 8 NAT1 825 274 35 48 3 Catenulispora acidiphila DSM NAT2 810 269 35 45 5 CATAD 479433 44928 NAT3 801 266 33 48 4 NAT4 867 288 27 39 9

84

Cellulomonas sp. URHE0023 N/A 1380354 NAT1 816 271 35 49 4 Conexibacter woesei Iso977N N/A 1283299 NAT1 837 278 29 45 5 Corynebacterium halotolerans YIM N/A 1121362 NAT1 843 280 30 46 7 70093 Demetria terragena DSM 11295 N/A 1121385 NAT1 849 282 33 46 5 Frankia sp. CN3 N/A 298655 NAT1 843 280 34 48 5 Frankia sp. EAN1pec FRASN 298653 NAT1 807 268 28 45 5 Gordonia polyisoprenivorans N/A 1034768 NAT1 825 274 28 46 11 HW436 NAT1 831 276 46 60 2 Gordonibacter pamelaeae 7-10-1-b N/A 657308 NAT2 822 273 42 56 1 Janibacter sp. HTCC2649 N/A 313589 NAT1 876 291 35 51 3 Kitasatospora arboriphila strain N/A 258052 NAT1 858 285 33 54 1 NRRL B-24581 NAT1 810 269 35 49 3 Kitasatospora setae KM-6054 KITSK 452652 NAT2 897 298 32 46 7 NAT3 837 278 30 43 5 [Kitasatospora] papulosa strain N/A 1464011 NAT1 813 270 38 50 4 NRRL B-16504 Kribbella flavida DSM 17836 KRIFD 479435 NAT1 807 268 34 48 2 Microbacterium sp. KROCY2 N/A 1305732 NAT1 852 283 40 52 4 Microlunatus phosphovorus NM-1 MICPN 1032480 NAT1 852 283 30 43 8

85

Mycobacterium tuberculosis MYCTU 83332 NAT1 852 283 35 52 2 (369 strains) Mycobacterium canettii (4 strains) N/A 78331 NAT1 852 283 36 54 2 Mycobacterium africanum MYCA0 572418 NAT1 852 283 34 52 2 GM041182 (5 strains) Mycobacterium bovis (6 strains) MYCBI 1765 NAT1 852 283 34 52 2 Mycobacterium avium (15 strains) MYCAV 1764 NAT1 831 276 37 53 2 Mycobacterium intracellulare (5 MYCIT 1767 NAT1 831 276 37 52 2 strains) Mycobacterium indicus pranii N/A 1232724 NAT1 831 276 37 52 2 MTCC 9506 Mycobacterium sp. TKK-01-0059 N/A 1324269 NAT1 831 276 37 53 2 Mycobacterium sp. 05-1390 N/A 1138871 NAT1 831 276 37 52 2 Mycobacterium sp. MOTT36Y N/A 1168287 NAT1 831 276 36 52 2 Mycobacterium triplex strain DSM N/A 47839 NAT1 831 276 37 56 2 44626 Mycobacterium kansasii (3 strains) MYCKA 1768 NAT1 852 283 38 53 2 Mycobacterium marinum (5 strains) MYCMR 1781 NAT1 843 280 36 52 2 Mycobacterium sp. 012931 N/A 1187065 NAT1 843 280 36 52 2 Mycobacterium liflandii 128FXT MYCL1 459424 NAT1 843 280 36 52 2 Mycobacterium asiaticum DSM MYCAS 1790 NAT1 846 281 38 54 2 44297

86

Mycobacterium simiae ATCC N/A 1236483 NAT1 831 276 36 54 2 25275 = DSM 44165

Mycobacterium smegmatis (6 strains) MYCSM 1772 NAT1 828 275 34 51 2 Mycobacterium sp. MCS MYCSS 164756 NAT1 846 281 36 54 2 Mycobacterium sp. KMS MYCSK 189918 NAT1 846 281 36 54 2 Mycobacterium sp. JLS MYCSJ 164757 NAT1 846 281 36 54 2 Mycobacterium tusciae JS617 N/A 710687 NAT1 825 274 35 54 2 Mycobacterium mageritense DSM N/A 1209984 NAT1 831 276 34 52 2 44476 Mycobacterium rhodesiae NBB3 MYCRN 710685 NAT1 825 274 35 52 2 Mycobacterium gilvum (2 strains) N/A 1804 NAT1 828 275 35 53 3 Mycobacterium cosmeticum strain N/A 258533 NAT1 831 276 36 54 3 DSM 44829 Mycobacterium neoaurum MYCNE 1795 NAT1 825 274 38 54 4 (2 strains) Mycobacterium rufum strain JS14 N/A 318424 NAT1 834 277 34 53 3 Mycobacterium sp. 155 N/A 1157943 NAT1 840 279 34 52 2 Mycobacterium vulneris strain N/A 547163 NAT1 861 286 34 51 4 DSM 45247 Mycobacterium sp. VKM Ac- N/A 1273687 NAT1 840 279 33 50 4 1817D Mycobacterium farcinogenes strain N/A 1237860 NAT1 840 279 34 52 4

87

DSM 43637 Mycobacterium austroafricanum N/A 39687 NAT1 828 275 35 55 3 strain DSM 44191 Mycobacterium vanbaalenii PYR-1 MYCVP 350058 NAT1 828 275 36 55 3 Mycobacterium septicum DSM N/A 1341646 NAT1 873 290 34 50 4 44393 Mycobacterium sp. JDM601 MYCSD 875328 NAT1 849 282 37 56 4 Mycobacterium abscessus MYCAB 36809 NAT1 837 278 34 49 5 (40 strains) Mycobacterium abscessus subsp. Ν/Α Ν/Α NAT1 837 278 31 46 6 abcessus strain MM1513 Mycobacterium massiliense str. GO N/A 1198627 NAT1 837 278 33 48 5 06 Mycobacterium abscessus subsp. N/A 319705 NAT1 837 278 34 49 5 bolletii (14 strains) Nocardia sp. BMG51109 N/A 1056816 NAT1 867 288 33 48 7 Nocardia cyriacigeorgica GUH-2 NOCCG 1127134 NAT1 867 288 33 47 10 Nocardia brasiliensis ATCC NAT1 867 288 32 45 4 N/A 1133849 700358 NAT2 906 301 29 42 13 Nocardia farcinica IFM 10152 NOCFA 247156 NAT1 882 293 35 48 12 Nocardiopsis alba ATCC BAA- NOCAA 1205910 NAT1 960 319 34 50 2 2165

88

Promicromonospora sukumoe N/A 1172178 NAT1 852 283 28 37 8 327MFSha3.1 Pseudonocardia spinosispora DSM N/A 1123025 NAT1 828 275 35 50 1 44797 Rhodococcus opacus PD630 N/A 543736 NAT1 825 274 36 51 0 Rhodococcus jostii RHA1 RHOJR 101510 NAT1 825 274 36 51 0 Saccharomonospora cyanea NA- N/A 882082 NAT1 855 284 38 52 4 134 Saccharomonospora glauca K62 N/A 928724 NAT1 840 279 32 49 6 Saccharomonospora xinjiangensis N/A 882086 NAT1 951 316 36 53 3 XJ-54 Saccharomonospora azurea NA- N/A 882081 NAT1 861 286 34 48 4 128 Saccharomonospora sp. CNQ490 N/A 1137271 NAT1 855 284 38 53 5 Saccharomonospora viridis DSM SACVD 471857 NAT1 813 270 37 50 4 43017 Saccharomonospora marina N/A 882083 NAT1 819 272 31 46 2 XMU15 Saccharopolyspora erythraea SACEN 405948 NAT1 858 285 33 49 4 NRRL 2338 Saccharopolyspora spinosa NRRL N/A 994479 NAT1 846 281 28 42 12 18395

89

Saccharothrix espanaensis DSM SACES 1179773 NAT1 795 264 37 52 2 44229 NAT1 834 277 31 45 9 Salinispora pacifica DSM 45544 N/A 999543 NAT2 882 293 30 45 5 Salinispora arenicola CNS-205 SALAI 391037 NAT1 777 258 32 49 4 Salinispora arenicola DSM 45545 N/A 999546 NAT1 681 226 31 47 1 strain CNS-991 Segniliparus rugosus ATCC BAA- N/A 679197 NAT1 888 295 29 46 1 974 NAT1 852 283 36 49 0 NAT2 771 256 34 50 3 Stackebrandtia nassauensis DSM STANL 446470 NAT3 852 283 33 49 5 44728 NAT4 873 290 32 48 4 NAT5 825 274 31 46 3 NAT1 843 280 39 51 9 Streptacidiphilus albus JL83 N/A 1449352 NAT2 861 286 39 50 3 Streptomyces atroolivaceus strain STRAZ 66869 NAT1 813 270 36 49 3 NRRL ISP-51 NAT1 825 274 34 49 4 Streptomyces albus J1074 N/A 457425 NAT2 879 292 33 45 9 Streptomyces avermitilis MA-4680 STRAW 227882 NAT1 840 279 31 46 4 Streptomyces cattleya NRRL 8057 STREN 1003195 NAT1 855 284 31 45 7

90

Streptomyces clavuligerus ATCC STRC2 443255 NAT1 774 257 31 46 2 27064 Streptomyces griseus subsp. griseus NAT1 813 270 34 47 3 STRGG 455632 NBRC 13350 NAT2 810 269 32 45 6 NAT1 813 270 34 47 3 Streptomyces griseus XylebKG-1 N/A 649189 NAT2 867 288 33 45 6 Streptomyces fulvissimus DSM NAT1 816 271 35 46 3 N/A 1303692 40593 NAT2 885 294 29 46 2 NAT1 852 283 33 51 5 Streptomyces purpureus KA281 N/A 1054860 NAT2 792 263 34 48 4 NAT3 831 276 33 44 0 Streptomyces davawensis JCM NAT1 828 275 36 51 5 N/A 1214101 4913 NAT2 804 267 33 46 9 Streptomyces bottropensis ATCC N/A 1214101 NAT1 822 273 36 50 2 25435 (2 strains) Streptomyces clavuligerus ATCC STRC2 443255 NAT1 774 257 31 46 2 27064 Streptomyces flavovirens NRRLB- N/A N/A NAT1 813 270 38 50 4 2182 Streptomyces griseorubens JSD-1 N/A 1054862 NAT1 822 273 36 50 2 Streptomyces ghanaensis ATCC NAT1 840 279 35 46 5 N/A 566461 14672 NAT2 852 283 32 45 6

91

Streptomyces auratus AGR0001 N/A 566461 NAT1 801 266 35 50 2 Streptomyces hygroscopicus subsp. NAT1 837 278 35 46 5 N/A 1160718 jinggangesis TL01 NAT2 858 285 29 43 6 Streptomyces hygroscopicus subsp. NAT1 837 278 35 46 5 STRHJ 1133850 jinggangensis strain 5008 NAT2 858 285 29 43 6 NAT1 849 282 32 48 4 Streptomyces niveus NCIMB 11891 N/A 1352941 NAT2 852 283 31 44 6 Streptomyces olivaceus NRRL B- N/A N/A NAT1 813 270 38 50 4 1125 NAT1 807 268 33 46 4 Streptomyces sp. AA4 N/A 591158 NAT2 801 266 29 46 6 Streptomyces pratensis ATCC NAT1 813 270 38 50 4 STRFA 591167 33331 NAT2 861 286 34 49 5 NAT1 843 280 38 51 4 Streptomyces sp. C N/A 253839 NAT2 876 291 25 38 6 Streptomyces sp. DpondAA-B6 N/A 682311 NAT1 813 270 34 47 3

Streptomyces sp. GBA 94-10 Ν/Α 1225331 NAT1 879 292 32 44 8 Streptomyces sp. JS01 N/A 1525753 NAT1 813 270 36 49 3 NAT1 813 270 38 50 4 Streptomyces sp. PAMC26508 N/A 1265601 NAT2 825 274 34 49 5 Streptomyces sp. ScaeMP-e10 N/A 1156841 NAT1 816 271 35 46 3 Streptomyces sp. SirexAA-E STREK 862751 NAT1 813 270 36 47 3

92

NAT2 795 264 31 46 10 Streptomyces sp. S4 N/A 1456733 NAT1 879 292 33 45 9 NAT1 825 274 36 48 4 Streptomyces sp. PVA 94-07 N/A 1223307 NAT2 879 292 32 44 8 Streptomyces sp. Tu6071 N/A 355249 NAT1 861 286 39 52 2 NAT1 771 256 35 50 2 Streptomyces sp. 769 N/A 1262452 NAT2 828 275 33 55 2 Streptomyces scabiei 87.22 STRSW 680198 NAT1 810 269 37 49 2 Streptomyces pristinaespiralis N/A 457429 NAT1 804 267 35 48 3 ATCC 25486 Streptomyces roseosporus NRRL N/A 457430 NAT1 813 270 36 48 5 11379 Streptomyces rapamycinicus NRRL NAT1 837 278 38 49 5 N/A 1343740 5491 NAT2 759 252 31 47 4

Streptomyces roseochromogenus NAT1 840 279 33 47 6 N/A 1352936 subsp.oscitans DS 12.976 NAT2 837 278 33 45 5

NAT1 861 286 35 50 2 Streptomyces venezuelae ATCC STRVP 953739 NAT2 867 288 35 44 2 10712 NAT3 846 281 32 49 4 Streptomyces collinus Tu 365 N/A 1214242 NAT1 846 281 31 43 5 Streptomyces violaceusniger Tu NAT1 882 293 41 53 4 N/A 653045 4113 NAT2 774 257 33 51 5

93

NAT3 756 251 29 46 6 Streptomyces viridosporus T7A N/A 665577 NAT1 840 279 35 46 5 Streptosporangium roseum DSM STRRD 479432 NAT1 765 254 33 47 4 43021 Terracoccus sp. 273MFTsu3.1 N/A 1172188 NAT1 771 256 35 47 2 Tsukamurella paurometabola DSM TSUPD 521096 NAT1 849 282 32 47 4 20162

94

Πίνακας 8: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν στο φύλο Firmicutes. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) FIRMICUTES Acetivibrio cellulolyticus CD2 N/A 509191 NAT1 768 255 34 54 1 Acetobacterium woodii DSM 1030 ACEWD 931626 NAT1 771 256 31 55 1 Alicyclobacillus N/A 1382304 NAT1 762 251 35 55 2 macrosporangiidus CPP55 Bacillus anthracis (86 strains, only representative strains BACAN 1392 presented) NAT1 654 217 29 49 2 Bacillus anthracis CDC 684 N/A 1449979 NAT2 840 279 27 44 9 NAT3 768 255 26 45 5 NAT1 654 217 29 49 2 Bacillus anthracis str. Ames N/A 198094 NAT2 840 279 27 44 9 NAT3 768 255 26 45 5 NAT1 654 217 29 49 2 Bacillus anthracis str. Sterne N/A 260799 NAT2 840 279 27 44 9 NAT3 768 255 26 45 5 NAT1 654 217 29 49 2 Bacillus anthracis strain Vollum N/A 261591 NAT2 840 279 27 44 9 NAT3 768 255 26 45 5 95

Bacillus cereus (150 strains, only BACCE 1396 representative strains presented) NAT1 768 255 32 51 1 Bacillus cereus VD154 N/A 1053238 NAT2 792 263 29 48 2 NAT3 840 279 26 44 9 NAT1 768 255 31 48 1 Bacillus cereus F N/A 1126681 NAT2 792 263 29 47 2 NAT3 840 279 26 44 9 NAT1 768 255 31 51 1 Bacillus cereus BAG5X1-1 N/A 1053189 NAT2 756 251 30 56 1 NAT3 798 265 29 50 2 NAT1 768 255 31 49 1 Bacillus cereus ATCC 10987 BACC1 222523 NAT2 792 263 29 48 2 NAT3 840 279 26 45 9 NAT1 768 255 29 48 1 Bacillus cereus AH603 N/A 526990 NAT2 792 263 27 48 2 NAT3 843 280 25 45 9 Bacillus licheniformis (5 strains, only representative strains BACLI 1402 presented) Bacillus licheniformis 9945A N/A 766760 NAT1 759 252 28 43 3 Bacillus licheniformis ATCC BACLD 279010 NAT1 759 252 28 43 3 14580 Bacillus weihenstephanensis BACWK 315730 NAT1 768 255 31 50 1

96

KBAB4 NAT2 792 263 28 48 2 Bacillus weihenstephanensis strain NAT1 768 255 30 50 1 N/A 86662 WSBC 10204 NAT2 792 263 28 48 2 Bacillus amyloliquefaciens (14 strains, only representative BACAM 1390 strains presented) Bacillus amyloliquefaciens LL3 N/A 1001582 NAT1 747 248 29 46 3 Bacillus amyloliquefaciens subsp. plantarum (10 strains, only N/A 1054400 representative strains presented) Bacillus amyloliquefaciens subsp. N/A 1458206 NAT1 747 248 27 44 3 Plantarum NJN6 Bacillus amyloliquefaciens subsp. N/A 1114958 NAT1 747 248 27 44 3 plantarum CAU B946

Bacillus mycoides (9 strains, only BACMY 1405 representative strains presented) NAT1 768 255 31 50 1 Bacillus mycoides DSM 2048 N/A 526997 NAT2 792 263 28 48 2

NAT1 792 263 28 49 2 Bacillus mycoides 219298 N/A N/A NAT2 792 263 28 42 7

NAT1 792 263 28 49 2 Bacillus mycoides Rock1-4 N/A 526998 NAT2 792 263 27 42 7

Bacillus mycoides Rock3-17 N/A 526999 NAT1 792 263 28 49 2

97

NAT2 792 263 27 42 7

Bacillus mycoides strain ATCC NAT1 768 255 31 50 1 BACMY 1405 6462 NAT2 792 263 28 48 2 Bacillus sonorensis L12 N/A 1274524 NAT1 762 253 29 48 5 Bacillus megaterium (4 strains, only representative strains BACME 1404 presented) Bacillus megaterium WSH-002 N/A 1006007 NAT1 759 252 32 51 1 NAT1 756 251 31 55 1 Bacillus thuringiensis serovar NAT2 792 263 29 49 2 N/A 527032 andalousiensis BGSC 4AW1 NAT3 840 279 27 44 9 NAT4 768 255 26 45 5 NAT1 768 255 31 50 1 NAT2 792 263 29 48 2 NAT3 837 278 28 47 14 Bacillus thuringiensis serovar N/A N/A NAT4 807 268 27 46 12 morrisoni strain HD 600 NAT5 840 279 27 44 9 NAT6 810 269 26 47 9 NAT7 816 271 24 41 8 NAT1 768 255 31 50 2 Bacillus thuringiensis serovar NAT2 609 202 30 45 11 N/A 527026 sotto str. T04001 NAT3 615 204 29 48 2 NAT4 801 266 28 46 15

98

Bacillus flexus 27Col1.1E N/A 1292043 NAT1 756 251 29 48 1

Bacillus subtilis (28 strains, only BACIU 1423 representative strains presented) Bacillus subtilis BEST7613 N/A 1204343 NAT1 765 254 28 47 3 Bacillus subtilis subsp. subtilis str. BACSU 224308 NAT1 765 254 28 47 3 168 Bacillus subtilis KCTC 1028 N/A 1136873 NAT1 765 254 28 47 3 Bacillus subtilis subsp. subtilis str. N/A 1221328 NAT1 765 254 28 47 3 AG1839 Bacillus subtilis subsp. spizizenii BACPZ 655816 NAT1 756 251 30 46 4 str. W23 Bacillus subtilis subsp. spizizenii BACPT 1052585 NAT1 756 251 28 46 4 TU-B-10 Bacillus subtilis Bs-916 N/A N/A NAT1 747 248 27 44 3 Bacillus subtilis B-1 N/A N/A NAT1 747 248 27 44 3 Bacillus atrophaeus (4 strains, only representative strains BACAT 1452 presented) Bacillus atrophaeus UCMB-5137 N/A 1239783 NAT1 759 252 28 43 3 Bacillus atrophaeus 1942 BACA1 720555 NAT1 762 253 28 44 3 NAT1 792 263 29 47 2 Bacillus toyonensis BCT-7112 N/A 1415784 NAT2 840 279 28 43 10 Bacillus methylotrophicus strain N/A N/A NAT1 747 248 27 44 3 JS25R

99

Bacillus methylotrophicus strain N/A 492670 NAT1 747 248 26 43 3 YJ11-1-4 Bacillus methylotrophicus strain J- N/A N/A NAT1 747 248 26 43 3 D34 Bacillus pumilus SAFR-032 BACP2 315750 NAT1 747 248 25 42 4 Bacillus pumilus W3 N/A N/A NAT1 744 247 25 40 3 Bacillus pumilus MTCC B6033 N/A N/A NAT1 744 247 25 40 3 Bacillus pseudomycoides DSM NAT1 792 263 28 42 7 N/A 527000 12442 NAT2 792 263 27 48 2 Bacillus clausii KSM-K16 BACSK 66692 NAT1 813 270 32 45 5 Bacillus halodurans C-125 BACHD 272558 NAT1 831 276 27 45 2 Bacillus indicus LMG 22858 N/A 1458122 NAT1 783 260 28 43 6 Bacillus infantis NRRL B-14911 N/A 1367477 NAT1 741 246 30 51 7 Bacillus aryabhattai strain C765 N/A N/A NAT1 756 251 29 47 1 Bacillus aryabhattai strain GZ03 N/A N/A NAT1 756 251 28 47 2 NAT1 768 255 32 50 1 Bacillus sp. 7_6_55CFAA_CT2 N/A 665957 NAT2 840 279 28 44 10 Bacillus sp. 17376 N/A 977905 NAT1 786 261 31 50 6 Bacillus sp. 171095_106 N/A 1286363 NAT1 753 250 28 48 2 Bacillus sp. MSP5.4 N/A 1071069 NAT1 759 252 28 43 3 Bacillus sp. OxB-1 N/A 98228 NAT1 756 251 27 46 2 Bacillus sp. SB47 BACSX 1071079 NAT1 759 252 28 43 3

100

Bacillus sp. SB49 N/A 1071080 NAT1 753 250 28 46 6 Bacillus sp. X1 N/A 498382 NAT1 753 250 228 46 6 NAT1 768 255 32 50 1 Bacillus bombysepticus str. Wang N/A 1330043 NAT2 792 263 29 48 2 NAT3 840 279 28 44 10 Brevibacillus laterosporus strain BRELA 1465 NAT1 843 280 26 46 9 B9 Brevibacillus brevis BREBN 358681 NAT1 777 258 29 45 6 Brevibacillus panacihumi W25 N/A 1408254 NAT1 786 261 30 47 7 Clostridium sp. D5 N/A 556261 NAT1 819 272 31 50 0 Clostridium sp. SY8519 CLOSS 1042156 NAT1 840 279 30 43 1 NAT1 750 249 32 46 3 Desmospora sp. 8437 N/A 997346 NAT2 753 250 29 48 5 Desulfitobacterium hafniense DESHD 272564 NAT1 801 266 32 48 11 DCB-2 Desulfitobacterium hafniense N/A 872024 NAT1 801 266 32 48 11 TCP-A Desulfitobacterium hafniense Y51 DESHY 138119 NAT1 801 266 32 47 11 Desulfosporosinus acidiphilus SJ4 DESAJ 646529 NAT1 795 264 34 56 1 Exiguobacterium sibiricum 255-15 EXIS2 262543 NAT1 792 263 28 46 4 Exiguobacterium antarcticum B7 EXIAB 1087448 NAT1 789 262 26 43 9 Exiguobacterium undae DSM N/A 1397693 NAT1 762 253 28 46 2 14481 101

Exiguobacterium sibiricum 7-3 N/A 1397698 NAT1 762 253 27 47 4 Exiguobacterium undae 190-11 N/A 1397695 NAT1 762 253 28 45 2 Halobacillus dabanensis strain HALDA 240302 NAT1 765 254 27 47 4 HD-02 Halobacillus trueperi strain HT-01 N/A 156205 NAT1 765 254 27 47 4 Kurthia sp. JC8E N/A 1033740 NAT1 732 243 28 50 4 Lactococcus lactis subsp. cremoris N/A 1295826 NAT1 804 267 30 48 5 A76 Lactococcus lactis subsp. cremoris N/A 1104322 NAT1 804 267 30 48 5 NZ9000 Lactococcus lacti subsp. cremoris LACLN 746361 NAT1 804 267 30 48 5 MG1363 Lactococcus lactis subsp. cremoris N/A 1286878 NAT1 804 267 30 48 5 UC509.9 Lactococcus lactis subsp. lactis N/A 1111678 NAT1 804 267 30 48 5 strain 511 Lysinibacillus fusiformis strain Ν/Α Ν/Α NAT1 810 269 28 46 1 RB-21 Lysinibacillus sphaericus CBAM5 N/A 1400869 NAT1 747 248 33 48 2 Lysinibacillus sphaericus C3-41 LYSSC 444177 NAT1 747 248 33 48 2 Lysinibacillus sphaericus OT4b.31 N/A 1285586 NAT1 744 247 31 47 2 Oceanobacillus kimchii X50 N/A 1238184 NAT1 768 255 26 42 9

102

NAT1 786 261 33 48 0 Paenibacillus sp. HGH0039 N/A 1078505 NAT2 753 250 29 46 3 Paenibacillus sp. JDR-2 PAESJ 324057 NAT1 771 256 31 49 3 Paenibacillus senegalensis JC66 N/A 1033743 NAT1 771 256 31 49 3 NAT1 876 291 36 45 9 Paenibacillus sp. Y412MC10 GEOS4 481743 NAT2 783 260 33 48 0 NAT1 870 289 30 45 9 Paenibacillus mucilaginosus 3016 N/A 1116391 NAT2 798 265 27 43 7 Paenibacillus mucilaginosus NAT1 870 289 30 45 9 PAEMK 1036673 KNP414 NAT2 798 265 26 43 7 Paenibacillus mucilaginosus K02 N/A 997761 NAT1 870 289 30 45 9 Paenibacillus terrae HPL-003 PAETH 985665 NAT1 873 290 31 44 11 Paenibacillus barengoltzii G22 N/A 1235795 NAT1 867 288 32 45 11 Paenibacillus polymyxa SC2 PAEPS 886882 NAT1 867 288 32 42 11 Paenibacillus polymyxa ATCC N/A 1036171 NAT1 867 288 32 42 11 842 Paenibacillus polymyxa CF05 N/A 136407 NAT1 867 288 32 42 11 Paenibacillus polymyxa A18 N/A 1414587 NAT1 867 288 32 42 11 Paenibacillus polymyxa CICC N/A N/A NAT1 867 288 32 42 11 10580

Ruminococcus flavefaciens AE3010 N/A 1384066 NAT1 765 254 37 51 2 Sporosarcina newyorkensis 2681 N/A 1027292 NAT1 786 261 32 45 2

103

Staphylococcus aureus (242 strains, only representative STAAU 1280 strains presented) Staphylococcus aureus M1228 N/A 1303785 NAT1 801 266 25 44 3 Staphylococcus aureus M0055 N/A 1158508 NAT1 795 264 26 46 4 Staphylococcus aureus subsp. aureus (75 strains, only N/A 46170 representative strains presented) Staphylococcus aureus subsp. N/A 1193576 NAT1 795 264 27 46 6 aureus CN1 Staphylococcus aureus subsp. N/A N/A NAT1 801 266 25 44 3 aureus H-EMRSA-15 Staphylococcus epidermidis (6 strains, only representative STAEP 1282 strains presented) Staphylococcus epidermidis STAEQ 176279 NAT1 786 261 28 44 6 RP62A Staphylococcus haemolyticus STAHJ 279808 NAT1 786 261 27 46 6 JCSC1435 Staphylococcus hyicus ATCC STAHY 1284 NAT1 792 263 28 47 5 11249 Staphylococcus lugdunensis (3 strains, only representative STALU 28035 strains presented) Staphylococcus lugdunensis STALN 1034809 NAT1 798 265 27 46 5 N920143 Staphylococcus pseudintermedius STAPH 937773 NAT1 807 268 28 45 1 104

HKU10-03 Staphylococcus pseudintermedius STAPE 984892 NAT1 807 268 27 45 1 ED99 Staphylococcus pseudintermedius N/A 1266717 NAT1 807 268 27 46 1 E140 Staphylococcus capitis CR01 N/A 1296619 NAT1 786 261 26 46 2 Staphylococcus warneri SG1 STAWS 1194526 NAT1 786 261 25 48 4 Staphylococcus pasteuri SP1 N/A 1276282 NAT1 786 261 24 45 1 Staphylococcus sp. HGB0015 N/A 1078083 NAT1 792 263 28 44 3 Thalassobacillus devorans MSP14 N/A 1401258 NAT1 783 260 27 45 5 Virgibacillus sp. Vm-5 N/A 1462526 NAT1 759 252 28 48 4

105

Πίνακας 9: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν στα υπόλοιπα φύλα των βακτηρίων. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) Chlamydiae/Verrucomicrobia Group Methylacidiphilum infernorum V4 METI4 481448 NAT1 855 284 37 52 2 Opitutus terrae PB90-1 OPITP 452637 NAT1 804 267 39 54 0 Verrucomicrobia bacterium LP2A N/A 478741 NAT1 840 279 38 52 2 Verrucomicrobium sp. 3C N/A 1134055 NAT1 849 282 42 57 1 Verrucomicrobium spinosum DSM N/A 240016 NAT1 834 277 36 56 1 4136 Chloroflexi Chloroflexus aurantiacus J-10-fl CHLAA 324602 NAT1 813 270 31 48 2 Chloroflexus sp. Y-400-fl CHLSY 480224 NAT1 813 270 31 48 2 Cyanobacteria Geitlerinema sp. PCC 7105 N/A 102127 NAT1 759 252 29 51 2 Gloeocapsa sp. PCC 7428 N/A 1173026 NAT1 837 278 39 58 1 Kamptonema formosum PCC 6407 N/A 402777 NAT1 846 281 36 55 1 Leptolyngbya boryana PCC 6306 N/A 272134 NAT1 828 275 38 58 1 Leptolyngbya sp. PCC 7375 N/A 102129 NAT1 795 264 38 51 2 Nodosilinea nodulosa PCC 7104 N/A 118166 NAT1 816 271 39 55 0 Oscillatoria nigroviridis PCC N/A 179408 NAT1 849 282 34 54 1 7112 106

Synechococcus sp. JA-2-3B'a N/A 321333 NAT1 915 304 34 51 5 Nitrospinae Nitrospina gracilis 3/211 NITG3 1266370 NAT1 798 265 35 51 2 Nitrospirae Nitrospira defluvii N/A 330214 NAT1 774 256 39 56 1 Planctomycetes Singulisphaera acidiphila DSM SINAD 886293 NAT1 837 278 37 56 1 18658 Spirochaetes Treponema primitia ZAS-2 TREPZ 545694 NAT1 882 293 36 55 1

107

Πίνακας 10: Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν στο βασίλειο των αρχαίων. Organism Taxonomy Gene ORF length Protein length Identities Positives Gaps Organism scientific name identification code identifier symbol (base pairs) (amino acids) (%) (%) (%) ARCHAEA Halogeometricum borinquense HALBP 469382 NAT1 819 261 100 100 0 DSM 11551 Haladaptatus paucihalophilus N/A 797209 NAT1 786 272 52 65 2 DX253 Halophilic archaeon DL31 N/A 756883 NAT1 799 267 51 67 8 Halovivax ruber XH-70 HALRX 797302 NAT1 816 271 29 42 13 Salinarchaeum sp. Harcht-Bsk1 N/A 1333523 NAT1 888 295 45 57 10

108

3.2. Φυλογονενετική ανάλυση των ταυτοποιημένων (annotated) προκαρυωτικών αλληλουχιών ΝΑΤ

Για τη φυλογενετική ανάλυση προτιμήθηκαν οι περισσότερο συντηρημένες αμινοξικές αλληλουχίες των προκαρυωτικών πρωτεϊνών ΝΑΤ, οι οποίες στοιχήθηκαν με τον αλγόριθμο CUSTALW στο πρόγραμμα MEGA6 (Tamura et al., 2013). Η κατασκευή των φυλογενετικών δένδρων έγινε με τη μέθοδο της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987), όπως περιγράφεται στην Ενότητα 2.2.3. Στις Εικόνες 1-8 παρουσιάζονται μια σειρά από αντιπροσωπευτικά δένδρα, ενδεικτικά των φυλογενετικών σχέσεων των αλληλουχιών ΝΑΤ σε διαφορετικές ταξινομικές ομάδες προκαρυωτών.

109

110

Εικόνα 1: Φυλογενετικό δένδρο 47 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στο φύλο Proteobacteria, κλάση Alpha-proteobacteria. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά την στοίχιση των αλληλουχιών, όλες οι ακατάληπτες θέσεις αφαιρέθηκαν και προέκυψαν συνολικά 413 θέσεις στο τελικό σύνολο δεδομένων. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013).

111

112

Εικόνα 2: Φυλογενετικό δένδρο 74 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στο φύλο Proteobacteria, κλάση Beta-proteobacteria. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι ακατάληπτες θέσεις για κάθε ζευγάρι ακολουθιών αφαιρέθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013).

113

Εικόνα 3: Φυλογενετικό δένδρο 286 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στο φύλο Proteobacteria, κλάση Gamma-proteobacteria. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987) και απεικονίζεται το βέλτιστο δένδρο, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι θέσεις με κενά ή απώλεια δεδομένων απαλοίφθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013). Η εικόνα 3 του φυλογενετικού δένδρου επισυνάπτεται σε ηλεκτρονική μορφή στο τέλος της διατριβής

114

Εικόνα 4: Φυλογενετικό δένδρο 194 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στο φύλο Actinobacteria. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι θέσεις με κενά ή απώλεια δεδομένων απαλοίφθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013). Η εικόνα 4 του φυλογενετικού δένδρου επισυνάπτεται σε ηλεκτρονική μορφή στο τέλος της διατριβής

115

Εικόνα 5: Φυλογενετικό δένδρο 169 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στο φύλο Firmicutes. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλαδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι θέσεις με κενά ή απώλεια δεδομένων απαλοίφθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013). Η εικόνα 5 του φυλογενετικού δένδρου επισυνάπτεται σε ηλεκτρονική μορφή στο τέλος της διατριβής

116

Εικόνα 6: Φυλογενετικό δένδρο 20 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στις ταξινομικές ομάδες των Chlamydiae/Verrucomicrobia, Chloroflexi, Cyanobacteria, Nitrospinae, Spirochaetes, Planctomycetes και Nitrospirae. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou and Nei, 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται δίπλα στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι ακατάληπτες θέσεις για κάθε ζευγάρι ακολουθιών αφαιρέθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013).

117

Εικόνα 7: Φυλογενετικό δένδρο 5 αμινοξικών αλληλουχιών ΝΑΤ οι οποίες ταυτοποιήθηκαν σε γονιδιώματα προκαρυωτικών οργανισμών που ανήκουν στο βασίλειο Archaea, φύλο Euryarchaeota, κλάση Halobacteria. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou et al., 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι ακατάληπτες θέσεις για κάθε ζευγάρι ακολουθιών αφαιρέθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013).

118

Εικόνα 8: Φυλογενετικό δένδρο 180 ταυτοποιημένων αμινοξικών αλληλουχιών ΝΑΤ οι οποίες αντιπροσωπεύουν οργανισμούς από όλα τα φύλα προκαρυωτών που αναλύθηκαν στην παρούσα διατριβή. Εφαρμόστηκε η μέθοδος της "Ένωσης Γειτόνων" (Νeighbor Joining) (Saitou et al., 1987) και απεικονίζεται το βέλτιστο δένδρο χωρίς ρίζα, το οποίο έχει συμπτυχθεί (condensed) ώστε να παρουσιάζεται μόνο η τοπολογία και όχι τα αντίστοιχα μήκη των κλάδων με τιμές bootsrap <50%. Το ποσοστό των επαναλαμβανόμενων δένδρων, στα οποία τα συσχετιζόμενα taxa ομαδοποιούνται (clustering) σύμφωνα με το bootstrap test 1000 επαναλήψεων με τιμές >50%, εμφανίζεται στους κόμβους των κλάδων (Felsenstein et al., 1985). Οι εξελικτικές αποστάσεις υπολογίστηκαν σύμφωνα με το πρότυπο αντικατάστασης JTT (Jones et al., 1992). Κατά τη στοίχιση των αλληλουχιών, όλες οι ακατάληπτες θέσεις για κάθε ζευγάρι ακολουθιών αφαιρέθηκαν. Η ανάλυση πραγματοποιήθηκε με το πρόγραμμα MEGA6 (Tamura et al., 2013). Η εικόνα 8 του φυλογενετικού δένδρου επισυνάπτεται σε ηλεκτρονική μορφή στο τέλος της διατριβής.

119

Κλείνοντας το Κεφάλαιο 3, αναφέρεται ότι επιχειρήθηκε ακόμη εφαρμογή της μεθοδολογίας που περιγράφεται στην Ενότητα 2.2.4, προκειμένου να διερευνηθεί η πιθανότητα κάποιες από τις ταυτοποιημένες αλληλουχίες ΝΑΤ να έχουν εισαχθεί στα αντίστοιχα προκαρυωτικά γονιδιώματα μέσω οριζόντιας μεταφοράς γονιδίων μεταξύ οργανισμών που ανήκουν σε διαφορετικές ταξινομικές ομάδες. Κατά τη διαδικασία αυτή επήλθε εξοικείωση με σχετικά υπολογιστικά εργαλεία, όπως το Phylip και ειδικά το πρόγραμμα HGT-Detection (Boc et al., 2010) της διαδικτυακής πλατφόρμας φυλογενετικής ανάλυσης T-REX (http://www.trex.uqam.ca/, Boc et al., 2012). Τα πειράματα ήταν προκαταρκτικά και δεν επέτρεψαν εξαγωγή συμπερασμάτων. Ωστόσο, η τεχνογνωσία που αναπτύχθηκε ήταν σημαντική για τη διενέργεια μελλοντικών μελετών προς αυτήν την πολύ ενδιαφέρουσα κατεύθυνση.

120

ΚΕΦΑΛΑΙΟ 4: ΣΥΖΗΤΗΣΗ

Οι μικροοργανισμοί αποτελούν αναπόσπαστο μέρος του φαινομένου της ζωής. Η βιολογική δραστηριότητά τους επηρεάζει σε σημαντικό βαθμό τόσο τον άνθρωπο όσο και το περιβάλλον. Ζώντας ελεύθεροι, συμβιωτικά ή παρασιτικά, αποτελούν άρρηκτο κρίκο των τροφικών πλεγμάτων, καταλαμβάνοντας κάθε πιθανό ενδιαίτημα, ακόμη και το πιο ακραίο. Ιδιαίτερα τα βακτήρια (Bacteria) συμβαδίζουν με την ανθρώπινη ιστορία, αφού είτε συμβιώνουν με τον άνθρωπο (π.χ. E. coli στο έντερο), είτε είναι οι κύριοι παθογόνοι παράγοντες (π.χ. M. tuberculosis που προκαλεί τη φυματίωση) για ένα μεγάλο αριθμό ανθρώπινων ασθενειών, είτε αξιοποιούνται στην παρασκευή τροφίμων και - πιο πρόσφατα - στη φαρμακευτική, περιβαλλοντική, χημική και διατροφική βιοτεχνολογία. Τέτοιου είδους αλληλεπιδράσεις εμφανίζουν όμως τα βακτήρια και με τους υπόλοιπους ζωντανούς οργανισμούς (ζώα, φυτά, άλλους μικροοργανισμούς). Όλα τα παραπάνω, σε συνδυασμό με τις ιδιαίτερες βιολογικές λειτουργίες και τις χαρακτηριστικές μορφολογίες των βακτηρίων, δικαιολογούν το γεγονός ότι αποτέλεσαν από πολύ νωρίς αντικείμενα εκτενούς επιστημονικής μελέτης και κατατάχθηκαν σε ξεχωριστό βασίλειο μεταξύ των ζωντανών οργανισμών. Από την άλλη πλευρά, τα αρχαία (Archaea) θεωρείται ότι μπορεί να είναι εξελικτικά ενδιάμεσοι προκαρυωτικών και ευκαρυωτικών οργανισμών. Συγκεντρώνουν και αυτά ένα σύνολο ιδιαίτερων χαρακτηριστικών, ώστε να ταξινομούνται σε διακριτό βασίλειο των προκαρυωτών. Οι γνώσεις για τα αρχαία είναι λιγότερες σε σχέση με τα βακτήρια, οπότε η μελέτη τους εμφανίζει ξεχωριστό ενδιαφέρον (Woese et al., 1990).

Όλοι οι μικροοργανισμοί εκτίθενται διαρκώς στις βλαβερές επιδράσεις του χημικού περιβάλλοντός τους, αλλά ανταπεξέρχονται χάρις στην προσαρμοστική ευελιξία των κυτταρικών μεταβολικών μονοπατιών τους. Δυνητικά τοξικές ξενοβιοτικές ουσίες μπορεί να είναι είτε τα φυσικά μεταβολικά προϊόντα άλλων οργανισμών, είτε συνθετικά μόρια ανθρωπογενούς προέλευσης, είτε ακόμη και προϊόντα φυσικών αβιοτικών διεργασιών του περιβάλλοντος. Μέσω του ξενοβιοτικού μεταβολισμού, οι μικροοργανισμοί επιτυγχάνουν αποτοξικοποίηση ή ακόμη και αξιοποίηση των ουσιών αυτών, γι' αυτό και σήμερα πολλοί μικροοργανισμοί διερευνώνται για τη χρησιμότητά τους στη διαχείριση ρύπων και την περιβαλλοντική βιοαποκατάσταση.

121

Οι δε εξελίξεις στη Γονιδιωματική έχουν διευρύνει σημαντικά τις δυνατότητες χαρακτηρισμού νέων ενζύμων του ξενοβιοτικού μεταβολισμού σε ολόκληρο το φάσμα των μικροοργανισμών (Garefalaki et al., 2015).

Στον παρόν πόνημα, το ενδιαφέρον της έρευνας εστιάστηκε στην ανάκτηση, ταυτοποίηση (annotation), φυλογενετική ανάλυση και συγκριτική παρουσίαση των γονιδίων που κωδικοποιούν τα ένζυμα Ν-ακετυλοτρανσφεράσες των αρυλαμινών (ΝΑΤ) στους προκαρυώτες, πραγματοποιώντας διεξοδική υπολογιστική επισκόπηση των αλληλουχημένων γονιδιωμάτων περίπου 30.000 βακτηρίων και αρχαίων που είναι προσβάσιμα στη βάση δεδομένων Entrez-Genome και αντιπροσωπεύουν όλες τις βασικές ταξινομικές ομάδες των δύο βασιλείων.

Τα ένζυμα ΝΑΤ εμπλέκονται στον ξενοβιοτικό μεταβολισμό, καταλύοντας αντιδράσεις σύζευξης της αμινομάδας αρωματικών αμινών και υδραζινών με ακυλομάδες. Η αντίδραση συνήθως οδηγεί στην αποτοξικοποίηση δυνητικά βλαπτικών ξενοβιοτικών ουσιών, ωστόσο κάποια ένζυμα ΝΑΤ ακτινοβακτηρίων φαίνεται να εμπλέκονται επίσης σε βιοσυνθετικά μονοπάτια αντιβιοτικών (Pompeo et al., 2002) ή σε καταβολικά μονοπάτια της χοληστερόλης (Sim et al., 2012). Στον άνθρωπο, ο βιολογικός ρόλος των πολυμορφικών γονιδίων ΝΑΤ και των αντίστοιχων ισοενζύμων είναι καλά τεκμηριωμένος σε φαρμακογονιδιωματικές μελέτες, ενώ έχει συσχετιστεί ακόμη με διάφορα είδη καρκίνων, όπως της ουροδόχου κύστης (Johns and Houlston, 2000), του παχέος εντέρου (Borlak and Reamon-Buettner, 2006), του μαστού (Ambrosone et al., 2008) και των πνευμόνων (Borlak and Reamon-Buettner, 2006). Επίσης, σε παθογόνους μικροοργανισμούς, όπως το Μ. tuberculosis που προκαλεί φυματίωση, τα ένζυμα ΝΑΤ διερευνώνται ως δυνητικοί φαρμακευτικοί στόχοι για αλληλεπίδραση με αναστολείς (Sim et al., 2012). Σε αντίθεση με τη φαρμακολογική σημασία των ενζύμων ΝΑΤ, λίγα είναι γνωστά για το βιολογικό ρόλο τους σε μη παθογόνα προκαρυωτικά είδη που διαβιούν ελεύθερα στο φυσικό περιβάλλον ή συμμετέχουν σε συμβιωτικές δομές. Με δεδομένη την υπερσυσσώρευση αλληλουχημένων προκαρυωτικών γονιδιωμάτων στις δημόσιες βάσεις δεδομένων και τη ραγδαία εξέλιξη των διαθέσιμων βιοπληροφορικών εργαλείων, στο πλαίσιο της παρούσας μελέτης κρίθηκε χρήσιμη η in silico συγκριτική ανάλυση των αλληλουχιών ΝΑΤ που ανακτήθηκαν από τις βάσεις δεδομένων, ως ένα βήμα προς την καλύτερη κατανόηση των πιθανών βιολογικών λειτουργιών τους και τον καλύτερο σχεδιασμό μελλοντικών επιστημονικών ερευνών.

122

Συνολικά ανακτήθηκαν και ταυτοποιήθηκαν 3014 γονίδια ΝΑΤ από γονιδιώματα βακτηρίων και αρχαίων, συμπεριλαμβανομένων παθογόνων και μη παθογόνων μικροοργανισμών αντιπροσωπευτικών ενός μεγάλου εύρος ενδιαιτημάτων και ταξινομικών ομάδων. Στις παραγράφους που ακολουθούν, όλες οι πληροφορίες αναφορικά προς τους διαφορετικούς μικροοργανισμούς που περιγράφονται προέρχονται από την ιδιαίτερη σελίδα κάθε είδους στη βάση δεδομένων Entrez-Genome, εκτός αν προσδιορίζεται κάποια άλλη βιβλιογραφική πηγή.

Η επισκόπηση των αλληλουχημένων μικροοργανισμών από την τάξη Alpha- proteobacteria (φύλο Proteobacteria) κατέδειξε την ύπαρξη ενός μόνο γονιδίου ΝΑΤ στην πλειονότητα των γονιδιωμάτων, με εξαίρεση τα είδη Agromonas oligotrophica, Phenylobacterium zucineum και Novosphingobium aromaticivorans, καθώς και ορισμένα μόνο στελέχη των Bradyrhizobium sp. και Mesorhizobium loti που διαθέτουν δύο παράλογα γονίδια ΝΑΤ. Αρκετά Alpha-proteobacteria είναι συμβιωτικά (π.χ. αζωτοδεσμευτικά) βακτήρια που απαντούν στις ρίζες των φυτών. Είναι γνωστό ότι τα φυτά παράγουν δευτερογενείς μεταβολίτες με αντιμικροβιακή δράση, προκειμένου να προστατευτούν από παθογόνους μικροοργανισμούς που μπορεί να εισβάλουν στους ιστούς τους από το έδαφος (Dixon, 2001). Ορισμένοι φυτοπαθογόνοι μύκητες του γένους Fusarium, οι οποίοι προσβάλλουν τα σιτηρά, έχει δειχθεί ότι χρησιμοποιούν ένα από τα πολλά ισοένζυμα ΝΑΤ που διαθέτουν για να ανταπεξέρχονται (μέσω αποτοξικοποίησης) της βλαπτικής επίδρασης τέτοιων ξενοβιοτικών ουσιών (Glenn and Bacon, 2009). Επομένως, η ύπαρξη περισσότερων του ενός ισοενζύμων ΝΑΤ σε συμβιωτικά βακτήρια των φυτών είναι δυνατό να χρησιμεύει για την επιβίωση του ωφέλιμου μικροοργανισμού εντός του ριζικού συστήματος του φυτού στο οποίο διαβιεί. Άλλα Alpha-proteobacteria με ένζυμα ΝΑΤ εμπλέκονται σε φυσικούς βιογεωχημικούς κύκλους διάσπασης οργανικών ουσιών (π.χ. Caulobacter crescentus, Methylobacterium extorquens, Methylopila sp.) ή μεταβολίζουν τοξικούς ρύπους ανθρωπογενούς προέλευσης. Για παράδειγμα, το Novosphingobium aromaticivorans, που διαθέτει δύο ισοένζυμα ΝΑΤ, είναι γνωστό ότι διασπά πολυκυκλικές αρωματικές ενώσεις, ενώ το Sphingomonas wittichii διαβιεί σε υδάτινα περιβάλλοντα που έχουν ρυπανθεί από βιομηχανικά λύματα που περιέχουν διβενζο-π-διοξίνες και διβενζοφουράνια, τα οποία και χρησιμοποιεί ως πηγή άνθρακα. Γνωρίζοντας τη συμβολή των ενζύμων ΝΑΤ στον ξενοβιοτικό μεταβολισμό, θα είχε ενδιαφέρον από περιβαλλοντικής άποψης η πειραματική διερεύνηση του ρόλου τους στα βακτηριακά καταβολικά μονοπάτια βιοδιάσπασης διαφόρων κατηγοριών τοξικών χημικών.

123

Η επισκόπηση των αλληλουχημένων μικροοργανισμών από την τάξη Beta- proteobacteria (φύλο Proteobacteria) κατέδειξε την ύπαρξη ενός μόνο γονιδίου ΝΑΤ ανά γονιδίωμα. Στα Beta-proteobacteria περιλαμβάνονται αρκετά δυνητικά παθογόνα βακτήρια, όπως π.χ. παθογόνα στελέχη των ειδών Burkholderia cenocepacia, Achromobacter xylosoxidans και Ralstonia pickettii, τα οποία προκαλούν ως επί το πλείστον λοιμώξεις του αναπνευστικού σε ανοσοκατετεσταλμένους ασθενείς και ασθενείς με κυστική ίνωση. Τα ένζυμα ΝΑΤ τέτοιων μικροοργανισμών μπορεί να επηρεάζουν την ανταπόκριση ασθενών σε θεραπείες με αντιμικροβιακά φάρμακα (όπως π.χ. οι σουλφοναμίδες), όπως γνωρίζουμε ότι συμβαίνει για την ισονιαζίδη στην περίπτωση του μυκοβακτηρίου της φυματίωσης (Abuhammad et al., 2011). Επιπλέον, στα Beta-proteobacteria περιλαμβάνονται πολλά είδη με ικανότητες βιοαποικοδόμησης (π.χ. Burkholderia), συμπεριλαμβανομένων τοξικών ουσιών όπως βιομηχανικοί ρύποι (π.χ. Methyloversatilis universalis) ή βαρέα μέταλλα (π.χ. Cupriavidus metallidurans). Τέτοιοι μικροοργανισμοί είναι δυνητικά αξιοποιήσιμοι σε εφαρμογές περιβαλλοντικής βιοαποκατάστασης και, ως ένζυμα του ξενοβιοτικού μεταβολισμού, οι πρωτεϊνες ΝΑΤ ενδεχομένως χρήζουν περαιτέρω λειτουργικής μελέτης.

Η επισκόπηση των αλληλουχημένων μικροοργανισμών από την τάξη Gamma- proteobacteria (φύλο Proteobacteria) κατέδειξε την ύπαρξη ενός γονιδίου ΝΑΤ στη συντριπτική πλειοψηφία των γονιδιωμάτων. Αξιοσημείωτες εξαιρέσεις αποτελούν λίγα από τα πάμπολλα αλληλουχημένα είδη/στελέχη του Enterobacter, αρκετά στελέχη των ειδών Klebsiella oxytoca, καθώς και τα είδη Klebsiella michiganensis και Raoultella ornithinolytica, τα οποία όλα φέρουν δύο παράλογα γονίδια ΝΑΤ στο γονιδίωμά τους. Στα Gamma-proteobacteria, γονίδια NAT βρέθηκαν κυρίως σε παθογόνα εντεροβακτήρια που ευθύνονται για σοβαρές διατροφικές ή άλλες λοιμώξεις, όπως παθογόνα είδη/στελέχη από τα γένη Enterobacter, Escherichia, Klebsiella, Salmonella, Serratia και Shigella. Ορισμένα εντεροβακτήρια έχουν παίξει σημαντικό ρόλο στην έρευνα για τις πρωτεϊνες ΝΑΤ, τόσο στους προκαρυωτικούς, όσο και στους ευκαρυωτικούς οργανισμούς ως μοντέλα. Στα στελέχη της Salmonella typhimurium (TA98 and XG1024) τα οποία χρησιμοποιούνται στο γνωστό Ames Test έγινε η πρώτη ταυτοποίηση πρωτεϊνών ΝΑΤ σε βακτήρια (McCoy et al., 1983).

124

Η Salmonella typhimurium αποτέλεσε τον οργανισμό μοντέλο και για μεταγενέστερες μελέτες που οδήγησαν μεταξύ άλλων στην αποκάλυψη του καταλυτικού μηχανισμού (Sinclair et al., 2000) και του τρόπου ελέγχου της επιλεκτικότητας για υποστρώματα (Mushtaq et all., 2002) των ενζύμων ΝΑΤ. Κάποια Gamma-proteobacteria με γονίδια ΝΑΤ αποτελούν απλώς μέλη της φυσιολογικής μικροχλωρίδας του ανθρώπινου πεπτικού συστήματος, όπως μη παθογόνα στελέχη των ειδών Escherichia coli, Yokenella regensburgei και Enterobacter cancerogenus. Επιπλέον, γονίδια ΝΑΤ βρέθηκαν και σε άλλα παθογόνα είδη που προκαλούν βαρειές ενδονοσοκομειακές ή άλλες λοιμώξεις,

όπως τα είδη Pseudomonas aeruginosa, Cronobacter malonaticus, Stenotrophomonas maltophilia, Vibrio parahaemolyticus κ.ά., όπως και σε στελέχη του είδους Legionella pneumophila, τα οποία είναι γνωστά για την πρόκληση σοβαρών δυσλειτουργιών στο αναπνευστικό που μπορούν να οδηγήσουν έως το θάνατο και είναι γνωστές ως νόσος των λεγεωνάριων.

Πέρα από τα βακτήρια με κλινική σημασία, στα γ-πρωτεοβακτήρια βρέθηκαν γονίδια ΝΑΤ και σε στελέχη ειδών με περιβαλλοντική σημασία. Για παράδειγμα, το Pseudomonas fluorescens, το οποίο ζει σε όλα τα πιθανά ενδιαιτήματα (έδαφος, νερό και σαπροφυτικά πάνω σε φυτά) και αποδομεί διάφορους οργανικούς ρύπους, θα μπορούσε να χρησιμοποιηθεί ως οργανισμός-μοντέλο για μελέτες του ξενοβιοτικού μεταβολισμού από τα ένζυμα ΝΑΤ, με απώτερο σκοπό την πρακτική εφαρμογή στην περιβαλλοντική βιοαποκατάσταση. Ένα σπάνιο μεταβολικό φαινόμενο εντοπίζεται στα είδη του γένους Methylomonas, τα οποία έχουν την ικανότητα να χρησιμοποιούν ως πηγή άνθρακα και ενέργειας το μεθάνιο ή τη μεθανόλη, γεγονός που τα καθιστά χρήσιμα σε μελέτες των προσαρμοστικών μηχανισμών που τους επιτρέπουν τη διαβίωση σε τέτοια ιδιαίτερα περιβάλλοντα. Ακόμη, τα είδη του γένους Alcanivorax, όπως το Alcanivorax dieselolei, αποικοδομούν αλκάνια και είναι χρήσιμα στον βιολογικό καθαρισμό υδάτινων οικοσυστημάτων από πετρελαιοειδή (Liu and Shao 2005).

Η επισκόπηση των αλληλουχημένων μικροοργανισμών από το φύλο Actinobacteria κατέδειξε μεγάλη ετερογένεια ως προς την κατανομή γονιδίων ΝΑΤ ανά γονιδίωμα, π.χ. με τα είδη των μυκοβακτηρίων να φέρουν μόνο ένα γονίδιο ΝΑΤ, ενώ αντίθετα εκπροσώπους άλλων γενών (Actinopolyspora, Amycolatopsis, Catenulispora) να φέρουν έως και τέσσερα ή, στην περίπτωση του είδους Stackebrandtia nassauensis, ακόμη και πέντε γονίδια ΝΑΤ.

125

Αξιοσημείωτη είναι η διαφοροποίηση στον αριθμό παράλογων γονιδίων ΝΑΤ ανά γονιδίωμα, ακόμη και σε εκπροσώπους του ίδιου γένους. Για παράδειγμα, το ακτινοβακτήριο Actinopolyspora halophila DSM 43834 φέρει μόνο ένα γονίδιο ΝΑΤ, ενώ το Actinopolyspora mortivallis DSM 44261 φερει τέσσερα παράλογα γονίδια ΝΑΤ. Αντίστοιχη ποικιλομορφία παρατηρείται και σε εκπροσώπους των γενών Streptomyces και Amycolatopsis (μέχρι 3 και 4 παράλογα γονίδια ΝΑΤ, αντίστοιχα).

Στα ακτινοβακτήρια, τα περισσότερα είδη με γονίδια ΝΑΤ είναι γνωστά για τις μεταδιδόμενες πνευμονικές παθήσεις που προκαλούν. Το είδος Mycobacterium tuberculosis προκαλεί τη φυματίωση στον άνθρωπο, ενώ άλλα είδη του γένους Mycobacterium, όπως τα Mycobacterium avium και Mycobacterium intracellulare, προκαλούν πνευμονοπάθειες σε πτηνά και εν δυνάμει στον άνθρωπο, ιδιαίτερα σε ανοσοκατεσταλμένους ασθενείς και κυρίως πάσχοντες από AIDS. Το Mycobacterium bovis προκαλεί τη φυματίωση στα βοοειδή, μπορεί όμως να προσβάλει και τον άνθρωπο μέσω μη παστεριωμένου μολυσμένου γάλακτος. Σήμερα, είναι γνωστό ότι το γονίδιο ΝΑΤ του Mycobacterium tuberculosis εδράζεται σε οπερόνιο που φέρει γονίδια απαραίτητα για τον καταβολισμό της χοληστερόλης, η οποία αποτελεί υποχρεωτική πηγή ενέργειας όσο το παθογόνο διαβιεί μέσα στα μακροφάγα του ξενιστή του (Sim et al., 2008). Επιπλέον, η διαγραφή του γονιδίου ΝΑΤ από το μυκοβακτηριακό γονιδίωμα οδήγησε σε ανώμαλη βιοσύνθεση της στοιβάδας των μυκολικών οξέων του κυτταρικού τοιχώματος (Bhakta et al., 2004).

Μεγάλης φαρμακευτικής σημασίας είναι το ακτινοβακτήριο Amycolatopsis mediterranei, το οποίο διαθέτει το μεταβολικό μονοπάτι βιοσύνθεσης του αντιβιοτικού ριφαμυκίνη. Ανάλογης σημασίας είναι και κάποια είδη του γένους Streptomyces, από τα οποία παρασκευάζονται διάφορα αντιβιοτικά, όπως για παράδειγμα η στρεπτομυκίνη από το Streptomyces griseus. Οι στρεπτομύκητες χρησιμοποιούνται ευρέως και στη βιοτεχνολογική βιομηχανία, μια και έχουν τη δυνατότητα να βιοσυνθέτουν πληθώρα χρήσιμων δευτερογενών μεταβολιτών. Είναι αξιοπρόσεκτο ότι τα πολλαπλά παράλογα γονίδια ΝΑΤ απαντούν κυρίως στα γονιδιώματα ακτινοβακτηρίων που διαβιούν ελεύθερα και διαθέτουν σύνθετα βιοσυνθετικά μονοπάτια δευτερογενούς μεταβολισμού. Μάλιστα, είναι γνωστό ότι το γονίδιο NAT2 του Amycolatopsis mediterranei αποτελεί τμήμα της συστοιχίας των γονιδίων που συμμετέχουν στο σχηματισμό του αντιβιοτικού ριφαμυκίνη (Pompeo et al., 2002).

126

Αυτές οι παρατηρήσεις υποστηρίζουν τη διενέργεια μελετών σχετικά με τη λειτουργία των γονιδίων ΝΑΤ στις συγκεκριμένες ομάδες οργανισμών, όπου πιστεύεται ότι μπορεί να διαδραματίζουν ρόλο στο δευτερογενή μεταβολισμό (Karagianni et al., 2015).

Πολλά ακτινοβακτήρια (π.χ. Rhodococcus) έχουν επίσης ικανότητες βιοαποικοδόμησης. Τέλος, τα είδη Actinopolyspora halophila και Acidimicrobidae bacterium αναπτύσσονται σε ακραία περιβάλλοντα. Το πρώτο διαβιεί σε περιβάλλοντα με υψηλή αλατότητα και το δεύτερο σε θερμά και όξινα περιβάλλοντα με ιδανικές συνθήκες ανάπτυξης σε θερμοκρασία 45-50oC και pH=2. Σε συνδυασμό με τις όλο και αυξανόμενες βιβλιογραφικές ενδείξεις (π.χ. Mycobacteria, Amycolatopsis), η παρούσα γονιδιωματική επισκόπηση υποδεικνύει ότι τα ένζυμα ΝΑΤ αξίζει να μελετηθούν διεξοδικότερα στα ακτινοβακτήρια, όπου είναι πιθανό να παίρνουν μέρος σε σημαντικές και ίσως άγνωστες ακόμη κυτταρικές λειτουργίες που απομένει να αποδειχθούν πειραματικά.

Η επισκόπηση των αλληλουχημένων μικροοργανισμών από το φύλο Firmicutes κατέδειξε επίσης ετερογένεια ως προς την κατανομή γονιδίων ΝΑΤ ανά γονιδίωμα, π.χ. με τα είδη των σταφυλοκόκκων να φέρουν μόνο ένα γονίδιο ΝΑΤ, ενώ αντίθετα πολλούς εκπροσώπους των βακίλλων να φέρουν δύο ή τρία παράλογα γονίδια ΝΑΤ. Ακραίο παράδειγμα αποτελεί το είδος Bacillus thuringiensis, όπου το στέλεχος B. thuringiensis serovar andalousiensis BGSC 4AW1 φέρει 3 γονίδια ΝΑΤ, το στέλεχος B. thuringiensis serovar sotto str. T04001 φέρει 4 γονίδια ΝΑΤ, ενώ το στέλεχος B. thuringiensis serovar morrisoni strain HD 600 φέρει 7 γονίδια ΝΑΤ. Τα τρία παράλογα γονίδια ΝΑΤ των ειδών Bacillus anthracis (που προκαλεί στον άνθρωπο την ασθένεια του άνθρακα) και Bacillus cereus (που είναι υπεύθυνο για τροφικές δηλητηριάσεις), κωδικοποιούν ένζυμα που έχουν μελετηθεί βιοχημικά και κρυσταλλογραφικά στο παρελθόν (Pluvinage et al., 2007, Kubiak et al., 2011, Pluvinage et al., 2011). Καλά μελετημένο είναι επίσης το παθογόνο είδος Staphylococcus aureus, το οποίο προκαλεί σοβαρές δερματικές λοιμώξεις στον άνθρωπο που μπορεί να οδηγήσουν ακόμη και στο θάνατο. Σε βιοτεχνολογικές εφαρμογές για βελτίωση της γεωργικής παραγωγής έχει διερευνηθεί η χρήση των ειδών Bacillus thuringiensis και Lysinibacillus sphaericus, καθώς παράγουν τοξίνες που θανατώνουν παρασιτικά έντομα των φυτών. Ενδιαφέρον για περιβαλλοντικές μελέτες εμφανίζει το είδος Desulfitobacterium hafniense, το οποίο έχει την ικανότητα να αποικοδομεί πολυχλωριωμένα διφαινύλια, τα οποία ως βιομηχανικοί ρύποι προκαλούν βιοσυσσώρευση.

127

Μεγάλη φαρμακευτική σημασία έχει το είδος Brevibacillus brevis που βιοσυνθέτει τα αντιβιοτικά τυρομισίνη και γραμισιδίνη. Ιδιαίτερους, και από εξελικτικής άποψης σπάνιους προσαρμοστικούς μηχανισμούς που τους επιτρέπει τη διαβίωση σε ακραία περιβάλλοντα, εμφανίζουν τα είδη Exiguobacterium sibiricum και Bacillus subtilis.

Στα φύλα των υπολοίπων βακτηρίων ανακτήθηκε και ταυτοποιήθηκε μικρός αριθμός γονιδίων ΝΑΤ. Όλα τα είδη βρέθηκαν να φέρουν μόνο ένα γονδίο ΝΑΤ. Είδη από τα γένη Oscillatoria και Synechococcus (φύλο Chloroflexi) είναι γνωστό ότι συμβάλλουν στη βιοαποικοδόμηση των υγρών αποβλήτων των αποστακτηρίων (Amores-Sanchez et al., 2015) και γενικότερα των υγρών βιομηχανικών αποβλήτων (Dubey et all., 2011). Τα είδη Nitrospina gracilis (φύλο Nitrospinae) και Nitrospira defluvii (φύλο Nitrospirae) έχουν την ικανότητα να οξειδώνουν νιτρώδη ιόντα συμβάλλοντας σημαντικά στην ολοκλήρωση του βιογεωχημικού κύκλου του αζώτου. Το οξεόφιλο είδος Methylacidiphilum infernorum (Chlamydiae/Verrucomicrobia Group) χρησιμοποιεί ως πηγή άνθρακα το μεθάνιο, ενώ το είδος Opitutus terrae της ίδιας ταξινομικής ομάδας έχει διαπιστωθεί ότι αναπτύσσεται σε συνθήκες ανοξίας. Οξεόφιλο είναι επίσης το είδος Singulisphaera acidiphila (φύλο Planctomycetes), ενώ το Treponema primitia (φύλο Spirochaetes) παρασιτεί στο πεπτικό σύστημα των τερμιτών.

Στα Archaea προσδιορίστηκαν πέντε μόνο είδη, σε καθένα από τα οποία ταυτοποιήθηκε μόνο ένα γονίδιο ΝΑΤ. Το κοινό χαρακτηριστικό των ειδών αυτών είναι ότι είναι όλα αλόφιλα, δηλαδή αναπτύσσονται σε περιβάλλοντα με υψηλή αλατότητα. Το Haladaptatus paucihalophilus έχει την ικανότητα προσαρμογής σε ευρύ φάσμα συγκεντρώσεων άλατος. Το Halophilic archaeon διαβιεί στις εξαιρετικά χαμηλές θερμοκρασίες των υπεράλμυρων νερών της Βαθιάς Λίμνης (Deep Lake) στην ανταρκτική, ενώ τα είδη Halovivax ruber, Salinarchaeum sp. και Halogeometricum borinquense απαιτούν από 1,5 έως 2,5 Μ NaCl για την ανάπτυξη τους.

Αξίζει να σημειωθεί ότι σημαντική δυσκολία στην ταυτοποίηση (annotation) του πλήρους ανοιχτού πλαισίου ανάγνωσης των γονιδίων ΝΑΤ στους προκαρυώτες αποτέλεσε το γεγονός ότι στη συγκεκριμένη επικράτεια της ζωής είναι αρκετά συχνές οι αποκλίσεις από το συμβατικό γενετικό κώδικα. Για παράδειγμα, παρατηρήθηκε ότι το κωδικώνιο έναρξης αρκετών γονιδίων ΝΑΤ δεν ήταν το συμβατικό ATG, αλλά το TTG ή το GTG. Οι αποκλίσεις αυτές είναι συνηθισμένες στα βακτήρια και απαντούν στο 19% (7,8% TTG, 11,6% GTG) των βακτηριακών γονιδίων.

128

Σχετίζονται δε με την περιεκτικότητα του βακτηριακού γονιδιώματος σε βάσεις GC, καθώς και με τον αριθμό των ψευδογονιδίων που περιέχει. Όσο πιο πλούσιο είναι το γονιδίωμα σε βάσεις GC και όσο μεγαλύτερος ο αριθμός των ψευδογονιδίων που περιέχονται σε αυτό, τόσο μεγαλύτερη η πιθανότητα εμφάνισης των συγκεκριμένων αποκλίσεων (Villegas and Kropinski, 2008). Εξελικτικά, οι αλλαγές αυτές φαίνεται να έχουν προκύψει μεταγενέστερα της εδραίωσης του συμβατικού γενετικού κώδικα, ως αποτέλεσμα μεταμεταφραστικών τροποποιήσεων στο tRNA (Knight et al., 2001). Τέτοιες αποκλίσεις παρατηρήθηκαν σε γονιδιώματα α- και β-πρωτεοβακτηρίων, αλλά όχι γ-πρωτεοβακτηρίων. Πιο κοινές ήταν τέτοιου είδους αποκλίσεις στα κωδικώνια έναρξης των γονιδίων ΝΑΤ των ακτινοβακτηρίων, όπου εκτός από το ATG εμφανίζονται και κωδικόνια έναρξης CTC, GTG, CTG, TTC και ACG. Η πλαστικότητα αυτή που εμφανίζεται στα γονιδιώματα των ακτινοβακτηρίων πιθανόν οφείλεται στην ύπαρξη προσαρμοστικών μηχανισμών που ενεργοποιούνται, ώστε ο οργανισμός να επιβιώνει σε διαφορετικά περιβάλλοντα και να αντιμετωπίζει επιτυχώς τόσο τον ενδοειδικό όσο και τον διαειδικό ανταγωνισμό. Στους Firmicutes, τα γονίδια ΝΑΤ παρουσίασαν σημαντική διακύμανση στο μήκος του ανοιχτού πλαισίου ανάγνωσης (από 654 έως 840 νουκλεοτίδια), ενώ τα κωδικόνια έναρξης ήταν, εκτός από το ATG, τα GTG και TTG. Τέλος, στα γονίδια ΝΑΤ των αρχαίων, μόνο το ανοιχτό πλαίσιο ανάγνωσης που ταυτοποιήθηκε στο Halovivax ruber είχε ως κωδικώνιο έναρξης το GTG, αντί του συμβατικού ATG.

Όσον αφορά τη φυλογενετική ανάλυση των πρωτοταγών αλληλουχιών των πρωτεϊνών ΝΑΤ, αυτή διενεργήθηκε με την εδραιωμένη μέθοδο αποστάσεων της "Ένωσης Γειτόνων" (Neighbor Joining) (Saitou and Nei, 1987). Κατασκευάστηκαν τα φυλογενετικά δένδρα ανά ευρεία ταξινομική ομάδα (βασίλειο, φύλο ή τάξη), όπως παρουσιάζονται στα αποτελέσματα. Τα γονίδια ΝΑΤ φαίνεται να εμφανίζονται νωρίς στη εξέλιξη των προκαρυωτών και να διαφοροποιούνται κατά τη διάρκειά της, ενδεχομένως οδηγώντας σε αντίστοιχη λειτουργική διαφοροποίηση των ενζύμων που κωδικοποιούν. Η ομαδοποίηση (clustering) των αλληλουχιών ΝΑΤ γενικώς δεν φαίνεται να αποκλίνει από την συναινετική επιστημονική ταξινόμηση των αντίστοιχων ειδών στα οποία απαντούν. Ωστόσο, έχει αξία να διερευνηθεί το ενδεχόμενο σε κάποιες περιπτώσεις να έχει πραγματοποιηθεί οριζόντια μεταφορά γονιδίων μεταξύ ταξινομικά απομακρυσμένων προκαρυωτών. Η αρχική εξοικείωση με τα αντίστοιχα υπολογιστικά εργαλεία δεν οδήγησε σε συγκεκριμένα συμπεράσματα, αναμένεται όμως να επιτρέψει περισσότερο διεξοδική μελέτη στο μέλλον.

129

Μία ακόμη ενδιαφέρουσα ερευνητική προοπτική, με αξιοποίηση των δεδομένων που παράχθηκαν από τη γονιδιωματική επισκόπηση της παρούσας διατριβής, αφορά στην πειραματική διερεύνηση για προσδιορισμό πιθανών οπερονίων στα οποία μπορεί να εδράζονται γονίδια ΝΑΤ. Τέτοια οργάνωση των γονιδίων ΝΑΤ είναι πιθανότερο να βρεθεί σε γονιδιώματα ακτινοβακτηρίων, όπου υπάρχει βιβλιογραφικό προηγούμενο για τα είδη Mycobacterium tuberculosis και Amycolatopsis mediterranei. Επίσης, είναι ενδιαφέρον ότι πολλαπλά παράλογα γονίδια ΝΑΤ απαντούν σε γονιδιώματα ακτινοβακτηρίων (κυρίως στρεπτομυκήτων) με πληθώρα βιοσυνθετικών μονοπατιών του δευτερογενούς μεταβολισμού. Η βιοσύνθεση δευτερογενών μεταβολιτών (π.χ. αντιβιοτικών) περιλαμβάνει κυρίως την επιμύκηνση πολυκετιδικών αλυσίδων με χρήση ακυλο-CoA (κυρίως ακέτυλο- και μαλόνυλο-CoA) ως πρώτων υλών. Δεδομένου ότι τα ένζυμα ΝΑΤ χρησιμοποιούν διαφορετικά ακυλο-CoA ως υποστρώματα, αρκετοί επιστήμονες πιστεύουν ότι μπορεί να διαδραματίζουν σημαντικό ρόλο στη ρύθμιση της ενδοκυτταρικής ομοιόστασης αυτών των σημαντικών μορίων, ιδιαίτερα σε μικροοργανισμούς (βακτήρια, μύκητες) με πλούσιο βιοσυνθετικό δυναμικό (Sim et al., 2012, Karagianni et al., 2015).

Αντιστοίχως, η παρούσα μελέτη μπορεί να αποτελέσει τη βάση για τη διερεύνηση του δυναμικού προκαρυωτικών οργανισμών με γονίδια ΝΑΤ να βιοαποικοδομούν ξενοβιοτικές ουσίες οι οποίες είναι επικίνδυνες για την ανθρώπινη υγεία και το περιβάλλον, ενδεχομένως επιτρέποντας την ανάπτυξη νέων στρατηγικών για καλύτερη διαχείριση του περιβάλλοντος.

Τέλος, δεν είναι λίγες οι περιπτώσεις όπου έχει αλληλουχηθεί πληθώρα στελεχών του ίδιου βακτηριακού είδους, ειδικά σε περιπτώσεις μικροοργανισμών σημαντικού κλινικού ενδιαφέροντος. Τα γονίδια ΝΑΤ που ταυτοποιήθηκαν σε στελέχη τέτοιων οργανισμών μπορεί να εμφανίζουν πολυμορφικότητα, η οποία είναι ενδεχομένως ενδιαφέρον να συσχετιστεί με συγκεκριμένους χαρακτήρες αυτών των στελεχών, όπως π.χ. ανθεκτικότητα σε αντιβιοτικά (ισονιαζίδη, σουλφοναμίδες κ.ά.) ή άλλες κλινικές παραμέτρους. Αντιστοίχως, στην περίπτωση μη παθογόνων, ελεύθερα διαβιούντων βακτηρίων, αξίζει να διερευνηθεί αν η πολυμορφικότητα στα γονίδια ΝΑΤ μεταξύ διαφορετικών στελεχών του ίδιου είδους μπορεί να συσχετίζεται με το ιδιαίτερο βιοσυνθετικό ή βιοαποικοδομητικό δυναμικό τους.

130

Με την ραγδαία πρόοδο των προγραμμάτων αλληλούχησης μικροβιακών γονιδιωμάτων, η συγκριτική γονιδιωματική μελέτη συγκεκριμένων λειτουργικών χαρακτήρων αναμένεται να καθοδηγεί στο μέλλον όλο και περισσότερο τη μικροβιολογική έρευνα, με στόχο την κατανόηση της αξιοσημείωτης ποικιλίας ιδιοτήτων που έχουν οι μικροοργανισμοί της βιόσφαιρας και τη δυνητική αξιοποίησή τους στη βιοτεχνολογία, το περιβάλλον και την ιατρική.

131

ΒΙΒΛΙΟΓΡΑΦΙΑ

1.ΑΡΘΡΑ ΚΑΙ ΒΙΒΛΙΑ

Abuhammad A, Lowe ED, McDonough MA, Shaw Stewart PD, Kolek SA, Sim E, Garman EF, (2013). Structure of arylamine N-acetyltransferase from Mycobacterium tuberculosis determined by cross-seeding with the homologous protein from M. marinum: triumph over adversity. Acta Crystallogr D Biol Crystallogr. 2013 Aug;69(Pt 8):1433-46. doi: 10.1107/S0907444913015126. Abuhammad Areej, Lack Nathan, Schweichler Judith, Staunton David, Sim Robert B., Sim Edith (2011). Improvement of the expression and purification of Mycobacterium tuberculosis arylamine N-acetyltransferase (TBNAT) a potential target for novel anti-tubercular agents. Protein Expression and Purification 80 (2011) 246–252 _ 2011. Elsevier Inc. All rights reserved. doi:10.1016/j.pep.2011.06.021 Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. (1990). Basic local alignmentsearch tool. J Mol Biol 215: 403-410. Altschul SF, Madden TL, Schaffer AA, Zhang J, Zhang Z, Miller W, Lipman DJ. (1997). Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res 25: 3389-3402.

Ambrosone, C.B., Kropp, S., Yang, J., Yao, S., Shields, P.G. and Chang-Claude, J. (2008). Cigarette smoking, N-acetyltransferase 2 genotypes, and breast cancer risk: pooled analysis and metaanalysis. Cancer Epidemiol. Biomarkers Prev., 17(1), 15-26.

Ames, B.N., Durston, W.E., Yamasaki, E. and Lee, F.D. (1973).Carcinogens are mutagens: a simple test system combining liver homogenates for activation and bacteria for detection. Proc. Natl.Acad. Sci. USA, 70(8), 2281-2285.

Amores-Sanchez Isis, Del Carmen Terrón-Orellana María , E. González-Becerra Aldo, González- Díaz de Villegas Tania (2011). Potential of microalgae and cyanobacteria in bioremediation of distillery wastewaters. ICIDCA. Sobre los Derivados de la Caña de Azúcar, vol. 49, núm. 1, enero-abril, 2015, pp. 58-70. Available in: http://www.redalyc.org/articulo.oa?id=223136961010.

Anderton, M.C., Bhakta, S., Besra, G.S., Jeavons, P., Eltis, L.D. and Sim, E. (2006). Characterization of the putative operon containing arylamine N-acetyltransferase (nat) in Mycobacterium bovis. BCG. Mol. Microbiol., 59(1), 181-192.

Andres HH., Kolb HJ., Schreiber RJ., Weiss L. (1983). Characterization of the active site, substrate specificity and kinetic properties of acetyl-CoA:arylamine Nacetyltransferase from pigeon liver. Biochim. Biophys. Acta. 746:193-201.

Bacon Charles W., Hinton Dorothy M., Glenn Anthony E., Macías Francisco A., Marin David (2007).Interactions of Bacillus mojavensis and Fusarium verticillioides with a Benzoxazolinone (BOA) and its Transformation Product, APO. J.Chem Ecol (2007) 33:1885–1897. DOI:10.1007/s10886-007-9347-5.

Bairoch A., Apweiler R., Wu C.H., Barker W.C., Boeckmann B., Ferro S, Gasteiger E., Huang H., Lopez R., Magrane M., Martin M.J., Natale D.A., O'Donovan C., Redaschi N., Yeh L.S. (2005). Alpha Science International, Ltd The Universal Protein Resource (UniProt). Nucleic Acids Res 33: D154-159.

132

Ballester Pedro J., Westwood Isaac., Laurieri Nicola, Sim Edith. and Richards W. Graham (2010). Prospective virtual screening with Ultrafast Shape Recognition: the identification of novel inhibitors of arylamineN-acetyltransferases. J. R. Soc. Interface 2010 7,doi:10.1098/rsif.2009.0170

Barton G.J., Sternberg M.J. (1987). Evaluation and improvements in the automatic alignment of protein sequences. Protein Eng 1: 89-94.

Barton G.J. (1993). ALSCRIPT: a tool to format multiple sequence alignments. Protein Eng 6: 37-40. Benson D.A., Karsch-Mizrachi I., Lipman D.J., Ostell J., Sayers E.W. (2009). GenBank. Nucleic Acids Res 37: D26-31. Bhakta S., Besra, G.S. Upton A.M., Parish T., Sholto-Douglas-Vernon C., Gibson K.J.C., Knutton S.; Gordon S., daSilva R.P., Anderton, M.C. and Sim E. (2004). Arylamine N-acetyltransferase is required for synthesis of mycolic acids and complex lipids in Mycobacterium bovis BCG and represents a novel drug target. J.Exp. Med. The Rockefeller University Press. Volume 199, Number 9, May 3, 2004 1191–1199. doi /10.1084/jem.20031956.

Blum M., Grant D.M., McBride W., Heim M., Meyer UA. (1990). Human arylamine N- acetyltransferase genes: isolation, chromosomal localization, functional expression. DNA Cell Biol 9:193-203 (1990).

Boc Alix, Diallo Alpha Boubacar, and Makarenkov Vladimir (2012). T-REX: a web server for inferring, validating and visualizing phylogenetic trees and networks. Nucl. Acids Res. (2012) 40 (W1): W573-W579 first published online June 6, 2012. doi:10.1093/nar/gks485.

Boc A., Philippe H. and Makarenkov V. (2010). Inferring and validating horizontal gene transfer events using bipartition dissimilarity. Systematic Biology, 59: 195-211

Borlak, J. and Reamon-Buettner S.M. (2006). N-acetyltransferase 2 (NAT2) gene polymorphisms in colon and lung cancer patients. BMC Med. Genet., 7, 58.

Boukouvala S. and Fakis G. (2005). Arylamine N-acetyltransferases: what we learn from genes and genomes. Drug Metab. Rev., 37(3), 511-564.

Brinkman Fiona S. L. and Leipe Detlef D. (2001). Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins. Second Edition, chapter 14: PHYLOGENETIC ANALYSIS Andreas D. Baxevanis, B.F. Francis Ouellette.Copyright 2001. John Wiley & Sons, Inc.ISBNs: 0-471-38390-2 (Hardback); 0-471-38391-0 (Paper); 0-471-22392-1 (Electronic).

Brooke E.W., Davies S.G., Mulvaney A.W., Okada, M., Pompeo F., Sim E., Vickers R.J. and Westwood I.M. (2003). Synthesis and in vitro evaluation of novel small molecule inhibitors of bacterial arylamine N-acetyltransferases (NATs). Bioorg. Med. Chem. Lett., 13 (15), 2527-2530.

Butcher N.J., Boukouvala S., Sim E. and Minchin R.F. (2002). Pharmacogenetics of the arylamine N-acetyltransferases. Pharmacogenomics J., 2(1), 30-42.

Chung J.G., Lee J.H., Ho C.C., Lai J.M., Chou Y.C., Teng H.H., Hung C.F., Huang S.C. (1997). A survey of arylamine N-acetyltransferase activity in common fruits and vegetables. J. Food Biochem.20:481-490.

133

Chung J.G., Lo H.H., Hsieh S.E. and Yen Y.S. (1997). Ibuprofen inhibits arylamine N- acetyltransferase activity in the bacteria Klebsiella pneumoniae. Curr. Microbiol., 35(4), 195-200.

Cocaign Angélique, Bui Linh-Chi, Silar Philippe, Chan Ho Tong Laetitia, Busi Florent, Lamouri Aazdine, Mougin Christian, Rodrigues-Lima Fernando, Dupret Jean-Marie, Dairoua Julien. (2013). Biotransformation of Trichoderma spp. and Their Tolerance to Aromatic Amines, a Major Class of Pollutants. Appl. Environ. Microbiol. 2013, 79(15):4719. DOI:10.1128/AEM.00989-13.

Dairou J., Flatters D., Chaffotte A.F., Pluvinage B., Sim E., Dupret J.M. and Rodrigues-Lima, F. (2006). Insight into the structure of Mesorhizobium loti arylamine N-acetyltransferase 2(MLNAT2): a biochemical and computational study. FEBS Lett., 580(7), 1780-1788. . Dayhoff M.O., Schwartz R.M., Orcutt B.C. (1978). A model of evolutionary change in proteins. In MO Dayhoff, Atlas of Protein Sequence and Structure vol. 5, suppl. 3.Washington, DC: National Biomedical Research Foundation, pp. 345–352.

Delgoda R., Lian L.Y., Sandy J. and Sim E. (2003). NMR investigation of the catalytic mechanism of arylamine Nacetyltransferase from Salmonella typhimurium. Biochim. Biophys.Acta, 1620(1-3), 8-14.

Deloménie C., Fouix S., Longuemaux S., Brahimi N., Bizet C., Picard B., Denamur, E. and Dupret J.M. (2001). Identification and functional characterization of arylamine N-acetyltransferases in eubacteria: evidence for highly selective acetylation of 5-aminosalicylic acid. J. Bacteriol., 183(11), 3417-3427.

Dereeper A., Guignon V., Blanc G., Audic S., Buffet S., Chevenet F., Dufayard J.F., Guindon S., Lefort V., Lescot M., Claverie J.M., Gascuel O. (2008). Phylogeny.fr: robust phylogenetic analysis for the non-specialist. Nucleic Acids Res. 2008 Jul 1;36 (Web Server issue):W465-9. Epub 2008 Apr 19.

Dixon R.A.. Natural products and plant disease resistance. Nature 411:843-847.

Doll M. A., Hein D. W. (1995). Cloning, sequencing and expression of NAT1 and NAT2 encoding genes from rapid and slow acetylator inbred rats. Pharmacogenetics 5:247–251.

Dubey Kumar Sanjay, Dubey Jaishree, Mehra Sandeep, Tiwari Pradeep and Bishwas A. J. (2011). Potential use of cyanobacterial species in bioremediation of industrial effluents. African Journal of Biotechnology Vol. 10(7), pp. 1125-1132, 14 February, 2011. Available online at http://www.academicjournals.org/AJB. DOI: 10.5897/AJB10.908 ISSN 1684–5315 © 2011 Academic Journals.

Dupret J.M. and Grant D.M. (1992). Site-directed mutagenesis of recombinant human arylamine N-acetyltransferase expressed in Escherichia coli. Evidence for direct involvement of Cys68 in the catalytic mechanism of polymorphic human NAT2. J. Biol. Chem., 267 (11), 7381-7385.

Edgar R.C. (2004). MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res 32: 1792-1797.

Edgar Robert C. and Batzoglou Serafim (2006). Multiple sequence alignment. Current Opinion in Structural Biology 2006, 16:368–373. DOI 10.1016/j.sbi.2006.04.004.

Efron B. (1979). Bootstrap Methods: Another look in the Jackknife. The Annals of Statistics, Vol. 7, No. 1, (Jan., 1979), 1-26.

134

Eugene V. Koonin (2005). Orthologs, Paralogs, and Evolutionary Genomics. Annu. Rev. Genet. 2005.39:309-338. http://genet.annualreviews.org/errata.shtml

Eyers L., George I., Schuler L., Stenuit B., Agathos S.N., El Fantroussi S. (2004). Environmental genomics: exploring the unmined richnessof microbes to degrade xenobiotics. Appl Microbiol Biotechnol (2004) 66: 123–130. DOI 10.1007/s00253-004-1703-6. Fakis G., Boukouvala S., Kawamura A. and Kennedy S. (2007). Description of a novel polymorphic gene encoding for arylamineN-acetyltransferase in the rhesus macaque (Macaca mulatta), a model animal for endometriosis. Pharmacogenet. Genomics, 17(3), 181-188.

Farris J.S. (1972). Estimating Phylogenetic Trees from Distance Matrices. Am Nat 106:645-668.

Felsenstein Joseph (1985). Confidence Limits on Phylogenies: An Approach Using the Bootstrap. Evolution, Vol. 39, No. 4 (Jul., 1985), pp. 783-791.

Felsenstein J. (1981). Evolutionary trees from DNA sequences: a maximum likelihoodapproach. J Mol Evol 17: 368-376. Felsenstein J. (2004). Inferring phylogenies. Sunderland, MA: Sinauer Associates. Fetzner S. (2011). Biodegradation of Xenobiotics and Recalicrant compounds. BIOTECHNOLOGY - Vol X , © Encyclopedia of Life Support Systems (EOLSS).

Franke S., Klowitz I., Schnakenberg E., Rommel B., van den Ven W., Bullerdiek J. l. (1994). Isolation and mapping of a cosmid clone containing the human NAT2 gene. Biochemicaland Biophysical Research Communications, 199, 1672–1675.

Frymoyer J. W., Jacox R. F. (1963). Studies of genetically controlled sulfadiazine acetylation in rabbit livers: possible identification of the heterozygous trait. J. Lab. Clin. Med. 62:905–909.

Fullam E., Talbot J., Abuhammed A., Westwood I., Davies S.G., Russell A.J., Sim E. (2013). Design, synthesis and structure-activity relationships of 3,5-diaryl-1H-pyrazoles as inhibitors of arylamine N-acetyltransferase. Bioorg Med Chem Lett. 2013 May 1;23(9):2759-64. doi: 10.1016.

Fullam E., Abuhammad A., Wilson D.L., Anderton M.C., Davies S.G., Russell A.J., Sim E. (2011). Analysis of b-amino alcohols as inhibitors of the potential anti-tubercular target N-acetyltransferase. Bioorg Med Chem Lett. 2011 Feb 15;21(4):1185-90. doi:10.1016/j.bmcl.2010.12.099.

Fullam E., Westwood I.M., Anderton M.C., Lowe E.D., Sim E. and Noble M.E.M. (2008). Divergence of cofactor recognitionacross evolution: coenzyme A binding in a prokaryotic arylamineN-acetyltransferase. J. Mol. Biol., 375(1), 178-191.

Garefalaki V., Olbasalis I., Bouraki G., Márialigeti K., Glenn A.E., Boukouvala S. (2015). Microbial xenobiotic metabolism: Comparative functional investigation of arylamine N-acetyltransferases (NATs) in bacteria and fungi. Abstract for MicroBioCosmos Meeting 2015, Athens, Greece.

Gianfreda L. (2008). Enzymes of Significance to the Restoration of Polluted Systems: Traditional and Advanced Approaches.5th International Symposium ISMOM 2008 - November 24th - 28th, 2008 - Pucón, Chile Plenary papers, p 1.

135

Glenn A.E., Bacon C.W. (2009). FDB2 encodes a member of the arylamine N-acetyltransferase family and is necessary for biotransformation ofbenzoxazolinones by Fusarium verticillioides. J. Appl. Microbiology.107:657-671. doi:10.1111/j.1365-2672.2009.04246.x.

Glenn A.E., Meredith F.I., Morrison W.H. 3rd, Bacon C.W. (2003). Identification of intermediate and branch metabolites resulting from biotransformation of 2-benzoxazolinone by Fusarium verticillioides. Appl. Environ. Microbiol.69:3165-3169.

Glenn Anthony E., Karagianni Eleni P., Ulndreaj Antigona, Boukouvala Sotiria (2010). Comparative genomic and phylogenetic investigation of the xenobiotic metabolizing arylamine N-acetyltransferase enzyme family. FEBS Letters 584 (2010) 3158–3164.

Graur D., Li W-H. (1999) Fundamentals of Molecular Evolution. Sunderland, Massachusetts: Sinauer Associates.

Grén Izabela (2012).Microbial transformation of xenobiotics. CHEMIK 2012, 66, 8, 835-842.

Hall Thomas A. (1999). Nucleic Acids Symposium Series No. 41 95-98BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT. Nucleic Acids Symposium Series No. 41 95-98 © 1999 Oxford University Press.

Hasegawa M., Fujiwara M. (1993). Relative efficiencies of the maximum likelihood, maximum parsimony, and neighbor-joining methods for estimating protein phylogeny. Mol Phylogenet Evol 2: 1-5.

Hashimoto T., Nakamura Y., Nakamura F., Shirakura T., Adachi J., Goto N., Okamoto K., Hasegawa M. (1994). Protein phylogeny gives a robust estimation for early divergences of eukaryotes: phylogenetic place of a mitochondria-lacking protozoan, Giardia lamblia. Mol Biol Evol 11: 65-71.

Hasmann, M.J., Seidl, P.H., Engelhardt, G. and Schleifer, K.H. (1986). Acetyl-coenzyme A: arylamine N-acetyltransferases in microorganisms:screening and isolation of an enzyme from Bacillus cereus. Arch. Microbiol., 146(3), 275-279.

Hein D.W., Doll M.A., Fretland A.J., Leff M.A., Webb S.J., Xiao G.H, Devanaboyina U.S., Nangju N.A., Feng Y. (2000). Molecular genetics and epidemiology of the NAT1 and NAT2 acetylation polymorphisms. Cancer Epidemiol. Biomarkers Prev. 9:29-42.

Hein, D. W. (2002). Molecular genetics and function of NAT1 and NAT2: role in aromatic amine metabolism and carcinogenesis. Mutat. Res. 506–507:65–77.

Hein D.W., Boukouvala S., Grant D.M., Minchin R.F. and Sim E. (2008).Changes in consensus arylamine N-acetyltransferase gene nomenclature. Pharmacogenet. Genomics 18, 367–368.

Henikoff S., Henikoff J.G. (1992). Amino acid substitution matrices from protein blocks. Proc Natl Acad Sci U S A 89: 10915-10919.

Hickman D., Risch A., Buckle V., Spurr N. K., Jeremiah S. J., McCarthy A., Sim E. (1994). Chromosomal localisation of human genes for arylamine N-acetyltransferase. Biochem. J.297:441– 445.

136

Holton S.J., Dairou, J., Sand, J., Rodrigues - Lima F., Dupret J.M., Noble M.E.M. and Sim E. (2005). Structure of Mesorhizobium loti arylamine N-acetyltransferase 1. Acta Crystallogr. F61 (Pt. 1), 14-16.doi:10.1107/S1744309104030659.

Hsieh S.E., Lo H.H. and Chung J.G. (1998) The characteristics of arylamine N-Acetyltransferase in Pseudomonas aeruginosa. Curr.Microbiol., 36(6), 353-360.

Hubbard TJ, Aken BL, Ayling S, Ballester B, Beal K, Bragin E, Brent S, Chen Y, Clapham P, Clarke L, Coates G, Fairley S, Fitzgerald S, Fernandez-Banet J, Gordon L, Graf S, Haider S, Hammond M, Holland R, Howe K, Jenkinson A, Johnson N, Kahari A, Keefe D, Keenan S, Kinsella R, Kokocinski F, Kulesha E, Lawson D, Longden I, Megy K, Meidl P, Overduin B, Parker A, Pritchard B, Rios D, Schuster M, Slater G, Smedley D, Spooner W, Spudich G, Trevanion S, Vilella A, Vogel J, White S, Wilder S, Zadissa A, Birney E, Cunningham F, Curwen V, Durbin R, Fernandez-Suarez XM, Herrero J, Kasprzyk A, Proctor G, Smith J, Searle S, Flicek P. (2009). Ensembl 2009. Nucleic Acids Res 37: D690-697.

Huson Daniel H. and Scornavacca Celine (2012). Dendroscope 3: An Interactive Tool for Rooted Phylogenetic Trees and Networks .Syst. Biol. 0(0):1–7, 2012. DOI:10.1093/sysbio/sys062.

Jančová Petra and Šiller Michal (2012). Topics on Drug Metabolism Edited by James Paxton, ISBN 978-953-51-0099-7, 306 pages, Publisher: In Tech, Chapters published February 22, 2012 under CC BY 3.0 license.DOI: 10.5772/1180, chapter 2 p 35-50.

Johns L.E. and Houlston R.S. (2000). N-acetyl transferase-2 and bladder cancer risk: a meta- analysis. Environ. Mol. Mutagen., 36 (3), 221-227.

Jones DT, Taylor WR, Thornton JM. (1992). The rapid generation of mutation data matrices from protein sequences. Comput Appl Biosci 8: 275-282.

Josephy P. David, Guengerich F. Peter, Miners John O. (2005). "Phase I and Phase II" drug metabolism: terminology that we should phase out? Drug Metabolism Reviews, 37:575–580, 2005.DOI: 10.1080/03602530500251220.

Karagianni Eleni P., Kontomina Evanthia, Davis Britton, Kotseli Barbara, Tsirka Theodora, Garefalaki Vasiliki, Sim Edith, Glenn Anthony E. & Boukouvala Sotiria (2015). Homologues of xenobiotic metabolizing N-acetyltransferasesin plant-associated fungi: Novel functions for an old enzyme family. Scientific Reports | 5:12900 | DOI: 10.1038/srep12900.

Katoh K., Kuma K., Toh H., Miyata T. (2005): MAFFT version 5: improvement in accuracy of multiple sequence alignment. Nucleic Acids Res 2005, 33:511-518.

Katoh K., Misawa K., Kuma K., Miyata T. (2002). : MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform. Nucleic Acids Res 2002, 30:3059-3066.

Kelly S. L., Sim E. (1994). Arylamine N-acetyltransferase in Balb/c mice: identification of a novel mouse isoenzyme by cloning and expression in vitro. Biochem. J. 302:347–353.

137

King N, Westbrook MJ, Young SL, Kuo A, Abedin M, Chapman J, Fairclough S, Hellsten U, Isogai Y, Letunic I, Marr M, Pincus D, Putnam N, Rokas A, Wright KJ, Zuzow R, DirksW, Good M, Goodstein D, Lemons D, Li W, Lyons JB, Morris A, Nichols S, Richter DJ, Salamov A, Sequencing JG, Bork P, Lim WA, Manning G, Miller WT, McGinnis W, Shapiro H, Tjian R, Grigoriev IV, Rokhsar D (2008). The genome of the choanoflagellate Monosiga brevicollis and the origin of metazoans. Nature. 451:783-788.

Knight Robin D., Freeland Stephen J. & Landweber Laura F. (2001). Rewiring the keyboard: evolvability of the genetic code Nature Reviews Genetics 2, 49-58 (January 2001) | doi: 10.1038/35047500.

Koonin E.V., Galperin M.Y. (2003). Sequence - Evolution - Function: Computational Approaches in Comparative Genomics. Boston: Chapter 3 Information Sources for Genomics. Kluwer Academic; 2003.

Krania F., Vagena E., Boukouvala S., Aganian B. and Fakis G. (2008). A comparative analysis of N-acetyltransferases genes in primates 33rd FEBS Congress and 11th IUBMB Conference. Poster PP1E-13. Late abstract Book. Page 6

Kubiak Xavier, Pluvinage Benjamin, Li de la Sierra-Gallay Ine`s , Weber Patrick, Haouz Ahmed, Dupret Jean-Marie and Rodrigues-Lima Fernando (2012). Purification, crystallization and preliminary X-ray characterization of Bacillus cereus arylamine N-acetyltransferase 3 [(BACCR) NAT3]. Acta Cryst. (2012). F68, 196–198. doi:10.1107/S1744309111053942.

Kubiak Xavier, Dervins-Ravault Delphine, Pluvinage Benjamin, Chaffote Alain F.C., Gomez Valero Laura, Dairou Julien, Busi Florent, Dupret Jean-Marie, Buchrieser Carmen B.U.C. and Rodrigez -Lima Fernando (2012). Characterization of an acetyltransferase that detoxifies aromatic chemicals in Legionella pneumophila. Biochem. J. (2012) 445, 219–228 (Printed in Great Britain) doi: 10.1042/BJ20120528.

Kulikova T, Akhtar R, Aldebert P, Althorpe N, Andersson M, Baldwin A, Bates K, Bhattacharyya S, Bower L, Browne P, Castro M, Cochrane G, Duggan K, Eberhardt R, Faruque N, Hoad G, Kanz C, Lee C, Leinonen R, Lin Q, Lombard V, Lopez R, Lorenc D, McWilliam H, Mukherjee G, Nardone F, Pastor MP, Plaister S, Sobhany S, Stoehr P, Vaughan R, Wu D, Zhu W, Apweiler R. (2007) EMBL Nucleotide Sequence Database in 2006. Nucleic Acids Res 35: D16-20. Ioannides C. (2002). Enzyme Systems that Metabolise Drugs and Other Xenobiotics. Chapter 1: Xenobiotic Metabolism: An Overview. ISBNs: 0-471-894-66-4 (Hardback); 0-470- 84630-5 (Electronic). © 2002 John Wiley & Sons Ltd. Laurieri N., Dairou J., Egleton J.E., Stanley L.A., Russell A.J., (2014). From Arylamine N- Acetyltransferase to Folate-Dependent Acetyl CoA Hydrolase: Impact of Folic Acid on the Activity of (HUMAN) NAT1 and Its Homologue (MOUSE) NAT2. PLoS ONE 9(5): e96370. doi:10.1371/journal.pone.0096370.

Letunic I., Bork P. (2006). Interactive Tree Of Life (iTOL): an online tool for phylogenetic tree display and annotation. Bioinformatics. 2007 Jan 1;23(1):127-8. Epub 2006 Oct 18.

Liu C., Shao Z. (2005). Alcanivorax dieselolei sp. nov., a novel alkane-degrading bacterium isolated from sea water and deep-sea sediment. Int J Syst Evol Microbiol. 2005 May; 55 ( Pt 3):1181-6.

138

Lo H.H. and Chung J.G. (1999) The effects of plant phenolics,caffeic acid, chlorogenic acid and ferulic acid on arylamine Nacetyltransferase activities in human gastrointestinal microflora. Anticancer Res., 19(1A), 133-139.

Madikane V.E., Bhakta S., Russell A.J., Campbell W.E., Claridge T.D.W., Elisha B.G., Davies S.G., Smith P. and Sim E. (2007). Inhibition of mycobacterial arylamine N-acetyltransferase contributes to anti-mycobacterial activity of Warburgia salutaris. Bioorg. Med. Chem., 15(10), 3579-3586.

Martins M., Pluvinage B., Li de la Sierra-Gallay I., Barbault F., Dairou J., Dupret J.M., Rodrigues- Lima F. (2008). Functional and structural characterization of the arylamine N-acetyltransferase from the opportunistic pathogen Nocardia farcinica. Mol Biol. 2008 Nov 14;383(3):549-60. doi: 10.1016/j.jmb.2008.08.035.

Martins Marta, Dairou Julien, Rodrigues-Lima Fernando, Dupret Jean-Marie, Silar Martins Philippe (2010). Insights into the Phylogeny or Arylamine N-Acetyltransferases in Fungi. J. Mol Evol (2010) 71:141–152. DOI 10.1007/s00239-010-9371-x.

Martins Marta, Rodrigues-Lima Fernando , Dairou Julien, Lamouri Aazdine, Malagnac Fabienne, Silar Philippe and Dupret Jean-Marie (2009). An Acetyltransferase Conferring Tolerance to Toxic Aromatic Amine Chemicals. J Biol Chem. 2009 Jul 10; 284(28):18726-33. doi: 10.1074/jbc.M109.015230

McCoy E., Anders M. & Rosenkranz H. (1983). The basis of the insensitivity of Salmonella typhimurium strain TA98}1,8-DNP6 to the mutagenic action of nitroarenes. Mutat Res 121, 17±23.

McDonagh Ellen M., Boukouvala Sotiria, Aklillue Eleni, Hein David W., Altmanb Russ B. and Kleina Teri E. (2014). PharmGKB summary: very important pharmacogene information for N- acetyltransferase 2 Pharmacogenetics and Genomics 2014, 00:000–0001744-6872 © 2014 Wolters Kluwer Health | Lippincott Williams & Wilkins. DOI: 10.1097/FPC.0000000000000062.

Minchin R.F., Hanna P.E., Dupret J.M., Wagner C.R., Rodrigues-Lima F., Butcher N.J. (2007). Arylamine N-acetyltransferase I. Int J Biochem Cell Biol. 39:1999-2005.

Minchin, R. F. (1995). Acetylation of p-amino benzoylglutamate, a folic acid catabolite, by recombinant arylamine N-acetyltransferase and U937 cells. Biochem. J. 307:1–3.

Mount David W. (2004). Using Gaps and Gap Penalties to Optimize Pairwise Sequence Alignments. Adapted from “Alignment of Pairs of Sequences” Chapter 3, in Bioinformatics: Sequence and Genome Analysis, 2nd edition, by David W. Mount. Cold Spring Harbor Laboratory Press, Cold Spring Harbor, NY, USA, 2004.

Mulyono, Takenaka S., Sasano Y., Murakami S. and Aoki K. (2007). Bacillus cereus strain 10-L-2 produces two arylamine Nacetyltransferasesthat transform 4-phenylenediamine into 4- aminoacetanilide. J. Biosci. Bioeng., 103(2), 147-154.DOI: 10.1263/jbb.103.147

Mushtaq A., Payton M. and Sim E. (2002) The COOH terminusof arylamine N-acetyltransferase from Salmonella typhimurium controls enzymic activity. J. Biol. Chem., 277(14), 12175-12181

139

NCBI Resource Coordinators, (2014).Database resources of the National Center for Biotechnology Information. D6–D17 Nucleic Acids Research, 2015, Vol. 43, Database issue Published online 14 November 2014 .doi: 10.1093/nar/gku1130.

Notredame C., Higgins D.G., Heringa J. T-Coffee: A novel method for fast and accurate multiple sequence alignment. J Mol Biol. 2000 Sep 8;302(1):205-17.

Ohsako S. and Deguchi T. (1990). Cloning and expression of cDNAs for polymorphic and monomorphic arylamine Nacetyltransferasesfrom human liver. J. Biol. Chem., 265(8), 4630-4634. Page R. D. M. (1996). TREEVIEW: An application to display phylogenetic trees on personal computers. Computer Applications in the Biosciences 12: 357-358.

Payton M., Auty R., Delgoda R., Everett M. and Sim E. (1999). Cloning and characterization of arylamine N-acetyltransferase genes from Mycobacterium smegmatis and Mycobacterium tuberculosis: increased expression results in isoniazid resistance. J. Bacteriol., 181(4), 1343-1347.

Payton M., Mushtaq A., Yu T.W., Wu L.J., Sinclair J. and Sim E. (2001). Eubacterial arylamine N- acetyltransferases - identificationand comparison of 18 members of the protein family with conservedactive site cysteine, histidine and aspartate residues. Microbiology,147(Pt. 5), 1137 1147.

Pertsemlidis A., Fondon J.W. 3rd. (2001). Having a BLAST with bioinformatics (and avoiding BLASTphemy). Genome Biol 2: REVIEWS 2002.

Pluvinage B., de la Sierra-Gallay I.L., Martins M., Ragunathan N., Dupret J.M. and Rodrigues- Lima F. (2007). Crystallization and preliminary X-ray characterization of arylamine N-acetyltransferaseC (BanatC) from Bacillus anthracis. Acta Crystallogr. F63(Pt. 10), 862-864.

Pompeo F., Mushtaq A., Sim E. (2002). Expression and purification of the rifamycin amide synthase, RifF, an enzyme homologous to the prokaryotic arylamine N-acetyltransferases. Protein Expr Purif. 2002 Feb; 24(1):138-51.

Pruitt K.D., Tatusova T., Maglott D.R. (2007). NCBI reference sequences (RefSeq): acurated non- redundant sequence database of genomes, transcripts and proteins. Nucleic Acids Res 35: D61-65.

Rodrigues-Lima Fernando and Dupret Jean-Marie (2002). In silico sequence analysis of arylamine N-acetyltransferases:evidence for an absence of lateral gene transfer from bacteria to vertebrates and first description of paralogs in bacteria. Biochemical and Biophysical Research Communications 293 (2002) 783–792.

Rodrigues-Lima F., Dairou J., Diaz C.L., Rubio M.C., Sim E., Spaink H.P. and Dupret J.M. (2006). Cloning, functional expression and characterization of Mesorhizobium loti arylamine Nacetyltransferases: rhizobial symbiosis supplies leguminous plantswith the xenobiotic N- acetylation pathway. Mol. Microbiol., 60(2), 505-512. doi:10.1111/j.1365-2958.2006.05114.x.

Sabbagh Audrey, Marin Julie, Veyssière Charlotte, Lecompte Emilie, Boukouvala Sotiria, Poloni Estella S., Darlu Pierre and Crouau-Roy Brigitte (2013). Rapid birth-and-death evolution of the xenobioticmetabolizing NAT gene family in vertebrates with evidence of adaptive selection. SBMC Evolutionary Biology 2013, 13:62http://www.biomedcentral.com/14712148/13/62.

Saito K., Shinohara A., Kamataki T. and Kato R. (1985). Metabolic activation of mutagenic N-hydroxyarylamines by O acetyltransferase in Salmonella typhimurium TA98. Arch.Biochem.Biophys., 239(1), 286-295.

140

Saitou Naruya and Nei Masatoshi (1987). The Neighbor-joining Method: A New Method for Reconstructing Phylogenetic Trees. Mol. Biol. Evol. 4(4):406-425. 1987.

Salzberg S.L., White O., Peterson J., Eisen J.A. (2001). Microbial genes in the human genome: lateral transfer or gene loss? Science 292(2001) 1903–1906.

Sandy J., Holton S., Fullam E., Sim E. and Noble M. (2005). Binding of the anti-tubercular drug isoniazid to the arylamine N-acetyltransferase protein from Mycobacterium smegmatis. Protein Sci., 14(3), 775-782.

Sandy J., Mushtaq A., Kawamura A., Sinclair J., Sim E. and Noble M. (2002). The structure of arylamine N-acetyltransferasefrom Mycobacterium smegmatis – an enzyme which inactivates theanti-tubercular drug, isoniazid. J. Mol. Biol., 318(4), 1071-1083.

Sandy J., Mushtaq A., Holton S.J., Schartau P., Noble M.E.M. and Sim E. (2005). Investigation of the catalytic triad of arylamine N-acetyltransferases: essential residues required for acetyl transfer to arylamines. Biochem. J., 390(Pt. 1), 115-123.

Sayers EW, Barrett T, Benson DA, Bryant SH, Canese K, Chetvernin V, Church DM, Di Cuccio M, Edgar R, Federhen S, Feolo M, Geer LY, Helmberg W, Kapustin Y, Landsman D, Lipman DJ, Madden TL, Maglott DR, Miller V, Mizrachi I, Ostell J, Pruitt KD, Schuler GD, Sequeira E, Sherry ST, Shumway M, Sirotkin K, Souvorov A, Starchenko G, Tatusova TA, Wagner L, Yaschenko E, Ye J (2009). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res. 2009 Jan;37 (Database issue):D5-15. Epub 2008 Oct 21.

Sikora Alison L., Frankel Brenda A. and Blanchard John S. (2008). Kinetic and Chemical Mechanism of Arylamine N-Acetyltransferase from Mycobacterium tuberculosis. Biochemistry. 2008 October 7; 47(40): 10781–10789. Doi: 10.1021/bi800398c.

Sim E., Fakis G., Laurieri N., Boukouvala S. (2012). Arylamine N-acetyltransferases -- from drug metabolism and pharmacogenetics to identification of novel targets for pharmacological intervention. Adv Pharmacol. 2012; 63:169-205. doi:10.1016/B978-0-12-398339-8.00005-7.

Sim E., Sandy J., Evangelopoulos D., Fullam E., Bhakta S., Westwood I., Krylova A., Lack N. and Noble M. (2008). Arylamine N-acetyltransferases in mycobacteria. Curr. Drug Metab., 9(6), 510-519.

Sinclair J.C., Sandy J., Delgoda R., Sim E. and Noble M.E.M. (2000). Structure of arylamine N- acetyltransferase reveals a catalytic triad. Nat. Struct. Biol., 7(7), 560-564.

Sugawara H., Ogasawara O., Okubo K., Gojobori T., Tateno Y. (2008). DDBJ with new system and face. Nucleic Acids Res 36: D22-24.

Takenaka S., Mulyono, Sasano Y., Takahashi Y., Murakami S. and Aoki K. (2006). Microbial transformation of aniline derivatives: regioselective biotransformation and detoxification of 2- phenylenediamine by Bacillus cereus strain PDa-1. J. Biosci. Bioeng., 102(1), 21-27. DOI:10.1263/jbb.102.21. . Tamura K., Stecher G., Peterson D., Filipski A. and Kumar S. (2013). MEGA6: Molecular Evolutionary Genetics Analysis Version 6.0. Molecular Biology and Evolution 30: 2725-2729.

141

Teixeira Raquel Lima de Figueiredo, Lopes Márcia Quinhones Pires, Suffys Philip Noel and Santos Adalberto Rezende (2013). Tuberculosis Pharmacogenetics: State of The Art. Chapter 6, licensee InTech.http://dx.doi.org/10.5772/54984.

The UniProt Consortium (2014). UniProt: a hub for protein information.D204–D212. Nucleic Acids Research, 2015, Vol. 43, Database issue Published online 27 October 2014. doi:10.1093/nar/gku989.

Thompson J.D., Higgins D.G., Gibson T.J. (1994). CLUSTALW: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res 1994,22:4673-4680.

Thompson J.D., Plewniak F., Poch O. (1999). BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs. Bioinformatics 15: 87-88.

Tsirka T., Boukouvala S., Agianian B., Fakis G. (2014). Polymorphism p.Val231Ile alters substrate selectivity of drug-metabolizing arylamine N-acetyltransferase 2 (NAT2) isoenzyme of rhesus macaque and human. Gene. 2014 Feb 15;536 (1):65-73. doi: 10.1016.

Tsou M.F., Chung J.G., Wu L.T., Cheng K.S. and Hung C.F. (1998). Characterization of arylamine N-acetyltransferase in Enterobacter aerogenes. Microbios., 94(379), 133-143.

Tsou M.F., Hung C.F., Lu H.F., Wu L.T., Chang S.H., Chang H.L., Chen G.W. and Chung J.G. (2000). Effects of caffeic acid, chlorogenic acid and ferulic acid on growth and arylamine N- acetyltransferase activity in Shigella sonnei (group D). Microbios., 101(398), 37-46.

Vagena Eirini, Fakis Giannoulis and Boukouvala Sotiria (2008). Arylamine N-Acetyltransferases in Prokaryotic and Eukaryotic Genomes: A Survey of Public Databases. Current Drug Metabolism, 2008, 9, 628-660.

Van der Geize R., Yam K., Heuser T., Wilbrink MH., Hara H., Anderton MC., Sim E., Dijkhuizen L., Davies J.E., Mohn W.W., Eltis L.D. (2007).A gene cluster encoding cholesterol catabolism in a soil actinomycete provides insight into Mycobacterium tuberculosis survival in macrophages. Proc Natl Acad Sci U S A. 2007 Feb 6;104(6):1947-52.

Villegas Andre and Kropinski Andrew M. (2008). An analysis of initiation codon utilization in the Domain Bacteria – concerns about the quality of bacterial genome annotation. Microbiology (2008), 154, 2559–2561 DOI 10.1099/mic.0.2008/021360-0

Walraven J.M., Trent J.O., Hein D.W. (2007). Computational and experimental analyses of mammalian arylamine N-acetyltransferase structure and function. Drug Metab Dispos 35: 1001– 1007.

Watanabe M., Igarashi T., Kaminuma T., Sofun T. and Nohmi T. (1994). N-hydroxyarylamine O- acetyltransferase of Salmonella typhimurium: proposal for a common catalytic mechanism of arylamine acetyltransferase enzymes. Environ. Health Perspect, 102 (Suppl. 6), 83-89.

Watanabe M., Sofuni T. and Nohmi T. (1992). Involvement of Cys69 residue in the catalytic mechanism of N-hydroxyarylamine O-acetyltransferase of Salmonella typhimurium. Sequence similarity at the amino acid level suggests a common catalytic mechanismof acetyltransferase for S. typhimurium and higher organisms. J.Biol. Chem., 267(12), 8429-8436.

Weber W.W. and Hein D.W. (1985). N-Acetylation pharmacogenetics. Pharmacol Rev 37:26 –79.

142

Westwood Isaac M. and Sim Edith (2007). Kinetic characterisation of arylamine N-acetyltransferase from Pseudomonas aeruginosa. BMC Biochemistry 2007, 8:3. Doi: 10.1186/1471-2091-8-3.

Westwood I.M., Holton S.J., Rodrigues-Lima F., Dupret J.M., Bhakta S., Noble M.E.M. and Sim E. (2005). Expression, purification,characterization and structure of Pseudomonas aeruginosa arylamine N-acetyltransferase. Biochem. J., 385 (Pt. 2), 605-612.

Williams R. T. (1949). Detoxication Mechanisms: The Metabolism of Drugs and Allied Organic Compounds. London: Chapman and Hall.

Williams R. T. (1959). Detoxication Mechanisms: The Metabolism and Detoxication of Drugs,Toxic Substances, and Other Organic Compounds. 2nd ed. London: Chapman and Hall. Woese CR., Kandler O., Wheelis ML. (1990).Towards a natural system of organisms: proposal for the domains Archaea, Bacteria, and Eucarya. Proc Natl Acad Sci U S A. 1990 Jun;87(12):4576-9.

Wu H., Dombrovsky L., Tempel W., Martin F., Loppnau P., Goodfellow G.H., Grant D.M. and Plotnikov, A.N. (2007). Structural basis of substrate-binding specificity of human arylamine Nacetyltransferases. J. Biol. Chem., 282(41), 30189-30197.

Zhang N., Liu L., Liu F., Wagner C.R., Hanna P.E. and Walters K.J. (2006). NMR-based model reveals the structural determinants of mammalian arylamine N-acetyltransferase substrate specificity. J. Mol. Biol., 363(1), 188-200.

143

2. ΑΝΑΦΟΡΕΣ ΑΠΟ ΤΟ ΔΙΑΔΥΚΤΙΟ.

1. http://www.medbullets.com/2015 2. http://nat.mbg.duth.gr 3. http://www.ncbi.nlm.nih.gov/Genbank/ 4. http://www.ebi.ac.uk/embl/index.html 5. http://www.ddbj.nig.ac.jp/ 6. http://www.ncbi.nlm.nih.gov/genome 7. http://www.ensembl.org/index.html 8. http://www.uniprot.org/ 9. http://www.ncbi.nlm.nih.gov/refseq/ 10. http://blast.ncbi.nlm.nih.gov/Blast.cgi 11. http://www.ebi.ac.uk/Tools/clustalw2/ 12. http://www.ebi.ac.uk/Tools/muscle/index.html 13. http://www.mbio.ncsu.edu/bioedit/bioedit.html 14. http://www.phylogeny.fr/ 15. http://www.trex.uqam.ca/ 16. http://itol.embl.de/index.shtml 17. http://www-ab.informatik.uni-tuebingen.de/software/dendroscope; 18. http://taxonomy.zoology.gla.ac.uk/rod/treeview/treeview 19. http://omictools.com/,ηhttp://molbiol-tools.ca/ 20. http://evolution.genetics.washington.edu/phylip/software.html. 21. http://www.ncbi.nlm.nih.gov/Taxonomy/CommonTree/wwwcmt.cgi 22. http://itol.embl.de/other_trees.shtml,http://phylot.biobyte.de/ 23. http://www.ncbi.nlm.nih.gov/genome/browse/# 24. http://www.ncbi.nlm.nih.gov/genomes/MICROBES/microbial_taxtree.html.

144