Thesis
Histoire du peuplement de l'Asie orientale révélée par le système HLA
DI, Da
Abstract
Cette thèse se concentre sur l'histoire du peuplement de l'Asie orientale par les humains anatomiquement modernes (Homo sapiens), et plus particulièrement sur les routes possibles de migrations qu'ils auraient empruntées, suite à leur sortie d'Afrique, pour peupler l'Asie. Nous avons analysé des données de fréquences géniques de cinq gènes du système HLA dans 84 populations de différentes régions géographiques et parlant des langues de diverses familles linguistiques d'Asie orientale. Nos analyses statistiques et simulations informatiques nous ont conduit à suggérer un nouveau modèle de peuplement, le « modèle du chevauchement », proposant l'existence de deux routes de migrations longeant d'une part le sud et d'autre part le nord du plateau tibétain depuis l'Asie occidentale, et d'échanges génétiques intervenus ultérieurement, en Asie orientale, entre les populations issues de ces deux migrations. Nos résultats révèlent aussi une histoire complexe de diversification et d'expansion des familles linguistiques est-asiatiques, et aboutissent à une estimation cohérente des coefficients de [...]
Reference
DI, Da. Histoire du peuplement de l'Asie orientale révélée par le système HLA. Thèse de doctorat : Univ. Genève, 2013, no. Sc. 4543
URN : urn:nbn:ch:unige-279836 DOI : 10.13097/archive-ouverte/unige:27983
Available at: http://archive-ouverte.unige.ch/unige:27983
Disclaimer: layout of this document may differ from the published version.
1 / 1 UNIVERSITÉ DE GENÈVE FACULTÉ DES SCIENCES Département de génétique et évolution Professeure Alicia Sanchez-Mazas Unité d’anthropologie
Histoire du peuplement de l’Asie orientale révélée par le système HLA
THÈSE
présentée à la Faculté des sciences de l’Université de Genève pour obtenir le grade de Docteur ès sciences, mention biologie
par
DI Da
de
Pékin (CHINE)
o Thèse N 4543
GENÈVE ReproMail
2013
1
Remerciements
Ce travail de thèse a été mené dans le cadre du projet sur l’histoire du peuplement des humains modernes en Asie orientale, grâce au financement du Fonds National Suisse (FNS) de la Recherche Scientifique (subsides No.31003A_112651 et 31003A_127465 octroyés à la Professeure Alicia Sanchez-Mazas).
J’aimerais remercier très chaleureusement la Professeure Alicia Sanchez-Mazas, directrice du Laboratoire d’anthropologie, génétique et peuplements et de ma thèse. Elle m’a accepté dans ce laboratoire à l’issue de mon master de génétique, et m’a ouvert la porte vers la génétique des populations et le système HLA. Ses hautes compétences scientifiques, sa vision multidisciplinaire, sa diligence et sa prudence ont profondément influencé ma recherche. Son ouverture d’esprit a permis d’accroître ma créativité, qui sera essentielle pour ma future carrière. Elle a également corrigé avec le plus de patience possible le manuscrit de cette thèse. J’apprécie énormément les aides et les encouragements qu’elle m’a donnés à chaque moment difficile du travail.
Je remercie le Professeur André Langaney, ancien directeur de notre équipe. Bien que je n’aie pas suivi son enseignement direct en raison de sa retraite, ses œuvres, ses pensées et son humour liés à la recherche m’ont impressionné et m’ont passionné dès mon arrivée au laboratoire.
Je remercie le Docteur Mathias Currat qui m’a fait connaître les principes et les techniques nécessaires à l’estimation ABC. Il a créé le programme SELECTOR et l’a modifié à de nombreuses reprises selon mes demandes incessantes. Nos discussions fructueuses ont finalement abouti aux résultats définitifs de ce travail.
Je tiens à remercier le Docteur Laurent Sagart, du Centre de Recherches Linguistiques sur l’Asie Orientale (CRLAO) à Paris, et le Professeur Li Fajun, de la Faculté d’Anthropologie de l’Université Sun Yat-sen à Canton, qui m’ont guidé sur l’aspect linguistique et archéologique, respectivement, et qui m’ont également fait l’honneur de faire partie du jury de ma thèse.
Je remercie sincèrement le Professeur Pierre Darlu, qui a accepté au pied levé de faire partie du jury de ma thèse suite à l’indisponibilité de dernière minute d’un autre juré, et qui va valider cette thèse sur l’aspect de la génétique des populations et de la biostatistique.
Je remercie le Docteur Nabil Abdennadher et Monsieur Mohamed Ben Belgacem du Département d’informatique qui développent et maintiennent la plateforme EZ-Grid. La puissance de cette plateforme nous a permis d’obtenir suffisamment de résultats de simulations, sans lesquels ce travail n’aurait pas été possible. 2
Je remercie le Docteur Zhang Xiaomo et le Docteur Zhao Yupei de l’Université de Nankin qui m’ont fait accéder à de très nombreuses publications chinoises lors de la collecte des données HLA.
Je remercie le Docteur José Manuel Nunes pour son travail sur notre serveur et ses conseils sur les langages informatiques qui ont largement augmenté l’efficacité de mon travail. Je remercie également la Docteure Estella Poloni pour ses aides, en particulier concernant les méthodes statistiques, et pour sa gentillesse avec moi.
Je remercie le Docteur Stéphane Buhler avec lequel je travaille dans le même bureau depuis plusieurs années. Ancien étudiant du laboratoire, il m’a fait partager volontairement ses expériences dans la recherche, et, de plus, sa musique originale. Je remercie María Eugenia Riccio qui a commencé la thèse un peu plus tard que moi, et avec laquelle je partage des intérêts communs dans nos domaines de recherche. Elle m’a également beaucoup aidé lors des études et de l’enseignement.
Je remercie les membres actuels et anciens du Laboratoire d’anthropologie, génétique et peuplements grâce auxquels je profite d’une excellente ambiance à la fois scientifique et d’amitié, notamment Ninian Hubert van Blyenburgh, Christelle Vangenot, Claudio Quilodran, Nuno Silva, Mélanie Cuénod, Pascale Gerbault, Johan Renquin.
Je remercie également tous les membres du personnel administratif et technique de l’Unité d’anthropologie pour leur connaissance professionnelle et leur disponibilité quotidienne, en particulier Marie-Noëlle Lahouze, Carol Métroz, Stephan Weber, David Roessli, Luis Giraldes.
Et, au final, des remerciements à mes parents, qui m’ont tant soutenu de manière morale et financière depuis Pékin ; et à Fang, qui m’a accompagné pour passer tellement de moments inoubliables pendant mes sept ans d’études à Paris et à Genève.
3
Résumé Cette thèse se concentre sur l’histoire du peuplement des humains modernes (Homo sapiens) en Asie orientale. Depuis environ un siècle, de nombreux travaux ont été effectués sur ce sujet par des chercheurs de différentes disciplines (archéologie, paléontologie, linguistique, génétique). Parmi ces travaux, des études génétiques ont soutenu l’hypothèse d’une origine unique des humains modernes en Afrique de l’Est et, par conséquent, d’une descendance directe des populations est-asiatiques à partir des premiers humains anatomiquement modernes venant d’Afrique de l’Est (modèle « Out- of-Africa » opposé à l’hypothèse multirégionaliste). Une structure génétique remarquable des populations est-asiatiques actuelles - une différenciation nord-sud - a également été interprétée en relation avec les routes possibles de migrations qu’Homo sapiens aurait empruntées pour peupler l’Asie. En outre, du point de vue linguistique, les débats sur l’origine et les liens phylogénétiques entre grandes familles de langues est-asiatiques, telles que l’altaïque, le sino-tibétain, l’austronésien, l’austro-asiatique, le tai-kadai, et le hmong-mien, sont loin d’être terminés.
Dans ce contexte, le complexe majeur d’histocompatibilité (MHC) chez l’humain, appelé système HLA, très informatif pour reconstruire l’histoire génétique des populations en raison de son haut degré de polymorphisme, n’avait pas encore été étudié en profondeur à l’échelle de l’Asie orientale, raison pour laquelle nous avons choisi les gènes de ce système comme marqueurs pour notre recherche sur la structure génétique et l’histoire du peuplement des populations est-asiatiques.
Dans un premier temps du travail, nous nous sommes consacré à constituer une banque de données de fréquences géniques pour cinq gènes HLA (HLA-A, -B et -C de classe I, et HLA-DPB1, -DRB1 de classe II) à partir de la littérature publiée depuis une trentaine d’années, en grande partie en chinois, et à analyser ces données grâce à de nombreuses méthodes statistiques de la génétique des populations. Au total, nous avons travaillé sur un ensemble de 84 populations représentant la grande majorité des régions géographiques et familles linguistiques d’Asie orientale. Nos analyses ont confirmé un certain degré de correspondance entre les variations de fréquences géniques et la géographie, ainsi qu’une différenciation génétique nord-sud des populations. Une frontière génétique faiblement marquée mais significative a été détectée entre les populations Han du Nord et du Sud de la Chine, correspondant approximativement à la région du fleuve Yangzi, pour les locus HLA-A, -B et -DRB1. Contrairement à des résultats obtenus par d’autres auteurs sur le chromosome Y et des SNPs autosomaux, nous avons constaté que la variation génétique HLA se caractérisait par une diminution de la diversité génétique intra-populationnelle du Nord au Sud, et que des lignages et allèles HLA particuliers étaient inégalement répartis entre ces deux régions. Ces résultats sont compatibles avec une ancienne expansion des populations des humains modernes en 4
Asie orientale par une route longeant le sud du plateau tibétain, doublée d’une expansion via une route nord. Nous avons ainsi suggéré un nouveau modèle pour le peuplement de l’Asie orientale, le « modèle du chevauchement », qui met l’accent sur l’existence de ces deux routes et les échanges génétiques intervenus ultérieurement, en Asie orientale, entre les populations issues de ces deux migrations.
Le modèle d’une route unique de peuplement par le Sud, soutenu par un certain nombre de chercheurs, et notre nouveau modèle stipulant deux routes de migrations ont ensuite été confrontés par une méthode de simulations informatiques utilisant une approche ABC. Les résultats ont fourni des arguments en faveur de notre hypothèse, et ont révélé que la structure génétique HLA des populations d’Asie orientale avait été façonnée par un ensemble de mécanismes évolutifs incluant des facteurs géographiques, des facteurs démographiques et des facteurs ayant trait à des phénomènes de sélection naturelle sur les locus HLA. Contrairement aux populations d’Asie du Nord-est dans lesquelles l’histoire démographique aurait été plus stable, la diversité génétique des populations du Sud aurait subi un appauvrissement en raison de petites densités démographiques et de très faibles taux de migration. Un certain taux de diversité aurait néanmoins été maintenu dans ces populations par sélection balancée sur les locus HLA.
Concernant les familles linguistiques représentées par les populations étudiées, nous avons constaté à la fois des différences de diversité génétique à l’intérieur des familles et un patron de différenciation complexe entre familles. Ces résultats témoignent d’une diversification marquée des groupes linguistiques, l’altaïque proprement dit, le coréen et le japonique d’une part, et le sino-tibétain, le hmong-mien, le tai-kadai et l’austro- asiatique d’autre part. Les expansions altaïques et sino-tibétaines vers le Sud au cours des trois derniers millénaires auraient favorisé les échanges génétiques entre populations, tandis que les divisions politiques entre les dynasties du Nord et du Sud au cours des deux derniers millénaires auraient mis en place une frontière récente entre populations, à la fois génétique et linguistique, auprès de la zone du fleuve Yangzi, que l’on observe aujourd’hui dans de multiples études génétiques.
Ces conclusions importantes illustrent les principaux scénarios du peuplement humain en Asie orientale et ouvrent également de nombreuses perspectives dans le contexte de l’étude génétique de cette région que nous viserons dans le futur.
5
Summary This thesis focuses on the peopling history of modern human (Homo sapiens) in East Asia. For about a century, numerous studies have been conducted on this subject by researchers from different disciplines (archeology, paleontology, linguistics and genetics). Among them, genetic studies have supported the hypothesis of a recent East African origin of all modern humans and, as a consequence, a direct descent of East Asian populations from the first anatomically modern humans coming from East Africa ("Out- of-Africa" model compared to the multiregionalist hypothesis). A remarkable genetic structure currently observed in East Asia - a north-south genetic differentiation - was also interpreted in relation to possible migration routes followed by Homo sapiens in its way to East Asia. In addition, from a linguistic point of view the debates on the origin of and phylogenetic relationships between the main linguistic families in East Asia, such as Altaic, Sino-Tibetan, Austronesian, Austro-Asiatic, Tai-Kadai and Hmong-Mien, are far from being over.
In this context, the major histocompatibility complex (MHC) in humans, namely HLA, which is very informative for the reconstruction of population genetic history due to its high degree of polymorphism, had not yet been studied in depth across East Asia. This is the reason why we chose HLA genes as markers in our research on the genetic structure and peopling history of East Asian populations.
We first created a database of gene frequencies for five HLA genes (HLA-A, -B, -C of class I and HLA-DPB1, -DRB1 of class II) by taking data from the literature published during the last three decades, mainly from papers written in Chinese, and we analyzed these data by applying diverse statistical methods used in population genetics. We worked on a total set of 84 populations representing the vast majority of East Asian geographical regions and language families. Our analyses confirm a certain degree of correspondence between gene frequency variation and geography, as well as a north- south genetic differentiation of populations in East Asia. A weak but significant genetic boundary is detected for the HLA-A, -B and -DRB1 loci between Han populations from North and South China, which roughly corresponds to the Yangtze River region. Contrary to the results obtained by some other researchers on Y-chromosome and autosomal SNPs, we find that HLA genetic variation is characterized by a decreasing intra-population genetic diversity from North to South, and that some HLA lineages and alleles are unevenly distributed between the two regions. These results are consistent with an old expansion of modern humans in East Asia by a route following the southern edge of the Tibetan Plateau, along with another expansion via a northern route. We thus suggest a new "Overlapping model" for the peopling history of East Asia, which focuses on both the existence of these two migration routes and genetic exchanges occurring later in East Asia between populations originating from these two migrations. 6
The model of a single southern route, which is supported by a number of researchers, and our new model stipulating two migration routes were then tested by a computer simulation method associated to a Bayesian estimation approach (ABC). The results provide arguments in favor of our hypothesis and show that the HLA genetic structure of East Asian populations was shaped by several evolutionary mechanisms including geographic and demographic factors as well as natural selection acting on HLA. Unlike the Northern East Asian populations whose demographic history would have been more stable, the Southern East Asian populations would have suffered a loss of genetic diversity due to small population sizes and very low migration rates, though a certain level of HLA diversity was maintained in these populations by balancing selection.
Concerning the linguistic families represented by the populations we studied, we find both differences of genetic diversity within families and a complex pattern of differentiations among families. These results show a marked diversification of language groups, with Altaic proper, Korean and Japanic on one hand, and Sino-Tibetan, Hmong- Mien, Tai-Kadai and Austro-Asiatic on the other hand. Southward Altaic and Sino- Tibetan expansions occurring during the last three millennia further enhanced the genetic exchanges among populations, while political divisions between the Northern and Southern dynasties during the last two millennia lead to the emergence of a genetic and linguistic boundary between populations around the Yangtze River region, as observed in many genetic studies.
These important conclusions illustrate the main scenarios of human peopling history in East Asia and also open several perspectives regarding genetic studies of East Asia in the future.
7
Table de matières
1. Introduction ...... 1 1.1. Présentation générale du travail ...... 1 1.2. Introduction à la région étudiée ...... 4 1.2.1. Géographie de l’Asie orientale ...... 4 1.2.2. Bref résumé de la préhistoire et de l’histoire de l’Asie orientale ...... 6 1.2.3. Reconnaissance ethnique ...... 8 1.2.4. Structure linguistique ...... 9 1.2.4.1. Principales familles linguistiques ...... 10 1.2.4.2. Familles linguistiques non étudiées dans ce travail ...... 12 1.3. Introduction à l’histoire du peuplement de l’Asie orientale ...... 12 1.3.1. Etudes archéologiques ...... 12 1.3.1.1. La recherche des vestiges humains ...... 12 1.3.1.2. La datation archéologique ...... 14 1.3.1.3. La morphologie : de l’Homo erectus à l’Homo sapiens ...... 15 1.3.1.4. La culture : du Paléolithique au Néolithique ...... 19 1.3.2. L’origine des humains modernes en Asie orientale ...... 20 1.3.2.1. Modèle de continuité régionale (modèle multirégionaliste) ...... 20 1.3.2.2. « Out-of-Africa » (modèle unirégionaliste) ...... 22 1.3.2.3. Débats ...... 25 1.3.2.4. Flux géniques possibles avec des humains archaïques ...... 27 1.3.3. Différenciation nord-sud en Asie orientale ...... 29 1.3.3.1. Structure morphologique et génétique ...... 29 1.3.3.2. Frontière génétique ...... 30 1.3.3.3. Aspects linguistiques ...... 32 1.3.4. Modèles concernant les routes de migrations vers l’Asie orientale ...... 33 1.3.4.1. Routes de migrations possibles ...... 34 1.3.4.2. « Modèle de la pince » ...... 35 1.3.4.3. « Modèle de l’origine au Sud » ...... 36 1.3.4.4. Débats ...... 38 8
1.3.5. Modèles concernant l’origine des familles linguistiques ...... 40 1.4. Introduction au système génétique étudié ...... 42 1.4.1. Description générale du système HLA ...... 42 1.4.2. Le polymorphisme des gènes HLA ...... 45 1.4.2.1. Typages sérologiques et moléculaires ...... 45 1.4.2.2. Les gènes HLA polymorphes ...... 46 1.4.2.3. La nomenclature du système HLA ...... 47 1.4.2.4. Ambiguïtés de typage HLA ...... 50 1.4.2.5. Mécanismes évolutifs agissant sur le MHC ...... 51 1.4.3. Applications des analyses HLA en génétique des populations ...... 52 1.4.3.1. A l’échelle mondiale ...... 52 1.4.3.2. La différenciation HLA en Europe ...... 53 1.4.3.3. Les différenciations HLA en Afrique ...... 54 1.4.3.4. Les études HLA en Asie orientale ...... 54 2. Données...... 57 2.1. Description des données utilisées ...... 57 2.1.1. Origine des données ...... 57 2.1.2. Les critères assurant la qualité des données ...... 58 2.2. Description des populations concernées ...... 60 2.2.1. Informations géographiques ...... 61 2.2.2. Informations ethnologiques ...... 62 2.2.3. Informations linguistiques ...... 63 2.3. Traitement des données ...... 64 2.3.1. Calcul et estimation de fréquences génériques et alléliques ...... 64 2.3.2. Regroupement des données alléliques ...... 65 3. Analyse du polymorphisme HLA observé dans les populations est-asiatiques .... 67 3.1. Méthodes statistiques (descriptives et inférentielles) utilisées ...... 67 3.1.1. Graphiques des fréquences génériques et alléliques ...... 67 3.1.2. Analyses intra-populationnelles ...... 70 3.1.2.1. Test de l’équilibre de Hardy-Weinberg ...... 70 3.1.2.2. Test de neutralité sélective avec correction de Bonferroni ...... 71 9
3.1.2.3. Indice de diversité génétique ...... 72 3.1.3. Analyses inter-populationnelles ...... 73 3.1.3.1. Distances génétiques ...... 73 3.1.3.2. Projections graphiques des populations ...... 74 3.1.3.3. Analyse de variance ...... 75 3.1.3.4. Distances géographiques ...... 76 3.1.3.5. Corrélations entre variables ...... 76 3.1.3.6. Corrélation entre matrices de distances ...... 77 3.1.3.7. Répartition géographique des lignages et allèles ...... 77 3.1.3.8. Frontière génétique ...... 78 3.2. Résultats ...... 79 3.2.1. Distributions de lignages et d’allèles HLA ...... 79 3.2.1.1. Lignages et allèles sans distribution géographique spécifique ...... 84 3.2.1.2. Lignages et allèles montrant une relation avec la géographie ...... 85 3.2.1.3. Corrélations fréquences géniques – latitude/longitude ...... 87 3.2.2. Tests d’Ewens-Watterson ...... 89 3.2.3. Indices d’hétérozygotie ...... 89 3.2.4. La génétique versus la géographie ...... 92 3.2.4.1. Correspondance entre matrices de distances ...... 92 3.2.4.2. Analyses d’autocorrélation spatiale ...... 92 3.2.4.3. PCoordA et MDS ...... 95 3.2.4.4. SAMOVA ...... 102 3.2.5. La génétique versus la linguistique ...... 103 3.2.5.1. Profil général ...... 103 3.2.5.2. Différenciation génétique entre groupes linguistiques ...... 103
3.2.5.3. FST et H ...... 104 3.3. Discussion ...... 106 3.3.1. Origine des populations est-asiatiques ...... 106 3.3.1.1. Gradient de diversité génétique ...... 106 3.3.1.2. Premières migrations des humains modernes en Asie orientale .... 108 3.3.2. Frontière génétique ...... 111 10
3.3.3. L’ensemble des groupes linguistiques ...... 112 3.3.4. Structure de chaque groupe linguistique ...... 113 3.3.4.1. Altaïque ...... 113 3.3.4.2. Coréen et japonique ...... 114 3.3.4.3. Sino-tibétain ...... 114 3.3.4.4. Tai-kadai, hmong-mien et austroasiatique ...... 117 3.4. Conclusion ...... 117 3.5. Publications ...... 118 3.5.1. Article publié dans American Journal of Physical Anthropology ...... 118 3.5.2. Article publié dans Communication on Contemporary Anthropology .. 136 4. Simulations des scénarios de peuplement ...... 145 4.1. Théories et Méthodes ...... 146 4.1.1. Principes généraux de l’approche ABC ...... 146 4.1.2. Programmes ...... 148 4.1.2.1. Outil de simulation : SELECTOR ...... 148 4.1.2.2. Outil d’analyse statistique: ARLSUMSTAT ...... 149 4.1.2.3. Outil d’estimation : ABCestimator ...... 150 4.1.3. Carte numérique ...... 150 4.1.4. Données observées ...... 151 4.1.5. Modèles de peuplement ...... 153 4.1.5.1. Scénarios démographiques ...... 154 4.1.5.2. Paramètres à estimer ...... 154 4.1.5.3. Simulations qualitatives préliminaires et phase d’exploration ...... 157 4.1.5.4. Simulations quantitatives et amélioration des modèles ...... 157 4.1.5.5. Choix de trois modèles représentatifs ...... 158 4.1.6. Analyse des données simulées ...... 161 4.1.6.1. Statistiques utilisées ...... 161 4.1.6.2. Comparaison entre données observées et simulées ...... 163 4.1.6.3. Estimation des paramètres ...... 163 4.1.6.4. Comparaison des modèles ...... 164 4.1.6.5. Statistiques transformées linéairement ...... 165 11
4.1.6.6. Validation des résultats ...... 166 4.1.7. Puissance de calcul et durée des simulations ...... 167 4.1.8. Automatisation et programmation des analyses ...... 169 4.2. Synthèse des résultats des analyses ...... 170 4.2.1. Diversité génétique ...... 170 4.2.2. Lignages avec distribution clinale ...... 171 4.2.3. Estimation des Paramètres ...... 174 4.3. Discussion ...... 184 4.3.1. Modèle le plus vraisemblable ...... 184 4.3.2. Différenciation nord-sud ...... 186 4.3.3. Facteurs évolutifs et démographiques ...... 188 4.3.3.1. Sélection balancée ...... 188 4.3.3.2. Densité, migration et croissance démographique ...... 189 4.3.3.3. Barrière nord-sud ...... 190 4.3.3.4. Echanges génétiques entre populations de différentes origines ..... 192 4.4. Conclusion ...... 193 5. Discussion générale ...... 195 5.1. Discussion sur la thématique ...... 195 5.2. Discussion sur les méthodes employées ...... 200 5.3. Intérêt du système HLA en génétique des populations ...... 203 5.4. Article publié dans Rice ...... 205 6. Conclusions et perspectives ...... 217 7. Bibliographie...... 223
8. Annexes...... 239
12
1
1. Introduction
1.1. Présentation générale du travail
Depuis la fameuse découverte de « l’Homme de Pékin » en 1927 (Black 1929), l’Asie orientale est considérée comme une région importante dans l’histoire du peuplement de l’humain anatomiquement moderne (Wu et Olsen 1985). Attirés par l’énorme diversité à la fois culturelle, linguistique et génétique de ce vaste continent, les chercheurs de différentes disciplines ont effectué de nombreuses études, dont l’intérêt a porté sur l’origine des populations locales et sur les scénarios de diversification, métissage et migrations (Sagart et al. 2005; Sanchez-Mazas et al. 2008).
Les travaux archéologiques portant sur l’Asie orientale ont révélé une grande richesse en vestiges culturels ainsi qu’en ossements d’hominidés, dont certains datent de plus d’un million d’années (Wu et Olsen 1985). Sur la base de comparaisons morphologiques entre fossiles d’humains archaïques et d’humains modernes, certains archéologues ont soutenu l’hypothèse d’une origine locale d’Homo sapiens en Asie orientale, indépendante de l’origine des humains modernes sur les continents africain et européen : cette hypothèse est connue sous le nom « d’origine multirégionale » (Weidenreich 1937; Wu et Olsen 1985; Wu 2004; 2006; Otte 2010).
Pendant les quatre dernières décennies, les progrès des techniques moléculaires ont permis aux généticiens d’entrer dans le débat de l’histoire du peuplement en étudiant le matériel génétique humain. Des analyses du polymorphisme de nombreux marqueurs génétiques, et plus particulièrement des microsatellites (STR) de la région non- recombinante du chromosome Y (NRY) et des régions hypervariables de l’ADN mitochondrial (HVSI et HVSII), ont conduit à soutenir l’hypothèse d’une origine récente africaine de toutes les populations humaines modernes du monde, y compris les populations est-asiatiques (pour une revue, voir Jin et Su 2000). Selon cette hypothèse « d’origine unirégionale », acceptée aujourd’hui par la majorité des généticiens, les premiers humains anatomiquement modernes, soit les Homo sapiens, seraient apparus en Afrique il y a environ 200'000 ans, d’où ils se seraient ensuite dispersés à travers le 2
monde en remplaçant progressivement des humains archaïques (Homo erectus et d’autres) alors présents en Europe et en Asie.
Or, si cette hypothèse fait presque l’unanimité des chercheurs, les routes précises empruntées par les premiers Homos sapiens de l’Afrique à l’Asie orientale restent extrêmement controversées. Cette question est non seulement en lien étroit avec l’origine des populations est-asiatiques, mais elle est aussi essentielle pour notre connaissance de l’histoire du peuplement de plusieurs autres grandes régions géographiques, à savoir l’Océanie et l’Amérique. En effet, sous l’hypothèse d’une diaspora de tous les humains modernes à partir de l’Afrique, l’Asie orientale est un « passage obligatoire » pour atteindre ces grandes régions. Deux modèles principaux ont été proposés : le premier modèle stipule deux expansions géographiques de populations, quasi-simultanées, à partir du Sud-ouest et du Nord-ouest de l’Asie orientale pendant le Paléolithique (« modèle de la pince »). Cette hypothèse se base principalement sur l’observation d’une différenciation nord-sud des populations en Asie orientale d’après des traits morphologiques et génétiques (Cavalli-Sforza et al. 1994; Xiao et al. 2000; Karafet et al. 2001; Cavalli-Sforza et Feldman 2003). Le deuxième modèle postule une seule expansion géographique ancienne des populations à partir du Sud-ouest de l’Asie (« modèle de l’origine au Sud »), les principaux arguments se basant sur des analyses de diversité génétique intra-populationnelle des populations et sur des analyses phylogénétiques de marqueurs uni-parentaux (Ballinger et al. 1992; Chu et al. 1998; Su et al. 1999; Macaulay et al. 2005; Shi et al. 2005, 2008; Abdulla et al. 2009).
Du côté de la linguistique, les débats sur l’origine des grandes familles linguistiques est-asiatiques, comme l’altaïque, le sino-tibétain et l’austro-asiatique, parmi d’autres, sont aussi loin d’être terminés. L’expansion de ces familles, probablement liée à la domestication des céréales au Néolithique, aurait également modelé de manière significative la structure génétique des populations d’Asie orientale (Sagart et al. 2005; Sanchez-Mazas et al. 2008).
Parmi les systèmes génétiques fréquemment utilisés dans les études sur le peuplement humain, le complexe majeur d’histocompatibilité (MHC) chez l’humain, appelé système 3
HLA, s’est révélé très informatif du fait de son haut degré de polymorphisme (pour une revue, voir Sanchez-Mazas et al. 2011b). Cependant, jusqu’en 2007, les différenciations des populations est-asiatiques ont été peu étudiées pour ce système, faute de données disponibles. En réalité, une centaine de populations de Chine, pays qui couvre la majorité de l’Asie orientale, avaient été échantillonnées par des chercheurs chinois, mais la plupart des résultats avaient été publiés en chinois, empêchant la communauté scientifique internationale d’accéder aux données. Parlant nous-même chinois, cette situation nous encouragea à choisir les gènes du système HLA comme marqueurs génétiques pour notre étude dans le cadre d’un projet sur l’histoire du peuplement de Asie orientale mené au sein du Laboratoire d’Anthropologie, Génétique et Peuplements (AGP) et financé par le Fonds National Suisse (FNS) de la Recherche Scientifique (subsides No.31003A_112651 et 31003A_127465 octroyés à la Professeure Alicia Sanchez-Mazas).
Ce travail a été structuré selon le plan suivant. Nous nous sommes d’abord consacré à la constitution d’une banque de données de fréquences géniques pour cinq gènes HLA dits « classiques » (HLA-A, -B et -C de classe I, et HLA-DRB1 et -DPB1 de classe II), à partir de la littérature publiée depuis une trentaine d’années, en partie en chinois. Nous avons ensuite analysé ces données à l’aide de nombreuses méthodes statistiques utilisées en génétique des populations (analyses de corrélations, de variances, etc), ce qui nous a permis d’explorer la structure génétique des populations d’Asie orientale en lien avec l’histoire du peuplement. Enfin, sur la base de cette exploration, nous avons testé différents modèles de migrations de populations vers l’Asie orientale avec des méthodes de simulation informatique et « d’estimation bayésienne approchée », ce qui nous a conduit à estimer une vraisemblance pour chacun des modèles concurrents et, finalement, à soutenir l’un des scénarios énoncés.
Le détail des chapitres est le suivant :
- Suite à cette présentation générale du travail, les sections du chapitre 1 d’introduction présentent brièvement l’Asie orientale du point de vue de sa géographie, de sa préhistoire et de son histoire. Les études de différentes disciplines portant sur le peuplement de cette région sont ensuite discutées. Enfin, 4
le système génétique que nous analysons dans ce travail, le système HLA, est présenté sous plusieurs aspects. - Le chapitre 2 se concentre sur la constitution de nos jeux de données HLA pour les populations est-asiatiques. Nous discutons de la source des données ainsi que des problématiques relatives au choix et au traitement des données, avant de passer aux analyses plus approfondies. - Le chapitre 3 présente les analyses statistiques descriptives et inférentielles effectuées sur les données HLA observées, les résultats que nous avons obtenus, et la discussion de ces résultats. Nous présentons également ici deux articles que nous avons publiés à partir de ces analyses. - Le chapitre 4 présente les analyses, résultats et conclusions des simulations informatiques du peuplement de l’Asie orientale et les paramètres divers que nous avons estimés par cette approche. - L’ensemble de la thèse est discutée da manière plus générale au chapitre 5 et un troisième article publié y est aussi présenté. - Enfin, nos conclusions générales et les perspectives de ce travail sont présentées au chapitre 6, lui-même suivi de la bibliographie et des annexes.
1.2. Introduction à la région étudiée
1.2.1. Géographie de l’Asie orientale
En regardant une carte géographique, on constate que l’Asie orientale se trouve à l’est de l’Eurasie, vers la côte Pacifique. Ce vaste continent de plus de 10 millions de km2, l’Extrême-Orient, se définit à la fois politiquement, géographiquement et culturellement. Politiquement, il comprend la Chine, le Japon, les deux Corées et la Mongolie. Le Vietnam y est parfois rattaché pour des raisons historiques (Kolb 1971). Il avoisine la Sibérie au nord, l’Asie centrale au nord-ouest, l’Asie du Sud au sud-ouest, et l’Asie du Sud-est continentale au sud (Figure 1-1).
Le Sud-ouest de l’Asie orientale est délimité par l’Himalaya, qui abrite les plus hautes montagnes du monde. Avec une altitude moyenne supérieure à 3'500 mètres, ces chaînes de montagnes sont le résultat d’une collision entre la plaque eurasienne et la plaque 5 indienne intervenue il y a environ 70 millions d’années. On trouve ici la source de plusieurs fleuves importants, parmi lesquels le Huanghe (fleuve jaune), le Yangzi (fleuve bleu) et le Mékong ont creusé de grandes vallées fluviales et formé de vastes plaines alluviales, avant de rejoindre le Pacifique.
Figure 1-1 Carte géographique de l’Asie orientale et des régions avoisinantes (source : Imago Mundi).
Ces reliefs donnent à l’Asie orientale une grande diversité géographique. Du nord- ouest au sud-est, les changements de climat et de paysage sont prononcés. Loin de l’océan, le climat de la moitié nord-ouest est continental, froid et sec, laissant s’étendre des steppes et des déserts. Au contraire, la moitié sud-est, comprenant des grandes plaines 6
au Nord et de basses collines au Sud1, est caractérisée par un climat océanique, doux et humide (Tregear 2007).
1.2.2. Bref résumé de la préhistoire et de l’histoire de l’Asie orientale
Les climats subtropicaux et tempérés de la moitié sud-est de l’Asie orientale favorisent la colonisation des êtres vivants, y compris, bien sûr, les humains. Au Pliocène supérieur les premiers humains archaïques nous laissèrent des traces de leurs pratiques de la chasse et de la cueillette à l’aide d’outils très rudimentaires. Pendant la dernière glaciation apparurent les humains modernes qui développèrent, quelques dizaines de milliers d’années plus tard, l’agriculture dans le Sud et dans le Nord. La domestication du riz, Oryza sativa, dans la vallée du fleuve Yangzi, et celle des deux millets, Panicum miliaceum et Setaria italica, sur les plaines fluviales et le plateau de Lœss, des céréales que l’on produit et consomme encore de nos jours, aboutirent à la prospérité des cultures néolithiques, quelques millénaires plus tard (Keightley 1983).
En revanche, dans la moitié nord-ouest de l’Asie orientale, en raison d’un environnement plus rigoureux et de l’abondance de l’herbe, apparut un autre mode de vie, le nomadisme, plus récemment, à part de l’agriculture. Ces cultures nomades occupèrent une région aussi vaste que les grandes steppes, de la péninsule coréenne jusqu’en Asie centrale, bien que nos connaissances sur leurs origines exactes restent très obscures.
Le début des affrontements entre ces deux groupes de populations, d’une part agricole, d’autre part nomade, reste bien obscur, faute de documents historiques. Toutefois, la civilisation chinoise débuta dans ces affrontements, il y a plus de 4'000 ans (Wang 1994). La suite de l’histoire de la Chine fut marquée par une succession de dynasties chinoises, les Shang, les Zhou, les Qin, les Han, et cætera. Les populations, connues aujourd’hui comme les Chinois Han, développèrent une économie agricole avantageuse, une idéologie confucianiste dominante, une structure bureaucratique élaborée, et une écriture logographique commune (Eberhard 2005; Holcombe 2010). Leur culture s’étendit avec
1 Sans précision particulière, le Nord et le Sud (avec N et S en majuscule) s’agissent deux régions de l’Asie orientale séparant par le fleuve Yangzi. 7
les migrations démographiques suite à l’agrandissement du territoire chinois par les conquêtes militaires, ainsi qu’avec les rayonnements vers des pays voisins, notamment la Corée, le Japon et le Vietnam, composant une sphère d’influence culturelle couvrant la majorité de la région (Ebrey et al. 2009).
Cependant, les menaces aux agriculteurs, de la part des nomades du Nord, ne cessèrent guère (Holcombe 2010). Au long des siècles, la frontière agro-pastorale se déplaça fréquemment, dépendant souvent du changement climatique (Zhang et al. 2007b). Le réchauffement renforçait les dynasties agricoles, tandis que le refroidissement les affaiblissait (Fang et Liu 1992). Les constructions à plusieurs reprises d’un complexe de défense chinois pendant les derniers 2'500 ans, la fameuse Grande Muraille, reflète bien cette histoire, et sa localisation nous rappelle encore aujourd’hui cette frontière.
L’émergence des civilisations nomades entraîna généralement des conflits avec les dynasties agricoles des Chinois Han. A plusieurs époques historiques, ces dernières furent conquises partiellement au Nord, voire totalement. Les envahisseurs nomades, ème ème ème notamment les Xianbei au 4 siècle, les Khitans au 9 siècle, et les Mongols au 13 siècle, réutilisèrent tôt ou tard le système administratif des Han pour les gouverner. Certains d’entre eux finirent par être assimilés par les populations locales, tandis que certains autres revinrent aux steppes et recommencèrent une vie pastorale après l’effondrement de leur régime (Holcombe 2010).
L’Asie orientale fut pendant longtemps une région relativement isolée d’un point de vue géographique, séparée des civilisations occidentales par des montagnes, des déserts et des mers. Or, ces obstacles géographiques n’éliminent pas, depuis très longtemps, des communications entre l’Orient et l’Occident, telles que l’introduction du blé et du cheval du Proche-Orient par les peuples tokhariens il y a plus de 4'000 ans (Li et al. 2007), et les commerces entre la Chine et les royaumes du Moyen-Orient, voire l’Empire Romain par la Route de la Soie il y a 2'000 ans, jusqu’à l’arrivée massive des Européens au cours du 19ème siècle et la modernisation et la globalisation au cours du 20ème (Holcombe 2010). 8
1.2.3. Reconnaissance ethnique
Du point de vue ethno-politique, l’Asie orientale est très différente de l’Europe où se sont développés les « états-nations ». Historiquement, la Chine impériale distinguait les citoyens et les étrangers par l’acceptation des coutumes Han, quelles que soient leurs origines ethniques. Au milieu du 20ème siècle, la Chine (République Populaire), la Mongolie et le Vietnam, en raison de leur longue histoire de mélange ethnique et de l’influence des idéologies communistes, surtout celles de l’Union Soviétique, se sont déclarés des états « multi-ethniques », malgré le fait que, dans chacun de ces pays, les « minorités » comptent moins de 15% de la population 2 . Des ethnologues et des anthropologues ont été envoyés sur le terrain pour étudier les populations afin de déterminer leur statut ethnique. L’auto-reconnaissance a été une référence importante de cette procédure, mais l’histoire, la linguistique et d’autres facteurs ont aussi été considérés. Actuellement, les gouvernements de la Chine et du Vietnam reconnaissent 56 et 54 groupes ethniques, respectivement (Wang 1994; Dien 2003).
La procédure de reconnaissance a été effectuée indépendamment dans différents pays. Deux peuples considérés dans un pays comme faisant partie d’un même groupe ethnique pourraient alors être reconnus, dans un autre pays, comme deux groupes ethniques distincts. Par exemple, les Chinois Han au Vietnam sont reconnus officiellement comme trois groupes : en principe les Hoa, mais aussi les Ngái et les Sán Dìu, qui sont des sous- groupes des Han (Dien 2003). A Taïwan3, les Chinois Han sont classés en trois « sous- groupes » : les Hoklo (Minnan), les Hakka et les « Waishengren » (ceux des autres
2 Dans la République Populaire de la Chine, les non-Han totalisent 8,49% de la population (2010). Au Vietnam, les non-Kinh totalisent 14,3% de la population (2009). En Mongolie, les non-Mongols ne totalisent que 5,1% de la population (2010). 3 L’île de Taïwan (autrefois Formose) et quelques îles avoisinantes sont actuellement contrôlées par la République de Chine, ancien gouvernement nationaliste chinois (1912-1949) qui perdit la guerre civile (1945-1949) contre les communistes. Le gouvernement de la République populaire de Chine fut alors proclamé à Pékin en 1949, tandis que celui de la République de Chine se déplaça vers Taïwan, accompagné d'un transfert massif de population. Les deux gouvernements déclarent chacun la légitime souveraineté sur la totalité du territoire chinois (la Chine continentale et Taïwan). 9
provinces4). Les aborigènes taïwanais sont reconnus par Pékin comme un seul groupe Gaoshan, mais ont été reconnus comme 14 groupes ethniques distincts par le gouvernement local, et leur nombre risque d’augmenter encore, dans le futur, en raison des volontés du peuple (Damm 2012).
En revanche, les autres pays est-asiatiques, notamment le Japon et les deux Corées, se considèrent comme des états-nations, malgré quelques groupes minoritaires existants (Pai et Timothy 1998).
1.2.4. Structure linguistique
Tout comme la structure ethnique, l’Asie orientale présente une grande diversité linguistique, particulièrement dans les régions montagneuses. Plus de 230 langues vivantes existent en Chine continentale (Gordon 2005), même après la disparition d’innombrables groupes ethniques et leurs langues au cours de l’expansion de la civilisation chinoise. Le nombre des langues vivantes est encore doublé quand on compte toute la région comprenant la péninsule indo-chinoise (Gordon 2005).
Depuis plus de deux siècles, les linguistes ne cessent d’essayer de comprendre l’origine de cette grande diversité. Par exemple, von Klaproth (1823) a essayé de placer les langues chinoises, tibétaines et birmanes dans une même famille, dans son ouvrage intitulé « Asia Polyglotta ». Aujourd’hui, la liste des familles et les langues qui en font partie sont plutôt consensuelles, mais il n’existe toujours pas de classification à l’intérieur des familles acceptée par tous les linguistes. Ci-dessous, nous essayons de présenter les classifications les moins controversées possibles (Figure 1-2). Il pourrait arriver que les données statistiques citées (Gordon 2005) diffèrent d’autres sources, vu qu’elles dépendent de la façon de définir les familles, langues/dialectes, ou locuteurs.
4 L’immigration des Chinois Han vers Taïwan commença au 17ème siècle, principalement depuis Fujian. Les Waishengren sont des gens qui ont immigré à Taïwan suite à la fin de la seconde guerre mondiale et la guerre civile chinoise, y compris leurs descendants nés à Taïwan. 10
1.2.4.1. Principales familles linguistiques
Altaïque (ALT) : Les langues de la famille altaïque sont parlées dans une vaste région de l’aire nord de l’Eurasie, de l’Asie orientale du nord jusqu’à l’Europe de l’Est. Le nom de la famille vient de l’Altaï, une chaîne de montagnes d’Asie centrale. Cette famille très controversée comprend trois branches principales : le turkique, le mongol et le toungouse, dont les 145 millions de locuteurs représentent la majorité des nomades du Nord. Certains linguistes rattachent également des langues isolées comme le coréen et le japonais à ces trois branches parfois appelées « altaïque proprement dit » (Robbeets 2005).
Sino-tibétain : La famille sino-tibétaine est la deuxième plus grande famille linguistique du monde, par le nombre de locuteurs (plus de 1,2 milliard) qui occupent plutôt des zones agricoles. Principalement en Chine et au Myanmar, les langues de la famille sont aussi parlées dans des pays d’Asie du Sud-est et d’Asie du Sud, surtout au Bhutan, Népal et le nord-est de l’Inde. La famille se sépare en deux branches principales : le sinitique (SIN) et le tibéto-birman (TB).
Hmong-mien (HM) : Le hmong-mien, ou miao-yao, est une petite famille incluant 35 langues parlées dans quelques petites régions, telles que le sud-ouest de la Chine ou le nord de la Thaïlande et du Vietnam, et constituant des isolats au milieu d’autres langues.
Tai-kadai (TK) : Avec 74 langues parlées par environ 78 millions de locuteurs dans le sud-ouest de la Chine, en Thaïlande et au Laos, le tai-kadai est aussi une famille très liée à des populations agricoles.
Austro-asiatique (AA) : Les langues austro-asiatiques sont un groupe de langues parlées dans des régions déconnectées entre elles, principalement en Asie du Sud-est continentale et dans le nord-est de l’Inde. Ces régions sont séparées géographiquement par des zones peuplées de locuteurs sino-tibétains, tai-kadai et indo-européens.
11
Carte illustrant la répartition des familles linguistiques en Asie orientale et Asie du Sud-est (source : Wikipedia). : Wikipedia). (source orientale et Asie du Sud-est en Asie familles linguistiques illustrant la répartition des Carte
Figure 1-2 1-2 Figure 12
1.2.4.2. Familles linguistiques non étudiées dans ce travail
Les langues des familles présentées ci-dessous sont parlées plutôt dans les régions avoisinantes de l’Asie orientale qui n’ont pas été concernées dans ce travail.
Austronésien : L’austronésien est une grande famille composée de 1'246 langues. En Asie orientale, les langues sont parlées par les aborigènes de l’île de Taïwan. Mais à l’échelle mondiale, les locuteurs de cette famille se trouvent également dans la plupart des îles de l’Asie du Sud-est et de la Pacifique, des Philippines, à Hawaï, à l’île de Pâques, à la Nouvelle-Zélande, et même, dans l’océan Indien, des milliers de kilomètres à l’ouest, à Madagascar. Parmi plus de 300 millions de locuteurs au total, les 47'000 aborigènes taïwanais ne représentent qu’un peu plus de 1%.
Indo-européen : L’indo-européen est une très grande famille regroupant de nombreuses langues parlées en Asie du Sud, en Asie de l’Ouest et en Europe. Notons que les langues tokhariennes furent parlées dans le bassin du Tarim au Nord-ouest de l’Asie orientale au plus tard au premier millénaire de notre ère, et disparurent finalement après l’arrivée des peuples turcophones (en particulier les Ouïghours), au 9ème siècle.
Il est nécessaire de mentionner une petite famille de langues parlées en Sibérie : le tchouktchi-kamtchatkien dont les langues sont utilisées plus à l’est et qui ne dénombrent que 13'712 locuteurs (Gordon 2005). Il y a également en Sibérie quelques langues isolées comme le nivkh et l’aïnou, qui, d’après certains linguistes, composent avec le tchouktchi-kamtchatkien, une famille paléosibérienne (Jakobson 1942).
1.3. Introduction à l’histoire du peuplement de l’Asie orientale
1.3.1. Etudes archéologiques
1.3.1.1. La recherche des vestiges humains
Au cours de la seconde moitié du 19ème siècle, suite à l’œuvre « De l’Origine des Espèces » de Charles Darwin, les sciences de l’évolution bouillonnaient. Les chercheurs fouillaient aux quatre coins du monde afin de trouver le « chaînon manquant » entre les 13
humains modernes et les grands singes. D’après leur point de vue, les premiers hominidés auraient vécu dans des milieux tropicaux, comme d’autres branches de primates, surtout les chimpanzés, les gorilles et les orangs-outans. C’était avec cette passion et cette idée qu’Eugène Dubois, paléoanthropologue hollandais, s’embarqua pour l’île de Sumatra, à la recherche de nos ancêtres disparus.
En 1891, Dubois découvrit des fossiles qu’il décrivit comme « une espèce entre l’homme et les singes anthropoïdes » (Dubois 1894). Il nomma cette espèce Pithecanthropus erectus, ou homme-singe érigé, aussi appelé « l’Homme de Java », aujourd’hui identifié comme un Homo erectus. Ces restes sont également les premiers spécimens humains trouvés hors d’Afrique et d’Europe.
Etonnamment, le continent asiatique, qui paraissait plus intéressant que les îles pour le peuplement humain, ne fournit presque aucune trace d’anciens hominidés à cette époque- là. La paléoanthropologie y était encore un champ vierge. Par exemple, avant les années 1920, la seule évidence témoignant de l’ancienneté de l’occupation humaine en Chine était une dent fossile énigmatique, achetée par le paléontologue allemand Max Schlosser chez un apothicaire (Schlosser 1903; Wu et Olsen 1985), étant donné que les fossiles étaient considérés, par les Chinois, comme des « os de dragons » et utilisés comme médicaments. Peu après la première guerre mondiale, les paléoanthropologues français Pierre Teilhard de Chardin et Emile Licent rapportèrent des objets en quartzite associés au crâne fossile d’un rhinocéros laineux (Coelodonta antiquitatis), près de Shuidonggou à Ningxia. Pendant la même mission, ils découvrirent aussi des fossiles humains avec des outils paléolithiques, à Salawusu sur le plateau mongol (de Chardin et Licent 1924).
Si ces découvertes sporadiques démontrèrent l’ancienneté de l’activité humaine en Chine, il fallut attendre la découverte d’une molaire inférieure humaine en 1927 à Zhoukoudian, à 100 kilomètres de Pékin, pour attirer l’attention de la communauté scientifique internationale. L’anatomiste canadien Davidson Black (1929) nomma cette espèce Sinanthropus pekinensis, aussi connu comme « l’Homme de Pékin ». Deux ans plus tard, le chercheur chinois Pei Wenzhong découvrit le premier calvarium complet 14
(Pei 1929), confirmant l’importance du Sinanthropus dans l’histoire de l’évolution humaine.
Les fouilles continuèrent à Zhoukoudian et ailleurs, et de nouveaux fossiles humains ne cessèrent de compléter la chronologie du Paléolithique en Asie orientale pendant les décennies suivantes.
1.3.1.2. La datation archéologique
Avant de passer aux fossiles et outils lithiques découverts pour différentes périodes, il est nécessaire de discuter des méthodes de datation archéologique, car celles-ci sont fortement liées à la fiabilité du cadre chronologique.
Depuis deux siècles, les archéologues utilisent une méthode stratigraphique pour comparer l’âge des différentes couches d’un site, basée sur la supposition qu’une même couche est du même âge sur toute sa surface, et que les couches récentes recouvrent les couches plus anciennes. L’âge des restes humains peut donc être estimé d’après celui des fossiles animaux associés ou la couche géologique correspondante. Mais cette méthode ne fournit que des informations relatives, car la date absolue de ces associations est également inconnue. La situation s’est améliorée grâce à de nouvelles méthodes physico- chimiques développées au 20ème siècle, telles que la datation par le carbone 14 (14C), et la datation par les séries d’uranium, basées sur des mesures de variation de la proportion d’isotopes radioactifs dans les spécimens (Schwarcz 2002).
Avec ces méthodes de datation absolue, de nombreux sites ont été réétudiés dans le monde. Malgré leurs limites, les deux méthodes citées ci-dessus sont largement utilisées pour l’Asie orientale. En général, les fossiles redatés ont tendance à être plus anciens (Stringer 2001), ce qui pourrait remettre en question l’interprétation de certains sites archéologiques (Trinkaus 2005).
Toutefois, en raison de sources différentes, les dates des sites archéologiques citées dans la littérature sont souvent incompatibles entre différentes sources. Dans les deux sections suivantes, nous présentons les sites dont la date est, selon nous, relativement bien 15
estimée et moins controversée, et qui illustrent (de manière non exhaustive) le cadre chronologique de l’Asie orientale.
1.3.1.3. La morphologie : de l’Homo erectus à l’Homo sapiens
Les fossiles humains nous fournissent des preuves directes de l’histoire du peuplement. Un fragment de mandibule découvert dans la grotte de Longgupo, à Chongqing, a été proposé comme le plus ancien reste osseux humain d’Asie orientale, associé à des ossements animaux et des outils taillés datant de 2,6 à 2,5 Ma5 (Boëdaa et Hou 2011). L’origine humaine des outils est peu controversée, mais les données venant du fossile fragmenté restent insuffisantes pour identifier la position évolutive qu’il représente. Si le résultat de ces premiers humains dans la région est encore discutable, d’abondants restes humains sont en revanche livrés par de nombreux sites plus récents.
Figure 1-3 Position géographique des sites archéologiques d’Homo erectus d’Asie orientale mentionnés dans ce chapitre.
5 Megaanum soit million d’années. 16
En 1965, deux dents fossiles sont retrouvées par hasard à Yuanmou (Yunnan) dans le Sud-ouest de la Chine (Hu 1973). D’après une datation très controversée des couches géologiques, les paléontologues les attribuent à un individu d’une espèce humaine qui aurait vécu il y a 1,7 Ma (Li et al. 1977; Hyodo et al. 2002; Hou et Zhao 2010). Ces incisives supérieures ont une forme « en pelle », et sont semblables morphologiquement et chronologiquement à celles des Homo erectus archaïques de Dmanissi, en Géorgie (Otte 2010), datant d’environ 1,8 Ma (Gabunia et Vekua 1995; Martinon-Torres et al. 2008). Au centre de la Chine, les sites de Lantian (Shaanxi) ont livré plus de témoignages (Chow et al. 1965; Woo 1965) avec des dates plus fiables. Parmi eux, un crâne presque complet, à Gongwangling, est daté d’environ 1,15 Ma, accompagné d’outils de pierre (Zhu et al. 2003). Plus au sud, à Yunxian (Hubei), ont été découverts deux crânes d’Homo erectus (Li et Etler 1992) datés entre 0,67 et 0,49 Ma (Chen et al. 1997). Et n’omettons pas non plus les fossiles et outils associés découverts à Tangshan (Nankin, Jiangsu) et à Hexian (Anhui), remontant à 0,6-0,5 Ma (Chen et al. 1996; Liu et al. 2005) et 0,44-0,39 Ma (Grun et al. 1998), respectivement (Figure 1-3).
Toutefois, c’est le site de Zhoukoudian, déjà mentionné plus haut, qui a été pendant longtemps le site le plus connu de cette période, en raison de sa durée extrêmement longue, de ses restes fauniques importants, et, surtout, de ses vestiges humains exceptionnellement abondants. La grotte consiste en une succession ininterrompue de couches d’occupation humaine s’étendant de 0,7 à 0,23 Ma. Les ossements humains, qui appartiennent à environ 40 individus, parmi lesquels plusieurs crânes très complets, révèlent plusieurs traits physiques typiquement observés dans les populations d’Homo erectus d’Asie orientale : forte saillie de l’occipital, os zygomatique élevé, os nasal large, front fuyant, mandibule massive et incisives supérieures « en pelle ». Ces caractéristiques permettent de définir soit une forme évoluée d’Homo erectus, soit une sous-espèce, appelée, dans ce cas, « le Sinanthrope » (Wu et Olsen 1985).
Ces restes humains paléolithiques reflètent une longue interaction entre la morphologie, l’environnement, et la culture. D’après les restes fossiles, les Homo erectus d’Asie orientale semblent avoir évolué, notamment, par une augmentation du volume 17 cérébral. Le crâne de Jinniushan daté entre 280 et 230 ka 6 a un volume cérébral considérablement grand -1'390 ml- comparé à une moyenne de 1'088 ml (entre 1'140 et 1'030) chez les humains de Zhoukoudian. Cette tendance est en fait un processus observé également chez les humains contemporains en Afrique ou en Europe (Norton et Braun 2010). A environ 250 ka, la transition morphologique vers notre espèce, l’Homo sapiens, est évidente pour les paléontologues. En raison de quelques traits encore partagés avec l’Homo erectus, ces derniers définissent les humains de cette période comme des Homo sapiens archaïques. Deux fameux sites représentatifs de ce stade sont à Maba (230 à 180 ka) et à Dali (169 à 127 ka) (Figure 1-4).
Finalement, la morphologie des fossiles humains du Pléistocène supérieur paraît identique à la nôtre. Contrairement à la richesse des fossiles plus anciens, relativement peu de restes de ces humains anatomiquement modernes ont été découverts pour cette période critique, qui coïncide approximativement avec la dernière grande glaciation, le Würm (Fagan 2009). Dans une grotte située au dessus de celle des Homos erectus, à Zhoukoudian, les chercheurs ont découvert entre 1933 et 1934 des fossiles d’ossements ayant appartenu à au moins huit individus, incluant trois crânes quasi-complets (Pei 1934; 1939). Leur âge a été déterminé d’après des fossiles animaux associés : fin du Pléistocène. Bien que les trois crânes présentent une énorme variation interindividuelle, ces humains de la « grotte supérieure » sont toujours reconnus comme les meilleurs représentants d’Homo sapiens. La date absolue, selon des datations récentes, se situe entre 33,2 et 13,2 ka pour les ossements animaux, et entre 29 et 24 ka d’après les vestiges culturelles (Chen et al. 1989). Dans le Sud-ouest de la Chine, un crâne trouvé à Liujiang serait l’un des plus anciens représentants d’Homo sapiens. Malheureusement, aucun vestige culturel n’a été retrouvé (ce fut en fait une trouvaille accidentelle), et les dates estimées restent très controversées, variant entre 153 et 68 ka (Shen et al. 2002).
A part cela, quelques sites récemment découverts en Chine ont livré des fossiles d’Homo sapiens intéressants. Dans la Grotte Tianyuan, à six kilomètres au sud-ouest de Zhoukoudian, une mandibule humaine a été trouvée et datée à 42-39 ka (Shang et al.
6 Kiloannum, soit millier d’années. 18
2007). Pas loin de Liujiang, dans la Grotte Zhiren, quelques fragments osseux humains, y compris une mandibule, ont été datés de plus de 100 ka (Liu et al. 2010). Aucun crâne complet n’a été découvert à ces sites, ce qui crée une grande difficulté à établir avec certitude la position évolutive de ces restes.
A cette époque, on remarque également une expansion de la présence humaine vers les régions périphériques de l’Asie orientale, comme le sud de la Sibérie (Mal’ta, date de 21 ka (Kuzmin et Tankersley 1996)), ainsi que l’île de Luzon (Grotte de Callao, date de 67 ka, (Mijares et al. 2010)), l’archipel Ryukyu (Yamashita-cho, Okinawa, date de 32 ka (Suzuki 1983)), et l’île de Taïwan (Site Zuozhen, date de 30-20 ka (Chen 1970)). Ces îles étaient alors rattachées au continent en raison du bas niveau des mers pendant la dernière glaciation (Figure 1-4).
Figure 1-4 Position géographique des sites archéologiques d’Homo sapiens d’Asie orientale mentionnés dans ce chapitre. 19
1.3.1.4. La culture : du Paléolithique au Néolithique
Outre les fossiles, quelques sites récemment découverts ont fourni d’anciennes traces indirectes de l’activité humaine en Asie orientale, dès l’aube du Paléolithique. Le site de Renzidong (Anhui), daté entre 2,5 et 2 Ma, a livré une grande quantité de pierres taillées (Zhang et al. 2000; Hou et Zhao 2010). Plus au nord, Le site de Majuangou (Hebei) a livré des outils de pierre, dont la couche la plus inférieure a été datée de 1,66 Ma (Zhu et al. 2004). Ces découvertes révèlent que la présence du genre Homo en Asie orientale date d’au moins 2 Ma, ce qui précède même l’apparition d’Homo erectus.
En Asie orientale comme dans d’autres régions, le Paléolithique est subdivisé en trois grandes périodes : Paléolithique inférieur, moyen et supérieur. Les sites connus du Paléolithique inférieur sont concentrés dans le Nord et le centre de la Chine. Les vestiges culturels ne sont pas toujours accompagnés de fossiles d’Homo erectus, et vice versa. L’outillage de cette période est morphologiquement très diversifié, et les techniques de production sont relativement simples. Au site de Zhoukoudian, on observe toutes les composantes culturelles majeures de l’évolution humaine : façonnage des pierres taillées, maîtrise de la chasse, et possible utilisation du feu. Le développement culturel fut lent et graduel, jusqu’à environ 200 ka (Wu et Olsen 1985).
L’outillage trouvé en Asie orientale possède une caractéristique très remarquable, qui a déjà apparu au site de Renzidong : la majorité des outils lithiques sont produits à partir d’éclats7 tranchants, par l’utilisation de matières végétales dures, comme le bambou, un matériel abondant dans la région (Otte 2010). Cette tradition de l’outillage fut poursuivie au cours du Paléolithique, comme l’attestent de nombreux sites. D’après des éclats préparés, diverses formes d’outils primaires furent réalisées, avec une importante proportion de galets taillés dits « choppers ». Des archéologues occidentaux avaient remarqué que la grande majorité des galets taillés en Asie orientale étaient « unifaciaux », distincts des outils « bifaciaux » acheuléens d’Afrique et d’Europe. L’archéologue américain Hallam Movius (1948) proposa ainsi une ligne théorique à travers l’Inde du Nord et l’Europe de l’Est distinguant l’outillage d’Occident et d’Orient, ou les
7 Un éclat est un fragment de roche détaché intentionnellement d'un bloc par percussion ou par pression. 20 technologies qu’il considérait « avancées » et « primaires », respectivement. Mais en réalité, les outils bifaciaux ont également été découverts à Bose, dans le Sud-ouest de la Chine (Hou et al. 2000; Lycett et Bae 2010).
Contrairement à la transition Paléolithique/Néolithique bien reconstruite pour l’Europe, l’Asie orientale a livré relativement peu de traces de la dernière partie du Pléistocène (Norton et Braun 2010). Dans le Nord de l’Asie orientale, les chercheurs ont remarqué l’apparition d’une technologie « microlithique » de l’ouest de la Sibérie jusqu’au Japon, entre 33°N et 70°N de latitude. Des archéologues chinois proposent que l’origine et le développement de cette industrie microlithique soient profondément enracinés dans la tradition paléolithique du Nord de la Chine (Wu et Olsen 1985).
Quant au Sud, la transition entre le Paléolithique et le Néolithique est bien courte, voire inexistante. C’est aussi dans le Sud que l’on a découvert des phytolithes de grains de riz sauvages datant de 12 ka à Diaotonghuan (Jiangxi), non loin du fleuve Yangzi (Zhao 1998). Des céréales importantes, le riz (Oryza sativa) et les deux millets (Panicum miliaceum et Setaria italica) furent domestiquées, respectivement, dans le Sud et dans le Nord, faisant entrer l’histoire de l’Asie orientale dans le Néolithique (Lu 1999; Jones et Liu 2009; Cohen et al. 2011).
1.3.2. L’origine des humains modernes en Asie orientale
1.3.2.1. Modèle de continuité régionale (modèle multirégionaliste)
Seulement quelques années après la découverte de l’Homme de Pékin, l’anatomiste et anthropologue allemand Franz Weidenreich (1937) remarque, sur les crânes fossiles de Zhoukoudian, un trait qu’il considère comme caractéristique des « Mongoloïdes » : les incisives « en pelle ». D’après lui, ce trait montrait une continuité de l’évolution morphologique humaine en Asie depuis Homo erectus : c’est-à-dire que les Pékinois contemporains porteraient encore les dents antérieures similaires à celles de l’Homme de Pékin, qui vécut presque au même endroit il y a des centaines de milliers d’années, et qui serait leur ancêtre direct ! 21
A cette l’époque où les anthropologues défendaient encore la notion de « races » humaines et argumentaient tellement en faveur de différences physiques entre « Mongoloïdes », « Caucasoïdes » et « Négroïdes », il leur semblait peu probable que l’origine commune de ces soi-disant « races » fut récente. Vu que les plus anciens fossiles d’hominidés provenaient d’Afrique, cette origine commune devait dater de millions d’années. En Asie, la chronologie d’Homo erectus a été très documentée par l’explosion récente des découvertes de sites paléolithiques en Chine. Parmi elles, les fossiles de Yuanmou, de Lantian, de Tangshan, de Zhoukoudian, jusqu’à ceux de la Grotte supérieure, manifestaient sans exception des traits physiques considérés par certains archéologues comme « typiquement mongoloïdes », notamment les incisives centrales supérieures en pelle observés sur tous les spécimens de ces sites (Wu et Zhang 1978; Wu et Dong 1985). Les traits anciens et primaires se transformaient donc localement vers des traits plus « modernes » ou plus proches des nôtres, illustrant une belle continuité évolutive d’Homo erectus à Homo sapiens en Asie orientale (Wu et Dong 1985; Etler 1996; Wu 2004).
De plus, certains archéologues soutiennent aussi une continuité des traditions de l’outillage en Asie orientale. D’après le site de Renzidong, leur origine daterait du début du Paléolithique, où la majorité des outils en pierre étaient produits à partir du débitage d’éclats tranchants (Otte 2010). Cette tradition technique se serait poursuivie en s’affinant au cours des temps paléolithiques. Représentée par de nombreux sites, elle attesterait, mieux que les fossiles, l’intensité de l’occupation humaine dans cette région. Au site de Yuanmou, on note par exemple des modes de débitage centripètes lors de la préparation des outils de pierre, sous forme de petits nucléi et d’éclats orientés. On retrouve également cette forme de Bose à Zhoukoudian, y compris dans la Grotte Supérieure (Zhang et al. 2003).
En résumé, selon ces archéologues, durant toute la période s’étendant jusqu’à la fin paléolithique, nulle trace d’influence externe ne serait observable, ni dans l’anatomie, ni dans le comportement des hominidés. Il semblait donc logique de conclure que les populations actuelles étaient des descendantes directes, par une évolution autonome, des Homo erectus locaux. De nombreux archéologues asiatiques, surtout chinois, se mirent 22
d’accord sur cette hypothèse, dite multirégionaliste, d’évolution des humains modernes (Wu et Olsen 1985; Wu 2006). D’ailleurs, en considérant l’Asie orientale comme l’un des berceaux principaux de l’humanité, le sentiment patriotique s’en trouvait gratifié.
Si cette conclusion est restée solide, voire indiscutable, pour certains paléoanthropologues et archéologues pendant une longue période, des études de généticiens l’ont fondamentalement bouleversée dans les années 1980.
1.3.2.2. « Out-of-Africa » (modèle unirégionaliste)
La génétique des populations a été fondée par Ronald Fisher, John Haldane et Sewall Wright, entre les années 1920 et 1940. Cette nouvelle discipline, en faisant le lien entre la génétique mendélienne et la théorie darwinienne de l’évolution, s’est alors intégrée dans la recherche de l’origine de notre espèce. Grâce aux méthodes sérologiques, les généticiens ont réussi à observer la variation des molécules présentées sur les cellules sanguines, et à étudier les systèmes génétiques qui déterminent ces variations, comme ABO, RH, GM, HLA, etc. Les variantes de ces systèmes souvent dits « classiques » (bien que leur statut ait changé depuis grâce à leur typage moléculaire), présentent des fréquences diverses dans différentes populations humaines, reflétant la plupart du temps les traces laissées par l’histoire du peuplement humain, telles que les migrations et l’histoire démographique. Par l’analyse de ces systèmes, on a donc la possibilité d’estimer la diversité génétique au sein des populations et des distances génétiques entre populations, d’étudier les différenciations de groupes de populations, dans le but de reconstituer, finalement, l’histoire du peuplement humain.
Ainsi, les résultats se sont accumulés au cours des années 1960 et 1970. A l’aide de cela, des généticiens, notamment les équipes de Luigi Luca Cavalli-Sforza et d’André Langaney, à Stanford et à Genève, respectivement, ont proposé un « split » initial de l’espèce humaine en deux groupes, dont l’un aurait été composé des ancêtres des Africains, Européens et Proche-Orientaux, à l’ouest, et l’autre des ancêtres des Asiatiques, Océaniens et Amérindiens, à l’est (Cavalli-Sforza et Bodmer 1971; Langaney 1979; 1984). Entre les régions peuplées par les descendants des deux groupes, cette hypothèse localise également le lieu de leur origine : quelque part entre l’Afrique de l’Est et l’Inde. 23
Un des arguments principaux soutenant ce modèle est que les populations actuelles de ces régions présentent la diversité génétique la plus élevée du monde, et que cette diversité diminue généralement par dérive génétique lorsque l’on s’éloigne du lieu d’origine (Sanchez-Mazas et Langaney 1988).
A la fin des années 1980, un autre outil puissant a contribué à ces études : le développement de la biologie moléculaire. Grâce aux techniques de séquençage d’ADN, les généticiens sont dès lors capables d’établir la généalogie des fragments d’ADN de certaines régions de notre génome, en construisant des arbres généalogiques, ou « phylogénétiques ». Ces approches utilisent des estimations de la vitesse de mutation des nucléotides pour indiquer l’âge de séparation entre les branches, technique appelée « l’horloge moléculaire ». Les marqueurs à transmission monoparentale, c’est-à-dire ceux qui sont portés par l’ADN mitochondrial, d’une part, et la région non-recombinante du chromosome Y, d’autre part, ont été les premiers marqueurs de choix, car ils permettaient d’éviter la complexité des généalogies en cas de recombinaison (Cavalli-Sforza et al. 1994).
En 1987, la généticienne américaine Rebecca Cann et ses collègues ont publié les résultats de leurs analyses sur l’ADN mitochondrial. Un arbre phylogénique a été reconstruit à partir d’une comparaison de fragments d’ADN de longueurs variables (RFLP8 HVS-I9) appartenant à 147 individus humains provenant de cinq populations. Les chercheurs ont observé une séparation initiale des haplogroupes mitochondriaux uniquement trouvés en Afrique et en ont conclu une origine africaine de notre espèce (Cann et al. 1987). A l’instar de cette publication, nombreuses études ont été réalisées, avec davantage d’échantillons, sur davantage de populations modernes du monde entier. La séquence complète de l’ADN mitochondrial et de la région non-recombinante du chromosome Y ont aussi été considérées dans des analyses combinant la phylogénie des séquences et leur répartition géographique correspondante, méthodes dites « phylogéographiques » (Avise et al. 1987; Avise 1989).
8 De l’anglais Restriction Fragment Length Polymorphism. 9 De l’anglais HyperVariable Segment-I. 24
Pour l’Asie orientale, Chu et ses collègues (1998) ont réalisé une étude utilisant les données de 30 marqueurs microsatellites d’autosomes dans 28 populations chinoises et plusieurs populations des autres continents. Les auteurs ont suggéré, d’après leurs résultats, que toutes les populations étudiées dérivaient d’un cluster unique représenté par les populations africaines, favorisant fortement l’hypothèse d’une origine africaine récente des populations est-asiatiques actuelles. Cette conclusion a ensuite été soutenue par plusieurs études sur d’autres marqueurs (Kaessmann et al. 1999). D’autres études ont aussi montré que le taux de diversité génétique des populations africaines actuelles, particulièrement celles d’Afrique de l’Est, était généralement supérieur à celui des populations des autres régions du monde. Cependant, à la même période, un article de Ke et ses collèges (2001) fournit à nouveau des arguments en faveur d’une origine récente des humains modernes en Asie orientale, d’après l’analyse de 12'127 chromosomes Y représentant 163 populations.
Peu à peu s’accroît notre connaissance sur le rôle important qu’aurait joué l’Afrique de l’Est dans l’origine de l’Homo sapiens. Des généticiens ont alors suggéré que tous les humains modernes « non-africains » d’aujourd’hui, y compris les Est-asiatiques, soient les descendants d’un sous-groupe Homo sapiens ayant quitté l’Afrique de l’Est au Pléistocène supérieur. Cette hypothèse « unirégionaliste », que l’on nomme parfois « Out-of-Africa », est aussi soutenue par des données paléontologiques, surtout celles des fossiles du site d’Omo Kibbish, en Ethiopie, que des paléoanthropologues considèrent comme les vestiges des premiers Homo sapiens qui y vécurent. Une datation autour de 195 ka (McDougall et al. 2005) rend ces fossiles les plus anciens qui soient actuellement rattachés aux humains anatomiquement modernes. Elle coïncide aussi avec l’âge estimé, dans l’étude de Cann et al., pour la séparation initiale des haplogroupes « uniquement » africains, soit 200 ka environ (Cann et al. 1987). De plus, la majorité des paléoanthropologues et des archéologues acceptent l’idée que les humains modernes apparurent suite à un événement de spéciation à partir des Homo erectus africains, communément appelés Homo ergaster, et des Homo archaïques africains, car l’Afrique a livré la plupart des vestiges des humains modernes plus anciens que 100 ka. et parce qu’une continuité morphologique des fossiles y est clairement reconnue. 25
Hors d’Afrique, c’est au Proche-Orient que les plus anciens fossiles d’humains modernes ont été trouvés, datant d’environ 100 ka (Bar-Yosef et Vandermeersch 1993). Dans d’autres régions, plusieurs sites d’humains modernes datés de 60-50 ka existent en Malaisie, aux Philippines (Mijares et al. 2010), ainsi qu’en Nouvelle-Guinée (Gosden 2010), à des milliers de kilomètres plus loin encore. Si on accepte l’hypothèse que tous ces humains ont une origine commune récente africaine, il faut chercher à expliquer les routes de leurs migrations vers ces régions.
A partir des résultats génétiques et en prenant des informations géographiques, les généticiens ont alors proposé deux routes de migrations de cet « Exode » (Mellars 2006):
- Depuis l’Afrique de l’Est vers le Sinaï, et du Sinaï au Levant.
- Depuis l’Afrique de l’Est vers l’Arabie, par le Détroit de Bab-el-Mandeb.
La première hypothèse est favorisée par les données archéologiques, vu l’ancienneté des fossiles trouvés au Proche-Orient, qui furent possiblement, en effet, les descendants de pionniers humains. Certains, parmi eux, poursuivirent leur route vers l’est.
Cependant, d’autres généticiens préfèrent la deuxième hypothèse, en se basant principalement sur la présence de lignages très anciens10 de l’ADN mitochondrial chez les aborigènes des îles Andaman, situées près du Myanmar. En adoptant la théorie des horloges moléculaires, ces lignages, dans les arbres phylogéniques, seraient dérivés d’une lignée prédominante en Eurasie, datant d’environ 63 ka. La limite inférieure du peuplement des îles Andamans est alors proposée à 45 ka (Thangaraj et al. 2005). Certains généticiens proposent donc une « migration rapide » le long des côtes de l’océan Indien vers l’Asie du Sud-est, puis vers l’Australie (Macaulay et al. 2005).
1.3.2.3. Débats
Comme mentionné plus haut, les principaux arguments archéologiques soutenant l’hypothèse « Out-of-Africa » sont l’ancienneté, la continuité morphologique et la richesse de fossiles d’Homo sapiens retrouvés en Afrique. En revanche, peu de fossiles
10 M31 et M32, plus précisément. 26
sont présents en Asie orientale pour le Pléistocène supérieur, période critique pour la spéciation d’Homo sapiens. Effectivement, cette faiblesse d’argumentation soutenant l’hypothèse multirégionale est systématiquement pointée par les généticiens, qui mettent en évidence l’origine africaine récente des haplotypes et haplogroupes moléculaires observés dans les populations est-asiatiques. Ceux-ci insistent également sur la « lacune » de fossiles humains en Chine entre 100 et 40 ka (Jin et Su 2000), remettant en question la continuité chronologique des fossiles déclarée par les paléoanthropologues et archéologues multirégionalistes. D’après ces généticiens, les descendants directs des Homo erectus d’Asie orientale, qui y habitaient depuis environ un million d’années sans interruption, finirent par s’éteindre à cause du froid et de la sécheresse de la glaciation du Würm (Jin et Su 2000). La région, qui fut dès lors une « terra nullius », accueillit finalement l’arrivée des humains modernes d’origine africaine, à une date néanmoins inconnue.
La soi-disant continuité morphologique, en Asie orientale, des traits physiques d’Homo erectus à Homo sapiens est aussi devenue la cible de critiques, car la morphologie est façonnée non seulement par la génétique, mais aussi par d’autres facteurs, tels que l’environnement et la condition individuelle (Norton et Braun 2010). En outre, des traits cités comme typiquement « mongoloïdes » ne montrent pas de vraie spécificité, n’étant pas complètement absents, mais présents avec un plus faible taux d’occurrence dans les populations des autres continents (Wu et Olsen 1985).
Les paléoanthropologues et les archéologues, parmi lesquels la majorité des chercheurs chinois du domaine, refusent ces conclusions. D’abord, les dates des fossiles sont très controversées, et, d’après eux, ces généticiens ne choisissent, dans leurs arguments, que celles qui tombent dans la lacune de fossiles humains (Wu 2004). Ils soulignent également l’importance de la continuité des traditions de l’outillage en Asie orientale (Wu 2004). En même temps, ils attendent que des évidences plus solides de la présence d’Homo sapiens dans la période critique soient fournies par de nouvelles fouilles archéologiques. Or, cet espoir, s’il n’est pas encore vain, est loin d’être satisfait. Seules quelques découvertes ont été réalisées depuis : un crâne d’Homo sapiens et des fossiles associés de vertébrés, à Xuchang (Henan), datant entre 100 et 80 ka (Norton et 27
Jin 2009), et des éclats et restes osseux, dans la grotte de Huanglong (Hubei), datant entre 100 et 40 ka (Wu et al. 2006).
Certes, les approches génétiques elles-mêmes ont aussi leurs limites. D’une part, les méthodes phylogéographiques permettent aux généticiens de proposer des lieux d’origine des variantes moléculaires d’un certain marqueur génétique, sur la base de leur distribution dans les populations échantillonnées, de leur âge estimé par l’horloge moléculaire, et de leur position généalogique dans l’arbre phylogénique. Mais l’estimation de cet âge est souvent soumise à d’énormes erreurs et la topologie des arbres phylogéniques peut être très instable. De plus, ces méthodes ne peuvent être appliquées que sous plusieurs hypothèses préliminaires, comme une vitesses d’évolution moléculaire constante, un taux nul ou très faible d’homoplasie, et une absence de recombinaisons génétiques (Blench et al. 2008). Il y a encore un désavantage, c’est que la majorité des données échantillonnées et étudiées dans ces études génétiques citées plus haut proviennent des populations modernes et non pas des populations anciennes des périodes étudiées, qui pourraient donc donner une impression trompeuse sur le passé (Willerslev et Cooper). Les progrès réalisés en analyse de l’ADN ancien ouvrent de nouvelles perspectives dans ce contexte, mais la petite taille des échantillons anciens et la contamination deviennent des autres défis.
En résumé, malgré tous ses défauts, l’hypothèse « Out-of-Africa » demeure le modèle le plus compatible avec les observations paléoanthropologiques, archéologiques et génétiques actuelles. La plupart des généticiens l’acceptent et la considèrent comme un modèle de base, même si les détails de ce modèle restent discutés (Templeton 2002; Henn et al. 2011; Pickrell et al. 2012). Quand il s’agit d’interpréter certains résultats, il est néanmoins important de toujours conserver une attitude prudente afin d’éviter des conclusions trop simplistes.
1.3.2.4. Flux géniques possibles avec des humains archaïques
Le modèle « Out-of-Africa » est généralement associé à l’hypothèse de « remplacement » d’espèces humaines. Sous ce modèle, l’expansion des humains anatomiquement modernes, ou Homo sapiens, hors d’Afrique, qui daterait d’environ 100 28
ka ou moins, serait suivie du remplacement total de tous les humains archaïques préexistants. En d’autres termes, il n’y aurait pratiquement pas de contribution génétique de ces derniers à notre patrimoine génétique d’aujourd’hui. Le modèle d’évolution multirégionale stipule, quant à lui, que les humains modernes ont évolué parallèlement et indépendamment dans les différents continents, sans flux géniques mutuels (Relethford 2008).
En réalité, les débats autour des deux modèles, comme ceux dont nous avons parlé dans la dernière section, reflètent des affrontements scientifiques assez extrêmes. Inspirés par les arguments génétiques, certains archéologues commencent à proposer un modèle intermédiaire, mettant l’accent sur un métissage possible, de degré quelconque, entre les humains modernes immigrants et des humains archaïques locaux, en Europe et/ou en Asie (Wu 1998; Smith et al. 2005; Relethfordm 2007). Cette possibilité, même du point de vue génétique, n’est pas à exclure.
En Europe, certains vestiges fossiles ont été interprétés comme des évidences de métissage entre Homo sapiens et Homo neanderthalensis11. Sur le crâne d’un enfant Homo sapiens 12 de quatre ans découvert au Portugal, qui date de 25 ka, certains paléoanthropologues ont considéré quelques traits physiques comme étant néandertaliens (Duarte et al. 1999). En Asie orientale, la « continuité morphologique » entre Homo erectus et Homo sapiens, dont nous avons discuté plus haut, est toujours argumentée par des traits physiques communs. Durant ces dernières années, le séquençage du génome néanderthalien complet à partir de spécimens osseux appartenant à quelques individus a suggéré une contribution génétique possible néanderthalienne aux humains modernes, pendant des milliers d’années de cohabitation au Pléistocène supérieur. Les résultats restent controversés, mais il semble toutefois que l’influence de cette espèce d’hominidé ancienne soit mineure (Green et al. 2010; Reich et al. 2010; Currat et Excoffier 2011).
11 Les Homo neanderthalensis, ou Néandertaliens sont des humains ayant vécu en Europe et en Asie au Paléolithique moyen et supérieur, entre environ 250'000 et 28'000 ans avant le présent. 12 « Les Cro-magnon », pour le grand public, sont parmi les premiers Homo sapiens apparus en Europe au Paléolithique supérieur ; le fossile le plus ancien date d’environ 35'000 ans avant le présent. 29
1.3.3. Différenciation nord-sud en Asie orientale
Laissant de coté les polémiques sur l’origine des populations humaines est-asiatiques, nous passons à présent à une observation beaucoup plus robuste sur la structure inter- populationnelle de la région.
1.3.3.1. Structure morphologique et génétique
Contrairement au long débat sur l’origine d’Homo sapiens, les paléoanthropologues et les généticiens ont mis en évidence une caractéristique très remarquable de la structure morphologique et génétique dans les populations est-asiatiques.
Déjà dans les années 1960, grâce à l’accumulation des découvertes de fossiles humains en Chine, les chercheurs ont observé des différences de traits physiques crâniens entre les populations du Nord et du Sud de l’Asie orientale (pour simplifier, nous allons utiliser NEA et SEA pour désigner ces populations nord-est-asiatiques et sud-est- asiatiques, respectivement) (Wu 1962). Le travail de l’anthropologue américain Christy Turner II sur les morphologies dentaires a aussi révélé cette différence (Turner 1987), 20 ans plus tard. En étudiant systématiquement un grand échantillon de fossiles de différentes périodes néolithiques, Chen et Zhang (1998) ont montré qu’au début du Néolithique, une différenciation morphologique entre les populations NEA et SEA était évidente, par rapport à aujourd’hui. Certains pensent même que cette différenciation est déjà illustrée par les différences morphologiques entre l’Homme de la Grotte supérieure et l’Homme de Liujiang (Chen 1986; Liu et al. 2006). Des analyses effectuées par Wu et ses collègues (2012) ont soutenu statistiquement cette observation.
En accord, cette fois, avec l’archéologie, la génétique a fait des observations similaires à ce propos. Commençons par le système sanguin ABO. Ce premier marqueur génétique à avoir été découvert (Landsteiner 1900), et qui est étudié dans les populations chinoises depuis les années 1920, a donné des résultats significatifs dans ce sens, avec une variation de fréquences des allèles A, B et O entre les populations NEA et SEA (Du et al. 2004).
Des résultats similaires ont été obtenus pour d’autres systèmes génétiques « classiques » ou « non-classiques », comme GM, KM (Sanchez-Mazas 1990; Zhao et 30
Lee 1989), HLA (Chen et al. 1987; Sanchez-Mazas 1990), des microsatellites nucléaires (Chu et al. 1998), etc. Du et ses collègues (1997) ont appliqué une méthode de regroupement13 à 67 populations chinoises (30 populations Han et 37 populations non- Han), basée sur des distances génétiques calculées sur des données de fréquences de 38 marqueurs génétiques classiques. La topologie de l’arbre a clairement montré que les populations NEA et SEA se différenciaient en deux groupes. Une même conclusion a également été tirée pour le chromosome Y et l’ADN mitochondrial sur la base de comparaisons de fréquences et d’analyses en composantes principales (Yao et al. 2002; Wen et al. 2004; Shi et al. 2005).
Seul un nombre limité d’études ont obtenu des résultats contradictoires. Ding et ses collègues (2000) ont examiné le chromosome Y, l’ADN mitochondrial et des variations des autosomes et n’ont pas observé de différenciation nord-sud. Or, pour représenter les populations SEA, ces auteurs ont utilisé principalement des échantillons de populations tibéto-birmanes du Sud-ouest de la Chine, qui ont une origine récente au Nord et ont donc, selon nous et d’autres, biaisé les résultats (Shi et al. 2005).
1.3.3.2. Frontière génétique
Grâce à ces résultats globalement concordants, la majorité des chercheurs reconnaissent une différenciation nord-sud dans la structure génétique des populations d’Asie orientale (Zhang et al. 2007a). Une question s’est posée naturellement : la transition entre les populations NEA et SEA est-elle graduelle, ou abrupte ? Autrement dit, existe-t-il, ou non, une frontière génétique significative marquant les différences génétiques entre ces populations ? Contrairement au fait bien établi de l’existence de différenciations nord-sud, la question de la frontière est encore très controversée.
Une frontière génétique est souvent liée à une barrière géographique, par exemple un grand fleuve, une chaîne de montagnes, un détroit, etc., qui, souvent difficile à traverser par les humains, restreint considérablement les flux géniques entre les populations qu’elle sépare (Hartl et Clark 2007).
13 Clustering en anglais. 31
En Asie orientale, plusieurs barrières géographiques nord-sud existent. Au milieu de la Chine coule le fleuve Yangzi autour de 30°N, qui est le deuxième fleuve le plus long et le troisième fleuve le plus large du monde. Ayant une largeur de plus de 10 km, il aurait limité les migrations de populations humaines. A quelques centaines de kilomètres au nord se trouvent la montagne Qin et le fleuve Huai (ligne Qin-Huai), qui marquent l’isotherme de 0°C en hiver, et qui sont aussi des barrières potentielles (Tregear 2007). Il est intéressant de relever que ces deux barrières sont considérées, en Chine, comme des frontières naturelles entre le Nord et le Sud. Durant les derniers 2'000 ans, ces barrières marquèrent également la frontière politique entre différents royaumes. Plus au nord, on connaît l’existence de la Grande Muraille. Sa première construction, il y a 2'500 ans, est bien entendu trop récente pour jouer un rôle dans l’histoire du peuplement. Cependant, cet ensemble de fortifications militaires a été construit le long de chaînes de montagnes stratégiques pour défendre la frontière nord des dynasties chinoises, dont la base économique était l’agriculture, contre les ethnies nomades des steppes mongoles ; il marque donc non seulement une séparation politique et des chaînes de montagnes stratégiques, mais aussi deux modes de vie distincts, la paysannerie et le nomadisme, liés à des environnements différents qui y persistent au moins depuis la dernière grande glaciation (Wang 1994).
Certains anthropologues physiques ont les premiers suggéré le fleuve Yangzi comme une frontière principale marquant des différences morphologiques entre populations, par exemple dans un travail sur 11 traits physiques étudiés dans 41 populations modernes en Chine (Zhang 1988). En observant des différenciations sur le système GM, Zhao et Lee (1989) ont également proposé le fleuve Yangzi comme limite entre les populations NEA et SEA. Mais la détermination d’une frontière génétique exige des méthodes statistiques capables d’évaluer si les différences observées sont significatives, telle que SAMOVA14, qui cherche à identifier des zones à travers lesquelles les populations, bien que géographiquement proches, sont génétiquement les plus diversifiées (Dupanloup et al. 2002). En 2005, Xue et ses collègues ont appliqué une méthode alternative sur trois marqueurs génétiques (ABO, HLA-A et TPOX) et ont à nouveau démontré l’importance
14 De l’anglais Spatial Analysis of MOlecular VAriance. 32
du fleuve Yangzi comme frontière génétique (Xue et al. 2005), bien que, selon notre réanalyse de leurs données ABO avec une méthode similaire à SAMOVA, les résultats marquent plutôt la ligne Qin-Huai comme frontière (résultats non publiés). Plus récemment, ces chercheurs (Xue et al. 2008) ont analysé des données du chromosome Y et de l’ADN mitochondrial et ont bougé la frontière au niveau de la ligne Qin-Huai pour le chromosome Y tout en la maintenant au niveau du fleuve Yangzi pour l’ADN mitochondrial.
Pour certains autres généticiens, par contre, la différenciation nord-sud est plutôt un phénomène dû à l’isolement par la distance (Wright 1943; Malécot 1948), et une frontière génétique n’existe donc pas nécessairement (Karafet et al. 2001).
Notons que toutes les études que nous venons de citer ont porté sur des populations modernes. Mais récemment, des archéologues (Liu et al. 2010) ont aussi proposé que le fleuve Yangzi et la montagne Qin aient constitué une barrière aux migrations des populations depuis le Néolithique. Concernant l’ADN ancien, les données actuelles ne sont pas encore suffisantes pour une recherche de frontière génétique. On a également discuté d’un effet récent de certaines barrières culturelles ou politiques. Par exemple, le linguiste Laurent Sagart, sur la base de différences de dialectes chinois parlés de part et d’autre de la ligne Qin-Huai, a suggéré que la frontière marquée par ce fleuve reflète une séparation politique entre les dynasties Song et Jin, au 13ème siècle (Sagart 2005).
1.3.3.3. Aspects linguistiques
L’Asie orientale est une région ayant une structure linguistique complexe. D’un point de vue de la linguistique historique, il est possible d’apparenter les langues modernes en appliquant des méthodes comparatives sur la prononciation des mots. Certains linguistes ont essayé d’estimer l’âge des familles linguistiques à partir de reconstructions d’arbres linguistiques basés sur les nombres de mots communs du vocabulaire de base et calibrés sur des échelles de temps absolues, un peu comme les reconstructions phylogénétiques utilisées par les généticiens et calibrées par une horloge moléculaire. Des centaines de langues est-asiatiques ont ainsi été affiliées à plusieurs familles linguistiques différentes, au sein desquelles elles se seraient différenciées à partir d’une langue ancestrale. Or, cette 33
méthode, dite la glottochronologie, est extrêmement controversée. Blust (2000) a montré que les langues descendant d’une même proto-langue ne préservaient pas la même quantité de vocabulaire ancestral. En réalité, les linguistes n’arrivent pas encore à bien dater l’âge des familles indépendamment de l’archéologie (Blust 2000).
Comme les mots d’une langue changent au cours du temps, on peut observer une perte de similarité entre deux langues-sœurs dérivées d’une même langue mère, au fil du temps, jusqu’à ce que toute trace d’apparentement ait disparu. Cette durée serait seulement de 10'000 ans, comme certains l’ont proposé (Hock 1986). L’écriture permet en partie d’étudier l’évolution des langues anciennes jusqu’à aujourd’hui. Mais l’invention du premier système d’écriture ne date que du 4ème millénaire avant notre ère, ce qui est très récent comparé à l’origine du langage, qui, dans un certain sens, se rattache à l’acquisition de la capacité de parler chez nos ancêtres, il y a des centaines de milliers d’années. Nous ne serions donc jamais capables, d’après de nombreux linguistes, de rétablir des relations phylogénétiques entre familles linguistiques en-deçà du Néolithique. Hélas, en ce qui concerne les origines et les migrations paléolithiques des populations humaines, la linguistique est souvent moins informative que la génétique, l’archéologie et la paléontologie.
1.3.4. Modèles concernant les routes de migrations vers l’Asie orientale
Puisque la différenciation nord-sud des populations est-asiatiques ne cesse d’être mise en évidence dans les études génétiques, l’origine de cette différenciation mérite une investigation profonde. Plusieurs mécanismes, ou facteurs évolutifs et démographiques, peuvent créer des différenciations génétiques. Dans notre cas, qui concerne une différenciation notable sur une échelle de milliers de kilomètres, on peut considérer les deux explications suivantes, toutes deux étant liées à l’origine des populations est- asiatiques. D’après l’hypothèse « Out-of-Africa » acceptée par la plupart des généticiens, les ancêtres communs les plus récents de tous les humains modernes, si on ne tient pas compte du métissage très mineur avec des humains archaïques comme les Néandertaliens, seraient des hommes anatomiquement modernes qui habitaient en Afrique de l’Est ou en 34
Asie du Sud-ouest, il y a environ 100'000 ans. L’origine dont nous parlons ne serait donc toutefois pas plus ancienne que cette date.
La première explication est que si l’on observe une différenciation nord-sud, c’est que les populations NEA et SEA n’ont pas la même origine, ou leurs populations ancêtres se sont déjà diversifiées avant d’entrer en Asie orientale, probablement en raison de différentes routes de migrations empruntées (Cavalli-Sforza et al. 1994). La deuxième l’attribue cette différenciation à un effet de l’isolement par la distance, ou d’une série d’effets fondateurs, au cours de la colonisation de l’Asie orientale. Les populations se différencieraient graduellement par des migrations de proche en proche, et ces changements seraient corrélés à la distance géographique (Wright 1943; Malécot 1948).
1.3.4.1. Routes de migrations possibles
Les informations climatologiques et géomorphologiques nous aident à trouver des réponses. Les premiers humains modernes, à la fin du Pléistocène, pratiquaient encore la chasse et la cueillette, en utilisant leurs outils assez primaires du « Paléolithique moyen ». Cette période coïncide aussi avec le début de la dernière glaciation globale, le Würm (Fagan 2009), qui rendit inhabitable une grande partie du nord de l’Eurasie pour les humains modernes, limitant aussi les migrations. Finalement, juste à l’entrée de l’Asie orientale se trouve le vaste plateau tibétain, plus connu par l’Himalaya, qui sépare cette région du sous-continent indien. L’altitude du plateau dépasse souvent 5'000 mètres et reste une région très peu peuplée, même aujourd’hui (Tregear 2007). Pour les descendants des chasseurs-cueilleurs venant des régions tropicales, l’Himalaya était quasi-impénétrable. Au lieu de traverser le plateau tibétain, deux solutions étaient possibles pour les humains modernes qui se dirigeaient vers l’Asie orientale : soit par l’Asie du sud, soit par l’Asie centrale, ou, pour simplifier, soit par une route sud, soit par une route nord. Les hypothèses actuelles sur les routes de migrations empruntées par les premiers humains modernes vers l’Asie se focalisent sur le choix entre ces deux routes, qui ne sont d’ailleurs pas mutuellement exclusives. 35
1.3.4.2. « Modèle de la pince »
Dans le livre « The History and Geography of Human Genes » écrit par Cavalli- Sforza et al., les auteurs ont attribué la différenciation des populations NEA et SEA à des différences originales de leurs patrimoines génétiques. D’après la topologie des arbres phylogénétiques construits par ces auteurs, les Chinois Han du Nord sont toujours associés aux Mongols, ou, plus généralement, aux locuteurs altaïques, tandis que les Chinois Han du Sud sont associés aux populations d’Asie du Sud-est (Cavalli-Sforza et al. 1994).
Il existe des évidences, basées tant sur l’archéologie que sur l’anthropologie physique, qui font remonter ces migrations jusqu’au Paléolithique. Dans le Sud, la présence d’humains modernes date d’au moins 60 ka (Liujiang (Shen et al. 2002)). Dans le Nord, la culture lithique des humains modernes remonte aussi au minimum à 39 ka (Shang et al. 2007). En ajoutant l’observation d’une différenciation nord-sud par les archéologues sur la base des caractères morphométriques, les généticiens ont conclu qu’en Asie orientale, malgré la longue période de migrations et invasions successives des nomades du Nord, les différences entre le Nord et le Sud existaient avant ces scénarios. Ces différences auraient été maintenues pendant le Néolithique, et la croissance démographique substantielle des populations grâce aux développements agricoles les auraient renforcées (Cavalli-Sforza et al. 1994; Xiao et al. 2000; Karafet et al. 2001; Cavalli-Sforza et Feldman 2003).
Ding et ses collègues (2000) ont employé le mot « pince 15 » pour décrire cette hypothèse. Cela dit, les populations d’Asie orientale est le fruit d’un contact ancien et des interactions entre deux « pinces » d’expansion humaine du Nord et du Sud. Ce « modèle de la pince » (Simplifions comme « modèle deux routes », ou « modèle 2R ») suggère donc l’origine unique ancienne puis la divergence vers le nord-est et le sud-est des populations asiatiques, par la route nord et la route sud, respectivement.
15 Pincer en anglais. 36
1.3.4.3. « Modèle de l’origine au Sud »
En 1987, sur la base d’une étude systématique sur la variation morphologique de 28 traits dentaires chez les « Mongoloïdes », Christy Turner a défini deux groupes « typiques » : les Sinadontes et les Sundadontes (Turner 1987). Ces noms reflétaient une répartition des populations en deux groupes, « sino- » (Chine) représentant les populations est-asiatiques et amérindiennes, et « sunda- » (Sundaland) représentant les populations sud-est-asiatiques et océaniennes. Le taux d’apparition élevé de « l’incisive en pelle » était alors considéré comme caractéristique des Sinadontes, ce qui, d’après Turner, aurait été un caractère particulier qui aurait dérivé à partir de traits sundadontes, plus semblables à ce que l’on observerait chez les « Négroïdes ». En termes d’histoire du peuplement, cela reflèterait une origine des « Mongoloïdes » au sud du continent.
Cette hypothèse a été soutenue par le travail d’un groupe de généticiens américains (Ballinger et al. 1992), dont les résultats ont favorisé une continuité génétique des anciennes migrations « mongoloïdes ». En 1998, Chu et ses collègues ont constitué des arbres phylogénétiques des populations à partir des données de microsatellites, en appliquant la méthode du « neighbour-joining » (Chu et al. 1998). Les auteurs ont proposé que la topologie de ces arbres soutienne une origine au Sud des populations est- asiatiques étudiées, malgré de faibles valeurs de « bootstrap16 » pour ces arbres.
Un an plus tard, dans une autre étude réalisée sur des haplotypes du chromosome Y (Su et al. 1999), Su et ses collègues ont proposé précisément le « modèle de l’origine au Sud » (pour simplifier, nous parlerons de « modèle une route » ou « modèle 1R »). Ces chercheurs ont analysé des données de 19 locus bialléliques du chromosome Y chez 925 hommes, dont 739 Chinois, représentant 21 populations. En comparant les fréquences des haplogroupes entre populations, ils ont conclu que les haplogroupes observés dans les populations NEA n’étaient qu’un sous-ensemble de ceux observés dans les populations SEA. De plus, les premières populations se trouvaient toutes rassemblées dans un coin de leur graphe (une analyse d’échelonnement multidimensionnel, ou « MDS 17 »). Les
16 Le « bootstrap » est une technique en inférence statistique sur la base d’une succession de rééchantillonnages, ce qui permet de tester la sensibilité de la topologie de l’arbre phylogénique. 17 De l’anglais MultiDimensional Scaling. 37 populations du Sud seraient donc davantage diversifiées, tant au niveau intra- populationnel qu’inter-populationnel, par rapport à celles du Nord. Cela signifierait que les populations NEA seraient dérivées des populations SEA, premiers immigrants venant d’Afrique. Pour dater un tel scénario, les chercheurs ont étudié les individus Chinois Han portant l’allèle C du lignage M122, allèle partagé par les haplotypes considérés comme « Asie-spécifique », H6-H8, afin d’estimer son âge. Avec plusieurs paramètres fixés a priori, tels que le taux de mutation et la taille efficace des populations, l’âge du M122C a été placé entre 60 et 18 ka. D’après les auteurs, cette date refléterait l’âge d’un goulet d’étranglement (ou « bottleneck ») suite à l’entrée des humains modernes en Asie orientale. La présence généralisée de cet allèle dans les populations d’Asie du Sud-est suggèrerait que la mutation qui a abouti à cet allèle se soit produite antérieurement à leur arrivée.
Les auteurs de ces travaux ont toutefois admis qu’il était difficile de dater exactement ce genre de mutation ancienne, en raison des erreurs liées à l’estimation des paramètres. Ils ont donc cité plusieurs dates archéologiques pour mieux argumenter leur hypothèse. Parmi ces dates, ils ont mentionné l’âge estimé de la sinodontie (25-18 ka), patron dentaire est-asiatique (Turner 1987), celui (45-25 ka) des premiers sites du Paléolithique supérieur en Sibérie du sud (Vasil’ev 1993), ainsi que celui (50-40 ka) des premiers établissements humains en Australie et en Nouvelle-Guinée (O’Connell et Allen 2004). En y ajoutant la « lacune » de fossiles humains entre 100 et 40 ka en Asie orientale, les auteurs suggèrent que les humains archaïques d’Asie se soient déjà éteints avant ou pendant la dernière glaciation, et que l’Asie orientale aurait accueilli les humains modernes il y a environ 60'000 ans. Ceux-ci, après avoir pénétré dans la partie sud de l’Asie orientale, auraient migré ensuite vers le Nord, suivant le recul des glaciers.
Suite à cette étude, Shi et ses collègues (2005, 2008) ont proposé, par une méthode de phylogénie moléculaire, que deux haplogroupes « Asie-spécifiques » de la région non- recombinante du chromosome Y, O3-M122 et D-M174, soient les lignages anciens apparus au Sud de l’Asie orientale, et représenteraient deux vagues de migrations vers le Nord, datant, respectivement, de 30-25 ka et de 60 ka. L’idée que les populations SEA sont plus diversifiées au niveau intra-populationnel que les populations NEA a toujours 38
été un argument essentiel. Du coté maternel, quelques études sur le polymorphisme d’ADN mitochondrial soutiennent également cette hypothèse (Macaulay et al. 2005; Sun et al. 2006), avec une démarche similaire, soit un examen d’haplogroupes « Asie- spécifiques ».
En 2009, un rapport du projet HUGO s’intéressant aux SNPs autosomiques (Abdulla et al. 2009) a de nouveau conclu, à partir de l’analyse des 54'794 SNPs autosomiques observés chez 1'928 individus de 73 populations asiatiques et deux populations « HapMap » non-asiatiques, que le Sud-est de l’Asie était la source majeure de toutes les populations est-asiatiques. Outre les comparaisons de fréquences des haplotypes, les auteurs ont démontré que l’hétérozygotie des populations groupées corrélait négativement et significativement avec la latitude.
1.3.4.4. Débats
La majorité des généticiens acceptent l’hypothèse d’une différenciation génétique nord-sud en Asie orientale. Tandis que le modèle 2R considère ce patron comme le résultat d’une rencontre entre immigrants paléolithiques en provenance du Nord-ouest et du Sud-ouest, respectivement, le modèle 1R l’attribue plutôt à une expansion graduelle des immigrants depuis le Sud-ouest par le sud du l’Himalaya et à des flux géniques avec des populations du Nord-ouest beaucoup plus tardifs, soit au Néolithique, soit à la période historique (Shi et al. 2005).
Trois points fondamentaux distinguent les arguments des deux hypothèses : la distribution allélique/haplotypique, la diversité génétique, et la phylogénie moléculaire. Nous reprenons en détail chacun de ces arguments dans les sections suivantes.
Les résultats de Su et al. (1999) ont été réanalysés, peu après leur publication, par Karafet et ses collègues. D’après ces derniers, les données de Su et al. représentaient les populations NEA et SEA d’une manière inégale, les populations SEA étant mieux échantillonnées. Les populations altaïques, qui ont colonisé une grande partie du Nord depuis au moins plusieurs milliers d’années, sont beaucoup moins représentées par rapport aux populations des autres groupes linguistiques de la région. Effectivement, en ajoutant davantage de populations NEA, plusieurs haplogroupes apparaissent uniques au 39
Nord (Karafet et al. 2001). Les interprétations de Su et al. sont donc probablement biaisées.
Le choix d’allèles/haplotypes à comparer entre populations est également important. « L’avantage » de s’intéresser seulement à ceux qui sont plutôt présents en Asie qu’ailleurs, allèles/haplotypes dits « Asie-spécifiques », est de pouvoir exclure la possibilité de flux géniques récents, ces derniers étant extrêmement difficiles à dater. Or, cela ne veut pas dire que tous les autres haplogroupes doivent être ignorés. Dans l’article de Karafet et al., les haplogroupes plus fréquemment observés dans les populations NEA, par rapport aux populations SEA, sont également fréquents en Europe et/ou en Afrique. Shi et ses collègues (2005) leur ont répondu qu’il fallait les attribuer simplement à des flux géniques récents.
La diversité génétique intra-populationnelle est une autre mesure essentielle pour tracer la direction des migrations, partant du principe qu’elle diminue progressivement le long de la route migratoire. Les partisans du modèle 1R ont beaucoup utilisé la présence d’haplogroupes « Asie-spécifiques » pour démontrer que les individus SEA étaient plus diversifiés. Karafet et ses collègues ont argumenté, au contraire, que les individus NEA montraient une plus grande diversité si on incluait tous les haplogroupes présents. Quant aux marqueurs classiques, une plus grande diversité au sein des populations NEA a aussi été observée pour RH, GM et HLA-DRB1 (Sanchez-Mazas 1990; Poloni et al. 2005; Joyce et Marjoram 2008).
Finalement, l’application de méthodes phylogénétiques et les datations qui en découlent restent disputées, fait que nous avons discuté dans au chapitre 1.3.2.3. Quelques études sur l’ADN ancien d’individus du Néolithique en Chine ont été menées, notamment celle de Yao et ces collègues (2003), mais la petite taille d’échantillon a empêché des analyses plus approfondies au niveau populationnel.
En résumé, avec plusieurs articles récents favorables à l’existence d’une route de migration au sud du plateau tibétain, le modèle 1R a été mieux soutenu par la génétique ces dernières années, malgré quelques controverses. 40
1.3.5. Modèles concernant l’origine des familles linguistiques
Comme présenté dans le chapitre 1.2.4.1, l’Asie orientale compte des populations parlant des langues distinctes dont la plupart sont attribuées à cinq familles linguistiques : l’altaïque, le sino-tibétain, le tai-kadai, le hmong-mien, et l’austro-asiatique. Contrairement aux tentatives controversées pour déterminer la langue ancestrale de ces familles linguistiques, les linguistes sont plus favorables à la possibilité de les apparenter au sein de « proto-familles » dont l’âge ne précéderait pas le début du Néolithique.
En effet, presque chacune des combinaisons possibles de ces familles ont déjà été proposées par des linguistes dans l’histoire de leurs recherches (pour un résumé, voir Sagart et al. 2005). Parmi elles, la plus controversée est l’altaïque. Nous avons déjà parlé du rattachement disputé des langues japoniques et coréenne à cette famille, certains linguistes considérant ces langues comme apparentées aux langues de « l’altaïque proprement dit » (Robbeets 2005). Même à l’intérieur de l’altaïque proprement dit, pour les trois branches turque, mongole et toungouse-manchoue, une conclusion définitive est loin d’être atteinte (Robbeets 2005).
Concernant les familles du Sud, il existe depuis longtemps l’idée d’un appartement des familles hmong-mien, tai-kadai, austro-asiatique et austronésienne dans un grand phylum « austrique » (Schmidt 1906; Benedict 1966; Benedict 1975). En revanche, les deux premières familles linguistiques sont considérées par les linguistes chinois comme deux sous-groupes du sino-tibétain, en raison de leur similarité avec des langues chinoises, surtout au niveau du lexique (Ma 2003). Pourtant, cette similarité est plutôt attribuée, par les linguistes hors de Chine continentale, à l’influence des langues chinoises.
D’après l’hypothèse connue sous le nom de « dispersion agriculture/langage » (Renfrew 1996; Bellwood 2001; Diamond et Bellwood 2003), l’origine et la l’expansion de la majorité des grandes familles linguistiques du monde, comme l’indo-européen, l’afro-asiatique, l’uto-aztécan, etc., seraient liées au développement de l’agriculture et la domestication des céréales. Suite de la mise en place des économies agricoles de latitudes tempérées ou tropicales, la densité de population a réussi à s’augmenter, à l’intérieur puis autour des zones agricoles initiales. Le développement très ancien de l’agriculture en 41
Asie orientale a ainsi donné la possibilité de localiser des régions d’origine des familles comme le sino-tibétain et l’austro-asiatique.
Figure 1-5 Origine et expansion des grandes familles de langues est-asiatiques proposées par des linguistes dans le contexte de la théorie de « dispersion agriculture/langage » (d’après Blench et al. 2005).
Dans le Sud, le riz (Oryza sativa) cultivé dans les vallées du fleuve Yangzi depuis au moins 7 millénaires aurait été la céréale principale des populations proto-hmong-mien, ou proto-tai-kadai, d’après différents linguistes (Bellwood 2005). Dans le Nord, la domestication du millet des oiseaux (Setaria italica) dans les vallées du fleuve Jaune il y a 6'500 ans (Lu 1999) a souvent été rattachée à l’expansion d’une population parlant le proto-sino-tibétain (Ma 2003). Sagart (1994; 2005b) y a argumenté l’origine d’une langue ancestrale non seulement du proto-sino-tibétain mais aussi du proto-austronésien. Les locuteurs du proto-austronésien auraient ensuite immigré vers le sud-est, par Taïwan jusqu’aux nombreuses îles du Pacifique.
Dans certaines zones agricoles du Nord est cultivée une autre céréale, davantage résistante au froid et à la sécheresse, le millet commun (Panicum miliaceum). Pourtant, le 42
millet commun a également été cultivé en Inde et en Europe. Lu et ses collègues ont déclaré que cette céréale a été domestiquées à Cishan, dont la date estimée (10'000) est significativement plus ancien que tout les autres sites du monde (Lu et al. 2009), la plus ancienne trace de cette céréale dans le monde. Par conséquent, bien que le millet commun reste la céréale très importante cultivée par les populations altaïques, sa relation avec l’origine de cette famille linguistique reste inconnue.
La Figure 1-5 illustre une synthèse des hypothèses d’origine et d’expansion des principales familles linguistiques en lien avec la domestication des céréales en Asie orientale.
1.4. Introduction au système génétique étudié
Dans ce chapitre, nous allons présenter le système HLA, polymorphisme que nous avons utilisé pour étudier le peuplement humain en Asie orientale. La première section sera consacrée à la découverte du système, à sa structure et aux locus qui concernent notre étude. Les sections suivantes présenteront des aspects liés au polymorphisme élevé de ce système, tels que les méthodes de typage, les règles de nomenclature et les mécanismes évolutifs expliquant cette diversité. Des exemples d’analyse des données HLA dans le domaine de l’anthropologie seront ensuite présentés.
1.4.1. Description générale du système HLA
Le système des antigènes leucocytaires humains (HLA 18 ) est le nom courant du complexe majeur d’histocompatibilité (MHC19) de notre espèce. Il s’agit d’une région génomique très riche en gènes jouant des rôles essentiels dans la réponse immunitaire.
L’histoire de la découverte du système HLA peut être retracée dès la fin du 19ème siècle, lorsque des biologistes étudiant des tumeurs chez la souris essayaient d’éviter l’interruption de l’étude après la mort du sujet expérimental par transplantation du tissu tumoral d’un individu à un autre. Or, la majorité de ces tentatives finissaient par des
18 De l’anglais Human Leukocyte Antigen. 19 De l’anglais Major Histocompatibility Complex. 43
rejets chez l’individu greffé. Les raisons de ces incompatibilités seront connues, dans les années suivantes, à l’aide de la méthode du « pedigree ». En 1936, la première molécule MHC murine fut découverte par Peter Gorer sur les érythrocytes et les leucocytes. Environ vingt ans plus tard, son analogue chez l’humain fut décrit par le sérologiste français Jean Dausset (1958). Différentes de la souris, ces molécules humaines furent détectées principalement sur les leucocytes, et alors nommées « molécules » ou « antigènes HLA ». Suite à ce travail, davantage de molécules similaires furent décrites, sur divers types de cellules, mais le nom HLA a demeuré. Les molécules HLA furent ensuite classées en deux groupes, nommés « classe I » et « classe II », respectivement, selon leurs positions et fonctions. Tandis que les molécules de classe I sont présentes sur la plupart des types de cellules, celles de classe II sont limitées principalement aux trois sortes de cellules hématopoïétiques : les lymphocytes B, les macrophages et les cellules dendritiques.
De nouvelles études révélèrent une région du génome, dite « complexe HLA », comprenant les gènes codant pour les molécules HLA, aussi subdivisés en deux classes. On apprend que les différences structurelles des molécules HLA exprimées sont un facteur décisif des réponses immunes dans la transplantation clinique. Derrière ces différences existe un polymorphisme génétique complexe qui assure que les individus humains héritent et expriment différentes combinaisons d’allèles des gènes de classe I et de classe II (Marsh et al. 2000).
Le système HLA fut finalement localisé sur le bras court du chromosome 6 (Breuning et al. 1977; Francke et Pellegrino 1977), et, plus précisément, sur la bande 6p21.3 (Morton et al. 1984). Le séquençage complet de la région du système HLA fut effectué en 1999 (the MHC sequencing consortium 1999), la même année que le séquençage complet du génome humain. Cette région de 3,6 mégabases (Mb) comprend plus de 200 gènes exprimés, dont environ 10 à 20% sont liés aux fonctions immunes (Marsh et al. 2000). Elle est aussi connue aujourd’hui comme la région la plus polymorphe du génome humain. Du coté centromère, on trouve les gènes de classe II, et du côté télomère les gènes de class I, entre lesquels une classe III est définie. 44
Les principaux gènes de classe I comprennent les locus dits « classiques »20 HLA-A, - B, -C, et « non-classiques » HLA-E, -F et -G, dont chacun code seulement pour la chaîne lourde (chaîne α) des deux chaînes d’un « isoforme » de molécule correspondante de classe I. Quelques pseudogènes HLA-H, -J, -K et -L se trouvent aussi dans la région, sans qu’aucune protéine soit exprimée.
Les gènes de classe II codent chacun pour les deux chaînes (chaînes α et β, de taille similaire) d’un isoforme de molécule correspondante de classe II : les gènes « classiques » HLA-DP, -DQ, et -DR, et les gènes « non-classiques » HLA-DM et -DO. Les gènes codants des chaînes α et β se nomment par « A » et « B » : les chaînes α et β de HLA-DM sont codées par les gènes HLA-DMA et -DMB, respectivement, et celles de HLA-DO par HLA-DOA et -DOB. Dans le cas des pseudogènes, des chiffres sont ajoutés : les deux chaînes de HLA-DQ sont codées par les gènes HLA-DQA1 et -DQB1, respectivement, auprès desquels se trouvent les pseudogènes HLA-DQA2, -DQB2 et - DQB3. De la même façon, les deux chaînes de HLA-DP correspondent aux gènes HLA- DPA1 et -DPB1, avec les pseudogènes HLA-DPA2 et -DPB2. La région codante de l’isoforme HLA-DR est encore plus compliquée. Sa chaîne α est codée par le gène HLA- DRA, sans pseudogène qui l’accompagne, mais sa chaîne β est codée par plusieurs gènes, avec un ou plusieurs pseudogène(s), dont le nombre varie entre chromosomes. Outre les gènes HLA-DRA et -DRB1, on connait des gènes et pseudogènes HLA-DRB2, -DRB3 jusqu’à -DRB9.
Parmi les locus de classe I et de classe II, il existe également divers gènes qui ne codent pas pour des molécules HLA, mais beaucoup d’entre eux sont plus ou moins liés à l’immunité. Entre les régions mentionnées ci-dessus, on note les gènes dits de classe III, avec une densité extrêmement élevée, sans aucun pseudogène présent (Xie et al. 2003). Les protéines du système du complément, essentielles dans l’immunité innée, sont codées dans cette région.
20 Dans le système HLA, on distingue les locus « classiques » de locus « non-classiques », comme HLA-E, -F, -G, dont le polymorphisme est plus limité et le rôle un peu différent. 45
1.4.2. Le polymorphisme des gènes HLA
1.4.2.1. Typages sérologiques et moléculaires
Les études sur les gènes HLA de classes I et II se sont concentrées plutôt sur les cellules sanguines, bien que ces gènes s’expriment également sur les cellules d’autres tissus. Les molécules HLA peuvent être détectées lorsqu’elles provoquent une réaction antigène-anticorps. Grâce à la sérologie, on a remarqué qu’un anticorps pouvait réagir avec un ou plusieurs type(s) de molécules HLA « spécifiques ». Le typage de ces « spécificités » sérologiques HLA est donc devenu une tâche laborieuse et exigeante, en révélant un polymorphisme élevé des molécules codées par différents allèles HLA. Des efforts ont été menés pour augmenter la sensibilité de la méthode. En 1964, Terasaki et McClelland ont mis en place un test efficace lié au système du complément21, appelé le test de « microlymphocytotoxicité » (MLCT 22 ) (Terasaki et al. 1964; Terasaki et McClelland 1964). Son protocole a ensuite été modifié et standardisé pour le typage des molécules HLA des deux classes.
Cependant, le degré d’expression varie énormément entre les gènes HLA. Certains gènes ou allèles ne s’expriment point, ou guère, et certains autres expriment des molécules qui ne provoquent pas de réaction antigène-anticorps connue. Si cela arrive, les méthodes sérologiques sont incapables de détecter le polymorphisme, et ne produisent que des résultats « blancs ». Lorsque « blanc » existe chez une personne chez laquelle un seul allèle est détecté, les résultats du typage peuvent donner un faux homozygote. La fréquence du « blanc » est estimée à partir des phénotypes observés en tenant compte de cela. Par exemple, pour le gène HLA-C, la fréquence du « blanc » dans une population dépasse souvent 50% en appliquant le typage sérologique (Marsh et al. 2000). La situation est encore pire concernant les gènes de classe II. De plus, plusieurs molécules HLA peuvent réagir avec un même anticorps, et donc être impossibles à distinguer, donnant des résultats « ambigus ».
21 Le système du complément est composé d’un groupe de protéines trouvées dans le sérum, qui sont liées aux fonctions immunitaires innées. 22 De l’anglais MicroLymphoCytotoxic Test. 46
Les années 1980 marquent l’entrée de la biologie moléculaire dans le domaine. De nouvelles techniques de typage ont été développées, à l’aide de la « réaction en chaîne par polymérase » (PCR23), qui permet d’amplifier exponentiellement et très rapidement des séquences d’ADN spécifiques. On peut en citer ici quelques-unes couramment utilisées, comme la PCR-SSP24, la PCR-SSOP25, la PCR-RLS26, la PCR-SBT27. En principe, l’idée de ces méthodes est l’amplification d’un locus HLA, d’un groupe d’allèles ou d’un allèle, suivie par la détermination de ces allèles. Les résultats sont plus fiables et à plus haute résolution par rapport aux méthodes sérologiques. Le typage est passé alors du niveau de spécificité générique au niveau allélique, malgré encore des problèmes d’ambiguïtés. Pourtant, à moins d’un travail de laboratoire lourd, ces méthodes sont incapables de générer deux séquences haploïdes séparées, introduisant des problèmes d’ambiguïté lors du typage. Récemment, une révolution est déjà en marche vers le séquençage de prochaine génération, « next generation sequencing » (Erlich et al. 2011).
1.4.2.2. Les gènes HLA polymorphes
Le développement de nouvelles technologies permet d’identifier chaque année de nouveaux allèles HLA, dont le nombre est aujourd’hui considérable. Le haut degré de polymorphisme des gènes HLA est principalement associé aux exons 2 et 3, pour les gènes de classe I, et à l’exon 2, pour les gènes de classe II. Les différences moyennes estimées entre les séquences d’ADN de deux allèles HLA se situent entre 10 et 26 nucléotides, dépendant du locus (Buhler et Sanchez-Mazas 2011). Ces différences entre allèles HLA peuvent être produites par trois mécanismes principaux : la mutation, la recombinaison simple et la conversion génique.
23 De l’anglais Polymerase Chain Reaction. 24 De l’anglais Sequence Specific Primers. 25 De l’anglais Sequence Specific Oligonucleotide Probes. 26 De l’anglais Reverse Line blot System. 27 De l’anglais Sequence Based Typing. 47
Au niveau des protéines, les exons susmentionnés codent pour la région de liaison peptidique des molécules HLA, qui est essentielle pour leur fonction. Avec une grande diversité, différentes molécules HLA peuvent se lier à des peptides très divers, souvent dégradés de pathogènes ou de protéines virales. Ainsi, les réponses immunes provoquées par des pathogènes et virus peuvent différer entre individus.
Notons que les allèles HLA s’expriment de manière codominante. Un individu hétérozygote pour un gène HLA peut avoir des molécules davantage diversifiées, donc capable de réagir à des pathogènes davantage variés. Dans les cellules humaines, les six types de molécules HLA (A, B, C de classe I, et DP, DQ, DR de classe II) codées par les gènes « classiques » sont très polymorphes, même si à des degrés différents. La Table 1-1 montre les nombres d’allèles connus à ce jour (février 2013) des 8 locus HLA les plus polymorphes. La variabilité des allèles de ces locus peut former d’innombrables combinaisons d’haplotypes sur plusieurs locus, maintenant alors une plus grande capacité encore de résistance à diverses maladies.
Table 1-1 Nombre d’allèles connus pour les principaux gènes classiques28 du système HLA (février 2013). http://hla.alleles.org/nomenclature/stats.html.
Classe I II Gène HLA A B C DRB1 DQA1 DQB1 DPA1 DPB1 Nombre d’allèles 2'188 2'862 1'746 1'285 49 193 36 159 connus
1.4.2.3. La nomenclature du système HLA
Depuis la découverte du système HLA, le nombre de spécificités observées croît sans cesse. Très rapidement, un système adéquat de nomenclature a été exigé. En 1965, lors du 2ème Atelier International d’Histocompatibilité (IHIW29), un comité fut constitué et la première nomenclature des spécificités HLA connues fut discutée. Sans savoir d’abord que le système était à plusieurs locus, les spécificités ont été numérotées consécutivement, comme HL-A1, HL-A2, HL-A3, etc. Cette nomenclature a ensuite été modifiée au fur et
28 D’autres gènes HLA comme HLA-DRB3 ont aussi des variantes mais ne sont pas présents dans la table car ils ne sont pas concernés dans ce travail. 29 De l’anglais International HLA and Immunogenetics Workshop. 48
à mesure, en raison du développement rapide des méthodes de typage et de notre connaissance du système, mais les traditions et habitudes au sein des règles sont maintenues au maximum, jusqu’à aujourd’hui.
Pendant le 6ème atelier IHIW, en 1975, les premières spécificités connues ont été séparées en deux groupes, A et B, sous la forme HLA-A1, -A2, -B5, -B8 etc., reflétant les polymorphismes des deux locus : HLA-A et -B. Un troisième locus découvert est ensuite ajouté, appelé HLA-C. Un suffixe « w » est associé aux spécificités de ce locus (HLA- Cw1, -Cw2, etc.), afin d’éviter la confusion possible avec les protéines du système de complément (C2 et C4). Puis certaines spécificités ont été subdivisées, car des méthodes sérologiques améliorées en ont distingué des sous-unités plus précises, comme HLA-A25 et -A26, sous-unités de HLA-A10.
L’identification des molécules HLA de classe II, dans les années 1970, a également conduit, toujours pendant le 6ème atelier IHIW, à introduire un nouveau locus : HLA-D, avec six spécificités assignées. Mais la sérologie n’a pas permis aux chercheurs d’aller plus loin. Les trois locus « classiques », HLA-DP, -DQ et -DR n’ont été clairement proposés qu’en 1984, sur la base de méthodes moléculaires.
En passant au niveau moléculaire, on a appris également que chaque spécificité HLA définie par des techniques sérologiques ou cellulaires représentait en fait un ou plusieurs groupe(s) d’allèles. Une nouvelle convention fut finalement introduite en 1987, différenciant les allèles HLA avec un code à quatre chiffres (ou digits) (Dupont 1989). Les deux premiers digits décrivaient le lignage (ou famille) d’allèles, qui correspond souvent (mais pas systématiquement) à une spécificité. Le troisième et le quatrième digit ont été assignés aux allèles du lignage, par ordre de leur détermination. Ces allèles se différencient par une ou plusieurs substitutions nucléotidiques non-synonymes qui introduisent des changements de la séquence d’acides aminés correspondante (par exemple, HLA-A*0101, -A*0102, -A*0103 etc. pour HLA-A*01). Quelques digits supplémentaires ont été ajoutés par la suite. Dans le cas de substitutions nucléotidiques synonymes, un cinquième digit est prévu pour les différencier à l’intérieur d’un même allèle. Enfin, les deux digits suivants sont réservés pour distinguer des séquences qui ne 49
diffèrent entre elles que par des mutations en dehors de la région codante (Marsh et al. 2010). De plus, des suffixes sont utilisés pour décrire des allèles dont le niveau d’expression à la surface cellulaire est anormal.
Figure 1-6 Principe actuel de nomenclature HLA depuis 2010 d’après Marsh et al. (2010).
Cependant, la croissance rapide du nombre de nouveaux allèles, pour certains locus, a finalement dépassé la limite des « digits » possibles. Quelques modifications légères ont donc encore été réalisées au système de nomenclature. D’une part, on a permis de coder certains allèles de la même famille avec deux premiers digits différents, quand le nombre d’allèles de cette famille dépassait 99 (par exemple, A*02 et B*15), la limite maximale pour deux digits (Marsh et al. 2002). D’autre part, un digit supplémentaire a été ajouté au cinquième digit en raison de l’augmentation d’allèles différenciés par des substitutions synonymes. Toutefois, ces efforts n’ont même pas encore été suffisants face à la vitesse imprévue de découverte de nouveaux allèles. En avril 2010, une nouvelle réforme de la nomenclature a été réalisée, les positions des chiffres ayant été remplacées par des « champs30 », dont le nombre de digits n’est plus limité à deux. Les « deux-points » sont maintenant utilisés comme séparateurs des champs. Ainsi, chaque champ peut représenter un niveau de résolution de typage, que ce soit des locus, des spécificités, des allèles, ou des mutations trouvées dans les régions non-codantes. On a également décidé d’enlever le « w » des allèles du HLA-C (anciennement HLA-Cw). La Figure 1-6 donne un
30 Fields en anglais. 50 exemple d’allèle nommé selon le principe actuel de nomenclature HLA. La Table 1-2 donne plus de description sur les suffixes.
Table 1-2 Suffixes utilisés pour décrire les changements d’expression des allèles HLA, selon la nomenclature officielle.
Suffixe Signification Exemple Un allèle qui ne s’exprime pas à la surface HLA-A*0104N, N cellulaire, à cause d’une ou plusieurs mutations HLA-B*15010102N (null) Un allèle qui s’exprime à la surface cellulaire à un L A*01:01:38L niveau réduit (low) Un allèle qui s’exprime à un degré possiblement Q réduit en raison d’une mutation à confirmer B*13:18Q (questionable)
1.4.2.4. Ambiguïtés de typage HLA
L’ambiguïté des résultats des typages HLA est un problème qui n’a jamais été complètement éliminé, malgré toutes les nouvelles technologies, sérologiques ou moléculaires, mises à jour pendant des années. En lisant des rapports de typages HLA de différente époques, on voit bien que les chercheurs ont tous dû faire face à ce genre de résultats ambigus aux divers niveaux de résolution, génique (des locus), générique (des spécificités), ou allélique. Par exemple, lors d’un typage sérologique, une spécificité HLA réagit avec un anticorps spécifique pour HLA-A2, mais également avec un anticorps spécifique pour HLA-A3, le chercheur ne peut rien faire d’autre que de noter un résultat ambigu : HLA-A2/A3.
Diverses techniques de typage peuvent produire différents sortes d’ambiguïtés (Marsh et al. 2010). En cas de besoin, ces ambiguïtés peuvent être « résolues » par des méthodes moléculaires plus puissantes, comme le séquençage, car cela permet généralement d’obtenir des données alléliques. Mais cela n’atteint pas toujours le but, sans même compter le coût du typage supplémentaire.
L’application des méthodes moléculaires a considérablement amélioré la qualité du typage, particulièrement pour les locus très peu typés autrefois, comme HLA-C et HLA- DPB1, par exemple. 51
1.4.2.5. Mécanismes évolutifs agissant sur le MHC
L’origine des gènes du MHC diffère selon les différentes régions du complexe. Les gènes appartenant au système du complément, situés dans la région de classe III, ainsi que les gènes liés aux fonctions immunitaires innées sont plus anciens, d’un point de vue évolutif, car ils existent chez les invertébrés comme chez les vertébrés. Au contraire, les gènes liés aux fonctions immunitaires adaptatives, situés dans les régions de classe I et de classe II, ne sont observés que chez les vertébrés. L’organisation des gènes du MHC varie entre les différentes espèces, mais certaines caractéristiques se sont maintenues (Martinez-Borra et Lopez-Larrea 2012). Après plus de 600 millions d’années que représente son évolution, du Requin aux Primates, le MHC demeure l’une des régions les plus dynamiques du génome.
Concernant les gènes MHC de classe I et de classe II que nous étudions, une origine commune est généralement acceptée. Le développement des techniques de séquençage a rendu les séquences d’ADN des allèles de ces gènes disponibles en ligne, pour l’humain (HLA) mais aussi pour d’autres espèces (Robinson et Marsh 2000; Robinson et al. 2011). Le fait que le nombre de gènes de ces locus diffère entre espèces est expliqué par une hypothèse dite du « birth and death », selon laquelle de nouveaux gènes apparaissent par duplication génique, et sont maintenus ou supprimés au fil du temps (Nei et Rooney 2005).
Quant au système HLA, le MHC humain, de nombreuses études ont été réalisées pour étudier son histoire évolutive (Cereb et al. 1997; Bergstrom et al. 1998; Bergstrom et al. 1999; Adams et Parham 2001; von Salome et al. 2007). Sur la base des séquences nucléotidiques des introns 1 et 2 et de l’exon 2 des allèles HLA-DRB1, Bergström et ses collègues (1998) ont suggéré que la diversification des différents allèles soit récente, due principalement à des conversions géniques dans l’exon 2, alors que les lignages auraient généralement une origine beaucoup plus ancienne, dont certains pré-dateraient même la séparation de l’humain et du chimpanzé.
Le haut niveau de polymorphisme du système HLA et ses fonctions essentielles dans les réactions immunitaires indiquent également qu’une sélection naturelle de type 52
diversifiant (ou sélection balancée) a pu agir durant son évolution. Cela est compatible avec des données moléculaires : à tous les locus HLA classiques, sauf HLA-DPB1 (et, dans une moindre mesure, HLA-DQB1), la plupart des allèles observés au sein des populations sont éloignés entre eux d’un point de vue moléculaire, avec souvent plus de 20 nucléotides différents entre leurs séquences d’ADN au niveau de l’exon 2 (et de l’exon 3, pour les molécules HLA de classe I) (Buhler et Sanchez-Mazas 2011).
1.4.3. Applications des analyses HLA en génétique des populations
1.4.3.1. A l’échelle mondiale
Comme déjà décrit ci-dessus, une sélection naturelle balancée façonne en partie le polymorphisme du système HLA. Dans la plupart des populations humaines, de nombreux allèles HLA sont présents à des fréquences « polymorphiques », expliquant la diversité génétique élevée à l’intérieur des populations. Comme pour la majorité des marqueurs génétiques testés à ce jour, le plus haut niveau de diversité génétique HLA se trouve toujours au sein des populations, de l’ordre de 85% de la diversité totale, plutôt qu’entre les populations (Lewontin 1972; Barbujani et al. 1997). Cette valeur moyenne est même plus élevée pour les locus HLA, d’après les analyses réalisées sur les données de 7 locus HLA (HLA-A, -B, -C, -DRB1, -DQA1, -DQB1 et -DPB1) soumises aux 12ème et 13ème ateliers IHIW. La variation génétique moyenne au sein des populations représente 89,4% de la variation totale des populations des cinq grandes régions du monde (Sanchez-Mazas 2007), ce qui reflète encore une fois l’effet de la sélection naturelle. La seule exception a été observée pour le locus HLA-DPB1 (84%) (Sanchez- Mazas 2007), qui est généralement considéré comme un locus neutre ou presque neutre.
Malgré toutes les preuves de sélection naturelle sur l’évolution de son polymorphisme, la variation génétique HLA reflète aussi très fidèlement des expansions spatiales et démographiques des populations humaines dans le passé. Le système HLA reste ainsi très informatif pour les études anthropologiques. Au niveau mondial, les distances génétiques entre populations estimées à partir des données de fréquences HLA sont significativement corrélées aux distances géographiques, ce qui est vrai pour tous les locus même si le coefficient R n’est pas forcément élevé (R ≅ 0,2 à 0,5) (Buhler 2007). 53
Lors de l’estimation des distances génétiques entre populations tenant compte aussi des distances moléculaires entre allèles, des résultats similaires ont été obtenus (Buhler et Sanchez-Mazas 2011). Ces résultats très robustes conduisent alors à la conclusion que les migrations humaines sont une force fondamentale dans l’évolution de la variation HLA, en plus des expansions et des contractions démographiques, qui contribuent à la diversification populationnelle et la diversification allélique, respectivement.
Les signatures génétiques laissées par l’histoire du peuplement sont encore plus significatives lorsque l’on se concentre sur les profils génétiques HLA au sein d’un continent particulier (Nunes et al. 2010). Prenons l’Europe et l’Afrique comme exemples.
1.4.3.2. La différenciation HLA en Europe
L’Europe est une région bien étudiée pour le système HLA. Au niveau géographique, on a observé une différenciation génétique entre les populations d’Europe de l’Ouest, du Centre et du Nord d’une part, et celles d’Europe du Sud-est d’autre part, pour les locus HLA-C et -DRB1 (Buhler et al. 2006; Sanchez-Mazas et Buhler 2009), ce qui a été confirmé pour les autres locus également (Sanchez-Mazas 2013). Une frontière génétique significative a même été détectée, correspondant approximativement à la chaîne montagneuse des Alpes. Etant une barrière géographique, les Alpes auraient réduit les flux géniques des populations dans l’histoire, peut-être déjà au cours du Néolithique (Sanchez-Mazas et Buhler 2009; Buhler et al. 2012).
Au niveau linguistique, il existe une certaine corrélation entre les langues et la répartition des allèles HLA chez certaines populations. Par exemple, les Sami de Norvège, qui parlent une langue ouralique, sont très proches génétiquement des Finnois, qui parlent une langue de la même famille, mais sont très différents des Norvégiens, locuteurs d’une langue indo-européenne (Harbo et al. 2010). Ce n’est pas le cas des Basques, en revanche, qui, situés à l'extrémité occidentale des Pyrénées, malgré leur isolement culturel et linguistique par rapport à toutes les populations indo-européennes voisines, ne présentent que de légères différences de fréquences HLA par rapport à ces dernières (Comas et al. 1998a; Comas et al. 1998b). 54
1.4.3.3. Les différenciations HLA en Afrique
Selon une nouvelle synthèse des données HLA sur les populations africaines, des chercheurs ont observé une correspondance générale entre les différenciations HLA et la géographie (Nunes et al. 2010). Pour certaines populations, un lien a également été remarqué entre les fréquences des allèles HLA et la linguistique. Les langues parlées dans le continent africain sont classées en quatre familles linguistiques principales. Notons que la répartition des familles est aussi plus ou moins liée à la géographie, malgré les régions interposées. Ces quatre familles sont : le niger-congo à l’ouest et au sud, le nilo-saharien au centre, d’est en ouest à travers le Sahara, l’afro-asiatique au nord et nord-est, et le khoisan au sud-ouest. Une analyse sur la variation HLA-DRB1 en Afrique (Ries 2009) a montré que deux populations afro-asiatiques d’Ethiopie (les Amhara et Oromo) étaient plus proches des populations de la même famille linguistique trouvées en Afrique du Nord que de populations géographiquement voisines parlant une langue d’une autre famille (les Nyangatom). La conclusion est aussi compatible avec les résultats obtenus sur d’autres marqueurs génétiques, tels que GM, RH et le chromosome Y (Excoffier et al. 1987; Excoffier et al. 1991; Sanchez-Mazas 2001).
1.4.3.4. Les études HLA en Asie orientale
Pendant les 20 premières années après la découverte du système HLA par Jean Dausset en 1958, seulement quelques populations japonaises ont été testées pour le système HLA en Asie orientale. La recherche sur les variations du système HLA n’a commencé en Chine que dans les années 1970, grâce à une offre de kits de typage à l’Hôpital Ruijin à Shanghaï lors d’une visite de Jean Dausset. En 1974, le premier groupe chinois de recherche HLA se fonda. Entre 1978 et 1987, les méthodes sérologiques ont peu à peu été connues et appliquées à l’échelle nationale (Fan 2004).
Au milieu des années 1980, 22 laboratoires chinois ont mené une étude sur les polymorphismes des spécificités HLA-A, -B, -C et -DR dans les populations Han de 10 villes chinoises. Les résultats ont révélé une différenciation entre les Han du Nord et les Han du Sud (Chen et al. 1987). Dans le cadre du 11ème atelier IHIW au Japon, davantage de données ont été ajoutées, y compris celles des minorités chinoises, pour les gènes de 55
classes I et II. Les résultats des analyses « clustering » ont confirmé la différenciation nord-sud, avec les Miao et Bouyei proches des Han du Sud, et les Mongols, Manchous, Hui et Tibétains proches des Han du Nord (Fan 2004).
Le typage moléculaire a également été appliqué à partir de la fin des années 1980. De nombreuses populations ont été échantillonnées pendant les deux décennies suivantes. Cependant, parmi ces données, seulement une minorité a été soumise aux ateliers IHIW, et le reste a été publié dans des articles scientifiques avec une proportion importante en chinois. De plus, comme de plus en plus de pays, les échantillons de sang et de salive sont considérés en Chine comme des biens biologiques importants nécessairement protégés par des lois civiles. En 1998, le gouvernement chinois approuve les « Mesures provisoires concernant l'administration des ressources génétiques humaines », imposant l’interdiction de toutes sortes d’échantillonnages génétiques effectués par des étrangers et le contrôle strict de toutes sortes d’exportations du pays d’échantillons provenant d’humains31.
Cette « barrière » linguistique et législative a donc limité l’accès aux données par la communauté internationale. Au contraire des autres marqueurs génétiques, jusqu’en 2007, très peu d’analyses systématiques ont été effectuées sur les données moléculaires HLA pour les populations est-asiatiques. Un travail sur HLA-DRB1, le locus le mieux représenté pour les populations est-asiatiques, a été effectué dans notre laboratoire. Basé sur les données soumises aux 11ème, 12ème et 13ème ateliers IHIW, ce travail a révélé une correspondance entre les différenciations du système HLA et la géographie, ainsi que la linguistique dans une certaine mesure (Sanchez-Mazas et al. 2005). Dans un compte rendu sur la recherche HLA en Chine, Fan (2004) a conclu que les études populationnelles du polymorphisme HLA, en particulier celles de classe I, nécessitaient encore bien des efforts. C’est pourquoi nous avons centré notre travail sur la diversité du
31 Voir les articles 14, 15, 23 des « Mesures provisoires concernant l’administration des ressources génétiques humaines », promulguées par le Bureau général du Conseil d’Etat à l’approbation du Conseil d’Etat, le Ministère de la Science et de la Technologie et le Ministère de la Santé Publique, République populaire de Chine, le 10 juin 1998. 56 système HLA en Chine d’une part et sur l’ensemble de l’Asie orientale d’autre part, en collectant toutes les données HLA disponibles actuellement.
En liant le marqueur que nous utilisons, le système HLA, au sujet que nous étudions, l’histoire du peuplement de l’Asie orientale, nous avons essayé de répondre, en principe, aux questions suivantes :
- Quelle est la structure génétique des populations est-asiatiques révélée par le système HLA ? - La structure génétique correspond-elle à la géographie ? La différenciation nord- sud et la frontière génétique observées pour d’autres marqueurs génétiques sont- elles également reflétées par ce système ? Si une différenciation nord-sud et une frontière génétique sont observées, quelles sont leurs origines ? Et sont-elles en relation étroite avec les routes de migration des humains modernes vers l’Asie orientale ? Si elles ne sont pas observées, quelle peut en être l’explication ? - La structure génétique correspond-elle à la linguistique ? Quelles sont les relations génétiques entre les familles linguistiques proposées ? La diversification des familles linguistiques est-elle en relation avec les routes de migration ? - Au final, comment les facteurs évolutifs et démographiques ont-ils influencé les gènes HLA en Asie orientale ?
57
2. Données
2.1. Description des données utilisées
2.1.1. Origine des données
Une révision systématique de la littérature depuis 1990 a été effectuée au début de ce travail. Nous avons collecté un maximum de données de fréquences HLA disponibles, soit publiées dans le cadre des travaux en génétique des populations, soit soumises à l’Atelier IHIW. Nous avons également inclus des données provenant des populations de « contrôle » utilisées dans les analyses cas-témoins des études d’associations HLA- maladies, à condition que les échantillons aient été choisis au hasard. Une proportion importante de ces données ayant été publiées en chinois, elles ont rarement été citées et analysées.
Cinq locus dits « classiques » du système HLA ont été concernés, c’est-à-dire les locus HLA-A, -B et -C de classe I, et les locus HLA-DRB1 et -DPB1 de classe II. Les données ont été définies à deux niveaux de résolution :
- Les données « génériques » ou « à basse résolution »32 : ce sont des fréquences de « lignages » d’allèles qui correspondent souvent du niveau de la protéine aux spécificités sérologiques HLA, comme HLA-A*01 pour A1. Ces données nous ont permis d’analyser un nombre maximal d’échantillons de populations. - Les données « alléliques » ou « à haute résolution »33 : ce sont des fréquences d’allèles, qui correspondent normalement, au niveau de la protéine, aux antigènes distincts exprimés sur la surface des cellules, comme HLA-A*01:01. Ces données nous ont permis de décrire la structure génétique des populations de manière plus fine, en dépit d’un nombre de populations plus limité.
32 Codées actuellement par un seul « champ », elles furent souvent appelées « les données à 2 digits » avant la dernière réforme de nomenclature HLA. 33 Codées actuellement par deux « champs », elles furent souvent appelées « les données à 4 digits ». 58
Les données de fréquences alléliques qui étaient ambigües ou définies à plus haute résolution ont été recodées à un niveau de résolution inférieur, afin de les rendre comparables avec celles des autres populations, un traitement de données que nous allons présenter dans le chapitre 2.3.2.
Les données brutes ont été ainsi intégrées, formatées et arrangées dans des fichiers Excel, et classées par locus. Toutes les informations concernant les populations correspondantes ont été soigneusement examinées. Ces premiers jeux de données étaient donc prêts pour un contrôle de qualité selon plusieurs critères présentés ci-dessous.
2.1.2. Les critères assurant la qualité des données
La qualité des données à analyser est essentielle pour la fiabilité des résultats. Les données problématiques pourraient biaiser les résultats des analyses et conduire à de fausses conclusions. Pendant la révision de la littérature, nous avons remarqué plusieurs problèmes dans certains articles, liés à :
- La taille d’échantillon : c’est un facteur influençant beaucoup la qualité des données. Cette taille doit être suffisamment grande afin de bien représenter la distribution des variantes d’un marqueur génétique donné dans une population échantillonnée. Pour le système HLA qui présente un très haut degré de polymorphisme, ce facteur est d’autant plus important, car une insuffisance du nombre d’individus échantillonnés augmente la probabilité de ne pas observer des allèles existants, surtout s’il s’agit d’allèles rares (Sanchez-Mazas 2002). Une petite taille d’échantillon a aussi plus de chances d’entraîner une déviation des fréquences estimées par rapport aux vraies valeurs dans la population, due à un plus grand effet du hasard. Elle entraîne en outre une réduction de la puissance des tests statistiques appliqués aux données. - Les informations relatives à l’échantillon : les informations géographiques, linguistiques et ethniques des échantillons sont aussi essentielles dans une étude s’intéressant à l’histoire du peuplement. Idéalement, dans un échantillon censé représenter une population au sens « anthropologique », un habitant est interrogé sur deux ou trois générations ancestrales des deux côtés parentaux, afin d’éviter 59
d’échantillonner des immigrants récents. Les données sans précision de provenance risquent de biaiser les résultats lors d’études fondamentales sur le peuplement humain, comme, pour l’Asie orientale, la différenciation nord-sud et les routes de migrations. - Les ambiguïtés de typage : comme discuté dans la section 1.3.2.4, les données HLA subissent souvent des problèmes d’ambiguïtés de typage. Lors de la comparaison de fréquences alléliques, les données ambigües peuvent donner aux chercheurs une fausse description de la distribution des allèles. Les données typées par des méthodes sérologiques subissent plus de problèmes d’ambigüités que les méthodes moléculaires.
Afin d’éviter des biais possibles causés par ces problèmes, nous avons défini des critères stricts assurant une qualité minimale des données à analyser :
- La taille d’échantillon doit être supérieure de 40, c’est-à-dire 80 chromosomes. Ce critère avait été suivi faute de mieux lors d’une étude de données HLA à basse résolution sur l’Asie orientale et l’Océanie, ce qui assurait a priori la détection de la plupart des allèles et la conservation d’un nombre suffisant de données pour les analyses (Sanchez-Mazas et al. 2005). Bien entendu, une taille plus élevée serait souhaitable (Sanchez-Mazas 2002). Dans ce travail, seul un échantillon de 36 Chinois Han de Shanxi typés pour le locus HLA-DPB1 a fait exception.
- La localisation géographique et l’affiliation linguistique des populations échantillonnées doivent être clairement indiquées.
- Les données doivent avoir été obtenues par des méthodes moléculaires de typage, comme PCR-SSP, PCR-SBT, etc. Nous avons donc exclu les données obtenues par typages sérologiques. Seuls un échantillon de Li typés pour HLA-A et un échantillon de Ryukyuens typés pour HLA-DRB1 font ici exception.
- La fréquence de « l’allèle blanc » ne doit pas dépasser 5%.
Sous ces critères, toutes les données dont la qualité n’atteignait pas notre standard ont été exclues de nos jeux de données. Notons que nos collègues ont déjà recommandé ce 60 standard dans le cadre d’HLA-NET qui pourra guider les chercheurs en génétique des populations et en transplantation clinique pour travailler sur les données HLA (Sanchez- Mazas et al. 2012b).
2.2. Description des populations concernées
En principe, dans les études d’anthropologie moléculaire, les populations à étudier sont regroupées selon des informations géographiques, ethniques ou linguistiques, dépendant de l’intérêt des chercheurs (Cavalli-Sforza et al. 1994). C’est aussi la raison pour laquelle nous avons exclu des populations pour lesquelles ces informations n’étaient pas suffisamment claires. Au total, notre banque de données comprend des données HLA pour environ 127'000 individus appartenant à 84 populations distinctes, échantillonnées dans 141 études (Figure 2-1 et Annexe 1). Nous allons alors discuter de leurs affiliations selon chacun des aspects mentionnés ci-dessus : la géographie, l’ethnologie et la linguistique.
Figure 2-1 84 populations est-asiatiques échantillonnées pour les cinq locus HLA dans 141 études (les études sont numérotées et listées par locus en Annexe 1). 61
2.2.1. Informations géographiques
La localisation géographique de chaque population est représentée par sa latitude et sa longitude. Cette représentation de coordonnées géographiques est donc ponctuelle par rapport à la région occupée par la population, dont la superficie n’est pas à la même échelle selon l’intérêt de l’échantillonnage. Par exemple, des chercheurs peuvent échantillonner la population d’un village, d’une commune, d’une province, ou d’un pays, variant ainsi d’une surface de quelques km2 jusqu’à quelques centaines de milliers de km2.
En pratique, les coordonnées géographiques du centre géométrique sont souvent prises pour représenter une superficie sans utiliser d’intervalle. Concernant un village ou une commune, cette manière ne pose généralement pas de problème. Or, le centre géométrique d’une grande superficie, même si l’on arrive à le déterminer, ne représente pas toujours correctement la localisation de la population locale, car la densité démographique n’est pas uniforme dans un espace. Une région composée de plaines d’un côté et de montagnes de l’autre, ce qui est souvent notre cas, ici, peut avoir une densité démographique très déséquilibrée ; il vaut mieux alors prendre le centre de « gravité » démographique, en considérant la distribution des habitants, qui se concentrent souvent plus dans les grandes villes. Il nous est arrivé parfois de constater que les auteurs avaient échantillonné des individus d’une ou de quelques villes pour représenter une plus vaste région. Il est donc important de regarder la précision des auteurs dans chacune de ces études.
Si ce problème n’influence probablement pas tellement nos analyses sur l’ensemble de l’Asie orientale à une échelle de millions de km2, il pourrait s’aggraver si on s’intéresse à des questions plus détaillées sur des régions plus petites, comme la recherche et le positionnement de frontières génétiques, dont nous allons discuter plus loin.
Géographiquement parlant, nos données représentent une belle couverture de la région intéressée. Pour respecter la définition élargie de l’Asie orientale décrite plus haut, plusieurs populations de Sibérie du Sud et d’Asie du Sud-est continentale ont également 62
été incluses (Figure 2-1). D’autres populations sibériennes n’ont en revanche pas été prises en compte car leurs données n’étaient disponibles que pour le locus HLA-DRB1.
2.2.2. Informations ethnologiques
La complexité de la situation ethnologique en Asie orientale, dont nous avons parlé dans le chapitre 1, crée souvent des confusions aux chercheurs. D’abord, dans ces pays « multiethniques », les membres d’un groupe ethnique ne sont pas nécessairement concentrés en un lieu spécifique. Lorsqu’un échantillonnage est effectué, les chercheurs peuvent s’intéresser à tout un peuple local sans tenir compte des groupes ethniques, ou alors ne se concentrer qu’à un ou plusieurs groupe(s) ethnique(s) particulier(s). Dans le premier cas, le profil génétique observé représente l’ensemble des habitants, probablement un mélange de plusieurs groupes ethniques. En revanche, quand on échantillonne un groupe ethnique spécifique d’un lieu, il ne représente pas forcément les habitants en général. Et dans ce même lieu, il est aussi possible d’observer différents profils génétiques pour différents groupes ethniques.
Comme pour les informations géographiques discutées ci-dessus, ce genre de problème est moins épineux quand la structure génétique globale de la région est étudiée ; mais cela pourrait biaiser les résultats de certaines analyses plus détaillées comme des tests de corrélation entre distances génétiques et géographiques, car deux groupes ethniques habitant dans le même lieu à une distance géographique négligeable peuvent présenter d’énormes différences génétiques.
Toutefois, puisque nous nous intéressons simultanément à la géographie et à l’ethnologie, nous n’avons pas inclus les données de certaines populations d’origines ethniques obscures.
Ethnologiquement parlant, nos données couvrent 28 groupes ethniques reconnus en Chine, 2 groupes au Vietnam, 2 groupes en Thaïlande, 5 groupes en Mongolie, 3 groupes en Russie, ainsi que les Sud-Coréens, les Japonais (Yamato) et les Ryukyuens. 63
2.2.3. Informations linguistiques
Comparées à l’ethnologie, les informations linguistiques des populations sont moins problématiques, car la reconnaissance d’une langue est moins influencée par des facteurs ethno-politiques. En Chine, la langue n’est pas le facteur décisif pour distinguer les peuples. Par exemple, les dialectes sud-chinois, tels que le cantonais, le hakka, ou le minnan sont peu compréhensibles, voire incompréhensibles pour les locuteurs du mandarin, bien que leurs locuteurs soient tous reconnus comme appartenant à un même groupe ethnique, les Han chinois (Sun et al. 2007). Pour donner un autre exemple, les Bouyei et les Zhuang, deux groupes ethniques tai-kadai selon la définition du gouvernement, peuvent communiquer entre eux sans difficulté (Ma 2003).
Table 2-1 Nombre de populations disponibles pour chaque locus HLA et regroupées d’après les informations linguistiques.
Locus HLA Familles/Groupes linguistique A A B B C C DPB1 DRB1 DRB1 (allélique) (générique) (allélique) (générique) (allélique) (générique) (allélique) (allélique) (générique)
Altaïque (ALT) 4 7 2 6 2 6 5 5 7
Coréen et japonique 3 3 3 3 3 3 3 4 4
Sino-tibétain 14 33 13 32 12 17 20 15 41
Tibéto-birman (TB) 6 9 6 9 3 4 8 8 12
Sinitique (SIN) 8 25 7 23 9 13 12 7 29
Mandarin (MAN) 3 14 2 12 4 6 6 4 19
Langues sud- chinoises (LSC) 5 11 5 11 5 7 6 3 10
Hmong-mien (HM) 1 2 1 1 1 1 2 2 2
Tai-kadai (TK) 4 6 4 6 3 3 4 4 7
Austro-asiatique (AA) 4 4 4 4 1 1 2 5 5
Total 30 56 27 52 22 31 36 35 66
En linguistique, la difficulté concerne davantage la classification. Des questions de base sur la linguistique comparative n’ont pas encore permis aux linguistes d’établir une affiliation non controversée des langues actuelles. Les familles linguistiques que nous avons présentées plus haut sont basées sur l’Ethnologue (Gordon 2005), une des sources couramment utilisées dans la recherche. 64
Linguistiquement parlant, les cinq familles linguistiques d’Asie orientale sont toutes représentées par nos données. La Table 2-1 liste le nombre de populations échantillonnées pour chaque famille à chaque locus HLA. La famille sino-tibétaine a de plus été subdivisée en raison de l’abondance de données pour chaque branche.
2.3. Traitement des données
2.3.1. Calcul et estimation de fréquences génériques et alléliques
Dans la majorité des articles d’où proviennent nos données, les fréquences des lignages (fréquences génériques) et/ou des allèles (fréquences alléliques) HLA ont déjà été estimées et rapportées à partir du comptage des génotypes. L’une ou l’autre des deux méthodes courantes d’estimation des fréquences géniques est généralement appliquée : la formule de Bernstein (Bernstein 1930), ou le comptage direct.
L’estimation de fréquences par la formule de Bernstein a été une méthode standard lors du typage sérologique du système HLA. Quand la taille d’échantillon est de n (en nombre d’individus), le nombre de cas positif d’une spécificité HLA est de a, la fréquence phénotypique de cette spécificité fp est :
a f p= n
34 La fréquence génique fg est alors calculée selon :
f 1 1 f g= −√ − p
Normalement, la somme des fréquences géniques des spécificités est inférieure à 1, à cause des ambiguïtés. La différence à 1 compte alors pour la fréquence du « blanc ».
Quand le typage est passé au niveau moléculaire, le comptage direct a été plus souvent utilisé (car on a supposé qu’il n’existait aucune ambiguïté dans les génotypes, tout individu ayant un seul allèle étant considéré comme un homozygote). Ayant un nombre a
34 Cette formule repose sur l’hypothèse d’équilibre de Hardy-Weinberg de la population qui doit être vérifiée. 65
d’une spécificité HLA dans un échantillon de taille n, la fréquence génique f est calculée directement par :
a f = 2n
Pour les données de chaque étude, nous avons dans certains cas où les données nous le permettaient recalculé et vérifié les fréquences, afin d’éviter des erreurs d’impression ou de calcul.
En outre, l’algorithme EM35 est une méthode d’estimation des fréquences alléliques (Dempster et al. 1977; Excoffier et Slatkin 1995) qui peut s’appliquer à des données ambigües (Nunes et al. 2010). Malheureusement, cet algorithme n’a pas été applicable à nos données collectées du fait que nous ne disposions pas des données génotypiques complètes.
2.3.2. Regroupement des données alléliques
Les données rapportées par différents laboratoires à différentes périodes sont très variables du point de vue de leurs niveaux de résolution et des versions de la nomenclature utilisée. Lors de la récolte et des comparaisons de données, une uniformisation a donc été obligatoire.
Comme déjà discuté plus haut, nous avons traité les données à deux niveaux : la basse résolution (données à un champ, anciennement « 2 digits ») et la haute résolution (données à deux champs, anciennement « 4 digits »). Les données à 3 et 4 champs ont été transformées en données à 2 champs (e.g., A*01:01:01 transformé en A*01:01) afin de pouvoir les comparer aux données à haute résolution. Ensuite, toutes les données à 2 champs ont été combinées en un seul champ si nécessaire (e.g., A*01:01 transformé en A*01). Les données estimées par comptage direct ont pu être combinées simplement en faisant la somme des fréquences des allèles regroupés. Cela n’a pas été possible, en
35 De l’anglais Expectation-Maximization algorithme. 66
revanche, pour les fréquences estimées par la formule de Bernstein, car la fréquence combinée doit être calculée à partir de la somme des comptages.
Au final, les jeux de données en format Excel, à partir desquels le format pour chaque programme utilisé a été préparé, étaient prêts pour les analyses.
67
3. Analyse du polymorphisme HLA observé dans les populations est-asiatiques
Comme nous en avons déjà discuté dans le chapitre 1, l’application d’analyses statistiques aux données génétiques a permis aux généticiens de comparer les profils génétiques des populations et d’intégrer ces informations dans des tentatives de reconstruction de l’histoire du peuplement de notre espèce. Tandis que les comparaisons de fréquences géniques peuvent refléter directement des différences entre populations, les analyses statistiques basées sur les théories de la génétique des populations donnent la possibilité d’interpréter ou de prédire l’évolution de ces fréquences de manière plus sophistiquée en considérant les effets de différents mécanismes évolutifs comme la sélection et la dérive génétique (Blench et al. 2008).
Dans un premier temps (chapitre 3), nous avons étudié les données HLA d’Asie orientale à l’aide de méthodes statistiques à la fois descriptives et inférentielles. Dans ce chapitre, nous présentons les résultats obtenus par cette série d’analyses et les discutons ensuite en relation avec l’origine, la diversification et les migrations des populations est- asiatiques. Nous essayons également d’intégrer dans cette discussion des informations archéologiques et linguistiques.
3.1. Méthodes statistiques (descriptives et inférentielles) utilisées
3.1.1. Graphiques des fréquences génériques et alléliques
La réalisation de graphiques présentant les fréquences géniques observées dans l’ensemble des populations étudiées est un moyen simple, et souvent assez informatif, d’avoir un premier aperçu général des différences génétiques entre populations. Les recherches utilisant des marqueurs monoparentaux illustrent fréquemment des fréquences d’haplogroupes conjointement à des reconstructions d’arbres phylogénétiques, dans des approches phylogéographiques. Mais pour les gènes HLA comme pour d’autres marqueurs autosomaux, la reconstruction d’arbres phylogénétiques et leur interprétation 68
posent un problème majeur en raison de mécanismes complexes ayant gouverné leur évolution, comme les recombinaisons et les conversions géniques.
Les travaux réalisés sur l’évolution du système HLA sont encore loin de mettre complètement au clair les relations évolutives entre lignages et allèles HLA (Erlich et al. 1996; Gyllensten et al. 1996; Bergstrom et al. 1998; von Salome et al. 2007; Buhler et Sanchez-Mazas 2011). En revanche, les données des fréquences des lignages et des allèles sont directement disponibles pour des comparaisons. Nous les avons donc visualisées, pour chaque locus, en créant des diagrammes en aires (Figure 3-1 donnant un exemple) qui nous ont donné une impression générale du degré de polymorphisme de chaque locus, sachant que pour la majorité des populations, les lignages et allèles les plus nombreux sont observés au locus HLA-B, suivi de HLA-A, -DPB1, -DRB1 et -C (Buhler et Sanchez-Mazas 2011). Remarquons que les aires ont l’inconvénient de créer des vecteurs de fréquences « artificielles » entre les vraies populations mais ils visualisent beaucoup mieux les variations que des histogrammes.
Vu que nos données ne fournissaient des informations sur la répartition des lignages et allèles que dans les populations est-asiatiques, il était nécessaire de consulter d’autres données pour savoir comment ces lignages et allèles se répartissaient dans d’autres continents, idéalement au niveau mondial. Une base de données disponible en ligne a facilité cette tâche (Solberg et al. 2008). Sur le site http://www.pypop.org/popdata/, une carte de la répartition géographique de chaque allèle HLA est disponible. Ces cartes ont été créées sur la base de centaines de populations échantillonnées dans le monde entier, et les valeurs de fréquences alléliques sont représentées par différentes couleurs. Un problème majeur, bien sûr, est que les régions sans données sont colorées en gradients entre des points de données avoisinants, et ces cartes doivent donc être lues avec prudence (Figure 3-1 donnant un exemple). Par exemple, le bleu foncé pour une région de la carte ne signifie pas nécessairement que la fréquence d’un allèle y est à 0. Ces cartes permettent donc de visualiser de manière générale la répartition des allèles HLA dans le monde. En revanche, les répartitions plus détaillées peuvent être vérifiées en consultant les données HLA soumises aux derniers ateliers IHIW (Nunes et al. 2010; Riccio et al. 69
2013) ou d’autres bases de données comme Gene[VA]36 (Renquin et al. 2003) et AFND37 (Middleton et al. 2003).
Figure 3-1 Graphiques choisis comme exemples pour illustrer (haut) un diagramme en aire des fréquences HLA-A en Asie orientale et (bas) la répartition de l’allèle HLA-A*01:01 dans différentes régions du monde selon le site http://www.pypop.org .
36 Celle de notre laboratoire. 37 De l’anglais Allele Frequency Net Database. 70
3.1.2. Analyses intra-populationnelles
3.1.2.1. Test de l’équilibre de Hardy-Weinberg
La loi de Hardy-Weinberg (Hardy 1908; Weinberg 1908) est une loi fondamentale en génétique des populations. Cette loi prédit que, dans une population diploïde idéale38, les fréquences alléliques d’un gène (comprenant par exemple, deux allèles A et a) demeurent constantes entre générations, et déterminent les fréquences des génotypes (ici AA, Aa et aa) de cette population par des relations simples comme :
2 p(AA)=pA
p(Aa)=2pA pa
2 p(aa)=pa
où p(AA), p(Aa), et p(aa) sont les fréquences des génotypes AA, Aa et aa et pA et pa les fréquences alléliques des allèles A et a, respectivement (Hartl et Clark 1997).
Bien que les populations réelles ne remplissent jamais toutes les conditions idéales, les fréquences génotypiques observées s’accordent dans la majorité des cas avec les fréquences attendues (robustesse de la loi de Hardy-Weinberg).
La déviation par rapport à l’équilibre de Hardy-Weinberg d’une population peut être évaluée par un test du Chi-2 (Χ2) de Pearson ou un test exact de Fisher qui comparent la distribution observée des génotypes avec leur distribution attendue sous l’hypothèse d’équilibre (Hartl et Clark 2007). Ce premier test a été traditionnellement employé dans les études qui nous concernent.
Malheureusement, le manque d’information génotypique relative aux données que nous avons collectées à partir de la littérature nous a empêché de refaire ce test sur ces données. En effet, les données génotypiques ne sont généralement pas disponibles dans
38 Les conditions idéales sont remplies lorsque : 1. La reproduction de l’organisme est sexuée ; 2. Le choix de conjoint lors de la reproduction est aléatoire (panmixie) ; 3. Les générations ne se superposent pas ; 4. Les fréquences alléliques sont égales chez les mâles et chez les femelles ; 5. La taille de la population est infinie ; 6. L’effet de la migration, de la mutation et de la sélection naturelle est négligeable. 71
les publications, mais les résultats du test de Hardy-Weinberg sont normalement indiqués. Nous avons donc indiqué les résultats de ces tests dans notre banque de données.
3.1.2.2. Test de neutralité sélective avec correction de Bonferroni
Nous avons mentionné, dans le chapitre 1.4.2.5, que certains gènes HLA de classe I et de classe II évoluaient très certainement sous l’influence d’une sélection naturelle balancée, conduisant au maintien d’un degré de polymorphisme particulièrement élevé par rapport aux autres régions de notre génome. Malgré cela, les traces laissées par l’histoire du peuplement humain n’ont pas été effacées et peuvent être révélées, comme nous le verrons, par l’analyse de la répartition des lignages et allèles HLA. De plus, l’effet de la sélection naturelle sur un gène HLA n’est pas forcément uniforme car il dépend, entre autres, des environnements propres aux différentes régions géographiques occupées par les populations. Il est donc important d’évaluer l’effet possible de la sélection naturelle dans chaque population et à chaque locus afin de mieux interpréter les données en relation avec l’histoire du peuplement.
Nous avons donc appliqué le test d’homozygotie d’Ewens-Watterson développé par Watterson (Watterson 1978) sur la base de la théorie d’échantillonnage des allèles infinis d’Ewens (Ewens 1972). Cette théorie permet d’estimer la distribution attendue des fréquences de k allèles dans une population de taille n et d’en donner une valeur d’homozygotie (homozygotie attendue). Le test utilise donc comme statistique l’homozygotie observée Fobs :
k 2 F obs=∑ pi i=1
où pi est la fréquence de l’allèle i. Fobs est comparée à la distribution de l’homozygotie
attendue sous l’hypothèse H0 de neutralité sélective (distribution nulle) Fatt :
- H0 : Fobs=Fatt, l’hypothèse de neutralité est acceptée.
- H1 : Fobs
Pour effectuer ce test ainsi que d’autres analyses présentées plus loin, nous avons choisi le logiciel ARLEQUIN, version 3.1 (Excoffier et al. 2005), un programme qui donne 72
aux utilisateurs la possibilité d’appliquer un large éventail d’analyses en génétique des populations. Dans le cas du test d’Ewens-Watterson, ARLEQUIN génère la distribution nulle de F en simulant des échantillons neutres aléatoires possédant le même nombre total de gènes et le même nombre d’allèles ou haplotypes que l’échantillon observé à l’aide de l’algorithme de Stewart (1977). Nous avons fixé le nombre d’échantillons simulés à 10'000 pour ce test ainsi que pour les autres analyses exécutées par ARLEQUIN.
Nous avons effectué le test pour chaque population, à chaque locus. Pour savoir si le locus pouvait être considéré comme neutre, le seuil de significativité p à 0,05 nécessitait des corrections pour tests multiples, étant donné le grand nombre de populations échantillonnées. En effet, quand on applique de multiples fois un test indépendant à une série de données, les populations dans notre cas, la probabilité d’obtention de faux- positifs augmente avec le nombre de populations à tester. Nous avons donc appliqué la correction de Bonferroni (Cupples et al. 1984) au seuil de significativité de p afin d’éviter de tirer de fausses conclusions sur le locus en question.
3.1.2.3. Indice de diversité génétique
L’hétérozygotie est un indice qui mesure la diversité génétique des individus d’une population (Nei 1987). Si la population est en équilibre de Hardy-Weinberg pour un locus à k allèles, l’hétérozygotie de cette population est estimée par :
k 2 H =1−∑ pi i =1
où pi est la fréquence de l’allèle i.
Nous avons calculé la valeur de H pour chaque population à chaque locus, en utilisant le programme ARLEQUIN. Il est en effet intéressant de comparer les valeurs de H entre populations, ou les valeurs moyennes de H entre groupes de populations définis sur la base de critères géographiques ou linguistiques. D’un point de vue géographique, nous avons exploré la relation possible entre la diversité génétique d’une population et sa position représentée par la latitude et la longitude. Nous avons également cherché à 73
comparer les moyennes de H entre groupes de populations définis selon des critères linguistiques.
3.1.3. Analyses inter-populationnelles
3.1.3.1. Distances génétiques
Nous avons choisi la distance de Reynolds (Reynolds et al. 1983) pour mesurer la différenciation génétique entre populations. Cette distance est basée sur un indice FST, ce dernier étant dérivé de la statistique F de Wright (Wright 1951) considérée comme la corrélation entre deux gènes pris dans une subdivision donnée d’une population par rapport à deux gènes pris au hasard dans la population totale39. Reynolds et ses collègues
(1983) ont démontré que le FST entre deux populations ayant divergé depuis un temps relativement court pouvait être utilisé pour estimer la distance génétique D entre elles selon :
t D=−ln (1−F ST )≈ 2N
où t est le temps de divergence (en générations) et N la taille de la population ancestrale. Dans ce cas, les mutations sont négligeables, et la dérive génétique est la force principale conduisant à la divergence des populations. Cette distance est donc aussi appelée « coefficient de coancestralité », approprié à notre thématique. Grâce au programme ARLEQUIN, nous avons calculé les distances de Reynolds entre chaque paire de populations afin de constituer des matrices de distances. Le programme nous a
également permis de tester si la valeur de FST estimée pour chaque paire de populations était significativement différente de 0, par une procédure de permutations (dont le nombre a toujours été fixé à 10'000).
39 Il s’agit ici de l’une des définitions du FST. 74
3.1.3.2. Projections graphiques des populations
Dans le but de représenter graphiquement les matrices de distances génétiques que nous avons obtenues, deux techniques, l’analyse en coordonnées principales (PCoord40) et l’analyse d’échelonnement multidimensionnel (MDS) ont été appliquées par l’utilisation des programmes GenAlEx (version 6.1 (Peakall et Smouse 2006)) et NTSYS (version 2.1 (Rohlf 2000)), respectivement41.
- Analyse en coordonnées principales : L’analyse PCoordA (Gower 1966) est une technique multivariée permettant de trouver le profil principal d’un jeu de données complexes. Comme pour l’analyse en composantes principales, le principe de la méthode consiste à chercher une série d’axes pour illustrer les variations des données, de manière à ce que le premier axe (dit « coordonnée ») représente le maximum de variation, et que chaque axe suivant, indépendant du précédent, représente la variation maximale restante. Dans la majorité des cas, seules les deux ou trois premières coordonnées sont prises en compte. GenAlEx utilise un algorithme proposé par Orloci (1978) avec quatre options disponibles ; nous utilisons celle qui prend directement la matrice de distances sans standardisation. Avec cette procédure, nous avons effectué les PCoordA pour tous les locus à chaque niveau de résolution. - Analyse d’échelonnement multidimensionnel : Alternativement, une analyse MDS permet d’obtenir une configuration de points, dans un espace à 2 ou 3 dimensions, qui illustre le plus fidèlement possible les relations entre populations d’après la matrice de distances génétiques, par une procédure itérative qui minimise une valeur de stress (Kruskal 1964; Kruskal et Wish 1978). La qualité de la représentation est donc indiquée par les seuils du stress : 0,00 : Parfait ; 0,05 : Excellent ; 0,10 : Bon ; 0,20 : Faible ; 0,40 : Mauvais.
40 De l’anglais Principle Coordinate Analysis, à ne pas confondre avec l’analyse en composantes principales (PCA, Principle Component Analysis). 41 Rohlf (1972) recommande en effet d’utiliser les deux méthodes (dans la mesure du possible) pour valider des résultats. 75
1 ⎡ * ˆ 2 ⎤ 2 ()− dd ijij Stress = ⎢∑ ⎥ *2 ⎢ d ij ⎥ ⎣ ∑ ⎦
* où dij représente la distance euclidienne entre le point i et le point j sur la graphique, et la distance de disparité calculée par une régression sur la distance génétique entre les deux populations représentées par les points i et j, respectivement.
3.1.3.3. Analyse de variance
L’analyse de variance (ANOVA 42 ) est une méthode statistique permettant de partitionner hiérarchiquement la variabilité génétique totale entre populations et groupes de populations, et d’estimer le statistique F de Wright (Wright 1951) et/ou ses analogues
(comme FST dont nous avons parlé dans la section 3.1.3.1) à partir des variances de fréquences alléliques ou d’autres variables. Dans le contexte de la génétique des populations, une méthode ANOVA proposée par Cockerham (1969, 1973) permet d’estimer trois indices de corrélations, appelés « indices de fixation » :
- FCT mesure la corrélation entre deux gènes tirés au hasard dans un même groupe de populations par rapport à deux gènes tirés au hasard dans n’importe quel groupe de populations ;
- FST mesure la corrélation entre deux gènes tirés au hasard dans une même population par rapport à deux gènes tirés au hasard dans n’importe quelle population ;
- FSC mesure la corrélation entre deux gènes tirés au hasard dans une même population par rapport à deux gènes tirés au hasard dans n’importe quelle population du même groupe.
42 De l’anglais ANalysis Of VAriance. 76
C’est sur la base d’une extension de cette méthode de Cockerham que le programme ARLEQUIN applique le test, sous le nom d’AMOVA43 (Excoffier et al. 1992), qui donne non seulement la possibilité d’analyser les données de fréquences, mais aussi d’incorporer les données moléculaires (distances moléculaires entre allèles ou haplotypes). Des permutations sont également appliquées pour tester la significativité des indices de fixation.
3.1.3.4. Distances géographiques
La distance géographique entre chaque paire de populations a été calculée par GenAlEx, à partir des coordonnées géographiques (latitude, longitude). Le logiciel peut rendre les valeurs de transverse universelle de Mercator (UTM44) et les convertir en km (Peakall et Smouse 2010).
3.1.3.5. Corrélations entre variables
Dans notre recherche, nous nous intéressons aux corrélations entre certaines séries de mesures relatives aux populations étudiées, comme par exemple entre les fréquences géniques et la latitude. Un test de corrélation était donc nécessaire. Si on a n valeurs de
deux séries X et Y écrites comme xi et yi où i est égal à 1, 2, ..., n, le coefficient de corrélation de Pearson R entre X et Y peut être estimé par :
n ∑ ( xi−̄x)(yi −̄y) R = i=1 xy n n 2 2 ∑ (xi −̄x) ∑ ( yi−̄y) √ i=1 i =1
où et sont les moyennes de X et Y, respectivement. La significativité de R a été testée en utilisant le logiciel statistique SPSS, avec un seuil de significativité fixé à 0,05, si nécessaire (lorsque plusieurs tests sont effectués) ajusté par la méthode de Bonferroni.
43 De l’anglais ANalysis of MOlecular VAriance. 44 De l’anglais Universal Transverse Mercator Grid. 77
3.1.3.6. Corrélation entre matrices de distances
Nous avons réalisé le test de Mantel (Mantel 1967; Smouse et al. 1986) pour étudier les corrélations entre les matrices de distances génétiques et de distances géographiques. Ce test a été effectué grâce au programme GenAlEx qui calcule le coefficient de
corrélation RXY entre deux matrices X et Y par :