<<

Thesis

Histoire du peuplement de l'Asie orientale révélée par le système HLA

DI, Da

Abstract

Cette thèse se concentre sur l'histoire du peuplement de l'Asie orientale par les humains anatomiquement modernes ( sapiens), et plus particulièrement sur les routes possibles de migrations qu'ils auraient empruntées, suite à leur sortie d'Afrique, pour peupler l'Asie. Nous avons analysé des données de fréquences géniques de cinq gènes du système HLA dans 84 populations de différentes régions géographiques et parlant des langues de diverses familles linguistiques d'Asie orientale. Nos analyses statistiques et simulations informatiques nous ont conduit à suggérer un nouveau modèle de peuplement, le « modèle du chevauchement », proposant l'existence de deux routes de migrations longeant d'une part le sud et d'autre part le nord du plateau tibétain depuis l'Asie occidentale, et d'échanges génétiques intervenus ultérieurement, en Asie orientale, entre les populations issues de ces deux migrations. Nos résultats révèlent aussi une histoire complexe de diversification et d'expansion des familles linguistiques est-asiatiques, et aboutissent à une estimation cohérente des coefficients de [...]

Reference

DI, Da. Histoire du peuplement de l'Asie orientale révélée par le système HLA. Thèse de doctorat : Univ. Genève, 2013, no. Sc. 4543

URN : urn:nbn:ch:unige-279836 DOI : 10.13097/archive-ouverte/unige:27983

Available at: http://archive-ouverte.unige.ch/unige:27983

Disclaimer: layout of this document may differ from the published version.

1 / 1 UNIVERSITÉ DE GENÈVE FACULTÉ DES SCIENCES Département de génétique et évolution Professeure Alicia Sanchez-Mazas Unité d’anthropologie

Histoire du peuplement de l’Asie orientale révélée par le système HLA

THÈSE

présentée à la Faculté des sciences de l’Université de Genève pour obtenir le grade de Docteur ès sciences, mention biologie

par

DI Da

de

Pékin (CHINE)

o Thèse N 4543

GENÈVE ReproMail

2013

1

Remerciements

Ce travail de thèse a été mené dans le cadre du projet sur l’histoire du peuplement des humains modernes en Asie orientale, grâce au financement du Fonds National Suisse (FNS) de la Recherche Scientifique (subsides No.31003A_112651 et 31003A_127465 octroyés à la Professeure Alicia Sanchez-Mazas).

J’aimerais remercier très chaleureusement la Professeure Alicia Sanchez-Mazas, directrice du Laboratoire d’anthropologie, génétique et peuplements et de ma thèse. Elle m’a accepté dans ce laboratoire à l’issue de mon master de génétique, et m’a ouvert la porte vers la génétique des populations et le système HLA. Ses hautes compétences scientifiques, sa vision multidisciplinaire, sa diligence et sa prudence ont profondément influencé ma recherche. Son ouverture d’esprit a permis d’accroître ma créativité, qui sera essentielle pour ma future carrière. Elle a également corrigé avec le plus de patience possible le manuscrit de cette thèse. J’apprécie énormément les aides et les encouragements qu’elle m’a donnés à chaque moment difficile du travail.

Je remercie le Professeur André Langaney, ancien directeur de notre équipe. Bien que je n’aie pas suivi son enseignement direct en raison de sa retraite, ses œuvres, ses pensées et son humour liés à la recherche m’ont impressionné et m’ont passionné dès mon arrivée au laboratoire.

Je remercie le Docteur Mathias Currat qui m’a fait connaître les principes et les techniques nécessaires à l’estimation ABC. Il a créé le programme SELECTOR et l’a modifié à de nombreuses reprises selon mes demandes incessantes. Nos discussions fructueuses ont finalement abouti aux résultats définitifs de ce travail.

Je tiens à remercier le Docteur Laurent Sagart, du Centre de Recherches Linguistiques sur l’Asie Orientale (CRLAO) à Paris, et le Professeur Li Fajun, de la Faculté d’Anthropologie de l’Université Sun Yat-sen à Canton, qui m’ont guidé sur l’aspect linguistique et archéologique, respectivement, et qui m’ont également fait l’honneur de faire partie du jury de ma thèse.

Je remercie sincèrement le Professeur Pierre Darlu, qui a accepté au pied levé de faire partie du jury de ma thèse suite à l’indisponibilité de dernière minute d’un autre juré, et qui va valider cette thèse sur l’aspect de la génétique des populations et de la biostatistique.

Je remercie le Docteur Nabil Abdennadher et Monsieur Mohamed Ben Belgacem du Département d’informatique qui développent et maintiennent la plateforme EZ-Grid. La puissance de cette plateforme nous a permis d’obtenir suffisamment de résultats de simulations, sans lesquels ce travail n’aurait pas été possible. 2

Je remercie le Docteur Zhang Xiaomo et le Docteur Zhao Yupei de l’Université de Nankin qui m’ont fait accéder à de très nombreuses publications chinoises lors de la collecte des données HLA.

Je remercie le Docteur José Manuel Nunes pour son travail sur notre serveur et ses conseils sur les langages informatiques qui ont largement augmenté l’efficacité de mon travail. Je remercie également la Docteure Estella Poloni pour ses aides, en particulier concernant les méthodes statistiques, et pour sa gentillesse avec moi.

Je remercie le Docteur Stéphane Buhler avec lequel je travaille dans le même bureau depuis plusieurs années. Ancien étudiant du laboratoire, il m’a fait partager volontairement ses expériences dans la recherche, et, de plus, sa musique originale. Je remercie María Eugenia Riccio qui a commencé la thèse un peu plus tard que moi, et avec laquelle je partage des intérêts communs dans nos domaines de recherche. Elle m’a également beaucoup aidé lors des études et de l’enseignement.

Je remercie les membres actuels et anciens du Laboratoire d’anthropologie, génétique et peuplements grâce auxquels je profite d’une excellente ambiance à la fois scientifique et d’amitié, notamment Ninian Hubert van Blyenburgh, Christelle Vangenot, Claudio Quilodran, Nuno Silva, Mélanie Cuénod, Pascale Gerbault, Johan Renquin.

Je remercie également tous les membres du personnel administratif et technique de l’Unité d’anthropologie pour leur connaissance professionnelle et leur disponibilité quotidienne, en particulier Marie-Noëlle Lahouze, Carol Métroz, Stephan Weber, David Roessli, Luis Giraldes.

Et, au final, des remerciements à mes parents, qui m’ont tant soutenu de manière morale et financière depuis Pékin ; et à Fang, qui m’a accompagné pour passer tellement de moments inoubliables pendant mes sept ans d’études à Paris et à Genève.

3

Résumé Cette thèse se concentre sur l’histoire du peuplement des humains modernes (Homo sapiens) en Asie orientale. Depuis environ un siècle, de nombreux travaux ont été effectués sur ce sujet par des chercheurs de différentes disciplines (archéologie, paléontologie, linguistique, génétique). Parmi ces travaux, des études génétiques ont soutenu l’hypothèse d’une origine unique des humains modernes en Afrique de l’Est et, par conséquent, d’une descendance directe des populations est-asiatiques à partir des premiers humains anatomiquement modernes venant d’Afrique de l’Est (modèle « Out- of-Africa » opposé à l’hypothèse multirégionaliste). Une structure génétique remarquable des populations est-asiatiques actuelles - une différenciation nord-sud - a également été interprétée en relation avec les routes possibles de migrations qu’Homo sapiens aurait empruntées pour peupler l’Asie. En outre, du point de vue linguistique, les débats sur l’origine et les liens phylogénétiques entre grandes familles de langues est-asiatiques, telles que l’altaïque, le sino-tibétain, l’austronésien, l’austro-asiatique, le tai-kadai, et le hmong-mien, sont loin d’être terminés.

Dans ce contexte, le complexe majeur d’histocompatibilité (MHC) chez l’humain, appelé système HLA, très informatif pour reconstruire l’histoire génétique des populations en raison de son haut degré de polymorphisme, n’avait pas encore été étudié en profondeur à l’échelle de l’Asie orientale, raison pour laquelle nous avons choisi les gènes de ce système comme marqueurs pour notre recherche sur la structure génétique et l’histoire du peuplement des populations est-asiatiques.

Dans un premier temps du travail, nous nous sommes consacré à constituer une banque de données de fréquences géniques pour cinq gènes HLA (HLA-A, -B et -C de classe I, et HLA-DPB1, -DRB1 de classe II) à partir de la littérature publiée depuis une trentaine d’années, en grande partie en chinois, et à analyser ces données grâce à de nombreuses méthodes statistiques de la génétique des populations. Au total, nous avons travaillé sur un ensemble de 84 populations représentant la grande majorité des régions géographiques et familles linguistiques d’Asie orientale. Nos analyses ont confirmé un certain degré de correspondance entre les variations de fréquences géniques et la géographie, ainsi qu’une différenciation génétique nord-sud des populations. Une frontière génétique faiblement marquée mais significative a été détectée entre les populations Han du Nord et du Sud de la Chine, correspondant approximativement à la région du fleuve Yangzi, pour les locus HLA-A, -B et -DRB1. Contrairement à des résultats obtenus par d’autres auteurs sur le chromosome Y et des SNPs autosomaux, nous avons constaté que la variation génétique HLA se caractérisait par une diminution de la diversité génétique intra-populationnelle du Nord au Sud, et que des lignages et allèles HLA particuliers étaient inégalement répartis entre ces deux régions. Ces résultats sont compatibles avec une ancienne expansion des populations des humains modernes en 4

Asie orientale par une route longeant le sud du plateau tibétain, doublée d’une expansion via une route nord. Nous avons ainsi suggéré un nouveau modèle pour le peuplement de l’Asie orientale, le « modèle du chevauchement », qui met l’accent sur l’existence de ces deux routes et les échanges génétiques intervenus ultérieurement, en Asie orientale, entre les populations issues de ces deux migrations.

Le modèle d’une route unique de peuplement par le Sud, soutenu par un certain nombre de chercheurs, et notre nouveau modèle stipulant deux routes de migrations ont ensuite été confrontés par une méthode de simulations informatiques utilisant une approche ABC. Les résultats ont fourni des arguments en faveur de notre hypothèse, et ont révélé que la structure génétique HLA des populations d’Asie orientale avait été façonnée par un ensemble de mécanismes évolutifs incluant des facteurs géographiques, des facteurs démographiques et des facteurs ayant trait à des phénomènes de sélection naturelle sur les locus HLA. Contrairement aux populations d’Asie du Nord-est dans lesquelles l’histoire démographique aurait été plus stable, la diversité génétique des populations du Sud aurait subi un appauvrissement en raison de petites densités démographiques et de très faibles taux de migration. Un certain taux de diversité aurait néanmoins été maintenu dans ces populations par sélection balancée sur les locus HLA.

Concernant les familles linguistiques représentées par les populations étudiées, nous avons constaté à la fois des différences de diversité génétique à l’intérieur des familles et un patron de différenciation complexe entre familles. Ces résultats témoignent d’une diversification marquée des groupes linguistiques, l’altaïque proprement dit, le coréen et le japonique d’une part, et le sino-tibétain, le hmong-mien, le tai-kadai et l’austro- asiatique d’autre part. Les expansions altaïques et sino-tibétaines vers le Sud au cours des trois derniers millénaires auraient favorisé les échanges génétiques entre populations, tandis que les divisions politiques entre les dynasties du Nord et du Sud au cours des deux derniers millénaires auraient mis en place une frontière récente entre populations, à la fois génétique et linguistique, auprès de la zone du fleuve Yangzi, que l’on observe aujourd’hui dans de multiples études génétiques.

Ces conclusions importantes illustrent les principaux scénarios du peuplement humain en Asie orientale et ouvrent également de nombreuses perspectives dans le contexte de l’étude génétique de cette région que nous viserons dans le futur.

5

Summary This thesis focuses on the peopling history of modern (Homo sapiens) in East Asia. For about a century, numerous studies have been conducted on this subject by researchers from different disciplines (archeology, paleontology, linguistics and genetics). Among them, genetic studies have supported the hypothesis of a recent East African origin of all modern and, as a consequence, a direct descent of East Asian populations from the first anatomically modern humans coming from East Africa ("Out- of-Africa" model compared to the multiregionalist hypothesis). A remarkable genetic structure currently observed in East Asia - a north-south genetic differentiation - was also interpreted in relation to possible migration routes followed by Homo sapiens in its way to East Asia. In addition, from a linguistic point of view the debates on the origin of and phylogenetic relationships between the main linguistic families in East Asia, such as Altaic, Sino-Tibetan, Austronesian, Austro-Asiatic, Tai-Kadai and Hmong-Mien, are far from being over.

In this context, the major histocompatibility complex (MHC) in humans, namely HLA, which is very informative for the reconstruction of population genetic history due to its high degree of polymorphism, had not yet been studied in depth across East Asia. This is the reason why we chose HLA genes as markers in our research on the genetic structure and peopling history of East Asian populations.

We first created a database of gene frequencies for five HLA genes (HLA-A, -B, -C of class I and HLA-DPB1, -DRB1 of class II) by taking data from the literature published during the last three decades, mainly from papers written in Chinese, and we analyzed these data by applying diverse statistical methods used in population genetics. We worked on a total set of 84 populations representing the vast majority of East Asian geographical regions and language families. Our analyses confirm a certain degree of correspondence between gene frequency variation and geography, as well as a north- south genetic differentiation of populations in East Asia. A weak but significant genetic boundary is detected for the HLA-A, -B and -DRB1 loci between Han populations from North and South , which roughly corresponds to the Yangtze River region. Contrary to the results obtained by some other researchers on Y-chromosome and autosomal SNPs, we find that HLA genetic variation is characterized by a decreasing intra-population genetic diversity from North to South, and that some HLA lineages and alleles are unevenly distributed between the two regions. These results are consistent with an old expansion of modern humans in East Asia by a route following the southern edge of the Tibetan Plateau, along with another expansion via a northern route. We thus suggest a new "Overlapping model" for the peopling history of East Asia, which focuses on both the existence of these two migration routes and genetic exchanges occurring later in East Asia between populations originating from these two migrations. 6

The model of a single southern route, which is supported by a number of researchers, and our new model stipulating two migration routes were then tested by a computer simulation method associated to a Bayesian estimation approach (ABC). The results provide arguments in favor of our hypothesis and show that the HLA genetic structure of East Asian populations was shaped by several evolutionary mechanisms including geographic and demographic factors as well as natural selection acting on HLA. Unlike the Northern East Asian populations whose demographic history would have been more stable, the Southern East Asian populations would have suffered a loss of genetic diversity due to small population sizes and very low migration rates, though a certain level of HLA diversity was maintained in these populations by balancing selection.

Concerning the linguistic families represented by the populations we studied, we find both differences of genetic diversity within families and a complex pattern of differentiations among families. These results show a marked diversification of language groups, with Altaic proper, Korean and Japanic on one hand, and Sino-Tibetan, Hmong- Mien, Tai-Kadai and Austro-Asiatic on the other hand. Southward Altaic and Sino- Tibetan expansions occurring during the last three millennia further enhanced the genetic exchanges among populations, while political divisions between the Northern and Southern dynasties during the last two millennia lead to the emergence of a genetic and linguistic boundary between populations around the Yangtze River region, as observed in many genetic studies.

These important conclusions illustrate the main scenarios of human peopling history in East Asia and also open several perspectives regarding genetic studies of East Asia in the future.

7

Table de matières

1. Introduction ...... 1 1.1. Présentation générale du travail ...... 1 1.2. Introduction à la région étudiée ...... 4 1.2.1. Géographie de l’Asie orientale ...... 4 1.2.2. Bref résumé de la préhistoire et de l’histoire de l’Asie orientale ...... 6 1.2.3. Reconnaissance ethnique ...... 8 1.2.4. Structure linguistique ...... 9 1.2.4.1. Principales familles linguistiques ...... 10 1.2.4.2. Familles linguistiques non étudiées dans ce travail ...... 12 1.3. Introduction à l’histoire du peuplement de l’Asie orientale ...... 12 1.3.1. Etudes archéologiques ...... 12 1.3.1.1. La recherche des vestiges humains ...... 12 1.3.1.2. La datation archéologique ...... 14 1.3.1.3. La morphologie : de l’ à l’Homo sapiens ...... 15 1.3.1.4. La culture : du Paléolithique au Néolithique ...... 19 1.3.2. L’origine des humains modernes en Asie orientale ...... 20 1.3.2.1. Modèle de continuité régionale (modèle multirégionaliste) ...... 20 1.3.2.2. « Out-of-Africa » (modèle unirégionaliste) ...... 22 1.3.2.3. Débats ...... 25 1.3.2.4. Flux géniques possibles avec des humains archaïques ...... 27 1.3.3. Différenciation nord-sud en Asie orientale ...... 29 1.3.3.1. Structure morphologique et génétique ...... 29 1.3.3.2. Frontière génétique ...... 30 1.3.3.3. Aspects linguistiques ...... 32 1.3.4. Modèles concernant les routes de migrations vers l’Asie orientale ...... 33 1.3.4.1. Routes de migrations possibles ...... 34 1.3.4.2. « Modèle de la pince » ...... 35 1.3.4.3. « Modèle de l’origine au Sud » ...... 36 1.3.4.4. Débats ...... 38 8

1.3.5. Modèles concernant l’origine des familles linguistiques ...... 40 1.4. Introduction au système génétique étudié ...... 42 1.4.1. Description générale du système HLA ...... 42 1.4.2. Le polymorphisme des gènes HLA ...... 45 1.4.2.1. Typages sérologiques et moléculaires ...... 45 1.4.2.2. Les gènes HLA polymorphes ...... 46 1.4.2.3. La nomenclature du système HLA ...... 47 1.4.2.4. Ambiguïtés de typage HLA ...... 50 1.4.2.5. Mécanismes évolutifs agissant sur le MHC ...... 51 1.4.3. Applications des analyses HLA en génétique des populations ...... 52 1.4.3.1. A l’échelle mondiale ...... 52 1.4.3.2. La différenciation HLA en Europe ...... 53 1.4.3.3. Les différenciations HLA en Afrique ...... 54 1.4.3.4. Les études HLA en Asie orientale ...... 54 2. Données...... 57 2.1. Description des données utilisées ...... 57 2.1.1. Origine des données ...... 57 2.1.2. Les critères assurant la qualité des données ...... 58 2.2. Description des populations concernées ...... 60 2.2.1. Informations géographiques ...... 61 2.2.2. Informations ethnologiques ...... 62 2.2.3. Informations linguistiques ...... 63 2.3. Traitement des données ...... 64 2.3.1. Calcul et estimation de fréquences génériques et alléliques ...... 64 2.3.2. Regroupement des données alléliques ...... 65 3. Analyse du polymorphisme HLA observé dans les populations est-asiatiques .... 67 3.1. Méthodes statistiques (descriptives et inférentielles) utilisées ...... 67 3.1.1. Graphiques des fréquences génériques et alléliques ...... 67 3.1.2. Analyses intra-populationnelles ...... 70 3.1.2.1. Test de l’équilibre de Hardy-Weinberg ...... 70 3.1.2.2. Test de neutralité sélective avec correction de Bonferroni ...... 71 9

3.1.2.3. Indice de diversité génétique ...... 72 3.1.3. Analyses inter-populationnelles ...... 73 3.1.3.1. Distances génétiques ...... 73 3.1.3.2. Projections graphiques des populations ...... 74 3.1.3.3. Analyse de variance ...... 75 3.1.3.4. Distances géographiques ...... 76 3.1.3.5. Corrélations entre variables ...... 76 3.1.3.6. Corrélation entre matrices de distances ...... 77 3.1.3.7. Répartition géographique des lignages et allèles ...... 77 3.1.3.8. Frontière génétique ...... 78 3.2. Résultats ...... 79 3.2.1. Distributions de lignages et d’allèles HLA ...... 79 3.2.1.1. Lignages et allèles sans distribution géographique spécifique ...... 84 3.2.1.2. Lignages et allèles montrant une relation avec la géographie ...... 85 3.2.1.3. Corrélations fréquences géniques – latitude/longitude ...... 87 3.2.2. Tests d’Ewens-Watterson ...... 89 3.2.3. Indices d’hétérozygotie ...... 89 3.2.4. La génétique versus la géographie ...... 92 3.2.4.1. Correspondance entre matrices de distances ...... 92 3.2.4.2. Analyses d’autocorrélation spatiale ...... 92 3.2.4.3. PCoordA et MDS ...... 95 3.2.4.4. SAMOVA ...... 102 3.2.5. La génétique versus la linguistique ...... 103 3.2.5.1. Profil général ...... 103 3.2.5.2. Différenciation génétique entre groupes linguistiques ...... 103

3.2.5.3. FST et H ...... 104 3.3. Discussion ...... 106 3.3.1. Origine des populations est-asiatiques ...... 106 3.3.1.1. Gradient de diversité génétique ...... 106 3.3.1.2. Premières migrations des humains modernes en Asie orientale .... 108 3.3.2. Frontière génétique ...... 111 10

3.3.3. L’ensemble des groupes linguistiques ...... 112 3.3.4. Structure de chaque groupe linguistique ...... 113 3.3.4.1. Altaïque ...... 113 3.3.4.2. Coréen et japonique ...... 114 3.3.4.3. Sino-tibétain ...... 114 3.3.4.4. Tai-kadai, hmong-mien et austroasiatique ...... 117 3.4. Conclusion ...... 117 3.5. Publications ...... 118 3.5.1. Article publié dans American Journal of Physical Anthropology ...... 118 3.5.2. Article publié dans Communication on Contemporary Anthropology .. 136 4. Simulations des scénarios de peuplement ...... 145 4.1. Théories et Méthodes ...... 146 4.1.1. Principes généraux de l’approche ABC ...... 146 4.1.2. Programmes ...... 148 4.1.2.1. Outil de simulation : SELECTOR ...... 148 4.1.2.2. Outil d’analyse statistique: ARLSUMSTAT ...... 149 4.1.2.3. Outil d’estimation : ABCestimator ...... 150 4.1.3. Carte numérique ...... 150 4.1.4. Données observées ...... 151 4.1.5. Modèles de peuplement ...... 153 4.1.5.1. Scénarios démographiques ...... 154 4.1.5.2. Paramètres à estimer ...... 154 4.1.5.3. Simulations qualitatives préliminaires et phase d’exploration ...... 157 4.1.5.4. Simulations quantitatives et amélioration des modèles ...... 157 4.1.5.5. Choix de trois modèles représentatifs ...... 158 4.1.6. Analyse des données simulées ...... 161 4.1.6.1. Statistiques utilisées ...... 161 4.1.6.2. Comparaison entre données observées et simulées ...... 163 4.1.6.3. Estimation des paramètres ...... 163 4.1.6.4. Comparaison des modèles ...... 164 4.1.6.5. Statistiques transformées linéairement ...... 165 11

4.1.6.6. Validation des résultats ...... 166 4.1.7. Puissance de calcul et durée des simulations ...... 167 4.1.8. Automatisation et programmation des analyses ...... 169 4.2. Synthèse des résultats des analyses ...... 170 4.2.1. Diversité génétique ...... 170 4.2.2. Lignages avec distribution clinale ...... 171 4.2.3. Estimation des Paramètres ...... 174 4.3. Discussion ...... 184 4.3.1. Modèle le plus vraisemblable ...... 184 4.3.2. Différenciation nord-sud ...... 186 4.3.3. Facteurs évolutifs et démographiques ...... 188 4.3.3.1. Sélection balancée ...... 188 4.3.3.2. Densité, migration et croissance démographique ...... 189 4.3.3.3. Barrière nord-sud ...... 190 4.3.3.4. Echanges génétiques entre populations de différentes origines ..... 192 4.4. Conclusion ...... 193 5. Discussion générale ...... 195 5.1. Discussion sur la thématique ...... 195 5.2. Discussion sur les méthodes employées ...... 200 5.3. Intérêt du système HLA en génétique des populations ...... 203 5.4. Article publié dans Rice ...... 205 6. Conclusions et perspectives ...... 217 7. Bibliographie...... 223

8. Annexes...... 239

12

1

1. Introduction

1.1. Présentation générale du travail

Depuis la fameuse découverte de « l’Homme de Pékin » en 1927 (Black 1929), l’Asie orientale est considérée comme une région importante dans l’histoire du peuplement de l’humain anatomiquement moderne (Wu et Olsen 1985). Attirés par l’énorme diversité à la fois culturelle, linguistique et génétique de ce vaste continent, les chercheurs de différentes disciplines ont effectué de nombreuses études, dont l’intérêt a porté sur l’origine des populations locales et sur les scénarios de diversification, métissage et migrations (Sagart et al. 2005; Sanchez-Mazas et al. 2008).

Les travaux archéologiques portant sur l’Asie orientale ont révélé une grande richesse en vestiges culturels ainsi qu’en ossements d’hominidés, dont certains datent de plus d’un million d’années (Wu et Olsen 1985). Sur la base de comparaisons morphologiques entre fossiles d’humains archaïques et d’humains modernes, certains archéologues ont soutenu l’hypothèse d’une origine locale d’Homo sapiens en Asie orientale, indépendante de l’origine des humains modernes sur les continents africain et européen : cette hypothèse est connue sous le nom « d’origine multirégionale » (Weidenreich 1937; Wu et Olsen 1985; Wu 2004; 2006; Otte 2010).

Pendant les quatre dernières décennies, les progrès des techniques moléculaires ont permis aux généticiens d’entrer dans le débat de l’histoire du peuplement en étudiant le matériel génétique humain. Des analyses du polymorphisme de nombreux marqueurs génétiques, et plus particulièrement des microsatellites (STR) de la région non- recombinante du chromosome Y (NRY) et des régions hypervariables de l’ADN mitochondrial (HVSI et HVSII), ont conduit à soutenir l’hypothèse d’une origine récente africaine de toutes les populations humaines modernes du monde, y compris les populations est-asiatiques (pour une revue, voir Jin et Su 2000). Selon cette hypothèse « d’origine unirégionale », acceptée aujourd’hui par la majorité des généticiens, les premiers humains anatomiquement modernes, soit les Homo sapiens, seraient apparus en Afrique il y a environ 200'000 ans, d’où ils se seraient ensuite dispersés à travers le 2

monde en remplaçant progressivement des humains archaïques (Homo erectus et d’autres) alors présents en Europe et en Asie.

Or, si cette hypothèse fait presque l’unanimité des chercheurs, les routes précises empruntées par les premiers Homos sapiens de l’Afrique à l’Asie orientale restent extrêmement controversées. Cette question est non seulement en lien étroit avec l’origine des populations est-asiatiques, mais elle est aussi essentielle pour notre connaissance de l’histoire du peuplement de plusieurs autres grandes régions géographiques, à savoir l’Océanie et l’Amérique. En effet, sous l’hypothèse d’une diaspora de tous les humains modernes à partir de l’Afrique, l’Asie orientale est un « passage obligatoire » pour atteindre ces grandes régions. Deux modèles principaux ont été proposés : le premier modèle stipule deux expansions géographiques de populations, quasi-simultanées, à partir du Sud-ouest et du Nord-ouest de l’Asie orientale pendant le Paléolithique (« modèle de la pince »). Cette hypothèse se base principalement sur l’observation d’une différenciation nord-sud des populations en Asie orientale d’après des traits morphologiques et génétiques (Cavalli-Sforza et al. 1994; Xiao et al. 2000; Karafet et al. 2001; Cavalli-Sforza et Feldman 2003). Le deuxième modèle postule une seule expansion géographique ancienne des populations à partir du Sud-ouest de l’Asie (« modèle de l’origine au Sud »), les principaux arguments se basant sur des analyses de diversité génétique intra-populationnelle des populations et sur des analyses phylogénétiques de marqueurs uni-parentaux (Ballinger et al. 1992; Chu et al. 1998; Su et al. 1999; Macaulay et al. 2005; et al. 2005, 2008; Abdulla et al. 2009).

Du côté de la linguistique, les débats sur l’origine des grandes familles linguistiques est-asiatiques, comme l’altaïque, le sino-tibétain et l’austro-asiatique, parmi d’autres, sont aussi loin d’être terminés. L’expansion de ces familles, probablement liée à la des céréales au Néolithique, aurait également modelé de manière significative la structure génétique des populations d’Asie orientale (Sagart et al. 2005; Sanchez-Mazas et al. 2008).

Parmi les systèmes génétiques fréquemment utilisés dans les études sur le peuplement humain, le complexe majeur d’histocompatibilité (MHC) chez l’humain, appelé système 3

HLA, s’est révélé très informatif du fait de son haut degré de polymorphisme (pour une revue, voir Sanchez-Mazas et al. 2011b). Cependant, jusqu’en 2007, les différenciations des populations est-asiatiques ont été peu étudiées pour ce système, faute de données disponibles. En réalité, une centaine de populations de Chine, pays qui couvre la majorité de l’Asie orientale, avaient été échantillonnées par des chercheurs chinois, mais la plupart des résultats avaient été publiés en chinois, empêchant la communauté scientifique internationale d’accéder aux données. Parlant nous-même chinois, cette situation nous encouragea à choisir les gènes du système HLA comme marqueurs génétiques pour notre étude dans le cadre d’un projet sur l’histoire du peuplement de Asie orientale mené au sein du Laboratoire d’Anthropologie, Génétique et Peuplements (AGP) et financé par le Fonds National Suisse (FNS) de la Recherche Scientifique (subsides No.31003A_112651 et 31003A_127465 octroyés à la Professeure Alicia Sanchez-Mazas).

Ce travail a été structuré selon le plan suivant. Nous nous sommes d’abord consacré à la constitution d’une banque de données de fréquences géniques pour cinq gènes HLA dits « classiques » (HLA-A, -B et -C de classe I, et HLA-DRB1 et -DPB1 de classe II), à partir de la littérature publiée depuis une trentaine d’années, en partie en chinois. Nous avons ensuite analysé ces données à l’aide de nombreuses méthodes statistiques utilisées en génétique des populations (analyses de corrélations, de variances, etc), ce qui nous a permis d’explorer la structure génétique des populations d’Asie orientale en lien avec l’histoire du peuplement. Enfin, sur la base de cette exploration, nous avons testé différents modèles de migrations de populations vers l’Asie orientale avec des méthodes de simulation informatique et « d’estimation bayésienne approchée », ce qui nous a conduit à estimer une vraisemblance pour chacun des modèles concurrents et, finalement, à soutenir l’un des scénarios énoncés.

Le détail des chapitres est le suivant :

- Suite à cette présentation générale du travail, les sections du chapitre 1 d’introduction présentent brièvement l’Asie orientale du point de vue de sa géographie, de sa préhistoire et de son histoire. Les études de différentes disciplines portant sur le peuplement de cette région sont ensuite discutées. Enfin, 4

le système génétique que nous analysons dans ce travail, le système HLA, est présenté sous plusieurs aspects. - Le chapitre 2 se concentre sur la constitution de nos jeux de données HLA pour les populations est-asiatiques. Nous discutons de la source des données ainsi que des problématiques relatives au choix et au traitement des données, avant de passer aux analyses plus approfondies. - Le chapitre 3 présente les analyses statistiques descriptives et inférentielles effectuées sur les données HLA observées, les résultats que nous avons obtenus, et la discussion de ces résultats. Nous présentons également ici deux articles que nous avons publiés à partir de ces analyses. - Le chapitre 4 présente les analyses, résultats et conclusions des simulations informatiques du peuplement de l’Asie orientale et les paramètres divers que nous avons estimés par cette approche. - L’ensemble de la thèse est discutée da manière plus générale au chapitre 5 et un troisième article publié y est aussi présenté. - Enfin, nos conclusions générales et les perspectives de ce travail sont présentées au chapitre 6, lui-même suivi de la bibliographie et des annexes.

1.2. Introduction à la région étudiée

1.2.1. Géographie de l’Asie orientale

En regardant une carte géographique, on constate que l’Asie orientale se trouve à l’est de l’Eurasie, vers la côte Pacifique. Ce vaste continent de plus de 10 millions de km2, l’Extrême-Orient, se définit à la fois politiquement, géographiquement et culturellement. Politiquement, il comprend la Chine, le Japon, les deux Corées et la Mongolie. Le Vietnam y est parfois rattaché pour des raisons historiques (Kolb 1971). Il avoisine la Sibérie au nord, l’Asie centrale au nord-ouest, l’Asie du Sud au sud-ouest, et l’Asie du Sud-est continentale au sud (Figure 1-1).

Le Sud-ouest de l’Asie orientale est délimité par l’Himalaya, qui abrite les plus hautes montagnes du monde. Avec une altitude moyenne supérieure à 3'500 mètres, ces chaînes de montagnes sont le résultat d’une collision entre la plaque eurasienne et la plaque 5 indienne intervenue il y a environ 70 millions d’années. On trouve ici la source de plusieurs fleuves importants, parmi lesquels le Huanghe (fleuve jaune), le Yangzi (fleuve bleu) et le Mékong ont creusé de grandes vallées fluviales et formé de vastes plaines alluviales, avant de rejoindre le Pacifique.

Figure 1-1 Carte géographique de l’Asie orientale et des régions avoisinantes (source : Imago Mundi).

Ces reliefs donnent à l’Asie orientale une grande diversité géographique. Du nord- ouest au sud-est, les changements de climat et de paysage sont prononcés. Loin de l’océan, le climat de la moitié nord-ouest est continental, froid et sec, laissant s’étendre des steppes et des déserts. Au contraire, la moitié sud-est, comprenant des grandes plaines 6

au Nord et de basses collines au Sud1, est caractérisée par un climat océanique, doux et humide (Tregear 2007).

1.2.2. Bref résumé de la préhistoire et de l’histoire de l’Asie orientale

Les climats subtropicaux et tempérés de la moitié sud-est de l’Asie orientale favorisent la colonisation des êtres vivants, y compris, bien sûr, les humains. Au Pliocène supérieur les premiers humains archaïques nous laissèrent des traces de leurs pratiques de la chasse et de la cueillette à l’aide d’outils très rudimentaires. Pendant la dernière glaciation apparurent les humains modernes qui développèrent, quelques dizaines de milliers d’années plus tard, l’agriculture dans le Sud et dans le Nord. La domestication du riz, Oryza sativa, dans la vallée du fleuve Yangzi, et celle des deux millets, Panicum miliaceum et Setaria italica, sur les plaines fluviales et le plateau de Lœss, des céréales que l’on produit et consomme encore de nos jours, aboutirent à la prospérité des cultures néolithiques, quelques millénaires plus tard (Keightley 1983).

En revanche, dans la moitié nord-ouest de l’Asie orientale, en raison d’un environnement plus rigoureux et de l’abondance de l’herbe, apparut un autre mode de vie, le nomadisme, plus récemment, à part de l’agriculture. Ces cultures nomades occupèrent une région aussi vaste que les grandes steppes, de la péninsule coréenne jusqu’en Asie centrale, bien que nos connaissances sur leurs origines exactes restent très obscures.

Le début des affrontements entre ces deux groupes de populations, d’une part agricole, d’autre part nomade, reste bien obscur, faute de documents historiques. Toutefois, la civilisation chinoise débuta dans ces affrontements, il y a plus de 4'000 ans (Wang 1994). La suite de l’histoire de la Chine fut marquée par une succession de dynasties chinoises, les Shang, les Zhou, les Qin, les Han, et cætera. Les populations, connues aujourd’hui comme les Chinois Han, développèrent une économie agricole avantageuse, une idéologie confucianiste dominante, une structure bureaucratique élaborée, et une écriture logographique commune (Eberhard 2005; Holcombe 2010). Leur culture s’étendit avec

1 Sans précision particulière, le Nord et le Sud (avec N et S en majuscule) s’agissent deux régions de l’Asie orientale séparant par le fleuve Yangzi. 7

les migrations démographiques suite à l’agrandissement du territoire chinois par les conquêtes militaires, ainsi qu’avec les rayonnements vers des pays voisins, notamment la Corée, le Japon et le Vietnam, composant une sphère d’influence culturelle couvrant la majorité de la région (Ebrey et al. 2009).

Cependant, les menaces aux agriculteurs, de la part des nomades du Nord, ne cessèrent guère (Holcombe 2010). Au long des siècles, la frontière agro-pastorale se déplaça fréquemment, dépendant souvent du changement climatique (Zhang et al. 2007b). Le réchauffement renforçait les dynasties agricoles, tandis que le refroidissement les affaiblissait (Fang et 1992). Les constructions à plusieurs reprises d’un complexe de défense chinois pendant les derniers 2'500 ans, la fameuse Grande Muraille, reflète bien cette histoire, et sa localisation nous rappelle encore aujourd’hui cette frontière.

L’émergence des civilisations nomades entraîna généralement des conflits avec les dynasties agricoles des Chinois Han. A plusieurs époques historiques, ces dernières furent conquises partiellement au Nord, voire totalement. Les envahisseurs nomades, ème ème ème notamment les Xianbei au 4 siècle, les Khitans au 9 siècle, et les Mongols au 13 siècle, réutilisèrent tôt ou tard le système administratif des Han pour les gouverner. Certains d’entre eux finirent par être assimilés par les populations locales, tandis que certains autres revinrent aux steppes et recommencèrent une vie pastorale après l’effondrement de leur régime (Holcombe 2010).

L’Asie orientale fut pendant longtemps une région relativement isolée d’un point de vue géographique, séparée des civilisations occidentales par des montagnes, des déserts et des mers. Or, ces obstacles géographiques n’éliminent pas, depuis très longtemps, des communications entre l’Orient et l’Occident, telles que l’introduction du blé et du cheval du Proche-Orient par les peuples tokhariens il y a plus de 4'000 ans (Li et al. 2007), et les commerces entre la Chine et les royaumes du Moyen-Orient, voire l’Empire Romain par la Route de la Soie il y a 2'000 ans, jusqu’à l’arrivée massive des Européens au cours du 19ème siècle et la modernisation et la globalisation au cours du 20ème (Holcombe 2010). 8

1.2.3. Reconnaissance ethnique

Du point de vue ethno-politique, l’Asie orientale est très différente de l’Europe où se sont développés les « états-nations ». Historiquement, la Chine impériale distinguait les citoyens et les étrangers par l’acceptation des coutumes Han, quelles que soient leurs origines ethniques. Au milieu du 20ème siècle, la Chine (République Populaire), la Mongolie et le Vietnam, en raison de leur longue histoire de mélange ethnique et de l’influence des idéologies communistes, surtout celles de l’Union Soviétique, se sont déclarés des états « multi-ethniques », malgré le fait que, dans chacun de ces pays, les « minorités » comptent moins de 15% de la population 2 . Des ethnologues et des anthropologues ont été envoyés sur le terrain pour étudier les populations afin de déterminer leur statut ethnique. L’auto-reconnaissance a été une référence importante de cette procédure, mais l’histoire, la linguistique et d’autres facteurs ont aussi été considérés. Actuellement, les gouvernements de la Chine et du Vietnam reconnaissent 56 et 54 groupes ethniques, respectivement (Wang 1994; Dien 2003).

La procédure de reconnaissance a été effectuée indépendamment dans différents pays. Deux peuples considérés dans un pays comme faisant partie d’un même groupe ethnique pourraient alors être reconnus, dans un autre pays, comme deux groupes ethniques distincts. Par exemple, les Chinois Han au Vietnam sont reconnus officiellement comme trois groupes : en principe les Hoa, mais aussi les Ngái et les Sán Dìu, qui sont des sous- groupes des Han (Dien 2003). A Taïwan3, les Chinois Han sont classés en trois « sous- groupes » : les Hoklo (Minnan), les Hakka et les « Waishengren » (ceux des autres

2 Dans la République Populaire de la Chine, les non-Han totalisent 8,49% de la population (2010). Au Vietnam, les non-Kinh totalisent 14,3% de la population (2009). En Mongolie, les non-Mongols ne totalisent que 5,1% de la population (2010). 3 L’île de Taïwan (autrefois Formose) et quelques îles avoisinantes sont actuellement contrôlées par la République de Chine, ancien gouvernement nationaliste chinois (1912-1949) qui perdit la guerre civile (1945-1949) contre les communistes. Le gouvernement de la République populaire de Chine fut alors proclamé à Pékin en 1949, tandis que celui de la République de Chine se déplaça vers Taïwan, accompagné d'un transfert massif de population. Les deux gouvernements déclarent chacun la légitime souveraineté sur la totalité du territoire chinois (la Chine continentale et Taïwan). 9

provinces4). Les aborigènes taïwanais sont reconnus par Pékin comme un seul groupe Gaoshan, mais ont été reconnus comme 14 groupes ethniques distincts par le gouvernement local, et leur nombre risque d’augmenter encore, dans le futur, en raison des volontés du peuple (Damm 2012).

En revanche, les autres pays est-asiatiques, notamment le Japon et les deux Corées, se considèrent comme des états-nations, malgré quelques groupes minoritaires existants (Pai et Timothy 1998).

1.2.4. Structure linguistique

Tout comme la structure ethnique, l’Asie orientale présente une grande diversité linguistique, particulièrement dans les régions montagneuses. Plus de 230 langues vivantes existent en Chine continentale (Gordon 2005), même après la disparition d’innombrables groupes ethniques et leurs langues au cours de l’expansion de la civilisation chinoise. Le nombre des langues vivantes est encore doublé quand on compte toute la région comprenant la péninsule indo-chinoise (Gordon 2005).

Depuis plus de deux siècles, les linguistes ne cessent d’essayer de comprendre l’origine de cette grande diversité. Par exemple, von Klaproth (1823) a essayé de placer les langues chinoises, tibétaines et birmanes dans une même famille, dans son ouvrage intitulé « Asia Polyglotta ». Aujourd’hui, la liste des familles et les langues qui en font partie sont plutôt consensuelles, mais il n’existe toujours pas de classification à l’intérieur des familles acceptée par tous les linguistes. Ci-dessous, nous essayons de présenter les classifications les moins controversées possibles (Figure 1-2). Il pourrait arriver que les données statistiques citées (Gordon 2005) diffèrent d’autres sources, vu qu’elles dépendent de la façon de définir les familles, langues/dialectes, ou locuteurs.

4 L’immigration des Chinois Han vers Taïwan commença au 17ème siècle, principalement depuis Fujian. Les Waishengren sont des gens qui ont immigré à Taïwan suite à la fin de la seconde guerre mondiale et la guerre civile chinoise, y compris leurs descendants nés à Taïwan. 10

1.2.4.1. Principales familles linguistiques

Altaïque (ALT) : Les langues de la famille altaïque sont parlées dans une vaste région de l’aire nord de l’Eurasie, de l’Asie orientale du nord jusqu’à l’Europe de l’Est. Le nom de la famille vient de l’Altaï, une chaîne de montagnes d’Asie centrale. Cette famille très controversée comprend trois branches principales : le turkique, le mongol et le toungouse, dont les 145 millions de locuteurs représentent la majorité des nomades du Nord. Certains linguistes rattachent également des langues isolées comme le coréen et le japonais à ces trois branches parfois appelées « altaïque proprement dit » (Robbeets 2005).

Sino-tibétain : La famille sino-tibétaine est la deuxième plus grande famille linguistique du monde, par le nombre de locuteurs (plus de 1,2 milliard) qui occupent plutôt des zones agricoles. Principalement en Chine et au Myanmar, les langues de la famille sont aussi parlées dans des pays d’Asie du Sud-est et d’Asie du Sud, surtout au Bhutan, Népal et le nord-est de l’Inde. La famille se sépare en deux branches principales : le sinitique (SIN) et le tibéto-birman (TB).

Hmong-mien (HM) : Le hmong-mien, ou miao-yao, est une petite famille incluant 35 langues parlées dans quelques petites régions, telles que le sud-ouest de la Chine ou le nord de la Thaïlande et du Vietnam, et constituant des isolats au milieu d’autres langues.

Tai-kadai (TK) : Avec 74 langues parlées par environ 78 millions de locuteurs dans le sud-ouest de la Chine, en Thaïlande et au Laos, le tai-kadai est aussi une famille très liée à des populations agricoles.

Austro-asiatique (AA) : Les langues austro-asiatiques sont un groupe de langues parlées dans des régions déconnectées entre elles, principalement en Asie du Sud-est continentale et dans le nord-est de l’Inde. Ces régions sont séparées géographiquement par des zones peuplées de locuteurs sino-tibétains, tai-kadai et indo-européens.

11

Carte illustrant la répartition des familles linguistiques en Asie orientale et Asie du Sud-est (source : Wikipedia). : Wikipedia). (source orientale et Asie du Sud-est en Asie familles linguistiques illustrant la répartition des Carte

Figure 1-2 1-2 Figure 12

1.2.4.2. Familles linguistiques non étudiées dans ce travail

Les langues des familles présentées ci-dessous sont parlées plutôt dans les régions avoisinantes de l’Asie orientale qui n’ont pas été concernées dans ce travail.

Austronésien : L’austronésien est une grande famille composée de 1'246 langues. En Asie orientale, les langues sont parlées par les aborigènes de l’île de Taïwan. Mais à l’échelle mondiale, les locuteurs de cette famille se trouvent également dans la plupart des îles de l’Asie du Sud-est et de la Pacifique, des Philippines, à Hawaï, à l’île de Pâques, à la Nouvelle-Zélande, et même, dans l’océan Indien, des milliers de kilomètres à l’ouest, à Madagascar. Parmi plus de 300 millions de locuteurs au total, les 47'000 aborigènes taïwanais ne représentent qu’un peu plus de 1%.

Indo-européen : L’indo-européen est une très grande famille regroupant de nombreuses langues parlées en Asie du Sud, en Asie de l’Ouest et en Europe. Notons que les langues tokhariennes furent parlées dans le bassin du Tarim au Nord-ouest de l’Asie orientale au plus tard au premier millénaire de notre ère, et disparurent finalement après l’arrivée des peuples turcophones (en particulier les Ouïghours), au 9ème siècle.

Il est nécessaire de mentionner une petite famille de langues parlées en Sibérie : le tchouktchi-kamtchatkien dont les langues sont utilisées plus à l’est et qui ne dénombrent que 13'712 locuteurs (Gordon 2005). Il y a également en Sibérie quelques langues isolées comme le nivkh et l’aïnou, qui, d’après certains linguistes, composent avec le tchouktchi-kamtchatkien, une famille paléosibérienne (Jakobson 1942).

1.3. Introduction à l’histoire du peuplement de l’Asie orientale

1.3.1. Etudes archéologiques

1.3.1.1. La recherche des vestiges humains

Au cours de la seconde moitié du 19ème siècle, suite à l’œuvre « De l’Origine des Espèces » de Charles Darwin, les sciences de l’évolution bouillonnaient. Les chercheurs fouillaient aux quatre coins du monde afin de trouver le « chaînon manquant » entre les 13

humains modernes et les grands singes. D’après leur point de vue, les premiers hominidés auraient vécu dans des milieux tropicaux, comme d’autres branches de , surtout les chimpanzés, les gorilles et les orangs-outans. C’était avec cette passion et cette idée qu’Eugène Dubois, paléoanthropologue hollandais, s’embarqua pour l’île de Sumatra, à la recherche de nos ancêtres disparus.

En 1891, Dubois découvrit des fossiles qu’il décrivit comme « une espèce entre l’homme et les singes anthropoïdes » (Dubois 1894). Il nomma cette espèce Pithecanthropus erectus, ou homme-singe érigé, aussi appelé « l’Homme de Java », aujourd’hui identifié comme un Homo erectus. Ces restes sont également les premiers spécimens humains trouvés hors d’Afrique et d’Europe.

Etonnamment, le continent asiatique, qui paraissait plus intéressant que les îles pour le peuplement humain, ne fournit presque aucune trace d’anciens hominidés à cette époque- là. La paléoanthropologie y était encore un champ vierge. Par exemple, avant les années 1920, la seule évidence témoignant de l’ancienneté de l’occupation humaine en Chine était une dent fossile énigmatique, achetée par le paléontologue allemand Max Schlosser chez un apothicaire (Schlosser 1903; Wu et Olsen 1985), étant donné que les fossiles étaient considérés, par les Chinois, comme des « os de dragons » et utilisés comme médicaments. Peu après la première guerre mondiale, les paléoanthropologues français Pierre Teilhard de Chardin et Emile Licent rapportèrent des objets en quartzite associés au crâne fossile d’un rhinocéros laineux (Coelodonta antiquitatis), près de Shuidonggou à Ningxia. Pendant la même mission, ils découvrirent aussi des fossiles humains avec des outils paléolithiques, à Salawusu sur le plateau mongol (de Chardin et Licent 1924).

Si ces découvertes sporadiques démontrèrent l’ancienneté de l’activité humaine en Chine, il fallut attendre la découverte d’une molaire inférieure humaine en 1927 à , à 100 kilomètres de Pékin, pour attirer l’attention de la communauté scientifique internationale. L’anatomiste canadien Davidson Black (1929) nomma cette espèce pekinensis, aussi connu comme « l’Homme de Pékin ». Deux ans plus tard, le chercheur chinois Pei Wenzhong découvrit le premier calvarium complet 14

(Pei 1929), confirmant l’importance du Sinanthropus dans l’histoire de l’évolution humaine.

Les fouilles continuèrent à Zhoukoudian et ailleurs, et de nouveaux fossiles humains ne cessèrent de compléter la chronologie du Paléolithique en Asie orientale pendant les décennies suivantes.

1.3.1.2. La datation archéologique

Avant de passer aux fossiles et outils lithiques découverts pour différentes périodes, il est nécessaire de discuter des méthodes de datation archéologique, car celles-ci sont fortement liées à la fiabilité du cadre chronologique.

Depuis deux siècles, les archéologues utilisent une méthode stratigraphique pour comparer l’âge des différentes couches d’un site, basée sur la supposition qu’une même couche est du même âge sur toute sa surface, et que les couches récentes recouvrent les couches plus anciennes. L’âge des restes humains peut donc être estimé d’après celui des fossiles animaux associés ou la couche géologique correspondante. Mais cette méthode ne fournit que des informations relatives, car la date absolue de ces associations est également inconnue. La situation s’est améliorée grâce à de nouvelles méthodes physico- chimiques développées au 20ème siècle, telles que la datation par le carbone 14 (14C), et la datation par les séries d’uranium, basées sur des mesures de variation de la proportion d’isotopes radioactifs dans les spécimens (Schwarcz 2002).

Avec ces méthodes de datation absolue, de nombreux sites ont été réétudiés dans le monde. Malgré leurs limites, les deux méthodes citées ci-dessus sont largement utilisées pour l’Asie orientale. En général, les fossiles redatés ont tendance à être plus anciens (Stringer 2001), ce qui pourrait remettre en question l’interprétation de certains sites archéologiques (Trinkaus 2005).

Toutefois, en raison de sources différentes, les dates des sites archéologiques citées dans la littérature sont souvent incompatibles entre différentes sources. Dans les deux sections suivantes, nous présentons les sites dont la date est, selon nous, relativement bien 15

estimée et moins controversée, et qui illustrent (de manière non exhaustive) le cadre chronologique de l’Asie orientale.

1.3.1.3. La morphologie : de l’Homo erectus à l’Homo sapiens

Les fossiles humains nous fournissent des preuves directes de l’histoire du peuplement. Un fragment de mandibule découvert dans la grotte de Longgupo, à Chongqing, a été proposé comme le plus ancien reste osseux humain d’Asie orientale, associé à des ossements animaux et des outils taillés datant de 2,6 à 2,5 Ma5 (Boëdaa et Hou 2011). L’origine humaine des outils est peu controversée, mais les données venant du fossile fragmenté restent insuffisantes pour identifier la position évolutive qu’il représente. Si le résultat de ces premiers humains dans la région est encore discutable, d’abondants restes humains sont en revanche livrés par de nombreux sites plus récents.

Figure 1-3 Position géographique des sites archéologiques d’Homo erectus d’Asie orientale mentionnés dans ce chapitre.

5 Megaanum soit million d’années. 16

En 1965, deux dents fossiles sont retrouvées par hasard à Yuanmou (Yunnan) dans le Sud-ouest de la Chine (Hu 1973). D’après une datation très controversée des couches géologiques, les paléontologues les attribuent à un individu d’une espèce humaine qui aurait vécu il y a 1,7 Ma (Li et al. 1977; Hyodo et al. 2002; Hou et Zhao 2010). Ces incisives supérieures ont une forme « en pelle », et sont semblables morphologiquement et chronologiquement à celles des Homo erectus archaïques de Dmanissi, en Géorgie (Otte 2010), datant d’environ 1,8 Ma (Gabunia et Vekua 1995; Martinon-Torres et al. 2008). Au centre de la Chine, les sites de Lantian (Shaanxi) ont livré plus de témoignages (Chow et al. 1965; Woo 1965) avec des dates plus fiables. Parmi eux, un crâne presque complet, à Gongwangling, est daté d’environ 1,15 Ma, accompagné d’outils de pierre (Zhu et al. 2003). Plus au sud, à Yunxian (Hubei), ont été découverts deux crânes d’Homo erectus (Li et Etler 1992) datés entre 0,67 et 0,49 Ma (Chen et al. 1997). Et n’omettons pas non plus les fossiles et outils associés découverts à Tangshan (Nankin, Jiangsu) et à Hexian (Anhui), remontant à 0,6-0,5 Ma (Chen et al. 1996; Liu et al. 2005) et 0,44-0,39 Ma (Grun et al. 1998), respectivement (Figure 1-3).

Toutefois, c’est le site de Zhoukoudian, déjà mentionné plus haut, qui a été pendant longtemps le site le plus connu de cette période, en raison de sa durée extrêmement longue, de ses restes fauniques importants, et, surtout, de ses vestiges humains exceptionnellement abondants. La grotte consiste en une succession ininterrompue de couches d’occupation humaine s’étendant de 0,7 à 0,23 Ma. Les ossements humains, qui appartiennent à environ 40 individus, parmi lesquels plusieurs crânes très complets, révèlent plusieurs traits physiques typiquement observés dans les populations d’Homo erectus d’Asie orientale : forte saillie de l’occipital, os zygomatique élevé, os nasal large, front fuyant, mandibule massive et incisives supérieures « en pelle ». Ces caractéristiques permettent de définir soit une forme évoluée d’Homo erectus, soit une sous-espèce, appelée, dans ce cas, « le Sinanthrope » (Wu et Olsen 1985).

Ces restes humains paléolithiques reflètent une longue interaction entre la morphologie, l’environnement, et la culture. D’après les restes fossiles, les Homo erectus d’Asie orientale semblent avoir évolué, notamment, par une augmentation du volume 17 cérébral. Le crâne de Jinniushan daté entre 280 et 230 ka 6 a un volume cérébral considérablement grand -1'390 ml- comparé à une moyenne de 1'088 ml (entre 1'140 et 1'030) chez les humains de Zhoukoudian. Cette tendance est en fait un processus observé également chez les humains contemporains en Afrique ou en Europe (Norton et Braun 2010). A environ 250 ka, la transition morphologique vers notre espèce, l’Homo sapiens, est évidente pour les paléontologues. En raison de quelques traits encore partagés avec l’Homo erectus, ces derniers définissent les humains de cette période comme des Homo sapiens archaïques. Deux fameux sites représentatifs de ce stade sont à Maba (230 à 180 ka) et à Dali (169 à 127 ka) (Figure 1-4).

Finalement, la morphologie des fossiles humains du Pléistocène supérieur paraît identique à la nôtre. Contrairement à la richesse des fossiles plus anciens, relativement peu de restes de ces humains anatomiquement modernes ont été découverts pour cette période critique, qui coïncide approximativement avec la dernière grande glaciation, le Würm (Fagan 2009). Dans une grotte située au dessus de celle des Homos erectus, à Zhoukoudian, les chercheurs ont découvert entre 1933 et 1934 des fossiles d’ossements ayant appartenu à au moins huit individus, incluant trois crânes quasi-complets (Pei 1934; 1939). Leur âge a été déterminé d’après des fossiles animaux associés : fin du Pléistocène. Bien que les trois crânes présentent une énorme variation interindividuelle, ces humains de la « grotte supérieure » sont toujours reconnus comme les meilleurs représentants d’Homo sapiens. La date absolue, selon des datations récentes, se situe entre 33,2 et 13,2 ka pour les ossements animaux, et entre 29 et 24 ka d’après les vestiges culturelles (Chen et al. 1989). Dans le Sud-ouest de la Chine, un crâne trouvé à Liujiang serait l’un des plus anciens représentants d’Homo sapiens. Malheureusement, aucun vestige culturel n’a été retrouvé (ce fut en fait une trouvaille accidentelle), et les dates estimées restent très controversées, variant entre 153 et 68 ka (Shen et al. 2002).

A part cela, quelques sites récemment découverts en Chine ont livré des fossiles d’Homo sapiens intéressants. Dans la Grotte Tianyuan, à six kilomètres au sud-ouest de Zhoukoudian, une mandibule humaine a été trouvée et datée à 42-39 ka (Shang et al.

6 Kiloannum, soit millier d’années. 18

2007). Pas loin de Liujiang, dans la Grotte Zhiren, quelques fragments osseux humains, y compris une mandibule, ont été datés de plus de 100 ka (Liu et al. 2010). Aucun crâne complet n’a été découvert à ces sites, ce qui crée une grande difficulté à établir avec certitude la position évolutive de ces restes.

A cette époque, on remarque également une expansion de la présence humaine vers les régions périphériques de l’Asie orientale, comme le sud de la Sibérie (Mal’ta, date de 21 ka (Kuzmin et Tankersley 1996)), ainsi que l’île de Luzon (Grotte de Callao, date de 67 ka, (Mijares et al. 2010)), l’archipel Ryukyu (Yamashita-cho, Okinawa, date de 32 ka (Suzuki 1983)), et l’île de Taïwan (Site Zuozhen, date de 30-20 ka (Chen 1970)). Ces îles étaient alors rattachées au continent en raison du bas niveau des mers pendant la dernière glaciation (Figure 1-4).

Figure 1-4 Position géographique des sites archéologiques d’Homo sapiens d’Asie orientale mentionnés dans ce chapitre. 19

1.3.1.4. La culture : du Paléolithique au Néolithique

Outre les fossiles, quelques sites récemment découverts ont fourni d’anciennes traces indirectes de l’activité humaine en Asie orientale, dès l’aube du Paléolithique. Le site de Renzidong (Anhui), daté entre 2,5 et 2 Ma, a livré une grande quantité de pierres taillées (Zhang et al. 2000; Hou et Zhao 2010). Plus au nord, Le site de Majuangou (Hebei) a livré des outils de pierre, dont la couche la plus inférieure a été datée de 1,66 Ma (Zhu et al. 2004). Ces découvertes révèlent que la présence du genre Homo en Asie orientale date d’au moins 2 Ma, ce qui précède même l’apparition d’Homo erectus.

En Asie orientale comme dans d’autres régions, le Paléolithique est subdivisé en trois grandes périodes : Paléolithique inférieur, moyen et supérieur. Les sites connus du Paléolithique inférieur sont concentrés dans le Nord et le centre de la Chine. Les vestiges culturels ne sont pas toujours accompagnés de fossiles d’Homo erectus, et vice versa. L’outillage de cette période est morphologiquement très diversifié, et les techniques de production sont relativement simples. Au site de Zhoukoudian, on observe toutes les composantes culturelles majeures de l’évolution humaine : façonnage des pierres taillées, maîtrise de la chasse, et possible utilisation du feu. Le développement culturel fut lent et graduel, jusqu’à environ 200 ka (Wu et Olsen 1985).

L’outillage trouvé en Asie orientale possède une caractéristique très remarquable, qui a déjà apparu au site de Renzidong : la majorité des outils lithiques sont produits à partir d’éclats7 tranchants, par l’utilisation de matières végétales dures, comme le bambou, un matériel abondant dans la région (Otte 2010). Cette tradition de l’outillage fut poursuivie au cours du Paléolithique, comme l’attestent de nombreux sites. D’après des éclats préparés, diverses formes d’outils primaires furent réalisées, avec une importante proportion de galets taillés dits « choppers ». Des archéologues occidentaux avaient remarqué que la grande majorité des galets taillés en Asie orientale étaient « unifaciaux », distincts des outils « bifaciaux » acheuléens d’Afrique et d’Europe. L’archéologue américain Hallam Movius (1948) proposa ainsi une ligne théorique à travers l’Inde du Nord et l’Europe de l’Est distinguant l’outillage d’Occident et d’Orient, ou les

7 Un éclat est un fragment de roche détaché intentionnellement d'un bloc par percussion ou par pression. 20 qu’il considérait « avancées » et « primaires », respectivement. Mais en réalité, les outils bifaciaux ont également été découverts à Bose, dans le Sud-ouest de la Chine (Hou et al. 2000; Lycett et Bae 2010).

Contrairement à la transition Paléolithique/Néolithique bien reconstruite pour l’Europe, l’Asie orientale a livré relativement peu de traces de la dernière partie du Pléistocène (Norton et Braun 2010). Dans le Nord de l’Asie orientale, les chercheurs ont remarqué l’apparition d’une technologie « microlithique » de l’ouest de la Sibérie jusqu’au Japon, entre 33°N et 70°N de latitude. Des archéologues chinois proposent que l’origine et le développement de cette industrie microlithique soient profondément enracinés dans la tradition paléolithique du Nord de la Chine (Wu et Olsen 1985).

Quant au Sud, la transition entre le Paléolithique et le Néolithique est bien courte, voire inexistante. C’est aussi dans le Sud que l’on a découvert des phytolithes de grains de riz sauvages datant de 12 ka à Diaotonghuan (Jiangxi), non loin du fleuve Yangzi (Zhao 1998). Des céréales importantes, le riz (Oryza sativa) et les deux millets (Panicum miliaceum et Setaria italica) furent domestiquées, respectivement, dans le Sud et dans le Nord, faisant entrer l’histoire de l’Asie orientale dans le Néolithique ( 1999; Jones et Liu 2009; Cohen et al. 2011).

1.3.2. L’origine des humains modernes en Asie orientale

1.3.2.1. Modèle de continuité régionale (modèle multirégionaliste)

Seulement quelques années après la découverte de l’Homme de Pékin, l’anatomiste et anthropologue allemand Franz Weidenreich (1937) remarque, sur les crânes fossiles de Zhoukoudian, un trait qu’il considère comme caractéristique des « Mongoloïdes » : les incisives « en pelle ». D’après lui, ce trait montrait une continuité de l’évolution morphologique humaine en Asie depuis Homo erectus : c’est-à-dire que les Pékinois contemporains porteraient encore les dents antérieures similaires à celles de l’Homme de Pékin, qui vécut presque au même endroit il y a des centaines de milliers d’années, et qui serait leur ancêtre direct ! 21

A cette l’époque où les anthropologues défendaient encore la notion de « races » humaines et argumentaient tellement en faveur de différences physiques entre « Mongoloïdes », « Caucasoïdes » et « Négroïdes », il leur semblait peu probable que l’origine commune de ces soi-disant « races » fut récente. Vu que les plus anciens fossiles d’hominidés provenaient d’Afrique, cette origine commune devait dater de millions d’années. En Asie, la chronologie d’Homo erectus a été très documentée par l’explosion récente des découvertes de sites paléolithiques en Chine. Parmi elles, les fossiles de Yuanmou, de Lantian, de Tangshan, de Zhoukoudian, jusqu’à ceux de la Grotte supérieure, manifestaient sans exception des traits physiques considérés par certains archéologues comme « typiquement mongoloïdes », notamment les incisives centrales supérieures en pelle observés sur tous les spécimens de ces sites (Wu et Zhang 1978; Wu et Dong 1985). Les traits anciens et primaires se transformaient donc localement vers des traits plus « modernes » ou plus proches des nôtres, illustrant une belle continuité évolutive d’Homo erectus à Homo sapiens en Asie orientale (Wu et Dong 1985; Etler 1996; Wu 2004).

De plus, certains archéologues soutiennent aussi une continuité des traditions de l’outillage en Asie orientale. D’après le site de Renzidong, leur origine daterait du début du Paléolithique, où la majorité des outils en pierre étaient produits à partir du débitage d’éclats tranchants (Otte 2010). Cette tradition technique se serait poursuivie en s’affinant au cours des temps paléolithiques. Représentée par de nombreux sites, elle attesterait, mieux que les fossiles, l’intensité de l’occupation humaine dans cette région. Au site de Yuanmou, on note par exemple des modes de débitage centripètes lors de la préparation des outils de pierre, sous forme de petits nucléi et d’éclats orientés. On retrouve également cette forme de Bose à Zhoukoudian, y compris dans la Grotte Supérieure (Zhang et al. 2003).

En résumé, selon ces archéologues, durant toute la période s’étendant jusqu’à la fin paléolithique, nulle trace d’influence externe ne serait observable, ni dans l’anatomie, ni dans le comportement des hominidés. Il semblait donc logique de conclure que les populations actuelles étaient des descendantes directes, par une évolution autonome, des Homo erectus locaux. De nombreux archéologues asiatiques, surtout chinois, se mirent 22

d’accord sur cette hypothèse, dite multirégionaliste, d’évolution des humains modernes (Wu et Olsen 1985; Wu 2006). D’ailleurs, en considérant l’Asie orientale comme l’un des berceaux principaux de l’humanité, le sentiment patriotique s’en trouvait gratifié.

Si cette conclusion est restée solide, voire indiscutable, pour certains paléoanthropologues et archéologues pendant une longue période, des études de généticiens l’ont fondamentalement bouleversée dans les années 1980.

1.3.2.2. « Out-of-Africa » (modèle unirégionaliste)

La génétique des populations a été fondée par Ronald Fisher, John Haldane et Sewall Wright, entre les années 1920 et 1940. Cette nouvelle discipline, en faisant le lien entre la génétique mendélienne et la théorie darwinienne de l’évolution, s’est alors intégrée dans la recherche de l’origine de notre espèce. Grâce aux méthodes sérologiques, les généticiens ont réussi à observer la variation des molécules présentées sur les cellules sanguines, et à étudier les systèmes génétiques qui déterminent ces variations, comme ABO, RH, GM, HLA, etc. Les variantes de ces systèmes souvent dits « classiques » (bien que leur statut ait changé depuis grâce à leur typage moléculaire), présentent des fréquences diverses dans différentes populations humaines, reflétant la plupart du temps les traces laissées par l’histoire du peuplement humain, telles que les migrations et l’histoire démographique. Par l’analyse de ces systèmes, on a donc la possibilité d’estimer la diversité génétique au sein des populations et des distances génétiques entre populations, d’étudier les différenciations de groupes de populations, dans le but de reconstituer, finalement, l’histoire du peuplement humain.

Ainsi, les résultats se sont accumulés au cours des années 1960 et 1970. A l’aide de cela, des généticiens, notamment les équipes de Luigi Luca Cavalli-Sforza et d’André Langaney, à Stanford et à Genève, respectivement, ont proposé un « split » initial de l’espèce humaine en deux groupes, dont l’un aurait été composé des ancêtres des Africains, Européens et Proche-Orientaux, à l’ouest, et l’autre des ancêtres des Asiatiques, Océaniens et Amérindiens, à l’est (Cavalli-Sforza et Bodmer 1971; Langaney 1979; 1984). Entre les régions peuplées par les descendants des deux groupes, cette hypothèse localise également le lieu de leur origine : quelque part entre l’Afrique de l’Est et l’Inde. 23

Un des arguments principaux soutenant ce modèle est que les populations actuelles de ces régions présentent la diversité génétique la plus élevée du monde, et que cette diversité diminue généralement par dérive génétique lorsque l’on s’éloigne du lieu d’origine (Sanchez-Mazas et Langaney 1988).

A la fin des années 1980, un autre outil puissant a contribué à ces études : le développement de la biologie moléculaire. Grâce aux techniques de séquençage d’ADN, les généticiens sont dès lors capables d’établir la généalogie des fragments d’ADN de certaines régions de notre génome, en construisant des arbres généalogiques, ou « phylogénétiques ». Ces approches utilisent des estimations de la vitesse de mutation des nucléotides pour indiquer l’âge de séparation entre les branches, technique appelée « l’horloge moléculaire ». Les marqueurs à transmission monoparentale, c’est-à-dire ceux qui sont portés par l’ADN mitochondrial, d’une part, et la région non-recombinante du chromosome Y, d’autre part, ont été les premiers marqueurs de choix, car ils permettaient d’éviter la complexité des généalogies en cas de recombinaison (Cavalli-Sforza et al. 1994).

En 1987, la généticienne américaine Rebecca Cann et ses collègues ont publié les résultats de leurs analyses sur l’ADN mitochondrial. Un arbre phylogénique a été reconstruit à partir d’une comparaison de fragments d’ADN de longueurs variables (RFLP8 HVS-I9) appartenant à 147 individus humains provenant de cinq populations. Les chercheurs ont observé une séparation initiale des haplogroupes mitochondriaux uniquement trouvés en Afrique et en ont conclu une origine africaine de notre espèce (Cann et al. 1987). A l’instar de cette publication, nombreuses études ont été réalisées, avec davantage d’échantillons, sur davantage de populations modernes du monde entier. La séquence complète de l’ADN mitochondrial et de la région non-recombinante du chromosome Y ont aussi été considérées dans des analyses combinant la phylogénie des séquences et leur répartition géographique correspondante, méthodes dites « phylogéographiques » (Avise et al. 1987; Avise 1989).

8 De l’anglais Restriction Fragment Length Polymorphism. 9 De l’anglais HyperVariable Segment-I. 24

Pour l’Asie orientale, Chu et ses collègues (1998) ont réalisé une étude utilisant les données de 30 marqueurs microsatellites d’autosomes dans 28 populations chinoises et plusieurs populations des autres continents. Les auteurs ont suggéré, d’après leurs résultats, que toutes les populations étudiées dérivaient d’un cluster unique représenté par les populations africaines, favorisant fortement l’hypothèse d’une origine africaine récente des populations est-asiatiques actuelles. Cette conclusion a ensuite été soutenue par plusieurs études sur d’autres marqueurs (Kaessmann et al. 1999). D’autres études ont aussi montré que le taux de diversité génétique des populations africaines actuelles, particulièrement celles d’Afrique de l’Est, était généralement supérieur à celui des populations des autres régions du monde. Cependant, à la même période, un article de Ke et ses collèges (2001) fournit à nouveau des arguments en faveur d’une origine récente des humains modernes en Asie orientale, d’après l’analyse de 12'127 chromosomes Y représentant 163 populations.

Peu à peu s’accroît notre connaissance sur le rôle important qu’aurait joué l’Afrique de l’Est dans l’origine de l’Homo sapiens. Des généticiens ont alors suggéré que tous les humains modernes « non-africains » d’aujourd’hui, y compris les Est-asiatiques, soient les descendants d’un sous-groupe Homo sapiens ayant quitté l’Afrique de l’Est au Pléistocène supérieur. Cette hypothèse « unirégionaliste », que l’on nomme parfois « Out-of-Africa », est aussi soutenue par des données paléontologiques, surtout celles des fossiles du site d’Omo Kibbish, en Ethiopie, que des paléoanthropologues considèrent comme les vestiges des premiers Homo sapiens qui y vécurent. Une datation autour de 195 ka (McDougall et al. 2005) rend ces fossiles les plus anciens qui soient actuellement rattachés aux humains anatomiquement modernes. Elle coïncide aussi avec l’âge estimé, dans l’étude de Cann et al., pour la séparation initiale des haplogroupes « uniquement » africains, soit 200 ka environ (Cann et al. 1987). De plus, la majorité des paléoanthropologues et des archéologues acceptent l’idée que les humains modernes apparurent suite à un événement de spéciation à partir des Homo erectus africains, communément appelés , et des Homo archaïques africains, car l’Afrique a livré la plupart des vestiges des humains modernes plus anciens que 100 ka. et parce qu’une continuité morphologique des fossiles y est clairement reconnue. 25

Hors d’Afrique, c’est au Proche-Orient que les plus anciens fossiles d’humains modernes ont été trouvés, datant d’environ 100 ka (Bar-Yosef et Vandermeersch 1993). Dans d’autres régions, plusieurs sites d’humains modernes datés de 60-50 ka existent en Malaisie, aux Philippines (Mijares et al. 2010), ainsi qu’en Nouvelle-Guinée (Gosden 2010), à des milliers de kilomètres plus loin encore. Si on accepte l’hypothèse que tous ces humains ont une origine commune récente africaine, il faut chercher à expliquer les routes de leurs migrations vers ces régions.

A partir des résultats génétiques et en prenant des informations géographiques, les généticiens ont alors proposé deux routes de migrations de cet « Exode » (Mellars 2006):

- Depuis l’Afrique de l’Est vers le Sinaï, et du Sinaï au Levant.

- Depuis l’Afrique de l’Est vers l’Arabie, par le Détroit de Bab-el-Mandeb.

La première hypothèse est favorisée par les données archéologiques, vu l’ancienneté des fossiles trouvés au Proche-Orient, qui furent possiblement, en effet, les descendants de pionniers humains. Certains, parmi eux, poursuivirent leur route vers l’est.

Cependant, d’autres généticiens préfèrent la deuxième hypothèse, en se basant principalement sur la présence de lignages très anciens10 de l’ADN mitochondrial chez les aborigènes des îles Andaman, situées près du Myanmar. En adoptant la théorie des horloges moléculaires, ces lignages, dans les arbres phylogéniques, seraient dérivés d’une lignée prédominante en Eurasie, datant d’environ 63 ka. La limite inférieure du peuplement des îles Andamans est alors proposée à 45 ka (Thangaraj et al. 2005). Certains généticiens proposent donc une « migration rapide » le long des côtes de l’océan Indien vers l’Asie du Sud-est, puis vers l’Australie (Macaulay et al. 2005).

1.3.2.3. Débats

Comme mentionné plus haut, les principaux arguments archéologiques soutenant l’hypothèse « Out-of-Africa » sont l’ancienneté, la continuité morphologique et la richesse de fossiles d’Homo sapiens retrouvés en Afrique. En revanche, peu de fossiles

10 M31 et M32, plus précisément. 26

sont présents en Asie orientale pour le Pléistocène supérieur, période critique pour la spéciation d’Homo sapiens. Effectivement, cette faiblesse d’argumentation soutenant l’hypothèse multirégionale est systématiquement pointée par les généticiens, qui mettent en évidence l’origine africaine récente des haplotypes et haplogroupes moléculaires observés dans les populations est-asiatiques. Ceux-ci insistent également sur la « lacune » de fossiles humains en Chine entre 100 et 40 ka (Jin et Su 2000), remettant en question la continuité chronologique des fossiles déclarée par les paléoanthropologues et archéologues multirégionalistes. D’après ces généticiens, les descendants directs des Homo erectus d’Asie orientale, qui y habitaient depuis environ un million d’années sans interruption, finirent par s’éteindre à cause du froid et de la sécheresse de la glaciation du Würm (Jin et Su 2000). La région, qui fut dès lors une « terra nullius », accueillit finalement l’arrivée des humains modernes d’origine africaine, à une date néanmoins inconnue.

La soi-disant continuité morphologique, en Asie orientale, des traits physiques d’Homo erectus à Homo sapiens est aussi devenue la cible de critiques, car la morphologie est façonnée non seulement par la génétique, mais aussi par d’autres facteurs, tels que l’environnement et la condition individuelle (Norton et Braun 2010). En outre, des traits cités comme typiquement « mongoloïdes » ne montrent pas de vraie spécificité, n’étant pas complètement absents, mais présents avec un plus faible taux d’occurrence dans les populations des autres continents (Wu et Olsen 1985).

Les paléoanthropologues et les archéologues, parmi lesquels la majorité des chercheurs chinois du domaine, refusent ces conclusions. D’abord, les dates des fossiles sont très controversées, et, d’après eux, ces généticiens ne choisissent, dans leurs arguments, que celles qui tombent dans la lacune de fossiles humains (Wu 2004). Ils soulignent également l’importance de la continuité des traditions de l’outillage en Asie orientale (Wu 2004). En même temps, ils attendent que des évidences plus solides de la présence d’Homo sapiens dans la période critique soient fournies par de nouvelles fouilles archéologiques. Or, cet espoir, s’il n’est pas encore vain, est loin d’être satisfait. Seules quelques découvertes ont été réalisées depuis : un crâne d’Homo sapiens et des fossiles associés de vertébrés, à Xuchang (Henan), datant entre 100 et 80 ka (Norton et 27

Jin 2009), et des éclats et restes osseux, dans la grotte de Huanglong (Hubei), datant entre 100 et 40 ka (Wu et al. 2006).

Certes, les approches génétiques elles-mêmes ont aussi leurs limites. D’une part, les méthodes phylogéographiques permettent aux généticiens de proposer des lieux d’origine des variantes moléculaires d’un certain marqueur génétique, sur la base de leur distribution dans les populations échantillonnées, de leur âge estimé par l’horloge moléculaire, et de leur position généalogique dans l’arbre phylogénique. Mais l’estimation de cet âge est souvent soumise à d’énormes erreurs et la topologie des arbres phylogéniques peut être très instable. De plus, ces méthodes ne peuvent être appliquées que sous plusieurs hypothèses préliminaires, comme une vitesses d’évolution moléculaire constante, un taux nul ou très faible d’homoplasie, et une absence de recombinaisons génétiques (Blench et al. 2008). Il y a encore un désavantage, c’est que la majorité des données échantillonnées et étudiées dans ces études génétiques citées plus haut proviennent des populations modernes et non pas des populations anciennes des périodes étudiées, qui pourraient donc donner une impression trompeuse sur le passé (Willerslev et Cooper). Les progrès réalisés en analyse de l’ADN ancien ouvrent de nouvelles perspectives dans ce contexte, mais la petite taille des échantillons anciens et la contamination deviennent des autres défis.

En résumé, malgré tous ses défauts, l’hypothèse « Out-of-Africa » demeure le modèle le plus compatible avec les observations paléoanthropologiques, archéologiques et génétiques actuelles. La plupart des généticiens l’acceptent et la considèrent comme un modèle de base, même si les détails de ce modèle restent discutés (Templeton 2002; Henn et al. 2011; Pickrell et al. 2012). Quand il s’agit d’interpréter certains résultats, il est néanmoins important de toujours conserver une attitude prudente afin d’éviter des conclusions trop simplistes.

1.3.2.4. Flux géniques possibles avec des humains archaïques

Le modèle « Out-of-Africa » est généralement associé à l’hypothèse de « remplacement » d’espèces humaines. Sous ce modèle, l’expansion des humains anatomiquement modernes, ou Homo sapiens, hors d’Afrique, qui daterait d’environ 100 28

ka ou moins, serait suivie du remplacement total de tous les humains archaïques préexistants. En d’autres termes, il n’y aurait pratiquement pas de contribution génétique de ces derniers à notre patrimoine génétique d’aujourd’hui. Le modèle d’évolution multirégionale stipule, quant à lui, que les humains modernes ont évolué parallèlement et indépendamment dans les différents continents, sans flux géniques mutuels (Relethford 2008).

En réalité, les débats autour des deux modèles, comme ceux dont nous avons parlé dans la dernière section, reflètent des affrontements scientifiques assez extrêmes. Inspirés par les arguments génétiques, certains archéologues commencent à proposer un modèle intermédiaire, mettant l’accent sur un métissage possible, de degré quelconque, entre les humains modernes immigrants et des humains archaïques locaux, en Europe et/ou en Asie (Wu 1998; Smith et al. 2005; Relethfordm 2007). Cette possibilité, même du point de vue génétique, n’est pas à exclure.

En Europe, certains vestiges fossiles ont été interprétés comme des évidences de métissage entre Homo sapiens et Homo neanderthalensis11. Sur le crâne d’un enfant Homo sapiens 12 de quatre ans découvert au Portugal, qui date de 25 ka, certains paléoanthropologues ont considéré quelques traits physiques comme étant néandertaliens (Duarte et al. 1999). En Asie orientale, la « continuité morphologique » entre Homo erectus et Homo sapiens, dont nous avons discuté plus haut, est toujours argumentée par des traits physiques communs. Durant ces dernières années, le séquençage du génome néanderthalien complet à partir de spécimens osseux appartenant à quelques individus a suggéré une contribution génétique possible néanderthalienne aux humains modernes, pendant des milliers d’années de cohabitation au Pléistocène supérieur. Les résultats restent controversés, mais il semble toutefois que l’influence de cette espèce d’hominidé ancienne soit mineure (Green et al. 2010; Reich et al. 2010; Currat et Excoffier 2011).

11 Les Homo neanderthalensis, ou Néandertaliens sont des humains ayant vécu en Europe et en Asie au Paléolithique moyen et supérieur, entre environ 250'000 et 28'000 ans avant le présent. 12 « Les Cro-magnon », pour le grand public, sont parmi les premiers Homo sapiens apparus en Europe au Paléolithique supérieur ; le fossile le plus ancien date d’environ 35'000 ans avant le présent. 29

1.3.3. Différenciation nord-sud en Asie orientale

Laissant de coté les polémiques sur l’origine des populations humaines est-asiatiques, nous passons à présent à une observation beaucoup plus robuste sur la structure inter- populationnelle de la région.

1.3.3.1. Structure morphologique et génétique

Contrairement au long débat sur l’origine d’Homo sapiens, les paléoanthropologues et les généticiens ont mis en évidence une caractéristique très remarquable de la structure morphologique et génétique dans les populations est-asiatiques.

Déjà dans les années 1960, grâce à l’accumulation des découvertes de fossiles humains en Chine, les chercheurs ont observé des différences de traits physiques crâniens entre les populations du Nord et du Sud de l’Asie orientale (pour simplifier, nous allons utiliser NEA et SEA pour désigner ces populations nord-est-asiatiques et sud-est- asiatiques, respectivement) (Wu 1962). Le travail de l’anthropologue américain Christy Turner II sur les morphologies dentaires a aussi révélé cette différence (Turner 1987), 20 ans plus tard. En étudiant systématiquement un grand échantillon de fossiles de différentes périodes néolithiques, Chen et Zhang (1998) ont montré qu’au début du Néolithique, une différenciation morphologique entre les populations NEA et SEA était évidente, par rapport à aujourd’hui. Certains pensent même que cette différenciation est déjà illustrée par les différences morphologiques entre l’Homme de la Grotte supérieure et l’Homme de Liujiang (Chen 1986; Liu et al. 2006). Des analyses effectuées par Wu et ses collègues (2012) ont soutenu statistiquement cette observation.

En accord, cette fois, avec l’archéologie, la génétique a fait des observations similaires à ce propos. Commençons par le système sanguin ABO. Ce premier marqueur génétique à avoir été découvert (Landsteiner 1900), et qui est étudié dans les populations chinoises depuis les années 1920, a donné des résultats significatifs dans ce sens, avec une variation de fréquences des allèles A, B et O entre les populations NEA et SEA (Du et al. 2004).

Des résultats similaires ont été obtenus pour d’autres systèmes génétiques « classiques » ou « non-classiques », comme GM, KM (Sanchez-Mazas 1990; Zhao et 30

Lee 1989), HLA (Chen et al. 1987; Sanchez-Mazas 1990), des microsatellites nucléaires (Chu et al. 1998), etc. Du et ses collègues (1997) ont appliqué une méthode de regroupement13 à 67 populations chinoises (30 populations Han et 37 populations non- Han), basée sur des distances génétiques calculées sur des données de fréquences de 38 marqueurs génétiques classiques. La topologie de l’arbre a clairement montré que les populations NEA et SEA se différenciaient en deux groupes. Une même conclusion a également été tirée pour le chromosome Y et l’ADN mitochondrial sur la base de comparaisons de fréquences et d’analyses en composantes principales (Yao et al. 2002; Wen et al. 2004; Shi et al. 2005).

Seul un nombre limité d’études ont obtenu des résultats contradictoires. Ding et ses collègues (2000) ont examiné le chromosome Y, l’ADN mitochondrial et des variations des autosomes et n’ont pas observé de différenciation nord-sud. Or, pour représenter les populations SEA, ces auteurs ont utilisé principalement des échantillons de populations tibéto-birmanes du Sud-ouest de la Chine, qui ont une origine récente au Nord et ont donc, selon nous et d’autres, biaisé les résultats (Shi et al. 2005).

1.3.3.2. Frontière génétique

Grâce à ces résultats globalement concordants, la majorité des chercheurs reconnaissent une différenciation nord-sud dans la structure génétique des populations d’Asie orientale (Zhang et al. 2007a). Une question s’est posée naturellement : la transition entre les populations NEA et SEA est-elle graduelle, ou abrupte ? Autrement dit, existe-t-il, ou non, une frontière génétique significative marquant les différences génétiques entre ces populations ? Contrairement au fait bien établi de l’existence de différenciations nord-sud, la question de la frontière est encore très controversée.

Une frontière génétique est souvent liée à une barrière géographique, par exemple un grand fleuve, une chaîne de montagnes, un détroit, etc., qui, souvent difficile à traverser par les humains, restreint considérablement les flux géniques entre les populations qu’elle sépare (Hartl et Clark 2007).

13 Clustering en anglais. 31

En Asie orientale, plusieurs barrières géographiques nord-sud existent. Au milieu de la Chine coule le fleuve Yangzi autour de 30°N, qui est le deuxième fleuve le plus long et le troisième fleuve le plus large du monde. Ayant une largeur de plus de 10 km, il aurait limité les migrations de populations humaines. A quelques centaines de kilomètres au nord se trouvent la montagne Qin et le fleuve Huai (ligne Qin-Huai), qui marquent l’isotherme de 0°C en hiver, et qui sont aussi des barrières potentielles (Tregear 2007). Il est intéressant de relever que ces deux barrières sont considérées, en Chine, comme des frontières naturelles entre le Nord et le Sud. Durant les derniers 2'000 ans, ces barrières marquèrent également la frontière politique entre différents royaumes. Plus au nord, on connaît l’existence de la Grande Muraille. Sa première construction, il y a 2'500 ans, est bien entendu trop récente pour jouer un rôle dans l’histoire du peuplement. Cependant, cet ensemble de fortifications militaires a été construit le long de chaînes de montagnes stratégiques pour défendre la frontière nord des dynasties chinoises, dont la base économique était l’agriculture, contre les ethnies nomades des steppes mongoles ; il marque donc non seulement une séparation politique et des chaînes de montagnes stratégiques, mais aussi deux modes de vie distincts, la paysannerie et le nomadisme, liés à des environnements différents qui y persistent au moins depuis la dernière grande glaciation (Wang 1994).

Certains anthropologues physiques ont les premiers suggéré le fleuve Yangzi comme une frontière principale marquant des différences morphologiques entre populations, par exemple dans un travail sur 11 traits physiques étudiés dans 41 populations modernes en Chine (Zhang 1988). En observant des différenciations sur le système GM, Zhao et Lee (1989) ont également proposé le fleuve Yangzi comme limite entre les populations NEA et SEA. Mais la détermination d’une frontière génétique exige des méthodes statistiques capables d’évaluer si les différences observées sont significatives, telle que SAMOVA14, qui cherche à identifier des zones à travers lesquelles les populations, bien que géographiquement proches, sont génétiquement les plus diversifiées (Dupanloup et al. 2002). En 2005, Xue et ses collègues ont appliqué une méthode alternative sur trois marqueurs génétiques (ABO, HLA-A et TPOX) et ont à nouveau démontré l’importance

14 De l’anglais Spatial Analysis of MOlecular VAriance. 32

du fleuve Yangzi comme frontière génétique (Xue et al. 2005), bien que, selon notre réanalyse de leurs données ABO avec une méthode similaire à SAMOVA, les résultats marquent plutôt la ligne Qin-Huai comme frontière (résultats non publiés). Plus récemment, ces chercheurs (Xue et al. 2008) ont analysé des données du chromosome Y et de l’ADN mitochondrial et ont bougé la frontière au niveau de la ligne Qin-Huai pour le chromosome Y tout en la maintenant au niveau du fleuve Yangzi pour l’ADN mitochondrial.

Pour certains autres généticiens, par contre, la différenciation nord-sud est plutôt un phénomène dû à l’isolement par la distance (Wright 1943; Malécot 1948), et une frontière génétique n’existe donc pas nécessairement (Karafet et al. 2001).

Notons que toutes les études que nous venons de citer ont porté sur des populations modernes. Mais récemment, des archéologues (Liu et al. 2010) ont aussi proposé que le fleuve Yangzi et la montagne Qin aient constitué une barrière aux migrations des populations depuis le Néolithique. Concernant l’ADN ancien, les données actuelles ne sont pas encore suffisantes pour une recherche de frontière génétique. On a également discuté d’un effet récent de certaines barrières culturelles ou politiques. Par exemple, le linguiste Laurent Sagart, sur la base de différences de dialectes chinois parlés de part et d’autre de la ligne Qin-Huai, a suggéré que la frontière marquée par ce fleuve reflète une séparation politique entre les dynasties Song et Jin, au 13ème siècle (Sagart 2005).

1.3.3.3. Aspects linguistiques

L’Asie orientale est une région ayant une structure linguistique complexe. D’un point de vue de la linguistique historique, il est possible d’apparenter les langues modernes en appliquant des méthodes comparatives sur la prononciation des mots. Certains linguistes ont essayé d’estimer l’âge des familles linguistiques à partir de reconstructions d’arbres linguistiques basés sur les nombres de mots communs du vocabulaire de base et calibrés sur des échelles de temps absolues, un peu comme les reconstructions phylogénétiques utilisées par les généticiens et calibrées par une horloge moléculaire. Des centaines de langues est-asiatiques ont ainsi été affiliées à plusieurs familles linguistiques différentes, au sein desquelles elles se seraient différenciées à partir d’une langue ancestrale. Or, cette 33

méthode, dite la glottochronologie, est extrêmement controversée. Blust (2000) a montré que les langues descendant d’une même proto-langue ne préservaient pas la même quantité de vocabulaire ancestral. En réalité, les linguistes n’arrivent pas encore à bien dater l’âge des familles indépendamment de l’archéologie (Blust 2000).

Comme les mots d’une langue changent au cours du temps, on peut observer une perte de similarité entre deux langues-sœurs dérivées d’une même langue mère, au fil du temps, jusqu’à ce que toute trace d’apparentement ait disparu. Cette durée serait seulement de 10'000 ans, comme certains l’ont proposé (Hock 1986). L’écriture permet en partie d’étudier l’évolution des langues anciennes jusqu’à aujourd’hui. Mais l’invention du premier système d’écriture ne date que du 4ème millénaire avant notre ère, ce qui est très récent comparé à l’origine du langage, qui, dans un certain sens, se rattache à l’acquisition de la capacité de parler chez nos ancêtres, il y a des centaines de milliers d’années. Nous ne serions donc jamais capables, d’après de nombreux linguistes, de rétablir des relations phylogénétiques entre familles linguistiques en-deçà du Néolithique. Hélas, en ce qui concerne les origines et les migrations paléolithiques des populations humaines, la linguistique est souvent moins informative que la génétique, l’archéologie et la paléontologie.

1.3.4. Modèles concernant les routes de migrations vers l’Asie orientale

Puisque la différenciation nord-sud des populations est-asiatiques ne cesse d’être mise en évidence dans les études génétiques, l’origine de cette différenciation mérite une investigation profonde. Plusieurs mécanismes, ou facteurs évolutifs et démographiques, peuvent créer des différenciations génétiques. Dans notre cas, qui concerne une différenciation notable sur une échelle de milliers de kilomètres, on peut considérer les deux explications suivantes, toutes deux étant liées à l’origine des populations est- asiatiques. D’après l’hypothèse « Out-of-Africa » acceptée par la plupart des généticiens, les ancêtres communs les plus récents de tous les humains modernes, si on ne tient pas compte du métissage très mineur avec des humains archaïques comme les Néandertaliens, seraient des hommes anatomiquement modernes qui habitaient en Afrique de l’Est ou en 34

Asie du Sud-ouest, il y a environ 100'000 ans. L’origine dont nous parlons ne serait donc toutefois pas plus ancienne que cette date.

La première explication est que si l’on observe une différenciation nord-sud, c’est que les populations NEA et SEA n’ont pas la même origine, ou leurs populations ancêtres se sont déjà diversifiées avant d’entrer en Asie orientale, probablement en raison de différentes routes de migrations empruntées (Cavalli-Sforza et al. 1994). La deuxième l’attribue cette différenciation à un effet de l’isolement par la distance, ou d’une série d’effets fondateurs, au cours de la colonisation de l’Asie orientale. Les populations se différencieraient graduellement par des migrations de proche en proche, et ces changements seraient corrélés à la distance géographique (Wright 1943; Malécot 1948).

1.3.4.1. Routes de migrations possibles

Les informations climatologiques et géomorphologiques nous aident à trouver des réponses. Les premiers humains modernes, à la fin du Pléistocène, pratiquaient encore la chasse et la cueillette, en utilisant leurs outils assez primaires du « Paléolithique moyen ». Cette période coïncide aussi avec le début de la dernière glaciation globale, le Würm (Fagan 2009), qui rendit inhabitable une grande partie du nord de l’Eurasie pour les humains modernes, limitant aussi les migrations. Finalement, juste à l’entrée de l’Asie orientale se trouve le vaste plateau tibétain, plus connu par l’Himalaya, qui sépare cette région du sous-continent indien. L’altitude du plateau dépasse souvent 5'000 mètres et reste une région très peu peuplée, même aujourd’hui (Tregear 2007). Pour les descendants des chasseurs-cueilleurs venant des régions tropicales, l’Himalaya était quasi-impénétrable. Au lieu de traverser le plateau tibétain, deux solutions étaient possibles pour les humains modernes qui se dirigeaient vers l’Asie orientale : soit par l’Asie du sud, soit par l’Asie centrale, ou, pour simplifier, soit par une route sud, soit par une route nord. Les hypothèses actuelles sur les routes de migrations empruntées par les premiers humains modernes vers l’Asie se focalisent sur le choix entre ces deux routes, qui ne sont d’ailleurs pas mutuellement exclusives. 35

1.3.4.2. « Modèle de la pince »

Dans le livre « The History and Geography of Human Genes » écrit par Cavalli- Sforza et al., les auteurs ont attribué la différenciation des populations NEA et SEA à des différences originales de leurs patrimoines génétiques. D’après la topologie des arbres phylogénétiques construits par ces auteurs, les Chinois Han du Nord sont toujours associés aux Mongols, ou, plus généralement, aux locuteurs altaïques, tandis que les Chinois Han du Sud sont associés aux populations d’Asie du Sud-est (Cavalli-Sforza et al. 1994).

Il existe des évidences, basées tant sur l’archéologie que sur l’anthropologie physique, qui font remonter ces migrations jusqu’au Paléolithique. Dans le Sud, la présence d’humains modernes date d’au moins 60 ka (Liujiang (Shen et al. 2002)). Dans le Nord, la culture lithique des humains modernes remonte aussi au minimum à 39 ka (Shang et al. 2007). En ajoutant l’observation d’une différenciation nord-sud par les archéologues sur la base des caractères morphométriques, les généticiens ont conclu qu’en Asie orientale, malgré la longue période de migrations et invasions successives des nomades du Nord, les différences entre le Nord et le Sud existaient avant ces scénarios. Ces différences auraient été maintenues pendant le Néolithique, et la croissance démographique substantielle des populations grâce aux développements agricoles les auraient renforcées (Cavalli-Sforza et al. 1994; Xiao et al. 2000; Karafet et al. 2001; Cavalli-Sforza et Feldman 2003).

Ding et ses collègues (2000) ont employé le mot « pince 15 » pour décrire cette hypothèse. Cela dit, les populations d’Asie orientale est le fruit d’un contact ancien et des interactions entre deux « pinces » d’expansion humaine du Nord et du Sud. Ce « modèle de la pince » (Simplifions comme « modèle deux routes », ou « modèle 2R ») suggère donc l’origine unique ancienne puis la divergence vers le nord-est et le sud-est des populations asiatiques, par la route nord et la route sud, respectivement.

15 Pincer en anglais. 36

1.3.4.3. « Modèle de l’origine au Sud »

En 1987, sur la base d’une étude systématique sur la variation morphologique de 28 traits dentaires chez les « Mongoloïdes », Christy Turner a défini deux groupes « typiques » : les Sinadontes et les Sundadontes (Turner 1987). Ces noms reflétaient une répartition des populations en deux groupes, « sino- » (Chine) représentant les populations est-asiatiques et amérindiennes, et « sunda- » (Sundaland) représentant les populations sud-est-asiatiques et océaniennes. Le taux d’apparition élevé de « l’incisive en pelle » était alors considéré comme caractéristique des Sinadontes, ce qui, d’après Turner, aurait été un caractère particulier qui aurait dérivé à partir de traits sundadontes, plus semblables à ce que l’on observerait chez les « Négroïdes ». En termes d’histoire du peuplement, cela reflèterait une origine des « Mongoloïdes » au sud du continent.

Cette hypothèse a été soutenue par le travail d’un groupe de généticiens américains (Ballinger et al. 1992), dont les résultats ont favorisé une continuité génétique des anciennes migrations « mongoloïdes ». En 1998, Chu et ses collègues ont constitué des arbres phylogénétiques des populations à partir des données de microsatellites, en appliquant la méthode du « neighbour-joining » (Chu et al. 1998). Les auteurs ont proposé que la topologie de ces arbres soutienne une origine au Sud des populations est- asiatiques étudiées, malgré de faibles valeurs de « bootstrap16 » pour ces arbres.

Un an plus tard, dans une autre étude réalisée sur des haplotypes du chromosome Y (Su et al. 1999), Su et ses collègues ont proposé précisément le « modèle de l’origine au Sud » (pour simplifier, nous parlerons de « modèle une route » ou « modèle 1R »). Ces chercheurs ont analysé des données de 19 locus bialléliques du chromosome Y chez 925 hommes, dont 739 Chinois, représentant 21 populations. En comparant les fréquences des haplogroupes entre populations, ils ont conclu que les haplogroupes observés dans les populations NEA n’étaient qu’un sous-ensemble de ceux observés dans les populations SEA. De plus, les premières populations se trouvaient toutes rassemblées dans un coin de leur graphe (une analyse d’échelonnement multidimensionnel, ou « MDS 17 »). Les

16 Le « bootstrap » est une technique en inférence statistique sur la base d’une succession de rééchantillonnages, ce qui permet de tester la sensibilité de la topologie de l’arbre phylogénique. 17 De l’anglais MultiDimensional Scaling. 37 populations du Sud seraient donc davantage diversifiées, tant au niveau intra- populationnel qu’inter-populationnel, par rapport à celles du Nord. Cela signifierait que les populations NEA seraient dérivées des populations SEA, premiers immigrants venant d’Afrique. Pour dater un tel scénario, les chercheurs ont étudié les individus Chinois Han portant l’allèle C du lignage M122, allèle partagé par les haplotypes considérés comme « Asie-spécifique », H6-H8, afin d’estimer son âge. Avec plusieurs paramètres fixés a priori, tels que le taux de mutation et la taille efficace des populations, l’âge du M122C a été placé entre 60 et 18 ka. D’après les auteurs, cette date refléterait l’âge d’un goulet d’étranglement (ou « bottleneck ») suite à l’entrée des humains modernes en Asie orientale. La présence généralisée de cet allèle dans les populations d’Asie du Sud-est suggèrerait que la mutation qui a abouti à cet allèle se soit produite antérieurement à leur arrivée.

Les auteurs de ces travaux ont toutefois admis qu’il était difficile de dater exactement ce genre de mutation ancienne, en raison des erreurs liées à l’estimation des paramètres. Ils ont donc cité plusieurs dates archéologiques pour mieux argumenter leur hypothèse. Parmi ces dates, ils ont mentionné l’âge estimé de la sinodontie (25-18 ka), patron dentaire est-asiatique (Turner 1987), celui (45-25 ka) des premiers sites du Paléolithique supérieur en Sibérie du sud (Vasil’ev 1993), ainsi que celui (50-40 ka) des premiers établissements humains en Australie et en Nouvelle-Guinée (O’Connell et Allen 2004). En y ajoutant la « lacune » de fossiles humains entre 100 et 40 ka en Asie orientale, les auteurs suggèrent que les humains archaïques d’Asie se soient déjà éteints avant ou pendant la dernière glaciation, et que l’Asie orientale aurait accueilli les humains modernes il y a environ 60'000 ans. Ceux-ci, après avoir pénétré dans la partie sud de l’Asie orientale, auraient migré ensuite vers le Nord, suivant le recul des glaciers.

Suite à cette étude, Shi et ses collègues (2005, 2008) ont proposé, par une méthode de phylogénie moléculaire, que deux haplogroupes « Asie-spécifiques » de la région non- recombinante du chromosome Y, O3-M122 et D-M174, soient les lignages anciens apparus au Sud de l’Asie orientale, et représenteraient deux vagues de migrations vers le Nord, datant, respectivement, de 30-25 ka et de 60 ka. L’idée que les populations SEA sont plus diversifiées au niveau intra-populationnel que les populations NEA a toujours 38

été un argument essentiel. Du coté maternel, quelques études sur le polymorphisme d’ADN mitochondrial soutiennent également cette hypothèse (Macaulay et al. 2005; Sun et al. 2006), avec une démarche similaire, soit un examen d’haplogroupes « Asie- spécifiques ».

En 2009, un rapport du projet HUGO s’intéressant aux SNPs autosomiques (Abdulla et al. 2009) a de nouveau conclu, à partir de l’analyse des 54'794 SNPs autosomiques observés chez 1'928 individus de 73 populations asiatiques et deux populations « HapMap » non-asiatiques, que le Sud-est de l’Asie était la source majeure de toutes les populations est-asiatiques. Outre les comparaisons de fréquences des haplotypes, les auteurs ont démontré que l’hétérozygotie des populations groupées corrélait négativement et significativement avec la latitude.

1.3.4.4. Débats

La majorité des généticiens acceptent l’hypothèse d’une différenciation génétique nord-sud en Asie orientale. Tandis que le modèle 2R considère ce patron comme le résultat d’une rencontre entre immigrants paléolithiques en provenance du Nord-ouest et du Sud-ouest, respectivement, le modèle 1R l’attribue plutôt à une expansion graduelle des immigrants depuis le Sud-ouest par le sud du l’Himalaya et à des flux géniques avec des populations du Nord-ouest beaucoup plus tardifs, soit au Néolithique, soit à la période historique (Shi et al. 2005).

Trois points fondamentaux distinguent les arguments des deux hypothèses : la distribution allélique/haplotypique, la diversité génétique, et la phylogénie moléculaire. Nous reprenons en détail chacun de ces arguments dans les sections suivantes.

Les résultats de Su et al. (1999) ont été réanalysés, peu après leur publication, par Karafet et ses collègues. D’après ces derniers, les données de Su et al. représentaient les populations NEA et SEA d’une manière inégale, les populations SEA étant mieux échantillonnées. Les populations altaïques, qui ont colonisé une grande partie du Nord depuis au moins plusieurs milliers d’années, sont beaucoup moins représentées par rapport aux populations des autres groupes linguistiques de la région. Effectivement, en ajoutant davantage de populations NEA, plusieurs haplogroupes apparaissent uniques au 39

Nord (Karafet et al. 2001). Les interprétations de Su et al. sont donc probablement biaisées.

Le choix d’allèles/haplotypes à comparer entre populations est également important. « L’avantage » de s’intéresser seulement à ceux qui sont plutôt présents en Asie qu’ailleurs, allèles/haplotypes dits « Asie-spécifiques », est de pouvoir exclure la possibilité de flux géniques récents, ces derniers étant extrêmement difficiles à dater. Or, cela ne veut pas dire que tous les autres haplogroupes doivent être ignorés. Dans l’article de Karafet et al., les haplogroupes plus fréquemment observés dans les populations NEA, par rapport aux populations SEA, sont également fréquents en Europe et/ou en Afrique. Shi et ses collègues (2005) leur ont répondu qu’il fallait les attribuer simplement à des flux géniques récents.

La diversité génétique intra-populationnelle est une autre mesure essentielle pour tracer la direction des migrations, partant du principe qu’elle diminue progressivement le long de la route migratoire. Les partisans du modèle 1R ont beaucoup utilisé la présence d’haplogroupes « Asie-spécifiques » pour démontrer que les individus SEA étaient plus diversifiés. Karafet et ses collègues ont argumenté, au contraire, que les individus NEA montraient une plus grande diversité si on incluait tous les haplogroupes présents. Quant aux marqueurs classiques, une plus grande diversité au sein des populations NEA a aussi été observée pour RH, GM et HLA-DRB1 (Sanchez-Mazas 1990; Poloni et al. 2005; Joyce et Marjoram 2008).

Finalement, l’application de méthodes phylogénétiques et les datations qui en découlent restent disputées, fait que nous avons discuté dans au chapitre 1.3.2.3. Quelques études sur l’ADN ancien d’individus du Néolithique en Chine ont été menées, notamment celle de Yao et ces collègues (2003), mais la petite taille d’échantillon a empêché des analyses plus approfondies au niveau populationnel.

En résumé, avec plusieurs articles récents favorables à l’existence d’une route de migration au sud du plateau tibétain, le modèle 1R a été mieux soutenu par la génétique ces dernières années, malgré quelques controverses. 40

1.3.5. Modèles concernant l’origine des familles linguistiques

Comme présenté dans le chapitre 1.2.4.1, l’Asie orientale compte des populations parlant des langues distinctes dont la plupart sont attribuées à cinq familles linguistiques : l’altaïque, le sino-tibétain, le tai-kadai, le hmong-mien, et l’austro-asiatique. Contrairement aux tentatives controversées pour déterminer la langue ancestrale de ces familles linguistiques, les linguistes sont plus favorables à la possibilité de les apparenter au sein de « proto-familles » dont l’âge ne précéderait pas le début du Néolithique.

En effet, presque chacune des combinaisons possibles de ces familles ont déjà été proposées par des linguistes dans l’histoire de leurs recherches (pour un résumé, voir Sagart et al. 2005). Parmi elles, la plus controversée est l’altaïque. Nous avons déjà parlé du rattachement disputé des langues japoniques et coréenne à cette famille, certains linguistes considérant ces langues comme apparentées aux langues de « l’altaïque proprement dit » (Robbeets 2005). Même à l’intérieur de l’altaïque proprement dit, pour les trois branches turque, mongole et toungouse-manchoue, une conclusion définitive est loin d’être atteinte (Robbeets 2005).

Concernant les familles du Sud, il existe depuis longtemps l’idée d’un appartement des familles hmong-mien, tai-kadai, austro-asiatique et austronésienne dans un grand phylum « austrique » (Schmidt 1906; Benedict 1966; Benedict 1975). En revanche, les deux premières familles linguistiques sont considérées par les linguistes chinois comme deux sous-groupes du sino-tibétain, en raison de leur similarité avec des langues chinoises, surtout au niveau du lexique (Ma 2003). Pourtant, cette similarité est plutôt attribuée, par les linguistes hors de Chine continentale, à l’influence des langues chinoises.

D’après l’hypothèse connue sous le nom de « dispersion agriculture/langage » (Renfrew 1996; Bellwood 2001; Diamond et Bellwood 2003), l’origine et la l’expansion de la majorité des grandes familles linguistiques du monde, comme l’indo-européen, l’afro-asiatique, l’uto-aztécan, etc., seraient liées au développement de l’agriculture et la domestication des céréales. Suite de la mise en place des économies agricoles de latitudes tempérées ou tropicales, la densité de population a réussi à s’augmenter, à l’intérieur puis autour des zones agricoles initiales. Le développement très ancien de l’agriculture en 41

Asie orientale a ainsi donné la possibilité de localiser des régions d’origine des familles comme le sino-tibétain et l’austro-asiatique.

Figure 1-5 Origine et expansion des grandes familles de langues est-asiatiques proposées par des linguistes dans le contexte de la théorie de « dispersion agriculture/langage » (d’après Blench et al. 2005).

Dans le Sud, le riz (Oryza sativa) cultivé dans les vallées du fleuve Yangzi depuis au moins 7 millénaires aurait été la céréale principale des populations proto-hmong-mien, ou proto-tai-kadai, d’après différents linguistes (Bellwood 2005). Dans le Nord, la domestication du millet des oiseaux (Setaria italica) dans les vallées du fleuve Jaune il y a 6'500 ans (Lu 1999) a souvent été rattachée à l’expansion d’une population parlant le proto-sino-tibétain (Ma 2003). Sagart (1994; 2005b) y a argumenté l’origine d’une langue ancestrale non seulement du proto-sino-tibétain mais aussi du proto-austronésien. Les locuteurs du proto-austronésien auraient ensuite immigré vers le sud-est, par Taïwan jusqu’aux nombreuses îles du Pacifique.

Dans certaines zones agricoles du Nord est cultivée une autre céréale, davantage résistante au froid et à la sécheresse, le millet commun (Panicum miliaceum). Pourtant, le 42

millet commun a également été cultivé en Inde et en Europe. Lu et ses collègues ont déclaré que cette céréale a été domestiquées à Cishan, dont la date estimée (10'000) est significativement plus ancien que tout les autres sites du monde (Lu et al. 2009), la plus ancienne trace de cette céréale dans le monde. Par conséquent, bien que le millet commun reste la céréale très importante cultivée par les populations altaïques, sa relation avec l’origine de cette famille linguistique reste inconnue.

La Figure 1-5 illustre une synthèse des hypothèses d’origine et d’expansion des principales familles linguistiques en lien avec la domestication des céréales en Asie orientale.

1.4. Introduction au système génétique étudié

Dans ce chapitre, nous allons présenter le système HLA, polymorphisme que nous avons utilisé pour étudier le peuplement humain en Asie orientale. La première section sera consacrée à la découverte du système, à sa structure et aux locus qui concernent notre étude. Les sections suivantes présenteront des aspects liés au polymorphisme élevé de ce système, tels que les méthodes de typage, les règles de nomenclature et les mécanismes évolutifs expliquant cette diversité. Des exemples d’analyse des données HLA dans le domaine de l’anthropologie seront ensuite présentés.

1.4.1. Description générale du système HLA

Le système des antigènes leucocytaires humains (HLA 18 ) est le nom courant du complexe majeur d’histocompatibilité (MHC19) de notre espèce. Il s’agit d’une région génomique très riche en gènes jouant des rôles essentiels dans la réponse immunitaire.

L’histoire de la découverte du système HLA peut être retracée dès la fin du 19ème siècle, lorsque des biologistes étudiant des tumeurs chez la souris essayaient d’éviter l’interruption de l’étude après la mort du sujet expérimental par transplantation du tissu tumoral d’un individu à un autre. Or, la majorité de ces tentatives finissaient par des

18 De l’anglais Human Leukocyte Antigen. 19 De l’anglais Major Histocompatibility Complex. 43

rejets chez l’individu greffé. Les raisons de ces incompatibilités seront connues, dans les années suivantes, à l’aide de la méthode du « pedigree ». En 1936, la première molécule MHC murine fut découverte par Peter Gorer sur les érythrocytes et les leucocytes. Environ vingt ans plus tard, son analogue chez l’humain fut décrit par le sérologiste français Jean Dausset (1958). Différentes de la souris, ces molécules humaines furent détectées principalement sur les leucocytes, et alors nommées « molécules » ou « antigènes HLA ». Suite à ce travail, davantage de molécules similaires furent décrites, sur divers types de cellules, mais le nom HLA a demeuré. Les molécules HLA furent ensuite classées en deux groupes, nommés « classe I » et « classe II », respectivement, selon leurs positions et fonctions. Tandis que les molécules de classe I sont présentes sur la plupart des types de cellules, celles de classe II sont limitées principalement aux trois sortes de cellules hématopoïétiques : les lymphocytes B, les macrophages et les cellules dendritiques.

De nouvelles études révélèrent une région du génome, dite « complexe HLA », comprenant les gènes codant pour les molécules HLA, aussi subdivisés en deux classes. On apprend que les différences structurelles des molécules HLA exprimées sont un facteur décisif des réponses immunes dans la transplantation clinique. Derrière ces différences existe un polymorphisme génétique complexe qui assure que les individus humains héritent et expriment différentes combinaisons d’allèles des gènes de classe I et de classe II (Marsh et al. 2000).

Le système HLA fut finalement localisé sur le bras court du chromosome 6 (Breuning et al. 1977; Francke et Pellegrino 1977), et, plus précisément, sur la bande 6p21.3 (Morton et al. 1984). Le séquençage complet de la région du système HLA fut effectué en 1999 (the MHC sequencing consortium 1999), la même année que le séquençage complet du génome humain. Cette région de 3,6 mégabases (Mb) comprend plus de 200 gènes exprimés, dont environ 10 à 20% sont liés aux fonctions immunes (Marsh et al. 2000). Elle est aussi connue aujourd’hui comme la région la plus polymorphe du génome humain. Du coté centromère, on trouve les gènes de classe II, et du côté télomère les gènes de class I, entre lesquels une classe III est définie. 44

Les principaux gènes de classe I comprennent les locus dits « classiques »20 HLA-A, - B, -C, et « non-classiques » HLA-E, -F et -G, dont chacun code seulement pour la chaîne lourde (chaîne α) des deux chaînes d’un « isoforme » de molécule correspondante de classe I. Quelques pseudogènes HLA-H, -J, -K et -L se trouvent aussi dans la région, sans qu’aucune protéine soit exprimée.

Les gènes de classe II codent chacun pour les deux chaînes (chaînes α et β, de taille similaire) d’un isoforme de molécule correspondante de classe II : les gènes « classiques » HLA-DP, -DQ, et -DR, et les gènes « non-classiques » HLA-DM et -DO. Les gènes codants des chaînes α et β se nomment par « A » et « B » : les chaînes α et β de HLA-DM sont codées par les gènes HLA-DMA et -DMB, respectivement, et celles de HLA-DO par HLA-DOA et -DOB. Dans le cas des pseudogènes, des chiffres sont ajoutés : les deux chaînes de HLA-DQ sont codées par les gènes HLA-DQA1 et -DQB1, respectivement, auprès desquels se trouvent les pseudogènes HLA-DQA2, -DQB2 et - DQB3. De la même façon, les deux chaînes de HLA-DP correspondent aux gènes HLA- DPA1 et -DPB1, avec les pseudogènes HLA-DPA2 et -DPB2. La région codante de l’isoforme HLA-DR est encore plus compliquée. Sa chaîne α est codée par le gène HLA- DRA, sans pseudogène qui l’accompagne, mais sa chaîne β est codée par plusieurs gènes, avec un ou plusieurs pseudogène(s), dont le nombre varie entre chromosomes. Outre les gènes HLA-DRA et -DRB1, on connait des gènes et pseudogènes HLA-DRB2, -DRB3 jusqu’à -DRB9.

Parmi les locus de classe I et de classe II, il existe également divers gènes qui ne codent pas pour des molécules HLA, mais beaucoup d’entre eux sont plus ou moins liés à l’immunité. Entre les régions mentionnées ci-dessus, on note les gènes dits de classe III, avec une densité extrêmement élevée, sans aucun pseudogène présent (Xie et al. 2003). Les protéines du système du complément, essentielles dans l’immunité innée, sont codées dans cette région.

20 Dans le système HLA, on distingue les locus « classiques » de locus « non-classiques », comme HLA-E, -F, -G, dont le polymorphisme est plus limité et le rôle un peu différent. 45

1.4.2. Le polymorphisme des gènes HLA

1.4.2.1. Typages sérologiques et moléculaires

Les études sur les gènes HLA de classes I et II se sont concentrées plutôt sur les cellules sanguines, bien que ces gènes s’expriment également sur les cellules d’autres tissus. Les molécules HLA peuvent être détectées lorsqu’elles provoquent une réaction antigène-anticorps. Grâce à la sérologie, on a remarqué qu’un anticorps pouvait réagir avec un ou plusieurs type(s) de molécules HLA « spécifiques ». Le typage de ces « spécificités » sérologiques HLA est donc devenu une tâche laborieuse et exigeante, en révélant un polymorphisme élevé des molécules codées par différents allèles HLA. Des efforts ont été menés pour augmenter la sensibilité de la méthode. En 1964, Terasaki et McClelland ont mis en place un test efficace lié au système du complément21, appelé le test de « microlymphocytotoxicité » (MLCT 22 ) (Terasaki et al. 1964; Terasaki et McClelland 1964). Son protocole a ensuite été modifié et standardisé pour le typage des molécules HLA des deux classes.

Cependant, le degré d’expression varie énormément entre les gènes HLA. Certains gènes ou allèles ne s’expriment point, ou guère, et certains autres expriment des molécules qui ne provoquent pas de réaction antigène-anticorps connue. Si cela arrive, les méthodes sérologiques sont incapables de détecter le polymorphisme, et ne produisent que des résultats « blancs ». Lorsque « blanc » existe chez une personne chez laquelle un seul allèle est détecté, les résultats du typage peuvent donner un faux homozygote. La fréquence du « blanc » est estimée à partir des phénotypes observés en tenant compte de cela. Par exemple, pour le gène HLA-C, la fréquence du « blanc » dans une population dépasse souvent 50% en appliquant le typage sérologique (Marsh et al. 2000). La situation est encore pire concernant les gènes de classe II. De plus, plusieurs molécules HLA peuvent réagir avec un même anticorps, et donc être impossibles à distinguer, donnant des résultats « ambigus ».

21 Le système du complément est composé d’un groupe de protéines trouvées dans le sérum, qui sont liées aux fonctions immunitaires innées. 22 De l’anglais MicroLymphoCytotoxic Test. 46

Les années 1980 marquent l’entrée de la biologie moléculaire dans le domaine. De nouvelles techniques de typage ont été développées, à l’aide de la « réaction en chaîne par polymérase » (PCR23), qui permet d’amplifier exponentiellement et très rapidement des séquences d’ADN spécifiques. On peut en citer ici quelques-unes couramment utilisées, comme la PCR-SSP24, la PCR-SSOP25, la PCR-RLS26, la PCR-SBT27. En principe, l’idée de ces méthodes est l’amplification d’un locus HLA, d’un groupe d’allèles ou d’un allèle, suivie par la détermination de ces allèles. Les résultats sont plus fiables et à plus haute résolution par rapport aux méthodes sérologiques. Le typage est passé alors du niveau de spécificité générique au niveau allélique, malgré encore des problèmes d’ambiguïtés. Pourtant, à moins d’un travail de laboratoire lourd, ces méthodes sont incapables de générer deux séquences haploïdes séparées, introduisant des problèmes d’ambiguïté lors du typage. Récemment, une révolution est déjà en marche vers le séquençage de prochaine génération, « next generation sequencing » (Erlich et al. 2011).

1.4.2.2. Les gènes HLA polymorphes

Le développement de nouvelles technologies permet d’identifier chaque année de nouveaux allèles HLA, dont le nombre est aujourd’hui considérable. Le haut degré de polymorphisme des gènes HLA est principalement associé aux exons 2 et 3, pour les gènes de classe I, et à l’exon 2, pour les gènes de classe II. Les différences moyennes estimées entre les séquences d’ADN de deux allèles HLA se situent entre 10 et 26 nucléotides, dépendant du locus (Buhler et Sanchez-Mazas 2011). Ces différences entre allèles HLA peuvent être produites par trois mécanismes principaux : la mutation, la recombinaison simple et la conversion génique.

23 De l’anglais Polymerase Chain Reaction. 24 De l’anglais Sequence Specific Primers. 25 De l’anglais Sequence Specific Oligonucleotide Probes. 26 De l’anglais Reverse Line blot System. 27 De l’anglais Sequence Based Typing. 47

Au niveau des protéines, les exons susmentionnés codent pour la région de liaison peptidique des molécules HLA, qui est essentielle pour leur fonction. Avec une grande diversité, différentes molécules HLA peuvent se lier à des peptides très divers, souvent dégradés de pathogènes ou de protéines virales. Ainsi, les réponses immunes provoquées par des pathogènes et virus peuvent différer entre individus.

Notons que les allèles HLA s’expriment de manière codominante. Un individu hétérozygote pour un gène HLA peut avoir des molécules davantage diversifiées, donc capable de réagir à des pathogènes davantage variés. Dans les cellules humaines, les six types de molécules HLA (A, B, C de classe I, et DP, DQ, DR de classe II) codées par les gènes « classiques » sont très polymorphes, même si à des degrés différents. La Table 1-1 montre les nombres d’allèles connus à ce jour (février 2013) des 8 locus HLA les plus polymorphes. La variabilité des allèles de ces locus peut former d’innombrables combinaisons d’haplotypes sur plusieurs locus, maintenant alors une plus grande capacité encore de résistance à diverses maladies.

Table 1-1 Nombre d’allèles connus pour les principaux gènes classiques28 du système HLA (février 2013). http://hla.alleles.org/nomenclature/stats.html.

Classe I II Gène HLA A B C DRB1 DQA1 DQB1 DPA1 DPB1 Nombre d’allèles 2'188 2'862 1'746 1'285 49 193 36 159 connus

1.4.2.3. La nomenclature du système HLA

Depuis la découverte du système HLA, le nombre de spécificités observées croît sans cesse. Très rapidement, un système adéquat de nomenclature a été exigé. En 1965, lors du 2ème Atelier International d’Histocompatibilité (IHIW29), un comité fut constitué et la première nomenclature des spécificités HLA connues fut discutée. Sans savoir d’abord que le système était à plusieurs locus, les spécificités ont été numérotées consécutivement, comme HL-A1, HL-A2, HL-A3, etc. Cette nomenclature a ensuite été modifiée au fur et

28 D’autres gènes HLA comme HLA-DRB3 ont aussi des variantes mais ne sont pas présents dans la table car ils ne sont pas concernés dans ce travail. 29 De l’anglais International HLA and Immunogenetics Workshop. 48

à mesure, en raison du développement rapide des méthodes de typage et de notre connaissance du système, mais les traditions et habitudes au sein des règles sont maintenues au maximum, jusqu’à aujourd’hui.

Pendant le 6ème atelier IHIW, en 1975, les premières spécificités connues ont été séparées en deux groupes, A et B, sous la forme HLA-A1, -A2, -B5, -B8 etc., reflétant les polymorphismes des deux locus : HLA-A et -B. Un troisième locus découvert est ensuite ajouté, appelé HLA-C. Un suffixe « w » est associé aux spécificités de ce locus (HLA- Cw1, -Cw2, etc.), afin d’éviter la confusion possible avec les protéines du système de complément (C2 et C4). Puis certaines spécificités ont été subdivisées, car des méthodes sérologiques améliorées en ont distingué des sous-unités plus précises, comme HLA-A25 et -A26, sous-unités de HLA-A10.

L’identification des molécules HLA de classe II, dans les années 1970, a également conduit, toujours pendant le 6ème atelier IHIW, à introduire un nouveau locus : HLA-D, avec six spécificités assignées. Mais la sérologie n’a pas permis aux chercheurs d’aller plus loin. Les trois locus « classiques », HLA-DP, -DQ et -DR n’ont été clairement proposés qu’en 1984, sur la base de méthodes moléculaires.

En passant au niveau moléculaire, on a appris également que chaque spécificité HLA définie par des techniques sérologiques ou cellulaires représentait en fait un ou plusieurs groupe(s) d’allèles. Une nouvelle convention fut finalement introduite en 1987, différenciant les allèles HLA avec un code à quatre chiffres (ou digits) (Dupont 1989). Les deux premiers digits décrivaient le lignage (ou famille) d’allèles, qui correspond souvent (mais pas systématiquement) à une spécificité. Le troisième et le quatrième digit ont été assignés aux allèles du lignage, par ordre de leur détermination. Ces allèles se différencient par une ou plusieurs substitutions nucléotidiques non-synonymes qui introduisent des changements de la séquence d’acides aminés correspondante (par exemple, HLA-A*0101, -A*0102, -A*0103 etc. pour HLA-A*01). Quelques digits supplémentaires ont été ajoutés par la suite. Dans le cas de substitutions nucléotidiques synonymes, un cinquième digit est prévu pour les différencier à l’intérieur d’un même allèle. Enfin, les deux digits suivants sont réservés pour distinguer des séquences qui ne 49

diffèrent entre elles que par des mutations en dehors de la région codante (Marsh et al. 2010). De plus, des suffixes sont utilisés pour décrire des allèles dont le niveau d’expression à la surface cellulaire est anormal.

Figure 1-6 Principe actuel de nomenclature HLA depuis 2010 d’après Marsh et al. (2010).

Cependant, la croissance rapide du nombre de nouveaux allèles, pour certains locus, a finalement dépassé la limite des « digits » possibles. Quelques modifications légères ont donc encore été réalisées au système de nomenclature. D’une part, on a permis de coder certains allèles de la même famille avec deux premiers digits différents, quand le nombre d’allèles de cette famille dépassait 99 (par exemple, A*02 et B*15), la limite maximale pour deux digits (Marsh et al. 2002). D’autre part, un digit supplémentaire a été ajouté au cinquième digit en raison de l’augmentation d’allèles différenciés par des substitutions synonymes. Toutefois, ces efforts n’ont même pas encore été suffisants face à la vitesse imprévue de découverte de nouveaux allèles. En avril 2010, une nouvelle réforme de la nomenclature a été réalisée, les positions des chiffres ayant été remplacées par des « champs30 », dont le nombre de digits n’est plus limité à deux. Les « deux-points » sont maintenant utilisés comme séparateurs des champs. Ainsi, chaque champ peut représenter un niveau de résolution de typage, que ce soit des locus, des spécificités, des allèles, ou des mutations trouvées dans les régions non-codantes. On a également décidé d’enlever le « w » des allèles du HLA-C (anciennement HLA-Cw). La Figure 1-6 donne un

30 Fields en anglais. 50 exemple d’allèle nommé selon le principe actuel de nomenclature HLA. La Table 1-2 donne plus de description sur les suffixes.

Table 1-2 Suffixes utilisés pour décrire les changements d’expression des allèles HLA, selon la nomenclature officielle.

Suffixe Signification Exemple Un allèle qui ne s’exprime pas à la surface HLA-A*0104N, N cellulaire, à cause d’une ou plusieurs mutations HLA-B*15010102N (null) Un allèle qui s’exprime à la surface cellulaire à un L A*01:01:38L niveau réduit (low) Un allèle qui s’exprime à un degré possiblement Q réduit en raison d’une mutation à confirmer B*13:18Q (questionable)

1.4.2.4. Ambiguïtés de typage HLA

L’ambiguïté des résultats des typages HLA est un problème qui n’a jamais été complètement éliminé, malgré toutes les nouvelles technologies, sérologiques ou moléculaires, mises à jour pendant des années. En lisant des rapports de typages HLA de différente époques, on voit bien que les chercheurs ont tous dû faire face à ce genre de résultats ambigus aux divers niveaux de résolution, génique (des locus), générique (des spécificités), ou allélique. Par exemple, lors d’un typage sérologique, une spécificité HLA réagit avec un anticorps spécifique pour HLA-A2, mais également avec un anticorps spécifique pour HLA-A3, le chercheur ne peut rien faire d’autre que de noter un résultat ambigu : HLA-A2/A3.

Diverses techniques de typage peuvent produire différents sortes d’ambiguïtés (Marsh et al. 2010). En cas de besoin, ces ambiguïtés peuvent être « résolues » par des méthodes moléculaires plus puissantes, comme le séquençage, car cela permet généralement d’obtenir des données alléliques. Mais cela n’atteint pas toujours le but, sans même compter le coût du typage supplémentaire.

L’application des méthodes moléculaires a considérablement amélioré la qualité du typage, particulièrement pour les locus très peu typés autrefois, comme HLA-C et HLA- DPB1, par exemple. 51

1.4.2.5. Mécanismes évolutifs agissant sur le MHC

L’origine des gènes du MHC diffère selon les différentes régions du complexe. Les gènes appartenant au système du complément, situés dans la région de classe III, ainsi que les gènes liés aux fonctions immunitaires innées sont plus anciens, d’un point de vue évolutif, car ils existent chez les invertébrés comme chez les vertébrés. Au contraire, les gènes liés aux fonctions immunitaires adaptatives, situés dans les régions de classe I et de classe II, ne sont observés que chez les vertébrés. L’organisation des gènes du MHC varie entre les différentes espèces, mais certaines caractéristiques se sont maintenues (Martinez-Borra et Lopez-Larrea 2012). Après plus de 600 millions d’années que représente son évolution, du Requin aux Primates, le MHC demeure l’une des régions les plus dynamiques du génome.

Concernant les gènes MHC de classe I et de classe II que nous étudions, une origine commune est généralement acceptée. Le développement des techniques de séquençage a rendu les séquences d’ADN des allèles de ces gènes disponibles en ligne, pour l’humain (HLA) mais aussi pour d’autres espèces (Robinson et Marsh 2000; Robinson et al. 2011). Le fait que le nombre de gènes de ces locus diffère entre espèces est expliqué par une hypothèse dite du « birth and death », selon laquelle de nouveaux gènes apparaissent par duplication génique, et sont maintenus ou supprimés au fil du temps (Nei et Rooney 2005).

Quant au système HLA, le MHC humain, de nombreuses études ont été réalisées pour étudier son histoire évolutive (Cereb et al. 1997; Bergstrom et al. 1998; Bergstrom et al. 1999; Adams et Parham 2001; von Salome et al. 2007). Sur la base des séquences nucléotidiques des introns 1 et 2 et de l’exon 2 des allèles HLA-DRB1, Bergström et ses collègues (1998) ont suggéré que la diversification des différents allèles soit récente, due principalement à des conversions géniques dans l’exon 2, alors que les lignages auraient généralement une origine beaucoup plus ancienne, dont certains pré-dateraient même la séparation de l’humain et du chimpanzé.

Le haut niveau de polymorphisme du système HLA et ses fonctions essentielles dans les réactions immunitaires indiquent également qu’une sélection naturelle de type 52

diversifiant (ou sélection balancée) a pu agir durant son évolution. Cela est compatible avec des données moléculaires : à tous les locus HLA classiques, sauf HLA-DPB1 (et, dans une moindre mesure, HLA-DQB1), la plupart des allèles observés au sein des populations sont éloignés entre eux d’un point de vue moléculaire, avec souvent plus de 20 nucléotides différents entre leurs séquences d’ADN au niveau de l’exon 2 (et de l’exon 3, pour les molécules HLA de classe I) (Buhler et Sanchez-Mazas 2011).

1.4.3. Applications des analyses HLA en génétique des populations

1.4.3.1. A l’échelle mondiale

Comme déjà décrit ci-dessus, une sélection naturelle balancée façonne en partie le polymorphisme du système HLA. Dans la plupart des populations humaines, de nombreux allèles HLA sont présents à des fréquences « polymorphiques », expliquant la diversité génétique élevée à l’intérieur des populations. Comme pour la majorité des marqueurs génétiques testés à ce jour, le plus haut niveau de diversité génétique HLA se trouve toujours au sein des populations, de l’ordre de 85% de la diversité totale, plutôt qu’entre les populations (Lewontin 1972; Barbujani et al. 1997). Cette valeur moyenne est même plus élevée pour les locus HLA, d’après les analyses réalisées sur les données de 7 locus HLA (HLA-A, -B, -C, -DRB1, -DQA1, -DQB1 et -DPB1) soumises aux 12ème et 13ème ateliers IHIW. La variation génétique moyenne au sein des populations représente 89,4% de la variation totale des populations des cinq grandes régions du monde (Sanchez-Mazas 2007), ce qui reflète encore une fois l’effet de la sélection naturelle. La seule exception a été observée pour le locus HLA-DPB1 (84%) (Sanchez- Mazas 2007), qui est généralement considéré comme un locus neutre ou presque neutre.

Malgré toutes les preuves de sélection naturelle sur l’évolution de son polymorphisme, la variation génétique HLA reflète aussi très fidèlement des expansions spatiales et démographiques des populations humaines dans le passé. Le système HLA reste ainsi très informatif pour les études anthropologiques. Au niveau mondial, les distances génétiques entre populations estimées à partir des données de fréquences HLA sont significativement corrélées aux distances géographiques, ce qui est vrai pour tous les locus même si le coefficient R n’est pas forcément élevé (R ≅ 0,2 à 0,5) (Buhler 2007). 53

Lors de l’estimation des distances génétiques entre populations tenant compte aussi des distances moléculaires entre allèles, des résultats similaires ont été obtenus (Buhler et Sanchez-Mazas 2011). Ces résultats très robustes conduisent alors à la conclusion que les migrations humaines sont une force fondamentale dans l’évolution de la variation HLA, en plus des expansions et des contractions démographiques, qui contribuent à la diversification populationnelle et la diversification allélique, respectivement.

Les signatures génétiques laissées par l’histoire du peuplement sont encore plus significatives lorsque l’on se concentre sur les profils génétiques HLA au sein d’un continent particulier (Nunes et al. 2010). Prenons l’Europe et l’Afrique comme exemples.

1.4.3.2. La différenciation HLA en Europe

L’Europe est une région bien étudiée pour le système HLA. Au niveau géographique, on a observé une différenciation génétique entre les populations d’Europe de l’Ouest, du Centre et du Nord d’une part, et celles d’Europe du Sud-est d’autre part, pour les locus HLA-C et -DRB1 (Buhler et al. 2006; Sanchez-Mazas et Buhler 2009), ce qui a été confirmé pour les autres locus également (Sanchez-Mazas 2013). Une frontière génétique significative a même été détectée, correspondant approximativement à la chaîne montagneuse des Alpes. Etant une barrière géographique, les Alpes auraient réduit les flux géniques des populations dans l’histoire, peut-être déjà au cours du Néolithique (Sanchez-Mazas et Buhler 2009; Buhler et al. 2012).

Au niveau linguistique, il existe une certaine corrélation entre les langues et la répartition des allèles HLA chez certaines populations. Par exemple, les Sami de Norvège, qui parlent une langue ouralique, sont très proches génétiquement des Finnois, qui parlent une langue de la même famille, mais sont très différents des Norvégiens, locuteurs d’une langue indo-européenne (Harbo et al. 2010). Ce n’est pas le cas des Basques, en revanche, qui, situés à l'extrémité occidentale des Pyrénées, malgré leur isolement culturel et linguistique par rapport à toutes les populations indo-européennes voisines, ne présentent que de légères différences de fréquences HLA par rapport à ces dernières (Comas et al. 1998a; Comas et al. 1998b). 54

1.4.3.3. Les différenciations HLA en Afrique

Selon une nouvelle synthèse des données HLA sur les populations africaines, des chercheurs ont observé une correspondance générale entre les différenciations HLA et la géographie (Nunes et al. 2010). Pour certaines populations, un lien a également été remarqué entre les fréquences des allèles HLA et la linguistique. Les langues parlées dans le continent africain sont classées en quatre familles linguistiques principales. Notons que la répartition des familles est aussi plus ou moins liée à la géographie, malgré les régions interposées. Ces quatre familles sont : le niger-congo à l’ouest et au sud, le nilo-saharien au centre, d’est en ouest à travers le Sahara, l’afro-asiatique au nord et nord-est, et le khoisan au sud-ouest. Une analyse sur la variation HLA-DRB1 en Afrique (Ries 2009) a montré que deux populations afro-asiatiques d’Ethiopie (les Amhara et Oromo) étaient plus proches des populations de la même famille linguistique trouvées en Afrique du Nord que de populations géographiquement voisines parlant une langue d’une autre famille (les Nyangatom). La conclusion est aussi compatible avec les résultats obtenus sur d’autres marqueurs génétiques, tels que GM, RH et le chromosome Y (Excoffier et al. 1987; Excoffier et al. 1991; Sanchez-Mazas 2001).

1.4.3.4. Les études HLA en Asie orientale

Pendant les 20 premières années après la découverte du système HLA par Jean Dausset en 1958, seulement quelques populations japonaises ont été testées pour le système HLA en Asie orientale. La recherche sur les variations du système HLA n’a commencé en Chine que dans les années 1970, grâce à une offre de kits de typage à l’Hôpital Ruijin à Shanghaï lors d’une visite de Jean Dausset. En 1974, le premier groupe chinois de recherche HLA se fonda. Entre 1978 et 1987, les méthodes sérologiques ont peu à peu été connues et appliquées à l’échelle nationale (Fan 2004).

Au milieu des années 1980, 22 laboratoires chinois ont mené une étude sur les polymorphismes des spécificités HLA-A, -B, -C et -DR dans les populations Han de 10 villes chinoises. Les résultats ont révélé une différenciation entre les Han du Nord et les Han du Sud (Chen et al. 1987). Dans le cadre du 11ème atelier IHIW au Japon, davantage de données ont été ajoutées, y compris celles des minorités chinoises, pour les gènes de 55

classes I et II. Les résultats des analyses « clustering » ont confirmé la différenciation nord-sud, avec les Miao et Bouyei proches des Han du Sud, et les Mongols, Manchous, Hui et Tibétains proches des Han du Nord (Fan 2004).

Le typage moléculaire a également été appliqué à partir de la fin des années 1980. De nombreuses populations ont été échantillonnées pendant les deux décennies suivantes. Cependant, parmi ces données, seulement une minorité a été soumise aux ateliers IHIW, et le reste a été publié dans des articles scientifiques avec une proportion importante en chinois. De plus, comme de plus en plus de pays, les échantillons de sang et de salive sont considérés en Chine comme des biens biologiques importants nécessairement protégés par des lois civiles. En 1998, le gouvernement chinois approuve les « Mesures provisoires concernant l'administration des ressources génétiques humaines », imposant l’interdiction de toutes sortes d’échantillonnages génétiques effectués par des étrangers et le contrôle strict de toutes sortes d’exportations du pays d’échantillons provenant d’humains31.

Cette « barrière » linguistique et législative a donc limité l’accès aux données par la communauté internationale. Au contraire des autres marqueurs génétiques, jusqu’en 2007, très peu d’analyses systématiques ont été effectuées sur les données moléculaires HLA pour les populations est-asiatiques. Un travail sur HLA-DRB1, le locus le mieux représenté pour les populations est-asiatiques, a été effectué dans notre laboratoire. Basé sur les données soumises aux 11ème, 12ème et 13ème ateliers IHIW, ce travail a révélé une correspondance entre les différenciations du système HLA et la géographie, ainsi que la linguistique dans une certaine mesure (Sanchez-Mazas et al. 2005). Dans un compte rendu sur la recherche HLA en Chine, Fan (2004) a conclu que les études populationnelles du polymorphisme HLA, en particulier celles de classe I, nécessitaient encore bien des efforts. C’est pourquoi nous avons centré notre travail sur la diversité du

31 Voir les articles 14, 15, 23 des « Mesures provisoires concernant l’administration des ressources génétiques humaines », promulguées par le Bureau général du Conseil d’Etat à l’approbation du Conseil d’Etat, le Ministère de la Science et de la Technologie et le Ministère de la Santé Publique, République populaire de Chine, le 10 juin 1998. 56 système HLA en Chine d’une part et sur l’ensemble de l’Asie orientale d’autre part, en collectant toutes les données HLA disponibles actuellement.

En liant le marqueur que nous utilisons, le système HLA, au sujet que nous étudions, l’histoire du peuplement de l’Asie orientale, nous avons essayé de répondre, en principe, aux questions suivantes :

- Quelle est la structure génétique des populations est-asiatiques révélée par le système HLA ? - La structure génétique correspond-elle à la géographie ? La différenciation nord- sud et la frontière génétique observées pour d’autres marqueurs génétiques sont- elles également reflétées par ce système ? Si une différenciation nord-sud et une frontière génétique sont observées, quelles sont leurs origines ? Et sont-elles en relation étroite avec les routes de migration des humains modernes vers l’Asie orientale ? Si elles ne sont pas observées, quelle peut en être l’explication ? - La structure génétique correspond-elle à la linguistique ? Quelles sont les relations génétiques entre les familles linguistiques proposées ? La diversification des familles linguistiques est-elle en relation avec les routes de migration ? - Au final, comment les facteurs évolutifs et démographiques ont-ils influencé les gènes HLA en Asie orientale ?

57

2. Données

2.1. Description des données utilisées

2.1.1. Origine des données

Une révision systématique de la littérature depuis 1990 a été effectuée au début de ce travail. Nous avons collecté un maximum de données de fréquences HLA disponibles, soit publiées dans le cadre des travaux en génétique des populations, soit soumises à l’Atelier IHIW. Nous avons également inclus des données provenant des populations de « contrôle » utilisées dans les analyses cas-témoins des études d’associations HLA- maladies, à condition que les échantillons aient été choisis au hasard. Une proportion importante de ces données ayant été publiées en chinois, elles ont rarement été citées et analysées.

Cinq locus dits « classiques » du système HLA ont été concernés, c’est-à-dire les locus HLA-A, -B et -C de classe I, et les locus HLA-DRB1 et -DPB1 de classe II. Les données ont été définies à deux niveaux de résolution :

- Les données « génériques » ou « à basse résolution »32 : ce sont des fréquences de « lignages » d’allèles qui correspondent souvent du niveau de la protéine aux spécificités sérologiques HLA, comme HLA-A*01 pour A1. Ces données nous ont permis d’analyser un nombre maximal d’échantillons de populations. - Les données « alléliques » ou « à haute résolution »33 : ce sont des fréquences d’allèles, qui correspondent normalement, au niveau de la protéine, aux antigènes distincts exprimés sur la surface des cellules, comme HLA-A*01:01. Ces données nous ont permis de décrire la structure génétique des populations de manière plus fine, en dépit d’un nombre de populations plus limité.

32 Codées actuellement par un seul « champ », elles furent souvent appelées « les données à 2 digits » avant la dernière réforme de nomenclature HLA. 33 Codées actuellement par deux « champs », elles furent souvent appelées « les données à 4 digits ». 58

Les données de fréquences alléliques qui étaient ambigües ou définies à plus haute résolution ont été recodées à un niveau de résolution inférieur, afin de les rendre comparables avec celles des autres populations, un traitement de données que nous allons présenter dans le chapitre 2.3.2.

Les données brutes ont été ainsi intégrées, formatées et arrangées dans des fichiers Excel, et classées par locus. Toutes les informations concernant les populations correspondantes ont été soigneusement examinées. Ces premiers jeux de données étaient donc prêts pour un contrôle de qualité selon plusieurs critères présentés ci-dessous.

2.1.2. Les critères assurant la qualité des données

La qualité des données à analyser est essentielle pour la fiabilité des résultats. Les données problématiques pourraient biaiser les résultats des analyses et conduire à de fausses conclusions. Pendant la révision de la littérature, nous avons remarqué plusieurs problèmes dans certains articles, liés à :

- La taille d’échantillon : c’est un facteur influençant beaucoup la qualité des données. Cette taille doit être suffisamment grande afin de bien représenter la distribution des variantes d’un marqueur génétique donné dans une population échantillonnée. Pour le système HLA qui présente un très haut degré de polymorphisme, ce facteur est d’autant plus important, car une insuffisance du nombre d’individus échantillonnés augmente la probabilité de ne pas observer des allèles existants, surtout s’il s’agit d’allèles rares (Sanchez-Mazas 2002). Une petite taille d’échantillon a aussi plus de chances d’entraîner une déviation des fréquences estimées par rapport aux vraies valeurs dans la population, due à un plus grand effet du hasard. Elle entraîne en outre une réduction de la puissance des tests statistiques appliqués aux données. - Les informations relatives à l’échantillon : les informations géographiques, linguistiques et ethniques des échantillons sont aussi essentielles dans une étude s’intéressant à l’histoire du peuplement. Idéalement, dans un échantillon censé représenter une population au sens « anthropologique », un habitant est interrogé sur deux ou trois générations ancestrales des deux côtés parentaux, afin d’éviter 59

d’échantillonner des immigrants récents. Les données sans précision de provenance risquent de biaiser les résultats lors d’études fondamentales sur le peuplement humain, comme, pour l’Asie orientale, la différenciation nord-sud et les routes de migrations. - Les ambiguïtés de typage : comme discuté dans la section 1.3.2.4, les données HLA subissent souvent des problèmes d’ambiguïtés de typage. Lors de la comparaison de fréquences alléliques, les données ambigües peuvent donner aux chercheurs une fausse description de la distribution des allèles. Les données typées par des méthodes sérologiques subissent plus de problèmes d’ambigüités que les méthodes moléculaires.

Afin d’éviter des biais possibles causés par ces problèmes, nous avons défini des critères stricts assurant une qualité minimale des données à analyser :

- La taille d’échantillon doit être supérieure de 40, c’est-à-dire 80 chromosomes. Ce critère avait été suivi faute de mieux lors d’une étude de données HLA à basse résolution sur l’Asie orientale et l’Océanie, ce qui assurait a priori la détection de la plupart des allèles et la conservation d’un nombre suffisant de données pour les analyses (Sanchez-Mazas et al. 2005). Bien entendu, une taille plus élevée serait souhaitable (Sanchez-Mazas 2002). Dans ce travail, seul un échantillon de 36 Chinois Han de Shanxi typés pour le locus HLA-DPB1 a fait exception.

- La localisation géographique et l’affiliation linguistique des populations échantillonnées doivent être clairement indiquées.

- Les données doivent avoir été obtenues par des méthodes moléculaires de typage, comme PCR-SSP, PCR-SBT, etc. Nous avons donc exclu les données obtenues par typages sérologiques. Seuls un échantillon de Li typés pour HLA-A et un échantillon de Ryukyuens typés pour HLA-DRB1 font ici exception.

- La fréquence de « l’allèle blanc » ne doit pas dépasser 5%.

Sous ces critères, toutes les données dont la qualité n’atteignait pas notre standard ont été exclues de nos jeux de données. Notons que nos collègues ont déjà recommandé ce 60 standard dans le cadre d’HLA-NET qui pourra guider les chercheurs en génétique des populations et en transplantation clinique pour travailler sur les données HLA (Sanchez- Mazas et al. 2012b).

2.2. Description des populations concernées

En principe, dans les études d’anthropologie moléculaire, les populations à étudier sont regroupées selon des informations géographiques, ethniques ou linguistiques, dépendant de l’intérêt des chercheurs (Cavalli-Sforza et al. 1994). C’est aussi la raison pour laquelle nous avons exclu des populations pour lesquelles ces informations n’étaient pas suffisamment claires. Au total, notre banque de données comprend des données HLA pour environ 127'000 individus appartenant à 84 populations distinctes, échantillonnées dans 141 études (Figure 2-1 et Annexe 1). Nous allons alors discuter de leurs affiliations selon chacun des aspects mentionnés ci-dessus : la géographie, l’ethnologie et la linguistique.

Figure 2-1 84 populations est-asiatiques échantillonnées pour les cinq locus HLA dans 141 études (les études sont numérotées et listées par locus en Annexe 1). 61

2.2.1. Informations géographiques

La localisation géographique de chaque population est représentée par sa latitude et sa longitude. Cette représentation de coordonnées géographiques est donc ponctuelle par rapport à la région occupée par la population, dont la superficie n’est pas à la même échelle selon l’intérêt de l’échantillonnage. Par exemple, des chercheurs peuvent échantillonner la population d’un village, d’une commune, d’une province, ou d’un pays, variant ainsi d’une surface de quelques km2 jusqu’à quelques centaines de milliers de km2.

En pratique, les coordonnées géographiques du centre géométrique sont souvent prises pour représenter une superficie sans utiliser d’intervalle. Concernant un village ou une commune, cette manière ne pose généralement pas de problème. Or, le centre géométrique d’une grande superficie, même si l’on arrive à le déterminer, ne représente pas toujours correctement la localisation de la population locale, car la densité démographique n’est pas uniforme dans un espace. Une région composée de plaines d’un côté et de montagnes de l’autre, ce qui est souvent notre cas, ici, peut avoir une densité démographique très déséquilibrée ; il vaut mieux alors prendre le centre de « gravité » démographique, en considérant la distribution des habitants, qui se concentrent souvent plus dans les grandes villes. Il nous est arrivé parfois de constater que les auteurs avaient échantillonné des individus d’une ou de quelques villes pour représenter une plus vaste région. Il est donc important de regarder la précision des auteurs dans chacune de ces études.

Si ce problème n’influence probablement pas tellement nos analyses sur l’ensemble de l’Asie orientale à une échelle de millions de km2, il pourrait s’aggraver si on s’intéresse à des questions plus détaillées sur des régions plus petites, comme la recherche et le positionnement de frontières génétiques, dont nous allons discuter plus loin.

Géographiquement parlant, nos données représentent une belle couverture de la région intéressée. Pour respecter la définition élargie de l’Asie orientale décrite plus haut, plusieurs populations de Sibérie du Sud et d’Asie du Sud-est continentale ont également 62

été incluses (Figure 2-1). D’autres populations sibériennes n’ont en revanche pas été prises en compte car leurs données n’étaient disponibles que pour le locus HLA-DRB1.

2.2.2. Informations ethnologiques

La complexité de la situation ethnologique en Asie orientale, dont nous avons parlé dans le chapitre 1, crée souvent des confusions aux chercheurs. D’abord, dans ces pays « multiethniques », les membres d’un groupe ethnique ne sont pas nécessairement concentrés en un lieu spécifique. Lorsqu’un échantillonnage est effectué, les chercheurs peuvent s’intéresser à tout un peuple local sans tenir compte des groupes ethniques, ou alors ne se concentrer qu’à un ou plusieurs groupe(s) ethnique(s) particulier(s). Dans le premier cas, le profil génétique observé représente l’ensemble des habitants, probablement un mélange de plusieurs groupes ethniques. En revanche, quand on échantillonne un groupe ethnique spécifique d’un lieu, il ne représente pas forcément les habitants en général. Et dans ce même lieu, il est aussi possible d’observer différents profils génétiques pour différents groupes ethniques.

Comme pour les informations géographiques discutées ci-dessus, ce genre de problème est moins épineux quand la structure génétique globale de la région est étudiée ; mais cela pourrait biaiser les résultats de certaines analyses plus détaillées comme des tests de corrélation entre distances génétiques et géographiques, car deux groupes ethniques habitant dans le même lieu à une distance géographique négligeable peuvent présenter d’énormes différences génétiques.

Toutefois, puisque nous nous intéressons simultanément à la géographie et à l’ethnologie, nous n’avons pas inclus les données de certaines populations d’origines ethniques obscures.

Ethnologiquement parlant, nos données couvrent 28 groupes ethniques reconnus en Chine, 2 groupes au Vietnam, 2 groupes en Thaïlande, 5 groupes en Mongolie, 3 groupes en Russie, ainsi que les Sud-Coréens, les Japonais (Yamato) et les Ryukyuens. 63

2.2.3. Informations linguistiques

Comparées à l’ethnologie, les informations linguistiques des populations sont moins problématiques, car la reconnaissance d’une langue est moins influencée par des facteurs ethno-politiques. En Chine, la langue n’est pas le facteur décisif pour distinguer les peuples. Par exemple, les dialectes sud-chinois, tels que le cantonais, le hakka, ou le minnan sont peu compréhensibles, voire incompréhensibles pour les locuteurs du mandarin, bien que leurs locuteurs soient tous reconnus comme appartenant à un même groupe ethnique, les Han chinois (Sun et al. 2007). Pour donner un autre exemple, les Bouyei et les Zhuang, deux groupes ethniques tai-kadai selon la définition du gouvernement, peuvent communiquer entre eux sans difficulté (Ma 2003).

Table 2-1 Nombre de populations disponibles pour chaque locus HLA et regroupées d’après les informations linguistiques.

Locus HLA Familles/Groupes linguistique A A B B C C DPB1 DRB1 DRB1 (allélique) (générique) (allélique) (générique) (allélique) (générique) (allélique) (allélique) (générique)

Altaïque (ALT) 4 7 2 6 2 6 5 5 7

Coréen et japonique 3 3 3 3 3 3 3 4 4

Sino-tibétain 14 33 13 32 12 17 20 15 41

Tibéto-birman (TB) 6 9 6 9 3 4 8 8 12

Sinitique (SIN) 8 25 7 23 9 13 12 7 29

Mandarin (MAN) 3 14 2 12 4 6 6 4 19

Langues sud- chinoises (LSC) 5 11 5 11 5 7 6 3 10

Hmong-mien (HM) 1 2 1 1 1 1 2 2 2

Tai-kadai (TK) 4 6 4 6 3 3 4 4 7

Austro-asiatique (AA) 4 4 4 4 1 1 2 5 5

Total 30 56 27 52 22 31 36 35 66

En linguistique, la difficulté concerne davantage la classification. Des questions de base sur la linguistique comparative n’ont pas encore permis aux linguistes d’établir une affiliation non controversée des langues actuelles. Les familles linguistiques que nous avons présentées plus haut sont basées sur l’Ethnologue (Gordon 2005), une des sources couramment utilisées dans la recherche. 64

Linguistiquement parlant, les cinq familles linguistiques d’Asie orientale sont toutes représentées par nos données. La Table 2-1 liste le nombre de populations échantillonnées pour chaque famille à chaque locus HLA. La famille sino-tibétaine a de plus été subdivisée en raison de l’abondance de données pour chaque branche.

2.3. Traitement des données

2.3.1. Calcul et estimation de fréquences génériques et alléliques

Dans la majorité des articles d’où proviennent nos données, les fréquences des lignages (fréquences génériques) et/ou des allèles (fréquences alléliques) HLA ont déjà été estimées et rapportées à partir du comptage des génotypes. L’une ou l’autre des deux méthodes courantes d’estimation des fréquences géniques est généralement appliquée : la formule de Bernstein (Bernstein 1930), ou le comptage direct.

L’estimation de fréquences par la formule de Bernstein a été une méthode standard lors du typage sérologique du système HLA. Quand la taille d’échantillon est de n (en nombre d’individus), le nombre de cas positif d’une spécificité HLA est de a, la fréquence phénotypique de cette spécificité fp est :

a f p= n

34 La fréquence génique fg est alors calculée selon :

f 1 1 f g= −√ − p

Normalement, la somme des fréquences géniques des spécificités est inférieure à 1, à cause des ambiguïtés. La différence à 1 compte alors pour la fréquence du « blanc ».

Quand le typage est passé au niveau moléculaire, le comptage direct a été plus souvent utilisé (car on a supposé qu’il n’existait aucune ambiguïté dans les génotypes, tout individu ayant un seul allèle étant considéré comme un homozygote). Ayant un nombre a

34 Cette formule repose sur l’hypothèse d’équilibre de Hardy-Weinberg de la population qui doit être vérifiée. 65

d’une spécificité HLA dans un échantillon de taille n, la fréquence génique f est calculée directement par :

a f = 2n

Pour les données de chaque étude, nous avons dans certains cas où les données nous le permettaient recalculé et vérifié les fréquences, afin d’éviter des erreurs d’impression ou de calcul.

En outre, l’algorithme EM35 est une méthode d’estimation des fréquences alléliques (Dempster et al. 1977; Excoffier et Slatkin 1995) qui peut s’appliquer à des données ambigües (Nunes et al. 2010). Malheureusement, cet algorithme n’a pas été applicable à nos données collectées du fait que nous ne disposions pas des données génotypiques complètes.

2.3.2. Regroupement des données alléliques

Les données rapportées par différents laboratoires à différentes périodes sont très variables du point de vue de leurs niveaux de résolution et des versions de la nomenclature utilisée. Lors de la récolte et des comparaisons de données, une uniformisation a donc été obligatoire.

Comme déjà discuté plus haut, nous avons traité les données à deux niveaux : la basse résolution (données à un champ, anciennement « 2 digits ») et la haute résolution (données à deux champs, anciennement « 4 digits »). Les données à 3 et 4 champs ont été transformées en données à 2 champs (e.g., A*01:01:01 transformé en A*01:01) afin de pouvoir les comparer aux données à haute résolution. Ensuite, toutes les données à 2 champs ont été combinées en un seul champ si nécessaire (e.g., A*01:01 transformé en A*01). Les données estimées par comptage direct ont pu être combinées simplement en faisant la somme des fréquences des allèles regroupés. Cela n’a pas été possible, en

35 De l’anglais Expectation-Maximization algorithme. 66

revanche, pour les fréquences estimées par la formule de Bernstein, car la fréquence combinée doit être calculée à partir de la somme des comptages.

Au final, les jeux de données en format Excel, à partir desquels le format pour chaque programme utilisé a été préparé, étaient prêts pour les analyses.

67

3. Analyse du polymorphisme HLA observé dans les populations est-asiatiques

Comme nous en avons déjà discuté dans le chapitre 1, l’application d’analyses statistiques aux données génétiques a permis aux généticiens de comparer les profils génétiques des populations et d’intégrer ces informations dans des tentatives de reconstruction de l’histoire du peuplement de notre espèce. Tandis que les comparaisons de fréquences géniques peuvent refléter directement des différences entre populations, les analyses statistiques basées sur les théories de la génétique des populations donnent la possibilité d’interpréter ou de prédire l’évolution de ces fréquences de manière plus sophistiquée en considérant les effets de différents mécanismes évolutifs comme la sélection et la dérive génétique (Blench et al. 2008).

Dans un premier temps (chapitre 3), nous avons étudié les données HLA d’Asie orientale à l’aide de méthodes statistiques à la fois descriptives et inférentielles. Dans ce chapitre, nous présentons les résultats obtenus par cette série d’analyses et les discutons ensuite en relation avec l’origine, la diversification et les migrations des populations est- asiatiques. Nous essayons également d’intégrer dans cette discussion des informations archéologiques et linguistiques.

3.1. Méthodes statistiques (descriptives et inférentielles) utilisées

3.1.1. Graphiques des fréquences génériques et alléliques

La réalisation de graphiques présentant les fréquences géniques observées dans l’ensemble des populations étudiées est un moyen simple, et souvent assez informatif, d’avoir un premier aperçu général des différences génétiques entre populations. Les recherches utilisant des marqueurs monoparentaux illustrent fréquemment des fréquences d’haplogroupes conjointement à des reconstructions d’arbres phylogénétiques, dans des approches phylogéographiques. Mais pour les gènes HLA comme pour d’autres marqueurs autosomaux, la reconstruction d’arbres phylogénétiques et leur interprétation 68

posent un problème majeur en raison de mécanismes complexes ayant gouverné leur évolution, comme les recombinaisons et les conversions géniques.

Les travaux réalisés sur l’évolution du système HLA sont encore loin de mettre complètement au clair les relations évolutives entre lignages et allèles HLA (Erlich et al. 1996; Gyllensten et al. 1996; Bergstrom et al. 1998; von Salome et al. 2007; Buhler et Sanchez-Mazas 2011). En revanche, les données des fréquences des lignages et des allèles sont directement disponibles pour des comparaisons. Nous les avons donc visualisées, pour chaque locus, en créant des diagrammes en aires (Figure 3-1 donnant un exemple) qui nous ont donné une impression générale du degré de polymorphisme de chaque locus, sachant que pour la majorité des populations, les lignages et allèles les plus nombreux sont observés au locus HLA-B, suivi de HLA-A, -DPB1, -DRB1 et -C (Buhler et Sanchez-Mazas 2011). Remarquons que les aires ont l’inconvénient de créer des vecteurs de fréquences « artificielles » entre les vraies populations mais ils visualisent beaucoup mieux les variations que des histogrammes.

Vu que nos données ne fournissaient des informations sur la répartition des lignages et allèles que dans les populations est-asiatiques, il était nécessaire de consulter d’autres données pour savoir comment ces lignages et allèles se répartissaient dans d’autres continents, idéalement au niveau mondial. Une base de données disponible en ligne a facilité cette tâche (Solberg et al. 2008). Sur le site http://www.pypop.org/popdata/, une carte de la répartition géographique de chaque allèle HLA est disponible. Ces cartes ont été créées sur la base de centaines de populations échantillonnées dans le monde entier, et les valeurs de fréquences alléliques sont représentées par différentes couleurs. Un problème majeur, bien sûr, est que les régions sans données sont colorées en gradients entre des points de données avoisinants, et ces cartes doivent donc être lues avec prudence (Figure 3-1 donnant un exemple). Par exemple, le bleu foncé pour une région de la carte ne signifie pas nécessairement que la fréquence d’un allèle y est à 0. Ces cartes permettent donc de visualiser de manière générale la répartition des allèles HLA dans le monde. En revanche, les répartitions plus détaillées peuvent être vérifiées en consultant les données HLA soumises aux derniers ateliers IHIW (Nunes et al. 2010; Riccio et al. 69

2013) ou d’autres bases de données comme Gene[VA]36 (Renquin et al. 2003) et AFND37 (Middleton et al. 2003).

Figure 3-1 Graphiques choisis comme exemples pour illustrer (haut) un diagramme en aire des fréquences HLA-A en Asie orientale et (bas) la répartition de l’allèle HLA-A*01:01 dans différentes régions du monde selon le site http://www.pypop.org .

36 Celle de notre laboratoire. 37 De l’anglais Allele Frequency Net Database. 70

3.1.2. Analyses intra-populationnelles

3.1.2.1. Test de l’équilibre de Hardy-Weinberg

La loi de Hardy-Weinberg (Hardy 1908; Weinberg 1908) est une loi fondamentale en génétique des populations. Cette loi prédit que, dans une population diploïde idéale38, les fréquences alléliques d’un gène (comprenant par exemple, deux allèles A et a) demeurent constantes entre générations, et déterminent les fréquences des génotypes (ici AA, Aa et aa) de cette population par des relations simples comme :

2 p(AA)=pA

p(Aa)=2pA pa

2 p(aa)=pa

où p(AA), p(Aa), et p(aa) sont les fréquences des génotypes AA, Aa et aa et pA et pa les fréquences alléliques des allèles A et a, respectivement (Hartl et Clark 1997).

Bien que les populations réelles ne remplissent jamais toutes les conditions idéales, les fréquences génotypiques observées s’accordent dans la majorité des cas avec les fréquences attendues (robustesse de la loi de Hardy-Weinberg).

La déviation par rapport à l’équilibre de Hardy-Weinberg d’une population peut être évaluée par un test du Chi-2 (Χ2) de Pearson ou un test exact de Fisher qui comparent la distribution observée des génotypes avec leur distribution attendue sous l’hypothèse d’équilibre (Hartl et Clark 2007). Ce premier test a été traditionnellement employé dans les études qui nous concernent.

Malheureusement, le manque d’information génotypique relative aux données que nous avons collectées à partir de la littérature nous a empêché de refaire ce test sur ces données. En effet, les données génotypiques ne sont généralement pas disponibles dans

38 Les conditions idéales sont remplies lorsque : 1. La reproduction de l’organisme est sexuée ; 2. Le choix de conjoint lors de la reproduction est aléatoire (panmixie) ; 3. Les générations ne se superposent pas ; 4. Les fréquences alléliques sont égales chez les mâles et chez les femelles ; 5. La taille de la population est infinie ; 6. L’effet de la migration, de la mutation et de la sélection naturelle est négligeable. 71

les publications, mais les résultats du test de Hardy-Weinberg sont normalement indiqués. Nous avons donc indiqué les résultats de ces tests dans notre banque de données.

3.1.2.2. Test de neutralité sélective avec correction de Bonferroni

Nous avons mentionné, dans le chapitre 1.4.2.5, que certains gènes HLA de classe I et de classe II évoluaient très certainement sous l’influence d’une sélection naturelle balancée, conduisant au maintien d’un degré de polymorphisme particulièrement élevé par rapport aux autres régions de notre génome. Malgré cela, les traces laissées par l’histoire du peuplement humain n’ont pas été effacées et peuvent être révélées, comme nous le verrons, par l’analyse de la répartition des lignages et allèles HLA. De plus, l’effet de la sélection naturelle sur un gène HLA n’est pas forcément uniforme car il dépend, entre autres, des environnements propres aux différentes régions géographiques occupées par les populations. Il est donc important d’évaluer l’effet possible de la sélection naturelle dans chaque population et à chaque locus afin de mieux interpréter les données en relation avec l’histoire du peuplement.

Nous avons donc appliqué le test d’homozygotie d’Ewens-Watterson développé par Watterson (Watterson 1978) sur la base de la théorie d’échantillonnage des allèles infinis d’Ewens (Ewens 1972). Cette théorie permet d’estimer la distribution attendue des fréquences de k allèles dans une population de taille n et d’en donner une valeur d’homozygotie (homozygotie attendue). Le test utilise donc comme statistique l’homozygotie observée Fobs :

k 2 F obs=∑ pi i=1

où pi est la fréquence de l’allèle i. Fobs est comparée à la distribution de l’homozygotie

attendue sous l’hypothèse H0 de neutralité sélective (distribution nulle) Fatt :

- H0 : Fobs=Fatt, l’hypothèse de neutralité est acceptée.

- H1 : FobsFatt, excès d’homozygotes.

Pour effectuer ce test ainsi que d’autres analyses présentées plus loin, nous avons choisi le logiciel ARLEQUIN, version 3.1 (Excoffier et al. 2005), un programme qui donne 72

aux utilisateurs la possibilité d’appliquer un large éventail d’analyses en génétique des populations. Dans le cas du test d’Ewens-Watterson, ARLEQUIN génère la distribution nulle de F en simulant des échantillons neutres aléatoires possédant le même nombre total de gènes et le même nombre d’allèles ou haplotypes que l’échantillon observé à l’aide de l’algorithme de Stewart (1977). Nous avons fixé le nombre d’échantillons simulés à 10'000 pour ce test ainsi que pour les autres analyses exécutées par ARLEQUIN.

Nous avons effectué le test pour chaque population, à chaque locus. Pour savoir si le locus pouvait être considéré comme neutre, le seuil de significativité p à 0,05 nécessitait des corrections pour tests multiples, étant donné le grand nombre de populations échantillonnées. En effet, quand on applique de multiples fois un test indépendant à une série de données, les populations dans notre cas, la probabilité d’obtention de faux- positifs augmente avec le nombre de populations à tester. Nous avons donc appliqué la correction de Bonferroni (Cupples et al. 1984) au seuil de significativité de p afin d’éviter de tirer de fausses conclusions sur le locus en question.

3.1.2.3. Indice de diversité génétique

L’hétérozygotie est un indice qui mesure la diversité génétique des individus d’une population (Nei 1987). Si la population est en équilibre de Hardy-Weinberg pour un locus à k allèles, l’hétérozygotie de cette population est estimée par :

k 2 H =1−∑ pi i =1

où pi est la fréquence de l’allèle i.

Nous avons calculé la valeur de H pour chaque population à chaque locus, en utilisant le programme ARLEQUIN. Il est en effet intéressant de comparer les valeurs de H entre populations, ou les valeurs moyennes de H entre groupes de populations définis sur la base de critères géographiques ou linguistiques. D’un point de vue géographique, nous avons exploré la relation possible entre la diversité génétique d’une population et sa position représentée par la latitude et la longitude. Nous avons également cherché à 73

comparer les moyennes de H entre groupes de populations définis selon des critères linguistiques.

3.1.3. Analyses inter-populationnelles

3.1.3.1. Distances génétiques

Nous avons choisi la distance de Reynolds (Reynolds et al. 1983) pour mesurer la différenciation génétique entre populations. Cette distance est basée sur un indice FST, ce dernier étant dérivé de la statistique F de Wright (Wright 1951) considérée comme la corrélation entre deux gènes pris dans une subdivision donnée d’une population par rapport à deux gènes pris au hasard dans la population totale39. Reynolds et ses collègues

(1983) ont démontré que le FST entre deux populations ayant divergé depuis un temps relativement court pouvait être utilisé pour estimer la distance génétique D entre elles selon :

t D=−ln (1−F ST )≈ 2N

où t est le temps de divergence (en générations) et N la taille de la population ancestrale. Dans ce cas, les mutations sont négligeables, et la dérive génétique est la force principale conduisant à la divergence des populations. Cette distance est donc aussi appelée « coefficient de coancestralité », approprié à notre thématique. Grâce au programme ARLEQUIN, nous avons calculé les distances de Reynolds entre chaque paire de populations afin de constituer des matrices de distances. Le programme nous a

également permis de tester si la valeur de FST estimée pour chaque paire de populations était significativement différente de 0, par une procédure de permutations (dont le nombre a toujours été fixé à 10'000).

39 Il s’agit ici de l’une des définitions du FST. 74

3.1.3.2. Projections graphiques des populations

Dans le but de représenter graphiquement les matrices de distances génétiques que nous avons obtenues, deux techniques, l’analyse en coordonnées principales (PCoord40) et l’analyse d’échelonnement multidimensionnel (MDS) ont été appliquées par l’utilisation des programmes GenAlEx (version 6.1 (Peakall et Smouse 2006)) et NTSYS (version 2.1 (Rohlf 2000)), respectivement41.

- Analyse en coordonnées principales : L’analyse PCoordA (Gower 1966) est une technique multivariée permettant de trouver le profil principal d’un jeu de données complexes. Comme pour l’analyse en composantes principales, le principe de la méthode consiste à chercher une série d’ pour illustrer les variations des données, de manière à ce que le premier (dit « coordonnée ») représente le maximum de variation, et que chaque axe suivant, indépendant du précédent, représente la variation maximale restante. Dans la majorité des cas, seules les deux ou trois premières coordonnées sont prises en compte. GenAlEx utilise un algorithme proposé par Orloci (1978) avec quatre options disponibles ; nous utilisons celle qui prend directement la matrice de distances sans standardisation. Avec cette procédure, nous avons effectué les PCoordA pour tous les locus à chaque niveau de résolution. - Analyse d’échelonnement multidimensionnel : Alternativement, une analyse MDS permet d’obtenir une configuration de points, dans un espace à 2 ou 3 dimensions, qui illustre le plus fidèlement possible les relations entre populations d’après la matrice de distances génétiques, par une procédure itérative qui minimise une valeur de stress (Kruskal 1964; Kruskal et Wish 1978). La qualité de la représentation est donc indiquée par les seuils du stress : 0,00 : Parfait ; 0,05 : Excellent ; 0,10 : Bon ; 0,20 : Faible ; 0,40 : Mauvais.

40 De l’anglais Principle Coordinate Analysis, à ne pas confondre avec l’analyse en composantes principales (PCA, Principle Component Analysis). 41 Rohlf (1972) recommande en effet d’utiliser les deux méthodes (dans la mesure du possible) pour valider des résultats. 75

1 ⎡ * ˆ 2 ⎤ 2 ()− dd ijij Stress = ⎢∑ ⎥ *2 ⎢ d ij ⎥ ⎣ ∑ ⎦

* où dij représente la distance euclidienne entre le point i et le point j sur la graphique, et la distance de disparité calculée par une régression sur la distance génétique entre les deux populations représentées par les points i et j, respectivement.

3.1.3.3. Analyse de variance

L’analyse de variance (ANOVA 42 ) est une méthode statistique permettant de partitionner hiérarchiquement la variabilité génétique totale entre populations et groupes de populations, et d’estimer le statistique F de Wright (Wright 1951) et/ou ses analogues

(comme FST dont nous avons parlé dans la section 3.1.3.1) à partir des variances de fréquences alléliques ou d’autres variables. Dans le contexte de la génétique des populations, une méthode ANOVA proposée par Cockerham (1969, 1973) permet d’estimer trois indices de corrélations, appelés « indices de fixation » :

- FCT mesure la corrélation entre deux gènes tirés au hasard dans un même groupe de populations par rapport à deux gènes tirés au hasard dans n’importe quel groupe de populations ;

- FST mesure la corrélation entre deux gènes tirés au hasard dans une même population par rapport à deux gènes tirés au hasard dans n’importe quelle population ;

- FSC mesure la corrélation entre deux gènes tirés au hasard dans une même population par rapport à deux gènes tirés au hasard dans n’importe quelle population du même groupe.

42 De l’anglais ANalysis Of VAriance. 76

C’est sur la base d’une extension de cette méthode de Cockerham que le programme ARLEQUIN applique le test, sous le nom d’AMOVA43 (Excoffier et al. 1992), qui donne non seulement la possibilité d’analyser les données de fréquences, mais aussi d’incorporer les données moléculaires (distances moléculaires entre allèles ou haplotypes). Des permutations sont également appliquées pour tester la significativité des indices de fixation.

3.1.3.4. Distances géographiques

La distance géographique entre chaque paire de populations a été calculée par GenAlEx, à partir des coordonnées géographiques (latitude, longitude). Le logiciel peut rendre les valeurs de transverse universelle de Mercator (UTM44) et les convertir en km (Peakall et Smouse 2010).

3.1.3.5. Corrélations entre variables

Dans notre recherche, nous nous intéressons aux corrélations entre certaines séries de mesures relatives aux populations étudiées, comme par exemple entre les fréquences géniques et la latitude. Un test de corrélation était donc nécessaire. Si on a n valeurs de

deux séries X et Y écrites comme xi et yi où i est égal à 1, 2, ..., n, le coefficient de corrélation de Pearson R entre X et Y peut être estimé par :

n ∑ ( xi−̄x)(yi −̄y) R = i=1 xy n n 2 2 ∑ (xi −̄x) ∑ ( yi−̄y) √ i=1 i =1

où et sont les moyennes de X et Y, respectivement. La significativité de R a été testée en utilisant le logiciel statistique SPSS, avec un seuil de significativité fixé à 0,05, si nécessaire (lorsque plusieurs tests sont effectués) ajusté par la méthode de Bonferroni.

43 De l’anglais ANalysis of MOlecular VAriance. 44 De l’anglais Universal Transverse Mercator Grid. 77

3.1.3.6. Corrélation entre matrices de distances

Nous avons réalisé le test de Mantel (Mantel 1967; Smouse et al. 1986) pour étudier les corrélations entre les matrices de distances génétiques et de distances géographiques. Ce test a été effectué grâce au programme GenAlEx qui calcule le coefficient de

corrélation RXY entre deux matrices X et Y par :

,

où SP(X,Y) est la somme des déviations des produits de X et Y, alors que SS(X) et SS(Y) sont les sommes des carrés des déviations pour X et Y, respectivement. Le coefficient est ensuite testé par une procédure de permutation aléatoire, dont l’hypothèse nulle stipule qu’il n’y a pas de corrélation significative.

3.1.3.7. Répartition géographique des lignages et allèles

Dans la Figure 3-1 (haut) présentée plus haut, nous avons donné un exemple de visualisation de la répartition géographique d’un allèle HLA à l’aide de diverses couleurs représentant différentes fréquences géniques dans les populations. Mais ce genre de représentation, pour des gènes multialléliques, et plus particulièrement les gènes HLA que nous étudions, nécessite normalement une synthèse de plusieurs cartes (une par allèle). De plus, la technique d’interpolation employée pendant la création d’une carte génère nécessairement des gradients entre points de données, réduisant donc la fiabilité de la représentation (Barbujani 2000). La mise en valeur de la carte de synthèse reste donc controversée dans ce contexte (Rendine et al. 1999; Sokal et al. 1999a, b).

Les tests de corrélations que nous avons présentés dans la section 3.1.3.5 peuvent quant à eux nous indiquer si la fréquence d’un allèle est en relation avec des données géographiques, par exemple la latitude ou la longitude, dans un sens particulier, mais sans plus. Pour étudier la répartition géographique des allèles HLA de manière plus approfondie, nous avons donc appliqué des analyses d’autocorrélation spatiale (Sokal et Oden 1978; Sokal et Wartenberg 1983), en utilisant le programme PASSaGE (Rosenberg 78

2001). Cette méthode, sans exiger d’interpolation de cartes, permet d’explorer la relation entre la structure génétique et la structure géographique à partir d’un ensemble de mesures de ressemblance génétique dans des classes de distances géographiques prédéfinies de manière arbitraire, par exemple entre 0 et 100 km, entre 101 et 500 km, entre 501 et 1'000 km, etc. Pour chaque allèle, le programme rapporte les valeurs d’un coefficient d’autocorrélation spatiale, le coefficient Moran I (Moran 1950), ainsi que leur significativité correspondante dans chaque classe de distances géographiques. Une valeur positive de Moran I dans une classe signifie que les populations séparées par cette distance ont tendance à être génétiquement plus semblables, tandis qu’une valeur négative indique qu’elles ont tendance à être génétiquement plus différentes. L’ensemble des coefficients d’autocorrélation est ensuite résumé à l’aide de « corrélogrammes » qui visualisent les résultats. Barbujani (2000) a identifié quatre profils typiques de corrélogrammes pour faciliter l’interprétation des résultats (Figure 3-2).

Figure 3-2 Les quatre profils typiques d’autocorrélation spatiale d’après Barbujani (2000).

3.1.3.8. Frontière génétique

Nous avons déjà discuté, dans le chapitre 1.3.3.2, des études s’intéressant aux possibles frontières génétiques existant en Asie orientale. Dans le but de savoir si des frontières génétiques déjà détectées pour d’autres locus sont aussi révélées par les données HLA, nous avons appliqué la méthode SAMOVA à l’aide d’un programme portant le même nom (Dupanloup et al. 2002), Cette méthode vise à distribuer les populations dans des groupes géographiquement adjacents entre lesquels la 79

différenciation génétique est maximale. La méthode est basée sur une procédure itérative créant au préalable une partition arbitraire des populations en un certain nombre de groupes et modifiant successivement cette partition jusqu’à ce que la plus grande valeur

de l’indice FCT entre groupes soit trouvée.

Pour effectuer SAMOVA, le programme exige un fichier de format ARLEQUIN (.arp) avec les données génétiques des populations ainsi qu’un fichier texte (.txt) contenant les coordonnées géographiques de ces mêmes populations. Le nombre de groupes de populations final doit être défini a priori par l’utilisateur. Au terme d’une exécution, le programme ajoute la structure des populations dans le fichier ARLEQUIN et illustre une ou plusieurs frontière(s) génétique(s) divisant les populations en différents groupes sur la base de polygones de Voronoi (1908). Il faut préciser toutefois que la méthode aboutit toujours à une partition des populations selon le nombre de groupes désiré par l’utilisateur, même lorsqu’aucune structure génétique significative ne caractérise les

données analysées. Il est donc important de comparer ensuite les indices de fixation FCT et FSC calculées par ANOVA pour cette « meilleure » structure détectée. Une structure

significative en groupes de populations peut être reconnue quand FCT et FSC sont tous

deux significatifs et que FCT est supérieur à FSC. Il est également nécessaire de relancer plusieurs fois le programme pour confirmer la robustesse de la structure trouvée (Dupanloup et al. 2002).

3.2. Résultats

3.2.1. Distributions de lignages et d’allèles HLA

Les fréquences des lignages et allèles HLA des populations est-asiatiques sont clairement visualisées par les diagrammes en aires présentés dans les Figures 3-3(a-i), dans lesquels se remarquent plusieurs caractéristiques de la répartition des lignages et allèles HLA en Asie orientale.

80

(a) HLA-A données génériques

(b) HLA-A données alléliques

81

(c) HLA-B données génériques

(d) HLA-B données alléliques

82

(e) HLA-C données génériques

(f) HLA-C données alléliques

83

(g) HLA-DRB1 données génériques

(h) HLA-DRB1 données alléliques

84

(i) HLA-DPB1 données alléliques

Figure 3-3 Diagrammes en aires illustrant les fréquences génériques et alléliques pour chacun des cinq locus HLA (1. Les allèles rares ne sont pas étiquetés ; 2. Les familles et groupes linguistiques sont indiqués en bas par des lignes de différentes couleurs : vert foncé = altaïque, vert clair = coréen et japonique, marron = tibéto-birman, jaune = mandarin (sinitique), moutarde = langues sud-chinoises (sinitique), rose clair = hmong-mien, rouge = tai-kadai, rose foncé = austro-asiatique).

3.2.1.1. Lignages et allèles sans distribution géographique spécifique

Le haut degré de polymorphisme du système HLA est évident du premier coup d’œil. De nombreux lignages et allèles ont été observés dans la majorité des populations quelles que soient leur position géographique ou leur affiliation ethnolinguistique (Figure 3-3). Quant aux fréquences géniques, pour tous les locus sauf HLA-DPB1, les valeurs sont plutôt modérées, dépassant rarement 40%, sans qu’aucun lignage ou allèle n’apparaisse vraiment dominant. Plusieurs allèles fréquents en Asie orientale sont également fréquemment observés dans d’autres continents, comme les allèles A*02:01, B*51:01, C*15:02, DRB1*04:03 etc., qui sont présents pratiquement partout dans le monde. Seulement quelques populations, comme les Wa, font exception, populations généralement connues pour être de petite taille et assez isolées, et où le nombre de 85

lignages et d’allèles est très limité, atteignant, pour certains, une fréquence très élevée (50% voire plus).

Parmi les cinq locus, HLA-DPB1 montre quelques particularités qui suggèrent un mode d’évolution différent, comme proposé par des chercheurs (voir chapitre 1.4.2.5). Pour ce locus, nous avons observé une fréquence importante de l’allèle DPB1*05:01, surtout dans les populations SEA, où elle dépasse souvent 50%.

A l’opposé des lignages et allèles systématiquement observés en Asie orientale, certains lignages, mais surtout allèles, sont extrêmement rares et ont été détectés de manière sporadique dans une ou quelques population(s) seulement. Au locus HLA-B, les allèles rares sont très nombreux, ce qui n’est pas étonnant sachant qu’il s’agit du locus le plus polymorphe du système HLA (Marsh et al. 2000).

3.2.1.2. Lignages et allèles montrant une relation avec la géographie

Contrairement à ces premières observations de lignages et allèles sans distribution géographique spécifique, nous avons remarqué une répartition particulière de certains allèles dont les fréquences diffèrent clairement entre les populations NEA et SEA. Ces allèles ont bien attiré notre attention, ayant connaissance de la différenciation nord-sud souvent mentionnée pour l’Asie orientale. Nous en sommes arrivés à définir deux groupes d’allèles, dénommés ci-après « groupe-1» et « groupe-2 », dont les répartitions géographiques sont très intéressantes :

- les allèles de groupe-1 ont été observés dans la majorité des populations NEA mais n’ont pas ou rarement été observés dans les populations SEA ; - les allèles de groupe-2 ont été observés dans la majorité des populations SEA, mais n’ont pas ou moins fréquemment été observés dans les populations NEA.

Des exceptions existent, mais principalement dans des populations connues pour avoir eu une histoire de migration récente ou du flux génique inter-ethnique, notamment les populations sino-tibétaines, thaï et kinh dans lesquelles les fréquences des allèles de groupe-1 sont plus élevées que dans les populations SEA voisines. 86

De plus, les fréquences des allèles de groupe-2 dans les populations SEA sont généralement plus élevées par rapport à celles de groupe-1 dans les populations NEA. La répartition de certains allèles de groupe-2 s’étend aussi davantage au Nord, comparée à la répartition de ceux de groupe-1 au Sud.

En examinant la répartition des allèles des deux groupes au niveau mondial, nous avons remarqué que la majorité des allèles de groupe-1 étaient aussi largement distribués dans d’autres continents, surtout en Afrique et en Europe, et dans certains cas en Amérique. Au contraire, les allèles de groupe-2 n’ont été observés pratiquement que dans les populations asiatiques, sauf, dans certains cas, dans les populations aborigènes d’Australie et de quelques îles d’Océanie. La Table 3-1 donne la liste de ces allèles et la Figure 3-4 deux exemples de répartition (voir Annexe 2 pour un descriptif complet de la distribution de ces allèles).

Figure 3-4 Exemples de répartition mondiale des allèles de groupe-1 (à gauche, A*01:01) et de groupe-2 (à droite, A*02:03).

Nous avons remarqué par la suite que la répartition de certains allèles de groupe-1 représentait en réalité celle de son lignage moléculaire. En vérifiant nos données génériques, nous nous sommes rendu compte que la définition du groupe-1 pouvait être élargie au niveau du lignage. Nous avons ainsi identifié quelques lignages aux locus HLA-A, -B, -C et -DRB1 pour lesquels les allèles, de groupe-1, ne sont pas, ou sont rarement, détectés dans les populations SEA (bien que certains d’entre eux n’aient pas été identifiés en raison de leur répartition trop sporadique pour la reconnaissance de différences géographiques). En revanche, quelques lignages de groupe-2 semblent avoir 87 une répartition comparable à celle des allèles de groupe-2, mais moins facile à confirmer (Table 3-1).

Table 3-1 Liste non-exhaustive des allèles et lignages de groupe-1 et de groupe-2. Locus HLA A B C DPB1 DRB1 *07:02 *13:02 *04:01 *01:01 *15:11 *07:01 *03:01 *05:01 Allèles de *15:18 *09:01 *08:01 *23:01 *06:02 groupe-1 *35:01 *17:01 *08:02 *30:01 *14:03 *37:01 *13:01 *32:01 *44:02 *14:03 *50:01 *01 *37 *02 Lignages de *03 *01 *50 *05 - groupe-1 *30 *13 *57 *16 *32 *02:03 *13:01 *12:02 Allèles de *02:07 *15:02 *05:01 *13:12 *04:03 groupe-2 *11:01 *38:02 *13:01 *14:04 *11:02 *46:01 *15:02 Lignages de *11 *46 *01 - *14 groupe-2

Finalement, nous avons remarqué que certains allèles étaient seulement détectés dans des populations d’une région particulière d’Asie orientale, par exemple A*26:03, B*59:01, et DRB1*14:06 dans les populations coréennes, japonaises et/ou quelques populations altaïques, et B*56:01, DPB1*28:01, et DRB1*15:04 dans les populations tibéto-birmanes de Yunnan (Figure 3-3).

3.2.1.3. Corrélations fréquences géniques – latitude/longitude

Les lignages et allèles des deux groupes listés dans la Table 3-1 ont été identifiés par comparaison directe entre les populations NEA et SEA. Vu que leurs fréquences géniques paraissent fluctuer en relation avec la latitude, nous avons testé, pour chaque lignage et allèle HLA dont la répartition n’était pas sporadique45, la corrélation entre les fréquences géniques dans les populations est les latitudes des localisations géographiques de ces mêmes populations. La corrélation entre la fréquence et la longitude a également été étudiée. Les tests de corrélation ont été effectués avec un seuil de significativité corrigé par la méthode de Bonferroni, pour tenir compte des nombreux allèles testés.

45 C'est-à-dire ceux qui sont présents chez au moins un tiers des populations échantillonnées. 88

Les résultats ont montré un gradient dépendant de la latitude pour plusieurs lignages et allèles HLA, avec des valeurs de R élevées et significatives, même après correction de Bonferroni (Figure 3-5). Des valeurs de R étaient aussi relativement élevées entre la fréquence et la longitude pour certains lignages et allèles, mais n’étaient plus significatives après correction.

Figure 3-5 Valeur et significativité du coefficient de corrélation entre la fréquence génique et la latitude pour chaque lignage et allèle HLA non-rare (observé dans plus qu’un tiers des populations échantillonnées). Chaque locus est représenté par une couleur distincte, et les lignages et allèles par des ronds ou des croix. Les ronds indiquent une corrélation significative entre la fréquence du lignage ou de l’allèle et la latitude, les croix une corrélation non significative.

A notre surprise, de tels « clines » significatifs, avec R positif ou négatif, ont été observés pour de nombreux lignages et allèles, et la répartition géographique de certains d’entre eux n’est pas non plus limitée à l’Asie orientale. Certains lignages et allèles coïncident bien avec ceux des groupes-1 et -2 préalablement définis (Table 3-1). En revanche, certains allèles des deux groupes n’ont pas montré de corrélation significative avec la latitude, en dépit de quelques valeurs de R assez élevées. Dans ces cas-là, plus de données seront nécessaires pour une meilleure appréciation de leur répartition. 89

3.2.2. Tests d’Ewens-Watterson

D’après les résultats du test d’Ewens-Watterson, nous n’avons observé aucun rejet de neutralité sélective au locus HLA-DPB1. Seul un petit nombre de populations a montré une déviation significative de neutralité aux locus HLA-A et -B, mais l’hypothèse de neutralité pour ces locus n’a pas pu être rejetée après correction de Bonferroni.

En revanche, quelques rejets de l’hypothèse de neutralité ont été observés aux autres deux locus, même après correction. Il s’agit d’un excès d’hétérozygotes chez les Coréens au locus HLA-DRB1, chez les Coréens, les Han d’Anhui et les Thaïs au locus HLA-C, ainsi qu’un excès d’homozygotes chez les Japonais, également au locus HLA-C.

3.2.3. Indices d’hétérozygotie

Les valeurs de l’indice d’hétérozygotie varient entre locus, même au sein d’une même population. Le haut degré de polymorphisme du locus HLA-B, déjà bien révélé par la répartition de ses lignages et allèles, a été confirmé par les résultats, avec une moyenne de H à 0,9. Pour les autres locus, les moyennes de H se situent entre 0,7 et 0,8.

En comparant les valeurs de H entre populations de différentes localisations, nous avons de nouveau remarqué un lien entre H et la géographie (Figure 3-6). A l’œil nu, on constate que les plus grandes valeurs de H sont plus souvent observées dans les populations NEA par rapport aux populations SEA. Entre les populations de l’ouest et de l’est, il n’y a pas de différence apparente.

En nous rappelant de la répartition des lignages et allèles HLA des deux groupes que nous avons définis ainsi que la différenciation nord-sud remarquée dans des études précédentes, nous avons créé des diagrammes « x-y plots » pour H-latitude et H- longitude, respectivement (Figure 3-6, H versus latitude et longitude, respectivement), dans le but de mieux visualiser cette observation. Sur le graphique H-latitude, il est évident que les populations NEA présentent généralement une plus grande diversité génétique par rapport aux populations SEA. En revanche, le graphique H-longitude ne montre aucune particularité de différenciation entre l’ouest et l’est (résultats non montrés). C’est aussi le cas pour les autres locus. 90 -

H

-latitude (en haut à droite) et et droite) à haut (en -latitude

H

) au locus HLA-A (données génériques des lignages) en en des lignages) génériques (données HLA-A locus ) au

H

longitude (en bas à droite). droite). à bas (en longitude fonctionlongitude de la de la latitude et (à gauche) que ainsi diagrammes illustrant les les relations Présentation graphique des valeurs de l’indice d’hétérozygotie ( d’hétérozygotie de l’indice valeurs des graphique Présentation 3-6 Figure

Cette observation a ensuite été confirmée par un test de corrélation. Tandis que les coefficients de corrélation RH-longitude sont bas et non-significatifs pour la plupart des locus

(résultats non montrés), les valeurs de RH-latitude sont hautement significatives (p<0,001) 91

pour tous les locus au niveau générique, ainsi que pour les locus B, C, et DRB1 au niveau allélique, et sont aussi significatives (p<0,05) pour les locus A et DPB1 au niveau allélique (Figure 3-7). Les résultats indiquent clairement que, d’après les données HLA, la diversité génétique intra-populationnelle diminue du Nord au Sud en Asie orientale.

Figure 3-7 Diagrammes H-latitude avec la ligne de tendance de régression linéaire et le coefficient de corrélation correspondant (R ; *: 0,01

Nous avons également remarqué que certaines populations SEA, plus hétérozygotes, étaient soit des populations ayant immigré du Nord dans les périodes historiques (c’est le 92

cas des certaines populations tibéto-birmanes étudiées pour HLA-DPB1), soit des populations ayant reçu un flux génique intensif des Chinois Han (c’est le cas des populations thaïs et kinh étudiées pour HLA-A). Quand les populations susmentionnées sont exclues de l’analyse, les valeurs de R pour les locus concernés sont encore plus élevées (résultat non montré).

3.2.4. La génétique versus la géographie

Les matrices de distances de Reynolds entre populations nous ont donné une première impression générale sur la diversité génétique inter-populationnelle dans différentes

régions. Des valeurs de FST non-significatives observées entre de nombreuses populations chinoises, surtout celles du Nord, suggèrent un manque de différenciation génétique dans ces régions.

3.2.4.1. Correspondance entre matrices de distances

Pour tous les locus, la matrice de distances génétiques est significativement corrélée à la matrice de distances géographiques (Table 3-2), avec des valeurs de coefficients de corrélation variant entre 0,166 (HLA-C, données génériques) et 0,389 (HLA-A, données alléliques).

Table 3-2 Résultats du test de Mantel entre la matrice génétique et la matrice géographique pour chaque locus HLA.

locus HLA

A A B B C C DRB1 DRB1 DPB1 (générique) (allélique) (générique) (allélique) (générique) (allélique) (générique) (allélique) (allélique) Taille de 56 30 52 27 31 22 66 35 36 groupe R 0,335 0,389 0,266 0,208 0,166 0,196 0,265 0,230 0,368 p-value 0,0001 0,0001 0,0001 0,0021 0,029 0,026 0,0001 0,0049 0,0001

3.2.4.2. Analyses d’autocorrélation spatiale

Une analyse d’autocorrélation spatiale a été effectuée pour chaque lignage et allèle HLA. Les lignages et allèles rares ont plutôt montré des profils aléatoires. En revanche, les résultats ont indiqué que certains lignages et allèles présentaient des profils non- aléatoires (Figure 3-8) identifiés comme des « clines » génétiques dans la majorité des cas. Parmi ces allèles, plusieurs allèles de groupe-1 et de groupe-2 sont représentés. 93

(a) HLA-A

0.8

Moran's I 0.6

0.4

0.2

0

-0.2

-0.4

-0.6

-0.8 0 500 1000 1500 2000 2500 3000 3500 4000 Distance (km) *01:01 *02:01 *02:03 *03:01 *11:01 *30:01 *31:01

(b) HLA-B

0.8

Moran's I 0.6

0.4

0.2

0

-0.2

-0.4

-0.6

-0.8 0 500 1000 1500 2000 2500 3000 3500 4000 Distance (km) *13:02 *15:02 *15:11 *44:03 *54:01 *67:01

94

(c) HLA-C

0.8

Moran's I 0.6

0.4

0.2

0

-0.2

-0.4

-0.6

-0.8 0 500 1000 1500 2000 2500 3000 3500 4000

*04:03 *07:02 *12:02 *14:03 Distance (km)

(d) HLA-DRB1

0.8

Moran's I 0.6

0.4

0.2

0

-0.2

-0.4

-0.6

-0.8 0 500 1000 1500 2000 2500 3000 3500 4000 4500

*04:01 *07:01 *08:02 *12:02 *13:02 Distance (km)

95

(e) HLA-DPB1

0.8

Moran's I 0.6

0.4

0.2

0

-0.2

-0.4

-0.6

-0.8 0 500 1000 1500 2000 2500 3000 3500 4000 Distance (km) *02:01 *04:01 *05:01 *09:01 *13:01 *17:01

Figure 3-8 Représentation graphique (autocorrélogrammes de Moran I) des résultats des analyses d’autocorrélation spatiale pour les cinq locus HLA (données alléliques) (point: p<0,05 ; croix: non- significatif).

3.2.4.3. PCoordA et MDS

Les graphiques PCoordA illustrent la structure génétique révélée par les données HLA. Afin de mieux montrer la différenciation entre populations, nous les représentons, dans les Figures 3-9 et 3-10, avec différents symboles et couleurs correspondant à des informations géographiques et linguistiques.

Aux différents locus, les variances totales représentées par les deux premières coordonnées varient entre 62,9% (HLA-DRB1, données génériques) et 88,7% (HLA-A, données génériques), indiquant une bonne fiabilité des présentations graphiques à deux dimensions vis-à-vis de la matrice de distances génétiques originale. Une correspondance générale a été observée pour tous les locus entre la génétique et la géographie, indiquant que les populations géographiquement proches tendent à être plus similaires génétiquement, et se trouvent alors plus proches entre elles dans les graphiques PCoordA. 96

La différenciation nord-sud est aussi clairement observée, représentée par la première coordonnée variant entre 38,7% (HLA-DRB1, donnée génériques) et 75,3% (HLA-DPB1, données alléliques). Le long de cette coordonnée, les populations NEA se situent dans une moitié des graphiques et les populations SEA dans l’autre, mais la transition des unes aux autres est toutefois graduelle. Cette tendance est devenue plus remarquable lorsque nous avons superposé les graphiques des différents locus à la même échelle (Figure 3-10).

Des résultats similaires ont également été montrés par les graphiques MDS, avec de bonnes valeurs de stress comprises entre 0,07 (HLA-A, fréquences génériques) et 0,17 (résultats non montrés). En comparant les graphiques PCoordA et MDS, le positionnement des points est assez similaire, sauf pour les populations projetées aux extrémités des nuages de points, qui apparaissent plus éloignées dans les graphiques PCoordA que dans les graphiques MDS. Cela est probablement dû aux différences entre les algorithmes des deux méthodes de projection.

(a) 56 populations représentées par les données génériques du locus HLA-A.

97

(b) 30 populations représentées par les données alléliques du locus HLA-A.

(c) 52 populations représentées par les données génériques du locus HLA-B.

98

(d) 27 populations représentées par les données alléliques du locus HLA-B

(e) 31 populations représentées par les données génériques du locus HLA-C.

99

(f) 22 populations représentées par les données alléliques du locus HLA-C.

(g) 66 populations représentées par les données génériques du locus HLA-DRB1.

100

(h) 35 populations représentées par les données alléliques du locus HLA-DRB1.

(i) 36 populations représentées par les données alléliques du locus HLA-DPB1.

Figure 3-9 Graphiques PCoordA des populations est-asiatiques pour les locus HLA-A, -B, -C, -DRB1 et -DPB1, au niveau générique et allélique. 101

Figure 3-10 Superposition à la même échelle des PCoordA des différents locus HLA, et distinguant les populations NEA (vert) et SEA (rouge), au niveau générique (haut) et allélique (bas). 102

3.2.4.4. SAMOVA

Les graphiques PCoordA et MDS nous ont déjà révélé la différenciation nord-sud des populations est-asiatiques, telle que suggérée par d’autres auteurs, mais comme nous venons de le mentionner, les points représentant les populations NEA et SEA ne se sont pas projetés si distinctement en deux groupes. En réalité, lorsque toutes les populations sont analysées par une SAMOVA, nous n’avons pas détecté de frontière génétique significative prolongée entre deux groupes de populations comme celle que l’on pouvait prévoir entre les populations NEA et SEA. Certaines populations différant de leurs voisines par de plus grandes distances génétiques se sont souvent retrouvées isolées par une frontière les encerclant complètement. Quand cela est arrivé, nous avons augmenté le nombre de groupes et aucune frontière importante n’a été détectée avant d’atteindre notre limite prédéfinie (10 groupes).

Nombre de Locus F % F % populations HLA CT SC groupe 1/groupe 2

A 1,434 0,242 12/13

B 0,737 0,168 11/12

DRB1 0,444 0,192 15/14

Figure 3-11 Frontière génétique détectée entre les populations chinoises Han pour les locus HLA-A, -B et -DRB1.

Nous avons noté que cette situation concernait souvent des petites populations non- Han, dont la particularité génétique serait liée à une petite taille de population ou à un isolement géographique. Nous avons donc préparé des fichiers seulement avec les 103

données génériques des populations Han, pour les locus HLA-A, -B et -DRB1, puisqu’un nombre suffisant de populations Han n’était disponible que pour ces trois locus (données génériques). Cette fois-ci, nous avons obtenu une frontière génétique stable entre un

groupe NEA et un groupe SEA, avec un FCT beaucoup plus élevé que le FSC. Les valeurs

de ces deux indices sont toutefois faibles comparées à celles du FST (Figure 3-11). La localisation des frontières illustrées par la SAMOVA coïncide avec la région située entre le fleuve Yangzi et la montagne Qin-fleuve Huai. Le groupe NEA comprend les populations parlant le mandarin (MAN), tandis que le groupe SEA inclut les populations MAN du Sud-ouest de la Chine ainsi que les populations parlant les langues sud- chinoises (LSC).

3.2.5. La génétique versus la linguistique

3.2.5.1. Profil général

D’un point de vue linguistique, les populations altaïques (ALT), coréennes et japonaises se trouvent à une extrémité des graphiques PCoordA (Figure 3-9), avec quelques populations tibéto-birmanes (TB), telles que les Tibétains, Luoba, Monba, Lachung et/ou Tujia, selon le locus, tandis que les populations hmong-mien (HM), tai- kadai (TK), austro-asiatiques (AA) et certaines populations TB sont projetées à une autre extrémité. Les populations sinitiques (SIN) se regroupent au centre, la plupart des populations MAN étant plus proches des ALT, et les populations LCS des AA et HM. Parmi les populations SEA, aucune différenciation claire n’a été remarquée entre groupes linguistiques.

3.2.5.2. Différenciation génétique entre groupes linguistiques

Les résultats des ANOVAs (voir Annexe 3) ont été synthétisés graphiquement dans la Figure 3-12. Entre les groupes linguistiques du Sud (LCS, HM, TK, et AA), nous avons

observé, dans la majorité des cas, les valeurs de FCT inférieures à celles de FSC, suggérant un niveau de différenciation plus élevé entre populations au sein des groupes qu’entre groupes. Plusieurs exceptions concernent des populations LCS, qui diffèrent significativement des TK et AA au locus HLA-B, et des HM, TK et AA au locus HLA- DRB1, tous au niveau générique. 104

Quant au Nord, les groupes ALT et MAN sont nettement différenciés des groupes SEA comme HM, TK et AA. Quand nous avons fusionné MAN et LCS en un seul groupe SIN, les résultats sont moins cohérents entre locus.

Les résultats concernant le groupe TB sont plus variés, en raison de petites distances génétiques entre certaines populations TB comme les Lisu et Nu et les groupes SEA, ainsi qu’entre certaines autres populations TB comme les Tibétains et Monba et les groupes du Nord. Ces résultats ANOVA ont confirmé la structure génétique révélée par les graphiques PCoordA.

●: FCT significatif et FCT > FSC; ∆: FCT significatif et FCT < FSC; ×: FCT non significatif.

Figure 3-12 Synthèse graphique des résultats d’ANOVA entre groupes linguistiques.

3.2.5.3. FST et H

Les valeurs des statistiques FST et H estimées pour un groupe linguistique permettent de décrire sa diversité génétique inter- et intra- populationnelle, respectivement. Quatre profils de diversité génétique peuvent être considérés (Table 3-3) en fonction de ces deux statistiques prises en compte ensemble, reflétant différents mécanismes évolutifs et/ou démographiques (Sanchez-Mazas et al. 2005) : 105

Table 3-3 Quatre profils de diversité génétique inter- et intra- populationnelles avec les possibles interprétations correspondantes d’après Sanchez-Mazas et al. (2005).

Profil FST H Mécanismes évolutifs possibles 1. Ancienne différenciation des populations, maintien d’une différenciation génétique élevée entre populations par un flux génique réduit entre elles et maintien d’une diversité génétique élevée 1 Elevé Elevé au sein des populations dû à des grandes tailles de populations 2. Flux géniques intenses venant de populations externes très diversifiées 1. Flux géniques intenses entre populations suite à une différenciation à partir d’une population 2 Réduit Elevé très diversifiée 2. Différenciation récente des populations à partir d’une population très diversifiée Dérive génétique et/ou effet fondateur de 3 Elevé Réduit populations de petite taille et isolées 1. Flux génique intense entre populations après différenciation à partir d’une population de 4 Réduit Réduit diversité restreinte 2. Différenciation récente à partir d’une population de diversité restreinte

Dans ce travail, les valeurs de FST et H moyen des populations au sein de chaque groupe linguistique ont été calculées séparément pour chaque locus et représentées graphiquement (Figure 3-13).

Au niveau inter-populationnel, les valeurs FST révèlent que TB et AA sont les deux groupes les plus diversifiés. Des moindres valeurs sont observées chez ALT et TK. SIN, malgré la grande extension géographique des locuteurs, ne montre qu’une faible diversité entre populations.

Au niveau intra-populationnel, les plus grandes valeurs de H moyen sont observées chez ALT, supérieures à 0,80 pour tous les locus. Ces valeurs paraissent diminuer dans les groupes du Sud, reflétant la corrélation positive que nous avons observée entre H et la latitude. 106

Figure 3-13 Représentation graphique des valeurs de FST (en bas) et H moyen (en haut) au sein de chaque groupe linguistique pour chaque locus (les locus sont représentés par des symboles de différentes couleurs. Points : données génériques ; losanges : données alléliques ; rouge : HLA-A, noir : HLA-B, jaune : HLA-C, bleu : HLA-DRB1, vert : HLA-DPB1).

3.3. Discussion

3.3.1. Origine des populations est-asiatiques

3.3.1.1. Gradient de diversité génétique

Rappelons ce que nous avons discuté dans le chapitre 1.3.4.4 à propos des débats scientifiques sur l’origine des humains anatomiquement modernes en Asie orientale. Le « modèle de l’origine au Sud » suggère que les premiers Homo sapiens aient colonisé la région à partir du Sud-ouest par une route longeant le sud du plateau tibétain. Cette hypothèse semble avoir été bien documentée, soutenue par des études sur plusieurs marqueurs génétiques, tels que les microsatellites (Chu et al. 1998), le chromosome Y (Su et al. 1999, Shi et al. 2005, 2008), l’ADN mitochondrial (Yao et al. 2002a, b) et les 107

SNP autosomiques (Abdulla et al. 2009), malgré plusieurs limitations dues aux échantillonnages et interprétations des résultats, comme déjà indiqué par Karafet et al. (2001).

Dans notre étude basée sur cinq locus HLA, nous avons confirmé une différenciation génétique entre les populations NEA et SEA, déjà révélée par les marqueurs classiques (Chu et al. 1998; Xiao et al. 2000), le chromosome Y (Su et al. 1999; Karafet et al. 2001; Xue et al. 2008), l’ADN mitochondrial (Yao et al. 2002; Wen et al. 2004a, b) ainsi que les SNPs nucléaires (Abdulla et al. 2009).

A part ce profil génétique déjà connu pour l’Asie orientale, et représenté par la première coordonnée de nos graphiques PCoordA (Figures 3-9 et 3-10), nous avons également remarqué une répartition inégale de certains allèles HLA entre les populations NEA et SEA, ceux que nous avons caractérisés comme étant de groupe-1 et de groupe-2, respectivement (Table 3-1). La définition des deux groupes a ensuite été élargie au niveau générique. Ces lignages et allèles sont très remarquables comparés aux nombreux lignages et allèles HLA qui sont observés dans le monde entier avec une fréquence modérée sans aucun regroupement géographique particulier. Une telle répartition inégale suggère une origine génétique éloignée des populations NEA et SEA, parce que les allèles des deux groupes seraient distribués de manière plus aléatoire ou plus uniforme si ces populations étaient de même origine récente.

Les allèles de groupe-2, qui sont largement répandus dans les populations SEA, ont une répartition géographique très restreinte à l’échelle mondiale. Hors du Sud de l’Asie orientale, on les observe dans certains cas dans des populations NEA, avec des fréquences beaucoup plus basses, et/ou chez des aborigènes australiens et des populations du Pacifique. En réalité, la majorité des allèles qui sont largement représentés en Asie mais rarement ailleurs ont une fréquence plus élevée dans le Sud que dans le Nord, et peuvent alors être attribués au groupe-2. Par conséquent, si on ne considère que ces allèles, les populations SEA semblent avoir une plus grande « diversité » par rapport aux populations NEA, comme ce qui a été proposé par Su et al. (1999), Shi et al. (2005, 2008), Abdulla et al. (2009) et d’autres. 108

En revanche, la plupart des allèles et des lignages de groupe-1, qui sont fréquemment observés dans les populations NEA, sont également présents chez les Africains, les Européens et/ou les Amérindiens (Annexe 2). De plus, plusieurs allèles de groupe-2, tels que A*02:07, B*13:01, B*46:01, et DRB1*12:02, sont également observés dans les populations NEA, mais avec une fréquence beaucoup plus basse (Figure 3-3). Par conséquent, davantage de lignages et allèles HLA se trouvent dans les populations NEA, qui paraissent alors plus hétérozygotes que les populations SEA. Cela explique la claire diminution, du Nord au Sud, de l’indice d’hétérozygotie (H) que nous avons observée pour tous les locus HLA (Figure 3-7).

3.3.1.2. Premières migrations des humains modernes en Asie orientale

Nous avons discuté dans le chapitre 1.3.2.3 des difficultés, pour les scientifiques, de dater des migrations humaines. Les dates estimées par l’horloge moléculaire subissent d’énormes incertitudes, et la situation est similaire concernant les dates archéologiques. D’après une combinaison des dates obtenues par ces différentes disciplines, les premières migrations Homo sapiens à travers le Sud-ouest de l’Asie orientale, soit la route sud, dateraient de 60'000 ans (Su et al. 1999; Shi et al. 2005). La date des migrations par le Nord-ouest, ou route nord, si elles existèrent au Paléolithique comme le soutient le « modèle de la pince » (modèle 2R), est quant à elle plus controversée : 40'000-30'000 ans selon une datation de sites dans le sud de Sibérie (Vasil’ev 1993), et 12'000 ans selon des datations moléculaires (Zhong et al. 2011).

Dans notre étude, les données HLA ne nous ont pas permis d’estimer directement les dates de migrations en raison de la complexité des relations évolutives entre différents lignages et allèles. Mais de telles dates ont été reflétées de manière indirecte par nos découvertes sur la répartition inégale de plusieurs lignages et allèles HLA dans les populations NEA et SEA.

Rappelons que des chercheurs ont déjà proposé que la plupart des lignages HLA soient anciens, certains paraissant même antérieurs à la diaspora des premiers Homo sapiens hors d’Afrique, alors que d’autres dateraient au plus tard de la fin du Paléolithique (Erlich et al. 1996; Gyllensten et al. 1996; Bergstrom et al. 1998). A l’instar de ces résultats, la 109

répartition des lignages HLA de groupe-2 restreinte à l’Asie reflèterait leur apparition à la suite de la sortie d’Afrique des Homo sapiens et leur expansion du Sud au Nord en Asie orientale, soutenant l’existence et l’ancienneté d’une route sud.

Pourtant, l’existence d’une route sud unique ne peut pas expliquer la vaste répartition des lignages de groupe-1 dans le monde, en particulier en Afrique, de même que la possibilité de leur émergence récente en Asie est exclue par leurs âges vraisemblablement anciens. Ces lignages de groupe-1 auraient donc diffusé dans le Nord de l’Asie orientale par des migrations de populations différentes de celles qui seraient entrées en Asie orientale par la route sud, c’est-à-dire de populations qui seraient entrées par une route nord, comme ce que propose le modèle 2R (Cavalli-Sforza et al. 1994; Ding et al. 2000; Xiao et al. 2000; Karafet et al. 2001).

On a également suggéré que des allèles de certains lignages HLA soient plus récents, bien que la relation évolutive précise entre les allèles HLA reste à établir. Les allèles de groupe-2 proviendraient alors d’allèles communs dans les populations Homo sapiens migrant par la route sud et continuant leurs migrations en Asie orientale, en l’occurrence vers le Nord.

Pour plusieurs allèles de groupe-1 et de groupe-2, nous avons observé des variations sous forme de « clines » d’après les résultats des analyses d’autocorrélation spatiale (Figure 3-8) et des corrélations entre fréquences géniques et latitudes (Figure 3-5). Ces clines révèlent des directions opposées d’expansion des allèles de groupe-1 et de groupe- 2 suggérant, comme expliqué ci-dessous, différentes routes de migrations humaines.

Etant donné que davantage d’allèles de groupe-2 sont observés dans des populations est-asiatiques, dont certains, comme B*13:01, C*04:03, et DRB1*12:02, sont également présents chez les Aborigènes australiens, la première expansion géographique de ces allèles serait liée aux anciennes migrations à travers l’Asie du Sud et atteignant l’Océanie il y a 60 à 50 ka, comme le suggèrent également d’autres études génétiques et des analyses de traits physiques (Turner 1987; Ballinger et al. 1992; Chu et al. 1998; Su et al. 1999; Macaulay et al. 2005; Shi et al. 2005, 2008). 110

Le temps d’expansion des lignages et allèles de groupe-1 en Asie orientale, qui est probablement lié à la route nord, est en revanche plus difficile à établir. Cependant, la répartition actuelle de ces lignages et allèles dans les populations NEA ne peut pas être expliquée simplement par des flux géniques récents à partir de populations arrivant dans le Nord au cours des derniers 2'000 ans, comme des immigrants de la Route de la Soie, parce que plusieurs de ces allèles, tels que A*01:01, B*27:02, B*27:05, C*06:02, et DRB1*08:02, sont également observés dans des populations amérindiennes. Les données paléontologiques et/ou archéologiques indiquent que la colonisation humaine de l’Amérique a eu lieu au minimum il y a 16,5 ka (Goebel et al. 2008; Kitchen et al. 2008), voire beaucoup plus tôt (Guidon et al. 1994; 1996), favorisant ainsi l’hypothèse d’une expansion ancienne de ces lignages et allèles de groupe-1.

Dans l’ensemble, la répartition des lignages et allèles HLA en Asie orientale favorise plutôt le « modèle de la pince », selon lequel certains lignages et allèles (groupe-2) observés dans les populations SEA représenteraient une route sud de migrations Homo sapiens, tandis que certains autres (groupe-1) observés dans les populations NEA et les

Amérindiens révèleraient une route nord. Toutefois, ces migrations, ainsi que les mouvements de population vers le sud et le nord ultérieures en Asie orientale, tel que décrit ci-dessous, n’aurait pas eu lieu à la même période.

Ce qui est intéressant de souligner, en faveur de cette hypothèse, est que certaines études anthropologiques ont montré que les populations NEA et SEA étaient morphologiquement plus différentes au début du Néolithique qu’elles ne le sont aujourd’hui (Han et Pan 1984; Chen et Zhang 1998; Zhu 2004). Bien que ces résultats doivent être pris avec beaucoup de prudence en raison de la plasticité des traits morphologiques, ils suggèrent que la différenciation génétique nord-sud actuellement observée en Asie ait déjà existé pendant ces anciennes périodes. Pour expliquer à la fois la perte de certains lignages et allèles de groupe-1 dans les populations SEA ainsi que la fréquence élevée des lignages et allèles de groupe-2 non détectés ailleurs, nous suggérons que les populations migrant le long de la route sud aient été relativement isolées et de petite taille, et donc plus sensibles à l’effet « bottleneck » et à la dérive génétique, tandis que les populations migrant le long de la route nord auraient eu une histoire démographique plus stable. 111

La diminution graduelle de la diversité intra-populationnelle du Nord au Sud ainsi que la répartition particulière des lignages et allèles que nos analyses ont montrées peut alors suggérer un modèle d’échanges génétiques de manière continue entre les populations Homo sapiens venant du Nord et les populations Homo sapiens venant du Sud : un scénario que nous appelons « modèle du chevauchement »46.

Le Nord de l’Asie orientale, où les populations montrent une plus grande diversité avec la présence des lignages et allèles de groupe-1 et de certains lignages et allèles de groupe-2, aurait été la région dans laquelle auraient eu lieu les échanges génétiques les plus anciens. Des flux géniques plus récents, c’est-à-dire depuis environ 3'000 ans, à partir de populations en provenance de l’Asie centrale, par laquelle les populations NEA auraient été beaucoup plus influencées que les populations SEA, ainsi que l’expansion des Chinois Han depuis environ 2'000 ans auraient également joué un rôle important dans la structure génétique observée (Wang 1994; Ge et al. 1997; Wen et al. 2004a).

3.3.2. Frontière génétique

Lors du début des contacts entre les populations d’origines distinctes en Asie orientale, les différences génétiques entre elles auraient été plus grandes que ce que l’on observe actuellement, comme suggéré par les études des traits morphologiques mentionnées plus haut (Han et Pan 1984; Chen et Zhang 1998; Zhu 2004). De nos jours, après des milliers d’années d’échanges génétiques et d’évolution démographique, en particulier des périodes d’expansion néolithique et des migrations à grande échelle de certains groupes ethniques (par exemple, les populations Han, tibéto-birmanes, altaïques, etc.), une différenciation importante entre les populations NEA et SEA reste néanmoins remarquable.

Cependant, les résultats des PCoordA (Figure 3-9 et 3-10), des tests de Mantel (Table 3-2), des analyses d’autocorrélation spatiale (Figure 3-8) et des corrélations fréquence- latitude révèlent que la différenciation génétique nord-sud est plutôt continue, et non une transition abrupte. En effet, les différences génétiques entre populations NEA et SEA

46 Overlapping model en anglais. 112

semblent même effacées vis-à-vis de la ségrégation de petites populations isolées lors de nos recherches de frontières génétiques par SAMOVA. Bien que nous ayons finalement détecté une frontière significative entre les populations chinoises Han du Nord et Han du Sud pour les locus HLA-A, -B, et -DRB1, qui correspond virtuellement au fleuve Yangzi, les valeurs FST entre ces populations sinitiques sont faibles (Figure 3-11). L’indice FCT représentant la différenciation entre les deux sous-groupes séparés par cette frontière est également réduit, ce qui indique que la frontière n’est pas très marquée malgré la significativité statistique (Figure 3-11).

La frontière que nous avons détectée est en accord avec les frontières proposées dans certaines études précédentes, et qui correspondent à l’une des deux barrières géographiques potentielles: 1) la ligne Qin-Huai (Xue et al. 2008), et 2) le fleuve Yangzi (Du et al. 1997; Xiao et al. 2000; Xue et al. 2005). Ces deux barrières ont été des frontières politiques entre les royaumes du Nord, fondés par des groupes ethniques nomades, et des dynasties Han du Sud pendant plusieurs périodes historiques de la Chine (du 4 au 6ème siècle et 12 au 13ème siècle, par exemple), ce qui aurait conduit à limiter les échanges génétiques entre les populations NEA (souvent altaïques nomades) et SEA. Ces limites peuvent également correspondre à une récente subdivision linguistique (moins de 1'500 ans) entre le mandarin et les langues chinoises du Sud, comme proposé par certains linguistes (Sagart 2005).

Par conséquent, nous proposons ici que l’émergence de la frontière génétique entre les populations NEA et SEA ait eu lieu dans des temps anciens, mais que sa position actuelle serait relativement récente. Une frontière génétique plus ancienne, si elle a existé, aurait été située plus au Nord par rapport à celle que l’on observe aujourd’hui, étant donné que les grandes migrations humaines en Asie orientale pendant les derniers 2'000 ans furent principalement vers le Sud (Wang 1994; Ge et al. 1997).

3.3.3. L’ensemble des groupes linguistiques

Selon nos résultats, la structure génétique des populations est-asiatiques montre une correspondance générale avec la géographie (Table 3-2, Figure 3-10). Or, des différences linguistiques entre populations expliquent également, dans certains cas, la différenciation 113

génétique. Des distances génétiques plus réduites ont souvent été observées entre des populations locutrices des langues appartenant à une même famille linguistique, et elles se regroupent donc dans les graphiques PCoordA (Figure 3-9). Dans les sections suivantes, nous allons discuter en détail des populations de chaque groupe linguistique, c’est-à-dire : altaïque (ALT), sino-tibétain incluant le sinitique (SIN) et le tibéto-birman (TB), tai-kadai (TK), hmong-mien (HM) et austro-asiatique (AA).

3.3.4. Structure de chaque groupe linguistique

3.3.4.1. Altaïque

En principe, les populations ALT analysées dans notre étude résident au Nord de l’Asie orientale, celles d’Asie centrale et d’Asie occidentale n’ayant pas été incluses. En ce qui concerne la Sibérie du Nord, les données altaïques ne sont disponibles que pour le locus HLA-DRB1. Quelques analyses supplémentaires ont donc été effectuées pour ce locus avec ces données supplémentaires.

D’après les graphiques PCoordA, le groupe ALT montre clairement des différences génétiques par rapport à la majorité des autres groupes linguistiques, qui se trouvent géographiquement plus au sud. Cela a été confirmé par ANOVA (Figure 3-12), qui indique que le groupe ALT est différencié de tous les autres groupes (FCT et FSC significatifs et FCT > FSC) sauf du TB, pour tous les locus.

De plus, les lignages et allèles de groupe-1 sont couramment présents dans les populations ALT, tandis que ceux de groupe-2 ont rarement été observés, avec un très petit nombre d’exceptions, comme A*02:07, B*13:01, B*46:01, et DRB1*12:02 avec des fréquences assez basses (<5%, Figure 3-3).

En ajoutant des populations ALT du Nord de la Sibérie, les graphiques PCoordA montrent qu’elles sont génétiquement plus éloignées des populations SEA. Les lignages et allèles de groupe-1 sont fréquents, tandis que les lignages et allèles de groupe-2 ne sont généralement pas observés (non montré ici, mais voir Grahovac et al. 1998; Uinuk-Ool et al. 2002). Uinuk-ool et al. (2002) ont suggéré que les populations sibériennes soient probablement des descendantes de populations immigrant depuis l’Asie centrale. Cela 114

pourrait aussi être le cas pour les populations ALT de l’Asie orientale que nous avons étudiées, qui auraient reçu plus de flux génique depuis le Sud en provenance des populations sinitiques, par exemple, pendant leur longue histoire d’interactions (Ge et al. 1997).

Le groupe ALT a montré une grande diversité génétique intra-populationnelle, avec H en moyenne plus élevé par rapport aux autres groupes, à tous les locus sauf HLA-DPB1. En revanche, la diversité inter-populationnelle au sein de ce groupe est relativement

réduite (FST, Figure 3-13). D’après la Table 3-3, cela pourrait être interprétée par du flux génique intensif après différenciation à partir d’une population très diversifiée, reflétant une histoire démographique complexe au cours de la formation et de l’évolution de la famille altaïque, reflétée par une ancienne colonisation de populations d’origines différentes, ainsi que des fusions ethniques récentes dues aux conquêtes militaires entre populations (Pakendorf et al. 2003).

3.3.4.2. Coréen et japonique

Bien que les langues coréennes et japoniques soient souvent considérées comme des isolats linguistiques, la relation entre ces langues et la famille altaïque demeure un sujet controversé depuis des décennies. L’idée de l’apparentement entre ces langues a pendant longtemps été constatée par les linguistes, mais est de plus en plus acceptée récemment, avec davantage d’arguments (Robbeets 2005).

Selon nos résultats, les populations coréennes et japoniques sont génétiquement assez proches de certaines populations ALT, mais nous n’avons pas réussi à montrer des résultats compatibles entre différents locus HLA. La proximité génétique entre ces populations a toutefois été soulignée par les petites valeurs de distances de Reynolds observées ainsi que le partage de certains allèles rares comme A*26:03, B*59:01, et DRB1*14:06 (Figure 3-3).

3.3.4.3. Sino-tibétain

De nombreux chercheurs acceptent de localiser le lieu d’origine de la famille sino- tibétaine dans la vallée du fleuve Jaune, en relation avec la culture néolithique Yangshao 115 datant de plus de 4'000 ans, et caractérisée en même temps par l’agriculture du millet des oiseaux et du riz, une réussite économique qui aurait permis leur expansion démographique (Sagart et al. 2005; Blench et al. 2008). La structure génétique de la population supposée ancestrale au groupe sino-tibétain, au Néolithique, reste inconnue, mais quelques études d’anthropologie physique (Yan et al. 1960) ont suggéré que le peuple ancien de cette région ait été plus semblable aux populations SEA actuelles. La langue dite « proto-sino-tibétain » serait également plus proche, d’un point de vue morphologique et lexique, des familles du Sud comme HM et TK (Ma 2003). D’après des linguistes (pour une revue, voir Sagart et al. 2005; Blench et al. 2008), la diversification des populations sinitiques (SIN) et tibéto-birmanes (TB) aurait eu lieu après, suivie par des migrations dans toutes les directions, mais plus particulièrement vers le Sud-ouest pour le TB et le Sud pour le SIN.

Actuellement, les populations SIN (principalement les locuteurs de mandarin, MAN) et TB (principalement les locuteur du tibétain) du Nord sont génétiquement différenciées des populations SIN (principalement les LSC) et TB (principalement celles du Yunnan) du Sud : les premières sont plus proches des populations ALT, les dernières des populations HM, TK et AA (Wen et al. 2004b). Malgré les différences génétiques entre les populations NEA et SEA, on observe à la fois les lignages et allèles HLA de groupe-1 et ceux de groupe-2 dans les populations SIN et TB, dans le Nord comme dans le Sud (Figure 3-3 et Table 3-1).

Au sein du groupe SIN, la petite valeur FST observée indique que ce groupe est génétiquement moins diversifié par rapport aux autres groupes linguistiques, bien que les graphiques PCoordA montrent une claire différenciation nord-sud. Une frontière significative a été détectée par SAMOVA entre les populations sinitiques du Nord et du Sud (Figure 3-11), qui correspond virtuellement à la limite entre le mandarin et les langues chinoises du Sud (Wurm et al. 1987), à l’exception des populations MAN du Sud-ouest, un fait probablement dû à l’arrivée récente des locuteurs mandarin dans cette région, bien documentée dans l’histoire (Ge et al. 1997). 116

Parmi les populations TB, nous avons observé une structure génétique plus complexe, révélée par des fréquences alléliques très hétérogènes et une répartition éclatée des populations TB sur les graphiques PCoordA. Ces résultats ont été confirmés par la grande valeur de FST intra-groupe (Figure 3-11). Nous avons ensuite remarqué que le niveau élevé de diversité génétique du groupe TB était principalement dû à une différenciation en deux sous-groupes: d’une part, les Tujia et les populations du plateau tibétain (Tibet, Monba, Luoba, et Lachung) ; d’autre part, la majorité des autres populations, principalement celles de Yunnan. Le profil génétique reflète donc plus ou moins la géographie, ce qui suggère également des histoires démographiques distinctes des populations ancestrales du TB lors de leurs migrations.

Pour les populations TB du Yunnan, nous avons constaté que trois allèles, B*56:01, DPB1*28:01, et DRB1*15:04, étaient fréquemment observés dans ces populations, mais n’étaient pas détectés ou étaient rares dans la plupart des autres populations ; ces allèles pourraient ainsi représenter une signature de l'ancêtre commun de ces populations. En outre, la dérive génétique et/ou des effets fondateurs auraient également joué un rôle important dans la diversification rapide de certaines populations isolées ou de petite taille, telles que les Lisu, Nu et Luoba, qui divergent génétiquement de toutes les autres populations.

L’ensemble de ces résultats indique une forte affiliation entre les populations de la famille sino-tibétaine et celles des familles linguistiques du Sud, ainsi que des échanges génétiques importants entre les populations sino-tibétaines et celles des autres familles linguistiques au cours de l’expansion des MAN et TB. Dans le Nord, les contacts entre les populations SIN agricoles et les nomades, principalement ALT, ont duré des milliers d’années (voir chapitre 1.2.2), leur début précédant même la diversification des SIN et TB. Il a été proposé que des langues sinitiques aient été « altaïcisées », en particulier dans le cas du mandarin, en raison de cette longue histoire d’interactions SIN-ALT (Hashimoto 1986). Il a également été suggéré que des populations TB migrant vers le plateau tibétain aient été fortement influencées linguistiquement par des ALT (Gong 2002). Dans le Sud, les expansions démiques massives des SIN ont été démontrées, mais l’assimilation des populations locales, en l’occurrence TK, HM et AA, n’aurait pas été 117

négligeable (Ge et al. 1997; Wen et al. 2004a). Quant aux populations TB migrant à travers l’ouest du Sichuan et Yunnan jusqu’au Myanmar, les mélanges avec les populations locales auraient également été intensifs (Su et al. 2000; Chen et al. 2007).

3.3.4.4. Tai-kadai, hmong-mien et austroasiatique

Les données disponibles pour les familles TK, HM et AA sont plus limitées par rapport à celles des ALT, SIN et TB. Des relations génétiques étroites ont été observées entre ces trois familles, illustrées par leur regroupement sur les graphiques PCoordA (Figure 3-9) et le partage des allèles de groupe-2 (Figure 3-3). Pour la plupart des locus, aucune différence significative n’a été observée entre les populations de ces familles (Figure 3-12 et Annexe 3). Soit ces liens génétiques reflètent une origine commune de ces familles, tel que le soutient l’hypothèse de l’austrique (Schmidt 1906; Benedict 1966; Benedict 1975), soit ils révèlent des échanges mutuels, à la fois génétiques et linguistiques, au cours de leur histoire.

3.4. Conclusion

Dans ce chapitre de notre travail de thèse, nous avons étudié en détail la structure génétique des populations est-asiatiques en analysant systématiquement à l’aide d’un ensemble de méthodes descriptives et statistiques des données HLA récoltées dans la littérature scientifique. Nous nous sommes également intéressés à la différenciation génétique entre les groupes linguistiques de la région.

Nos résultats confirment un certain degré de correspondance entre les variations de fréquences géniques et la géographie ainsi qu’une différenciation génétique nord-sud des populations. En revanche, contrairement à des résultats d’études sur le chromosome Y et l’ADN mitochondrial, nous avons observé, pour la plupart des locus HLA, que les populations est-asiatiques se caractérisaient par une diminution de diversité génétique du Nord au Sud. De plus, nous avons remarqué, pour chaque locus HLA, des lignages et allèles inégalement répartis d’un point de vue géographique: certains d’entre eux, observés dans les populations NEA, sont répandus à l’échelle mondiale, tandis que d’autres, observés dans les populations SEA, sont virtuellement uniques en Asie, ce qui pourrait être l’une des raisons pour lesquelles les populations NEA paraissent plus 118

diversifiées. En effet, une tendance inverse apparaît en considérant uniquement les allèles de répartition restreinte à l’Asie.

En dépit d’une structure génétique continue observée sur l’ensemble de l’Asie orientale, une frontière génétique significative a été détectée au locus HLA-A, -B et - DRB1 entre les Chinois Han du Nord et du Sud, intermédiaires génétiquement entre les autres populations NEA et SEA, ces dernières représentant les deux extrémités de la structure génétique. Cependant, l’emplacement de cette frontière près du fleuve Yangzi reflèterait une histoire récente, tandis qu’une ancienne frontière génétique pourrait avoir existé plus au nord et aurait été déplacée vers le sud par des divisions politiques et flux géniques continus des populations NEA aux populations SEA pendant les derniers trois millénaires. Concernant les familles linguistiques représentées, nous notons des différences d’hétérogénéité génétique à l’intérieur des groupes et un patron de différenciation complexe entre les groupes.

L’ensemble de ces résultats témoigne d’une histoire de colonisations, diversifications, et migrations qui s’enracine profondément dans l’histoire du peuplement des humains anatomiquement modernes dans la région, dont les scénarios seraient plus complexes que ceux illustrés par le « modèle de l’origine au Sud ». En effet, une contribution génétique d’anciennes migrations humaines par une route nord aurait également été très importante. Nous proposons donc un nouveau « modèle de chevauchement » calqué sur le « modèle de la pince », selon lequel des expansions des populations d’origines différentes se seraient chevauchées dans le Nord de l’Asie orientale.

3.5. Publications

3.5.1. Article publié dans American Journal of Physical Anthropology

L’article qui suit est titré « Challenging Views on the Peopling History of East Asia : The Story According to HLA Markers », rédigé par Da Di et Sanchez-Mazas et publié en 2011 dans le volume 145 du journal américain « American Journal of Physical Anthropology ». 119

L’article présente une partie des résultats et des conclusions des analyses que nous avons obtenus sur les données HLA représentant environ 127'000 individus appartenant à 84 populations asiatiques distinctes, dont :

- la correspondance générale observée entre la géographie et la génétique ; - la différenciation nord-sud confirmée par les graphiques PCoordA ; - la définition et la liste des lignages et allèles de groupe-1 et groupe-2 montrant une répartition inégale dans les populations NEA et SEA ; - la diminution de la diversité intra-populationnelle du Nord au Sud ; - l’affiliation génétique complexe entre familles linguistiques.

Ces résultats sont compatibles avec l’existence de la route sud pendant la colonisation de l’Asie orientale par les humains modernes, mais ils révèlent également des contributions importantes de la route nord. Sur la base du « modèle de la pince », nous avons proposé un nouveau « modèle du chevauchement », en mettant l’accent sur l’existence de ces deux routes et d‘échanges génétiques intervenus ultérieurement, en Asie orientale, entre les populations issues de ces deux migrations.

Nos résultats montrent également l’importance des populations altaïques dans la formation de la structure génétique des

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

3.5.2. Article publié dans Communication on Contemporary Anthropology

L’article qui suit est une communication publiée en chinois que j’ai présentée lors du Congrès International de l’Evolution Linguistique et Génétique (International Meeting of Linguistic Evolution and Genetic Evolution, the 2nd meeting) qui a eu lieu à Shanghaï du 16 au 18 septembre 2011. Titré « The peopling history of continental East Asia revealed by the HLA system », rédigé par Da Di et Sanchez-Mazas et publié en 2011 dans le volume 5 du journal chinois « Communication on Contemporary Anthropology », l’article se concentre sur 76 populations différentes d’Asie orientale continentale.

Les principaux résultats s’accordent avec ceux publiés dans l’article précédent. Les résultats montrent que l’exclusion des populations non-continentales des analyses n’influence pas l’observation de la structure génétique en Asie orientale. Dans cet article, nous avons mis à jour la table des lignages et allèles de groupe-1 et de groupe-2, en ajoutant des lignages de groupe-2 que nous n’avions pas remarqués lors de la publication de l’article précédent. Ces résultats soutiennent l’ancienneté de la route sud et révèlent le phénomène d’isolement qu’auraient subi les populations issues de cette route. Ils suggèrent également que les contributions génétiques de populations plus diversifiées arrivant par la route nord aient largement augmenté la diversité génétique des populations est-asiatiques.

137

138

139

140

141

142

143

144

145

4. Simulations des scénarios de peuplement

L’analyse par des méthodes statistiques des données HLA observées dans les populations est-asiatiques nous a permis de décrire en détail la structure génétique de cette vaste région (chapitre 3). Contrairement aux marqueurs non-codants et génomiques comme les STRs et les SNPs, pour lesquels l’effet possible de la sélection naturelle n’est pas considéré (marqueurs « neutres »), plusieurs gènes du système HLA sont vraisemblablement exposés à certains degrés de pression sélective (Satta et al. 1994 ; Solberg et al. 2008). Les résultats de nos analyses suggèrent que la sélection naturelle ne soit pas le facteur décisif expliquant la structure génétique HLA des populations est- asiatiques et que cette dernière reflète plutôt des traces laissées par l’histoire du peuplement. Cependant, il n’est toujours pas clair dans quelles proportions ces différents facteurs (sélection et démographie) sont intervenus dans l’évolution des gènes HLA ni comment ils ont pu modeler les différenciations génétiques des populations. C’est une question que les généticiens se posent souvent puisque des mécanismes évolutifs distincts peuvent produire des effets similaires sur la structure génétique. Par exemple, un flux génique intensif entre populations et une sélection balancée peuvent tous deux maintenir une grande diversité génétique, tandis qu’une perte de diversité peut être la conséquence soit d’une dérive génétique rapide soit d’une sélection directionnelle ou purificatrice (Hartl et Clark 2007).

Dans les chapitres précédents, en synthétisant les statistiques tirées des données génétiques observées et les observations archéologiques, nous avons proposé, sur la base du « modèle de la pince » (modèle 2Ra) du peuplement humain en Asie orientale, un modèle alternatif appelé « modèle du chevauchement » (modèle 2Rb) qui diffère du « modèle de l’origine au Sud » (modèle 1R) soutenu par plusieurs études génétiques récentes. Pourtant, nous sommes conscient qu’une interprétation d’une telle ampleur basée sur des résultats ayant souvent de multiples explications puisse être biaisée par des idées a priori sur le modèle-même que nous cherchons à démontrer. De plus, il nous semble difficile de comparer les différents modèles de peuplement discutés d’une manière quantitative sur la base des analyses réalisées dans le chapitre 3. Néanmoins, 146

grâce aux rapides progrès en méthodologie computationnelle et à l’augmentation considérable de la puissance informatique pendant ces dernières années, les approches par simulation stochastique offrent de nouvelles possibilités d’évaluation de modèles alternatifs. Ces approches par simulation, combinées à la statistique bayésienne, ont déjà montré leur efficacité dans le domaine de la génétique des populations (e.g., Marjoram et Tavare 2006; Currat et al. 2010; Currat et Excoffier 2011). La suite de notre travail a donc été consacrée à simuler les différents scénarios de peuplement proposés afin d’identifier le modèle le plus vraisemblable d’après la structure génétique observée pour HLA et d’estimer les paramètres du modèle à l’aide de la méthode d’« estimation bayésienne approchée » (ABC47).

4.1. Théories et Méthodes

4.1.1. Principes généraux de l’approche ABC

L’approche ABC dérivée du théorème de Bayes et de la statistique bayésienne constitue la base de notre étude par simulation. Considérons un modèle M qui génère les données D (des données génétiques dans notre cas) déterminées par un paramètre θ avec une distribution a priori des valeurs de ce paramètre, que l’on peut désigner comme π(θ). Nous nous intéressons à la distribution a posteriori du paramètre qui peut être décrite d’après le théorème de Bayes selon :

| |

où fM(D|θ) est la vraisemblance des données D et c une constante normalisée. Cette équation peut être généralisée pour plusieurs paramètres du modèle. Pourtant, l’application directe du théorème de Bayes est souvent difficile parce qu’en réalité, cette fonction de vraisemblance ne peut pas être calculée lorsque les modèles sont complexes, incluant de nombreux paramètres. Dans ces cas, une possibilité est de simuler de manière stochastique les données D sous le modèle M, puis d’approximer la fonction de vraisemblance fM(D|θ) (c’est ce que propose la méthode ABC, Beaumont 2002). La

vraisemblance fM(D|θi) pour une valeur donnée du paramètre θi est égale à la fréquence

47 De l’anglais Approximate Bayesian Compuation. 147

de D observée parmi une grande quantité de données D' simulées avec la valeur fixe de θi (Leuenberger et Wegmann 2010).

Lors de la comparaison des données simulées D' avec les données observées D, il est nécessaire de synthétiser quantitativement l’ensemble de l’information des données par une série de statistiques. Ensuite la probabilité d’un modèle peut simplement être évaluée par la distance calculée entre les statistiques des données simulées et celles des données observées. Les plus petites distances sont obtenues avec les modèles et les valeurs de paramètres qui expliquent le mieux les observations.

Ainsi, une estimation ABC est généralement constituée de deux étapes: un très grand nombre de simulations est d’abord effectué sous un modèle avec des paramètres tirés de distributions définies a priori et des statistiques sont calculées pour chaque simulation. Il en résulte un fichier où à chaque simulation correspond une ligne avec la liste de valeurs de paramètres utilisés pour cette simulation et la liste des statistiques obtenues pour ces valeurs de paramètres. Une fraction des meilleures simulations (les plus vraisemblables) est ensuite gardée sur la base des statistiques les plus comparables à celles obtenues avec les données observées. Ces simulations retenues (les meilleures) sont ensuite utilisées pour estimer les distributions postérieures des paramètres et pour évaluer la vraisemblance des modèles les uns par rapport aux autres (Figure 4-1).

Figure 4-1 Schéma des principales procédures de l’estimation ABC. 148

4.1.2. Programmes

Les programmes utilisés dans le cadre de l’approche ABC ont été installés sur le système d’exploitation Linux qui permet l’utilisation des lignes de commandes et donc l’automatisation des analyses à l’aide de scripts développés par nos soins. Les commandes ont été passées depuis un ordinateur Windows aux serveurs Linux constituant de notre laboratoire via le programme WinSCP (interface graphique) et Putty (lignes de commande).

4.1.2.1. Outil de simulation : SELECTOR

Un programme de simulation nommé SELECTOR a été développé par le Dr Mathias Currat dans ces dernières années. Ce programme écrit en C++ et compilé sur Linux a déjà été utilisé avec succès dans l’étude du rôle du détroit de Gibraltar dans l’histoire du peuplement des humains modernes en Europe et en Afrique du Nord (Currat et al. 2010).

SELECTOR est un programme largement inspiré du programme SPLATCHE48 (Currat et al. 2004) qui permet de simuler des populations d’individus diploïdes, de génération en génération, dans un cadre de « stepping-stone » (Kimura et Weiss 1964). L’ensemble d’une région géographique d’intérêt est représenté par une carte numérique et ensuite divisé en nombreuses cellules de même surface. A chaque nouvelle génération, tous les individus dans une cellule sont complètement remplacés par leurs descendants, et le nombre d’individus croît jusqu’à atteindre le maximum qu’une cellule est capable de soutenir, autrement dit la densité démographique maximum. A chaque génération, certains individus ont la possibilité de migrer vers une cellule avoisinante, permettant ainsi l’expansion d’une population à partir d’une cellule de départ dans l’ensemble des cellules (voir plus de détails dans la thèse de Currat (2004)). Dans chaque cellule, SELECTOR calcule les fréquences alléliques d’un gène en considérant comme paramètres de simulation les facteurs démographiques tels que la densité de la population, son taux de croissance et le taux de migration entre cellules voisines. Une fonction supplémentaire par rapport à SPLATCHE est que SELECTOR peut également introduire l’effet de la

48 De l’anglais SPatiaL And Temporal Coalescences in Heterogeneous Environments. 149

sélection balancée sur un gène en donnant l’avantage aux individus hétérozygotes par rapport aux homozygotes lorsque les individus d’une nouvelle génération sont créés. Selon le modèle de sélection balancée avec avantage des hétérozygotes, la valeur sélective des hétérozygotes est égale à 1 alors que celle des homozygotes est égale à 1-s, s étant le coefficient de sélection.

Au terme de chaque simulation, SELECTOR échantillonne ni individus dans chaque cellule i qui représente une région géographique pour laquelle de vrais échantillons

génétiques sont disponibles. La taille ni des échantillons virtuels est identique à la taille ni des échantillons réels, permettant une comparaison formelle entre données génétiques simulées et données génétiques observées.

Sous un modèle donné, il est nécessaire de faire des centaines de milliers de simulations pour explorer l’espace des paramètres. A chaque simulation une valeur est tirée pour chaque paramètre dans sa distribution a priori et les valeurs utilisées sont écrites dans un fichier selector_results.txt, dont une ligne est composée d’une combinaison de paramètres pour une simulation. Les fréquences géniques des allèles présents dans l’échantillon sont calculées et écrites dans un fichier .arp, qui correspond au format ARLEQUIN (Excoffier et al. 2005).

4.1.2.2. Outil d’analyse statistique: ARLSUMSTAT

Les fichiers .arp créés par SELECTOR contiennent toutes les données brutes (fréquences alléliques des échantillons) nécessaires aux analyses statistiques. Vu le grand nombre de simulations, il n’est pas faisable de traiter des milliers de fichiers avec la version graphique d’ARLEQUIN, comme nous l’avons fait dans le chapitre 3. Une version modifiée nommée ARLSUMSTAT de ce logiciel est disponible depuis quelques années (Excoffier et Lischer 2010). Cette version calcule les statistiques des analyses de la même façon que la version graphique, mais rend les résultats de manière condensée dans un seul fichier de sortie (Excoffier et Lischer 2010). Comme fichier d’entrée, ARLSUMSTAT a besoin d’un fichier .arp contenant les données à analyser, un fichier de paramètres arl_run.ars précisant les analyses à effectuer, et un fichier de définition ssdefs.txt listant 150

les statistiques à émettre. Tout comme ARLEQUIN, ARLSUMSTAT permet aux utilisateurs de choisir et de calculer des statistiques au niveau d’une population, au niveau d’un groupe de populations, ou aux deux niveaux. Cette dernière possibilité est très utile lors du calcul des statistiques sur une série d’échantillons structurés hiérarchiquement. La version Linux de ARLSUMSTAT a été utilisée.

4.1.2.3. Outil d’estimation : ABCestimator

La procédure d’estimation des paramètres et de comparaison des modèles a été effectuée à l’aide des programmes d’ABCtoolbox, une collection de programmes qui permettent d’effectuer toutes les tâches nécessaires à l’approche ABC, en appliquant différents algorithmes (Wegmann et al. 2010). ABCtoolbox fournit un programme d’estimation ABCestimator pour calculer les distributions a posteriori des paramètres et pour comparer les modèles entre eux. ABCestimator attend un fichier *.input contenant tous les paramètres nécessaires au programme. L’utilisateur a la possibilité de changer les valeurs de paramètres d’ABCestimator en les modifiant dans le fichier *.input ou via une ligne de commande lors du lancement du programme.

4.1.3. Carte numérique

Nous avons d’abord visé de créer une carte numérique représentant l’Asie orientale, y compris les mers et le plateau tibétain, qui puisse être utilisée par SELECTOR. La première version de cette carte a été composée de 38×62 cellules, représentant chacune environ 100×100 km2 de surface géographique, ce qui était comparable à la taille de cellule choisie pour la précédente étude de notre laboratoire sur le détroit de Gibraltar (Currat et al. 2010). Cependant, cette résolution exigeait des temps de calcul trop longs, c’est-à-dire de quelques heures par simulation, pour pouvoir explorer l’espace des paramètres. Nous avons donc recréé une nouvelle carte composée de 19×31 cellules (Figure 4-2, 200×200 km2 par cellule) qui ne requiert que 5 à 10 minutes environ pour une simulation sur un PC standard. En outre, une étude préalable avait constaté que différentes tailles de cellule n’influençaient quasiment pas la robustesse des résultats (Currat et al. 2010). 151

Figure 4-2 Carte numérique de l’Asie orientale utilisée pour les simulations (cellules de 40'000 km2) et répartition géographique des populations échantillonnées dont les données sont utilisées dans cette étude (en vert les cellules dans lequel sont tirés des échantillons des populations NEA et en rouge les échantillons des populations SEA ; tous les populations échantillonnées sont référenciées dans l’Annexe 1 par les numéros).

A l’aide de cette carte, nous avons créé un fichier lisible par SELECTOR, contenant les informations qui représentent cette structure géographique. Nous pouvons ensuite simuler une expansion humaine à partir de l’ouest, soit depuis un ou depuis les deux côtés du plateau tibétain, où se trouvent les « cellules de départ » de migrations (flèches rouges et vertes dans la Figure 4-2). Ces zones de départ dépendent des modèles de peuplement simulés.

4.1.4. Données observées

Les données observées proviennent de la banque de données HLA que nous avons constituée pour l’Asie orientale (voir chapitre 2.1). Rappelons que parmi les cinq locus étudiés, les données génériques et alléliques sont disponibles pour les locus HLA-A, -B, - C et -DRB1, alors que seulement des données alléliques existent pour HLA-DPB1 (voir chapitre 2.1). 152

Comme nous en avons discuté dans le chapitre 1.4.2.3, un allèle des locus A, B, C ou DRB1 est nommé à partir du nom du groupe générique correspondant, ce dernier est numéroté successivement et parfois lié au type sérologique exprimé, sauf pour le locus HLA-DPB1, qui n’a été typé que par les méthodes moléculaires. Dans SELECTOR, les « allèles » présents chez les individus d’une cellule sont nommés par une série de numéros, ce qui ressemble plus aux lignages HLA. Contrairement à l’ancienneté des lignages HLA, l’apparition de nouveaux allèles est un fait très courant au cours de l’évolution du système en raison des mutations, des recombinaisons ou d’autres mécanismes moléculaires (pas d’apparition de nouvelles mutations). Or, pour ce travail, SELECTOR considère essentiellement des facteurs faisant évoluer les fréquences géniques, comme la dérive génétique ou la sélection balancée, plutôt que ces mécanismes moléculaires. Nous avons donc décidé d’utiliser seulement les données génériques (donc des lignages HLA) pour éviter l’influence de nouveaux allèles.

Il est nécessaire de clarifier que l’objectif principal de cette étude par simulation est de reproduire d’une manière générale la structure génétique de l’Asie orientale. Les paramètres sont estimés à grande échelle géographique. En effet, la méthode ne simule pas des événements concernant une ou quelques populations particulières, par exemple l’effet de goulets d’étranglement49, l’influence de la sélection directionnelle ou l’histoire de flux géniques récents. Par conséquent, les données observées dans ce genre de populations pourraient potentiellement biaiser les résultats lors de l’étape de comparaison. Nous avons donc exclu des analyses les populations connues pour leur petite taille ou par leur grand isolement, comme les Lisu, Nu, Wa, ou pour des histoires de métissage récent, comme les Ouïghours, Kinh, Thaïs, ainsi que les populations de régions marginales, comme les Coréens, Taïwanais, Ryukyuens et Japonais.

Dans notre jeu de données, il existe une série d’échantillons testés pour plusieurs locus HLA. De ce fait, il est possible de comparer les données observées pour différents locus à un même jeu de données simulées. Nous avons donc décidé d’utiliser les populations qui ont été échantillonnées pour les trois locus HLA-A, -B et -DRB1 dans une même étude.

49 Bottleneck effect en anglais. 153

Cela a réduit considérablement le nombre de simulations à effectuer et a également facilité la comparaison entre locus, en évitant l’influence de l’échantillonnage, de la méthode de typage ou des autres facteurs inconnus. Un total de 17 populations ont été retenues pour cette analyse (Figure 4-2).

4.1.5. Modèles de peuplement

Un modèle à simuler est constitué d’un ou de plusieurs événement(s) de peuplement, comme l’ouverture d’une route de migration, l’émergence ou la disparition d’une barrière conduisant à des séparations ou à des contacts entre populations. Notons que la distribution a priori des paramètres fait aussi partie d’un modèle, et il est nécessaire de la définir avant de lancer les simulations.

Il est suggéré de définir des modèles d’événements simples, avec le moins de paramètres possible, car il est très difficile d’obtenir des estimations non-biaisées pour un modèle avec de très nombreux paramètres (nombre supérieur à 15, par exemple) (Wegmann et al. 2009a). Nous avons donc commencé par des événements très simplifiés utilisant le moins possibles de paramètres, et les avons améliorés au fur et à mesure.

En dehors des paramètres communs à l’ensemble des cellules, comme le coefficient de sélection, SELECTOR permet aussi de définir des valeurs de paramètres indépendamment pour chaque cellule, ou pour des groupes de cellules, ce qui offre une grande flexibilité pour les modèles envisagés. Dans notre cas, l’intérêt est très relatif avec la différenciation nord-sud au niveau continental. Les cellules représentant le Nord et le Sud ont donc été considérées comme appartenant aux zone-1 et zone-2, respectivement, afin d’étudier la possible différenciation génétique entre ces deux régions. Les mers et les régions situées au dessus de 5'000 mètre (le plateau tibétain en principe) ont été considérées comme des régions inhabitables (zone-0). De plus, une ou deux zone(s) de séparation temporaire (barrière) entre le Nord et le Sud a(ont) été définie(s) comme zone supplémentaire dans certains cas (zone-3 et zone-4). 154

4.1.5.1. Scénarios démographiques

Nous avons commencé par les deux modèles de base représentant les scénarios de peuplement des humains modernes en Asie orientale : le « modèle de l’origine Sud » (1R) et le « modèle de la pince » (2Ra). Comme nous en avons discuté dans le chapitre 1.3.4.4, les principales contradictions entre les deux modèles sont l’existence, l’ancienneté et l’importance de la contribution génétique d’une route nord, si on accepte celles d’une route sud. D’après les analyses réalisées plus haut sur nos données HLA, nous avons développé un modèle alternatif appelé « modèle de chevauchement » (2Rb) qui met l’accent sur une longue durée d’échanges génétiques entre populations d’origines différentes au Nord ou au Sud. Nous avons également discuté de la « frontière » génétique, peu marquée, correspondant au fleuve Yangzi et avons proposé que la différenciation nord-sud soit due à des divisions politiques récentes.

4.1.5.2. Paramètres à estimer

Les détails d’un événement, dans des simulations, sont définis par des paramètres. Les valeurs de certains paramètres sont fixées sur la base d’estimations tirées de la littérature, alors que les valeurs de certains autres sont tirées aléatoirement au commencement d’une simulation dans un intervalle prédéfini (lui aussi déterminé sur la base de connaissances préalables). Ce tirage dans une distribution a priori de valeurs d’un paramètre permet de tenir compte de son incertitude et, par la suite, de l’estimer. Le choix des distributions a priori est très sensible et doit donc être fait avec précaution. Un intervalle réaliste permet de limiter efficacement le nombre de simulations à effectuer car il y a plus de chance de tirer des valeurs compatibles avec les observations. A l’inverse, une distribution très large donne de nombreuses simulations irréalistes car incompatibles avec les données observées. Nos événements considèrent les paramètres suivants :

- Temps total (T) : Le temps total représente la durée chronologique des scénarios à simuler, mesurée en nombre de générations. Le temps total de base pour une simulation a été fixé à 2'500 générations, dont la durée, si on suppose un temps de génération entre 20 et 25 ans, correspond au temps écoulé entre l’arrivée proposée des premiers humains modernes en Asie orientale, il y a 60'000 ans, et le début du 155

Néolithique, il y a 10'000 ans (voir chapitre 1.3.2.3). Pour tester des scénarios plus tardifs, des générations supplémentaires (1-500) peuvent être ajoutées. - Nombre initial de lignages (A) : Le nombre maximal de lignages HLA qui peuvent exister dans la(les) population(s) initiale(s) à des fréquences variables d’une simulation à l’autre. Dans les cellules où les expansions commencent, SELECTOR effectue un tirage aléatoire d’allèles pour chaque individu présent, afin de créer la fréquence de chaque lignage. Afin de pouvoir comparer nos simulations aux données observées pour les trois locus HLA-A, -B et -DRB1 (dont le nombre de lignages varie entre 10 et 40), nous avons choisi un intervalle entre 10 et 50 pour ce paramètre. - Densité démographique (N) : Ici la densité démographique (aussi appelée capacité de soutien K dans d’autres études) correspond au nombre maximal d’individus qui peuvent coexister dans une cellule. Sur la base des informations relatives aux populations de chasseurs-cueilleurs qui existent encore aujourd’hui, quelques estimations de densité ont été effectuées (Panter-Brick el al. 2001). Pourtant, il est impossible d’évaluer cet indice au niveau continental car ce type de populations ne se trouvent actuellement que dans des lieux très isolés. La population maximale de chasseurs-cueilleurs dans le monde, à la fin du Paléolithique, est estimée entre 5 et 10 millions (Lee et DeVore 1968; Hassan 1981; Landers 1992). La superficie habitable de l’Asie orientale pour nos 2 simulations est de 16'000'000 km , ce qui représente moins de 10% de la superficie totale du monde. Nous avons choisi N=5'000 comme densité maximale d’une cellule, ce qui permet de simuler une population totale de 2 millions d’individus (environ 400 cellules habitables), plus élevée que 20% de la population maximale estimée. Et nous avons choisi N=100 comme limite minimale, soit 40'000 individus pour l’ensemble de l’Asie orientale. - Taux de migration (m) : Le taux de migration correspond à la proportion d’individus quittant une cellule pour se rendre dans les cellules voisines à chaque génération. Etant donné notre intervalle de N, nous avons choisi des valeurs de m tirées entre 0,01 et 0,20 afin d’obtenir un produit Nm variant entre 1 et 1'000, un intervalle qui nous paraît suffisamment large pour représenter les migrations entre 156

populations humaines. Currat (2004) a observé qu’un Nm supérieur à 1'000 pouvait effacer pratiquement toute la structure génétique locale. Nous nous sommes en effet basé sur le produit de la densité et du taux de migration d’une cellule (Nm) comme un paramètre composé parce qu’il a été montré que ce dernier a plus de chance d’être estimé correctement (Currat et al. 2010), un fait que nous avons également remarqué (voir chapitre 4.2.3). - Taux de croissance démographique (g) : Le taux de croissance démographique régule l’augmentation du nombre d’individus au sein d’une cellule d’une génération à l’autre jusqu’à atteindre un équilibre démographique (croissance nulle) correspondant au paramètre N ci-dessus. Cette augmentation démographique suit une courbe logistique. Nous n’avons pas eu connaissance de valeurs de taux de croissance estimés pour les populations paléolithiques, et l’intervalle généralement utilisé par des études récentes de simulations se situe entre 1% et 20% (Currat et al. 2010; Currat et Excoffier 2011). - Coefficient de sélection (s) : La sélection balancée est un facteur essentiel au cours de l’évolution du système HLA puisqu’elle semble avoir favorisé les individus hétérozygotes dans les populations. Nous faisons ici l’hypothèse de sélection balancée avec avantage des hétérozygotes (voir Currat et al. 2010). D’après une étude de Satta et al. (1994), les indices de sélection à long terme pour les locus HLA-A, -B et -DRB1 ont été estimés à 1,5%, 4,2% et 1,9%, respectivement. Nous avons décidé de tirer le taux de sélection entre 0 et 2,5%, car nos simulations préliminaires utilisant des taux jusqu’à 10% ont montré qu’un coefficient de sélection supérieur à 2,5% ne permettait jamais de reproduire les données observées. - Temps de contact entre les populations du Nord et du Sud (t) : La durée de contact, autrement dit, la période pendant laquelle les échanges génétiques ont eu lieu entre les populations originaires du Sud et celles originaires du Nord, est un point de débat critique. Même les chercheurs soutenant le modèle « origine au Sud » acceptent des flux géniques récents (moins de 2'000 ans) depuis le Nord- ouest (voir chapitre 1.3.4.4), tandis que le « modèle de la pince » attribue ces flux géniques au Paléolithique. D’après notre « modèle de chevauchement », cette 157

durée aurait été essentielle pour créer la structure génétique actuelle en Asie orientale. Par les changements de fichiers de structure, SELECTOR permet de contrôler facilement ce paramètre en variant la durée de contact entre les zones -1 et -2 (Nord et Sud) entre 0 et 2'500 générations. Cette période de contact entre les deux zones est égale au temps total de simulation T moins la durée de l’existence

de la barrière tb entre le Nord et le Sud (t=T-tb).

4.1.5.3. Simulations qualitatives préliminaires et phase d’exploration

SELECTOR enregistre à la fois l’évolution des fréquences de chaque lignage dans chaque cellule et pour toutes les générations dans un fichier de sortie, et un fichier .arp contenant les données de fréquences uniquement pour les cellules échantillonnées. Au début de ce travail, nous sommes passé par une phase exploratoire pendant laquelle nous avons lancé seulement un petit nombre de simulations préliminaires et étudié l’ensemble des fichiers de résultats créés par SELECTOR.

Par exemple, nous avons calculé la diversité génétique au sein de chaque cellule à la fin d’une simulation, et l’avons visualisée grâce à des gradients de couleur. Nous nous sommes également intéressé à la relation entre la fréquence d’un lignage et les coordonnées géographiques, ainsi qu’aux changements de fréquences dans une cellule au cours des générations. Cela nous a permis d’effectuer des analyses qualitatives pour mieux comprendre le comportement du modèle en fonction des différents paramètres et d’élaborer des scénarios réalistes par rapports à la structure génétique observée.

Puis, pendant la phase d’évaluation quantitative des scénarios, et étant donné la grande quantité de résultats des simulations, nous n’avons utilisé dans la majorité des cas que des statistiques calculée avec ARLSUMSTAT sur les échantillons produits par SELECTOR.

4.1.5.4. Simulations quantitatives et amélioration des modèles

Pendant une première phase, nous avons testé différentes variantes de modèles dérivées d’un des deux scénarios de base (1R ou 2R). Vu le coût élevé en temps de calcul, nous avons lancé 20'000 simulations pour tester chaque nouvelle variante des modèles, et effectué des estimations ABC sur les résultats obtenus avec chaque variante. Certaines 158 variantes ont été rapidement rejetées après quelques essais, et certaines autres ont été gardées pour des analyses plus approfondies jusqu’à ce que nous trouvions une version définitive pour chaque modèle.

4.1.5.5. Choix de trois modèles représentatifs

Au long de cette étude, nous avons testé de nombreux scénarios en combinant différents modèles et paramètres. Ici nous présentons les trois scénarios les plus représentatifs pour lesquels nous avons effectué un jeu de simulations définitif, soit 100'000 simulations pour chaque scénario. Sous tous les modèles, le Nord et le Sud ont été considérés comme deux zones distinctes (-1 et -2) avec des distributions a priori indépendantes de certains paramètres démographiques (N, m).

(a) (b)

Figure 4-3 Schémas illustrant les événements du modèle 1R. Le numéro dans une cellule indique la zone correspondante ; les cellules non colonisées sont colorées en blanc et les cellules temporairement non habitables en gris ; les cellules colonisées progressivement par les populations depuis le Sud-ouest sont colorées en rouge). Zone-0 : Océan ou plateau tibétain ; zone-1 : Nord, zone-2 : Sud ; zone-3 : barrière temporaire entre le Nord et le Sud.

- Modèle 1R (« modèle de l’origine au Sud ») : Une seule expansion humaine est considérée depuis le Sud-ouest débutant entre 60'000 et 50'000 ans (génération 0) depuis une cellule initiale (Figure 4-3a). Une barrière complète aux migrations, correspondant au fleuve Yangzi, est définie comme zone-3, empêchant le passage

de migrants pendant tb générations (0

ou moins d’intensité. Si tb est petit (inférieur à 50 par exemple), alors la barrière 159

ne joue aucun rôle puisqu’elle disparaît avant que l’expansion vers le Nord

commence. Le maximum de tb a été défini à 2'000 générations pour permettre à l’ensemble de la carte d’être colonisé après les 2'500 générations simulées.

(a) (b)

Figure 4-4 Schéma illustrant le scénario 2Ra (le numéro dans une cellule indique la zone correspondante ; les cellules habitables sont colorées en blanc et les cellules temporairement non habitables en gris ; les cellules colonisées par les populations depuis le Sud-ouest sont colorées en rouge et celles colonisées par les populations depuis le Nord-ouest en vert). Zone-0 : Océan ou plateau tibétain ; zone-1 : Nord ; zone-2 : Sud ; zone-3 : barrière temporaire entre le Nord et le Sud.

- Modèle 2Ra (« modèle de la pince ») : Simulation de deux expansions indépendantes depuis le Sud-ouest et le Nord-ouest, respectivement (Figure 4-4). Ce modèle est identique au modèle 1R décrit ci-dessus, excepté l’existence d’une seconde source de colonisation au Nord (Figure 4-4a), en plus de la population initiale du Sud. Les fréquences alléliques initiales de ces deux populations- sources sont tirées à partir d’une population ancestrale commune. Tout comme pour le modèle 1R, une barrière aux migrations correspondant au fleuve Yangzi

est définie comme zone-3 et disparaît, au moins partiellement, après tb générations

(0

Ainsi, en utilisant des valeurs tb tirées dans des intervalles extrêmement larges, nous sommes arrivés à simuler tous les cas possibles, avec ou sans l’influence d’une barrière aux migrations entre le Nord et le Sud.

Le modèle 2Ra est une version très simplifiée du « modèle de la pince » selon lequel une barrière au flux de gènes est fixée à la hauteur du fleuve Yangzi. Nous avons ensuite introduit un modèle qui correspond à notre « modèle de chevauchement », avec une barrière située plus au nord que le « modèle de la pince » et l’émergence tardive de la barrière du fleuve Yangzi (ou Qin-Huai) :

(a) (b)

Figure 4-5 Schéma illustrant le scénario 2Rb (le numéro dans une cellule indique la zone correspondante ; les cellules habitables sont colorées en blanc et les cellules temporairement non habitables en gris ; les cellules colonisées par les populations depuis le Sud-ouest sont colorées en rouge et celles colonisées par les populations depuis le Nord-ouest en vert). Zone-0 : Océan ou plateau tibétain ; zone-1 : Nord, zone-2 : Sud ; zone-3 et zone-4: barrières temporaires entre le Nord et le Sud.

- Modèle 2Rb (« modèle du chevauchement ») : Simulation de deux expansions indépendantes à partir du Sud-est et du Nord-est, respectivement. Ce scénario ressemble au scénario 2Ra, mais il y a cette fois deux barrières potentielles aux migrations correspondant au fleuve Yangzi et à la Grande Muraille, qui sont définies séparément comme zone-3 et zone-4 (Figure 4-5). A la génération 0, les expansions commencent à partir de la cellule du coin sud-ouest et de celle du coin nord-ouest avec seulement la zone-4 comme barrière complète aux migrations

(Figure 4-5a). A la génération tb (0

(Figure 4-5b) ; puis au temps tc (2500

partielle pour refléter l’émergence d’une frontière récente entre le Nord et le Sud. Pour éviter de compliquer le modèle, les paramètres Nm de la zone-3 est réduit de

par un facteur 10 à la génération tc.

En résumé, les trois modèles possèdent 9 paramètres en commun : le nombre de

lignages A, le coefficient de sélection s, le temps de séparation nord-sud tb, ainsi que Nm

et g indépendants pour le Nord (Nn×mn), le Sud (Ns×ms) et la zone de barrière (Nb×mb).

Le modèle 2Rb a un paramètre tc supplémentaire, qui représente la durée d’existence de la barrière tardive à la hauteur du fleuve Yangzi.

4.1.6. Analyse des données simulées

4.1.6.1. Statistiques utilisées

Les statistiques permettent de comparer les données simulées et données observées. Cependant, le choix des statistiques est souvent une tâche difficile, car leur utilisation cause inévitablement une perte d’information des données originales. Idéalement, les statistiques choisies doivent conserver au maximum les caractéristiques importantes de la structure génétique reflétée par les données. Le dilemme est : trop peu de statistiques pourraient synthétiser insuffisamment les informations et affaiblir la puissance de l’estimation des paramètres, tandis que de trop nombreuses statistiques pourraient introduire un bruit dans les résultats et fausser l’estimation (Joyce et Marjoram 2008; Wegmann et al. 2009b). En général, il est recommandé de commencer avec un petit nombre de statistiques soigneusement sélectionnées ou d’utiliser des combinaisons linéaires (Wegmann et al. 2009a).

Nos résultats présentés au chapitre 3 ont révélé la structure génétique détaillée des populations est-asiatiques, caractérisée par une différenciation nord-sud et une barrière au flux génique possible. Il est important que les statistiques choisies reflètent bien ces caractéristiques. Alors, pour les données de populations simulées dans chaque cellule échantillonnée, nous avons mesuré les 12 statistiques suivantes afin d’effectuer la procédure d’estimation ABC : 162

- Nombre de lignages (a) : Le nombre de lignages/allèles HLA (a) observés dans une population peut être une mesure indirecte de la diversité génétique, mais ce

n’est pas toujours le cas (Buhler 2007). Nous avons calculé la moyenne (1. Ma) et

l’écart-type (2. SDa) du nombre de lignages dans tous les échantillons. - Indice de diversité génétique (H) : Cet indice d’hétérozygotie indique la diversité génétique au sein d’une population. Nous avons estimé la moyenne (3.

MH) et l’écart-type (4. SDH) de H pour tous les échantillons. La moyenne (5. MH-

Nord et 6. MH-Sud) et l’écart-type (7. SDH-Nord et 8. SDH-Sud) de H ont également été calculés pour les zones NEA et SEA indépendamment.

- Coefficient de corrélation diversité-latitude (9. RH-lat) : Ayant remarqué une corrélation significative entre l’indice d’hétérozygotie et la latitude des populations, nous avons utilisé ce coefficient de corrélation comme un indicateur approprié des changements de diversité génétique du Nord au Sud.

- Indices de fixation (10. FST ; 11. FCT ; 12. FSC) : Ces trois indices de fixation mesurent la diversité entre les groupes de populations NEA et SEA (zone-1 et

zone-2 ; FCT) ainsi qu’au sein de chaque groupe (FSC) et entre toutes les

populations indépendamment de leur groupe (FST). La comparaison entre les FCT

et FSC significatifs peut indiquer l’existence d’une structure génétique et d’une

frontière génétique entre les groupes prédéfinis (si FCT > FSC). Nous avons préalablement proposé que la différenciation nord-sud observée aujourd’hui en Asie orientale reflète une structure ancienne qui existerait depuis la fin du Paléolithique, et que l’émergence de la frontière correspondant au fleuve Yangzi serait récente (voir chapitre 3). Nous n’avons pas utilisé, dans nos simulations une

statistique permettant de quantifier l’existence d’une frontière génétique (FCT et

FSC significatifs et FCT > FSC) pour des raisons de temps de calcul. En revanche, il est possible de vérifier qualitativement l’existence d’une frontière génétique inspectant individuellement les simulations.

163

Table 4-1 Des statistiques calculées pour les trois locus à partir des données observées.

Statistiques HLA-A HLA-B HLA-DRB1

Ma 14,47 27,26 12,84

SDa 3,96 6,64 1,01

MH 0,79 0,91 0,89

SDH 0,054 0,021 0,019

MH-Nord 0,84 0,92 0,90

SDH-Nord 0,012 0,0056 0,0070

MH-Sud 0,75 0,89 0,88

SDH-Sud 0,044 0,010 0,021

RH-lat 0,78 0,84 0,65

FST 0,017 0,011 0,0075

FCT 0,015 0,0092 0,0055

FSC 0,0023 0,0016 0,0020

4.1.6.2. Comparaison entre données observées et simulées

Ayant les mêmes statistiques calculées à la fois pour les données observées (Table 4-1) et les données simulées, ABCestimator estime la distance euclidienne entre les deux jeux de données (observées et simulées) pour mesurer de manière quantitative la différence entre la réalité et le modèle (Wegmann et al. 1999a). Cette distance est également nécessaire pour les étapes suivantes, telles que l’estimation des paramètres et la validation des résultats.

4.1.6.3. Estimation des paramètres

ABCestimator utilise une approche nommée ABC-GLM pour estimer les paramètres (Leuenberger et Wegmann 2010). Cette méthode lance une procédure de rejet en retenant une petite proportion de simulations parmi toutes celles qui ont été simulées. Le programme réalise l’étape de réjection selon la distance euclidienne calculée entre les données simulées et observées et ensuite estime la densité postérieure marginale pour chaque paramètre (Wegmann et al. 2009a). Ces données retenues sont ensuite considérées comme étant produites par un modèle linéaire général (GLM 50 ) et un ajustement post-échantillonnage est réalisé. Nous avons mis le pourcentage de simulations retenues à 0,5% dans le fichier .input mais avons également considéré

50 De l’anglais General Linear Model. 164

d’autres fractions (0,25%, 1%) de simulations retenues pour s’assurer de la robustesse des estimations.

Le fichier « output » principal d’ABCestimator contient les résultats de l’estimation de la distribution a posteriori des paramètres. ABCtoolbox fournit un script R pour visualiser ces résultats. Dans la Figure 4-6 sont illustrés les résultats d’estimation d’un paramètre, dans laquelle la distribution a priori est représentée en noir, la distribution a posteriori est représentée en rouge, et la distribution marginale des paramètres d’après les simulations retenues est représentée en bleu (Wegmann et al. 2009a).

Figure 4-6 Représentation graphique des résultats de l’estimation ABC pour un paramètre.

4.1.6.4. Comparaison des modèles

La plus simple manière de comparer deux modèles M1 et M2 est de calculer le facteur

Bayes BM1-M2 en faveur du modèle M1 sur le modèle M2 :

où fM1 et fM2 sont les densités marginales qu’ABCestimator rapporte pour chaque modèle (Wegmann et al. 2009a).

Une autre façon de comparer les modèles et de fusionner les statistiques tirées des données simulées sous différents modèles et relancer une estimation ABC avec 165

ABCestimator. Ensuite, il faut simplement comparer les proportions des données simulées sous chaque modèle parmi les meilleures simulations retenues (Pritchard 1999; Currat et al. 2010).

4.1.6.5. Statistiques transformées linéairement

Les combinaisons de statistiques peuvent être considérées comme des coordonnées à différentes dimensions. Quand le nombre de statistiques augmente, il devient de plus en plus difficile d’obtenir des simulations proches des l’observation, et de nombreuses simulations avec des paramètres différents pourraient résulter en des distances similaires par rapport aux observations. De plus, il peut arriver que certaines statistiques ne portent qu’une petite somme d’information à propos des paramètres d’un modèle. Pour résoudre ce problème, en outre de choix des statistiques, il est aussi possible de réduire le nombre de statistiques en définissant une série de combinaisons linéaires orthogonales, qui expliquent mieux la variance de l’espace des paramètres (Wegmann et al. 2009b). ABCtoolbox applique une méthode proposée par Boulesteix et Strimmer (2007) en calculant les moindres carrées partielles (PLS 51 ) des statistiques originales, dont le principe sous-jacent est similaire à celui des analyses en composantes principales.

ABCtoolbox fournit un script R findPLS.r qui permet de définir les PLS. Ce script produit deux fichiers de sortie : le premier est un fichier contenant les données pour transformer les statistiques originales en PLS, alors que le deuxième contient des graphiques d’erreur de prédiction (RMSEP 52 ) qui permettent d’évaluer la qualité d’estimation d’un paramètre avec PLS relativement à l’estimation sans PLS (avec les statistiques originales). Ces graphiques aident l’utilisateur à choisir le nombre de PLS qui contient la plus grande quantité d’information. Idéalement, on doit sélectionner le plus petit nombre de PLS portant le maximum d’information sur les paramètres du modèle (Wegmann et al. 2009a).

De plus, les plots RMSEP révèlent les relations entre les paramètres et les statistiques. Si différents nombres de PLS ne changent que très légèrement l’erreur de prédiction d’un

51 De l’anglais Partial Least Squares. 52 De l’anglais Root Mean Squared Error Prediction. 166 paramètre, cela signifie que ce dernier n’a que très peu d’influence sur les statistiques générées, et qu’il y aura très peu de chance de pouvoir l’évaluer précisément (Wegmann et al. 2009a).

4.1.6.6. Validation des résultats

La difficulté majeure de l’estimation ABC est de s’assurer que les résultats obtenus sont fiables. En effet cette méthode peut conduire à une approximation de la vraie distribution postérieure même si la vraisemblance du modèle sous lequel les simulations ont été faites est faible (Wegmann et al. 2009b). Des analyses supplémentaires sont donc indispensables pour valider les résultats obtenus et évaluer la probabilité d’un modèle.

Figure 4-7 Figure illustrant la difficulté de reproduire des valeurs (cercles) qui s’accordent simultanément à deux statistiques observées (point noir) (d’après Wegmann et al. 2009b).

Nous avons d’abord effectué un graphique montrant la distribution de chaque statistique pour les simulations retenues et regardé si la statistique observée tombait dans cet intervalle. Cependant, il est aussi possible que les simulations arrivent à reproduire une statistique observée, mais qu’elles ne peuvent pas reproduire une combinaison de statistiques observées. Par exemple, dans la Figure 4-7, si on regarde indépendamment chacune des deux statistiques, on peut avoir l’impression que les données simulées sont proches de la valeur observée, mais en réalité il n’y a aucune simulation qui donne simultanément les deux statistiques proches de la réalité. Comme il est impossible d’illustrer en même temps les distributions des statistiques à plus de 3 dimensions, nous avons créé des graphiques pour chaque paire de statistiques et ajouté un point 167 représentant la statistique observée pour vérifier si les scénarios simulés étaient capables de reproduire de bonnes combinaisons de statistiques, prises deux à deux, par rapport aux données observées.

ABCestimator rapporte une p-value sous le GLM estimé, qui varie entre 0 et 1 et peut aider à juger si les données observées sont cohérentes par rapport aux données simulées. Quand il s’agit d’un bon modèle, la p-value attendue pour ce modèle sera plus près de 1.

De plus, nous avons appliqué une méthode de validation en étudiant la distribution des quantiles postérieures pour chaque paramètre du modèle, dans le but de tester si la distribution postérieure estimée pour un paramètre est biaisée par rapport à la distribution a priori. On peut définir un petit nombre de simulations (nous avons pris 100) comme si elles avaient été observées réellement (« pseudo-observations »), les écrire dans un fichier à part et relancer ABCestimator. Dans le cas de ces statistiques pseudo-observées, one connait les « vrais » paramètres qui ont permis de les générer. Le programme détecte les positions des « vrais » paramètres dans la distribution postérieure cumulative marginale. Cook et ses collègues (2006) ont prouvé mathématiquement que les positions de ces paramètres se distribuaient d’une manière uniforme dans la distribution postérieure cumulative marginale. La déviation de cette distribution par rapport une distribution uniforme peut ensuite être détectée par un test de Kolmogorov-Smirnov (Wegmann et al. 2009a).

4.1.7. Puissance de calcul et durée des simulations

Comme le travail de simulation exige une grande quantité de données simulées pour obtenir des résultats significatifs, la puissance de la plate-forme informatique nécessaire est très importante pour accélérer la procédure de simulations, qui est la plus longue partie du travail. Selon nos tests, sur un ordinateur personnel Linux, la durée d’exécution d’une simulation d’un de nos modèles varie entre 1 et 10 minutes, dépendant des paramètres. Prenons 5 minutes comme la durée moyenne d’une simulation, afin d’atteindre le nombre minimal de simulations à analyser, une dizaine de mois seraient nécessaires pour un seul modèle, une durée non réaliste pour un travail de thèse. 168

La longue durée d’une simulation est principalement due à la procédure de transmission aléatoire des allèles (lignages HLA dans notre cas) d’une génération à l’autre pour chaque individu et dans chaque cellule. Nous avons essayé un mode alternatif appelé « fréquence », qui recalcule directement les fréquences des allèles pour la nouvelle génération dans chaque cellule, à partir des fréquences de l’ancienne génération, au lieu de tirer des allèles pour chaque individu. Ce mode alternatif a permis de réduire énormément la durée d’une simulation, de plusieurs minutes à quelques secondes. Malheureusement, en comparant les statistiques simulées avec les deux modes « individu » et « fréquence », nous avons remarqué que le mode « fréquence » conduisait systématiquement à une réduction du nombre d’allèles final dans les populations, bien que la diversité génétique intra-populationnelle soit comparable avec le mode original. L’explication est que les lignages de faible fréquence sont plus facilement éliminés sous le mode « fréquence » que sous le mode original, ce qui biaise donc les résultats. Nous avons donc abandonné cette nouvelle méthode en cherchant d’autres solutions.

La solution finalement trouvée fut l’utilisation de réseaux informatiques de calcul (« computer cluster »). Des plateformes informatiques puissantes ont été développées dans de nombreux établissements scientifiques ou commerciaux qui fournissent des services publics ou privés de calcul en grande quantité. A l’Université de Genève, une plateforme de ce type, nommée EZ‐Grid a été mise à notre disposition (http://www.xtremwebch.net/EZ/) (Belgacem et al. 2010). Cette plateforme est développée et maintenue par la faculté d’informatique et la HES-SO53, en collaboration avec plusieurs autres institutions. Les tâches de calcul sont envoyées à un réseau des centaines d’ordinateurs localisés à divers endroits en Suisse et en France. Etant donné que toutes nos simulations sont indépendantes les unes des autres, les simulations ont pu être distribuées aux différentes machines disponibles sur le réseau et donc le temps de calcul total a été considérablement diminué54.

53 Haute Ecole Spécialisée de Suisse occidentale. 54 Supposons qu’une simulation sur un PC local prend environ 5 minutes, soit 300 secondes. Une tâche de 68'000 simulation que nous avons envoyée sur l’EZ-Grid le 10 déc. 2012 a pris 276'769 secondes. Le gain se calcule donc comme 300*68000/276769=73,71, soit environ 74 fois plus rapide. 169

4.1.8. Automatisation et programmation des analyses

Au total, nous avons testé une vingtaine de versions différentes de nos modèles de manière quantitative. Ce travail a demandé beaucoup de tâches à répétition et a donc exigé une automatisation à l’aide de lignes de commandes. Nous avons donc programmé une série de scripts en combinant les langages bash et R (Annexe 5). Ces scripts permettent de :

- Préparer des résultats analysables à partir des données simulées brutes et de calculer des statistiques supplémentaires qui ne sont pas obtenues directement avec SELECTOR ou ARLSUMSTAT ; - Lancer ABCestimator pour chaque locus et récupérer les résultats importants (densité marginale, p-value, etc.) ; - Exécuter un script R (fourni par ABCtoolbox) qui cherche les PLS des statistiques et lancer le programme TRANSFORMER (qui fait partie d’ABCtoolbox) pour créer les nouveaux fichiers de simulation et d’observation transformés en PLS ; - Relancer ABCestimator pour chaque locus avec chaque nombre de PLS intéressant et noter les résultats importants ; - Représenter graphiquement les relations entre chaque paire de paramètres et de statistiques, ainsi qu’entre chaque paire de statistiques pour les données simulées ; - Représenter graphiquement la distribution des statistiques simulées par rapport aux données observées ; - Créer les fichiers de « fausses-observations », calculer les quantiles, tester l’uniformité de la distribution avec le test Kolmogorov-Smirnov pour la distribution uniforme et illustrer ces résultats ; - Récupérer les fichiers finaux importants et effacer les fichiers intermédiaires ou superflus. 170

4.2. Synthèse des résultats des analyses

4.2.1. Diversité génétique

Les principales différences entre les modèles 1R et 2R sont déjà apparues avec un petit nombre de simulations préliminaires. Les graphiques PCoordA basés sur les matrices de distance de Reynolds calculées sur des données simulées ont montré qu’il est plus fréquent d’observer une différenciation nord-sud sous les modèles 2R que sous le modèle 1R. Mais cette différenciation nord-sud peut toutefois également être observée sous le modèle 1R, principalement lors de simulations avec la présence d’une barrière forte.

Concernant la diversité génétique, les valeurs de l’indice d’hétérozygotie H diminuent systématiquement le long de l’axe de dispersion sous le modèle 1R. Le coefficient de corrélation (RH-lat) entre H et la latitude est dans la plupart des cas négatif, et la

probabilité de reproduire le profil de diversité observé, où RH-lat est significativement positif, est très faible. En revanche, sous les modèles 2R, la valeur de RH-lat varie entre -1 et 1, dépendant des paramètres comme la force de la barrière entre le Nord et le Sud (Figure 4-8 donnant un exemple pour chaque modèle).

(a) (b)

Figure 4-8 Exemples de diversité génétique (H) simulée dans l’ensemble des cellules sous les modèles 1R (a) et 2R(b)55.

55 Les résultats sont très similaires entre les modèles 2Ra et 2Rb. Certains résultats en commun ne sont donc présentés qu’une fois afin d’éviter une répétition. 171

4.2.2. Lignages avec distribution clinale

Bien que nous n’ayons pas considéré dans les simulations des facteurs sélectifs dépendant de la latitude, nous avons observé systématiquement, sous les deux modèles, des lignages HLA avec répartition « clinale » le long de la latitude, c’est-à-dire avec une fréquence qui augmentait (corrélation positive) ou diminuait (corrélation négative) avec la latitude. La Figure 4-9 montrent deux exemples, dans lesquels la répartition des lignages simulés ainsi que les coefficients de corrélation entre la fréquence génique et la latitude sont présentés de manière identique à celle des données observées (Figure 3-5). Ces résultats qualitatifs obtenus à la suite de simulations préliminaires tendent donc à soutenir favorablement le modèle 2R par rapport au modèle 1R.

Les p-values presque toujours proches de 0 ont confirmé que les simulations, sous le modèle 1R, n’arrivaient quasiment jamais à reproduire des résultats comparables aux fréquences HLA observées. En effet, les p-values pour les deux modèles 2R sont plus élevées que pour le modèle 1R, surtout pour le modèle 2Rb, où elles sont supérieures à 7% pour tous les locus. De plus, nous avons obtenu des facteurs de Bayes extrêmement favorables pour les modèles 2R, puisque dans tous les cas (différents locus) le modèle 2R a été jugé au moins 6'000 fois plus probable que le modèle 1R (Table 4-1).

172

Figure 4-9 Exemple de répartition des lignages dans les populations simulées sous le modèle 1R (haut) et le modèle 2R (bas) avec les coefficients de corrélation obtenus entre fréquence et latitude à droite.

Table 4-2 Densité marginale et p-values pour chacun des trois modèles ainsi que les facteurs de Bayes entre modèles.

Modèle Locus HLA-A HLA-B HLA-DRB1 p-value 0 0 0 1R densité marginale 3,58×10-27 1,93×10-90 198,07 p-value 0,01 0,05 0,08 2Ra densité marginale 0,79 1,17×104 1,22×106 p-value 0,07 0,08 0,24 2Rb densité marginale 8'199,18 6,00×107 4,99×1010 B en faveur du modèle 2Ra sur le modèle 2Ra-1R 2,20×1026 6,06×1093 6,16×103 1R B en faveur du modèle 2Rb sur le modèle 2Rb-1R 2,29×1030 3,12×1097 2.52×108 1R B en faveur du modèle 2Rb sur le 2Rb-2Ra 1,04×104 5,12×103 4.09×104 modèle 2Ra

Lorsque les résultats de 300'000 simulations sous les trois modèles ont été mélangés et resoumis à ABCestimator, la proportion de simulations de chaque modèle parmi les 1'500 meilleures simulations retenues a clairement montré la plus grande vraisemblance du modèle 2R (> 94%, Table 4-3). 173

Table 4-3 Proportions des simulations (%) sous chacun des trois modèles étudiés (1R, 2Ra et 2Rb) parmi les 750, 1'500 et 3'000 meilleures simulations retenues de 300'000 simulations (100'000 sous chaque modèle).

Nombres de simulations Locus Modèle 1R Modèle 2Ra Modèle 2Rb retenues A 2,36 31,20 66,44 750 B 0,59 26,23 73,18 DRB1 0,23 37,46 62,31 A 3,74 33,13 63,13 1'500 B 0,80 27,33 71,87 DRB1 0,27 48,13 51,60 A 5.43 46.98 47.59 3'000 B 1,36 40,43 58,21 DRB1 1,01 48,80 50,19

Ces résultats ont également montré que le modèle 2Rb était largement meilleur que le modèle 2Ra (entre 5'000 et 40'000 fois en fonction des locus, Table 4-2). Cependant, les p-values obtenues sous les deux modèles 2R restent relativement petites par rapport à 1. Quand la transformation PLS est effectuée, les p-values augmentent considérablement. Pour 1 à 4 PLS, les p-values des deux modèles sont proches de 1. Pour le modèle 2Rb, les p-values restent hautes jusqu’à 6 PLS puis nous observons une chute de p-values avec un plus grand nombre de PLS, qui est principalement due au paramètre du coefficient de sélection s (Table 4-5 et Figure 4-10).

Table 4-4 p-values estimées en fonction des statistiques originales et des différents nombres de PLS.

Statistiques 1 PLS 2 PLS 3 PLS 4 PLS 5 PLS 6 PLS 7 PLS 8 PLS originales Modèle 2Ra 1,00 1,00 1,00 0,97 0 0 0 0 0,0098 HLA-A Modèle 2Ra 1,00 1,00 1,00 1,00 0,039 0,015 0,054 0 0 HLA-B Modèle 2Ra 1,00 1,00 1,00 1,00 0,13 0,18 0,20 0,24 0,063 HLA-DRB1 Modèle 2Rb 1,00 1,00 1,00 0,97 0,11 0,29 0,0040 0,0040 0,076 HLA-A Modèle 2Rb 1,00 1,00 1,00 1,00 0,99 1,00 0,0060 0,014 0,072 HLA-B Modèle 2Rb 1,00 1,00 1,00 1,00 0,91 0,98 0,80 0,35 0,20 HLA-DRB1

174

Figure 4-10 Changements des p-values avec différents nombres de PLS sous les modèles 2Ra (gauche) et 2Rb (droite).

En effet, en considérant les trois locus et en regardant les graphiques RMSEP (Table 4-5), le maximum d’information semble être retenu avec 4 PLS pour le modèle 2Ra et avec 6 PLS pour le modèle 2Rb. Cependant, selon les graphiques RMSEP (Table 4-5), les 4 PLS sous le modèle 2Ra ne considère qu’environ un tiers de l’effet du coefficient de sélection (8% sur 30% de l’erreur de prédiction totale), tandis que les 6 PLS sous le modèle 2Rb ne tiennent compte que de la moitié de cet effet (10% sur 20%). En considérant d’autres paramètres comme Nm du Nord et du Sud, la perte d’information des statistiques originales lors de cette transformation PLS est beaucoup plus importante sous le modèle 2Ra par rapport au modèle 2Rb.

4.2.3. Estimation des Paramètres

Nous avons seulement tenu compte des paramètres estimés sous les deux modèles 2R (a et b) pour lesquels les p-values sont élevées (avec 4 et 6 PLS, respectivement) et nous n’avons pas fait d’estimation de paramètres pour le modèle 1R car la distribution postérieure des paramètres sous un modèle de très faible vraisemblance n’est pas fiable (Wegmann et al. 2009).

Les graphiques RMSEP (Table 4-5) ont reflété comment les paramètres ont influencé différemment les résultats simulés. Pour les deux modèles 2R, nous avons observé un grand impact des deux paramètres liés au locus : le nombre d’allèles initial a et le taux de sélection s sont les deux paramètres qui influencent le plus les statistiques obtenues. La 175 durée d’échanges génétiques t entre les populations du Nord et celles du Sud est également un facteur important.

Table 4-5 Graphiques RMSEP des paramètres sous les modèles 2Ra et 2Rb.

Modèle 2Ra Modèle 2Rb

Nombre d’allèles initial a

Taux de sélection s

Densité démographique au Nord Nn

Taux de migration au Nord mn

176

Nn × mn

Taux de croissance au Nord gn

Densité démographique au Sud Ns

Taux de migration au Sud ms

Ns × ms

177

Taux de croissance au Sud gs

Densité démographique dans la zone barrière Nb

Taux de migration dans la zone barrière mb

Nb × mb

Taux de croissance dans la zone barrière gb

178

Temps d’échanges génétiques t

Temps / d’émergence de la barrière tardive t’

Concernant la démographie, le produit de la densité et du taux de migration Nm a également une influence considérable. En traitant séparément N et m, nous avons en outre remarqué que c’était m le facteur le plus décisif comparé à N. En revanche, le taux de croissance g semble n’avoir que très peu d’influence sur les résultats du modèle.

Nous avons listé dans la Table 4-6 les paramètres estimés avec 4 PLS sous le modèle 2Ra, et ceux avec 6 PLS sous le modèle 2Rb. Les paramètres pour lesquels les graphiques RMSEP indiquent qu’ils ne peuvent pas être estimés correctement ne sont pas concernés, car non seulement ils n’ont eu qu’une très légère influence sur les résultats, mais leurs valeurs estimées est aussi très peu fiable. Dans la Table 4-6, nous avons également ajouté, pour chaque paramètre estimé, 95% de la distribution postérieure estimée56 ainsi que la représentation graphique des résultats.

La distribution postérieure estimée des paramètres (courbe rouge ci-dessus) s’accorde plutôt bien avec la distribution des valeurs retenues (courbe bleue). Malgré de grands intervalles de confiance, les résultats pour les paramètres démographiques sont très cohérents entre les trois locus. La valeur estimée de Nm du Nord est considérablement

56 Ce qui correspond pratiquement à l’intervalle de confiance. 179 plus élevée par rapport à celle du Sud, et ceci dans tous les cas. En revanche, la valeur de t estimée sous le modèle 2Ra est plus petite par rapport au modèle 2Rb.

Table 4-6 Paramètres estimés sous les modèles 2Ra et 2Rb avec le nombre de PLS choisi. Les valeurs estimées sont acompagnées de l’intervalle de confiance à 95% (HPD 95).

Modèle 2Ra Modèle 2Rb Locus 4 PLS 6 PLS

13,42 16,33 HLA-A (10,33-18,10) (10,79-24,57)

26,00 30,48 a HLA-B (19,98-32,43) (22,22-38,85)

HLA- 13,33 13,91 DRB1 (10,98-15,68) (10,86-17,28)

0,0037 0,0016 HLA-A (0,00060-0,023) (0,00015-0,012)

0,0081 0,0079 s HLA-B (0,0011-0,024) (0,0012-0,022)

HLA- 0,0066 0,0063 DRB1 (0,0010-0,024) (0,0011-0,023) 180

246,57 489,34 HLA-A (48,28-617,79) (112,11-801,24)

335,51 207,58 Nn×mn HLA-B (93,55-661,68) (34,94-610,69)

HLA- 288,92 261,16 DRB1 (75,42-646,11) (49,72-652,74)

32,72 66,64 HLA-A (6,77-141,08) (9,54-185,06)

113,27 100,30 Ns×ms HLA-B (14,95-282,87) (20,99-191,63)

HLA- 87,83 116,11 DRB1 (11,20-267,21) (19,69-237,91)

142,69 287,86 HLA-A (22,72-808,09) (46,10-885,24)

125,77 188,31 Nb×mb HLA-B (17,15-677,16) (28,3668-832,81)

HLA- 134,23 178,36 DRB1 (20,09-794,05) (29,09-818,27) 181

396,83 1212,97 HLA-A (48,79-1794,49) (217,38-2219,12)

535,55 1192,95 t HLA-B (78,49-2089,27) (199,95-2166,82)

HLA- 556,89 1363,09 DRB1 (83,16-2092,63) (289,678-2275,8)

Le nombre de lignage a et le coefficient de sélection s diffèrent clairement entre locus. Dans le cas de s, malgré l’intervalle de confiance relativement large, les résultats ont révélé que la sélection avait façonné les locus de manière différente, dont l’effet est plus important pour HLA-B et -DRB1 que pour HLA-A.

En comparant les valeurs retenues avec la valeur observée des statistiques (Table 4-7 et Annexe 4), nous avons vérifié que, au 4 PLS sous le modèle 2Ra et 6 PLS sous le modèle 2Rb, les simulations sont capables de reproduire des combinaisons de valeurs proches des valeurs observées à une et à deux dimensions.

Table 4-7 Densité des valeurs retenues autour de la valeur observée pour chaque paramètre pour les trois locus HLA sous différents modèles.

Modèle 2Ra Modèle 2Rb

PLS HLA-A HLA-B HLA-DRB1 HLA-A HLA-B HLA-DRB1

1

182

2

3

4

5 - - -

6 - - -

En revanche, les faibles p-values concernant les statistiques originaires ou les nombres de PLS plus élevés sont principalement dû au paramètre FSC, pour lequel les valeurs retenues sont généralement plus élevées par rapport à la valeur observée, particulièrement pour HLA-A (Annexe ). En réalité,

La procédure de validation à l’aide du test de Kolmogorov-Smirnov a ensuite confirmé que la distribution a priori des paramètres n’avait pas été biaisée, à l’exception du nombre de lignage a, où une déviation significative a été choisie de façon trop large par rapport à la distribution postérieure, ce qui veut dire que la majorité des simulations retenues utilise des valeurs de a provenant du centre de la distribution (Table 4-8).

183

Table 4-8 Résultats du test de Kolmogorov-Smirnov de la distribution uniforme et représentation graphique de la densité des fausses-observations (10-quantiles).

Para- Modèle 2Ra Modèle 2Rb mètres Test de Kolmogorov- Test de Kolmogorov- Distributions de quantiles Distributions de quantiles Smirnov Smirnov

Déviation Déviation significative de significative de l’uniforme avec l’uniforme avec a davantage de valeurs davantage de valeurs moyennes moyennes (p<0,001) (p<0,001)

s - -

Nn×mn - -

gn - -

Ns×ms - - 184

gs - -

Nb×mb - -

gb - -

t - -

t’ - / -

4.3. Discussion

4.3.1. Modèle le plus vraisemblable

Nos résultats obtenus à l’aide d’un petit nombre de simulations exploratoires ont déjà montré, dès le début, l’insuffisance d’une simple route de migration des humains 185

modernes au Sud pour expliquer la structure génétique des populations est-asiatiques. Dans ce cas, la diversité génétique intra-populationnelle (H) simulée au sein des cellules diminue systématiquement du Sud vers le Nord le long de la direction générale de migration (Figure 4-8). Cette tendance a été assurée par la valeur négative de RH-lat pour la majorité (>90%) des simulations. Or, en ajoutant la route nord, les simulations ont produit des résultats plus variés, dépendant fortement des paramètres comme Nm et s, mais qui correspondent mieux à la réalité. En effet, avec deux routes, les valeurs de RH-lat, varient entre -1 et 1.

La comparaison formelle des modèles faite grâce à la méthode d’estimation ABC a confirmé statistiquement que le modèle avec deux routes de migration (2R), au Nord et au Sud, est plus probable que le modèle avec une seule route sud (1R). L’estimation ABC a été effectuée avec 300'000 simulations produites pour l’ensemble des trois modèles (100'000 simulations pour chaque modèle), la majorité (>96%) des meilleures simulations retenues ont été obtenues sous les modèles 2R, et ceci pour les trois locus étudiés (Table 4-2). Le résultat de cette méthode directe de comparaison a ensuite été confirmé par l’énorme valeur de facteur de Bayes en faveur des modèles 2R par rapport au modèle 1R (Table 4-2). En effet, il n’y a quasiment aucune possibilité de simuler avec le modèle 1R une structure génétique similaire à celle que nous avons observée en Asie orientale, ce qui est démontré par les p-values obtenues avec ABCestimator, qui sont toutes très proches de 0 pour ce modèle 1R. A l’inverse, les p-values obtenues avec les modèles 2Rb se situent entre 7-20%, ce qui signifie que la vraisemblance des données observées sous le modèle 2Rb est égale ou supérieure à la vraisemblance de 7% à 20% des données simulées retenues.

Ces résultats obtenus par simulation confirment donc le rôle indispensable de la route nord dans l’histoire du peuplement de l’Asie orientale. L’expansion humaine par la route sud est loin d’être suffisante pour expliquer l’ensemble de la structure génétique des populations est-asiatiques.

La comparaison entre les deux modèles 2R démontre que le modèle 2Rb (« modèle du chevauchement ») est plus vraisemblable que le modèle 2Ra (« modèle de la pince »). En 186

effet, la proportion de simulations retenues (Table 4-3), ainsi que le facteur de Bayes (supérieur à 6'000, Table 4-2) sont en faveur du modèle 2Rb. Ce dernier s’accorde aussi mieux avec la répartition des lignages HLA observés et les données archéologiques (voir chapitre 3). De plus, les p-values obtenues pour le modèle 2Ra sont plus faibles que pour 2Rb lors de l’estimation ABC faite avec toutes les statistiques originales. C’est seulement en considérant les premières 4 PLS, qui excluent deux tiers de l’effet de la sélection (Table 4-5) que les p-values se rapprochent de 1. Pour le modèle 2Rb, des p-values proches de 1 ont encore été observées non seulement pour 4 PLS mais également avec 6 PLS pour HLA-B et -DRB1, qui représentent beaucoup mieux les paramètres originaux. Les estimations effectuées sous le modèle 2Rb sont donc plus fiables que celles effectuées sous le modèle 2Ra. La différence principale entre les modèles 2Ra et 2Rb est le rôle de la zone du fleuve Yangzi (ou des Qin-Huai) pendant l’histoire du peuplement. Bien que la frontière génétique entre les populations NEA et SEA ait été localisée à la hauteur de cette rivière dans toutes les études faites sur ce sujet (Du et al. 1998; Xue et al. 2004; 2008), y compris la nôtre, le modèle 2Rb a révélé qu’une séparation plus au nord, correspondant éventuellement à la Grande Muraille, associée à une frontière récente au niveau du fleuve Yangzi pouvait mieux expliquer la structure génétique actuelle.

4.3.2. Différenciation nord-sud

La différenciation génétique entre les populations NEA et SEA observée dans de nombreuses études est en réalité une caractéristique qualitative, qui est normalement reflétée par la répartition géographique des lignages et allèles et par les analyses comme PCoordA et MDS. Cette différenciation ne signifie pas nécessairement l’existence d’une frontière génétique entre les populations NEA et SEA car une différenciation génétique entre deux zones peut être obtenue par d’autres processus (Figure 4-11) La différenciation génétique nord-sud pourrait être le produit de mécanismes distincts, tels que la dérive génétique, l’isolement par la distance, la sélection dépendant de la latitude, le mélange entre deux populations génétiquement différenciées ou un effet de « surf allélique» pendant une expansion de population (Edmonds et al. 2004; Klopfstein et al. 2006). Sans d’autres indices génétiques, la différenciation nord-sud n’est donc pas nécessairement liée au « modèle de la pince ». 187

Figure 4-11 Quatre mécanismes qui pourraient générer des gradients de fréquence génétiques (de gauche à droite: dérive génétique, effets fondateurs répétés, isolement par la distance, gradients de pression sélective (d’après Sanchez-Mazas et al. 2011a).

Notre approche par simulation a cependant permis de clarifier l’effet de ces différents mécanismes dans la constitution d’une différenciation génétique nord-sud. Les lignages HLA, bien que des facteurs sélectifs liés à la latitude n’aient pas été considérés, sont systématiquement distribués de manière « clinale » dans le sens de la latitude - c’est-à- dire que leur fréquence augmente ou diminue progressivement avec la latitude -, et ceci sous tous les modèles. C’est aussi la raison pour laquelle nous avons observé davantage de lignages et d’allèles avec cette tendance de répartition, par rapport à ceux que nous avons attribués aux groupes-1 et -2 (chapitre 3.2.1.3). En effet, sans considérer leur répartition dans d’autres continents, la distribution inégale de ces derniers n’aurait pas pu donner d’indications sur leurs origines différentes ou leurs directions d’expansion.

Les graphiques PCoordA réalisés sur les données simulées (résultats non montrés) ont également montré que les modèles 1R et 2R permettent tous deux de reproduire un profil de différenciation génétique nord-sud, plus particulièrement lorsqu’une barrière génétique et/ou différents paramètres au Nord et au Sud sont simulés. L’observation de gradients de différenciation génétique entre le Nord et le Sud ne peut donc pas être prise comme seul argument en faveur de deux routes de migrations.

Par contre, nos simulations ont montré, en considérant tous les aspects de la structure génétique de l’Asie orientale, et pas seulement la différenciation nord-sud, qu’une simple expansion depuis le sud n’est pas suffisante pour expliquer les données observées. Nos simulations ont montré clairement que le mélange de deux vagues de migration, l’une 188

venant du nord et l’autre du sud, est nécessaire pour expliquer la structure génétique observée. Cela démontre l’intérêt des méthodes de simulations pour différentier statistiquement des hypothèses alternatives, grâce à l’intégration simultanée de multiples facteurs. Dans les sections suivantes, nous allons discuter en détail des facteurs évolutifs et démographiques qui ont joué ensemble dans l’histoire du peuplement de l’Asie orientale.

4.3.3. Facteurs évolutifs et démographiques

Sous les modèles que nous avons considérés, nous avons testé l’effet de plusieurs facteurs évolutifs et démographiques tels que la sélection balancée, la densité démographique et le taux de migration, qui auraient façonné la structure génétique des populations est-asiatiques. D’après nos résultats, certains d’entre eux ont eu une influence décisive sur l’établissement de la structure génétique de la région, tandis que d’autres n’ont montré que très peu d’importance.

4.3.3.1. Sélection balancée

La distribution a priori du coefficient de sélection que nous avons choisie a été basée sur les valeurs estimées par Satta et al. (1994) pour les locus HLA. Dans les simulations préliminaires, nous avons utilisé un intervalle de 0% à 10%, réduit à 0%-2,5% pour les simulations finales après avoir constaté qu’un coefficient supérieur à 2,5% ne permettait jamais de reproduire les données observées, et ceci pour aucun des trois locus. D’après les graphiques RMSEP, le coefficient de sélection est un paramètre qui a des effets considérables sur la structure génétique simulée (Table 4-5). Parmi les trois locus HLA étudiés, l’influence de la sélection balancée sur la vraisemblance des modèles a été particulièrement forte pour le locus HLA-A. Les p-values pour ce locus sont restées petites excepté lorsque la majorité de l’effet sélectif a été exclu (Tables 4-4 et 4-5). Plus le coefficient de sélection augmente et moins les simulations sont compatibles avec les données HLA-A. Nos résultats révèlent donc que les traces laissées par la sélection balancée sur HLA-A ont été partiellement effacées, probablement par l’effet des facteurs démographiques (voir la section suivante). Ce résultat est soutenu par l’observation d’une plus faible diversité génétique à ce locus en Asie orientale qu’en Afrique ou en Europe. 189

En effet, certains lignages sont très fréquents dans les populations de cette région, comme A*02 dont la fréquence est supérieure à 20% dans toutes les populations échantillonnées et même à plus de 30% dans quelques populations du Sud (Figure 3-3), A*11 qui est également un lignage très fréquent dans le Sud (>30%), A*24 qui se trouve à 20% dans le Nord. De plus, nous avons noté préalablement que la diversité génétique relativement basse pour ce locus par rapport aux locus HLA-B et -DRB1 (Figure 3-7).

Les estimations du coefficient s ont cependant démontré le rôle non négligeable de la sélection balancée pour les locus HLA-B et -DRB1, en maintenant une grande diversité génétique. Les valeurs estimées pour ces deux locus sont comparables entre elles, avec 0,79% (0,12%-2,2%) et 0,63% (0,11%-2,3%), respectivement, sous le modèle 2Rb (Table 4-6). Elles sont plus élevées que pour HLA-A, qui a un s de seulement 0,16% (0,015%- 1,16%). Ces résultats sont cohérents avec le classement des locus HLA établi par Solberg

et ses collègues (2008) en fonction d’un indice Fnd qui mesure la sélection balancée.

Selon cette dernière étude, les valeurs de Fnd pour HLA-B et HLA-DRB1 ne montrent pas de différence significative mais sont significativement plus élevées que pour HLA-A.

4.3.3.2. Densité, migration et croissance démographique

Le produit (Nm) de la densité N et du taux de migration m est un des paramètres les mieux estimés par nos simulations. Nm représente le nombre absolu de migrants échangés entre régions ou sous-populations. Pour les trois locus, Nm au Nord est considérablement plus élevé qu’au Sud (Table 4-6). Ce résultat est en faveur de l’hypothèse que nous avons proposée au chapitre 3, selon laquelle les humains modernes colonisant l’Asie orientale par la route sud auraient subi des effets fondateur importants ou seraient passés par des périodes de fort isolement avec dérive génétique rapide.

En traitant séparément N et m, nous avons remarqué que m était le facteur décisif expliquant cette différence de Nm (Table 4-6). Les valeurs estimées pour m au Sud sont beaucoup plus faibles par rapport à m au Nord, reflétant probablement des migrations inter-populationnelles moins fréquentes au Sud à cause des reliefs entre les régions de collines et de montagnes et favorisées au Nord par les vastes plateaux et plaines. Effectivement, les obstacles géographiques comme les montagnes peuvent réduire le 190 mouvement des populations, un effet que l’on observe encore aujourd’hui dans le Sud, où se trouvent les populations SEA parlant des langues appartenant à plusieurs familles linguistiques (MAN, LSC, HM, TK et AA), avec une grande diversité génétique inter- populationnelle au sein des familles (Figures 3-9 et 3-13). En revanche, les vastes plateaux et plaines du Nord auraient facilité les échanges génétiques entre les populations NEA, où habitent les populations de langues altaïques et mandarin, génétiquement assez homogènes (Figure 3-13).

Contrairement à N et m, le taux de croissance g a eu une influence très limitée sur les résultats. Les graphiques RMSEP pour tous les modèles ont montré que l’ensemble des PLS pour ce paramètre ne modifiait que de 0,01% l’erreur de prédiction totale. C’est un fait également observé dans le travail, déjà cité, sur le détroit de Gibraltar (Currat et al. 2010).

4.3.3.3. Barrière nord-sud

Dans le chapitre 1.3.3.2 nous avons présenté trois barrières nord-sud potentielles en Asie orientale, où les migrations humaines sont ou ont été considérablement réduites pour des raisons géographiques, climatiques ou politiques, notamment le fleuve Yangzi qui est le plus large fleuve d’Asie, la ligne Qin-Huai qui correspond à l’isotherme de 0 degré en hiver, ainsi que la Grande Muraille qui marque la transition agro-pastorale. Dans le chapitre 3.3.2, nous avons discuté de la frontière génétique entre les populations NEA et SEA détectée par SAMOVA, qui correspond virtuellement à la zone entre Yangzi et Qin- Huai, tous deux ayant été proposés comme frontières d’après les analyses sur certains marqueurs génétiques. Comme nos données HLA représentent des régions traversées par ces deux lignes, nous n’avons pas pu localiser plus précisément la frontière entre elles, mais nous avons proposé que cette frontière, peu importe sa localisation précise, se soit formée plus tardivement par des divisions politiques récentes, tandis qu’une frontière initiale aurait été localisée plus au nord.

Nos simulations effectuées sous différents modèles nous ont permis de clarifier le rôle d’une possible barrière. Les valeurs de FCT/FSC observées pour les locus HLA-A, -B et -

DRB1 sont de 5,51, 5,80, et 2,96, respectivement, ce qui correspond à un Nmb inférieur à 191

50 dans nos simulations (Figure 4-12). Or cette valeur est plus faible que le Nm estimé pour le Sud. Cela dit, même avec deux routes de migration et l’existence d’une différenciation génétique nord-sud, la présence d’une barrière dans nos modèles est essentielle pour l’émergence d’une frontière génétique telle que celle que nous observons aujourd’hui.

Figure 4-12 Relation entre Nmb et FCT/FSC sous le modèle 1R (à gauche) et le modèle 2Ra (à droite) avec la ligne rouge marquant FCT/FSC égal à 1.

Nous avons donc constaté que le nombre de routes de migration est indépendant de l’existence d’une frontière génétique puisque sous tous les modèles, des simulations avec

un FCT supérieur à FSC peuvent être obtenues si le Nmb (indice migratoire de la barrière) est suffisamment petit.

Nous avons également constaté avec nos simulations qu’une barrière apparue tardivement pouvait aussi créer une frontière génétique, tandis qu’une frontière qui aurait existé préalablement pouvait être effacée par des échanges génétiques ayant eu lieu après la disparition de la barrière (résultats non montrés). Avec la meilleure vraisemblance estimée pour le modèle 2Rb par rapport au modèle 2Ra, l’ensemble des arguments est en faveur d’une ancienne barrière aux migrations située plus au nord que le fleuve Yangzi, et de l’émergence récente d’une seconde frontière génétique correspondant au fleuve Yangzi ou à la ligne Qin-Huai, qui coïncident à la division récente des langues chinoises (Wang 1994; Sagart 2005). 192

Il est également aussi possible que, pendant une longue période lors de la dernière glaciation, le plateau mongol et la Sibérie n’aient pas été favorables à la subsistance des populations humaines du Sud pratiquant la chasse et la cueillette dans des environnements tropicaux et sub-tropicaux similaires depuis l’Afrique jusqu’au Sud de l’Asie orientale, et que les populations du Nord-ouest se soient mieux adaptées à ces environnements hostiles lors de leurs expansions plus au nord (Balaresque et al. 2007). La séparation entre ces populations aurait alors plutôt été liée à différents degrés d’adaptation plutôt qu’à des barrières géographiques comme les chaînes de montagnes.

4.3.3.4. Echanges génétiques entre populations de différentes origines

Pour les deux modèles 2R, la durée des échanges génétiques entre les populations du nord et du sud suite à la disparition d’une barrière a été mesurée par le paramètre t. De plus, le Nm dans la zone de barrière peut également limiter le mouvement des individus qui la traverse. Les graphiques RMSEP pour les deux modèles ont montré que t était un paramètre essentiel, plus important que Nm dans la zone de barrière.

Sous le meilleur modèle 2Rb, les valeurs estimées de t les plus probables sont très cohérentes entre les trois locus HLA (en générations : 1'213 pour HLA-A, 1'193 pour HLA-B, et 1'363 pour HLA-DRB1), ce qui correspond à environ 22'000-34'000 ans selon la durée d’une génération (20-25 ans). Les distributions postérieures pour ces trois valeurs estimées sont relativement larges, mais s’accordent toutefois entre locus (HPD95 : 217-2'219 pour HLA-A, 200-2'167 pour HLA-B, et 290-2'276 pour HLA-DRB1). Même la borne inférieure de ces intervalles dépasse 4'000 ans, signifiant qu’une courte durée d’échanges génétiques est très peu probable pour créer la structure génétique existante. Cela contredit l’hypothèse de certains généticiens selon laquelle le flux génique depuis le Nord-ouest seraient récent et aurait été introduit par la Route de la Soie il y a seulement 2'000 ans (Shi et al. 2005; Zhang et al. 2007a).

Dans le but de simplifier le modèle, les expansions humaines par les routes Sud et Nord ont été simulées de façon simultanée, mais cela n’est pas du tout une condition obligatoire. Suite à une séparation initiale, les contacts entre des populations du Sud et du Nord débutèrent, en raison des influences mutuelles de mode de vie, ou du réchauffement 193

de la planète suite à la fin du dernier maximum glaciaire (23-21 ka) (Fagan 2009). Nos résultats n’excluent pas que la route sud soit plus ancienne, comme indiqué par les données génétiques et archéologiques, mais l’estimation de t a reflété que l’émergence de la route nord datait au minimum du Néolithique, plus probablement du Paléolithique supérieur, tout comme des expansions des populations de différentes origines se chevauchèrent pendant une assez longue période dans le Nord de l’Asie orientale, tel que décrit dans notre « modèle du chevauchement ».

4.4. Conclusion

Dans ce chapitre de travail de thèse, nous avons présenté les résultats de nos simulations sur une carte numérique de l’Asie orientale sous les trois modèles du peuplement Homo sapiens : le « modèle de l’origine au Sud », le « modèle de la pince », ainsi que notre propre hypothèse développée à partir de ce dernier, le « modèle du chevauchement ».

Nous avons observé, de manière qualitative, la différenciation nord-sud, la frontière génétique ainsi que les lignages avec variations clinales de fréquences dans le sens de la latitude, qui ne sont pas nécessairement liés à un modèle particulier. Pourtant, les analyses quantitatives réalisées par 100'000 simulations pour chaque modèle combinées à la méthode d’estimation bayésienne ABC ont montré que le « modèle de l’origine au Sud » était pratiquement incapable de reproduire des données génétiques proches des observations, et surtout la diminution de la diversité génétique intra-populationnelle du Nord au Sud. Cela a confirmé qu’une seule route de migration au Sud était loin d’être suffisante pour expliquer la structure génétique observée. En revanche, les deux modèles tenant compte d’une route nord ont été évalués comme étant significativement plus probables que le « modèle de l’origine au Sud ». Parmi les deux modèles les plus probables, le « modèle du chevauchement » est le plus vraisemblable. Nos simulations ont donc permis de confirmer l’hypothèse que nous avons émise au chapitre 3.

Les résultats ont également reflété le rôle de la sélection balancée, surtout sa puissance à maintenir une diversité génétique au sein des populations. Le coefficient de sélection estimé au locus HLA-A est beaucoup moins élevé que pour les locus HLA-B et -DRB1, 194

un résultat en accord avec des études précédentes. De plus, les traces laissées par la sélection auraient été partiellement effacées par des effets démographiques, particulièrement en regardant le Sud, où nous avons découvert que le produit de la densité et du taux de migration était considérablement plus faible par rapport au Nord. En effet, comme nous l’avions proposé auparavant au chapitre 3, les populations SEA auraient subi des effets fondateurs ou isolements avec des dérives génétiques rapides, effets que nous avons mis en relation avec l’ancienneté des expansions et les reliefs montagneux du Sud.

Les résultats ont également dévoilé le lien entre l’émergence d’une barrière et celle une frontière génétique. Lorsque la densité et le taux de migration dans une zone de barrière sont suffisamment réduits, une frontière génétique peut y être détectée fréquemment. Lors de disparition de la barrière, la frontière ayant existé peut aussi devenir introuvable. L’ensemble des arguments est en faveur de l’émergence récente de la frontière génétique actuellement observée dans la zone du fleuve Yangzi ou de Qin- Huai, tandis qu’une frontière ancienne aurait existé plus au nord. Au final, la durée des échanges génétiques entre populations du Nord et du Sud a été estimée très longue, depuis le Néolithique au minimum, mais plus probablement dès le Paléolithique supérieur, reflétant non seulement le chevauchement des expansions humaines, mais aussi l’ancienneté de la route de migration du Nord.

195

5. Discussion générale

Ce travail de thèse est consacré à l’étude de la structure génétique des populations d’Asie orientale dans le but de retracer l’histoire de la colonisation de ce vaste continent par les humains anatomiquement modernes. Le sujet, sur lequel nous avons fait une révision générale des aspects archéologiques, linguistiques et génétiques, soulève depuis presqu’un siècle un grand intérêt et de multiples controverses en raison de son importance et de sa complexité (chapitre 1).

Nous intéressant aux débats autour des modèles « de l’origine au Sud » (modèle 1R) et « de la pince » (modèle 2R) concernant les routes de migrations des premiers humains modernes en Asie orientale, nous avons étudié, avec diverses méthodes, les données des fréquences des lignages et des allèles de cinq locus HLA représentant 84 populations est- asiatiques (chapitre 2). Les analyses statistiques que nous avons effectuées sur ces données ont montré plusieurs caractéristiques de la structure génétique, qui nous ont conduit à soutenir le second modèle. Dans ce cadre, nous avons aussi mis l’accent sur les échanges génétiques à long terme entre les populations migrant en Asie orientale par les deux routes de chaque côté du plateau tibétain, une hypothèse que nous avons nommée « modèle du chevauchement » (chapitre 3). Ces différents modèles ont ensuite été testés par des méthodes de simulation informatique et d’estimation ABC, qui nous ont fourni des arguments en faveur du modèle que nous avons proposé (chapitre 4).

Dans ce chapitre, nous allons discuter de manière plus générale de certaines problématiques concernées par ce travail, à savoir la thématique (l’histoire du peuplement de l’Asie orientale), la méthodologie (analyses statistiques et ABC), et le marqueur utilisé (le système HLA).

5.1. Discussion sur la thématique

Notre travail s’est basé sur des connaissances obtenues dans des études antérieures menées par des chercheurs de différentes disciplines s’intéressant à l’origine et la différenciation des populations est-asiatiques. Parmi elles, les découvertes archéologiques et paléontologiques nous ont révélé une grande richesse de vestiges culturels, tandis que 196

les recherches linguistiques ont attiré notre attention sur la diversification des populations parlant différentes langues et leurs migrations, probablement liées aux expansions néolithiques marquées entre autres, par la domestication des céréales (Sagart et al. 2005; Sanchez-Mazas et al. 2008). L’intégration de la génétique à ces discussions, depuis un demi-siècle, a conduit à proposer une origine unique et récente des humains modernes sur le territoire africain (probablement en Afrique de l’est) (Jin et Su 2000; Ke et al. 2001). Cette hypothèse est aujourd’hui acceptée par la majorité des généticiens, dont les intérêts se sont plutôt concentrés, dans les dernières années, sur les routes de migrations empruntées par les premiers humains modernes colonisant le monde depuis l’Afrique, en l’occurrence vers l’Asie orientale (Karafet et al. 2001; Shi et al. 2005, 2008; Zhang et al. 2007; Zhong et al. 2011).

Au moment du démarrage de notre étude, plusieurs marqueurs génétiques avaient déjà été étudiés de manière approfondie pour l’Asie orientale, notamment les systèmes ABO, GM, RH (Zhao et Lee 1989; Sanchez-Mazas 1990; Beyer 2004; Poloni et al. 2005), le chromosome Y (Su et al. 1999; Karafet et al. 2001; Shi et al. 2005, 2008), l’ADN mitochondrial (Yao et al. 2002), des SNPs autosomiques (Abdulla et al. 2009), et en partie aussi le système HLA (Sanchez-Mazas et al. 2005) mais pas de manière extensive étant donné le manque de données disponibles pour l’Asie orientale. Le résultat le plus robuste de toutes ces études est la mise en évidence d’une différenciation génétique nord- sud des populations est-asiatiques, qui a été relevée comme une caractéristique remarquable de la structure génétique des populations d’Asie orientale (pour une revue, voir Zhang et al. 2007). Les populations NEA et SEA se différencient à la fois par leur diversité génétique intra- et inter-populationnelle, différences qui découlent de la répartition géographique inégale et des différences de fréquences des variantes (haplogroupes, haplotypes et/ou allèles) génétiques observées. De cette observation, un débat controversé s’est d’abord engagé sur la structure précise (« pattern », en anglais, est un terme plus approprié) de cette différenciation. Tandis que certains chercheurs ont observé une frontière génétique significative entre les populations NEA et SEA correspondant au fleuve Yangzi ou à la ligne Qin-Huai (Xue et al. 2005, 2008), d’autres ont plutôt soutenu une continuité génétique avec transition graduelle du Nord au Sud (Ding et al. 2000; Karafet et al. 2001). 197

Chacun des deux points de vue à propos de cette structure a aussi été utilisé pour défendre le modèle 1R ou 2R de migration des populations vers l’Asie (Cavalli-Sforza et al. 1994; Su et al. 1999; Karafet et al. 2001; Xue et al. 2004; Shi et al. 2005, 2008; Abdulla et al. 2010), même si, en réalité, aucun d’entre eux ne permet de soutenir de manière irréfutable l’un ou l’autre des scenarios. En effet, une structure génétique donnée peut toujours avoir été façonnée par divers mécanismes. Par exemple, une continuité génétique nord-sud pourrait s’expliquer par des échanges génétiques entre deux groupes de populations, l’un arrivant du nord, l’autre du sud. Mais elle pourrait également être attribuée à un effet d’isolement par la distance le long d’une même route de migration (Figure 4-11). De la même manière, une frontière génétique entre le Nord et le Sud pourrait s’expliquer par des différences marquées et maintenues par l’absence d’échange génétique entre populations originaires de deux routes distinctes, mais pourrait également se mettre en place, à partir d’un continuum, en raison d’une barrière (politique, culturelle ou autre) tardive établie entre le Nord et le Sud (Figure 4-12).

Conscient de ces problèmes, nous avons traité nos résultats avec prudence lorsque nous avons constaté cette différenciation nord-sud pour le système HLA. Il nous a fallu analyser ces résultats plus en profondeur, par autocorrélation spatiale (qui nous a révélé des clines de fréquences pour beaucoup de lignages et d’allèles, Figure 3-5), par des analyses PCoordA (qui nous ont permis de visualiser les relations génétiques entre populations pour chaque locus et de les transposer à la géographie, Figure 3-10), et par la recherche automatique de frontières génétiques (qui nous a confirmé la présence d’une structure significative, mais faible, séparant les Chinois Han du Nord et du Sud, Figure 3- 11). Finalement, cette différenciation génétique nord-sud, qui se présente, d’après nos résultats, sous la forme d’un continuum sauf lorsque l’on tient compte uniquement des Chinois Han, s’est avérée reproductible par nos simulations sous les modèles 1R et 2R que nous avons testés, soit indépendamment des routes de migrations proposées (Figure 4-12).

En revanche, deux phénomènes nous ont paru plus importants dans ce contexte : la répartition globale des variantes génétiques HLA qui se répartissent inégalement entre les 198

populations NEA et SEA, et la différence de diversité intra-populationnelle entre populations NEA et SEA.

Concernant l’analyse de la répartition globale des variantes génétiques, elle est souvent combinée, dans les études sur le chromosome Y et l’ADN mitochondrial, avec des arbres phylogénétiques, de manière à mettre en évidence à la fois les relations entre lignages moléculaires et les fréquences de ces lignages afin d’en localiser une origine géographique possible (rappelons l’idée de la phylogéographie que nous avons présentée au chapitre 1). Or, les partisans du modèle 1R pour le peuplement de l’Asie orientale qui ont utilisé une telle approche se sont souvent concentrés sur les variantes dites « Asie- spécifiques », dont la répartition géographique, plus restreinte, leur paraît plus facile à analyser pour la recherche du lieu d’origine de ces variantes (Su et al. 1999; Yao et al. 2002; Shi et al. 2005, 2008). Ensuite, l’importance de la route sud est argumentée par la constatation que ces variantes sont plus fréquentes au Sud et que leur apparition est ancienne (après la sortie de l’Afrique des humains modernes) d’après la phylogénie utilisée. Or, il n’y a aucune raison qui justifie que les autres variantes génétiques également observées dans les populations est-asiatiques puissent être ignorées. D’ailleurs, différentes conclusions ont été tirées dans des études où la totalité des données avait été intégrée. Par exemple, en considérant toutes les variantes génétiques du chromosome Y observées en Asie, plusieurs auteurs ont montré que les populations NEA présentaient aussi des variantes génétiques qui n’avaient pas été observées dans les populations SEA (Karafet et al. 2001; Xue et al. 2006; Zhong et al. 2011).

Concernant la diversité intra-populationnelle, plusieurs études soutenant le modèle 1R utilisent à nouveau des variantes « Asie-spécifiques », pour déclarer que les populations SEA, qui en présentent davantage, ont une diversité génétique plus élevée (Su et al. 1999; Shi et al. 2005, 2008). Au contraire, cette diversité génétique devrait être estimée par un indice tel que l’hétérozygotie (H) tenant compte de la totalité des observations, soit les fréquences de la totalité des variantes génétiques observées dans les populations.

De plus, la qualité d’une étude dépend de la fiabilité des résultats, qui dépend elle- même fortement du choix, du nombre et de la taille des échantillons considérés dans 199

l’étude. Karafet et ses collègues (2001) ont indiqué certains problèmes d’échantillonnage dans le travail de Su et al., en particulier la représentation insuffisante des populations NEA. Dans un travail critique qui a été présenté à une conférence à l’Université de Cornell (Sanchez-Mazas et al. 2011a), nous avons aussi noté des limites similaires dans l’étude d’Abdulla et al. (2009), où les auteurs ont observé une corrélation significative mais négative entre la latitude et l’indice H en Asie orientale, contrairement à nos résultats (Figure 3-7). Or, cette analyse a été effectuée sans inclure directement toutes les données à disposition, puisque les auteurs ont fusionné des échantillons originaux, qui plus est de faibles effectifs, pour créer 10 « populations » utilisées dans les analyses. On note, par exemple, qu’une de ces 10 populations, appelée « indonésienne », est en fait un mélange de plusieurs populations de différentes familles linguistiques, censée représenter la région la plus méridionale de l’Asie orientale et l’Asie du Sud-est ; l’hétérogénéité de cet échantillon fait dire que les populations du Sud sont très diversifiées. Dans la même étude, une population isolée et de diversité réduite, les Yakut de Sibérie, est choisie pour représenter la région la plus septentrionale ; et les conclusions sont évidemment opposées. Quant à la taille des échantillons, en examinant les données de Su et al., nous avons mis en évidence une corrélation significative entre la taille des échantillons et le nombre d’haplotypes observés (Figure 5-1).

Figure 5-1 Diagrammes représentant la corrélation entre le nombre d’haplotypes détectés et la taille des échantillons étudiés dans l’étude de Su et al. (1999) (gauche : toutes les populations échantillonnées ; droite : après d’avoir enlevé deux populations avec la plus grande taille d’échantillons ; Source : Sanchez- Mazas et al. (2011)).

En replaçant ces résultats dans un contexte élargi à d’autres marqueurs génétiques, notre conclusion est que lorsque l’on ne considère que les variantes génétiques dont la 200

répartition est restreinte à l’Asie orientale, les populations SEA présentent une plus grande diversité interne que les populations NEA, ce qui semble aller dans le sens d’une plus grande ancienneté des populations SEA et de l’arrivée des humains modernes en Asie orientale par une seule route sud (Su et al. 1999; Shi et al. 2005, 2008; Abdulla et al. 2009) ; en revanche, lorsque l’ensemble des variantes observés en Asie orientale est inclus, des résultats opposés sont obtenus, ce qui soutient un modèle alternatif, par exemple le modèle des deux routes (Karafet et al. 2001; Poloni et al. 2005; Zhong et al. 2011; ce travail actuel).

La grande difficulté, pour la route nord, concerne sa datation. Nous avons fait référence, au chapitre 3, à un argument indirect pour suggérer sa relative ancienneté : la distribution étendue des lignages et allèles HLA de groupe-1, notamment dans les populations amérindiennes. Dans le chapitre 4, les résultats des simulations ont également penché en faveur d’une contribution génétique de très longue durée depuis la route nord, confirmant notre conclusion. Il serait maintenant décisif d’étudier l’ADN ancien des fossiles Homo sapiens de la période critique proposée pour cette route, notamment entre 30 et 10 ka. Malheureusement, les fossiles humains de cette période sont très rares, et la taille des échantillons n’est pas suffisante pour une représentation fiable des populations correspondantes (voir chapitre 1.3.2.3), même si quelques génotypes individuels peuvent toutefois être observés. Plus d’efforts de la part des archéologues sont donc attendus.

5.2. Discussion sur les méthodes employées

Nous venons de discuter des problèmes liés au choix des échantillons étudiés et à la façon d’interpréter des résultats dans des études de génétique des populations. En réalité, les méthodes d’analyse elles-mêmes peuvent également présenter plusieurs défauts.

Nous avons déjà mentionné au chapitre 1.3.2.3 certaines limitations relatives à l’utilisation d’arbres phylogénétiques. En plus de l’incertitude de la topologie de tels arbres (notamment en cas de faibles valeurs de « bootstrap ») et de l’inexactitude de leur datation, nous devons garder à l’esprit qu’une généalogie de variantes moléculaires ne reflète pas directement une généalogie de populations. Les nœuds de l’arbre ne 201

correspondent pas (forcément) à des événements de différenciations populationnelles (Blench et al. 2008). Les désaccords entre notre travail et les études qui se sont souvent basées sur des généalogies moléculaires (comme celles de Su et al. 1999; Yao et al. 2002; Shi et al. 2005, 2008; Abudulla et al. 2010) peuvent donc également s’expliquer par différents points de vue sur l’application de ces méthodes et leur interprétation. En outre, les résultats obtenus pour différents marqueurs génétiques ne sont pas nécessairement compatibles les uns avec les autres, car, malgré leur dénominateur commun étant l’histoire démographique des populations qui les portent et les transmettent, chaque gène possède sa propre histoire (Blench et al. 2008 et chapitre 1.3.2.3).

D’autre part, nos analyses ont montré l’utilité de méthodes telles que PCoordA (chapitre 3.1.3.2) qui, bien que classiques, permettent d’extraire des informations importantes des matrices de distances génétiques lors du traitement des données. Similairement, les PLS (chapitre 4.1.6.5) nous ont aidé à réduire l’influence multidimensionnelle des statistiques de base lors des estimations ABC. La qualité des résultats obtenus par ces méthodes a été évaluée par la proportion de la somme des informations représentées par un certain nombre de coordonnées (pour PCoordA) ou de PLS (Figure 3-9 et Table 4-5), et ces dernières ont également été testées par une procédure supplémentaire de validation. Il a aussi été proposé que la significativité des résultats soit estimée par des techniques de validation croisée telles que le « bootstrap » et le « Jackknife » (Abdi et Williams 2010) qui nous paraissent intéressantes pour améliorer les résultats dans notre futur travail.

Nous avons aussi appliqué des méthodes comme l’autocorrélation spatiale et des tests de corrélation pour détecter des clines génétiques. Si ces approches sont très utiles pour révéler de telles variations, elles ne permettent toutefois pas de déterminer l’origine de ces variations, étant donné que de tels clines peuvent être reproduits, comme nos résultats de l’ABC nous ont montré, sous tous les modèles testés. Une conclusion similaire peut être tirée de la méthode SAMOVA pour détecter des frontières génétiques.

De plus, les analyses statistiques sur les données génétiques observées sont incapables d’estimer de manière quantitative l’effet de différents facteurs évolutifs sur la structure 202

génétique des populations. Des hypothèses a priori des chercheurs peuvent donc biaiser plus ou moins l’objectivité des études, surtout quand il s’agit de comparer des modèles (Beaumont et al. 2002; Tavaré et al. 1997) soutenus par diverses écoles, comme ceux du peuplement. Depuis quelques années, l’application de l’algorithme ABC a connu des réussites à ce propos, pour différents marqueurs génétiques (Currat 2004; Kitchen et al. 2008; Itan et al. 2009), y compris le système HLA (Currat et al. 2010). Or, cette nouvelle méthode avait rarement été employée pour l’Asie orientale. Notre travail actuel est donc la première étude utilisant la méthode ABC pour retracer l’histoire du peuplement humain dans ce continent.

Certes, si nos résultats ont souligné la puissance de l’ABC lors de la comparaison de modèles de peuplement et de l’estimation des paramètres, nous devons essayer de mieux comprendre certaines difficultés que nous avons rencontrées pendant l’application de la méthode. Par exemple, le taux d’acceptation d’un modèle est influencé par plusieurs facteurs, comme la complexité du modèle à tester et la distribution a priori des paramètres à estimer. Un modèle trop complexe et une distribution trop large de paramètres peuvent tous réduire considérablement le taux d’acceptation (Wegmann et al. 2010a). Nous avons donc essayé de simplifier le plus possible les scénarios des modèles pour réduire le nombre de paramètres. Nous avons également limité la distribution a priori des paramètres pour qu’elle soit à la fois représentative et réaliste.

Une autre difficulté concerne du choix des statistiques. Dans l’ABC, les données originales sont normalement représentées par une série de statistiques de base, qui facilitent la comparaison entre les données simulées et observées. Le dilemme est que trop peu de statistiques risquent de synthétiser insuffisamment les informations des données originales et d’affaiblir la puissance de l’estimation des paramètres, tandis que trop de statistiques risquent d’introduire un bruit aléatoire et de fausser l’estimation (Joyce et Marjoram 2008; Wegmann et al. 2009b). Pour résoudre ce problème, nous avons soigneusement choisi nos statistiques, et avons effectué l’estimation en utilisant des composantes PLS (Wegmann et al. 2009b). Effectivement, les meilleurs résultats ont été obtenus en utilisant PLS ; par exemple, les paramètres ont été estimés avec 6 PLS sous notre modèle le plus vraisemblable, le modèle-2Rb (Table 4-6). Bien que 6 PLS 203

représentent déjà la majorité des influences menées par les paramètres, une perte d’information assez importante (50%) a été introduite pour le coefficient de sélection (Table 4-5) dont l’exactitude de l’estimation a été réduite (voir la section suivant).

Au final, l’application de l’ABC dépend également de la puissance de calcul en raison du grand nombre de simulations exigé qui demande souvent une tâche très lourde à des plateformes de calcul. Grâce à l’EZ-Grid de l’Université de Genève, nous sommes arrivés à accomplir ce travail sur une période assez courte, mais certains scénarios n’ont pas pu être simulés, notamment les expansions de populations agricoles et les migrations néolithiques, qui ont été essentielles, par exemple, dans l’histoire du peuplement de l’Europe (Currat et Excoffier 2005; Bramanti et al. 2009; Itan et al. 2009; Currat et al. 2010; Currat et Excoffier 2011).

5.3. Intérêt du système HLA en génétique des populations

Nous avons déjà discuté, dans le chapitre 1.4.3, de la grande capacité du système HLA à révéler la structure génétique des populations en raison de son haut degré de polymorphisme (Sanchez-Mazas et al. 2011b). Le système HLA est un marqueur autosomique qui subit des recombinaisons, malgré un certain déséquilibre de liaison entre locus, contrairement aux marqueurs uni-parentaux, le chromosome Y (NRY) et l’ADN mitochondrial. Ce mécanisme complique les recherches sur les relations évolutives entre lignages et allèles HLA, car en plus des mutations, la recombinaison génère aussi de nouveaux lignages et allèles. Néanmoins, en utilisant d’autres méthodes que la phylogéographie, nous avons pu extraire beaucoup d’information sur la structure génétique représentée par nos données HLA tout en évitant de dépendre des approches phylogénétiques et des interprétations excessives des datations moléculaires, méthodes très controversées (voir le chapitre 5.2).

On sait que le système HLA se compose de gènes dont les fonctions sont essentielles dans les réactions immunitaires, et qui sont donc exposés à des pressions sélectives. Des études antérieures ont montré l’effet de la sélection balancée sur les gènes HLA, qui diffère entre locus (Satta et al. 1994; Solberg et al. 2008; Buhler et Sanchez-Mazas 2011). 204

Un intérêt de notre travail était précisément de vouloir estimer cette sélection de manière quantitative.

Comme nous avons obtenu de meilleurs résultats de l’ABC avec 6 PLS qui ont exclu partiellement l’effet de sélection (Table 4-5), il est possible que les valeurs du coefficient estimées soient biaisées à un certain degré. Mais la relation entre les trois locus étudiés est plus solide, vu que nous avons effectué l’estimation pour les trois locus à partir des mêmes données simulées, et avons pris le même nombre de PLS. L’ordre des trois locus selon l’intensité de la sélection estimée (HLA-B > DRB1 > A) est non seulement en accord avec les résultats de Solberg et al. (2008) à l’échelle mondiale sur la base de méthodes distinctes des nôtres, mais est également compatible avec les résultats de Satta et al. (1994) pour l’effet de la sélection à long terme. L’intensité de la sélection balancée va de pair avec l’hétérozygotie : une plus grande diversité au sein des populations a également été observée au locus HLA-B, suivi des locus HLA-DRB1 et -A (Figure 3-7).

Pour un même locus, l’intensité de la sélection pourrait aussi dépendre de l’environnement pathogénique, qui diffère entre continents (Sanchez-Mazas et al. 2012a), et ne pas être uniforme. Etant donné la grande superficie de l’Asie orientale et les environnements divers de ce continent, les coefficients de sélection que nous avons estimés reflètent donc sans doute un niveau général de sélection balancée agissant sur les gènes HLA, à l’échelle continentale. Ceci n’exclut pas non plus un effet possible de sélection directionnelle liée à des susceptibilités ou résistances à certaines maladies conférées par des allèles HLA (Suo et al. 2011; Sanchez-Mazas et al. 2012a).

Malgré cela, les analyses des données HLA à l’échelle mondiale montrent surtout que les différenciations génétiques des populations conservent les traces des migrations humaines du passé, du fait, notamment, que les distances génétiques estimées entre populations sont corrélées de manière significative à leurs distances géographiques (Solberg et al. 2008; Buhler et Sanchez-Mazas 2011). A une échelle plus réduite, nous avons également observé une corrélation significative entre la génétique et la géographique au niveau continental de l’Asie orientale, aux cinq locus HLA étudiés (Table 3-2). Par ailleurs, le test de neutralité sélective d’Ewens-Watterson n’a révélé que 205

quelques déviations significatives, et les coefficients de sélection estimés sont assez bas. L’effet de la sélection naturelle est donc globalement faible sur le système HLA. Comme nous l’avons montré dans ce travail, l’étude de ce polymorphisme est donc intéressante à la fois pour retracer des scenarios de peuplement et pour analyser des mécanismes de sélection naturelle en lien avec les environnements.

5.4. Article publié dans Rice

L’article qui suit a été publié suite à une présentation en tandem par Da Di et Alicia Sanchez-Mazas lors du Symposium international « Riz et Langage à travers l’Asie » (Rice and Language Across Asia) qui a eu lieu à l’Université Cornell à Ithaca, USA, du 22 au 25 septembre 2011. L’article est titré « The peopling history of continental East Asia revealed by the HLA system », rédigé par Alicia Sanchez-Mazas, Da Di et Maria Eugenia Riccio et publié en 2011 sur le volume 4 du journal « Rice ».

Dans cet article, nous avons fait un compte rendu des études génétiques actuelles sur l’histoire du peuplement en Asie orientale. Nous avons décrit les arguments contradictoires concernant les deux modèles de routes de migration, tels que la différenciation nord-sud, la frontière génétique, la structure génétique en forme de continuum, etc. Nous avons également discuté de la relation entre la variation génétique et la diversité linguistique, et des limites des méthodes de la datation moléculaire. En présentant nos points de vue critiques sur les méthodes et les interprétations de certaines études, nous avions pour objectif de réduire les confusions des chercheurs d’autres disciplines lors de l’utilisation des résultats génétiques dans leur recherche sur des sujets critiques comme la domestication des céréales et la diversification des familles linguistiques.

206

207

208

209

210

211

212

213

214

215

216

217

6. Conclusions et perspectives

Ce travail de thèse, qui s’inscrit dans le cadre de deux projets soutenus par le Fonds National Suisse de la Recherche Scientifique (FNS), l’un sur l’histoire du peuplement de l’Asie et l’autre sur l’évolution du système HLA (subsides Nos. 31003A_127465 et 31003A_144180 obtenus successivement pour 2009-2012, puis pour 2012-2015, par la Professeure Alicia Sanchez-Mazas), a comblé plusieurs écarts dans la recherche sur l’histoire du peuplement en Asie orientale, non seulement au niveau des données mais aussi au niveau méthodologique.

Du côté des matériels, nous avons collecté, le plus exhaustivement possible, toutes les données HLA disponibles des populations est-asiatiques dans la littérature internationale et chinoise entre 1980 et 2010. Géographiquement, ces données couvrent pratiquement toutes les régions importantes, de la Sibérie du Sud à l’Asie du Sud-est continentale, de l’Himalaya à l’archipel japonais. Linguistiquement, elles concernent les cinq familles linguistiques principales, soit l’altaïque, le sino-tibétain, le hmong-mien, le tai-kadai et l’austro-asiatique. Au sein du système HLA, les cinq locus HLA-A, -B, -C de classe I, et HLA-DRB1 et -DPB1 de classe II ont été analysés au niveau de leurs fréquences génériques (à l’exception de HLA-DPB1) et alléliques, alors que ces dernières étaient particulièrement mal connues pour la région jusqu’alors (Buhler 2007). C’est grâce à des comparaisons de résultats entre locus HLA (et, par nos lectures, avec d’autres marqueurs génétiques) que nous sommes arrivés à observer la répartition inégale des lignages et allèles HLA dans le Nord et dans le Sud de l’Asie orientale et à proposer une hypothèse compatible avec un maximum d’observations, y compris des données archéologiques et linguistiques. Sans cette banque de données, les analyses n’auraient jamais pu être réalisées. Etant donné les difficultés à accéder aux populations locales en raison des protections des ressources génétiques, cette banque de données pourra continuer à servir à des études futures.

Du côté des méthodes, nous avons effectué des analyses statistiques en regroupant les populations soit en fonction des informations géographiques, soit en fonction des informations linguistiques. L’interprétation de la répartition géographique des lignages et 218

allèles HLA a été combinée avec des méthodes plus objectives comme l’analyse d’autocorrélation spatiale et le test de corrélation. Les hypothèses que nous avons proposées ont été immédiatement suivies par des simulations stochastiques, permettant d’éviter toutes sortes de biais a priori. Le programme de simulation SELECTOR développé dans notre laboratoire avait seulement été employé sur le locus HLA-DRB1 lors d’une étude sur le détroit de Gibraltar (Currat et al. 2010). Plusieurs modifications ont été faites visant à l’accélération du calcul et à l’amélioration des fonctions du programme lors de notre application aux données multi-locus. Nous avons également complété des scripts en langage R et Shell dans le but d’automatiser des procédures pour l’estimation ABC.

L’ensemble des résultats de cette étude nous a finalement permis de tirer plusieurs conclusions importantes, qui illustrent les principaux scénarios du peuplement humain en Asie orientale. Sans tomber dans les détails dont nous avons déjà discuté dans les précédents chapitres, nous ne faisons ici qu’un résumé de divers aspects vis-à-vis des questions de fond que nous avons énumérées au chapitre 1.4.3.4 :

- Nos résultats sont compatibles avec une ancienne expansion des populations des humains modernes en Asie orientale par une route passant par le sud du plateau tibétain, populations qui auraient subi des dérives génétiques rapides dues à leur petite taille démographique ou des effets fondateurs répétés dus à une mobilité limitée à travers les reliefs montagneux du Sud du continent. Mais ces populations n’ont pas été les seules à contribuer au patrimoine génétique des populations est- asiatiques. Des populations arrivant via une route passant par le nord du plateau tibétain auraient également joué un rôle ancien et critique, probablement lors du Paléolithique supérieur. - A la suite d’une séparation possible entre ces populations d’origines différentes, pour des raisons géographiques ou climatiques, des migrations des populations du sud vers le nord et des populations du nord vers le sud conduisent celles-ci à se chevaucher et des échanges génétiques mutuels s’établissent et continuent ainsi depuis une très longue période, au minimum plusieurs milliers d’années, mais plus probablement 20'000 ans ou plus, jusqu’à nos jours. 219

- Le Nord de l’Asie orientale est le théâtre vraisemblable d’interactions entre populations. La contribution génétique des populations venant de la route nord diminue progressivement du Nord au Sud, créant des clines de fréquences géniques le long de la latitude ainsi que des variations de diversité génétique interne des populations et de répartition des lignages et allèles HLA et autres variantes génétiques entre le Nord et le Sud du continent. - Ces scénarios sont également liés à la diversification des grandes familles linguistiques, l’altaïque propre, le coréen et le japonique d’une part, et le sino- tibétain, le hmong-mien, le tai-kadai et l’austro-asiatique d’autre part. Les expansions altaïques et sino-tibétaines vers le Sud pendant les trois derniers millénaires auraient favorisé les échanges génétiques entre les populations NEA et SEA, tandis que les divisions politiques entre les dynasties du Nord et du Sud pendant les deux derniers millénaires auraient mis en place une frontière récente, à la fois génétique et linguistique, auprès de la zone du fleuve Yangzi ou de Qin- Huai. - Les différents facteurs évolutifs et démographiques ont façonné ensemble la structure génétique. La diversité génétique des populations SEA aurait été considérablement réduite à cause de petites densités démographiques et très faibles taux de migration, mais aurait été malgré tout maintenue à des degrés divers par sélection balancée agissant sur les locus HLA-A, -B, et -DRB1 (bien qu’il soit difficile d’estimer le coefficient de la sélection dans les populations SEA à cause de l’effet antagoniste de la dérive génétique).

Les principales idées de ces conclusions sont synthétisées dans notre « modèle du chevauchement ». Ce modèle s’accorde avec le « modèle de l’origine au Sud » pour ce qui est de l’ancienneté de la route sud, mais contredit ce dernier qui exclut une contribution ancienne de la route nord. Il diffère également du « modèle de la pince » au niveau de la simultanéité des deux routes de migrations, en proposant que les migrations passant par la route nord n’aient pas nécessairement eu lieu en même temps que celles passant par la route sud. Le mot « chevauchement » reflète les échanges génétiques entre populations à grande échelle, dans le Nord mais aussi dans les régions voisines, d’un 220 point de vue géographique, et pendant le Paléolithique supérieur mais aussi pendant le Néolithique et les périodes récentes, d’un point de vue chronologique.

Ce travail ouvre de nombreuses perspectives dans le contexte de l’étude génétique de l’Asie orientale, parmi lesquelles nous énumérons ici quelques tâches exigeantes.

- Bien que nos données aient déjà fourni une belle couverture de l’Asie orientale, il manque toujours des informations concernant les petites populations SEA, particulièrement celles des familles hmong-mien, tai-kadai et austro-asiatique. Un futur échantillonnage de ces populations nous aiderait à mieux connaître l’origine et la diversification de ces familles linguistiques, ainsi que le rôle de ces familles lors de la domestication des céréales, surtout celle du riz (Oryza sativa), du millet commun (Panicum miliaceum) et du millet des oiseaux (Setaria italica). - La famille austronésienne n’a pas été concernée dans cette étude, car les locuteurs des langues de cette famille se trouvent en majorité à l’extérieur de l’Asie orientale, à part les populations aborigènes de Taïwan. Ces petites populations de montagne sur l’île de Taïwan montrent un effet très important de dérive génétique qui crée d’énormes distances génétiques avec d’autres populations est-asiatiques. Malgré tout, l’origine de cette famille a été localisée en Asie orientale par des arguments linguistiques et génétiques. En réalité, les données HLA des aborigènes taïwanais étaient à disposition (Chu et al. 2001) mais n’ont pas été utilisées dans notre étude. Il sera intéressant de comparer ces données avec les données collectées pour notre travail dans le but de retracer le lieu d’origine des populations austronésiennes ainsi que leurs relations avec les populations d’autres familles en lien, par exemple, avec les hypothèses linguistiques proposée par Laurent Sagart sur l’origine commune des familles austronésienne et sino- tibétaine. - Le sujet de notre étude sur l’Asie orientale est également en relation étroite avec le peuplement de l’Amérique. Tandis que les recherches sur l’histoire du peuplement dans chacun de ces deux continents sont déjà bien avancées, le lien entre les deux routes de migrations proposées pour le peuplement de l’Asie orientale et les migrations vers l’Amérique reste à établir. En Sibérie, la région 221

intermédiaire entre l’Asie orientale et l’Amérique, des populations parlant des langues non-altaïques, comme les Tchouktchi-Kamtchatkiens, les Youkaguir, les Ket, les Nivkh, etc., résultant, d’après certains linguistes, d’une famille paléo- sibérienne disparue, seraient liées aux premiers habitants sibériens, énigme à résoudre sur ces problématiques. - Lors du travail de simulation, nous avons estimé le coefficient de sélection naturelle balancée au niveau de toute l’Asie orientale. Pourtant, il est possible que l’influence de la sélection balancée, sur un même locus, diffère entre populations de différentes régions, par exemple entre le Nord et le Sud de l’Asie orientale, comme pour les facteurs démographiques. Nous n’avons pas non plus pris en compte l’effet de la sélection directionnelle, alors que différentes stratégies évolutives des locus HLA ont été proposées dans les régions riches en pathogènes (Sanchez-Mazas et al. 2012a). - L’effet d’un autre facteur important dans l’évolution du système HLA, la mutation, n’a pas été pris en compte dans notre étude, en raison des simplifications nécessaires du modèle de simulation et de la période courte que nous avons simulée pour le peuplement, comparée à l’âge probablement ancien des lignages HLA. Concernant le niveau allélique, cependant, l’effet des mutations devient un facteur non-négligeable. Lors des futures simulations sur des données alléliques, il sera nécessaire de considérer la mutation. Pour ce faire, un paramètre peut être ajouté au programme SELECTOR comme le taux d’apparition d’un nouvel allèle pendant une génération, car nos données de fréquences ne permettent pas de simuler les mutations au niveau des séquences d’ADN. - La méthode de simulation n’a pas pu être appliquée aux locus HLA-C, HLA- DQA1 et -DQB1 pour lesquels le nombre limité de populations étudiées nous a empêché de faire des comparaisons, ni au locus HLA-DPB1, pour lequel les données n’existent qu’au niveau allélique. Des études antérieures ont suggéré un mode d’évolution quasiment neutre pour le locus HLA-DPB1, d’une part, et une influence plus importante de l’effet de sélection sur les locus HLA-DQA1 et - DQB1, d’autre part, comparés aux autres locus HLA. Il sera donc très intéressant d’étudier si les fréquences allélique du locus HLA-DPB1 sont plus sensibles aux 222

facteurs démographiques qu’à la sélection, et si les facteurs démographiques restent détectables en dépit d’un plus grand taux de sélection sur les données HLA-DQA1 et -DQB1. Cette thématique, parmi d’autres, fait l’objet du projet FNS 31003A_144180 (A. Sanchez-Mazas) qui vient de démarrer fin 2012. - Au final, la méthode de simulation et l’estimation ABC sont à appliquer à d’autres systèmes génétiques, notamment au chromosome Y, l’un des marqueurs les mieux échantillonnés pour l’Asie orientale en raison d’une série d’études menées par le chercheur Jin Li et ses collègue. C’est aussi le marqueur qui a été à la source du « modèle de l’origine au Sud ». L’utilisation de la méthode de simulation sur des données du chromosome Y, semblable à celle que nous avons effectuée pour le système HLA, sera donc essentielle pour clarifier si l’incohérence entre diverses études sur le chromosome Y et la nôtre est plutôt due aux histoires différentes d’évolution des ces gènes ou aux différentes façons d’interpréter des résultats.

Tout comme les archéologues et les linguistes, les généticiens s’intègrent dans le domaine de l’anthropologie avec leurs propres outils, en étudiant des populations modernes ou anciennes à l’aide de différents marqueurs. Leurs résultats ont bouleversé les anciennes notions, telles que la race et le multirégionalisme. Or, comme nous avons mentionné à plusieurs reprises dans cette thèse, un seul marqueur génétique ne peut illustrer qu’une histoire incomplète du peuplement de notre espèce, et la génétique ne peut se passer de l’archéologie et de la linguistique. Près de 86 ans après la découverte de « l’Homme de Pékin », les débats autour de l’origine des populations est-asiatiques sont loin d’être clos. De nombreuses questions sans réponses définitives continuent à passionner les chercheurs et à les convaincre de poursuivre leurs travaux, de plus en plus souvent multidisciplinaires (y compris le nôtre), qui nous emmènent petit-à-petit vers les vrais scénarios de l’histoire. Et l’histoire, elle-même, reste à écrire.

223

7. Bibliographie

Abdi H, et Williams LJ. 2010. Principal component analysis. Wiley Interdisciplinary Reviews: Computational Statistics 2(4):433-459. Abdulla MA, Ahmed I, Assawamakin A, Bhak J, Brahmachari SK, Calacal GC, Chaurasia A, Chen CH, Chen J, Chen YT, Chu J, Cutiongco-de la Paz EM, De Ungria MC, Delfin FC, Edo J, Fuchareon S, Ghang H, Gojobori T, Han J, Ho SF, Hoh BP, Huang W, Inoko H, Jha P, Jinam TA, Jin L, Jung J, Kangwanpong D, Kampuansai J, Kennedy GC, Khurana P, Kim HL, Kim K, Kim S, Kim WY, Kimm K, Kimura R, Koike T, Kulawonganunchai S, Kumar V, Lai PS, Lee JY, Lee S, Liu ET, Majumder PP, Mandapati KK, Marzuki S, Mitchell W, Mukerji M, Naritomi K, Ngamphiw C, Niikawa N, Nishida N, Oh B, Oh S, Ohashi J, Oka A, Ong R, Padilla CD, Palittapongarnpim P, Perdigon HB, Phipps ME, Png E, Sakaki Y, Salvador JM, Sandraling Y, Scaria V, Seielstad M, Sidek MR, Sinha A, Srikummool M, Sudoyo H, Sugano S, Suryadi H, Suzuki Y, Tabbada KA, A, Tokunaga K, Tongsima S, Villamor LP, Wang E, Wang Y, Wang H, Wu JY, Xiao H, Xu S, Yang JO, Shugart YY, Yoo HS, W, Zhao G, et Zilfalil BA. 2009. Mapping human genetic diversity in Asia. Science 326(5959):1541-1545. Adams EJ, et Parham P. 2001. Species-specific evolution of MHC class I genes in the higher primates. Immunol Rev 183:41-64. Avise JC, Arnold J, Ball RM, Bermingham E, Lamb T, Neigel JE, Reeb CA, et Saunders NC. 1987. Intraspecific phylogeography: the mitochondrial DNA bridge between population genetics and systematics. Annual Review of Ecology and Systematics 18(1):489-522. Avise JC. 1989. Gene trees and organismal histories: a phylogenetic approach to population. Evolution 43(6):1192-1208. Balaresque PL, Ballereau SJ, et Jobling MA. 2007. Challenges in human genetic diversity: demographic history and adaptation. Human molecular genetics 16 Spec No. 2:R134-139. Ballinger SW, Schurr TG, Torroni A, Gan YY, Hodge JA, Hassan K, Chen KH, et Wallace DC. 1992. Southeast Asian mitochondrial DNA analysis reveals genetic continuity of ancient mongoloid migrations. Genetics 130(1):139-152. Bar-Yosef O, et Vandermeersch B. 1993. Modern humans in the Levant. Sci Am 268(4):94-100. Barbujani G. 2000. Geographic patterns: how to identify them and why. Hum Biol 72(1):133-153. Barbujani G, Magagni A, Minch E, et Cavalli-Sforza LL. 1997. An apportionment of human DNA diversity. Proc Natl Acad Sci U S A 94(9):4516-4519. Beaumont MA, Zhang W, et Balding DJ. 2002. Approximate Bayesian computation in population genetics. Genetics 162(4):2025-2035. Bellwood P. 2001. Early agriculturalist population diasporas? Farming, languages and genes. Annual Review of Anthropology 30:181-207. Benedict PK. 1966. Austro-Thai. Behavior Science Notes 1:227-261. Benedict PK. 1975. Austro-Thai: Language and culture with a glossary of roots. New Haven: HRAF Press. 224

Bergstrom TF, Erlandsson R, Engkvist H, Josefsson A, Erlich HA, et Gyllensten U. 1999. Phylogenetic history of hominoid DRB loci and alleles inferred from intron sequences. Immunol Rev 167:351-365. Bergstrom TF, Josefsson A, Erlich HA, et Gyllensten U. 1998. Recent origin of HLA- DRB1 alleles and implications for . Nature genetics 18(3):237- 242. Bernstein F. 1930. Fortgesetzte Untersuchungen aus der Theorie der Blutgruppen. Zinduktabstamm u VerebLehre 56:233-237. Beyer Y. 2004. Gènes et langues en Asie orientale: analyse des données des systèmes classiques. Travail de master. Genève: Université de Genève. Black D. 1929. Sinanthropus Pekinensis: The Recovery of Further Fossil Remains of this Early Hominid from the Chou Kou Tien Deposit. Science 69(1800):674-676. Blench R, Ross M, et Sanchez-Mazas A. 2008. Methodological issues: linking genetic, linguistic and archaeological evidence. In: Sanchez-Mazas A, Blench R, Ross MD, Peiros I, et Lin M (eds). Past Human Migrations in East Asia. London and New York: Routledge Curzon. p 3-19. Blust R. Why lexicostatistics doesn’t work: the ‘universal constant’ hypothesis and the . In: Time Depth in Historical Linguistics: McDonald Institute for Archaeological Research, Oxford Publishing Press. p 311-332. Boëdaa E, et Hou Y-M. 2011. Étude du site de Longgupo - Synthèse. L’Anthropologie 115(1):176-196. Boulesteix AL, et Strimmer K. 2007. Partial least squares: a versatile tool for the analysis of high-dimensional genomic data. Briefings in Bioinformatics 8:32-44. Bramanti B, Thomas MG, Haak W, Unterlaender M, Jores P, Tambets K, Antanaitis- Jacobs I, Haidle MN, Jankauskas R, Kind CJ, Lueth F, Terberger T, Hiller J, Matsumura S, Forster P, et Burger J. 2009. Genetic discontinuity between local hunter-gatherers and central Europe’s first farmers. Science 326(5949):137-140. Breuning MH, van den Berg-Loonen EM, Bernini LF, Bijlsma JB, van Loghem E, Meera Khan P, et Nijenhuis LE. 1977. Localization of HLA on the short arm of chromosome 6. Hum Genet 37(2):131-139. Buhler S. 2007. Etude du polymorphisme moléculaire des gènes HLA de classes I et II à l’échelle mondiale: analyse de la diversité nucléotidique dans les populations. Thèse de doctorat. Genève: Université de Genève. Buhler S, Megarbane A, Lefranc G, Tiercy JM, et Sanchez-Mazas A. 2006. HLA-C molecular characterization of a Lebanese population and genetic structure of 39 populations from Europe to India-Pakistan. Tissue Antigens 68(1):44-57. Buhler S, Nunes JM, Nicoloso G, Tiercy JM, et Sanchez-Mazas A. 2012. The heterogeneous HLA genetic makeup of the Swiss population. PLoS One 7(7):e41400. Buhler S, et Sanchez-Mazas A. 2011. HLA DNA sequence variation among human populations: molecular signatures of demographic and selective events. PLoS One 6(2):e14643. Cann RL, Stoneking M, et Wilson AC. 1987. Mitochondrial DNA and human evolution. Nature 325(6099):31-36. Cavalli-Sforza LL, et Bodmer WF. 1971. The genetics of humain populations. San Francisco: Freemann. 225

Cavalli-Sforza LL, Menozzi P, et Piazza A. 1994. The History and Geography of Human Genes. Princeton, New Jersey: Princeton University Press. Cavalli-Sforza LL, et Feldman MW. 2003. The application of molecular genetic approaches to the study of human evolution. Nature Genetics 33(Suppl):266-275. Cereb N, Hughes AL, et Yang SY. 1997. Locus-specific conservation of the HLA class I introns by intra-locus homogenization. Immunogenetics 47(1):30-36. Chen C. 1970. Fossils and stone tools unearthed in Zuozhen. The Taiwan Folkways 20(1):23-37. Chen D, 1986. The of man and its phylogenetic relationship to later Paleolithic man and modern man in China. Acat Anthropologica Sinica 5(2):114- 127. Chen D, et Zhang J. 1998. The physical characteristics of the early neolithic human in Jiahu site and the comparison with other neoliithic humans and modern man. Acta Anthropologica Sinica 17(3):191-211. Chen R, Zhao T, et Ye G. 1987. Joint report of HLA polymorphisms in Chinese mainland. Shanghai Journal of Immunology 7(6):321. Chen T, Hedges REM, et Yuan Z. 1989. Accelerator radiocarbon dating for the Upper of Zhoukoudian. Acta Anthropologica Sinica 8:216-221. Chen T, Yang J, et Hu Y. 1996. The dating report for the Nanjing Man site. In: Nanjing Municipal Museum and Archaeology Department of Peking University: Locality of the Nanjing Man fossils. : Cultural Relics Publishing House. p 254-258. Chen T, Yang Q, Hu Y, Bao W, et Li T. 1997. ESR dating of tooth enamel from Yunxian homo erectus site, China. Quaternary Science 16:455-458. Chow MM, Hu CK, et Lee YC. 1965. Mammalian fossils associated with the hominid skull cap of Lantian Shensi. Scientia Sinica 14(7):1037-1048. Chu CC, Lin M, Nakajima F, Lee HL, Chang SL, Juji T, et Tokunaga K. 2001. Diversity of HLA among Taiwan’s indigenous tribes and the Ivatans in the Philippines. Tissue Antigens 58(1):9-18. Chu JY, Huang W, Kuang SQ, Wang JM, Xu JJ, Chu ZT, Yang ZQ, Lin KQ, Li P, Wu M, Geng ZC, Tan CC, Du RF, et Jin L. 1998. Genetic relationship of populations in China. Proc Natl Acad Sci U S A 95(20):11763-11768. Cockerham CC. 1969. Variance of gene frequencies. Evolution 23:72-83. Cockerham CC. 1973. Analysis of gene frequencies. Genetics 74:679-700. Comas D, Calafell F, Mateu E, Perez-Lezaun A, et Bertranpetit J. 1998a. HLA evidence for the lack of genetic heterogeneity in Basques. Ann Hum Genet 62(Pt 2):123- 132. Comas D, Mateu E, Calafell F, Perez-Lezaun A, Bosch E, Martinez-Arias R, et Bertranpetit J. 1998b. HLA class I and class II DNA typing and the origin of Basques. Tissue Antigens 51(1):30-40. Cook SR, Gelman A, et Rubin DB. 2006. Validation of software for bayesian models using posterior quantiles. Journal of Computational and Graphical Statistics 15(3):675-692. Cohen DJ. 2011. The beginnings of agriculture in China. A multiregional view. Current Anthropology 52(S4):273-293. Cupples A, Heeren T, Schatzkin A, et Colton T. 1984. Multiple testing of hypotheses in comparing two groups. Ann Intern Med 100:22-129. 226

Currat M. 2004. Effets des expansions des populations humaines en Europe sur leur diversité génétique. Thèse de doctorat. Genève: Université de Genève. Currat M, Ray N, et Excoffier L. 2004. SPLATCHE: a program to simulate genetic diversity taking into account environmental heterogeneity. Molecular Ecology Notes 4:139-142. Currat M, et Excoffier L. 2005. The effect of the Neolithic expansion on European molecular diversity. Proceedings Biological sciences / The Royal Society 272(1564):679-688. Currat M, Poloni ES, et Sanchez-Mazas A. 2010. Human genetic differentiation across the Strait of Gibraltar. BMC Evol Biol 10:237-255. Currat M, et Excoffier L. 2011. Strong reproductive isolation between humans and inferred from observed patterns of introgression. Proc Natl Acad Sci U S A 108(37):15129-15134. Damm J. 2012. Multiculturalism in Taiwan and the Influence of Europe. In: Damm J, et Lim P (eds). European Perspectives on Taiwan: VS Verlag für Sozialwissenschaften. p 84-103. Dausset J. 1958. Iso-leuko-antibodies. Acta Haematol 20(1-4):156-166. de Chardin PT, et Licent E. 1924. On the discovery of a palaeolithic in Northern China. Acta Geological Sinica. Di D, et Sanchez-Mazas A. 2011. Challenging views on the peopling history of East Asia: the story according to HLA markers. Am J Phys Anthropol 145(1):81-96. Diamond J, et Bellwood P. 2003. Farmers and their languages: the first expansions. Science 300:597-603. Dien K. 2003. Population and ethno-demography in Vietnam. Chiang Mai: Silkworm Books. Ding YC, Wooding S, Harpending HC, Chi HC, Li HP, Fu YX, Pang JF, Yao YG, Yu JG, Moyzis R, et Zhang Y. 2000. Population structure and history in East Asia. Proc Natl Acad Sci U S A 97(25):14003-14006. Du R, Shan X, et Yun M. 2004. The ABO system. In: Du R (eds). Chinese Population Genetics. Beijing: Science Press. p 37-87. Du R, Xiao C, et Cavalli-Sforza LL. 1997. Genetic distances between Chinese populations calculated on gene frequencies of 38 loci. Sci China C Life Sci 40(6):613-621. Duarte C, Mauricio J, Pettitt PB, Souto P, Trinkaus E, van der Plicht H, et Zilhao J. 1999. The early Upper Paleolithic human skeleton from the Abrigo do Lagar Velho (Portugal) and modern human emergence in Iberia. Proceedings of the National Academy of Sciences of the United States of America 96(13):7604-7609. Dubois E. 1894. Pithecanthropus erectus, eine menschenaehnliche Vebergangsform aus Java. Batavia: Landesdruckerei. Dupanloup I, Schneider S, et Excoffier L. 2002. A simulated annealing approach to define the genetic structure of populations. Mol Ecol 11(12):2571-2581. Dupont B. 1989. Nomenclature for factors of the HLA system, 1987. Decisions of the Nomenclature Committee on Leukocyte Antigens, which met in New York on November 21-23, 1987. Hum Immunol 26(1):3-14. Eberhard W. 2005. A History of China: Cosimo Classics. 227

Ebrey PB, Walthall A, et Palais J. 2009. East Asia: A Cultural, Social, and Political History: Cengage Learning. Edmonds CA, Lillie AS, et Cavalli-Sforza LL. 2004. Mutations arising in the wave front of an expanding population. Proc Natl Acad Sci U S A 101(4):975-979. Erlich HA, Bergstrom TF, Stoneking M, et Gyllensten U. 1996. HLA sequence polymorphism and the origin of humans. Science 274(5292):1552b-1554b. Erlich RL, Jia X, Anderson S, Banks E, Gao X, Carrington M, Gupta N, DePristo MA, Henn MR, Lennon NJ, et de Bakker PI. 2011. Next-generation sequencing for HLA typing of class I loci. BMC genomics 12:42. Etler DA. 1996. The fossil evidence for human evolution in Asia. Annu Rev Anthropol 25:275-301. Ewens WJ. 1972. The sampling theory of selectively neutral alleles. Theor Popul Biol 3(1):87-112. Excoffier L, Harding RM, Sokal RR, Pellegrini B, et Sanchez-Mazas A. 1991. Spatial differentiation of RH and GM haplotype frequencies in Sub-Saharan Africa and its relation to linguistic affinities. Human biology 63(3):273-307. Excoffier L, Laval G, et Schneider S. 2005. Arlequin (version 3.0): An integrated software package for population genetics data analysis. Evol Bioinform Online 1:47-50. Excoffier L, et Lischer HE. 2010. Arlequin suite ver 3.5: a new series of programs to perform population genetics analyses under Linux and Windows. Mol Ecol Resour 10(3):564-567. Excoffier L, et Slatkin M. 1995. Maximum-likelihood estimation of molecular haplotype frequencies in a diploid population. Mol Biol Evol 12(5):921-927. Excoffier L, Smouse PE, et Quattro JM. 1992. Analysis of molecular variance inferred from metric distances among DNA haplotypes: application to human mitochondrial DNA restriction data. Genetics 131(2):479-491. Fagan B (eds). 2009. The complete Ice Age: how climate change shaped the world. London: Thames & Hudson. Fan LA. 2004. The HLA system. In: Du R (eds). Chinese Population Genetics. Beijing: Science Press. p 155-195. Fang J, et Liu G. 1992. Relationship between climatic change and the normadic southward migrations in Eastern Asia during historical times. Climatic Change 22:151-169. Francke U, et Pellegrino MA. 1977. Assignment of the major histocompatibility complex to a region of the short arm of human chromosome 6. Proc Natl Acad Sci U S A 74(3):1147-1151. Gabunia L, et Vekua A. 1995. A Plio- hominid from Dmanisi, East Georgia, Caucasus. Nature 373(6514):509-512. Ge JX, Wu SD, et Chao SJ. 1997. The migration history of China. Fuzhou, China. Fujian People’s Press. Goebel T, Waters MR, et O’Rourke DH. 2008. The late Pleistocene dispersal of modern humans in the Americas. Science 319(5869):1497-1502. Gong HC. 2002. Case postpositions in Tibeto-Burman Languages. In: Collected papers on Sino-Tibetan linguistics. Taipei: Institute of Linguistics (preparatory office), Academia Sinica. p 425-431. 228

Gordon RG, Jr. (eds). 2005. Ethnologue: Languages of the World. Fifth ed. Dallas: SIL International. 24 p. Gosden C. 2010. Archaeology. When humans arrived in the New Guinea Highlands. Science 330(6000):41-42. Gower JC. 1966. Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika 53:325-338. Green RE, Krause J, Briggs AW, Maricic T, Stenzel U, Kircher M, Patterson N, Li H, Zhai W, Fritz MH, Hansen NF, Durand EY, Malaspinas AS, Jensen JD, Marques- Bonet T, Alkan C, Prufer K, Meyer M, Burbano HA, Good JM, Schultz R, Aximu-Petri A, Butthof A, Hober B, Hoffner B, Siegemund M, Weihmann A, Nusbaum C, Lander ES, Russ C, Novod N, Affourtit J, Egholm M, Verna C, Rudan P, Brajkovic D, Kucan Z, Gusic I, Doronichev VB, Golovanova LV, Lalueza-Fox C, de la Rasilla M, Fortea J, Rosas A, Schmitz RW, Johnson PL, Eichler EE, Falush D, Birney E, Mullikin JC, Slatkin M, Nielsen R, Kelso J, Lachmann M, Reich D, et Paabo S. 2010. A draft sequence of the Neandertal genome. Science 328(5979):710-722. Grun R, Huang PH, Huang W, McDermott F, Thorne A, Stringer CB, et Yan G. 1998. ESR and U-series analyses of teeth from the palaeoanthropological site of Hexian, Anhui Province, China. J Hum Evol 34(6):555-564. Guidon N, Parenti F, Da Luz MF, Guerin C, et Faure M. 1994. Le plus ancien peuplement de l’Amérique: le paléolithique du Nordeste Brésilien. Bulletin de la société préhistorique française 91(4-5):246-250. Guidon N, Pessis A-M, Parenti F, Fontugue M, et Guérin C. 1996. Nature And Age Of The Deposits In Pedra Furada, Brazil: Reply To Meltzer, Adovasio And Dillehay. Antiquity 70:408-421. Gyllensten U, Bergstrom T, Josefsson A, Sundvall M, et Erlich HA. 1996. Rapid allelic diversification and intensified selection at antigen recognition sites of the Mhc class II DPB1 locus during hominoid evolution. Tissue Antigens 47(3):212-221. Han KX, et Pan QF. 1984. Ethnological structure of ancient populations of China. Acta Archaeologlca Sinica(2):245-263. Harbo HF, Riccio ME, Lorentzen AR, Utsi E, Myhr KM, Mellgren SI, Flam ST, Thorsby E, Sanchez-Mazas A, et Lie BA. 2010. Norwegian Sami differs significantly from other Norwegians according to their HLA profile. Tissue Antigens 75(3):207-217. Hardy GH. 1908. Mendelian Proportions in a Mixed Population. Science 28(706):49-50. Hartl DL, et Clark AG (eds). 2007. Principles of population genetics. 4 ed. Sunderland, Massachusetts: Sinauer Associates, Inc. Hashimoto M. 1986. The altaicization of Northern Chinese. In: McCoy J, et Timothy L (eds). Contributions to Sino-Tibetan Studies, Cornell Linguistic Contributions. V. Leiden: E.J. Brill. p 76-97. Hassan FA. 1981. The peopling of the world. In: Demographic Archaeology. New York: Academic Press. Henn BM, Gignoux CR, Jobin M, Granka JM, Macpherson JM, Kidd JM, Rodriguez- Botigue L, Ramachandran S, Hon L, Brisbin A, Lin AA, Underhill PA, Comas D, Kidd KK, Norman PJ, Parham P, Bustamante CD, Mountain JL, et Feldman MW. 2011. Hunter-gatherer genomic diversity suggests a southern African origin for modern humans. Proc Natl Acad Sci U S A 108(13):5154-5162. 229

Hock HH. 1986. Principles of Historical Linguistics. Berlin: Mouton de Gruyter. p 566. Holcombe C. 2010. A History of East Asia: From the Origins of Civilization to the Twenty-First Century. Cambridge: Cambridge University Press. Hou YM, Potts R, Yuan BY, Guo ZT, Deino A, Wang W, Clark J, Xie GM, et Huang WW. 2000. Mid-Pleistocene -like stone of the Bose basin, South China. Science 287(5458):1622-1626. Hou YM, et Zhao LX. 2010. An archaeological view for the presence of early humans in China. Quaternary International:10-19. Hu C. 1973. Ape-man teeth from Yuanmou, Yunnan. Acta Geologica Sinica(1):165-171. Hyodo M, Nakaya H, Urabe A, Saegusa H, Shunrong X, Jiyun Y, et Xuepin J. 2002. Paleomagnetic dates of hominid remains from Yuanmou, China, and other Asian sites. J Hum Evol 43(1):27-41. Itan Y, Powell A, Beaumont MA, Burger J, et Thomas MG. 2009. The origins of lactase persistence in Europe. PLoS computational biology 5(8):e1000491. Jakobson R. 1942. The Paleosiberian languages. American Anthropologist 44(4):602-620. Jin L, et Su B. 2000. Natives or immigrants: modern human origin in East Asia. Nat Rev Genet 1(2):126-133. Jones MK, et Liu X. 2009. Archaeology. Origins of agriculture in East Asia. Science 324(5928):730-731. Joyce P, et Marjoram P. 2008. Approximately sufficient statistics and bayesian computation. Stat Appl Genet Mol Biol 7(1):Article26. Kaessmann H, Heissig F, von Haeseler A, et Paabo S. 1999. DNA sequence variation in a non-coding region of low recombination on the human X chromosome. Nat Genet 22(1):78-81. Karafet T, Xu L, Du R, Wang W, Feng S, Wells RS, Redd AJ, Zegura SL, et Hammer MF. 2001. Paternal population history of East Asia: sources, patterns, and microevolutionary processes. Am J Hum Genet 69(3):615-628. Ke Y, Su B, Song X, Lu D, Chen L, Li H, Qi C, Marzuki S, Deka R, Underhill P, Xiao C, Shriver M, Lell J, Wallace D, Wells RS, Seielstad M, Oefner P, Zhu D, Jin J, Huang W, Chakraborty R, Chen Z, et Jin L. 2001. African origin of modern humans in East Asia: a tale of 12,000 Y chromosomes. Science 292(5519):1151- 1153. Keightley DN. 1983. The Origins of Chinese Civilization: University of California Press. Kimura M, et Weiss GH. 1964. The stepping stone model of population structure and the decrease of genetic correlation with distance. Genetics 49(4):561-576. Kitchen A, Miyamoto MM, et Mulligan CJ. 2008. A three-stage colonization model for the peopling of the Americas. PLoS One 3(2):e1596. Klopfstein S, Currat M, et Excoffier L. 2006. The fate of mutations surfing on the wave of a range expansion. Mol Biol Evol 23(3):482-490. Kolb A. 1971. East Asia: China, Japan, Korea, Vietnam: geography of a cultural region. London: Methuen. Kruskal JB. 1964. Multidimensional scaling by optimizing goodness-of-fit to a nonmetric hypothesis. Psychometrika 29:1-28. Kruskal JB, et Wish M. 1978. Multidimensional Scaling. In: Number 07-011 in Sage University Paper Series on Quantitative Applications in the Social Sciences. Newbury Park: Sage Publications. 230

Kuzmin YV, et Tankersley KB. 1996. The colonization of Eastern Siberia: an evaluation of the Paleolithic age radiocarbon dates. Journal of Archaeological Science 23(4):577-585. Landers J. 1992. Reconstructing ancient populations. In: Jones S, Martin R, et Pilbeam D (eds). The Cambridge Encyclopedia of Human Evolution. London: Cambridge University Press. p 402-405. Landsteiner K. 1900. Zur Kenntnis der antifermentativen, lytischen und agglutinierenden Wirkungen des Blutserums und der Lymphe. Zentralblatt Bakteriologie 27:357- 362. Langaney A. 1979. Diversité et histoire humaines. Population 34:985-1006. Langaney A. 1984. La nouvelle démographie de l’évolution. Population 39:587-606. Lee RB, et DeVore I (eds). 1968. Man the Hunter. Chicago: Aldine Publishing Company. Leuenberger C, et Wegmann D. 2010. Bayesian computation and model selection without likelihoods. Genetics 184(1):243-252. Lewontin R. 1972. The appointment of human diversity. Evol Biol 6:381-398. Li P, Chian F, Ma H, Pu C, Hing L, et Cu S. 1977. Preliminary study on the age of Yuanmou man by palaeomagnetic technique. Scientia Sinica 20(5):645-664. Li T, et Etler DA. 1992. New Middle Pleistocene hominid crania from Yunxian in China. Nature 357(6377):404-407. Li X, Dodson J, Zhou X, Zhang H, et Masutomoto R. 2007. Early cultivated wheat and broadening of agriculture in Neolithic China. Holocene 17:555-560. Liu W, Jin C, Zhang Y, Cai Y, Xing S, Wu X, Cheng H, Edwards RL, Pan W, Qin D, An Z, Trinkaus E, et Wu X. 2010. Human remains from Zhirendong, South China, and modern human emergence in East Asia. Proc Natl Acad Sci U S A 107(45):19201-19206. Liu W, Wu XJ, et Wang S. 2006. Some problems for the late Pleistocene human cranium found in Liujiang of South China based on morphological analysis. Acta Anthropologica Sinica 25(3):177-194. Liu W, Zhang Y, et Wu X. 2005. Middle Pleistocene human cranium from Tangshan (Nanjing), Southeast China: a new reconstruction and comparisons with Homo erectus from Eurasia and Africa. Am J Phys Anthropol 127(3):253-262. Lu H, Zhang J, Liu KB, Wu N, Li Y, Zhou K, Ye M, Zhang T, Zhang H, Yang X, Shen L, Xu D, et Li Q. 2009. Earliest domestication of common millet (Panicum miliaceum) in East Asia extended to 10,000 years ago. Proc Natl Acad Sci U S A 106(18):7367-7372. Lu TL-D. 1999. The Transition from Foraging to Farming and the Origin of Agriculture in China. BAR International Series No. 774. Oxford, UK: Hadrian Books. Lu TL-D. 2005. The origin and dispersal of agriculture and human diaspora in East Asia. In: Sagart L, Blench RM, and Sanchez-Mazas A (eds). The Peopling of East Asia: Putting Together Archaeology, Linguistics and Genetics. London and New York: Routledge Curzon. Lycett SJ, and Bae CJ. 2010. The Movius Line controversy: the state of the debate. World Archaeology 42(4):521-544. Macaulay V, Hill C, Achilli A, Rengo C, Clarke D, Meehan W, Blackburn J, Semino O, Scozzari R, Cruciani F, Taha A, Shaari NK, Raja JM, Ismail P, Zainuddin Z, Goodwin W, Bulbeck D, Bandelt HJ, Oppenheimer S, Torroni A, and Richards M. 231

2005. Single, rapid coastal settlement of Asia revealed by analysis of complete mitochondrial genomes. Science 308(5724):1034-1036. Malécot G. 1948. Les Mathématiques de l’Hérédité. Paris: Masson et Cie. Mantel N. 1967. The detection of disease clustering and a generalized regression approach. Cancer Res 27(2):209-220. Marjoram P, et Tavare S. 2006. Modern computational approaches for analysing molecular genetic variation data. Nat Rev Genet 7(10):759-770. Marsh SG, Parham P, et Barber LD (eds). 2000. The HLA Facts Book: Academic Press. Marsh SG, Albert ED, Bodmer WF, Bontrop RE, Dupont B, Erlich HA, Geraghty DE, Hansen JA, Mach B, Mayr WR, Parham P, Petersdorf EW, Sasazuki T, Schreuder GM, Strominger JL, Svejgaard A, et Terasaki PI. 2002. Nomenclature for factors of the HLA system, 2002. Tissue Antigens 60(5):407-464. Marsh SG, Albert ED, Bodmer WF, Bontrop RE, Dupont B, Erlich HA, Fernandez-Vina M, Geraghty DE, Holdsworth R, Hurley CK, Lau M, Lee KW, Mach B, Maiers M, Mayr WR, Muller CR, Parham P, Petersdorf EW, Sasazuki T, Strominger JL, Svejgaard A, Terasaki PI, Tiercy JM, et Trowsdale J. 2010. An update to HLA nomenclature, 2010. Bone Marrow Transplant 45(5):846-848. Martinez-Borra J, et Lopez-Larrea C. 2012. The emergence of the major histocompatilibility complex. Adv Exp Med Biol 738:277-289. Martinon-Torres M, Bermudez de Castro JM, Gomez-Robles A, Margvelashvili A, Prado L, Lordkipanidze D, et Vekua A. 2008. Dental remains from Dmanisi (Republic of Georgia): morphological analysis and comparative study. J Hum Evol 55(2):249-273. McDougall I, Brown FH, et Fleagle JG. 2005. Stratigraphic placement and age of modern humans from Kibish, Ethiopia. Nature 433(7027):733-736. Mellars P. 2006. Going east: new genetic and archaeological perspectives on the modern human colonization of Eurasia. Science 313(5788):796-800. Middleton D, Menchaca L, Rood H, et Komerofsky R. 2003. New allele frequency database: http://www.allelefrequencies.net. Tissue Antigens 61(5):403-407. Mijares AS, Detroit F, Piper P, Grun R, Bellwood P, Aubert M, Champion G, Cuevas N, De Leon A, et Dizon E. 2010. New evidence for a 67,000-year-old human presence at Callao Cave, Luzon, Philippines. J Hum Evol 59(1):123-132. Moran PA. 1950. Some remarks on population dynamics. Biometrics 6(3):250- 258. Morton CC, Kirsch IR, Nance WE, Evans GA, Korman AJ, et Strominger JL. 1984. Orientation of loci within the human major histocompatibility complex by chromosomal in situ hybridization. Proc Natl Acad Sci U S A 81(9):2816-2820. Movius HL. 1948. The Lower Palaeolithic cultures of Southern and Eastern Asia. Transactions of the American Philosophical Society 38:329-426. Nei M. 1987. Molecular Evolutionary Genetics. New York: Columbia University Press. Nei M, et Rooney AP. 2005. Concerted and birth-and-death evolution of multigene families. Annual review of genetics 39:121-152. Norton CJ, et Braun DR (eds). 2010. Asian . Springer Verlag Gmbh. Norton CJ, et Jin JJH. 2009. The evolution of modern human behavior in East Asia. Evolutionary Anthropology 18:247-260. 232

Nunes JM, Riccio ME, Buhler S, Di D, Currat M, Ries F, Almada AJ, Benhamamouch S, Benitez O, Canossi A, Fadhlaoui-Zid K, Fischer G, Kervaire B, Loiseau P, de Oliveira DC, Papasteriades C, Piancatelli D, Rahal M, Richard L, Romero M, Rousseau J, Spiroski M, Sulcebe G, Middleton D, Tiercy JM, et Sanchez-Mazas A. 2010. Analysis of the HLA population data (AHPD) submitted to the 15th International Histocompatibility/Immunogenetics Workshop by using the Gene[rate] computer tools accommodating ambiguous data (AHPD project report). Tissue antigens 76(1):18-30. O’Connell JF, et Allen FJ. 2004. Dating the colonization of Sahul (Pleistocene Australia- New Guinea): A review of recent research. Journal of Archaeological Science 31:835-853. Orlóci L. 1978. Multivariate Analysis in Vegetation Research. The Hague: Dr W. Junk B. V. Otte M. 2010. La préhistoire de la Chine et de l’Extrême-Orient. Paris: Editions Errance. Pai HI, et Timothy RT (eds). 1998. Nationalism and the Construction of Korean Identity: Institute of East Asian Studies, University of California. Pakendorf B, Wiebe V, Tarskaia LA, Spitsyn VA, Soodyall H, Rodewald A, et Stoneking M. 2003. Mitochondrial DNA evidence for admixed origins of central Siberian populations. Am J Phys Anthropol 120(3):211-224. Panter-Brick C, Layton RH, et Rowley-Conwy P (eds). 2001. Hunter-Gatherers: An Interdisciplinary Perspective: Cambridge University Press. Peakall R, et Smouse PE. 2006. GENALEX 6: genetic analysis in Excel. Population genetic software for teaching and research. Molecular Ecology Notes 6:288-295. Peakall R, et Smouse PE. 2010. Read me GenAlEx 6.41 (User Manual). Pei W. 1929. An account of the discovery of an adult sinanthropus skull in the Chou Kou Tien deposit. Bulletin of the Geological Society of China 8(3):203-205. Pei W. 1934. A preliminary report on the Late Palaeolithic cave of Choukoutien. Bulletin of the Geological Society of China 13(3):327-358. Pei W. 1939. The Upper Cave industry of Choukoutien. Palaeontologia Sinica. New Series D 9:1-41. Pickrell JK, Patterson N, Barbieri C, Berthold F, Gerlach L, Guldemann T, Kure B, Mpoloka SW, Nakagawa H, Naumann C, Lipson M, Loh PR, Lachance J, Mountain J, Bustamante CD, Berger B, Tishkoff SA, Henn BM, Stoneking M, Reich D, et Pakendorf B. 2012. The genetic of southern Africa. Nature communications 3:1143. Poloni ES, Sanchez-Mazas A, G. Jacques, et Sagart L. 2005. Comparing linguistic and genetic relationships among East Asian populations: A study of the RH and GM polymorphisms. In: Sagart L, Blench R, et Sanchez-Mazas A (eds). The Peopling of East Asia: Putting Together Archaeology, Linguistics and Genetics. London and New York: Routledge Curzon. Pritchard JK, et Rosenberg NA. 1999. Use of unlinked genetic markers to detect population stratification in association studies. Am J Hum Genet 65(1):220-228. Reich D, Green RE, Kircher M, Krause J, Patterson N, Durand EY, Viola B, Briggs AW, Stenzel U, Johnson PL, Maricic T, Good JM, Marques-Bonet T, Alkan C, Fu Q, Mallick S, Li H, Meyer M, Eichler EE, Stoneking M, Richards M, Talamo S, Shunkov MV, Derevianko AP, Hublin JJ, Kelso J, Slatkin M, and Paabo S. 2010. 233

Genetic history of an archaic hominin group from Denisova Cave in Siberia. Nature 468(7327):1053-1060. Relethford JH. 2008. Genetic evidence and the modern human origins debate. Heredity (Edinb) 100(6):555-563. Relethfordm J. 2007. Population genetics and paleoanthropology. In: Henke W, et Tattersall I (eds). Handbook of Paleoanthropology Principles, Methods and Approaches. Berlin: Springer-Verlag. p 621-641. Renfrew C. 1996. Language families and the spread of farming In: Harris DR (eds). The Origins and Spread of Agriculture and Pastoralism: UCL Press. Reynolds J, Weir BS, et Cockerham CC. 1983. Estimation of the coancestry coefficient: basis for a short-term genetic distance. Genetics 105(3):767-779. Riccio ME, Buhler S, Nunes JM, Vangenot C, Cuenod M, Currat M, Di D, Andreani M, Boldyreva M, Chambers G, Chernova M, Chiaroni J, Darke C, Di Cristofaro J, Dubois V, Dunn P, Edinur HA, Elamin N, Eliaou JF, Grubic Z, Jaatinen T, Kanga U, Kervaire B, Kolesar L, Kunachiwa W, Lokki ML, Mehra N, Nicoloso G, Paakkanen R, Voniatis DP, Papasteriades C, Poli F, Richard L, Romon Alonso I, Slavcev A, Sulcebe G, Suslova T, Testi M, Tiercy JM, Varnavidou A, Vidan- Jeras B, Wennerstrom A, et Sanchez-Mazas A. 2013. 16(th) IHIW: Analysis of HLA Population Data, with updated results for 1996 to 2012 workshop data (AHPD project report). International journal of immunogenetics 40(1):21-30. Ries F. 2009. Etude du polymorphisme HLA-DRB1 de trois populations éthiopiennes et d’autres populations africaines. Travail de master. Genève: Université de Genève. Robbeets MI. 2005. Is Japanese Related to Korean, Tungusic, Mongolic and Turkic? Wiesbaden: Harrassowitz Verlag. Robinson J, et Marsh SG. 2000. The IMGT/HLA sequence database. Rev Immunogenet 2(4):518-531. Robinson J, Mistry K, McWilliam H, Lopez R, Parham P, et Marsh SGE. 2011. The IMGT/HLA database. Nucleic Acids Res 39(Database issue):D1171-1176. Rohlf FJ. 2000. NTSYS-pc: Numerical Taxonomy and Multivariate Analysis System: Version 2.1. Applied Biostatistics. Rosenberg MS. 2001. PASSaGE. Pattern Analysis, Spatial Statistics, and Geographic Exegesis. 1.0 ed. Tempe, AZ: Department of Biology, Arizona State University. Sagart L. 1994. Old Chinese and Proto-Austronesian evidence for Sino-Austronesian. Oceanic Linguistics 33:271-308. Sagart L. 2005a. The formation of East Asian Language families: a partial scenario. Languages and genes: recent work and emerging results. Aussois. 22-25 sep. 2005. Sagart L. 2005b. Sino-Tibetan-Austronesian: an updated and improved argument. In: Sagart L, Blench R, et Sanchez-Mazas A (eds). The Peopling of East Asia: Putting Together Archaeology, Linguistics and Genetics. London and New York: Routledge Curzon. p 161-176. Sanchez-Mazas A, et Langaney A. 1988. Common genetic pools between human populations. Human genetics 78(2):161-166. Sanchez-Mazas A. 1990. Polymorphisme des Systèmes Immunologiques Rhésus, Gm et HLA et Histoire du Peuplement Humain. Thèse de doctorat. Genève: Université de Genève.

234

Sanchez-Mazas A. 2001. African diversity from the HLA point of view: influence of genetic drift, geography, linguistics, and natural selection. Hum Immunol 62(9):937-948. Sanchez-Mazas A. 2002. HLA data analysis in anthropology: basic theory and practice. 16th European Histocompatibility Conference of the European Federation for Immunogenetics (EFI). Strasbourg. Sanchez-Mazas A. 2007. An apportionment of human HLA diversity. Tissue Antigens 69 Suppl 1:198-202. Sanchez-Mazas A, Blench R, Ross M, Peiros I, et Lin M. 2008. Past Human Migrations in East Asia. London and New York: Routledge Curzon. Sanchez-Mazas A, et Buhler S. 2009. Structure génétique des populations du pourtour méditerranéen d’après les polymorphismes GM et HLA-DRB1. In: Serageldin I, Crubézy E, Gibert M, et El-Faham M (eds). Le peuplement de la Méditerranée: Synthèse et questions d’avenir. Alexandria: Bibliotheca Alexandrina. p 15-32. Sanchez-Mazas A, Di D, et Riccio ME. 2011a. A genetic focus on the peopling history of East Asia: critical views Rice(4):159-169. Sanchez-Mazas A, Fernandez-Vina M, Middleton D, Hollenbach JA, Buhler S, Di D, Rajalingam R, Dugoujon J-M, Mack SJ, et Thorsby E. 2011b. Immunogenetics as a tool in anthropological studies. Immunology 133(2):143-164. Sanchez-Mazas A, Lemaitre JF, et Currat M. 2012a. Distinct evolutionary strategies of human leucocyte antigen loci in pathogen-rich environments. Philosophical transactions of the Royal Society of London Series B, Biological sciences 367(1590):830-839. Sanchez-Mazas A, Poloni ES, Jacques G, et Sagart L. 2005. HLA genetic diversity and linguistic variation in East Asia. In: Sagart L, Blench R, et Sanchez-Mazas A (eds). The Peopling of East Asia: Putting Together Archaeology, Linguistics and Genetics. London and New York: Routledge Curzon. p 273-296. Sanchez-Mazas A, Vidan-Jeras B, Nunes JM, Fischer G, Little AM, Bekmane U, Buhler S, Buus S, Claas FH, Dormoy A, Dubois V, Eglite E, Eliaou JF, Gonzalez- Galarza F, Grubic Z, Ivanova M, Lie B, Ligeiro D, Lokki ML, da Silva BM, Martorell J, Mendonca D, Middleton D, Voniatis DP, Papasteriades C, Poli F, Riccio ME, Vlachou MS, Sulcebe G, Tonks S, Nevessignsky MT, Vangenot C, van Walraven AM, et Tiercy JM. 2012b. Strategies to work with HLA data in human populations for histocompatibility, clinical transplantation, epidemiology and population genetics: HLA-NET methodological recommendations. International journal of immunogenetics 39(6):459-472; quiz 473-456. Sanchez-Mazas A. 2013. HLA in Europe: immunogenetic diversity of Europeans from an evolutionary point of view. Genetic Diversity and Origins of Europeans (Closing conference of COST Action BM0803). Genève. 15-16 jan. 2013. Satta Y, O’hUigin C, Takahata N, et Klein J. 1994. Intensity of natural selection at the major histocompatibility complex loci. Proc Natl Acad Sci U S A 91(15):7184- 7188. Schlosser M. 1903. Die fossilen Saugetiere Chinas nebst einer Odontographie der recenten Antilopen. Abhandlungen der Bayerischen Akademie der Wissenshaften München 22(1):3-220. 235

Schmidt W. 1906. Die Mon-Khmer-Völker, ein Bindeglied zwischen Völkern Zentralasiens und Austronesiens. Braunschweig. Schwarcz HP. 2002. Chronometric dating in archaeology: a review. Accounts of chemical research 35(8):637-643. Shang H, Tong H, Zhang S, Chen F, et Trinkaus E. 2007. An from Tianyuan Cave, Zhoukoudian, China. Proceedings of the National Academy of Sciences of the United States of America 104(16):6573-6578. Shen G, Wang W, Wang Q, Zhao J, Collerson K, Zhou C, et Tobias PV. 2002. U-Series dating of Liujiang hominid site in , Southern China. J Hum Evol 43(6):817-829. Shi H, Dong YL, Wen B, Xiao CJ, Underhill PA, Shen PD, Chakraborty R, Jin L, et Su B. 2005. Y-chromosome evidence of southern origin of the East Asian-specific haplogroup O3-M122. Am J Hum Genet 77(3):408-419. Shi H, Zhong H, Peng Y, Dong YL, Qi XB, Zhang F, Liu LF, Tan SJ, Ma RZ, Xiao CJ, Wells RS, Jin L, et Su B. 2008. Y chromosome evidence of earliest modern human settlement in East Asia and multiple origins of Tibetan and Japanese populations. BMC Biol 6:45. Smith FH, Jankoviae I, et Karavaniae I. 2005. The assimilation model, modern human origins in Europe, and the extinction of the Neandertals. Quaternary Intern 137:7- 19. Smouse PE, Long JC, et Sokal RR. 1986. Multiple regression and correlation extensions of the Mantel test of matrix correspondence. Systematic Zoology 35:627-632. Solberg OD, Mack SJ, Lancaster AK, Single RM, Tsai Y, Sanchez-Mazas A, et Thomson G. 2008. Balancing selection and heterogeneity across the classical human leukocyte antigen loci: a meta-analytic review of 497 population studies. Hum Immunol 69(7):443-464. Stewart FM. 1977. Computer algorithm for obtaining a random set of allele frequencies for a locus in an equilibrium population. Genetics 86:482-483. Stringer CB. 2001. Dating the origin of modern humans. In: Lewis CLE, et Knell SJ (eds). The Age of the Earch: From 4004 BC to AD 2002. London: Geological Society of London. p 265-274. Su B, Xiao J, Underhill P, Deka R, Zhang W, Akey J, Huang W, Shen D, Lu D, Luo J, Chu J, Tan J, Shen P, Davis R, Cavalli-Sforza L, Chakraborty R, Xiong M, Du R, Oefner P, Chen Z, et Jin L. 1999. Y-Chromosome evidence for a northward migration of modern humans into Eastern Asia during the last Ice Age. Am J Hum Genet 65(6):1718-1724. Sun C, Kong QP, Palanichamy MG, Agrawal S, Bandelt HJ, Yao YG, Khan F, Zhu CL, Chaudhuri TK, et Zhang YP. 2006. The dazzling array of basal branches in the mtDNA macrohaplogroup M from India as inferred from complete genomes. Mol Biol Evol 23(3):683-690. Sun H, Hu Z, et Huang X (eds). 2007. Languages of China. Beijing: The Commercial Press. Suzuki H. 1983. The Yamashita-Cho Man, A late Pleistocene infantile skeleton from the Yamashita-cho Cave (Okinawa). Bulletins et Mémoires de la Société d’anthropologie de Paris 10(1):81-87. 236

Tavaré S, Balding DJ, Griffiths RC, et Donnelly P. 1997. Inferring coalescence times from DNA sequence data. Genetics 145(2):505-518. Templeton A. 2002. Out of Africa again and again. Nature 416(6876):45-51. Terasaki PI, Mandell M, Vandewater J, et Edgington TS. 1964. Human blood lymphocyte cytotoxicity reactions with allogenic antisera. Ann N Y Acad Sci 120:322-334. Terasaki PI, et McClelland JD. 1964. Microdroplet assay of human serum cytotoxins. Nature 204:998-1000. Thangaraj K, Chaubey G, Kivisild T, Reddy AG, Singh VK, Rasalkar AA, et Singh L. 2005. Reconstructing the origin of Andaman Islanders. Science 308(5724):996. Tregear TR. 2007. A Geography of China. Piscataway: Aldine Transaction. Trinkaus E. 2005. Early modern humans. Annual Review of Anthropology 34:207-230. Turner CG, 2nd. 1987. Late Pleistocene and Holocene population history of East Asia based on dental variation. Am J Phys Anthropol 73(3):305-321. Vasil’ev SA. 1993. The Upper Palaeolithic of Northern Asia. Current Anthropology 34:82-92. von Klaproth J. 1823. Asia Polyglotta. Paris: A. Schubart. von Salome J, Gyllensten U, et Bergstrom TF. 2007. Full-length sequence analysis of the HLA-DRB1 locus suggests a recent origin of alleles. Immunogenetics 59(4):261- 271. Wang ZH (eds). 1994. History of nationalities in China. Beijing: China Social Science Press. Watterson GA. 1978. The Homozygosity Test of Neutrality. Genetics 88(2):405-417. Watterson GA. 1986. The homozygosity test after a change in population size. Genetics 112(4):899-907. Wegmann D, Leuenberger C, et Excoffier L. 2009a. Using ABCtoolbox (Manuel d’ABCtoolbox). Wegmann D, Leuenberger C, et Excoffier L. 2009b. Efficient approximate Bayesian computation coupled with Markov chain Monte Carlo without likelihood. Genetics 182(4):1207-1218. Wegmann D, Leuenberger C, Neuenschwander S, et Excoffier L. 2010. ABCtoolbox: a versatile toolkit for approximate Bayesian computations. BMC Bioinformatics 11:116. Weinberg W. 1908. Über den Nachweis der Vererbung beim Menschen. Jahreshefte des Vereins Varterländische Naturkdunde in Württemberg 64:369-382. Weindenreich F. 1937. The dentition of Sinathropus pekinensis: a comparative odontography of the homonids. Palaeontologia Sinica New Series D(1):1-180. Wen B, Li H, Lu D, Song X, Zhang F, He Y, Li F, Gao Y, Mao X, Zhang L, Qian J, Tan J, Jin J, Huang W, Deka R, Su B, Chakraborty R, et Jin L. 2004a. Genetic evidence supports demic diffusion of Han culture. Nature 431(7006):302-305. Wen B, Xie X, Gao S, Li H, Shi H, Song X, Qian T, Xiao C, Jin J, Su B, Lu D, Chakraborty R, et Jin L. 2004b. Analyses of genetic structure of Tibeto-Burman populations reveals sex-biased admixture in southern Tibeto-Burmans. American journal of human genetics 74(5):856-865. Willerslev E, et Cooper A. 2004. Ancient DNA. Proceedings of the Royal Society 272:3- 16. 237

Woo JK. 1965. Preliminary report on a skull of Sinanthropus lantianensis of Lantian, Shensi. Scientia Sinica 14(7):1032-1036. Wright S. 1943. Isolation by distance. Genetics 28:114-138. Wright S. 1951. The genetical structure of populations. Annals of eugenics 15:323-354. Wu R. 1962. New advances in the paleoanthropology of China. Chinese Science Bulletin(8):14-22. Wu R, et Dong X. 1985. Homo erectus in China. In: Wu R, et Olsen JW (eds). Palaeoanthropology and Palaeolithic Archaeology in the People’s Republic of China: Academic Press, inc. p 79-89. Wu R, et Olsen JW (eds). 1985. Palaeoanthropology and palaeolithic archaeology in the People’s Republic of China: Academic Press, inc. Wu X. 2004. On the origin of modern humans in China. Quaternary International 117(1):131-140. Wu X. 2006. New arguments on continuity of human evolution in China. Acta Anthropologica Sinica 25(1):17-25. Wu X, Liu W, et Bae C. 2012. Craniofacial variation between southern and northern Neolithic and modern Chinese. International Journal of Osteoarchaeology 22(2012):98-109. Wu X. 1998. Origin of modern humans of China viewed from vranio-dental characteristics of late Homo sapiens in China. Acat Anthropologica Sinica 17(4):276-282. Wu X, Liu W, Gao X, et G.M. Y. 2006. Huanglong Cave, a new late Pleistocene hominid site in Hubei Province. Chinese Science Bulletin 51:2493-2499. Wu X, et Zhang Y. 1978. Chinese palaeoanthropological multidisciplinary studies. In: the Institut of Vertebrate Palaeontology and Palaeoanthropology CAoS (eds). Gurenlei Lunwenji (Collected Papers of Palaeoanthropology). Beijing: Science Press. p 28-42. Wurm SA, T’sou B, Bradley D, Li R, Xiong Z, Zhang Z, Fu M, Wang J, et Dob (eds). 1987. Language Atlas of China. Hong Kong: Longman Group (Far East) Ltd. Xiao CJ, Cavalli-Sforza LL, Minch E, et Du RF. 2000. Geographic distribution maps of human genes in China. Yi Chuan Xue Bao 27(1):1-6. Xie T, Rowen L, Aguado B, Ahearn ME, Madan A, Qin S, Campbell RD, et Hood L. 2003. Analysis of the gene-dense major histocompatibility complex class III region and its comparison to mouse. Genome Res 13(12):2621-2636. Xue F, Wang J, Hu P, Ma D, Liu J, Li G, Zhang L, Wu M, Sun G, et Hou H. 2005. Identification of spatial genetic boundaries using a multifractal model in human population genetics. Human biology 77(5):577-617. Xue F, Wang Y, Xu S, Zhang F, Wen B, Wu X, Lu M, Deka R, Qian J, et Jin L. 2008. A spatial analysis of genetic structure of human populations in China reveals distinct difference between maternal and paternal lineages. Eur J Hum Genet 16(6):705- 717. Xue Y, Zerjal T, Bao W, Zhu S, Shu Q, Xu J, Du R, Fu S, Li P, Hurles ME, Yang H, et Tyler-Smith C. 2006. Male demography in East Asia: a north-south contrast in human population expansion times. Genetics 172(4):2431-2439. Yan Y, Wu X, et Liu C. 1960. A study on the ancient human skulls from Banpo, Xi’an. Kaogu(9). 238

Yao Y, Kong Q, Man X, Bandelt H, et Zhang Y. 2003. Reconstructing the evolutionary history of China: a caveat about inferences drawn from ancient DNA. Mol Biol Evol 20(2):214-219. Yao YG, Nie L, Harpending H, Fu YX, Yuan ZG, et Zhang YP. 2002. Genetic relationship of Chinese ethnic populations revealed by mtDNA sequence diversity. Am J Phys Anthropol 118(1):63-76. Zhang F, Su B, Zhang YP, et Jin L. 2007a. Genetic studies of human diversity in East Asia. Philos Trans R Soc Lond B Biol Sci 362(1482):987-995. Zhang MA, Borjigin E, et Zhang H. 2007b. Mongolian nomadic culture and ecological culture: On the ecological reconstruction in the agro-pastoral mosaic zone in Northern China. Ecological economics 62:19-26. Zhang S, Jin C, Wei G, Xu Q, Han L, et Zheng L. 2000. On the artifacts unearthed from the Renzidong Paleolithic site in 1998. Acat Anthropologica Sinica 19:169-183. Zhang ZB. 1988. An analysis of the physical characteristics of modern Chinese. Acat Anthropologica Sinica 7(4):314-323. Zhang Z, Huang J, et Wu J. 2003. Palaeolithic Archaeology of China. Nanjing: Nanjing University Press. Zhao TM, et Lee TD. 1989. Gm and Km allotypes in 74 Chinese populations: a hypothesis of the origin of the Chinese nation. Hum Genet 83(2):101-110. Zhao ZJ. 1998. The Middle Yangtze region in China is one place where rice was domesticated: phytolith evidence from the Diaotonghuan Cave, Northern Jiangxi. Antiquity 278:885-897. Zhong H, Shi H, Qi XB, Duan ZY, Tan PP, Jin L, Su B, et Ma RZ. 2011. Extended Y chromosome investigation suggests postglacial migrations of modern humans into East Asia via the northern route. Mol Biol Evol 28(1):717-727. Zhu H. 2004. Ethnological pattern of Chinese populations. Physical anthropology (in Chinese). Beijing: China Higher Education Press. p 346-359. Zhu R, Anb Z, Pottsc R, et Hoffmand KA. 2003. Magnetostratigraphic dating of early humans in China. Earth-Science Reviews 61(3–4):341-359. Zhu RX, Potts R, Xie F, Hoffman KA, Deng CL, Shi CD, Pan YX, Wang HQ, Shi RP, Wang YC, Shi GH, and Wu NQ. 2004. New evidence on the earliest human presence at high northern latitudes in northeast Asia. Nature 431(7008):559-562.

239

8. Annexes

Annexe-1 Informations des populations étudiées dans ce travail avec le numéro correspondant de chaque population sur la carte géographique (Figure 2-1)……S1

Annexe-2 Graphiques d’autocorrélation spatiale des allèles de groupe-1 et de groupe-2, leur répartition dans les populations est-asiatiques illustrée par nos données, ainsi que leur répartition géographique à l’échelle globale…………………………..S23

Annexe-3 Diversité génétique observée entre groupes linguistiques et entre populations au sein des groupes linguistiques (d’après ANOVA)…………………………..S29

Annexe-4 Comparaison entre les valeurs retenues des simulations et les valeurs observées des PLS……………………………………………………………...S35

Annexe-5 Scripts informatiques pour l’automatisation de l’estimation ABC…………S49

240

Annexe 1 Informations des populations étudiées dans ce travail avec le numéro correspondant de chaque population sur la carte géographique (Figure 2-1). L’hétérozygotie estimée H est aussi indiquée pour chaque population.

HLA-A données alléliques

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons Xinjiang 1 Ouïghour 162 162_Ouïghours Chine 87,7 43,8 Altaïque Yan et al. 2002 PCR-SSOP 0,90657 (Ürümqi) 7 Touvain 188 188_Touvains Russie Novosibirsk-Kyzyl 92,5 52,0 Altaïque 13ème IHWS 2002 RLS 0,89522

10 Bouriate 140 140_Bouriates Russie Angarsk 103,9 52,5 Altaïque 13ème IHWS 2002 SSP-SCORE 0,90801

17 Mongol 102 102_Mongols Chine Mongolie intérieure 111,6 40,8 Altaïque Hong et al. 2007 PCR-SBT 0,9008 Corée du 21 Coréen 485 485_Coréens - 127,0 37,5 Isolat Lee et al. 2005 PCR-SSOP 0,87365 Sud 25 Japonais 371 371_Japonais Japon Région centrale 137,0 36,0 Japonique Saito et al. 2000 PCR-SSP 0,8096

28 Ryukyuen 105 105_Ryukyuens Japon Okinawa 128,0 26,5 Japonique 13ème IHWS 2002 RLS 0,81905 Hubei Sino-tibétain 49 Tujia 190 190_Tujia Chine 110,6 30,2 Qiu et al. 2006 PCR-SBT 0,9096 (Wufeng) (tibéto-birman)

Sino-tibétain S1 31 Tibétain 158 158_Tibétains Chine Tibet 91,0 29,6 Chen et al. 2006 PCR-SSP 0,84223 (tibéto-birman) Sino-tibétain 30 Monba 47 47_Monba Chine Tibet 95,3 29,2 Zhang et al. 2005 PCR-SSO 0,89659 (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26,0 Chen et al. 2007 PCR-SBT 0,74209 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26,0 Chen et al. 2007 PCR-SBT 0,73014 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 40 Jinuo 109 109_Jinuo Chine 100,8 22,0 Shi et al. 2008 PCR-SSO 0,78311 (Jinghong) (tibéto-birman) Liaoning Sino-tibétain 55 Han 108 108_Liaoning_Han Chine 123,4 41,7 Han et al. 2005 PCR-SSOP 0,89397 () (sinitique) Han en Sino-tibétain 60 67 67_Beijing_Han Chine Pékin 116,4 39,9 Sun et al. 1999 PCR-SSOP 0,89777 principe (sinitique) Shaanxi Sino-tibétain 74 Han 165 165_Xi’an_Han Chine 112,4 37,9 Yan et al. 2002 PCR-SSOP 0,90566 (Xi’an) (sinitique) Sino-tibétain 105 Han 569 569_Hongkong_Han Chine Hongkong 114,0 22,2 13ème IHWS 2002 PCR-SSOP 0,85217 (sinitique) Guangdong Sino-tibétain 100 Han 282 282_Guangdong_Han Chine 113,3 23,2 13ème IHWS 2002 RLS 0,85518 (Canton) (sinitique) Guangdong Sino-tibétain 107 Han 99 99_Meizhou_Han Chine 116,1 24,6 Chen et al. 2007 PCR-SBT 0,83433 (Meizhou) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu et Pintung 121,0 24,8 Lin et al. 2002 RLS 0,80033 (Hakka) (Taïwan) (sinitique) Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122,0 25,1 Lin et al. 2002 RLS 0,83816 (Hoklo) (Taïwan) (sinitique) 113 Miao 85 85_Miao Chine 107,2 26,6 Hmong-mien Chen et al. 2007 PCR-SBT 0,80724 (Guiding) Guizhou 122 Buyei 109 109_Buyei Chine 107,9 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,8146 (Libo)

Guizhou 133 Shui 153 153_Shui Chine 107,8 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,80692 (Libo) Guangxi 134 Maonan 108 108_Maonan Chine 108,2 24,8 Tai-kadai Ogata et al. 2007 PCR-SSOP 0,80267 (Huanjiang) 126 Thaïlandais 98 98_Thaïlandais Thaïlande - 100,5 13,8 Tai-kadai 13ème IHWS 2002 RLS 0,87258 PCR-SSOP 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21,0 Austro-asiatique Hoa et al. 2007 0,89127 et -SBT communication 137 Kinh 140 140_Kinh Vietnam Hanoï 106,0 21,1 Austro-asiatique personnelle 2006 PCR-SSO 0,87317 communication 138 Muong 102 102_Muong Vietnam Hoa Binh 105,0 20,5 Austro-asiatique personnelle 2006 PCR-SSO 0,88998 Yunnan 140 Wa 119 119_Wa Chine 99,3 23,0 Austro-asiatique Shi et al. 2008 PCR-SSO 0,61483 (Cangyuan, Ximeng)

HLA-A données génériques

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons Xinjiang 1 Ouïghour 162 162_Ouïghours Chine 87,7 43,8 Altaïque Yan et al. 2002 PCR-SSOP 0,87564 (Ürümqi) 12 Tsaatan 72 72_Tsaatan Mongolie Hovsgol 100,0 50,0 Altaïque Machulla et al. 2003 PCR-SSP 0,85111

7 Touvain 188 188_Touvains Russie Novosibirsk-Kyzyl 92,5 52,0 Altaïque 13ème IHWS 2002 RLS 0,84967

10 Bouriate 140 140_Bouriates Russie Angarsk 103,9 52,5 Altaïque 13ème IHWS 2002 SSP-SCORE 0,81669 S2 13 Oold 52 52_Oold Mongolie Hovd 95,0 47,0 Altaïque Machulla et al. 2003 PCR-SSP 0,82786 Mongolie du Centre 14 Khalkha 100 100_Khalkha Mongolie 106,9 47,9 Altaïque Machulla et al. 2003 PCR-SSP 0,8602 et de l’Est 16 Mongol 106 106_Mongols Chine Mongolie intérieure 111,7 40,8 Altaïque Shen et al. 2008 PCR-SSO 0,83381 Corée du 21 Coréen 485 485_Coréens - 127,0 37,0 Isolat Lee et al. 2005 PCR-SSOP 0,82645 Sud 25 Japonais 371 371_Japonais Japon Région centrale 137,0 36,0 Japonique Saito et al. 2000 PCR-SSP 0,76866

28 Ryukyuen 105 105_Ryukyuens Japon Okinawa 128,0 26,5 Japonique 13ème IHWS 2002 RLS 0,76268 Sino-tibétain 30 Monba 47 47_Monba Chine Tibet 95,3 29,2 Zhang et al. 2005 PCR-SSO 0,779 (tibéto-birman) Sino-tibétain 31 Tibétain 158 158_Tibétain Chine Tibet 91,1 29,7 Chen et al. 2006 PCR-SSP 0,77167 (tibéto-birman) Tibet Sino-tibétain 35 Luoba 92 92_Luoba Chine 94,3 29,5 Kang et al. 2005 PCR-SSO 0,74347 (Linzhi) (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26,0 Chen et al. 2007 PCR-SBT 0,62951 (Nujiang) (tibéto-birman) Sichuan Sino-tibétain 37 Yi 102 102_Yi Chine 102,3 27,9 Lu et al. 2003 PCR-SSP 0,7874 (Liangshan) (tibéto-birman) Yunnan Sino-tibétain 40 Jinuo 109 109_Jinuo Chine 100,8 22,0 Shi et al. 2008 PCR-SSO 0,72655 (Jinghong) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26,0 Chen et al. 2007 PCR-SBT 0,64486 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 46 Naxi 108 108_Naxi Chine 100,2 26,9 Shi et al. 2006 PCR-SSP 0,74216 (Lijiang) (tibéto-birman) Hubei Sino-tibétain 49 Tujia 190 190_Tujia Chine 110,6 30,2 Qiu et al. 2006 PCR-SBT 0,72625 (Wufeng) (tibéto-birman)

Sino-tibétain 51 Han 8962 8962_Liaoning_Han Chine Liaoning 123,4 41,8 Qu 2005 PCR-SSP 0,82424 (sinitique) Liaoning Sino-tibétain 55 Han 108 108_Shenyang_Han Chine 123,4 41,7 Han et al. 2005 PCR-SSOP 0,83768 (Shenyang) (sinitique) Liaoning Sino-tibétain PCR-SSP et 56 Han 9678 9678_Liaonan_Han Chine 123,0 41,2 Meng et al. 2007 0,82708 (Liaonan) (sinitique) -SSO Han en Sino-tibétain 60 67 67_Pékin_Han Chine Pékin 116,4 39,9 Sun et al. 1999 PCR-SSOP 0,84693 principe (sinitique) Sino-tibétain 66 Han 2200 2200_Henan_Han Chine Henan 113,6 34,8 Guo et al. 2004 PCR-rSSO 0,85315 (sinitique) Sino-tibétain PCR-SSP et 67 Han 7418 7418_Shandong_Han Chine Shandong 117,0 36,6 Song et al. 2006 0,84412 (sinitique) -SSOP Shandong Sino-tibétain 70 Han 1383 1383_Qingdao_Han Chine 120,3 36,1 Li et al. 2005 PCR-SSP 0,85105 (Qingdao) (sinitique) Sino-tibétain 71 Han 7440 7440_Shanxi_Han Chine Shanxi 112,5 37,9 Lan et al. 2005 PCR-SSP 0,82436 (sinitique) Shaanxi Sino-tibétain 73 Han 7016 7016_Xi'an_Han Chine 108,9 34,3 Liu et al. 2005 PCR-SSP 0,83096 (Xi'an) (sinitique) Gansu Sino-tibétain 76 Han 200 200_Lanzhou_Han Chine 103,7 36,0 Li et al. 2006 PCR-SSP 0,81506 (Lanzhou) (sinitique) Sino-tibétain PCR-SSP et 77 Han 20248 20248_Jiangsu_Han Chine Jiangsu 120,0 33,0 Miao et al. 2007 0,82761 (sinitique) -rSSOP PCR-SSP, Sino-tibétain 79 Han 2816 2816_Anhui_Han Chine Anhui 117,3 31,9 Gao et al. 2005 -SSOP et 0,82765 (sinitique) -SBT Sino-tibétain PCR-SSP et 81 Han 4026 4026_Hubei_Han Chine Hubei 114,3 30,5 Zhu et al. 2006 0,79224 (sinitique) -SSOP Han en Sino-tibétain PCR-SSP et

85 11134 11134_Sichuan_Han Chine Sichuan 104,1 30,7 Zeng 2005 0,77619 S3 principe (sinitique) -SSO Jiangsu, Sino-tibétain 88 Han 3103 3103_JZH_Han Chine Zhejiang, 121,0 31,0 Chen et al. 2005 PCR-SSP 0,79775 (sinitique) Shanghaï Sino-tibétain 92 Han 3664 3664_Hunan_Han Chine 113,0 28,2 Xie et al. 2006 PCR-SSP 0,7436 (sinitique) PCR-SSP, - Sino-tibétain 95 Han 2210 2210_Jiangxi_Han Chine Jiangxi 115,9 28,7 Cheng et al. 2006 SSOP et - 0,76907 (sinitique) SBT Sino-tibétain 98 Han 406 406_Guangdong_Han Chine Guangdong 113,2 23,2 Xiao et al. 1999 PCR-SSP 0,76582 (sinitique) Han en Guangdong Sino-tibétain 99 102 102_Guangzhou_Han Chine 113,2 23,3 Sun et al. 1999 PCR-SSOP 0,75186 principe (Guangzhou) (sinitique) Sino-tibétain 105 Han 569 569_Hongkong_Han Chine Hongkong 114,0 22,2 13ème IHWS 2002 PCR-SSOP 0,75424 (sinitique) Guangdong Sino-tibétain 107 Han 99 99_Meizhou_Han Chine 116,1 24,6 Chen et al. 2007 PCR-SBT 0,62883 (Meizhou) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu et Pintung 121,0 24,8 Lin et al. 2002 RLS 0,73511 (Hakka) (Taïwan) (sinitique) Guangdong Sino-tibétain 109 Han 505 505_Chaoshan_Han Chine 116,7 23,5 Hu et al. 2006 PCR-SSP 0,73788 (Chaoshan) (sinitique) Sino-tibétain 110 Han 171 171_Fujian_Han Chine Fujian 118,1 24,5 Huang et al. 2004 PCR-SSO 0,76946 (sinitique) Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122,0 25,1 Lin et al. 2002 RLS 0,7506 (Hoklo) (Taïwan) (sinitique) 113 Miao 70 70_Miao Chine - 108,0 27,0 Hmong-mien 11ème IHWS 1991 - 0,70349 Guizhou 114 Miao 85 85_Miao Chine 107,2 26,6 Hmong-mien Chen et al. 2007 PCR-SBT 0,69544 (Guiding)

119 Zhuang 265 265_Zhuang Chine Guangxi 108,3 22,8 Tai-kadai Pan et al. 2007 PCR-SSP 0,75935 Guizhou 122 Buyei 109 109_Buyei Chine 107,9 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,69013 (Libo) 126 Thaïlandais 98 98_Thaïlandais Thaïlande - 100,5 13,8 Tai-kadai 13ème IHWS 2002 RLS 0,77174 Guizhou 133 Shui 153 153_Shui Chine 107,8 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,67935 (Libo) Guangxi 134 Maonan 108 108_Maonan Chine 108,2 24,8 Tai-kadai Ogata et al. 2007 PCR-SSOP 0,64612 (Huanjiang) 117 Li 81 81_Li Chine Hainan 109,5 18,8 Tai-kadai Chen 1999 MLCT 0,81481 PCR-SSOP 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21,0 Austro-asiatique Hoa et al. 2007 0,80911 et -SBT communication 137 Kinh 140 140_Kinh Vietnam Hanoï 106,0 21,1 Austro-asiatique 2006 PCR-SSO 0,78543 personnelle communication 138 Muong 102 102_Muong Vietnam Hoa Binh 105,0 20,5 Austro-asiatique 2006 PCR-SSO 0,72259 personnelle Yunnan 140 Wa 119 119_Wa Chine 99,3 23,0 Austro-asiatique Shi et al. 2008 PCR-SSO 0,60561 (Cangyuan, Ximeng)

HLA-B données alléliques

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons

7 Touvain 180 180_Touvains Russie Novosibirsk-Kyzyl 92,5 52,0 Altaïque 13ème IHWS 2002 RLS 0,95881 S4 17 Mongol 102 102_Mongols Chine Mongolie intérieure 111,6 40,8 Altaïque Hong et al. 2007 PCR-SBT 0,9645 Corée du 21 Coréen 485 485_Coréens - 127,0 37,5 Isolat Lee et al. 2005 PCR-SSOP 0,95001 Sud 25 Japonais 371 371_Japonais Japon Région centrale 137,0 36,0 Japonique Saito et al. 2000 PCR-SSP 0,93588

28 Ryukyuen 104 104_Ryukyuens Japon Okinawa 128,0 26,5 Japonique 13ème IHWS 2002 RLS 0,91476 Sino-tibétain 31 Tibétain 158 158_Tibétains Chine Tibet 91,0 29,6 Chen et al. 2006 PCR-SSP 0,93327 (tibéto-birman) Hubei Sino-tibétain 49 Tujia 190 190_Tujia Chine 110,6 30,2 Qiu et al. 2006 PCR-SBT 0,92625 (Wufeng) (tibéto-birman) Sino-tibétain 30 Monba 47 47_Monba Chine Tibet 95,3 29,2 Zhang et al. 2005 PCR-SSO 0,9579 (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26,0 Chen et al. 2007 PCR-SBT 0,90768 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26,0 Chen et al. 2007 PCR-SBT 0,91718 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 40 Jinuo 109 109_Jinuo Chine 100,8 22,0 Shi et al. 2008 PCR-SSO 0,87629 (Jinghong) (tibéto-birman) Liaoning Sino-tibétain 55 Han 108 108_Liaoning_Han Chine 123,4 41,7 Han et al. 2005 PCR-SSOP 0,95797 (Shenyang) (sinitique) Chine du Nord Sino-tibétain 57 Han 618 618_Huabei_Han Chine 116,4 37,9 Yang et al. 2006 PCR-SBT 0,95987 (Huabei) (sinitique) Sino-tibétain 105 Han 572 572_Hongkong_Han Chine Hongkong 114,0 22,2 13ème IHWS 2002 PCR-SSOP 0,91981 (sinitique) Guangdong Sino-tibétain 100 Han 281 281_Guangdong_Han Chine 113,3 23,2 13ème IHWS 2002 RLS 0,93261 (Canton) (sinitique)

Guangdong Sino-tibétain 107 Han 100 100_Meizhou_Han Chine 116,1 24,6 Chen et al. 2007 PCR-SBT 0,91864 (Meizhou) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu et Pintung 121,0 24,8 Lin et al. 2002 RLS 0,91543 (Hakka) (Taïwan) (sinitique) Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122,0 25,1 Lin et al. 2002 RLS 0,91138 (Hoklo) (Taïwan) (sinitique) Guizhou 113 Miao 85 85_Miao Chine 107,2 26,6 Hmong-mien Chen et al. 2007 PCR-SBT 0,87111 (Guiding) Guizhou 122 Buyei 109 109_Buyei Chine 107,9 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,89574 (Libo) Guizhou 133 Shui 153 153_Shui Chine 107,8 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,87834 (Libo) Guangxi 134 Maonan 108 108_Maonan Chine 108,2 24,8 Tai-kadai Ogata et al. 2007 PCR-SSOP 0,8904 (Huanjiang) 126 Thaïlandais 99 99_Thaïlandais Thaïlande - 100,5 13,8 Tai-kadai 13ème IHWS 2002 RLS 0,93724 PCR-SSOP 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21,0 Austro-asiatique Hoa et al. 2007 0,93975 et -SBT communication 137 Kinh 137 137_Kinh Vietnam Hanoï 106,0 21,1 Austro-asiatique 2006 PCR-SSO 0,93142 personnelle communication 138 Muong 107 107_Muong Vietnam Hoa Binh 105,0 20,5 Austro-asiatique 2006 PCR-SSO 0,90408 personnelle Yunnan 140 Wa 119 119_Wa Chine 99,3 23,0 Austro-asiatique Shi et al. 2008 PCR-SSO 0,91242 (Cangyuan, Ximeng)

HLA-B données génériques

Taille S5 No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons Xinjiang 2 Ouïghour 110 110_Ouïghours Chine 87,7 43,8 Altaïque Xu et al. 2006 PCR-SSP 0,94147 (Ürümqi) 7 Touvain 180 180_Tuvanian Russie Novosibirsk-Kyzyl 92,5 52,0 Altaïque 13ème IHWS 2002 RLS 0,92962

12 Tsaatan 72 72_Tsaatan Mongolie Hovsgol 100,0 50,0 Altaïque Machulla et al. 2003 PCR-SSP 0,90171

13 Oold 52 52_Oold Mongolie Hovd 95,0 47,0 Altaïque Machulla et al. 2003 PCR-SSP 0,92196 Mongolie du Centre 14 Khalkha 100 100_Khalkha Mongolie 106,9 47,9 Altaïque Machulla et al. 2003 PCR-SSP 0,92844 et de l’Est 16 Mongol 106 106_Mongols Chine Mongolie intérieure 111,5 41,0 Altaïque Shen et al. 2008 PCR-SSO 0,93553 Corée du 21 Coréen 485 485_Coréens - 127,0 37,0 Isolat Lee et al. 2005 PCR-SSOP 0,92486 Sud 25 Japonais 371 371_Japonais Japon Région centrale 137,0 36,0 Japonique Saito et al. 2000 PCR-SSP 0,91032

28 Ryukyuen 104 104_Ryukyuens Japon Okinawa 128,0 26,5 Japonique 13ème IHWS 2002 RLS 0,87672 Sino-tibétain 30 Monba 47 47_Monba Chine Tibet 95,3 29,2 Zhang et al. 2005 PCR-SSO 0,89064 (tibéto-birman) Sino-tibétain 31 Tibétain 158 158_Tibétain Chine Tibet 91,1 29,7 Chen et al. 2006 PCR-SSP 0,89022 (tibéto-birman) Tibet Sino-tibétain 35 Luoba 92 92_Luoba Chine 94,3 29,5 Kang et al. 2005 PCR-SSO 0,872 (Linzhi) (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26,0 Chen et al. 2007 PCR-SBT 0,84075 (Nujiang) (tibéto-birman)

Sichuan Sino-tibétain 38 Yi 106 106_Yi Chine 102,3 27,9 Xu et al. 2006 PCR-SSP 0,91018 (Liangshan) (tibéto-birman) Yunnan Sino-tibétain 40 Jinuo 109 109_Jinuo Chine 100,8 22,0 Shi et al. 2008 PCR-SSO 0,84268 (Jinghong) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26,0 Chen et al. 2007 PCR-SBT 0,85664 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 46 Naxi 82 82_Naxi Chine 100,2 26,9 Shi et al. 2006 PCR-SSP 0,9186 (Lijiang) (tibéto-birman) Hubei Sino-tibétain 49 Tujia 190 190_Tujia Chine 110,6 30,2 Qiu et al. 2006 PCR-SBT 0,87557 (Wufeng) (tibéto-birman) Sino-tibétain 52 Han 100 100_Liaoning_Han Chine Liaoning 123,4 41,8 Shang et al. 2006 PCR-SSO 0,92879 (sinitique) Liaoning Sino-tibétain PCR-SSP et 56 Han 9678 9678_Liaonan_Han Chine 123,0 41,2 Meng et al. 2007 0,91889 (Liaonan) (sinitique) -SSO Chine du Nord Sino-tibétain 57 Han 618 618_Huabei_Han Chine (Tianjin, Pékin, 116,4 37,9 Yang et al. 2005 PCR-SBT 0,91688 (sinitique) Shijiazhuang) Sino-tibétain PCR-SSP et 67 Han 7418 7418_Shandong_Han Chine Shandong 117,0 36,6 Song et al. 2006 0,91937 (sinitique) -SSOP Shandong Sino-tibétain 70 Han 1383 1383_Qingdao_Han Chine 120,3 36,1 Li et al. 2005 PCR-SSP 0,92162 (Qingdao) (sinitique) Sino-tibétain 71 Han 7440 7440_Shanxi_Han Chine Shanxi 112,5 37,9 Lan et al. 2005 PCR-SSP 0,9248 (sinitique) Shaanxi Sino-tibétain 73 Han 7016 7016_Xi’an_Han Chine 108,9 34,3 Liu et al. 2005 PCR-SSP 0,92144 (Xi’an) (sinitique) Gansu Sino-tibétain 76 Han 200 200_Lanzhou_Han Chine 103,7 36,0 Li et al. 2006 PCR-SSP 0,91805 (Lanzhou) (sinitique) Sino-tibétain PCR-SSP et 77 Han 20248 20248_Jiangsu_Han Chine Jiangsu 120,0 33,0 Miao et al. 2007 0,91591 S6 (sinitique) -rSSOP PCR-SSP, Sino-tibétain 79 Han 2816 2816_Anhui_Han Chine Anhui 117,3 31,9 Gao et al. 2005 -SSOP et 0,91753 (sinitique) -SBT Sino-tibétain PCR-SSP et 81 Han 4026 4026_Hubei_Han Chine Hubei 114,3 30,5 Zhu et al. 2006 0,89804 (sinitique) -SSOP Han en Sino-tibétain PCR-SSP et 85 11134 11134_Sichuan_Han Chine Sichuan 104,1 30,7 Zeng 2005 0,89932 principe (sinitique) -SSO Sino-tibétain 92 Han 3664 3664_Hunan_Han Chine Hunan 113,0 28,2 Xie et al. 2006 PCR-SSP 0,87468 (sinitique) PCR-SSP, Sino-tibétain 95 Han 2210 2210_Jiangxi_Han Chine Jiangxi 115,9 28,7 Cheng et al. 2006 -SSOP et 0,8897 (sinitique) -SBT Sino-tibétain 96 Han 675 675_Jiangxi_Han Chine Jiangxi 115,9 28,7 Li et al. 2006 PCR-SSP 0,88625 (sinitique) Sino-tibétain 98 Han 406 406_Guangdong_Han Chine Guangdong 113,2 23,2 Xiao et al. 1999 PCR-SSP 0,88271 (sinitique) Sino-tibétain oligonucleoti 104 Han 83 83_Guangxi_Han Chine Guangxi 108,3 22,8 Xie et al. 2008 0,90383 (sinitique) de chips Sino-tibétain 105 Han 572 572_Hongkong_Han Chine Hongkong 114,0 22,2 13ème IHWS 2002 PCR-SSOP 0,88972 (sinitique) Guangdong Sino-tibétain 107 Han 100 100_Meizhou_Han Chine 116,1 24,6 Chen et al. 2007 PCR-SBT 0,83881 (Meizhou) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu 121,0 24,8 Lin et al. 2002 RLS 0,88374 (Hakka) (Taïwan) (sinitique) Guangdong Sino-tibétain 109 Han 505 505_Chaoshan_Han Chine 116,7 23,5 Hu et al. 2007 PCR-SSP 0,88004 (Chaoshan) (sinitique) Sino-tibétain 110 Han 171 171_Fujian_Han Chine Fujian 118,1 24,5 Huang et al. 2004 PCR-SSO 0,8851 (sinitique)

Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122,0 25,1 Lin et al. 2002 RLS 0,87921 (Hoklo) (Taïwan) (sinitique) Guizhou Sino-tibétain 113 Miao 85 85_Miao Chine 107,2 26,6 Chen et al. 2007 PCR-SBT 0,86142 (Guiding) (sinitique) 120 Zhuang 85 85_Zhuang Chine Guangxi 108,2 22,8 Tai-kadai Xie et al. 2008 CHIPS 0,8685

123 Buyei 69 69_Buyei Chine Guizhou 105,0 26,0 Tai-kadai 11ème IHWS 1991 0,88533 Guizhou 122 Buyei 109 109_Buyei Chine 107,9 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,87946 (Libo) 126 Thaïlandais 99 99_Thaïlandais Thaïlande - 100,5 13,8 Tai-kadai 13ème IHWS 2002 RLS 0,9115 Guangxi 134 Maonan 108 108_Maonan Chine 108,2 24,8 Tai-kadai Ogata et al. 2007 PCR-SSOP 0,87291 (Huangjiang) Guizhou 133 Shui 153 153_Shui Chine 107,8 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,86986 (Libo) PCR-SSOP 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21,0 Austro-asiatique Hoa et al. 2007 0,89322 et -SBT communication 137 Kinh 137 137_Kinh Vietnam Hanoï 106,0 21,0 Austro-asiatique 2006 PCR-SSO 0,86762 personnelle communication 138 Muong 107 107_Muong Vietnam Hoa Binh 105,1 21,0 Austro-asiatique 2006 PCR-SSO 0,885 personnelle Yunnan 140 Wa 119 119_Wa Chine 99,3 23,0 Austro-asiatique Shi et al. 2008 PCR-SSO 0,78853 (Cangyuan, Ximeng)

HLA-C données alléliques

Taille S7 No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons

7 Touvain 174 174_Touvains Russie Novosibirsk-Kyzyl 95,1 51,5 Altaïque 13ème IHWS 2002 RLS 0,92524

17 Mongol 102 102_Mongols Chine Mongolie intérieure 111,6 40,8 Altaïque Hong et al. 2007 PCR-SBT 0,92171 Corée du 21 Coréen 485 485_Coréens - 127 37 Isolat Lee et al. 2005 PCR-SSOP 0,90959 Sud 25 Japonais 371 371_Japonais Japon Région centrale 137 36 Japonique Saito et al. 2000 PCR-SSP 0,89399

28 Ryukyuen 105 105_Ryukyuens Japon Okinawa 128 26,5 Japonique 13ème IHWS 2002 RLS 0,86206 Sino-tibétain 31 Tibétain 158 158_Tibétain Chine Tibet 91 29,6 Chen et al. 2006 PCR-SSP 0,9124 (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26 Chen et al. 2007 PCR-SBT 0,82037 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26 Chen et al. 2007 PCR-SBT 0,83104 (Nujiang) (tibéto-birman) Liaoning Sino-tibétain 55 Han 106 106_Liaoning_Han Chine 123,4 41,8 Han et al 2005 PCR-SSOP 0,91751 (Shenyang) (sinitique) Sino-tibétain 58 Han 67 67_Nord_Han Chine Pékin et Xi’an 113 37 Gao et al. 1995 RLS 0,91545 (sinitique) Sino-tibétain 64 Han 70 70_Tianjin_Han Chine Tianjin 117,2 39,1 Yuan et al. 2003 PCR-SSP 0,92302 (sinitique) Sino-tibétain 80 Han 252 252_Anhui_Han Chine Anhui 117,3 31,9 Xiao et al. 2006 PCR-SSP 0,91264 (sinitique) Sino-tibétain 100 Han 281 281_Guangdong_Han Chine Guangdong 113 23,6 13ème IHWS 2002 RLS 0,88118 (sinitique)

Guangdong Sino-tibétain Trachtenberg et 101 Han 264 264_Guangdong_Han Chine 113,2 23,2 2007 PCR-SSOP 0,88087 (Hawaï) (sinitique) al. Guangdong Sino-tibétain 107 Han 99 99_Meizhou_Han Chine 116,1 24,6 Chen et al. 2007 PCR-SBT 0,8854 (Meizhou) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsichu_Han Hsinchu et Pintung 121 24,8 Lin et al. 2002 RLS 0,86272 (Hakka) (Taïwan) (sinitique) Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122 25,1 Lin et al. 2002 RLS 0,87221 (Hoklo) (Taïwan) (sinitique) Guizhou 113 Miao 85 85_Miao Chine 107,2 26,6 Hmong-mien Chen et al. 2007 PCR-SBT 0,84699 (Guiding) Guizhou 122 Buyei 109 109_Buyei Chine 107,9 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,83703 (Libo) 128 Thaïlandais 142 142_Thaïlandais Thaïlande - 98 14 Tai-kadai Chandanayingyong 2002 PCR-SSOP 0,91972 Guizhou 133 Shui 153 153_Shui Chine 107,8 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,81914 (Libo) PCR-SSOP 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21 Austro-asiatique Hoa et al. 2007 0,90455 et -SBT

HLA-C données génériques

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons

3 Ouïghour 146 146_Ouïghours Chine Xinjiang 87,7 43,8 Altaïque Zhang et al. 2003 PCR-SSOP 0,87892

7 Touvain 174 174_Touvains Russie Novosibirsk-Kyzyl 95,1 51,5 Altaïque 13ème IHWS 2002 RLS 0,86646 S8 12 Tsaatan 72 72_Tsaatan Mongolie Hovsgol 100,0 50,0 Altaïque Machulla et al. 2003 PCR-SSP 0,79303

13 Oold 52 52_Oold Mongolie Hovd 95,0 47,0 Altaïque Machulla et al. 2003 PCR-SSP 0,85269 Mongolie du Centre 14 Khalkha 100 100_Khalkha Mongolie 106,9 47,9 Altaïque Machulla et al. 2003 PCR-SSP 0,84312 et de l’Est 17 Mongol 102 102_Mongols Chine Mongolie intérieure 111,6 40,8 Altaïque Hong et al. 2007 PCR-SBT 0,86656 Corée du 21 Coréen 485 485_Coréens - 127 37 Isolat Lee et al. 2005 PCR-SSOP 0,84465 Sud 25 Japonais 371 371_Japonais Japon Région centrale 137 36 Japonique Saito et al. 2000 PCR-SSP 0,84291

28 Ryukyuen 105 105_Ryukyuens Japon Okinawa 128 26,5 Japonique 13ème IHWS 2002 RLS 0,79494 Sino-tibétain 31 Tibétain 158 158_Tibétain Chine Tibet 91 29,6 Chen et al. 2006 PCR-SSP 0,87679 (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26 Chen et al. 2007 PCR-SBT 0,80532 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26 Chen et al. 2007 PCR-SBT 0,80843 (Nujiang) (tibéto-birman) Sichuan Sino-tibétain 37 Yi 102 102_Yi Chine 102,8 28 Lu et al. 2003 PCR-SSP 0,78103 (Liangshan) (tibéto-birman) Liaoning Sino-tibétain 55 Han 106 106_Shenyang_Han Chine 123,4 41,8 Han et al 2005 PCR-SSOP 0,8694 (Shenyang) (sinitique) Shaanxi Sino-tibétain 75 Han 130 130_Xi’an_Han Chine 108,9 34,3 Zhang et al. 2004 PCR-SSOP 0,88996 (Xi'an) (sinitique) Sino-tibétain 64 Han 70 70_Tianjin_Han Chine Tianjin 117,2 39,1 Yuan et al. 2003 PCR-SSP 0,89065 (sinitique) Shandong Sino-tibétain 69 Han 139 139_Shandong_Han Chine 118 36 Li et al. 2005 PCR-SSP 0,86752 (Linqiu) (sinitique)

Hubei Sino-tibétain 82 Han 121 121_Wuhan_Han Chine 114,2 30,5 Ferencik et al. 1998 PCR-SSP 0,83975 (Wuhan) (sinitique) Sino-tibétain 80 Han 252 252_Anhui_Han Chine Anhui 117,3 31,9 Xiao et al. 2006 PCR-SSP 0,8767 (sinitique) Sino-tibétain 89 Han 70 70_Shanghaï_Han Chine Shanghaï 121,4 31,2 Feng et al. 1998 PCR-SSP 0,87136 (sinitique) Sino-tibétain 93 Han 60 60_Hunan_Han Chine Hunan 113 28,2 Tian et al. 2002 PCR-ARMS 0,82453 (sinitique) Sino-tibétain 100 Han 281 281_Guangdong_Han Chine Guangdong 113 23,6 13ème IHWS 2002 RLS 0,82631 (sinitique) Guangdong Sino-tibétain Trachtenberg et 101 Han 264 264_Guangdong_Han Chine 113,2 23,2 2007 PCR-SSOP 0,8298 (Hawaï) (sinitique) al. Guangdong Sino-tibétain 107 Han 99 99_Meizhou_Han Chine 116,1 24,6 Chen et al. 2007 PCR-SBT 0,7183 (Meizhou) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu et Pintung 121 24,8 Lin et al. 2002 RLS 0,8005 (Hakka) (Taïwan) (sinitique) Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122 25,1 Lin et al. 2002 RLS 0,81281 (Hoklo) (Taïwan) (sinitique) Guizhou 113 Miao 85 85_Miao Chine 107,2 26,6 Hmong-mien Chen et al. 2007 PCR-SBT 0,81782 (Guiding) Guizhou 122 Buyei 109 109_Buyei Chine 107,9 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,79817 (Libo) 127 Thaïlandais 66 66_Thaïlandais Thaïlande Thaïlande Northeast 103 17 Tai-kadai Chandanayingyong 1995 PCR-SSOP 0,82924 Guizhou 133 Shui 153 153_Shui Chine 107,8 25,4 Tai-kadai Chen et al. 2007 PCR-SBT 0,80181 (Libo) PCR-SSOP 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21 Austro-asiatique Hoa et al. 2007 0,8503 et PCR-SBT S9

HLA-DPB1 données alléliques S9

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons Tanaka et al, 1997/ 6 Ouïghour 62 62_Ouïghours Chine Xinjiang 87,7 43,9 Altaïque 1997 ; Mizuki et PCR-RFLP 0,83281 1998 al, 1998 Alexeev et al, 1997 ; Sartakova 1997/ République de Touva 9 Touvain 191 191_Touvains Russie 95,0 51,0 Altaïque et al, 1998 ; 1998/ RLS 0,82343 (plusieurs régions) Martinez-Laso et 2001 al, 2001 Tarialan sum PCR-SSOP 11 Khoton 85 85_Khoton Mongolie 91,9 49,8 Altaïque Munkhbat et al. 1997 0,78775 (Uvs aimag) et -RFLP PCR-SSOP 15 Khalkha 41 41_Khalkha Mongolie Ulaanbaatar 106,9 47,9 Altaïque Munkhbat et al. 1997 0,82751 et -RFLP PCR-SBT en 20 Evenk 94 94_Evenks Chine Mongolie intérieure 119,8 49,0 Altaïque Su et al. 2007 0,8373 principe PCR-RFLP Corée du 23 Coréen 207 207_Coréens Séoul 127,0 37,5 Isolat Park 2004 et PCR- 0,79042 Sud SSCP 26 Japonais 525 525_Japonais Japon Fukuoka 130,4 33,6 Japonique Yoshitake et al. 1999 PCR-SSOP 0,78482 Tanaka et al, 1997/ 27 Japonais 110 110_Japonais Japon Nagano 138,1 36,4 Japonique 1997; Saito et al, PCR-RFLP 0,73528 2000 2000

Sino-tibétain 33 Tibétain 49 49_Tibétain Chine Qinghai 101,0 36,0 Li et al. 1999 PCR-RFLP 0,90066 (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26,0 Chen et al. 2007 PCR-SBT 0,87028 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 45 Nu 72 72_Nu Chine 98,9 26,1 Hu et al. 2006 PCR-SBT 0,86985 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 43 Lahu 70 70_Lahu Chine 99,9 22,5 Liu et al. 2002 PCR-SBT 0,88911 (Lancang) (tibéto-birman) Yunnan Sino-tibétain 47 Naxi 96 96_Naxi Chine 100,2 26,9 Fu et al. 2003 PCR-SBT 0,87647 (Lijiang) (tibéto-birman) Sino-tibétain 48 Pumi 63 63_Pumi Chine Yunnan 99,5 26,7 Liu et al. 2002 PCR-SBT 0,78083 (tibéto-birman) Yunnan Sino-tibétain 41 Hani 47 47_Hani Chine 102,4 23,3 Hu et al. 2005 PCR-SBT 0,75726 (Honghe) (tibéto-birman) Yunnan Sino-tibétain 50 Bai 128 128_Bai Chine 99,9 26,5 Hu et al. 2008 PCR-SBT 0,77763 (Jianchuan) (tibéto-birman) Mizuki et al, Sino-tibétain 59 Han 57 57_Nord_Han Chine Chine du Nord (Huabei) 87,4 43,4 1997 ; Tanaka et 1997 PCR-RFLP 0,8154 (sinitique) al, 1997 Sino-tibétain 68 Han 98 98_Shandong_Han Chine Shandong 117,0 36,6 Zhou et al. 2005 PCR-SBT 0,80408 (sinitique) Sino-tibétain 63 Han 88 88_Pékin_Han Chine Pékin 116,4 39,9 Gao et al. 1991 PCR-SSOP 0,82734 (sinitique) Shanxi Sino-tibétain 72 Han 36 36_Shanxi_Han Chine 113,1 36,1 Zhang et al. 2008 PCR-SSP 0,86659 (Changzhi) (sinitique)

Liaoning Sino-tibétain S10 54 Han 94 94_Liaoning_Han Chine 123,4 41,8 Yu et al. 1995 PCR-SSO 0,80323 (Shenyang) (sinitique) Sino-tibétain 83 Han 93 93_Hubei_Han Chine Hubei 114,3 30,5 Gong et al. 1999 PCR-RFLP 0,83917 (sinitique) Sino-tibétain 91 Han 150 150_Shanghaï_Han Chine Shanghaï 121,5 31,2 Zhu et al. 2000 PCR-RFLP 0,78912 (sinitique) Sino-tibétain 97 Han 98 98_Jiangxi_Han Chine Jiangxi en principe 115,9 28,7 Wu et al. 2007 PCR-SBT 0,80188 (sinitique) Sino-tibétain 94 Han 67 67_Hunan_Han Chine Hunan 113,0 28,2 Zhang et al. 1994 PCR-SSO 0,8035 (sinitique) Sino-tibétain Trachtenberg et 101 Han 264 264_Guangdong_Han Chine Guangdong 112,0 24,0 2007 PCR-SSOP 0,81949 (sinitique) al. Guangdong Sino-tibétain 103 Han 82 82_Guangdong_Han Chine 113,3 23,3 Tian et al. 2003 PCR-SBT 0,68637 en principe (sinitique) Chine Sino-tibétain 112 Han 374 374_Taipei_Han Taipei 122,0 25,1 Hildesheim et al. 2002 PCR-SSOP 0,702 (Taïwan) (sinitique) Guizhou 115 Miao 84 84_Miao Chine 107,2 26,6 Hmong-mien Liu et al. 2006 PCR-SBT 0,70252 (Guiding) Yunnan 116 Yao 66 66_Yao Chine 103,2 22,7 Hmong-mien Liu et al. 2006 PCR-SBT 0,67777 (Jinping) Yunnan 125 Buyei 76 76_Buyei Chine 104,3 24,9 Tai-kadai Wang et al. 2007 PCR-SBT 0,72255 (Luoping) 124 Buyei 67 67_Buyei Chine Guizhou 107,0 26,0 Tai-kadai Xu et al. 1992 PCR-SSOP 0,68004

Yunnan 131 Dai 74 74_Dai Chine 100,8 22,0 Tai-kadai Chandanayingyong 1994 PCR-SSO 0,77845 (Xishuangbanna) et al.

Chiang Mai et Chandanayingyong 132 Dai Lue 96 96_Dai_Lue Thaïlande 99,0 18,0 Tai-kadai 1994 PCR-SSO 0,79685 Lamphun et al.

139 Blang 94 94_Blang Chine Yunnan 100,8 21,0 Austro-asiatique Wang et al. 2007 PCR-SBT 0,70088

Guangxi 135 Jing (Kinh) 137 137_Jing Chine 108,3 21,7 Austro-asiatique Lin et al. 2003 PCR-SBT 0,81017 (Fangcheng)

HLA-DRB1 données alléliques

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons

5 Ouïghour 92 92_Ouïghours Chine Xinjiang 83,0 41,7 Altaïque Shen et al. 1997 PCR-SSO 0,93555 République de Touva Martinez-Laso et reverse dot 8 Touvain 190 190_Touvains Russie 94,4 51,7 Altaïque 2001 0,94697 (Kyzyl) al. blot 13 Oold 52 52_Oold Mongolie Hovd 95,0 47,0 Altaïque Machulla et al. 2003 PCR-SSP 0,94529 Mongolie du Centre 14 Khalkha 100 100_Khalkha Mongolie 106,9 47,9 Altaïque Machulla et al. 2003 PCR-SSP 0,94563 et de l’Est 19 Evenk 94 94_Evenks Chine Mongolie intérieure 119,4 49,3 Altaïque Bili fu 2007 PCR-SBT 0,92462 Corée du 21 Coréen 485 485_Coréens - 126,6 37,3 Isolat Lee et al. 2005 PCR-SSOP 0,9421 Sud reverse dot 24 Japonais 71 71_Japonais Japon Hokkaïdo 141,4 43,1 Japonique Fukazawa et al. 2000 0,92558 blot 25 Japonais 371 371_Japonais Japon Région centrale 137,0 36,0 Japonique Saito et al. 2000 PCR-SSP 0,92877

29 Ryukyuen 197 197_Ryukyuens Japon Okinawa 128,0 26,5 Japonique Hatta et al. 1999 MLCT 0,90497 S11 Sino-tibétain 34 Lachung 58 58_Lachung India Sikkim 88,7 28 Agrawal et al. 2008 PCR-SSOP 0,92954 (tibéto-birman) Sino-tibétain 30 Monba 47 47_Monba Chine Tibet 95,3 29,2 Zhang et al. 2005 PCR-SSO 0,965 (tibéto-birman) Yunnan Sino-tibétain 46 Naxi 118 118_Naxi Chine 100,2 26,9 Shi et al. 2006 PCR-SSCP 0,9344 (Lijiang) (tibéto-birman) Yunnan Sino-tibétain 47 Naxi 94 94_Naxi Chine 100,2 26,8 Fu et al. 2003 PCR-SBT 0,93992 (Lijiang) (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26,0 Chen et al. 2007 PCR-SBT 0,88394 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26,0 Chen et al. 2007 PCR-SBT 0,9011 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 42 Lahu 55 55_Lahu Chine 99,9 22,5 Jia et al. 2002 PCR-SBT 0,84871 (Lancang) (tibéto-birman) Yunnan Sino-tibétain 40 Jinuo 109 109_Jinuo Chine 100,8 22,0 Shi et al. 2008 PCR-SSO 0,79423 (Jinghong) (tibéto-birman) Yunnan Sino-tibétain 50 Bai 128 128_Bai Chine 99,9 26,5 Hu et al. 2008 PCR-SBT 0,91765 (Jianchuan) (tibéto-birman) Liaoning Sino-tibétain 54 Han 94 94_Liaoning_Han Chine 123,4 41,8 Yu et al. 1995 PCR-SSO 0,93371 (Shenyang) (sinitique) Sino-tibétain 62 Han 217 217_Pékin_Han Chine Pékin 116,4 39,9 Li et al. 2003 PCR-SSP 0,93077 (sinitique) Chine du Nord Sino-tibétain 57 Han 618 618_Nord_Han Chine 116,4 37,9 Yang et al. 2006 PCR-SBT 0,93802 (Huabei) (sinitique) Sino-tibétain PCR-MPH 86 Han 129 129_Yunnan_Han Chine Yunnan 102,7 25,1 Xu et al. 2004 0,93807 (sinitique) et -SSCP Sino-tibétain 99 Han 102 102_Guangdong_Han Chine Guangdong 113,2 23,2 Sun et al. 1997 PCR-SSO 0,90543 (sinitique)

Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122,0 25,1 Lin et al. 2002 PCR-SBT 0,91867 (Hoklo) (Taïwan) (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu et Pintung 121,0 24,8 Lin et al. 2002 PCR-SBT 0,93578 (Hakka) (Taïwan) (sinitique) Guizhou 115 Miao 84 84_Miao Chine 107,2 26,6 Hmong-mien Liu et al. 2006 PCR-SBT 0,89564 (Guiding) Yunnan 116 Yao 63 63_Yao Chine 103,2 22,7 Hmong-mien Liu et al. 2006 PCR-SBT 0,90616 (Jinping) Yunnan 130 Dai 73 73_Dai Chine 100,9 22,0 Tai-kadai Fan et al. 1992 PCR-SSO 0,89192 (Xishuangbanna) 124 Buyei 67 67_Buyei Chine Guizhou 106,0 26,0 Tai-kadai Xu et al. 1992 PCR-SSOP 0,8953

129 Thaïlandais 105 105_Thaïlandais Thaïlande Ubon Ratchathani 104,9 15,2 Tai-kadai Dharakul et al. 1998 PCR-SSO 0,908 Guangxi 134 Maonan 108 108_Maonan Chine 108,2 24,8 Tai-kadai Ogata et al. 2007 PCR-SSOP 0,90426 (Huanjiang) Yunnan 140 Wa 119 119_Wa Chine 99,3 23,0 Austro-asiatique Shi et al. 2008 PCR-SSO 0,85073 (Cangyuan, Ximeng) 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21,0 Austro-asiatique Hoa et al. 2007 PCR-SSOP 0,84555 communication 137 Kinh 102 102_Kinh Vietnam Hanoï 106,0 21,1 Austro-asiatique 2006 PCR-SSO 0,86917 personnelle communication 138 Muong 83 83_Muong Vietnam Hoa Binh 105,0 20,5 Austro-asiatique 2006 PCR-SSO 0,88828 personnelle 141 Cambodgien 49 49_Cambodgiens Cambodge Région rurale de l’Est 106,0 11,0 Austro-asiatique Goldfeld et al. 1998 PCR-SSOP 0,89964

HLA-DRB1 données génériques S12

Taille No. Long. Lat. Groupe Méthode de Population d’échan- ID Pays Région/Province/Ville Auteur Année H carte (E) (N) linguistique typage tillons

4 Ouïghour 200 200_Ouïghours Chine Xinjiang 83 41,7 Altaïque Lai et al. 1999 PCR-SSOP 0,85575

5 Ouïghour 92 92_Ouïghours Chine Xinjiang 83,1 41,7 Altaïque Shen et al. 1997 PCR-SSO 0,90176 République de Touva Martinez-Laso et reverse dot- 8 Touvain 190 190_Touvains Russie 94,4 51,7 Altaïque 2001 0,90444 (Kyzyl) al. blot 13 Oold 52 52_Oold Mongolie Hovd 95 47 Altaïque Machulla et al. 2003 PCR-SSP 0,89806 Mongolie du Centre 14 Khalkha 100 100_Khalkha Mongolie 106,9 47,9 Altaïque Machulla et al. 2003 PCR-SSP 0,91151 et de l’Est 16 Mongol 106 106_Mongols Chine Mongolie intérieure 111,5 41 Altaïque Shen et al. 2008 PCR-SSO 0,91237

18 Evenk 84 84_Evenks Chine Mongolie intérieure 119,4 49,3 Altaïque Hai et al. 2006 PCR-SBT 0,893 Corée du 22 Coréen 510 510_Coréens - 126,6 37,3 Isolat Park et al. 1999 PCR-SSCP 0,89196 Sud reverse dot 24 Japonais 71 71_Hokkaïdo Japon Hokkaïdo 141,4 43,1 Japonique Fukazawa et al. 2000 0,85596 blot 25 Japonais 371 371_Japonais Japon Région centrale 137 36 Japonique Saito et al. 2000 PCR-SSP 0,86325

29 Ryukyuen 197 197_Ryukyuens Japon Okinawa 128 26,5 Japonique Hatta et al. 1999 MLCT 0,81084 Sino-tibétain 30 Monba 47 47_Monba Chine Tibet 95,3 29,2 Zhang et al. 2005 PCR-SSO 0,86044 (tibéto-birman) Sino-tibétain 32 Tibétain 188 188_Tibétain Chine Tibet 91 29,6 Lai et al. 1999 PCR-SSOP 0,87277 (tibéto-birman)

Sino-tibétain 34 Lachung 58 58_Lachung India Sikkim 88,7 28 Agrawal et al. 2008 PCR-SSOP 0,9036 (tibéto-birman) Tibet Sino-tibétain 35 Luoba 92 92_Luoba Chine 94,3 29,5 Kang et al. 2005 PCR-SSO 0,82193 (Linzhi) (tibéto-birman) Yunnan Sino-tibétain 36 Lisu 111 111_Lisu Chine 98,8 26 Chen et al. 2007 PCR-SBT 0,82284 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 39 Yi 70 70_Yi Chine 102,7 25,1 Wen et al. 2004 PCR-SSP 0,83926 (Kunming) (tibéto-birman) Yunnan Sino-tibétain 40 Jinuo 109 109_Jinuo Chine 100,8 22 Shi et al. 2008 PCR-SSO 0,7646 (Jinghong) (tibéto-birman) Yunnan Sino-tibétain 42 Lahu 55 55_Lahu Chine 99,9 22,5 Jia et al. 2002 PCR-SBT 0,81902 (Lancang) (tibéto-birman) Yunnan Sino-tibétain 44 Nu 107 107_Nu Chine 98,9 26 Chen et al. 2007 PCR-SBT 0,84152 (Nujiang) (tibéto-birman) Yunnan Sino-tibétain 46 Naxi 118 118_Naxi Chine 100,2 26,9 Shi et al. 2006 PCR-SSP 0,86466 (Lijiang) (tibéto-birman) Yunnan Sino-tibétain 47 Naxi 94 94_Naxi Chine 100,2 26,8 Fu et al. 2003 PCR-SBT 0,87581 (Lijiang) (tibéto-birman) Yunnan Sino-tibétain 50 Bai 128 128_Bai Chine 99,9 26,5 Hu et al. 2008 PCR-SBT 0,88199 (Jianchuan) (tibéto-birman) Sino-tibétain PCR-SSP et 53 Han 13625 13625_Liaoning_Han Chine Liaoning 123,4 41,8 Qu et al. 2006 0,89358 (sinitique) -SSOP Liaoning Sino-tibétain 55 Han 108 108_Shenyang_Han Chine 123,4 41,9 Han et al. 2004 PCR-SBT 0,88734 (Shenyang) (sinitique) Liaoning Sino-tibétain PCR-SSP et 56 Han 9678 9678_Liaonan_Han Chine 123 41,2 Meng et al. 2007 0,89625 (Liaonan) (sinitique) -SSO Sino-tibétain 57 Han 618 618_Nord_Han Chine Chine du Nord (Huabei) 116,4 37,9 Yang et al. 2006 PCR-SBT 0,89722 (sinitique) S13 Sino-tibétain 61 Han 494 494_Pékin_Han Chine Pékin 116,4 39,9 Deng et al. 2005 PCR-SBT 0,89741 (sinitique) Sino-tibétain 65 Han 3000 3000_Tianjin_Han Chine Tianjin 117,2 39,1 Yang et al. 2003 PCR/SSOP 0,89282 (sinitique) Sino-tibétain 66 Han 2200 2200_Henan_Han Chine Henan 113,6 34,8 Guo et al. 2004 PCR-rSSO 0,89928 (sinitique) Sino-tibétain PCR-SSP et 67 Han 7418 7418_Shandong_Han Chine Shandong 117 36,6 Song et al. 2006 0,89417 (sinitique) -SSOP Shandong Sino-tibétain 70 Han 1383 1383_Qingdao_Han Chine 120,3 36,1 Li et al. 2005 PCR-SSP 0,89509 (Qingdao) (sinitique) Sino-tibétain 71 Han 7440 7440_Shanxi_Han Chine Shanxi 112,4 37,9 Lan et al. 2005 PCR-SSP 0,90067 (sinitique) Shaanxi Sino-tibétain 73 Han 7016 7016_Xi'an_Han Chine 108,9 34,3 Liu et al. 2005 PCR-SSP 0,89776 (Xi'an) (sinitique) Gansu Sino-tibétain 76 Han 200 200_Gansu_Han Chine 103,7 36 Li et al. 2006 PCR-SSP 0,90675 (Lanzhou) (sinitique) Sino-tibétain PCR-SSP et 77 Han 20248 20248_Jiangsu_Han Chine Jiangsu 120 33 Miao et al. 2007 0,89294 (sinitique) -rSSOP Anhui Sino-tibétain 78 Han 340 340_Jianghuai_Han Chine 117,3 31,9 Jiang et al. 2006 PCR-SSP 0,8966 (Jianghuai) (sinitique) PCR-SSP, - Sino-tibétain 79 Han 2816 2816_Anhui_Han Chine Anhui 117,3 32,9 Gao et al. 2005 SSOP et - 0,89833 (sinitique) SBT Sino-tibétain PCR-SSP et 81 Han 4026 4026_Hubei_Han Chine Hubei 114,5 30,6 Zhu et al. 2006 0,89267 (sinitique) -SSOP Sino-tibétain 84 Han 106 106_Chongqing_Han Chine Chongqing 106,4 29,6 Jiang et al. 2004 PCR-SSP 0,89551 (sinitique) Han en Sino-tibétain PCR-SSP et 85 11134 11134_Sichuan_Han Chine Sichuan 104,2 30,7 Zeng 2005 0,89796 principe (sinitique) -SSO

Yunnan Sino-tibétain 87 Han 72 72_Kunming_Han Chine 102,7 25,1 Qi et al. 2006 PCR-SSP 0,86402 (Kunming) (sinitique) Jiangsu, Sino-tibétain 88 Han 3103 3103_JZH_Han Chine Zhejiang, 121 31 Chen et al. 2005 PCR-SSP 0,88581 (sinitique) Shanghaï Sino-tibétain 90 Han 102 102_Shanghaï_Han Chine Shanghaï 121,4 31,2 Tan et al. 1996 PCR-SSP 0,90312 (sinitique) Sino-tibétain 92 Han 3664 3664_Hunan_Han Chine Hunan 113 28,2 Xie et al. 2006 PCR-SSP 0,88571 (sinitique) Sino-tibétain 96 Han 597 597_Jiangxi_Han Chine Jiangxi 115,9 28,7 Li et al. 2006 PCR-SSP 0,89548 (sinitique) Sino-tibétain 99 Han 102 102_Guangdong_Han Chine Guangdong 113,3 23,2 Sun et al. 1997 PCR-SSO 0,87558 (sinitique) Sino-tibétain MLCT et 102 Han 106 106_Guangdong_Han Chine Guangdong 113,2 23,2 Bao et al. 2001 0,90503 (sinitique) PCR-SSP Sino-tibétain 106 Han 625 625_Hainan_Han Chine Hainan 110,4 20 Zhao et al. 2004 PCR-SSP 0,88258 (sinitique) Han Chine Sino-tibétain 108 55 55_Hsinchu_Han Hsinchu et Pintung 121,1 24,8 Lin et al. 2002 PCR-SBT 0,90642 (Hakka) (Taïwan) (sinitique) Sino-tibétain PCR-SSO 111 Han 620 620_Fujian_Han Chine Fujian 119,3 26,1 Wang et al. 2006 0,89972 (sinitique) gene-chip Han Chine Sino-tibétain 112 102 102_Taipei_Han Taipei 122,1 25,1 Lin et al. 2002 PCR-SBT 0,89245 (Hoklo) (Taïwan) (sinitique) Guizhou 115 Miao 84 84_Miao Chine 107,2 26,6 Hmong-mien Liu et al. 2006 PCR-SBT 0,86719 (Guiding) Yunnan 116 Yao 63 63_Yao Chine 103,2 22,7 Hmong-mien Liu et al. 2006 PCR-SBT 0,87848 (Jinping)

Hainan S14 118 Li 94 94_Li Chine 109,4 19,2 Tai-kadai Hong 2006 PCR-SSP 0,87951 (Baisha) 119 Zhuang 265 265_Zhuang Chine Guangxi 106,6 23,9 Tai-kadai Pan et al. 2005 PCR-SSP 0,86375

121 Zhuang 70 70_Zhuang Chine Guangxi 108,3 22,8 Tai-kadai Zheng et al. 2003 PCR-SSP 0,86012

124 Buyei 67 67_Buyei Chine Guizhou 105 26 Tai-kadai Xu et al. 1992 PCR-SSOP 0,87908

129 Thaïlandais 105 105_Thaïlandais Thaïlande Ubon Ratchathani 104,9 15,2 Tai-kadai Dharakul et al. 1998 PCR-SSO 0,86794 Yunnan 130 Dai 73 73_Dai Chine 100,8 22 Tai-kadai Fan et al. 1992 PCR-SSO 0,86073 (Xishuangbanna) Guangxi 134 Maonan 108 108_Maonan Chine 108,2 24,8 Tai-kadai Ogata et al. 2007 PCR-SSOP 0,87954 (Huanjiang) 136 Kinh 170 170_Kinh Vietnam Hanoï 105,9 21 Austro-asiatique Hoa et al. 2007 PCR-SSOP 0,82667 communication 137 Kinh 102 102_Kinh Vietnam Hanoï 106 21 Austro-asiatique 2006 PCR-SSO 0,83884 personnelle communication 138 Muong 83 83_Muong Vietnam Hoa Binh 105,1 21 Austro-asiatique 2006 PCR-SSO 0,86835 personnelle Yunnan 140 Wa 119 119_Wa Chine 99,3 23 Austro-asiatique Shi et al. 2008 PCR-SSO 0,80733 (Cangyuan, Ximeng) 141 Cambodgien 49 49_ Cambodgiens Cambodia Eastern rural aera 107 13 Austro-asiatique Goldfeld et al. 1998 PCR-SSOP 0,86977

Bibliographie :

Agrawal S, Srivastava SK, Borkar M, and Chaudhuri TK. 2008. Genetic affinities of north and northeastern populations of India: inference from HLA-based study. Tissue Antigens 72(2):120-130. Bao R, Fang JP, Huang SL, and Wu YF. 2001. [Analysis and significance of HLA polymorphism in 106 Guangdong individuals of Han nationality]. Guangdong Yi Xue 22(8):662-664. Bilifu. 2007. [HLA-DRB1 gene polymorphism and ethnological evolution anallysis of the Ewenki ethnic group in Inner Mongolia]. Neimenggu Yi Xue Yuan Xue Bao 29(2):79-83. Chandanayingyong D. 7th Asia-Oceania Histocompatibility Workshop and Conference, 2002. Chandanayingyong D, Stephens HA, Fan L, Sirikong M, Longta P, Vangseratthana R, Lekmak S, Longta K, Bejrachandra S, and Rungruang E. 1994. HLA-DPB1 polymorphism in the Thais of Southeast Asia. Hum Immunol 40(1):20-24. Chandanayingyong D, Udee S, Klaythong R, Sirikong M, Rungroung E, Chantangpol R, Longtha P, and Bejrachandra S. 1995. HLA haplotype frequencies in Thais. Southeast Asian J Trop Med Public Health 26 Suppl 1:301-305.

Chen QX, and Guo XJ. 2005. [Investigation on the HLA polymorphism of Jiangsu-Zhejiang-Shanghai Han population in Shanghai S15 Bone Marrow Bank]. Quan Ke Yi Xue Lin Chuang Yu Jiao Yu 3(2):76-79. Chen S, Hong W, Shao H, Fu Y, Liu X, Chen D, and Xu A. 2006. Allelic distribution of HLA class I genes in the Tibetan ethnic population of China. Int J Immunogenet 33(6):439-445. Chen S, Hu Q, Xie Y, Zhou L, Xiao C, Wu Y, and Xu A. 2007. Origin of Tibeto-Burman speakers: evidence from HLA allele distribution in Lisu and Nu inhabiting Yunnan of China. Hum Immunol 68(6):550-559. Chen S, Li W, Hu Q, Liu Z, Xu Y, and Xu A. 2007. Polymorphism of HLA class I genes in Meizhou Han population of Guangdong, China. Int J Immunogenet 34(2):131-136. Chen S, Ren X, Liu Y, Hu Q, Hong W, and Xu A. 2007. Human leukocyte antigen class I polymorphism in Miao, Bouyei, and Shui ethnic minorities of Guizhou, China. Hum Immunol 68(11):928-933. Chen SQ, Deng WY, and Qiang YG. 1999. [Investigation on the Human Leukocyte Antigen Distribution in the Li Ethnic Group in Hainan]. Zhongguo Shu Xue Za Zhi 12(1):34-35. Cheng LH, Wu GG, Li XM, Gao SQ, Jin SZ, Cheng X, Wang DM, and Zhang MY. 2006. [Allele and Haplotype Frequenc ies for the Loci HLA-A, B and DRB1 in 2210 Jiangxi Chinese Han Unrelated Bone Marrow Donors]. Lin Chuang Shu Xue Yu Jian Yan 8(1):5-12. Deng YJ, Yang G, Wu DY, Hu SN, Li SB, Zhu BF, Zhu J, and Liu Y. 2005. [Study on the HLA-DRB1 polymorphism determined by high- resolution PCR-SBT in a population of Beijing region]. Fa Yi Xue Za Zhi 21(4):280-285. Dharakul T, Vejbaesya S, Chaowagul W, Luangtrakool P, Stephens HA, and Songsivilai S. 1998. HLA-DR and -DQ associations with melioidosis. Hum Immunol 59(9):580-586.

Fan LA, Yang YQ, and Dong JZ. 1992. [HLA class II oligonucleotide typing of a Dai minority population in Xishuangbanna of China]. Zhong Guo Mian Yi Xue Za Zhi 5. Feng ML, Zhang YZ, Yang Y, Lu Q, Feng Z, and Chen RB. 1998. [HLA-Cw genotyping of serologically and non-serologically defined alleles using sequence-specific primers (PCR-SSP) in a Shanghai Han population]. Yi Chuan Xue Bao 25(2):95-102. Ferencik S, Gong F, and Grosse-Wilde H. 1998. In: Terasaki PI, and Gjertson DW, editors. HLA 1998. Los Angeles: UCLA Tissue Typing Laboratory. p 202-203. Fu Y, Liu Z, Lin J, Jia Z, Chen W, Pan D, Liu Y, Zhu Y, Chen R, and Xu A. 2003. HLA-DRB1, DQB1 and DPB1 polymorphism in the Naxi ethnic group of South-western China. Tissue Antigens 61(2):179-183. Fukazawa T, Kikuchi S, Sasaki H, Yabe I, Miyagishi R, Hamada T, and Tashiro K. 2000. Genomic HLA profiles of MS in Hokkaido, Japan: important role of DPB1*0501 allele. J Neurol 247(3):175-178. Gao SQ, Wu GG, Li XM, Cheng LH, Zou HY, Li Z, and Zhou D. 2005. [Characteristic and distribution of human leukocyte antigen- A, B, DRB1 genes and haplotypes in Anhui Chinese Han population]. Lin Chuang Shu Xue Yu Jian Yan 7(3):161-169. Gao XJ, Sun YP, An JB, Fernandez-Vina M, Qou JN, Lin L, and Stastny P. 1991. DNA typing for HLA-DR, and -DP alleles in a Chinese population using the polymerase chain reaction (PCR) and oligonucleotide probes. Tissue Antigens 38(1):24-30. Goldfeld AE, Delgado JC, Thim S, Bozon MV, Uglialoro AM, Turbay D, Cohen C, and Yunis EJ. 1998. Association of an HLA-DQ allele with clinical tuberculosis. JAMA 279(3):226-228.

Gong FL, Xiong P, Yang ZZ, Xu Y, Jiang XD, Wu XW, Liu M, Fong W, Ferencik S, Liu J and others. 1999. [An investigation of the S16 polymorphism of HLA class II alleles in the Han population in Hubei Province of China]. Zhong Hua Yi Xue Yi Chuan Xue Za Zhi 16(4):216-219. Guo RH, Xing PQ, Zhang BW, Bie LL, Zhao L, Yang RY, Li XZ, and Du J. 2004. [Application of rSSO HLA DNA typing by flow analysis in bone marrow donator database]. Henan Zhi Gong Yi Xue Yuan Xue Bao 16(4):327-330. Hai R, Bi LF, and Su XL. 2006. [HLA-DRB1 polymorphism in the Ewenki Ethnic of Inner Mongolian]. Zhong Hua Yi Xue Yi Chuan Xue Za Zhi 23(1):95-96. Han SX, Li JH, Wang Y, Bi GJ, Shang YB, Di L, Cao K, and Song FJ. 2004. [Study of genotyping for HLA-DRB1 by PCR-SBT in a Han population from Shenyang]. Zhong Hua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 24(2):111. Han SX, Shang YB, Li JH, Geng L, Zhai N, Cao K, and Song FJ. 2005. [High resolution DNA typing for HLA-A, B, Cw genes by polymerase chain reaction-sequence specific oligonucleotide probes method in the Shenyang Han population]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 22(6):665-667. Hatta Y, Ohashi J, Imanishi T, Kamiyama H, Iha M, Simabukuro T, Ogawa A, Tanaka H, Akaza T, Gojobori T and others. 1999. HLA genes and haplotypes in Ryukyuans suggest recent gene flow to the Okinawa Islands. Hum Biol 71(3):353-365. Hildesheim A, Apple RJ, Chen CJ, Wang SS, Cheng YJ, Klitz W, Mack SJ, Chen IH, Hsu MM, Yang CS and others. 2002. Association of HLA class I and II alleles and extended haplotypes with nasopharyngeal carcinoma in Taiwan. J Natl Cancer Inst 94(23):1780-1789. Hoa BK, Hang NT, Kashiwase K, Ohashi J, Lien LT, Horie T, Shojima J, Hijikata M, Sakurada S, Satake M and others. 2007. HLA-A, -B, -C, -DRB1 and -DQB1 alleles and haplotypes in the Kinh population in Vietnam. Tissue Antigens.

Hong KX, Chu JY, Li DN, Yu JK, Xu SB, Shi L, Lin KQ, and Tao YF. 2006. [Genetic diversity of HLA-DRB1, DQA1, DQB1 in Chinese Li popolation in Hainan]. Guo Ji Yi Chuan Xue Za Zhi 29(5):324-327. Hong W, Chen S, Shao H, Fu Y, Hu Z, and Xu A. 2007. HLA class I polymorphism in Mongolian and Hui ethnic groups from Northern China. Hum Immunol 68(5):439-448. Hu SP, Luan JA, Li B, Chen JX, Cai KL, Huang LQ, and Xu XY. 2007. Genetic link between Chaoshan and other Chinese Han populations: Evidence from HLA-A and HLA-B allele frequency distribution. Am J Phys Anthropol 132(1):140-150. Hu W, Tang L, Wang J, Wang B, Li S, Yu H, Tang W, Li H, Tan S, Shou W and others. 2008. Polymorphism of HLA-DRB1, -DQB1 and -DPB1 genes in Bai ethnic group in southwestern China. Tissue Antigens. Hu W, Wang J, Wang B, Lu J, Li H, Zhang J, Cun Y, Tang W, and Xiao C. 2006. Sequencing-based analysis of the HLA-DPB1 polymorphism in Nu ethnic group of south-west China. Int J Immunogenet 33(6):397-400. Hu WH, Lu J, Dong YL, Cheng BW, Tang WR, Cun YN, Lei YP, Tan SJ, and Xiao CJ. 2005. Polymorphism of the DPB1 locus in Hani ethnic group of south-western China. Int J Immunogenet 32(6):421-423. Huang RX, Pei B, Chen CR, Ni HY, Zhou JJ, and Hong SY. 2004. [Reverse PCR-SSO technique for HLA polymorphism study in the Han population of Fujian, China]. Zhongguo Shu Xue Za Zhi 17(5):351-352. Jia ZJ, Fu YG, Pan DJ, Liu ZH, Chen WM, Lin JH, Chen RX, Li AS, Zhu YF, Zhou DM and others. 2002. [Determination of HLA- DRB1 gene polymorphism by PCR-SBT in Lahu ethnic group of Yunnan, China]. Yi Chuan 24(2):131-136. Jiang YG, and Wang YM. 2004. [Study on polymorphisme of human leucocyte antigen-DRB1, -DQA1 and -DQB1 alleles in patients S17 with hepatitis B]. Zhong Hua Liu Xing Bing Xue Za Zhi 25(4):337-340. Jiang Z, Li XP, Qian L, Li XM, Wang GS, Zhang H, Wang W, and Yan WY. 2006. [Distribution of HLA-DRB1 alleles in RA patients of Anhui province]. Anhui Yi Ke Da Xue Xue Bao 41(3):327-329. Kang L, Zhang H, Gao F, Yuang D, Deng T, Yan C, and Li S. 2005. [Determination of HLA-A, -B allele polymorphism in the Luoba nationality living in Tibet Autonomous Region in China]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 22(2):227-228. Kang LL, Gao F, Zhang HB, Yuan DY, Zhao FC, and Li SB. 2005. [Determination of HLA-DRB1 gene polymorphism in Luoba ethnic group of Tibet]. Zhongnan Da Xue Xue Bao 30(2):135-139. Lai SP, Ren HM, Hu HT, Li SB, Lai JH, Yan CX, Zhang HB, and Zhao JH. 1999. [HLA-DRB alleles polymorphism in Han, Hui, Uygur and Tibetan populations in northwestern China]. Yi Chuan Xue Bao 26(5):447-457. Lan T, Zhang DM, and Wang GQ. 2005. [Polymorphism of HLA-A,-B and DRB1 in Han population of Shanxi province]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 22(5):583-584. Lee KW, Oh DH, Lee C, and Yang SY. 2005. Allelic and haplotypic diversity of HLA-A, -B, -C, -DRB1, and -DQB1 genes in the Korean population. Tissue Antigens 65(5):437-447. Li CL, Tang ZH, Fang LH, Li YR, Su HX, and Wei HL. 2006. [The analysis of HLA-A, B and DRB1 allelic polymorphism in Han race population in Lanzhou region of China]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 23(1):89-91. Li CY, Jiao SX, Zhao L, Yang ZS, Liu XH, and Hu B. 2005. [Study on HLA polymorphisms of Qingdao Bone Marrow Bank]. Zhongguo Shu Xue Za Zhi 18(4):299-302.

Li D, Liu HY, Xi B, and Yu Y. 2003. [Study on the genic polymorphism of HLA-DRB1 in a population in the north of China]. Zhong Hua Yi Xue Yi Chuan Xue Za Zhi 20(4):325-327. Li GL, Sun Y, Xiao L, Tang Q, and Hou PQ. 2006. [The characters of HLA-DR gene polymorphism distribution in population of Jiangxi province]. Jiangxi Yi Xue Yuan Xue Bao 46(4):125. Li X, Ji BX, Zhang XN, Zhu DL, and Geng ZC. 1999. Polymorphism of HLA class II genes in the Zang (Tibetan) nationality. Yi Chuan 21(5):5-8. Li Z, Chen D, Zhang C, Li Y, Cao B, Ning T, Zhao Y, You W, and Ke Y. 2005. HLA polymorphisms are associated with Helicobacter pylori infected gastric cancer in a high risk population, China. Immunogenetics 56(11):781-787. Lin JH, Liu ZH, Lv FJ, Fu YG, Fan XL, Li SY, Lu JM, Liu XY, and Xu AL. 2003. Molecular analyses of HLA-DRB1, -DPB1, and - DQB1 in Jing ethnic minority of Southwest China. Hum Immunol 64(8):830-834. Liu ML, Zhang Y, and Liu S. 2005. [Study on the polymorphism of HLA-A, B, DR genes of population in Xi'an area, China]. Zhongguo Shu Xue Za Zhi 18(6):470-473. Liu Y, Liu Z, Fu Y, Jia Z, Chen S, and Xu A. 2006. Polymorphism of HLA class II genes in Miao and Yao nationalities of Southwest China. Tissue Antigens 67(2):157-159. Lu XZ, Hong KX, Qin GM, Chen JP, Ruan YH, Li CX, Zhu JH, and Shao YM. 2003. [Genotyping of HLA-Cw locus in Chinese Yi ethnic group by PCR-SSP]. Zhong Hua Shi Yan He Lin Chuang Bing Du Xue Za Zhi 17(1):62-65.

Lu XZ, Hong KX, Qin GM, Li CX, Zhu JH, and Shao YM. 2003. [DNA typing of HLA-A locus in Chinese Yi Ethnic group by PCR- S18 SSP]. Mian Yi Xue Za Zhi 19(6):480-481. Machulla HK, Batnasan D, Steinborn F, Uyar FA, Saruhan-Direskeneli G, Oguz FS, Carin MN, and Dorak MT. 2003. Genetic affinities among Mongol ethnic groups and their relationship to Turks. Tissue Antigens 61(4):292-299. Martinez-Laso J, Sartakova M, Allende L, Konenkov V, Moscoso J, Silvera-Redondo C, Pacho A, Trapaga J, Gomez-Casado E, and Arnaiz-Villena A. 2001. HLA molecular markers in Tuvinians: a population with both Oriental and Caucasoid characteristics. Ann Hum Genet 65(Pt 3):245-261. Meng QL, Yu WJ, Liang XH, Wang M, Hu RH, Bi XL, Chen M, and Ye P. 2007. [HLA gene distribution and haplotype analysis of blood stem cell donors in Liaonan aera]. Zhongguo Shu Xue Za Zhi 20(1):30-32. Miao KR, Pan QQ, Tang RC, Zhou XP, Fan S, Wang XY, Zhao X, Xue M, Zhou XY, and Wang CY. 2007. The polymorphism and haplotype analysis of HLA-A, -B and -DRB1 genes of population in Jiangsu province of China. Int J Immunogenet 34(6):419- 424. Munkhbat B, Sato T, Hagihara M, Sato K, Kimura A, Munkhtuvshin N, and Tsuji K. 1997. Molecular analysis of HLA polymorphism in Khoton-Mongolians. Tissue Antigens 50(2):124-134. Ogata S, Shi L, Matsushita M, Yu L, Huang XQ, Sun H, Ohashi J, Muramatsu M, Tokunaga K, and Chu JY. 2007. Polymorphisms of human leucocyte antigen genes in Maonan people in China. Tissue Antigens 69(2):154-160. Pan SL, Huang LJ, Liu CW, Chen J, Chen WC, Luo XQ, Zhou XL, Shi W, and Lin WX. 2007. [Gene typing of HLA-A locus in Guangxi Zhuang people]. Zhongguo Mian Yi Xue Za Zhi 23(3):218-219.

Pan SL, Liu CW, Long GF, Yuan ZG, Shi W, Lin WX, Chen P, Chen J, Chen WC, and Zhou XL. 2005. [The polymorphism on HLA- DRB1 locus of Guangxi Zhuangs and its comparison with main surrounding ethnic groups]. Zhong Hua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 25(1):48-51. Park MH. 2004. HLA-DPB1, -DQA1, -DQB1 and -DRB1 allele frequencies in a population from South Korea. Human Immunology 65(9-10):1083-1084 Park MH, Kim HS, and Kang SJ. 1999. HLA-A,-B,-DRB1 allele and haplotype frequencies in 510 Koreans. Tissue Antigens 53(4 Pt 1):386-390. Qi Q, Huang YK, Wen GS, Hao P, Li HL, and Zhou LF. 2006. [Characterization and Distribution of HLA - DRB1, DQB1 Allele Polymorphism in the Kunming Han Population]. Kunming Yi Xue Yuan Xue Bao(5):26-31. Qiu XP, Tan Y, Zuo ZH, Wei Y, and Wu XX. 2006. Distribution of HLA-A, -B allele and haplotype polymorphism in the Tu nationality of Hubei province in China. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 23(2):219-221. Qiu XP, Tan Y, Zuo ZH, Wei Y, and Wu XX. 2006. Distribution of HLA-A, -B allele and haplotype polymorphism in the Tujia nationality of Hubei province in China. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 23(2):219-221. Qu Z, Li CM, and Li JP. 2006. [Polymorphism distribution of HLA-DRB1 gene locus in Han race population in Liaoning of China]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 23(3):349-351. Qu Z, and Li JP. 2005. [Investigation on low resolution HLA-A gene frequency in Liaoning Chinese Han population]. Chinese Journal

of Forensic Medicine 20(6):355-356. S19 Saito S, Ota S, Yamada E, Inoko H, and Ota M. 2000. Allele frequencies and haplotypic associations defined by allelic DNA typing at HLA class I and class II loci in the Japanese population. Tissue Antigens 56(6):522-529. Shang YB, Zhai N, Li JP, Han SX, Li XF, Zhang X, Di L, and Song FJ. 2006. [Study on association between polymorphism of HLA class I and class II genes and Behcet?s disease]. Zhong Hua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 26(1):56-59. Shen CM, Zhu BF, and Li SB. 2008. [HLA-A, B, and DRB1 gene polymorphisms in Mongol ethnic group of Inner Mongolia, China]. Yi Chuan 30(2):164-168. Shen JJ, Tan YH, Guan XL, Huang XJ, Guo YH, Gao XJ, Fernandez-Vina M, Stastny P, and Sun YP. 1997. [Study on HLA-DR-DQ haplotypes in Xinjiang Uygur]. Zhong Hua Yi Xue Yi Chuan Xue Za Zhi 14(4):234-238. Shi L, Ogata S, Yu JK, Ohashi J, Yu L, Sun H, Lin K, Huang XQ, Matsushita M, Horai S and others. 2008. Distribution of HLA alleles and haplotypes in Jinuo and Wa populations in Southwest China. Hum Immunol 69(1):58-65. Shi L, Xu SB, Ohashi J, Sun H, Yu JK, Huang XQ, Tao YF, Yu L, Horai S, Chu JY and others. 2006. HLA-A, HLA-B, and HLA- DRB1 alleles and haplotypes in Naxi and Han populations in southwestern China (Yunnan province). Tissue Antigens 67(1):38- 44. Song YH, Li WC, Nie XM, Wang M, Liu Y, and Zhang P. 2006. [HLA- A, B, DRB1 allele polymorphism in Hans from Shandong province of China]. Yi Xue Jian Yan Yu Lin Chuang 17(3):16-19. Su X, Bi L, Hai R, Qimuge S, Ying M, Bahring S, and Gong M. 2007. HLA-DPB1, -DRB1, and -DQB1 polymorphism defined in Ewenki ethnic minority of China Inner Mongolia Autonomous Region. Int J Immunogenet 34(6):435-440.

Sun X, Sun Y, Mai W, Chen X, Liao B, Pan Q, Li Q, Huang Y, and Chen Y. 1999. [A comparative study of HLA-A locus in northern and southern Chinese by means of PCR/SSOP typing]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 16(2):70-73. Sun XF, Li Q, Sun YP, Huang YY, Liao BP, Chen YB, Yang Z, Fermandez-Vina MA, and Stastny P. 1997. [The polymorphism of HLA class II alleles in Guangdong Han Nationality]. Zhong Hua Yi Xue Yi Chuan Xue Za Zhi 14(5):270-273. Tan JM, Xie T, Xu QJ, Xu D, Wang XH, and Ding YD. 1996. [Study of genotyping for HLA-DRB1 by PCR-SSP in Shanghai Han individuals]. Zhong Hua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 16(5):331-334. Tian H, Zhou SY, Liu ZH, Fu YG, Lu FJ, Lin JH, and Xu AL. 2003. [Association of HLA-DPB1 Alleles with Chronic Myelogenous Leukemia in Southern Chinese Hans]. Zhongguo Shi Yan Xue Ye Xue Za Zhi 11(3):266-268. Tian W, Li LX, Zhou JF, and Guo SS. 2002. [Genetic polymorphism of HLA-Cw locus in a southern Chinese Han population analyzed by ARMS/PCR genotyping]. Zhong Hua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 22(1):95-98. Trachtenberg E, Vinson M, Hayes E, Hsu YM, Houtchens K, Erlich H, Klitz W, Hsia Y, and Hollenbach J. 2007. HLA class I (A, B, C) and class II (DRB1, DQA1, DQB1, DPB1) alleles and haplotypes in the Han from southern China. Tissue Antigens. Wang B, Hu W, Wang J, Li S, Yu H, Tang W, Tan S, Shou W, Zhang J, and Xiao C. 2007. HLA-DPB1 polymorphism in Blang and Puyi ethnic groups of Southwest China inferred from sequence-based typing. Tissue Antigens 71(1):81-84. Wang QH, Chen WZ, and Tan JM. 2006. [Analysis of HLA-DRB1 allele polymorphism in the Fujian Han nationality population of China]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 23(2):240-241.

Wen GS, Huang YK, Hao P, Qi Q, Li HL, Zhou LF, Zhou LY, and Yu LP. 2004. [Analysis of HLA-DRB1, DQB1 allele S20 polymorphism in the Kunming Yi nationality population]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 21(5):522-523. Wu Y, Liu B, Lin W, Xu Y, Li L, Zhang Y, Chen S, Lin Z, and Xu A. 2007. Human leukocyte antigen class II alleles and risk of cervical cancer in China. Hum Immunol 68(3):192-200. Xiao FL, Yang S, Yan KL, Cui Y, Liang YH, Zhou FS, Du WH, Gao M, Sun LD, Fan X and others. 2006. Association of HLA class I alleles with aloplecia areata in Chinese Hans. J Dermatol Sci 41(2):109-119. Xiao LL, Chen HT, Ye X, Ma LY, Tan Y, and Zhang S. 1999. [Characterization and distribution of HLA polymorphism in the Guangdong Han population]. Zhonghua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 19(4):302-305. Xie QL, Qin L, Jiao W, Zhen H, Wang L, Liu XC, Hu QY, Tan Y, Pan HF, Huang WS and others. 2008. [Study on Human Leukocyte Antigen -B and -DR Alleles Polymorphism in Children with Asthma in Zhuang and Han Nationality in Guangxi]. Chinese Journal of Applied Clinical Pediatrics 23(4). Xie YB, Wang CL, Li S, and Li DQ. 2006. [Study on polymorphism of HLA-DRB1 in Hunan population]. Shi Yong Yu Fang Yi Xue 13(6):1436-1438. Xie YB, Wang CL, Li S, and Xie YX. 2006. Study on polymorphism of HLA- A, B, and DRB1 alleles in Hunan population. Practical Preventive Medicine 13(1):4-7. Xu MY, Hong KX, Ma J, Deng XL, Li J, Peng H, Ruan YH, Qin GM, Zhang YZ, Xing H and others. 2006. Analysis of hla-B locus gene polymorphism in sichuan Yi ethnic group and Xinjiang Uygur ethnic group. Yi Chuan 28(8):913-917. Xu SB, Tao YF, Huang XQ, Chu ZT, Ban GH, Qian YP, Ohashi J, Tokunaga K, and Chu JY. 2004. [Polymorphism of HLA-DRB1 in Han population in Yunnan and comparison with 9 Han populations]. Yi Chuan 26(6):787-792.

Xu XP, Wang CY, Cao JF, Dong RP, Akinori K, Liu RY, and Zheng ZY. 1992. [A study on DNA typing of HLA Class II genes in Chinese Buyi people]. zhong Hua Wei Sheng Wu Xue He Mian Yi Xue Za Zhi 12(5):285-288. Yan CX, Song YP, Lai SP, Lai JH, Zhang HB, Zhao JH, and Li SB. 2002. Analysis of DNA polymorphism at HLA-A locus by PCR amplification with sequence specific oligonucleotide probe in Chinese Han and Uygur populations. Yi Chuan Xue Bao 29(5):384-389. Yang CL, Liang XL, Yan L, Xie YF, Qian XB, and Qiu LG. 2003. [Analyse on the HLA-DR allele polymorphism of 3000 cord blood units in Tianjin area]. Zhongguo Shu Xue Za Zhi 16(5):306-308. Yang G, Deng YJ, Hu SN, Wu DY, Li SB, Zhu J, Zhu BF, and Liu Y. 2006. HLA-A, -B, and -DRB1 polymorphism defined by sequence-based typing of the Han population in Northern China. Tissue Antigens 67(2):146-152. Yoshitake S, Kimura A, Okada M, Yao T, and Sasazuki T. 1999. HLA class II alleles in Japanese patients with inflammatory bowel disease. Tissue Antigens 53(4 Pt 1):350-358. Yu GL, Sun YP, Xu LM, Gao FY, Li GQ, Guo YH, Shao HX, and Shen JJ. 1995. [Study of DNA genotyping for HLA-DR, DQ and DP in a Han population from Shenyang]. Zhong Guo Mian Yi Xue Za Zhi 11(3):142-145. Yuan YH, Xu LM, An SP, Dong Z, and Wang XQ. 2003. [A study of HLA-Cw alleles in association with psoriasis in Tianjin Han Chinese populations]. Zhong Hua Feng Shi Bing Xue Za Zhi 7(9):559-562. Zeng J, Wang JX, Sun SX, Chen Q, Mi XY, Chen XL, Song N, and Yao ZQ. 2005. [The frequencies of HLA alleles and haplotypes and their distribution among donors in the CMDP (Sichuan) Registry]. Zhongguo Shu Xue Za Zhi 18(5):384-388. S21 Zhang HB, Gao F, Kang LL, and Li SB. 2005. [Determination of HLA-A, B, and DRB1 gene polymorphism in Monba ethnic group of Xizang Autonomous Region, China]. Zhonghua Yi Xue Yi Chuan Xue Za Zhi 22(3):344-346. Zhang HB, Lai JH, Zhao JH, and Li S. 2004. [The study on HLA-Cw polymorphism from Xi'an Han population by PCR-sequence specific oligonucleotide probe]. Fa Yi Xue Za Zhi 20(4):197-199. Zhang HB, Zhao JH, Lai JH, Chen T, Li SB, and Lai SP. 2003. [The study of HLA-Cw polymorphism in Uygur population]. Yi Chuan 25(5):549-551. Zhang XW, and Guo SS. 1994. [Analysis of HLA-DR, DQ and DP DNA polymorphism in Hunan Han people with PCR-SSO method]. Hunan Yi Ke Da Xue Xue Bao 19(1):7-10. Zhao JL, Tang QP, Sun A, Han H, Cai YX, and Li W. 2004. [A study about the diverse distribution of HLA-DRB1 among Han nationality in Hainan]. Hainan Yi Xue 15(10):131-132. Zheng WJ, Liang L, Liu DH, Su JG, Yan YL, Lin YK, Pan SL, and Luo ZJ. 2003. [Relationship between the allele of HLA-DRB1 and systemic lupus erythematosus in the Zhuang and Han nationality in Guangxi]. Lin Chuang Pi Fu Ke Za Zhi 32(11):641-642. Zhou L, Lin B, Xie Y, Liu Z, Yan W, and Xu A. 2005. Polymorphism of human leukocyte antigen-DRB1, -DQB1, and -DPB1 genes of Shandong Han population in China. Tissue Antigens 66(1):37-43. Zhu NS, Wang FQ, Chen SS, and Wang H. 2000. [Analysis of HLA-DPB1 gene polymorphism in normal people and rheumatoid arthritis patients in the Han population in Shanghai area]. Zhong Guo Mian Yi Xue Za Zhi 16(4):196-197. Zhu YY, Yin P, Shen G, Wu JM, Liu GJ, Zou J, Li WX, Zhang H, Zhang JH, and Xu YF. 2006. [Study on polymorphism of HLA-A, B and DRB1 genes in Chinese Han population, Hubei]. Gong Gong Wei Sheng Yu Yu Fang Yi Xue 17(6).

S22

S23

Annexe 2 Graphiques d’autocorrélation spatiale des allèles de groupe-1 et de groupe-2, leur répartition chez les populations est-asiatiques illustrée par nos données (populations de différentes familles linguistiques sont représentées par différentes couleurs), ainsi que leur répartition géographique à l’échelle globale d’après http://www.pypop.org/popdata/.

(a) allèles de groupe-1

Répartition chez Graphiques d’autocorrélation spatiale Allèle les populations Répartition géographique globale (●: significatif; ×: non-significatif) est-asiatiques

25% ALT 1 Korean+Japonic 0.8 20% NEA TB 0.6

Moran's I Moran's 0.4 MAN 0.2 15% SCL 0 SEA TB A*01:01 -0.2 HM 10% -0.4 TK -0.6 AA -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *01 01 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 A*03:01 -0.2 -0.4 10% -0.6 -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *03 G 1 NEAs ← → SEAs

25%

20%

n. s. (aucun profile significatif 15% A*23:01 observé) 10%

5%

0% *2301 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 A*30:01 -0.2 -0.4 10% -0.6 -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *3 001 NEAs ← → SEAs

25%

20%

15% A*32:01 n. s. 10%

5%

0% *3201 NEAs ← → SEAs S24

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 B*07:02 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *07 02 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 B*13:02 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1302 NEAs ← → SEAs

25%

1 0.8 20% 0.6 Moran's I Moran's 0.4 0.2 15% 0 B*15:11 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1 511 NEAs ← → SEAs

25%

1 0.8 20% 0.6 Moran's I Moran's 0.4 0.2 15% 0 B*15:18 -0.2 10% -0.4 -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1 518 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 B*44:02 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *4402 NEAs ← → SEAs

25%

20%

15% B*50:01 n. s. 10%

5%

0% *5001 NEAs ← → SEAs

25%

20%

15% C*05:01 n. s. 10%

5%

0% Cw*05 0 1 NEAs ← → SEAs S25

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 C*06:02 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

0% Cw*06 0 2 Geographic distance (km) NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 C*14:03 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% Cw*14 03 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% DPB1*09: 0 -0.2 01 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *09 01 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% DPB1*17: 0 -0.2 01 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1701 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% DRB1*04 0 -0.2 :01 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Geographic distance (km) 0% *04 01 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% DRB1*08 0 -0.2 :01 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Geographic distance (km) 0% *08 01 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% DRB1*08 0 -0.2 :02 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Geographic distance (km) 0% *08 02 NEAs ← → SEAs S26

25%

20%

15% DRB1*14

:03 n. s. 10%

5%

0% *1403 NEAs ← → SEAs

S27

(b) allèles de groupe-2

Répartition chez Graphiques d’autocorrélation spatiale Répartition géographique au niveau globale Allèle les populations (●: significatif; ×: non-significatif) (d’après http://www.pypop.org/popdata/) est-asiatiques

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 A*02:03 -0.2 -0.4 10% -0.6 -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *02 03 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 A*02:07 -0.2 -0.4 10% -0.6 -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *02 07 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 A*11:02 -0.2 -0.4 10% -0.6 -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1102 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 B*13:01 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1301 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 B*15:02 -0.2 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *1502 NEAs ← → SEAs

25%

20%

15% B*38:02 n. s. 10%

5%

0% *3802 NEAs ← → SEAs S28

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 B*46:01 -0.2 -0.4 10% -0.6 -0.8 -1 5% 0 500 1000 1500 2000 2500 3000 3500 4000

Geographic distance (km) 0% *4601 NEAs ← → SEAs

25%

1 0.8 20% 0.6

Moran's I Moran's 0.4 0.2 15% 0 C*04:03 -0.2 10% -0.4 -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000

0% Cw*04 0 3 Geographic distance (km) NEAs ← → SEAs

35%

30%

1 25% 0.8 0.6 Moran's I Moran's 0.4 20% 0.2 DRB1*12 0 -0.2 :02 -0.4 15% -0.6 -0.8 -1 10% 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Geographic distance (km) 5%

0% *1202 NEAs ← → SEAs

25%

20%

15% DRB1*13 :12 n. s. 10%

5%

0% *131 2 NEAs ← → SEAs

25%

1 0.8 20% 0.6 Moran's I Moran's 0.4 0.2 15% DRB1*14 0 -0.2 :04 -0.4 10% -0.6 -0.8 5% -1 0 500 1000 1500 2000 2500 3000 3500 4000 4500

Geographic distance (km) 0% *1404 NEAs ← → SEAs

Annexe 3 Diversité génétique observée entre groupes linguistiques (FCT, partie inférieure de la diagonale) et entre populations au sein des groupes linguistiques (FSC, partie supérieure de la diagonale) (italiques : FCT significatif mais FCT < FSC; ***: p<0,001, **:0,001

(a) HLA-A données alléliques

ALT (4) TB (6) SIN (8) MAN (3) LCS (5) HM(1) TK(4) AA(4) ALT (4) - 4,477*** 2,195*** 2,434*** 1,757*** - 2,723*** 3,859*** TB (6) 1,785 n.s. - 3,130*** 4,367*** 3,028*** - 4,405*** 5,305*** SIN (8) 2,529** -0,206 n.s. - - - - 1,934*** 2,605*** MAN (3) 0,246 n.s. -0,102 n.s. - - 0,946*** - 1,795*** 3,466*** LCS (5) 3,662* -0,040 n.s. - 1,922* - - 1,326*** 2,284*** S29 HM(1) ------TK(4) 5,185* 0,687 n.s. 0,458* 2,843* 0,287* - - 3,638*** AA(4) 4,137* 0,616 n.s. 0,057 n.s. 2,077* -0,253 n.s. - 0,147 n.s. -

(b) HLA-A données génériques

ALT (7) TB (9) SIN (25) MAN (14) LCS (11) HM (2) TK (6) AA (4) ALT (7) - 2,682*** 0,839*** 0,645*** 0,743*** 0,555*** 0,909*** 2,039*** TB (9) 3,454** - 0,875*** 0,687*** 1,098*** 4,088*** 3,112*** 3,404*** SIN (25) 1,459*** 1,028** - - - 0,839*** 0,843*** 0,858*** MAN (14) 1,296*** 1,260*** - - 0,655*** 0,644*** 0,609*** 0,645*** LCS (11) 3,672*** 0,018 n.s. - 0,801* - 0,737*** 0,779*** 0,929*** HM (2) 7,050* -0,464 n.s. 2,769* 3,182** 0,625 n.s. - 1,048*** 0,624*** TK (6) 4,761*** -0,173 n.s. 1,219** 1,487*** 0,037 n.s. 0,194 n.s. - 2,598*** AA (4) 5,197*** -0,105 n.s. 2,136** 2,076*** 0,696* 0,252 n.s. 0,723 n.s. -

(c) HLA-B données alléliques

ALT (2) TB (6) SIN (7) MAN (2) LCS (5) HM (1) TK (4) AA (4) ALT (2) - 3,516*** 0,964*** 0,175* 0,418*** - 0,857*** 2,420*** TB (6) 0,383 n.s. - 2,034*** 3,313*** 2,241*** - 3,205*** 3,882*** SIN (7) 1,555* 0,185 n.s. - - - - 1,085*** 1,542*** MAN (2) 0,888 n.s. -0,815 n.s. - - 0,449*** - 0,857*** 2,271*** LCS (5) 2,826 n.s. 0,422 n.s. - 0,961* - - 0,723*** 1,484*** HM (1) ------TK (4) 4,338 n.s. 1,119 n.s. 0,964** 2,021 n.s. 0,698* - - 2,313*** AA (4) 1,632 n.s. 0,090 n.s. 0,852* 0,453 n.s. 1,034** - 1,157* - S30

(d) HLA-B données génériques

ALT (6) TB (9) SIN (23) MAN (12) LCS (11) HM (1) TK (6) AA (4) ALT (6) - 2,279*** 0,516*** 0,379*** 0,283*** - 0,941*** 1,825*** TB (9) 1,145** - 0,546*** 0,415*** 0,609*** - 2,426*** 3,190*** SIN (23) 0,787*** 0,762*** - - - - 0,518*** 0,529*** MAN (12) 0,733*** 0,787*** - - 0,364*** - 0,382*** 0,394*** LCS (11) 2,113*** 1,291*** - 0,692*** - - 0,307*** 0,418*** HM (1) ------TK (6) 3,002** 1,520** 0,932*** 1,018*** 1,034*** - - 2,038*** AA (4) 2,594** 0,652 n.s. 1,540*** 1,530*** 2,502** - 1,334* -

(e) HLA-C données alléliques

ALT (2) TB (3) SIN (9) MAN (4) LCS (5) HM (1) TK (3) AA (1) ALT (2) - 2,424*** 2,227*** 1,600*** 0,603*** - 1,588*** - TB (3) 1,246 n.s. - 2,667*** 2,730*** 1,543*** - 2,895*** - SIN (9) 0,197 n.s. 0,218 n.s. - - - - 2,424*** - MAN (4) 0,108 n.s. 1,824 n.s. - - 1,200*** - 2,169*** - LCS (5) 1,830* 0,249 n.s. - 2,267** - - 1,165*** - HM (1) ------TK (3) 2,178 n.s. 0,336 n.s. 0,210n.s. 2,111 n.s. 0,194 n.s. - - - AA (1) ------S31

(f) HLA-C données génériques

ALT (6) TB (4) SIN (13) MAN (6) LCS (7) HM (1) TK (3) AA (1) ALT (6) - 2,758*** 2,132*** 2,025*** 1,867*** - 2,392*** - TB (4) 2,495* - 2,092*** 1,931*** 1,744*** - 2,325*** - SIN (13) 0,818** 0,851* - - - - 1,882*** - MAN (6) 0,191 n.s. 1,537* - - 1,344*** - 1,478*** - LCS (7) 1,872*** 0,784* - 1,069** - - 1,882*** - HM (1) ------TK (3) 3,049* 0,750 n.s. 0,478 n.s. 1,541* 0,478 n.s. - - - AA (1) ------

(g) HLA-DPB1 données alléliques

ALT (5) TB (8) SIN (12) MAN (6) LCS (6) HM (2) TK (4) AA (2) ALT (5) - 2,793*** 1,753*** 1,035*** 1,825*** 1,428*** 1,609*** 1,768*** TB (8) 5,612*** - 2,319*** 2,274*** 2,607*** 3,187*** 2,961*** 3,297*** SIN (12) 7,921*** 1,635*** - - - 1,701*** 1,743*** 1,803*** MAN (6) 4,681** 1,320* - - 1,413*** 0,390* 0,838*** 0,807*** LCS (6) 9,568** 1,867* - 0,754* - 1,752*** 1,812*** 1,915*** HM (2) 14,991* 3,065* 1,204* 3,877* 0,361 n.s. - 1,180*** 1,652** TK (4) 13,087** 2,108* 1,657*** 3,573** 1,056** 0,325 n.s. - 1,689*** AA (2) 10,758* 0,664 n.s. 0,797 n.s. 2,460* 0,345 n.s. 0,394 n.s. 0,089 n.s. - S32

(h) HLA-DRB1 données alléliques

ALT (5) TB (8) SIN (7) MAN (4) LCS (3) HM (2) TK (4) AA (5) ALT (5) - 1,896*** 0,695*** 0,546*** 0,818*** 0,897*** 1,228*** 2,239*** TB (8) 3,292*** - 1,403*** 1,459*** 2,180*** 2,412*** 2,347*** 2,983*** SIN (7) 0,828** 1,947*** - - - 0,658*** 0,876*** 1,507*** MAN (4) 0,681* 2,174* - - 0,420*** 0,420*** 0,766*** 1,607*** LCS (3) 1,856* 0,847 n.s. - 0,468* - 0,840*** 1,534*** 2,804*** HM (2) 2,894* 1,160 n.s. 1,620* 1,986 n.s. 0,787 n.s. - 1,996*** 3,295*** TK (4) 2,716* 1,384** 1,712** 1,992* 0,907 n.s. 0,585 n.s. - 3,319*** AA (5) 3,923** 0,598 n.s. 2,744** 2,953* 1,490 n.s. 2,263 n.s. 1,302 n.s. -

(i) HLA-DRB1 données génériques

ALT (7) TB (12) SIN (29) MAN (19) LCS (10) HM (2) TK (7) AA (5) ALT (7) - 2,789*** 0,392*** 0,329*** 0,623*** 1,891*** 1,730*** 2,477*** TB (12) 2,337** - 0,410*** 0,350*** 0,866*** 3,137*** 2,598*** 3,309*** SIN (29) 1,037*** 1,890*** - - - 0,380*** 0,387*** 0,392*** MAN (19) 0,985*** 1,947*** - - 0,326*** 0,315*** 0,323*** 0,329*** LCS (10) 1,847*** 1,537*** - 0,293** - 0,472*** 0,553*** 0,631*** HM (2) 2,748* 0,605 n.s. 1,747** 1,804** 1,600* - 1,328*** 2,875*** TK (7) 3,280*** 2,651*** 2,217*** 2,240*** 2,308*** -0,090 n.s. - 2,134*** AA (5) 3,344** 0,741 n.s. 2,256*** 2,298*** 2,134*** 1,154 n.s. 2,361** -

S33

S34 Annexe-4 Comparaison entre les valeurs retenues des simulations et les valeurs observées des PLS (LinearCombination_0-5 : PLS 1- 6 ; 4 PLS pour le modèle 2Ra et 6 PLS pour le modèle 2Rb ; point bleu : valeurs retenues ; croix rouge : valeur observée).

(a) Modèle 2Ra (locus HLA-A)

S35

(b) Modèle 2Ra (locus HLA-B) S36

S37

(c) Modèle 2Ra (locus HLA-DRB1)

S38

(d) Modèle 2Rb (locus HLA-A)

S39

S40

S41

(e) Modèle 2Rb (locus HLA-B)

S42

S43

S44

(f) Modèle 2Rb (locus HLA-DRB1)

S45

S46

S47

S48 S49

Annexe 5 Scripts informatiques pour l’automatisation de l’estimation ABC.

(a) Programme principale (en Shell) :

#DI Da_17.10.2012 clear Core_filename=$1 ABC_input=ABCestimator.input

#number of statistics N_stat=12 directory=SCRIPTS_PROGRAMS

sed ‐i ‐e 's/corefilename <‐.*/corefilename <‐ "'${Core_filename}'";/' extrait_data_nm.R Sim_file=${Core_filename}.sim mkdir ${Core_filename}

#call R to extrait data from txt file R ‐‐vanilla < extrait_data_nm.R > log_R.txt cat ${Sim_file} > Pseudo_${Core_filename}.txt

#make pseudoobserved data file (part 1) tail ‐n100 ${Core_filename}_data.sim >> Pseudo_${Core_filename}.txt N_simulats=`wc ‐l ${Core_filename}_data.sim | cut ‐f1 ‐d' '` #calculate the simulation number

#make simulated data file N_simulats=`expr $N_simulats ‐ 100` head ‐n${N_simulats} ${Core_filename}_data.sim >> ${Sim_file} #add header into the datafile

#rm ${Core_filename}_data.sim #rm intermediate file echo sim file prepared! #tell me if the file is prepared N_parameters=`expr $columns ‐ $N_stat` #calculate parameter number

#make pseodobserved data file (part 2) cut ‐f1‐$N_parameters Pseudo_${Core_filename}.txt > True_parameters_${Core_filename}.txt No_firststat=`expr ${N_parameters} + 1`

cut ‐f${No_firststat}‐$columns Pseudo_${Core_filename}.txt > Pseudo_observed_${Core_filename}.obs

#change parameters in the ABCestimator input file sed ‐i ‐e 's/params.*/params\t1‐'${N_parameters}'/' ${ABC_input} sed ‐i ‐e 's/numRetained.*/numRetained\t'${N_retained}'/' ${ABC_input} sed ‐i ‐e 's/maxReadSims.*/maxReadSims\t'${N_simulats}'/' ${ABC_input} sed ‐i ‐e 's/posteriorDensityPoints.*/posteriorDensityPoints '${N_retained}'/' ${ABC_input} sed ‐i ‐e 's/obsPValue.*/obsPValue\t'${N_retained}'/' ${ABC_input} sed ‐i ‐e 's/trueParamName.*/trueParamName/' ${ABC_input} #remove trueParamName file name

#run ABCestimator for different loci: A, B and DRB1 sed ‐i ‐e 's/simName.*/simName\t'${Sim_file}'/' ${ABC_input}

#Call Run_ABCestimator_for_all_loci.sh , N_PLS=0 means original data, no pls. chmod +x Run_ABCestimator_for_all_loci.sh ./Run_ABCestimator_for_all_loci.sh $Core_filename 0 ${N_retained} ${N_simulats} ${N_stat} S50

#To make PLS output file dopseudo=0 #0:don't do PLS; 1:do PLS if [ $dopseudo = 1 ] then #total column number columns=`awk '{print NF}' ${Sim_file} | sort ‐nu | tail ‐n 1` #calculate parameter number N_parameters=`expr $columns ‐ ${N_stat}` #indicate the sim filename sed ‐i ‐e 's/MY_NAME_IS_INPUTFILE/'${Sim_file}'/' find_pls.R #indicate the number of initial components sed ‐i ‐e 's/numComp<‐.*/numComp<‐'${N_stat}';/' find_pls.R #indicate the number of initial components sed ‐i ‐e 's/numStat<‐.*/numStat<‐'${N_stat}';/' find_pls.R #indicate the number of parameters sed ‐i ‐e 's/numpara<‐.*/numpara<‐'${N_parameters}';/' find_pls.R #call find_pls.R R ‐‐vanilla < find_pls.R >> log_R.txt #change back inputfile name sed ‐i ‐e 's/'${Sim_file}'/MY_NAME_IS_INPUTFILE/' find_pls.R echo output_PLS_file made!

#make different pls input files and observed pls files and run ABCestimator for k in {4..6} do ( #make pls Routput file for different component numbers columns_pls=`awk '{print NF}' Routput_${Core_filename}.sim | sort ‐nu | tail ‐n 1` columns_pls=`expr $columns_pls ‐ $N_stat` columns_pls=`expr $columns_pls + $k` cut ‐f1‐${columns_pls} Routput_${Core_filename}.sim > Routput_${Core_filename}_pls=$k.sim

#Make PLS files with transformer chmod +x transformer Routputname=Routput_${Core_filename}_pls=$k.sim ./transformer $Routputname ${Core_filename}.sim ${Core_filename}_pls=$k.sim boxcox ./transformer $Routputname outSumStats_A.obs outSumStats_A_pls=$k.obs boxcox ./transformer $Routputname outSumStats_B.obs outSumStats_B_pls=$k.obs boxcox ./transformer $Routputname outSumStats_DRB1.obs outSumStats_DRB1_pls=$k.obs boxcox ./transformer $Routputname Pseudo_observed_${Core_filename}.obs seudo_observed_${Core_filename}_pls=$k.obs boxcox

#tell the PLS number ./Run_ABCestimator_for_all_loci.sh $Core_filename $k ${N_retained} ${N_simulats} ) done mkdir ${Core_filename}/ABC_GLM_PLS_files mv Routput*_pls* ${Core_filename}/ABC_GLM_PLS_files mv outSumStats_*_pls* ${Core_filename}/ABC_GLM_PLS_files mv ${Core_filename}_pls* ${Core_filename}/ABC_GLM_PLS_files mv Pseudo_observed_${Core_filename}_pls* ${Core_filename}/ABC_GLM_PLS_files fi mv log_R.txt ${Core_filename}/ABC_GLM_PLS_files echo CONGRATULATIONS! ALL DONE! S51

(b) Script qui extrait des données nécessaires depuis les données brutes (en R) :

rm(list=ls()) m1=1 nb_pop=19 #if m1=1, no mix time, no selection. if m1=3, with mix time and selection. if m1=4, with neo too.

corefilename <‐ "2rts_Finalresults_greatwall_neoyangzi_12stats"; inputfile <‐ paste(corefilename,".txt",sep=""); A <‐ as.matrix(read.table(inputfile, header=TRUE)); #Read all simulated data Matx_geo <‐ as.matrix(read.table("matrix_dists_geo.txt", header=FALSE)); #Read geo distance matrix Coord <‐ c(52.0, 47.0, 47.9, 40.8, 41.2, 37.9, 36.6, 34.3, 34.0, 31.9, 30.5, 30.0, 28.2, 28.7, 24.5, 24.8, 23.2, 23.0, 20.5); Coord_N <‐ c(52.0, 47.0, 47.9, 40.8, 41.2, 37.9, 36.6, 34.3, 34.0, 31.9); Coord_S <‐ c(30.5, 30.0, 28.2, 28.7, 24.5, 24.8, 23.2, 23.0, 20.5);

B <‐ matrix(data=0, nr=length(A[,1]), nc=length(A[1,])); T <‐ names(A[1,]); Bt <‐ T

ng <‐ pmatch ("NUM_GENERATIONS", T); #find colomn number of total generations (parameter) selec <‐ pmatch ("SELECTION_RATE", T); #find colomn number of selection rate (parameter) str1 <‐ pmatch ("POP_STRUCT_1", T); #find colomn number of structure_1 (parameter) nn <‐ pmatch ("POP_FINAL_K_1", T); #colomne density north (parameter) ns <‐ pmatch ("POP_FINAL_K_2", T); #colomne density south (parameter) nf <‐ pmatch ("POP_FINAL_K_3", T); #colomn density frontier (parameter) nfn <‐ pmatch ("POP_FINAL_K_5", T); #colomn density northwest‐north (parameter) #nfs <‐ pmatch ("POP_FINAL_K_6", T); #colomn density south‐north (parameter)

k1 <‐ pmatch ("K_1", T); #find colomn number of K_1 (statistic) h1 <‐ pmatch ("H_1", T); #find colomn number of H_1 (statistic) mk <‐ pmatch ("mean_K", T); #find colomn number of mean_K (statistic) mh <‐ pmatch ("mean_H", T); #find colomn number of mean_H (statistic) nfst <‐ pmatch ("FST", T); #find colomn Fst nst <‐ pmatch ("FST_2_1", T); #colomn pairwise Fst (statictic)

#see if the total generation number changes #here is.na returns "true" when str1 cannot be find if (is.na(ng)==0){ m1=m1+1; A[,ng] <‐ A[,ng]‐2499; #calculer le temps de mix T[ng] <‐ paste("NEO_TIME"); }

#see if the selection rate exists #here is.na returns "true" when str1 cannot be find if (is.na(selec)==0){ m1=m1+1; }

S52

#see if the 2nd structure exists #here is.na returns "true" when str1 cannot be find

if (is.na(str1)==0) { A[,str1] <‐ 2500‐A[,str1]; #compute “le temps de mix” T[str1] <‐ paste("MIX_TIME"); m1=m1+1 }

A[,nn] <‐ A[,nn]*A[,(nn+2)]; #calculer le Nm_nord T[nn] <‐ paste("POP_FINAL_KM_1"); A[,ns] <‐ A[,ns]*A[,(ns+2)]; #calculer le Nm_sud T[ns] <‐ paste("POP_FINAL_KM_2"); A[,nf] <‐ A[,nf]*A[,nf+2]; #calculer le Nm_barriere T[nf] <‐ paste("POP_FINAL_KM_3"); #A[,nfn] <‐ A[,nfn]*A[,nf+2]; #calculer le Nm_nw‐n #T[nfn] <‐ paste("POP_FINAL_KM_5"); #A[,nfs] <‐ A[,nfs]*A[,nf+2]; #calculer le Nm_n‐s #T[nfs] <‐ paste("POP_FINAL_KM_6");

#Allele_number+Selection, nm_north+g_north+nm_south+g_south+mn_boundary+g_boundary, 1 m2=m1+2+4+1; #m2=nb_para+1

#write parameter columns B[,c(1:m2‐1)] <‐ A[,c(1:m1,nn:(nn+1),ns:(ns+1),nf:(nf+1))]; #B[,c(1:m2‐1)] <‐ A[,c(1:m1,nn:(nn+1),ns:(ns+1),nf:(nf+1),nfn:(nfn+1))]; #B[,c(1:m2‐1)] <‐ A[,c(1:m1,nn:(nn+1),ns:(ns+1),nf:(nf+1),nfn:(nfn+1),nfs:(nfs+1))]; #write parameter names Bt[c(1:m2‐1)] <‐ T[c(1:m1,nn:(nn+1),ns:(ns+1),nf:(nf+1))]; #Bt[c(1:m2‐1)] <‐ T[c(1:m1,nn:(nn+1),ns:(ns+1),nf:(nf+1),nfn:(nfn+1))]; #Bt[c(1:m2‐1)] <‐ T[c(1:m1,nn:(nn+1),ns:(ns+1),nf:(nf+1),nfn:(nfn+1),nfs:(nfs+1))];

#Ecrire the first columns B[,c(m2:(m2+3))] <‐ A[,c(mk:(mk+1),mh:(mh+1))]; #write column names Bt[c(m2:(m2+3))] <‐ T[c(mk:(mk+1),mh:(mh+1))];

pdf(paste(corefilename, "_pca.pdf", sep=""), width=12, height=9); par(mfrow=c(3,4)); S53

for (i in 1:length(A[,1])){ B[i,m2+4] <‐ mean(A[i,k1:(k1+9)]); B[i,m2+5] <‐ sd(A[i,k1:(k1+9)]); B[i,m2+6] <‐ mean(A[i,(k1+10):(k1+18)]); B[i,m2+7] <‐ sd(A[i,(k1+10):(k1+18)]);

B[i,m2+8]<‐ cor(A[i,h1:(h1+18)], Coord); #calculate H vs latitude coordination B[i,m2+9] <‐ mean(A[i,h1:(h1+9)]); B[i,m2+10] <‐ sd(A[i,h1:(h1+9)]); B[i,m2+11] <‐ mean(A[i,(h1+10):(h1+18)]); B[i,m2+12] <‐ sd(A[i,(h1+10):(h1+18)]); #if (is.na(nst)==0) #{ Data_fst <‐ (A[i,nst:(length(A[i,]))]) Matx_gene=matrix(0,nb_pop,nb_pop); #create genetic Fst matrix #Convert the fst in one row into the matrix col=0; for (p in 1:nb_pop){ for (q in 1:nb_pop){ if (p>q){ col=col+1 Matx_gene[p,q] <‐ Data_fst[col]; Matx_gene[q,p] <‐ Data_fst[col]; } } } xdis <‐ as.dist(Matx_gene) ydis <‐ as.vector(as.dist(Matx_geo)) tmp <‐ cor.test(as.vector(xdis), ydis, method = "pearson") B[i,m2+13] <‐ as.numeric(tmp$estimate) #}

#calculate Fst_north B[i,c(m2+17)] <‐ mean(A[i,c(nst:(nst+44))]); #calculate Fst_south B[i,c(m2+18)] <‐ mean(A[i,c((nst+65),(nst+76):(nst+77),(nst+88):(nst+90),(nst+101):(nst+104),(nst+ 115):(nst+119),(nst+130):(nst+135),(nst+146):(nst+152),(nst+163):(nst+170))]);

if (i<100){ plot(cmdscale(Matx_gene,k=2)[1:19,], xlab=paste("coord1_Fct=", A[i,(nfst+1)], "_Fsc=", A[i,(nfst+2)], sep=""), ylab="coord2", pch=20, col="red"); points(cmdscale(Matx_gene,k=2)[11:19,], pch=20, col="green") } }#end of the computation invisible(dev.off()) ; S54

#write column names Bt[m2+4] <‐ paste("mean_K_north"); Bt[m2+5] <‐ paste("sd_K_north"); Bt[m2+6] <‐ paste("mean_K_south"); Bt[m2+7] <‐ paste("sd_K_south"); Bt[m2+8]<‐ paste("H_lat"); Bt[m2+9] <‐ paste("mean_H_north"); Bt[m2+10] <‐ paste("sd_H_north"); Bt[m2+11] <‐ paste("mean_H_south"); Bt[m2+12] <‐ paste("sd_H_south"); Bt[m2+13] <‐ paste("Gene_Geo"); Bt[c(m2+17)] <‐ paste("FST_north"); Bt[c(m2+18)] <‐ paste("FST_south");

#write 3 fixation indices B[,c((m2+14):(m2+16))] <‐ A[,c(nfst:(nfst+2))]; Bt[c((m2+14):(m2+16))] <‐ T[c(nfst:(nfst+2))];

#Cut complete results B <‐ B[, c(1:(m2+18))]; Bt <‐ Bt[c(1:(m2+18))];

#Cut standard results #B <‐ B[, c(1:(m2+3),(m2+8),(m2+13):(m2+14))]; #Bt <‐ Bt[c(1:(m2+3),(m2+8),(m2+13):(m2+14))];

#Cut partial results #B <‐ B[, c(1:(m2‐1),(m2+4),(m2+8):(m2+10),(m2+17))]; #Bt <‐ Bt[c(1:(m2‐1),(m2+4),(m2+8):(m2+10),(m2+17))]; outputfile <‐ paste(corefilename,"_data.sim",sep=""); outputheaderfile <‐ paste(corefilename,".sim",sep=""); write.table(B, file=outputfile,sep = "\t",row.names = FALSE, col.names = FALSE); write(Bt, file=outputheaderfile, ncolumns=length(Bt), sep = "\t"); print("Fin")

S55

(c) script qui exécute ABCestimator (en Shell) :

#DI Da_19.10.2012 Core_filename=$1 N_PLS=$2 N_retained=$3 #retained number N_simulats=$4 #simulation number N_stats=$5 #statistics number ABC_input=ABCestimator.input

if [ $N_PLS = 0 ] then Suffix_pls= N_st=${N_stats} else Suffix_pls=_pls=${N_PLS} N_st=${N_PLS} fi

#change parameters in the ABCestimator input file x=$Suffix_pls sed ‐i ‐e 's/simName.*/simName\t'${Core_filename}''${x}'.sim/' ${ABC_input}

#run ABCestimator for different loci: A, B and DRB1 j=1 for j in {1..3} do ( #decide locus name if [ $j = 1 ] then locus_name=A fi if [ $j = 2 ]

then locus_name=B fi if [ $j = 3 ] then locus_name=DRB1 fi if [ $j = 4 ] then locus_name=C fi

echo locus $locus_name begins sed ‐i ‐e 's/obsName.*/obsName\toutSumStats_'${locus_name}''${Suffix_pls}'.obs/' ${ABC_input}

sed ‐i ‐e 's/outputPrefix.*/outputPrefix\tLocus_'${locus_name}''${Suffix_pls}'_ABC_GLM_/' ${ABC_input} #change output file name ./ABCestimator $ABC_input > Locus_${locus_name}${Suffix_pls}_ABC_GLM.log S56

sed ‐i ‐e 's/ ‐ marginal density: /(md=/' Locus_${locus_name}${Suffix_pls}_ABC_GLM.log sed ‐i ‐e 's/\t(p‐value /_p=/' Locus_${locus_name}${Suffix_pls}_ABC_GLM.log log_name=`sed ‐n '/md=/p' Locus_${locus_name}${Suffix_pls}_ABC_GLM.log` document_name=ABC_GLM_${locus_name}${Suffix_pls}_${log_name}_${N_retained}_sur_${N_simulat s} R ‐‐vanilla $ABC_input < plotPosteriorsGLM.R > Locus_${locus_name}${Suffix_pls}_R_posterior.log #draw posterior distribution

#call distribution_sim_vs_obs.R R ‐‐vanilla < distribution_sim_vs_obs.R >> Locus_${locus_name}${Suffix_pls}_R_posterior.log

mv ABC_GLM_PosteriorPlots_Obs0.pdf Locus_${locus_name}${Suffix_pls}_ABC_GLM_PosteriorPlots_Obs0.pdf mkdir ${Core_filename}/$document_name mv Locus_${locus_name}* ${Core_filename}/$document_name echo $document_name ) done

dopseudo=1 #0,don't do pseudo, 1, do pseudo if [ $dopseudo = 1 ] then #run ABCestimator for pseudo‐observed data sed ‐i ‐e 's/obsName.*/obsName\tPseudo_observed_'${Core_filename}''${Suffix_pls}'.obs/' ${ABC_input} #change observed data file name sed ‐i ‐e 's/outputPrefix.*/outputPrefix\tPseudo_observed_ABC_GLM'${Suffix_pls}'_/' ${ABC_input} #change output file name sed ‐i ‐e 's/trueParamName.*/trueParamName\tTrue_parameters_'${Core_filename}'.txt/' ${ABC_input} #change trueParamName file name ./ABCestimator $ABC_input > Pseudo_observed_ABC_GLM_${Core_filename}${Suffix_pls}.log

sed ‐i ‐e 's/inputfile <‐.*/inputfile <‐ paste("Pseudo_observed_ABC_GLM'${Suffix_pls}'_quantilesOfTrueParameters.txt")/' pseudo_observed_quantile.R #change quantile file name R ‐‐vanilla < pseudo_observed_quantile.R > Pseudo_observed_ABC_GLM_quantile${Suffix_pls}_R.log #Run R script to analyze and visualize quantile file

sed ‐i ‐e 's/trueParamName.*/trueParamName/' ${ABC_input} #remove trueParamName file name document_name=ABC_GLM_Pseudo_observed${Suffix_pls}_${N_retained}_sur_${N_simulats} rm Pseudo_observed_ABC_GLM${Suffix_pls}_TruncatedPrior* rm Pseudo_observed_ABC_GLM${Suffix_pls}_Posterior* rm Pseudo_observed_ABC_GLM${Suffix_pls}_Best* mkdir ${Core_filename}/${document_name} mv Pseudo_observed_ABC_* ${Core_filename}/${document_name} #mv Pseudo_observed_${Core_filename}${Suffix_pls}.obs ${Core_filename}/$document_name mv *.png ${Core_filename}/$document_name #mv True_parameters_${Core_filename}_pls=${N_PLS}.txt ${Core_filename}/$document_name fi echo $document_name

S57

(d) script qui effectue le test de Kolmogorov-Smirnov (en R) :

rm(list=ls()) nb_cl = 10

inputfile <‐ paste("Pseudo_observed_ABC_GLM_quantilesOfTrueParameters.txt") print(inputfile)

DONNEES <‐ as.matrix(read.table(inputfile, header=TRUE)) TITLES <‐ names(DONNEES[1,])

L=length(DONNEES[1,]) #DONNEES <‐ DONNEES[,2:L] #TITLES <‐ TITLES[2:L]

#nb_st = length(DONNEES[1,])

for (j in 2:L){ outputfile <‐ paste(TITLES[j],".png",sep="") R <‐ (1:nb_cl) S <‐ (1:nb_cl) v = (max(DONNEES[,j])‐min(DONNEES[,j]))/nb_cl for (i in ){0:(nb_cl‐1) B<‐DONNEES[,j][DONNEES[,j] < (min(DONNEES[,j])+v*(i+1))] R[i+1]=length(B[B>(min(DONNEES[,j])+v*i)]) S[i+1]=min(DONNEES[,j])+0.5*v+i*v } R <‐R/length(DONNEES[,j]) U <‐runif(length(DONNEES[,j]), min=0, max=1) p <‐ ks.test(DONNEES[,j], U)$p.value

png(outputfile) barplot(R, main = TITLES[j], xlab=p, ylab="density", col="blue") dev.off()

rm(B) rm(R) rm(S) rm(U) }

S58