High-Throughput Resolution of Microbial Diversity at Fine Taxonomic Levels

Supplementary Materials

High-throughput Resolution of Microbial Diversity at Fine Taxonomic Levels

Alejandro Caro-Quintero1* and Howard Ochman1

1Department of Integrative Biology, University of Texas, Austin, TX 78712, USA SUPPLEMENTARY FIGURES

Figure S1. Assessing nucleotide sequence conservation for designing phyloTAG primers. A.

Amount of nucleotide sequence identity in 21-nt windows for aligned gyrB sequences from bacterial strains at differing degrees of 16S divergence. In this case, the gyrB sequence from

Escherichia coli MG1655 is used as reference and aligned to gyrB orthologs from organisms whose 16S rDNA differ by as much as 20% from corresponding gene in E. coli MG1655.

Windows of gyrB that remain highly conserved among divergent organisms specify regions most suitable for designing phyloTAG primers. B. Number of degeneracies needed in a 21-nt phyloTAG primer for amplifying the targeted region from organisms within a specified percentage of 16S sequence identity. Gray lines show the expected 16S divergence at different taxonomic ranks. Note that the figures displayed in panels A and B are generated automatically by the phyloTAGs script. Figure S2. Agreement between percent sequence identity of complete 16S rDNA genes and their corresponding V4 regions. Relationship between the percent identity of V4 regions, as amplified with primers 515F and 816R, and that of complete 16S genes was evaluated to determine the point at which the sequence identity between V4 regions corresponds to 97%-

OTUs based on full-length 16S sequences (the threshold typically used to delineate bacterial species). The analysis is based on pairwise comparisons of 1960 globally aligned 16S sequences, and intensity of shading depicts the number of binned reads represented by each hexagon. Data plotted in R using the hexbin library available from CRAN (Comprehensive R Archive

Network; cran.r-project.org). values. same identity the ofcomparisons the having frequency Colorsindicate genomes. bacterial and of ofaminoacid identity the degree the identity between degree sequence and genes ofnucleotide 16S Association S3. Figure gyrB gyrB amino acid identity (%) amino acid identity were calculated and plotted for pairwise comparisons of1973 forpairwise comparisons and plotted werecalculated identity acid amino

1 0 4 5 5 6 6 7 7 8 8 9 9 5 0 5 0 5 0 5 0 5 0 5 0 6 0

6 pairwise comparisons 5 0 5 1 1 2 2 0 0 5 0 5 0 0 0 0 0 7 1 0 0 0 0 0 gyrB 0 0 0 0 0 6 S genes

r 7 R 5 N . Values of 16S nucleotide sequence identity identity nucleotide. Valuesof16S sequence A 8

i 0 d e n 8 t i 5 t y

( % 9 0 ) 9 5 1 0 0 Figure S4. Validation of phyloTAG primers with metagenomic libraries. A. Sequence reads present in human gut metagenomes were mapped to the gyrB gene from Lachnospiraceae bacterium 3 1-57FAA CT1. Depth of read coverage correlates with regions with high and low sequence conservation. B. Recruited reads were assembled into contigs, aligned, and consensus sequences determined. Regions corresponding to the forward and reverse primers (arrows) designed for gyrB phyloTAGs are shown. Note that both primers align to highly conserved regions of the gyrB genes present in metagenomic sequence libraries and would, in concept, recover all of the corresponding regions from the original samples. SUPPLEMENTARY TABLES

Table S1. DNA Base degeneracy

IUPAC Code Nucleobases

A Adenine C Cytosine G Guanine T (or U) Thymine (or Uracil) R A or G Y C or T S G or C W A or T K G or T M A or C B C or G or T D A or G or T H A or C or T V A or C or G N A or C or G or T Table S2. Column description of the phyloTAGs file

Column Description 1 Starting position in the alignment 2 Final position in the alignment 3 Total number of degeneracies of the region 4 Diversity of bases per position 5 Forward primer with degenerated code 6 Reverse primer with degenerated code Table S3. Phased primers for the amplification of the Bacteroidacea family

Linker Primer name name Linker Sequence Phasing Gene-specific region F_Bt_330_350_L1_ph0 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT CGGAGGTAARTTCGAYAAAGG F_Bt_330_350_L1_ph1 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT C CGGAGGTAARTTCGAYAAAGG F_Bt_330_350_L1_ph2 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT AC CGGAGGTAARTTCGAYAAAGG F_Bt_330_350_L1_ph3 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TAT CGGAGGTAARTTCGAYAAAGG R_Bt_918_938_L2_ph0 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph1 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT C GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph2 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT AA GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph3 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TTC GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph4 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT ATTC GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph5 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT CACTA GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph6 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT GCATAT GCRTATTTYTTCARHGTACGG R_Bt_918_938_L2_ph7 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TCCATTT GCRTATTTYTTCARHGTACGG F_Bt_330_350_L2_ph0 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT CGGAGGTAARTTCGAYAAAGG F_Bt_330_350_L2_ph1 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT C CGGAGGTAARTTCGAYAAAGG F_Bt_330_350_L2_ph2 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT AC CGGAGGTAARTTCGAYAAAGG F_Bt_330_350_L2_ph3 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TAT CGGAGGTAARTTCGAYAAAGG R_Bt_918_938_L1_ph0 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph1 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT C GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph2 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT AA GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph3 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TTC GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph4 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT ATTC GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph5 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT CACTA GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph6 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT GCATAT GCRTATTTYTTCARHGTACGG R_Bt_918_938_L1_ph7 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TCCATTT GCRTATTTYTTCARHGTACGG *L1 corresponds to i5, L2 to i7 Illumina sequences. Table S4. Phased primers for the amplification of the Lachnospiracea family

Linker Primer name name Linker Sequence Phasing Gene-specific region F_La_334_354_L1_ph0 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT GGHGGAGGATAYAAGGTATCC F_La_334_354_L1_ph1 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT C GGHGGAGGATAYAAGGTATCC F_La_334_354_L1_ph2 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT AC GGHGGAGGATAYAAGGTATCC F_La_334_354_L1_ph3 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TAT GGHGGAGGATAYAAGGTATCC R_La_816_836_L2_ph0 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph1 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT C TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph2 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT AA TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph3 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TTC TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph4 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT ATTC TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph5 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT CACTA TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph6 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT GCATAT TRTANGAATCRTTRTGCTGC R_La_816_836_L2_ph7 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TCCATTT TRTANGAATCRTTRTGCTGC F_La_334_354_L2_ph0 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT GGHGGAGGATAYAAGGTATCC F_La_334_354_L2_ph1 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT C GGHGGAGGATAYAAGGTATCC F_La_334_354_L2_ph2 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT AC GGHGGAGGATAYAAGGTATCC F_La_334_354_L2_ph3 L2 GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT TAT GGHGGAGGATAYAAGGTATCC R_La_816_836_L1_ph0 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph1 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT C TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph2 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT AA TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph3 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TTC TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph4 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT ATTC TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph5 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT CACTA TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph6 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT GCATAT TRTANGAATCRTTRTGCTGC R_La_816_836_L1_ph7 L1 ACACTCTTTCCCTACACGACGCTCTTCCGATCT TCCATTT TRTANGAATCRTTRTGCTGC *L1 corresponds to i5, L2 to i7 illumina sequences. Table S5. Primers for multiplexing of samples

Primer name Illumina flowcell capture sequence Barcode Linker PE1-1 AATGATACGGCGACCACCGAGATCTACAC CTTGTCGT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-2 AATGATACGGCGACCACCGAGATCTACAC ACCAGATC ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-3 AATGATACGGCGACCACCGAGATCTACAC TATACCGG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-4 AATGATACGGCGACCACCGAGATCTACAC CGCGATTA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-5 AATGATACGGCGACCACCGAGATCTACAC ACACGTGT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-6 AATGATACGGCGACCACCGAGATCTACAC CTGTGTCT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-7 AATGATACGGCGACCACCGAGATCTACAC GCTTGCTT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-8 AATGATACGGCGACCACCGAGATCTACAC TCACCTCA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-9 AATGATACGGCGACCACCGAGATCTACAC GGAATTGG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-10 AATGATACGGCGACCACCGAGATCTACAC CTAGCTAG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-11 AATGATACGGCGACCACCGAGATCTACAC TTAAGCGC ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-12 AATGATACGGCGACCACCGAGATCTACAC TGAGCAGA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-13 AATGATACGGCGACCACCGAGATCTACAC CGGCATTA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-14 AATGATACGGCGACCACCGAGATCTACAC ACCAGTTG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-15 AATGATACGGCGACCACCGAGATCTACAC CGTTGCTT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-16 AATGATACGGCGACCACCGAGATCTACAC GTTGCATG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-17 AATGATACGGCGACCACCGAGATCTACAC AGCTACGT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-18 AATGATACGGCGACCACCGAGATCTACAC TGGTTCCT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-19 AATGATACGGCGACCACCGAGATCTACAC TTGCGCAA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-20 AATGATACGGCGACCACCGAGATCTACAC TAGCAACC ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-21 AATGATACGGCGACCACCGAGATCTACAC CAGAGTGA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-22 AATGATACGGCGACCACCGAGATCTACAC GGCGTATT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-23 AATGATACGGCGACCACCGAGATCTACAC TGAGGTGA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-24 AATGATACGGCGACCACCGAGATCTACAC CTCACAGA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-25 AATGATACGGCGACCACCGAGATCTACAC TCGACATG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-26 AATGATACGGCGACCACCGAGATCTACAC AGAGGACT ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-27 AATGATACGGCGACCACCGAGATCTACAC GATCCTTC ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-28 AATGATACGGCGACCACCGAGATCTACAC CCATGCAA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-29 AATGATACGGCGACCACCGAGATCTACAC GACTGAGA ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE1-30 AATGATACGGCGACCACCGAGATCTACAC GCAATTCG ACACTCTTTCCCTACACGACGCTCTTCCGATCT PE2-1 CAAGCAGAAGACGGCATACGAGAT CCTAGCTT GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-2 CAAGCAGAAGACGGCATACGAGAT TTCCAAGG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-3 CAAGCAGAAGACGGCATACGAGAT ATCCGCTT T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-4 CAAGCAGAAGACGGCATACGAGAT CTGTGTGA T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-5 CAAGCAGAAGACGGCATACGAGAT CTGTCTGT T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-6 CAAGCAGAAGACGGCATACGAGAT TACGGCTA T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-7 CAAGCAGAAGACGGCATACGAGAT CGTTGCAA T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-8 CAAGCAGAAGACGGCATACGAGAT CTGAAGTC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-9 CAAGCAGAAGACGGCATACGAGAT TCTCCTCT T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-10 CAAGCAGAAGACGGCATACGAGAT CTCAAGAC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-11 CAAGCAGAAGACGGCATACGAGAT TCCTAGCT T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-12 CAAGCAGAAGACGGCATACGAGAT TCCTCTTC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-13 CAAGCAGAAGACGGCATACGAGAT GCATAACC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-14 CAAGCAGAAGACGGCATACGAGAT ACCTGTAG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-15 CAAGCAGAAGACGGCATACGAGAT GTGAGAGT T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-16 CAAGCAGAAGACGGCATACGAGAT TCCTGTTG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-17 CAAGCAGAAGACGGCATACGAGAT CCTTATCG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-18 CAAGCAGAAGACGGCATACGAGAT TGTCCTCA T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-19 CAAGCAGAAGACGGCATACGAGAT CGATCCTT T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-20 CAAGCAGAAGACGGCATACGAGAT CCTAGGAT T PE2-21 CAAGCAGAAGACGGCATACGAGAT CTGAGTCA GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-22 CAAGCAGAAGACGGCATACGAGAT CTCTCTGA T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-23 CAAGCAGAAGACGGCATACGAGAT ACCTCTAC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-24 CAAGCAGAAGACGGCATACGAGAT ATCCTTGC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-25 CAAGCAGAAGACGGCATACGAGAT TACGAAGG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-26 CAAGCAGAAGACGGCATACGAGAT GAACCATC T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-27 CAAGCAGAAGACGGCATACGAGAT CATCGATG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-28 CAAGCAGAAGACGGCATACGAGAT CGATATCG T GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC PE2-29 CAAGCAGAAGACGGCATACGAGAT AGGAGATC T PE2-30 CAAGCAGAAGACGGCATACGAGAT GAACCTTG GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC T *PE1 anneals to L1/i5, PE2 anneals to L2/i7.