Support Measures in Phylogenetics
Total Page:16
File Type:pdf, Size:1020Kb
Assessing Phylogenetic Hypotheses and Phylogenetic Data • We use numerical phylogenetic methods because most data includes potentially misleading evidence of relationships • We should not be content with constructing phylogenetic hypotheses but should also assess what ‘confidence’ we can place in our hypotheses • This is not always simple! (but do not despair!) Assessing Data Quality • We expect (or hope) our data will be well structured and contain strong phylogenetic signal • We can test this using randomization tests of explicit null hypotheses • The behaviour or some measure of the quality of our real data is contrasted with that of comparable but phylogenetically uninformative data determined by randomization of the data Random Permutation Random permutation destroys any correlation among characters to that expected by chance alone It preserves number of taxa, characters and character states in each character (and the theoretical maximum and minimum tree lengths) ‘TAXA’ ‘CHARACTERS’ 12345678 Original structured data with R-PRP RPRP RP A-E A E A E A E A E strong correlations among N-R N R N R N R N R D-M D M D M D M D M characters O-UOUOUOUOU M-T M T M T M T M T L-ELELELELE Y-DYDYDYDYD ‘TAXA’ ‘CHARACTERS’ 12345678 R-PNUDERT OU Randomly permuted data with A-EREAPLEAD N-R M R M M A D N P any correlation among D-M L T R E Y M D R characters due to chance O-UDEYUDEYM M-T O M O T O U L T L-E Y D N D M P M E Y-D A P L R N R R E Matrix Randomization Tests • Compare some measure of data quality/hierarchical structure for the real and many randomly permuted data sets • This allows us to define a test statistic for the null hypothesis that the real data are no better structured than randomly permuted and phylogenetically uninformative data • A permutation tail probability (PTP) is the proportion of data sets with as good or better measure of quality than the real data Structure of Randomization Tests • Reject null hypothesis if, for example, more than 5% of random permutations have as good or better measure than the real data FAIL TEST 95% cutoff PASS TEST reject null hypothesis Frequency Measure of data quality (e.g. tree length, ML, pairwise incompatibilities) GOOD BAD Matrix Randomization Tests • Measures of data quality include: 1. Tree length for most parsimonious trees - the shorter the tree length the better the data (PAUP*) 2. Numbers of pairwise incompatibilities between characters (pairs of incongruent characters) - the fewer character conflicts the better the data 3. Skewness of the distribution of tree lengths (PAUP) Matrix Randomization Tests Ciliate SSUrDNA Min = 430 Max = 927 1 MPT Ochromonas L = 618 Symbiodinium Prorocentrum CI = 0.696 Loxodes RI = 0.714 Real data Tracheloraphis Spirostomum PTP = 0.01 Gruberia Euplotes PC-PTP = 0.001 Tetrahymena Significantly non random Ochromonas 3 MPTs Symbiodinium L = 792 Prorocentrum Loxodes CI = 0.543 Randomly Tetrahymena Tracheloraphis RI = 0.272 permuted Spirostomum PTP = 0.68 Euplotes Gruberia PC-PTP = 0.737 Not significantly different Strict consensus from random Skewness of Tree Length Distributions • Studies with random (and shortest phylogenetically uninformative) tree data showed that the distribution of tree lengths tends to be normal NUMBER OF TREES Tree length • In contrast, phylogenetically informative data is expected to shortest tree have a strongly skewed distribution with few shortest NUMBER OF TREES trees and few trees nearly as Tree length short Skewness of Tree Length Distributions • Skewness of tree length distributions can be used as a measure of data quality in randomization tests • It is measured with the G1 statistic in PAUP • Significance cut-offs for data sets of up to eight taxa have been published based on randomly generated data (rather than randomly permuted data) • PAUP does not perform the more direct randomization test Skewness - example 722 |## ( 72) 723 |### ( 92) 724 |### ( 101) 725 |### ( 87) 726 |#### ( 107) 792 | (3) 727 |#### ( 120) 728 |#### ( 111) 729 |##### ( 134) 793 | (6) 730 |##### ( 137) 731 |#### ( 110) 794 | (12) 732 |#### ( 113) 733 |#### ( 119) 795 | (7) 734 |#### ( 127) 735 |##### ( 131) 736 |#### ( 106) 796 | (17) 737 |#### ( 109) 738 |#### ( 126) 797 | (30) 739 |#### ( 115) 740 |##### ( 136) 798 | (33) 741 |#### ( 128) 742 |##### ( 144) 743 |##### ( 134) 799 |# (42) 744 |###### ( 160) RANDOMLY PERMUTED 745 |##### ( 152) REAL DATA 800 |# (62) 746 |##### ( 159) 747 |###### ( 164) 801 |# (91) 748 |###### ( 182) 749 |####### ( 216) 750 |####### ( 193) 802 |# (111) 751 |######## ( 235) 752 |######## ( 244) 803 |## (134) 753 |######### ( 251) 754 |######## ( 243) 755 |######### ( 254) 804 |## (172) 756 |######## ( 243) 757 |######### ( 271) 805 |### (234) 758 |######### ( 255) 759 |########## ( 287) DATA Ciliate SSUrDNA 806 |#### (292) 760 |######### ( 268) 761 |########## ( 291) 762 |########### ( 319) 807 |#### (356) 763 |########## ( 295) 764 |########### ( 314) 808 |###### (450) 765 |########### ( 312) 766 |########### ( 331) 809 |####### (557) 767 |########### ( 325) 768 |############ ( 347) 769 |########### ( 333) 810 |######## (642) 770 |############ ( 361) 771 |############## ( 400) 811 |######### (737) 772 |############# ( 386) 773 |############## ( 420) 812 |############ (973) g1=-0.100478 774 |############## ( 399) g1=-0.951947 775 |############### ( 435) 776 |################# ( 505) 813 |############## (1130) 777 |################# ( 492) 778 |################## ( 534) 814 |################ (1308) 779 |################## ( 517) 780 |################## ( 529) 781 |###################### ( 637) 815 |#################### (1594) 782 |##################### ( 604) 783 |######################## ( 685) 816 |##################### (1697) 784 |######################## ( 691) 785 |###################### ( 644) 817 |########################## (2097) 786 |######################## ( 700) 787 |########################## ( 746) 788 |######################### ( 713) 818 |############################## (2389) 789 |########################## ( 743) 790 |########################## ( 746) 819 |################################## (2714) 791 |######################### ( 732) 792 |########################## ( 764) 820 |###################################### (3080) 793 |############################ ( 811) 794 |######################### ( 717) 795 |########################## ( 762) 821 |######################################### (3252) 796 |######################## ( 695) 797 |############################ ( 807) 822 |############################################# (3616) 798 |######################## ( 685) 799 |####################### ( 660) 823 |################################################# (3933) 800 |######################## ( 688) 801 |####################### ( 659) 802 |######################## ( 693) 824 |################################################### (4094) 803 |######################## ( 694) 804 |########################## ( 762) 825 |####################################################### (4408) 805 |########################## ( 743) 806 |######################### ( 737) 807 |########################## ( 745) 826 |######################################################### (4574) 808 |############################ ( 816) 809 |############################# ( 838) 827 |########################################################## (4656) 810 |############################ ( 827) 811 |########################## ( 765) 828 |############################################################# (4871) 812 |############################## ( 859) 814813 |###########################|########################## (( 763) 773) 829 |############################################################## (4962) 815 |############################# ( 835) 816 |############################ ( 802) 817 |########################### ( 798) 830 |################################################################ (5130) 818 |############################# ( 848) 819 |############################# ( 847) 831 |############################################################## (5005) 820 |############################## ( 879) 821 |############################ ( 828) 832 |############################################################### (5078) 822 |########################### ( 784) 823 |########################## ( 757) 824 |########################## ( 770) 833 |############################################################### (5035) 825 |############################ ( 812) 826 |############################ ( 819) 834 |############################################################### (5029) 827 |############################# ( 850) 828 |############################## ( 863) 835 |############################################################# (4864) 829 |################################ ( 934) 830 |################################ ( 919) 831 |################################# ( 963) 836 |########################################################## (4620) 832 |################################### ( 1021) 833 |###################################### ( 1113) 837 |######################################################## (4491) 834 |####################################### ( 1143) 835 |######################################## ( 1162) 838 |##################################################### (4256) 836 |########################################## ( 1223) 837 |############################################ ( 1270) 838 |############################################### ( 1356) 839 |################################################### (4057) 839 |################################################ ( 1399) 840 |###############################################