MASARYKOVA UNIVERZITA Přírodovědecká fakulta Ústav experimentální biologie Oddělení genetiky a molekulární biologie

Variabilita a využití DNA-markerů při studiu fylogenenze dvoukřídlých (Diptera) na různých taxonomických úrovních

Diplomová práce

Brno 2008 Petr Bejdák

1 Poděkování

Chtěl bych poděkovat vedoucímu diplomové práce prof. RNDr. Jaromíru Vaňharovi, CSc. za odborné vedení a ochotnou pomoc, Mgr. et Mgr. Josefu Bryjovi, Ph.D. za pomoc při sekvencování a cenné konzultace, RNDr. Andrei Tóthové, Ph.D. za pomoc s úpravou sekvencí a cenné rady, Mgr. Natálii Murárikové za pomoc v laboratoři a ochotné poskytování informací. Mgr. Natálii Martínkové, Ph.D. děkuji za konzultace o fylogenetických metodách. Tato práce vznikla za podpory Výzkumného záměru Ústavu botaniky a zoologie (MSM 0021622416).

2 Obsah

1. Úvod a problematika...... 4 1.1. Koncepce a historie molekulární fylogenetiky dvoukřídlých...... 4 1.2. Extrakce DNA dvoukřídlých...... 6 1.3. Fylogenetická analýza na základě molekulárních znaků...... 7 1.3.1. Molekulární evoluce sekvence DNA...... 7 1.3.2. Konstrukce fylogenetických stromů...... 8 1.3.3. Fylogeografie...... 10 1.4. DNA-markery používané v molekulární fylogenetice dvoukřídlých...... 12 1.4.1. Charakteristika a rozdělení DNA-markerů...... 12 1.4.2. Mitochondriální markery...... 13 1.4.3. Jaderné markery...... 17 1.5. Aplikace DNA-markerů u čeledi ...... 20 2. Cíle práce...... 22 3. Materiál a metody...... 23 3.1. Zástupci dvoukřídlých použití k analýzám...... 23 3.2. Extrakce DNA, PCR a sekvencování...... 23 3.3. Analýza sekvencí...... 26 3.4. Konstrukce fylogenetických stromů...... 27 4. Výsledky...... 28 4.1. Získané sekvence DNA-markerů...... 28 4.2. Odhad substituční saturace...... 32 4.3. Fylogenetická analýza...... 36 4.3.1. Oddělené analýzy ...... 36 4.3.2. Kombinované analýzy...... 41 5. Diskuze...... 44 5.1. Získání sekvencí DNA-markerů ...... 44 5.2. Variabilita a nukleotidové složení sekvencí...... 45 5.3. Substituční saturace...... 49 5.4. Fylogenetické analýzy a posouzení využitelnosti DNA-markerů...... 50 Souhrn...... 52 Summary...... 53 Literatura...... 54

3 1. Úvod a problematika

Taxonomie a fylogenetika v posledních letech stále více využívají molekulární data pro rekonstrukci fylogenetických vztahů a systematické třídění organizmů. Použití molekulárních znaků poskytuje řadu výhod, ale zahrnuje i určitá rizika. Zdrojem znaků jsou většinou sekvence DNA, jejichž získání je stále jednodušší a levnější. Nezbytným předpokladem pro úspěšné sekvencování je extrakce kvalitní DNA, která může být u hmyzu problematická. Používají se sekvence mitochondriálního i jaderného genomu různé délky. Na jejich základě jsou fylogenetické vztahy rekonstruovány pomocí několika statistických metod zakomponovaných v počítačových programech. Jednou ze skupin, kde analýza sekvencí DNA vnesla zcela nové pohledy na příbuzenské vztahy jednotlivých taxonů, jsou dvoukřídlí (Diptera). Množství prací z oblasti molekulární fylogenetiky dvoukřídlého hmyzu rychle narůstá. Zabývají se jednak základním výzkumem fylogeneze na vyšších i nižších taxonomických úrovních, ale i aplikací fylogenetických poznatků při identifikaci a fylogeografii hospodářsky a zdravotnicky významných druhů. Jedná se tedy o komplexní problematiku zahrnující entomologii, systematiku, taxonomii, molekulární biologii, evoluční biologii, statistiku a informatiku.

1.1. Koncepce a historie molekulární fylogenetiky dvoukřídlých

Při tvorbě současného biologického systému se vychází ze zásad fylogenetické systematiky (kladistiky), které formuloval Hennig (1966). Základem tohoto přístupu je rekonstrukce fylogenetických vztahů zkoumané skupiny organizmů, které se znázorňují pomocí fylogenetického stromu. Systematické jednotky – taxony – jsou v kladistickém pojetí monofyletické skupiny (zahrnují všechny potomky určitého předka). Kladistika neuznává taxony parafyletické (zahrnují jen část potomků určitého předka) a polyfyletické (sdružují části potomstva více různých předků). Při rekonstrukci fylogeneze kladistika vychází ze souboru znaků u zkoumaných druhů. Monofyletická skupina je charakterizována apomorfiemi – určitá forma znaku, která vznikla u společného předka a je děděna jeho potomky. Zásady kladistiky byly postupně přijaty většinou systematiků a evolučních biologů, Hennigův základní koncept byl doplněn především o numerické metody konstrukce fylogenetických stromů (Meier, 2005). Molekulární fylogenetika využívá jako znaků molekuly DNA nebo proteinů. První širší uplatnění molekulárních znaků přinesla elekroforéza proteinů v 60. letech minulého století. Poskytuje sice kvalitativní multistavové znaky v podobě sekvenčních variant proteinů (odpovídající alelám daného genu), ale historické vztahy alel zůstávají neznámé (Avise, 2000).

4 Využívá se u studií na populační úrovni a mezi blízce příbuznými druhy (např. Wallman & Adams, 1997). Koncem 70. let začala být k fylogenetickým účelům používána metoda RFLP (Restriction Fragment-Length Polymorphisms). Určitý úsek DNA štěpený restriktázou poskytne při elektroforéze charakteristický vzor fragmentů seřazených podle délky. V průběhu evoluce může v sekvenci DNA dojít k mutaci v cílovém místě restriktázy, která způsobí, že dané místo nadále nebude štěpeno. Nebo může naopak restrikční místo vzniknout. To je také podstatou rozdílů v elektroforetických vzorech u zkoumaných jedinců. Metoda je však opět omezena na populační úroveň a na blízce příbuzné druhy (Caterino, 2000). Používá se často ve spojení s PCR pro amplifikaci úseku DNA, který bude štěpen. Je vhodná pro snadno proveditelnou identifikaci druhů, čehož se využívá v soudním lékařství (např. Ratcliffe, 2003). Pro studium populací a blízce příbuzných druhů byly u dvoukřídlých použity i další metody využívající PCR a restrikční štěpení. Je to například metoda RAPD (Randomly Amplified Polymorphic DNA), kdy se amplifikuje pomocí krátkého nespecifického primeru více úseků DNA a tyto tvoří charakteristický elektroforetický vzor. Sebastiani et al. (2001) touto metodou analyzovali komplex druhů Culicoides imicola (Ceratopogonidae). Další metoda AFLP (Amplified Fragments Length Polymorphism) kombinuje restrikční štěpení a PCR. Byla použita například v práci Paupy et al. (2004) pro studium genetické struktury populací komára Aedes aegypti (Culicidae). Pro studium na úrovni populací jsou často využívány i tzv. mikrosatelitní markery, což jsou mnohonásobná opakování krátkých (nejčastěji 2-4 bp) repeticí, jejichž počet je velmi variabilní. Tuto metodu použili např. Solano et al. (1997) pro analýzu populačně-genetické struktury u Glossina palpalis (Glossinidae). Pro identifikaci druhů je možné použít tzv. „real-time PCR“, kdy je navržen primer specifický pro sekvenci určitého druhu, jen u tohoto druhu pak bude mít PCR charakteristický průběh, podle čehož je druh identifikován. Tuto metodu použili např. Yu et al. (2005) u rodu Bactrocera (Tephritidae). Postupně se převažující metodou k získání molekulárních znaků pro fylogenetickou analýzu stalo sekvencování DNA, a to hlavně díky zavedení automatického fluorescenčního sekvencování v 90. letech, které umožnilo rychlejší a levnější získávání sekvencí. Používají se sekvence (DNA-markery) z různých částí genomu a o různé délce. První fylogenetická práce využívající sekvence DNA u dvoukřídlých (Vossbrinck & Friedman, 1989) se zabývala vztahy ve skupině Cyclorrhapha. Pro analýzu bylo použito 19 druhů z 15 čeledí. Autoři použili sekvence jaderného genu pro 28S rRNA. Použití znaků v podobě sekvencí DNA má řadu výhod. Předně je to velký počet znaků, který je možné získat použitím dlouhé sekvence. V praxi je získání dlouhých sekvencí omezeno technickou náročností, časem, náklady a problematickou analýzou dlouhých sekvencí

5 (výpočetní náročnost). Nukleotidy představují diskrétní kvalitativní znaky, což je výhodné v tom, že je stav znaku na dané pozici vždy jasně dán. Sekvence DNA nejsou tolik ovlivněny prostředím, jako jiné znaky. Zejména se to týká selekčně neutrálních pozic, podobnost sekvencí potom odpovídá příbuznosti, nikoliv podobnosti selekčních tlaků. Při použití sekvencí DNA jako zdroje znaků se musí dbát na jejich správný výběr. Měly by mít dostatečnou délku a variabilitu, aby poskytly co nejvíc informativních znaků. Důležité je taky správné seřazení sekvencí, aby se porovnávaly odpovídající homologické pozice. Použitím nevhodných a nesprávně seřazených sekvencí se vnáší do fylogenetické analýzy systematická chyba, příbuzenské vztahy jsou pak konstruovány podle znaků, které nejsou homologiemi, ale homopláziemi, a neodráží tak průběh fylogeneze (Page & Holmes, 1998). Molekulární fylogenetika poskytuje velké množství znaků použitelných pro rekonstrukci fylogeneze, tato data však musí být správně analyzována a interpretována, aby pomohla řešit fylogenetické vztahy. Dvoukřídlý hmyz představuje početnou a diverzifikovanou skupinu hmyzu, kde je množství nejasných příbuzenských vztahů. Molekulární fylogenetika má potenciál pomoci s řešením sporných otázek, který je demonstrován řadou prací na toto téma.

1.2. Extrakce DNA dvoukřídlých

Specifickým problémem u dvoukřídlých je extrakce DNA. Někdy se nepodaří získat dostatečně kvalitní DNA. Příčinou může být způsob preparace, stáří a způsob uchovávání jedince. Nejlepší z tohoto hlediska je provádět extrakci z čerstvého materiálu krátce po usmrcení. Pro účely fylogenetické analýzy, kdy je potřeba shromáždit zástupce určité skupiny, z nichž někteří mohou být vzácní, se v mnoha případech získání čerstvých vzorků stává téměř nemožným. Běžné je proto používání starších exemplářů. Pro kvalitu DNA je kritické období po usmrcení jedince, kdy je vystavena působení nukleáz, které ji štepí na kratší fragmenty. Tato degradace probíhá jen v přítomnosti vody, takže se dá účinně zmírnit rychlým vysušením hmyzu po usmrcení a uchováváním s pohlcovači vlhkosti jako silikagel (Post et al., 1993), také uchovávání v 96% ethanolu nebo v tekutém dusíku snižuje degradaci DNA, alkohol o nižší koncentraci (často se používá 70%) není v ochraně DNA před degradací tak efektivní, ale zpomaluje ji také. Nukleázy jsou v prostředí ethanolu stále do určité míry aktivní, tuto jejich aktivitu lze potlačit přidáním EDTA (ethylendiamintetraoctová kyselina). DNA se obvykle nepodaří získat ze vzorků, které přišly do kontaktu s formaldehydem, který je součástí některých fixážních a preparačních postupů (převádění materiálu z ethanolu na sucho – na entomologické špendlíky). Hmyz preparovaný

6 na sucho poskytuje při extrakci DNA dosti proměnlivé výsledky. Nezáleží zřejmě jenom na stáří. Někdy se nepodaří extrakce kvalitní DNA z pár let starého vzorku (Post et al., 1993; rod Simulium), jindy je úspěšná extrakce z materiálu starého téměř 100 let (Townson et al., 1999; rod Anopheles). Roli tu patrně hraje prostředí, ve kterém se suchý vzorek nalézal, především vlhkost. Dean & Ballard (2001) zjišťovali vliv metody usmrcení hmyzu (Drosophila) na kvalitu mitochondriální DNA. Mezi čtyřmi posuzovanými metodami byly jen malé rozdíly, nejvíce DNA poskytovaly vzorky usmrcené kyanidem, 70% ethanol poskytl asi poloviční množství DNA a ethyl-acetát, případně zmrazení, dávaly výnosy, které se pohybovaly mezi prvními dvěma způsoby. Autoři také zjistili, že uchovávání vzorku v parách naftalenu (desinfekce sbírek a ochrana před destruktory) nemá na kvalitu DNA vliv. Zato potvrdili snižování množství a kvality DNA s časem. U dvouletých suchých vzorků byl problém amplifikovat delší sekvence než 1000 bp. I když tedy významně nemusí klesat celkové množství DNA, dochází k jejímu štěpení na kratší fragmenty, které znemožňuje amplifikaci delších úseků při PCR.

1.3. Fylogenetická analýza na základě molekulárních znaků

1.3.1. Molekulární evoluce sekvence DNA

Na úrovni sekvence DNA probíhá molekulární evoluce v podobě změn, které se v sekvenci hromadí z generace na generaci. Nejdůležitějším a nejčastějším typem změn jsou nukleotidové substituce (Graur & Li, 2000). Kromě nukleotidových substitucí dochází v sekvenci i k delecím a inzercím, jsou však méně časté. Komplikují seřazení sekvencí před samotnou analýzou, v seřazených sekvencích jsou díky nim mezery. Na úrovni chromozómů nastávají přestavby delších úseků, ale ty nejsou při použití relativně krátkých DNA-markerů předmětem zájmu většiny fylogenetických studií. Nukleotidové substituce se dělí na tranzice a transverze. Při tranzici se mění pyrimidinový nukleotid v jiný pyrimidinový a purinový v jiný purinový. Transverze jsou záměny purinového nukleotidu na pyrimidinový a naopak. Některé typy změn jsou častější než jiné. To je dáno chemickým mechanizmem záměn. Obecně jsou častější tranzice nežli transverze. Časté jsou záměny G → A a C → T. Nekódující oblasti jsou proto obecně bohatší na A a T. V tomto kontextu je nutné rozlišovat mutační rychlost (rychlost změn, bez ohledu na to, jestli se přenáší do další generace) a rychlost evoluční nukleotidové substituce (změna sekvencí z generace na generaci). Obě hodnoty se od sebe liší, protože do další generace se

7 přenáší jiný počet mutací, než jaký vzniká. Mutace, které svému nositeli škodí, jsou eliminovány negativní selekcí. Rychle se mění selekčně neutrální sekvence a pozice. Jde o nekódující oblasti jako introny, pseudogeny a mezigenové oblasti. V kódujících sekvencích existuje funkční omezení. Mutace, které narušují funkci genového produktu jsou nežádoucí a jsou eliminovány. Je možné rozlišit domény genů s různě velkým funkčním omezením, podle toho, jak jsou konkrétní aminokyseliny v dané oblasti důležité pro plnění funkce proteinu. V genech pro funkční RNA, které nabývají charakteristické sekundární struktury, jsou konzervativní oblasti formování stopek a variabilní oblasti smyček. Z hlediska genetického kódu má největší funkční omezení druhá pozice kodónu, jejíž změny jsou vždy nesynonymní (vedou k záměně aminokyseliny), mutace první pozice jsou synonymní i nesynonymní a mutace třetí pozice většinou synonymní. Rychlost molekulární evoluce se v průběhu času může měnit. Předpoklad molekulárních hodin, který říká, že je rychlost evoluční nukleotidové substituce konstantní, tak nemusí platit. Vyvíjející se sekvence DNA může být považována za molekulární hodiny, které jsou stochastické (náhodně mění rychlost chodu). V rámci delších časových úseků je však průměrná rychlost stabilní. Toho se dá využít k odhadu doby, před kterou měly dva nebo více druhů společného předka. Odhad bude přesnější, když bude tato doba delší. Molekulární hodiny se kalibrují podle fosilního záznamu nebo biogeografických údajů (Avise, 2000). Znalosti o evoluci sekvencí DNA se aplikují při fylogenetické analýze. Je možné použít zvlášť tranzice nebo transverze, různé pozice kodónu, případně přiřadit různým typům změn různé váhy (např. pomocí substitučních modelů).

1.3.2. Konstrukce fylogenetických stromů

Byla vyvinuta řada metod konstrukce fylogenetických stromů ze sekvencí DNA. Jedno z možných dělení těchto metod je na základě vstupních dat, která mohou být buď v podobě genetických vzdáleností, nebo diskrétních znaků (Page & Holmes, 1998). V případě genetických vzdáleností (distancí) se bere v úvahu míra odlišnosti mezi sekvencemi. Nejjednodušší je prosté vyjádření podílu bází lišících se mezi dvěma sekvencemi (p-distance), které však může podhodnocovat skutečný počet změn v důsledku opakovaných substitucí na stejné pozici. Z tohoto důvodu se vzdálenosti korigují podle různých substitučních modelů, které se liší zejména v předpokládané frekvenci různých typů bází a frekvenci jejich změn. Mezi často používané modely patří např. Kimurův dvouparameterický (K2P),

8 Hasegawův-Kishinův-Yanův (HKY) a obecný časově-reverzibilní model (GTR). Distanční metody jsou výpočetně jednoduché a dospějí většinou k jedinému stromu. Použití genetických vzdáleností však redukuje část informace obsažené v sekvencích DNA. Konstrukce stromu na základě míry podobnosti sekvencí nemusí odrážet skutečnou fylogenezi. Příkladem tohoto druhu metod je „neighbor-joining“. Druhá skupina metod pracuje přímo s diskrétními znaky v podobě nukleotidů v sekvenci DNA. Podle přítomnosti konkrétního nukleotidu na dané pozici (stav znaku) je možné usuzovat na příbuznost. Do této skupiny patří např. metoda maximální úspornosti (maximum parsimony), metoda maximální věrohodnosti (maximum likelihood) a Bayesovská analýza (Bayesian analysis):

• Maximum parsimony (MP) – Je založena na hledání topologie stromu, která vyžaduje nejmenší počet evolučních změn pro vysvětlení pozorovaného stavu znaků u zkoumaných taxonů. U většího počtu posuzovaných taxonů se může stát, že více stromů bude vyhovovat požadavku nejmenšího počtu evolučních změn, podle MP pak nelze rozhodnout, který z nich je lepší. Strom je hledán různými postupy. U malého počtu taxonů se prověří všechny možné stromy (např. metodou „branch & bound“). U většího počtu taxonů se využívá heuristické hledání, kdy se prověřuje jen část možných stromů, přičemž vychází z předem zvolené topologie stromu. Výhodou této metody je, že není závislá na předpokladech o evoluci sekvencí. MP může dospět k chybným výsledkům, pokud se sekvence některých taxonů vyvíjejí výrazně rychleji než u jiných.

• Maximum likelihood (ML) – Tato metoda hledá strom, který s největší věrohodností vysvětlí pozorovaná data (počítá pravděpodobnost, s jakou daná data dávají daný strom). Její součástí jsou předpoklady o evoluci sekvencí (substituční modely). Navíc je možné zohlednit odlišné rychlosti substitucí v různých částech sekvence pomocí tzv. gama- rozložení (obr. 1). Podle zastoupení jednotlivých bází je možné odhadnout, který substituční model je pro danou sekvenci vhodný. Vzhledem k velkému počtu stromů, pro které jsou počítány pravděpodobnosti, je metoda ML velice výpočetně náročná. Neposuzují se proto všechny možné stromy, ale využívá se heurstické hledání. Při použití různých modelů, může ML dospět k jiným závěrům. Pokud se použije správný model, bývá výsledek ML přesnější než u alternativních metod, které nerozlišují frekvence různých typů substitucí.

9 Obr. 1. Gama-rozložení. f (r) Vyjadřuje proporce nukleotidových pozic, na kterých probíhají substi- tuce různou rychlostí (r). Tvar roz- ložení je vyjádřen pomocí parametru α. Když se všechny pozice mění podobnou rychlostí, je α vysoké a rozložení má tvar zvonu. Když se některé pozice mění výtrazně rychleji než většina ostatních, rozložení nabývá tvaru L, a parametr α hodnot nižších než 1. Průměr rozložení je 1 a rozptyl 1/α (Yang, 1996).

r

• Bayesian analysis (BA) – Tato metoda je založená na podobném principu jako ML, rovněž hledá strom, který nejlépe vystihuje vstupní data (počítá pravděpodobnost s jakou strom vysvětluje vstupní data – „posteriorní pravděpodobnost“). Také využívá substituční modely evoluce sekvencí DNA. Vychází z náhodně zvolené topologie, kterou obměňuje na základě Monte Carlo Markovových řetězců. Po určité době už se pravděpodobnost nezvyšuje. Pro zvýšení šance nalezení optimálního stromu se vychází z několika různých topologií stromu současně, konkrétní počet těchto řetězců je možné zvolit. Stromy s nejvyššími posteriorními pravděpodobnostmi jsou ukládány do paměti a na základě nich je vytvořen výsledný strom, který obsahuje informaci o spolehlivosti jednotlivých větví, ta odpovídá procentu stromů v paměti, které danou větev obsahují. U jiných metod je nutné spolehlivost větví počítat nezávisle (např. metodou „bootstrap“).

1.3.3. Fylogeografie

Fylogeografie se zabývá geografickým rozložením genealogických linií organizmů, zejména uvnitř druhu a mezi blízce příbuznými druhy (Avise, 2000). Studuje principy a procesy, které ovlivňují dané geografické rozložení. Využívá k tomu prostředků genetiky populací, molekulární biologie, fylogenetiky, paleontologie, etologie, demografie a historické geografie. Fylogeografie je integrující přístup ležící na křižovatce mikro- a makroevolučních disciplín.

10 Ve fylogeografických studiích se jako DNA-marker používá většinou mtDNA. Je to kvůli její dědičnosti po mateřské linii, kdy není třeba uvažovat diploidii, mendelovskou segregaci a kombinaci alel, ani rekombinaci mezi molekulami. Dříve byl rozšířen názor systematiků, že fylogenetické metody nelze aplikovat na vnitrodruhové úrovni. Např. zakladatel fylogenetické systematiky Henning (1966) uvádí, že na tzv. tokogenetické vztahy jedinců v rámci druhu pravděpodobně nelze aplikovat fylogenetický koncept. Hranicí mezi tokogenetickými a fylogenetickými vztahy je podle něj speciace. Mitochondriální DNA se však díky svému asexuálnímu přenosu dá použít k rekonstrukci mateřské genealogie dokonce i u pohlavně se množících organizmů. Výsledkem bude hierarchicky větvený fylogenetický strom mateřských linií na vnitrodruhové úrovni. Použití jaderných genů ve fylogeografii je sice také možné, ale obtížnější. Autozomální geny se přenáší mezi samci a samicemi, v diploidním genomu jsou navíc dvě kopie každého genu, efektivní velikost populace je tedy čtyřikrát větší než u mitochondriální DNA nebo u genů vázaných na chromozomu Y. Ale i u jaderných genů se dá vysledovat historie alel ke společnému předku. Metodické komplikace spočívají především v identifikaci haplotypu. Při sekvencování markeru u jedince se polymorfismus na určitém nukleotidovém místě projeví přítomností dvou různých bází na tomto místě, přičemž není možné rozlišit, která patří kterému haplotypu. Haplotypy obou alel je možné oddělit pomocí klonování, SSCP (Single Strand Conformation Polymorphism) nebo jiných metod. Při použití sekvence genu k rekonstrukci fylogeneze je výsledkem tzv. genový strom. Jako genový strom (gene tree) se označuje fylogenetický strom zobrazující evoluci genu (sekvence DNA), jednotlivá větvení představují vznik nové sekvenční varianty (alely). Tzv. druhový strom ( tree) představuje zobrazení vývoje jedinců patřících do daných druhů a větvení je doba oddělení dvou populací jednoho druhu, které se dále vyvíjejí samostatně jako nové druhy. Větvení genových linií může buď předcházet nebo být opožděno za speciací (oddělením populací). Genový strom tudíž nemusí odpovídat druhové fylogenezi (obr. 2). Při použití sekvencí více různých genů se bude strom blížit druhové fylogenezi.

Obr. 2. Druhový a genový strom. Oddělení a izolovaný vývoj sekvenčních variant určitého genu (genový strom – vyznačen černě) může buď předcházet, nebo být opožděno za oddělením populací v přírodě, kterým vznikají nové druhy (druhový strom – vyznačen šedě). (Avise, 2000; zjednodušeno)

11 1.4. DNA-markery používané v molekulární fylogenetice dvoukřídlých

1.4.1. Charakteristika a rozdělení DNA-markerů

Pro účely fylogenetiky se používají rozmanité sekvence DNA o různé délce z různých částí genomu. Tyto DNA-markery je možné dělit podle lokalizace v buňce na jaderné a mitochondriální. Může se jednat buď o sekvence kódující (geny pro proteiny a funkční RNA), nebo nekódující (introny, mezerníky, pseudogeny aj.). Tyto typy DNA-markerů se liší v několika ohledech. Především jde o variabilitu sekvence. Pro fylogenetickou analýzu je nutné zvolit markery, které budou mít u zkoumané skupiny vhodnou variabilitu, aby poskytly dostatek znaků pro rekonstrukci fylogeneze (Page & Holmes, 1998). Obecně platí, že sekvence vyvíjející se rychleji (s vyšší četností evolučních nukleotidových substitucí) jsou vhodné na nižší taxonomické úrovni a sekvence konzervativní (s nižší četností změn) se dají využít pro vyšší úrovně. Rychle se vyvíjející sekvence by nebyly pro vyšší úrovně vhodné, protože se v nich hromadí substituce na stejné pozici a fylogeneticky významná informace zaniká. Taková sekvence se nazývá substitučně saturovaná. Typ markeru má dopad na seřazení sekvencí i samotnou fylogenetickou analýzu. U genů kódujících proteiny je možné využít kodóny při seřazení sekvencí, zpravidla se zde nevyskytují delece a inzerce jiné délky než třínukleotidové, protože jinak by byl porušen čtecí rámec. U jiných sekvencí jsou v důsledku delecí a inzercí po seřazení častější mezery různé délky. Fylogenetická analýza může u genů kódujících proteiny použít jen některé pozice kodónu, buď variabilní třetí pozici, nebo konzervativnější první a druhou pozici. Pro jednotlivé pozice mohou být odlišné parametry substitučního modelu. DNA-markery používané pro fylogenetickou analýzu u hmyzu přehledně popsali Caterino et al. (2000). U hmyzu neexistuje fylogenetický marker, který by byl používán ve většině studií, jakým je např. cytochrom b u některých skupin obratlovců, místo toho používají různé studie odlišné sekvence. Časté je použití různých částí mitochondriálního genomu. Z jaderných sekvencí jsou to především geny pro rRNA. Kromě nich se používá celá řada jaderných genů kódujících proteiny. Používání velkého množství různých markerů je příčinou jisté nekonzistence fylogenetických studií u hmyzu, neboť jsou jednotlivé výsledky obtížně porovnatelné. V novějších studiích se zvyšuje délka použitých sekvencí, přibývá například fylogenetických prací na základě celého mitochondriálního genomu (Cameron et al., 2007; Castro & Dowton, 2007). Výhodou takového přístupu je vzájemná porovnatelnost a možnost použití na širokém rozmezí taxonomických úrovní.

12 1.4.2. Mitochondriální markery

Genom mitochondrií (mtDNA) je haploidní, tvoří jej cirkulární molekula dvouřetězcové DNA, která se v jedné mitochondrii vyskytuje asi v 10 kopiích (Randi, 2000). Molekula se skládá z těžkého řetězce (H) a lehkého řetězce (L). V těžkém řetězci je vyšší obsah thyminu a guaninu. Replikace probíhá nezávisle na jaderné DNA. U hmyzu, stejně jako u většiny eukaryot, se dědí mitochondrie a jejich genom po mateřské linii. Jedna buňka obsahuje v závislosti na stáří a fyziologickém stavu 102–105 mitochondrií. U mtDNA byla zjištěna vyšší rychlost nukleotidových substitucí oproti jadernému genomu (Graur & Li, 2000). Může to být způsobeno málo přesnou replikací, neefektivními reparačními mechanizmy a zvýšenou koncentrací mutagenů (například kyslíkové radikály) v důsledku metabolických procesů probíhajících v mitochondrii. Tranzice převažují nad transverzemi v ještě větším poměru než u jaderné DNA. Navíc jsou častější tranzice mezi pyrimidiny než mezi puriny. Populace molekul mtDNA nemusí být v rámci buňky či jedince zcela homogenní (Avise, 2000). Jsou popsány případy, kdy jedinec nesl různé haplotypy (heteroplazmie). Tyto varianty se většinou liší jen nepatrně, což naznačuje, že vznikly novou mutací. Výskyt heteroplazmie je relativně vzácný. Vzhledem k počtu asi 10 molekul DNA v mitochondrii způsobí náhodný genetický drift v průběhu dělení převládnutí jedné varianty, nastane homoplazmie. Ta ale není absolutní, mutacemi vznikají neustále s nízkou frekvencí nové haplotypy. Výhodou mtDNA jako fylogenetického markeru je snazší amplifikace při PCR díky velkému počtu kopií na buňku. To má význam u dvoukřídlých a jiného hmyzu vzhledem k používání starších, různě uchovávaných vzorků, které často obsahují degradovanou DNA. Další výhodou je absence rekombinace, celá molekula může být považována za jediný lokus děděný v mateřské linii. Mitochondriální DNA hmyzu obsahuje 13 genů kódujících proteiny (enzymy dýchacího řetězce), dva geny pro rRNA (12S, 16S), 22 genů pro tRNA a kontrolní oblast (u bezobratlých nazývaná „oblast bohatá na AT“), která se podílí na regulaci replikace a transkripce. Geny jsou umístěny vedle sebe bez vmezeřených nekódujících oblastí, jejich čtecí rámce se dokonce někdy překrývají (Clary & Wolstenholm, 1985). Pořadí genů na kružnicové molekule je relativně stálé (obr. 3). Přestavby u hmyzu se týkají hlavně genů pro tRNA. Srovnání pořadí genů mtDNA dvoukřídlých a jiného hmyzu uvádí Beard et al. (1993).

13 Obr. 3. Mapa mitochondriální DNA u Drosophila yakuba. OR označuje počátek replikace s naznačeným směrem jejího průběhu. Bez výplně jsou geny kódující proteiny a rRNA, šrafovaně jsou vyznačeny geny pro tRNA, tečkovaná výplň označuje kontrolní oblast. Šipky u jednotlivých genů vyznačují směr transkripce (Clary & Wolstenholm, 1985).

CO - cytochrom-c-oxidáza ND - NADH-dehydrogenáza A - ADP-syntetáza Cyt b - cytochrom b s-rRNA - 12S l-rRNA - 16S

Cameron et al. (2007) ve své studii sekvencí celé mtDNA analyzují její použitelnost na různých úrovních v rámci řádu Diptera. Nejnižší úroveň představují zástupci čeledi Drosophilidae, u které je nejvíce osekvencovaných mitochondriálních genomů. Dále jsou použiti zástupci čeledí Culicidae, Tabanidae, Syrphidae, Tephritidae, Calliphoridae a Nemestrinidae, které představují různě staré vývojové linie. Kromě toho bylo analyzováno i několik zástupců z jiných řádů hmyzu. Z výsledků vyplývá, že použití celé mtDNA umožňuje rozlišení vztahů v rámci řádu v rozmezí 1-200 mil. let. Fylogenetické stromy byly konstruovány metodami MP, ML a BA. Dopad použití různých metod na topologii získaného stromu je minimální. Největší rozdíly v topologii stromů byly v tomto ohledu zaznamenány na úrovni mezi řády. Spolehlivost větví byla vyšší u ML než u MP a nejvyšší u BA. Autoři porovnávali také spolehlivost stromů konstruovaných na základě celé mtDNA (kombinovaná analýza) a jen některých genů. Zde se projevily problémy se seřazením genů pro rRNA, které dávaly na vyšší úrovni nespolehlivé výsledky, měly i větší genetické vzdálenosti než jiné geny, což svědčí o problematickém seřazení. Zejména 16S rRNA odporovala kombinované analýze. Geny pro tRNA jsou poměrně konzervativní a posuzovány dohromady jsou schopny rozlišit starší divergence. Dávají vždy nižší genetické vzdálenosti než jiné geny. Na úrovni vyšších vztahů dvoukřídlých poskytly výsledky odporující uznávané fylogenezi, důvodem je zřejmě nedostatek variabilních míst. Z hlediska sekundární struktury tRNA poskytují oblasti formující stopky informaci na nejvyšší úrovni a oblasti smyček jsou dost variabilní i pro nižší úrovně (v tomto případě v rámci čeledi Drosophilidae). Geny kódující proteiny posuzovány samostatně

14 poskytly výsledky srovnatelné s kombinovanou analýzou, žádný z nich se v tomto smyslu neodchyloval. Dále se ukázalo, že zahrnutí třetí pozice kodónu do analýzy snižuje spolehlivost větví, což se přičítá vysokému podílu homoplázií. Tento efekt je u zahrnutí třetí pozice větší než zahrnutí kteréhokoliv z mitochondriálních genů. Některé studie hodnotí jednotlivé mitochondriální markery. Simmons & Weller (2001) analyzovali sekvence cytochromu b (Cyt b) různých řádů hmyzu. Z dvoukřídlých použili zástupce čeledí Chironomidae, Culicidae, , Drosophilidae a Tephritidae. Zjistili u nich nukleotidovou divergenci 27 % a aminokyselinovou 25 %. V porovnání se starším holometabolním řádem brouků to byla divergence větší, což naznačuje poněkud zrychlenou molekulární evoluci dvoukřídlých. Krzywinski et al. (2001) při analýze podčeledi Anophelinae (Culicidae) získali ze sekvencí Cyt b výsledky, které odporovaly jiným markerům (ND 5, 28S rDNA). Vysvětlovali to substituční saturací na třetí pozici kodónu (103 variabilních míst ze 137) a současně malou variabilitou první a druhé pozice (dohromady 34 variabilních míst z 274), které tak neposkytly dostatek znaků. Struktura molekuly proteinu Cyt b je na obr. 4. Genem pro cytochrom-c-oxidázu I (COI) se zabývali Lunt et al. (1996). Z porovnání sekvencí u několika zástupců hmyzu identifikovali konzervativní a variabilní domény proteinového produktu (obr. 5). Nejvíce variabilní je oblast přiléhající k C-konci proteinu. Další konzervativní a variabilní oblasti jsou umístěny v různých částech molekuly v závislosti na její funkci. COI je univerzálně používaný marker pro druhovou determinaci (barcoding). K těmto účelům ho použili např. Smith et al. (2006) u parazitoidů rodu Belvosia (Tachinidae) a jejich motýlích hostitelů. Za účelem druhové identifikace se COI používá i v soudním lékařství (Wells et al., 2001). Dále se často používá jako DNA-marker pro populační studie (Wells & Sperling, 1999). Pro populační studie je vhodná také kontrolní oblast, jediná větší nekódující oblast mtDNA. Skládá se z několika domén, ale obecně zde není velké funkční omezení, a proto je tu velká část mutací selekčně neutrální. Podílí se na regulaci replikace a transkripce mtDNA (Clayton, 1992). Srovnávací studii kontrolní oblasti u hmyzu provedli Zhang & Hewitt (1997). Identifikovali několik konzervativních sekvenčních motivů, které byly přítomny u různých zástupců. Celková délka a uspořádání kontrolní oblasti jsou dosti proměnlivé. Většinou se vyskytuje konzervativní úsek se zmíněnými sekvenčními motivy (přiléhá ke genu pro tRNA-Ile) a variabilní úsek (přilehlý ke genu 12S rDNA), který však nemusí být přítomen. Délka kolísá od 520 bp u Anopheles gambiae po 4601 bp u Drosophila melanogaster. U čeledi Calliphoridae zaznamenali Lessinger & Azerado-Espin (2000) délku 1000-1600 bp. Rozdíly v délce jsou způsobeny inzercemi, delecemi a různě dlouhými tandemovými repeticemi

15 Obr. 4. Model proteinu cytochrom b se znázorněním externích (1), transmembránových (2) a interních (3) domén. Čísla označují aminokyselinové zbytky na rozhraní jednotlivých domén (Degli-Esposti et al., 1993).

Obr. 5. Model proteinu COI, s vyznačením interních (I), extrních (E) a transmembránových (M) domén. Konzervativní aminokyseliny jsou označeny písmenem, šrafované kroužky představují aminokyseliny, které jsou u hmyzu variabilní (Lunt et al., 1996).

16 ve variabilní oblasti. To způsobuje, že se sekvence v této části dají seřadit většinou jen u blízce příbuzných druhů. U vzdálenějších taxonů už je seřazení nespolehlivé. Vedle malého funkčního omezení je to další faktor, který předurčuje kontrolní oblast spíše pro studie populací a blízce příbuzných druhů. V tab. 1 je uveden přehled některých prací používajících mitochondriální a jaderné markery pro fylogenetické analýzy u dvoukřídlého hmyzu. Je patrné použití mitochondriálních markerů spíše na nižších úrovních, i když práce na vyšších úrovních také existují, v tom případě je však žádoucí použití delší sekvence, aby byl dostatek konzervativních informativních pozic (druhá pozice kodónu, stopkové oblasti tRNA). Substitučně saturované pozice tvoří informační šum a snižují spolehlivost získaných stromů.

1.4.3. Jaderné markery

Jaderná DNA se liší od mitochondriální svou velikostí i uspořádáním. Počtem nukleotidů o několik řádů převyšuje mtDNA, obsahuje velké množství nekódujících sekvencí, je uspořádána lineárně na chromozómech, geny obsahují introny, diploidní jedinec nese od každého genu dvě kopie (alely), které se mohou lišit. Tyto a další odlišnosti mají vliv i na fylogenetickou analýzu. Jaderná DNA se vyvíjí v průměru pomaleji než mitochondriální, jak bylo zmíněno v předchozí kapitole. Existují však velké rozdíly mezi různými typy jaderných sekvencí. Nejrychleji se vyvíjejí selekčně neutrální sekvence, jako jsou introny, pseudogeny či třetí pozice kodónu (Page & Holmes, 1998). Rychlost evoluce genů kódujících proteiny je dost proměnlivá v závislosti na funkčním omezení. Konzervativní jsou například geny pro histony. Geny pro rRNA a tRNA se vyvíjí poměrně pomalu, a proto se používají na vyšších taxonomických úrovních. U jaderných genů se někdy vyskytují problémy s PCR, pokud je DNA extrahována ze starších vzorků hmyzu. Narozdíl od mtDNA se jaderné geny v buňce vyskytují většinou jen v jedné kopii, což vede k tomu, že při extrakci DNA je získáno méně templátu pro PCR. Zvláště u starších vzorků, kde dochází k fragmentaci DNA, se potom amplifikace delších úseků nemusí zdařit (Dean & Ballard, 2001). V tomto ohledu jsou poněkud výhodnější geny pro rRNA, jejichž charakteristické shluky se vyskytují ve stovkách kopií na různých chromozómech. U hmyzu má tento shluk uspořádání 18S rDNA, ITS 1, 5,8S rDNA, ITS 2 a 28S rDNA (obr. 6). Geny pro ribozomální podjednotky jsou odděleny mezerníky ITS (Internal Transcribed Spacer), jejichž sekvence jsou selekčně neutrální a dají se použít na nižší taxonomické úrovni.

17 Obr. 6. Schéma seskupení jaderných genů pro podjednotky rRNA (18S, 5,8S, 28S) a mezerníků (ITS 1, ITS 2). Stupnice nahoře udává délku sekvence v kilobázích DNA (Caterino et al., 2000).

Vzhledem k tomu, že se jaderné geny duplikují, může dojít při PCR k amplifikaci paralogní kopie, či pseudogenu, který prodělal jinou historii, než gen zájmu, což naruší fylogenetickou analýzu. Tomu se dá zabránit použitím specifických primerů a podmínek PCR. Pseudogen se projeví nápadně odlišnou sekvencí, přítomností stop-kodónů a podobnými rychlostmi změn na všech pozicích kodónu v důsledku absence funkčního omezení. Byly nalezeny i kopie mitochondriálních genů, začleněné v jaderné DNA (Zhang & Hewitt, 1996). Pokud by byly amplifikovány při PCR spolu s vlastními mitochondriálními geny, mohou také narušit fylogenetickou analýzu. Běžně se ale v buňce vyskytují v menším počtu kopií než původní mitochondriální gen, který by tak po PCR měl být v nadbytku. Lin & Danforth (2004) provedli srovnání jaderných a mitochondriálních genů kódujících proteiny pomocí MP a BA u zástupců několika řádů hmyzu. Jaderné geny jevily vyšší obsah homologií oproti homopláziím. Mají také vyšší hodnoty α (tvar gama rozložení), což značí vyšší homogenitu substitučních rychlostí na různých pozicích. Mitochondriální geny obsahují některé rychle se vyvíjející pozice, jejichž saturace vnáší do analýzy homoplázie. K tomu ovšem dochází až na vyšší taxonomické úrovni. Danforth et al. (2005) porovnávali jaderné geny kódující proteiny a rRNA. Z výsledků vyplynulo, že mezi těmito dvěma kategoriemi genů nejsou významné rozdíly v obsahu homologií či tvaru gama rozložení. Nirmala et al. (2001) použili jaderný marker 18S rDNA a mitochondriální 16S rDNA pro analýzu vztahů čeledí kalyptrátních dvoukřídlých. Jaderný ribozomální gen (jehož sekvenci získali téměř celou) měl více variabilní délku v důsledku inzercí a delecí, ale na jednotku délky obsahoval méně variabilních pozic než mitochondriální gen (18S: 340 variabilních pozic z 1723, 16S: 121 variabilních pozic z 409). Z tab. 1 je patrné, že jsou jaderné markery používány na všech úrovních. Na nejvyšší úrovni je časté používání 28S rDNA, z genů kódujících proteiny potom elongační faktor EF-1α. Na nejnižší úrovni byly využity například geny white, globin 2b a introny různých genů.

18 Tab. 1. Vybrané fylogenetické práce u dvoukřídlých, ve kterých byly použity jaderné a mitochondriální DNA-markery na různých taxonomických úrovních.

Taxonomická DNA-markery Práce skupina mitochonriální jaderné úroveň vyšší než čeleď Friedrich & Tautz (1997) Diptera 28S rDNA Cameron et al. (2007) Diptera celá mtDNA Vossbrinck & Friedman (1989) Cyclorrhapha 28S rDNA Pawlowski et al. (1996) 28S rDNA Wiegmann et al. (2000) 28S rDNA Moulton & Wiegmann (2004) Eremoneura CAD (rudimentary) Han & Ro (2005) CO II, 12S, 16S rDNA Skevington & Yeates (2000) 12S, 16S rDNA Nirmala et al. (2001) 16S rDNA 18S rDNA Bernasconi et al. (2000) CO I, CO II, tRNA-leu, trp, cys, tyr úroveň čeledí a podčeledí Moulton (2000) Simulidae 12S rDNA, ND 2 28S rDNA, DDC, PEPCK, EF-1α Beckenbach & Borkent (2003) Ceratopogonidae CO II Krzywinski et al. (2001) Anophelinae Cyt b, ND 5 28S rDNA Bybee et al. (2004) Asilidae 16S rDNA, CO II 18S, 28S rDNA Ståhls et al. (2003) Syrphidae CO I Han & McPheron (1997) Tephritidae 16S rDNA Wells et al. (2001) Sarcophagidae CO I Stireman (2002) Exoristinae 28S rDNA, EF-1α

Remsen & O´Grady (2002) Drosophilinae 16S rDNA ADH Lessinger & Azerado-Espin Calliphoridae, kontrolní oblast (2000) Oestridae úroveň rodů Guryev et al. (2001) Chironomus Cyt b, CO I globin 2b (Chironomidae) Savage et al. (2004) Thricops CO I, CO II, white (Muscidae) tRNA-leu Villablanca et al. (1998) Ceratitis introny genů chorion, (Tephritidae) aktin, vitelogenin, SOD Sharpe et al. (2000) Anopheles CO II guanylát-cykláza, (Culicidae) 28S rDNA, ITS 2 Wells & Sperling (1999) Chrysomya CO I, CO II (Calliphoridae)

19 1.5. Aplikace DNA-markerů u čeledi Tachinidae

Čeleď Tachinidae (kuklicovití) je počtem druhů jednou z největších čeledí dvoukřídlých. Zatím bylo celosvětově popsáno asi 10 000 druhů (O´Hara, 2007). Jde o čeleď evolučně mladou, která prodělala během třetihor bouřlivý vývoj spojený se vznikem mnoha nových druhů. Spolu s příbuznými mladými čeleděmi tvoří monofyletickou skupinu Calyptratae (obr. 7). Nejstarší fosilní nález čeledi Tachinidae (Evenhuis, 1994) je datován do eocénu (před 55-34 mil. let). Její vznik se předpokládá v první polovině tohoto období, kdy se oddělila od příbuzných kalyptrátních čeledí (Grimaldi & Engel, 2005).

Obr. 7. Fylogenetický strom dvoukřídlých s vyznačením hlavních skupin (čeleď Tachinidae je součástí skupiny Calyptratae). Čísla vpravo udávají počet popsaných druhů v jednotlivých skupinách. Dvojité čáry naznačují, že monofylie skupiny je nejistá (Yeates & Wiegmann, 1999).

Larvy všech zástupců čeledi Tachinidae jsou parazitoidi. Jejich hostiteli jsou různý hmyz a jiní členovci (např. motýli, brouci, ploštice, stonožky, pavouci). Hostitelská specifita většiny druhů zatím není zmapována, např. Vaňhara et al. (2008) uvádí známé hostitele u 149 ze 476 druhů čeledi zaznamenaných v ČR. Dá se předpokládat, že diverzita čeledi je důsledkem parazitického způsobu života. Dospělci se živí stravou rostlinného původu, např. pylem a nektarem z květů. Systematicky se čeleď Tachinidae člení nejčastěji na čtyři podčeledi (Exoristinae, , Dexinae a Phasinae), ve kterých je dále využíván systém tribů. Je založen na studiích vycházejících z morfologických znaků (Tschorsnig & Richter, 1998). Názory na fylogenetické vztahy podčeledí a tribů nejsou zcela jednotné.

20 Poprvé použili sekvence DNA čtyř zástupců čeledi Tachinidae k fylogenetickým analýzám Vossbrinck & Friedman (1989) ve své studii skupiny Cyclorrhapha. Výsledné stromy nepodpořily monofylii čeledi Tachinidae, ale měly slabou statistickou podporu (metoda MP poskytla několik různých rovnocenných stromů). Autoři to vysvětlili tím, že zástupci čeledi Tachinidae se evolučně oddělili tak brzy po sobě, že jejich vztahy nedokáže použitá sekvence genu 28S rDNA rozlišit. Jednoho zástupce čeledi Tachinidae použili Nirmala et al. (2001) v analýze vztahů čeledí skupiny Calyptratae. Získané stromy na základě genů 18S rDNA a 16S rDNA však neměly uspokojivou statistickou podporu na rozlišení vztahů jednotlivých čeledí, zejména těch blízkých k čeledi Tachinidae. Nejrozsáhlejší fylogenetickou studii v rámci Tachinidae na základě sekvencí DNA publikoval Stireman (2002). Použil 55 zástupců čeledi se zaměřením na největší podčeleď Exoristinae. Jako DNA-markery posloužily dva jaderné geny: 28S rDNA a EF-1α. Použití různých druhů analýz přineslo rozsáhlé, ale mnohdy protichůdné výsledky. Statistická podpora mnoha větví je slabá. Celkově se dá říci, že monofylie čeledi byla podpořena, podobně i monofylie podčeledi Exoristinae, avšak některé rody řazené do této podčeledi tam podle výsledků nepatří (Drino, Masiphya, Ceracia). Monofylie podčeledí Tachininae a Phasinae byla zpochybněna. Na zařazení sporných skupin a řešení vztahů podčeledí je podpora větví příliš slabá. Kromě fylogenetických studií byly DNA-markery u Tachinidae použity k druhové identifikaci. Smith et al. (2006) objevili po amplifikaci druhově specifických sekvencí CO I (barcoding) několik kryptických druhů rodu Belvosia. Morfologicky bylo rozlišeno 20 druhů, ale barcoding odhalil 32 skupin podobných sekvencí. Navíc se ukázalo, že téměř každá skupina sekvencí odpovídá parazitoidům určitého druhu motýla. Tím se odhalila hostitelská specifita, která předtím nebyla patrná. Kromě CO I byly kryptické druhy potvrzeny i jadernými sekvencemi ITS 1. V další studii (Smith et al., 2007) bylo identifikováno 73 odlišných skupin sekvencí CO I u 16 morfologických druhů (morphospecies) čeledi Tachinidae. Jde patrně opět o kryptické druhy, potvrzuje to jejich hostitelská specifita i další markery (28S, ITS 1). Augustí et al. (2005) navrhli druhově specifické primery pro druhy Lydella thompsoni a Pseudoperichaeta nigrolineata. Larvy těchto druhů parazitují na housenkách motýla Ostrinia nubilalis (Crambidae), který je škůdcem kukuřice. Pomocí primerů je možné odhalit přítomnost parazitoida v těle housenky, přičemž je tato metoda účinnější než jiné způsoby detekce. DNA-markery byly u čeledi Tachinidae zatím použity jen v několika studiích. Je zde ale velký prostor pro jejich uplatnění při řešení taxonomických, ekologických a evolučních otázek.

21 2. Cíle práce

 Vybrat zástupce dvoukřídlých na různých taxonomických úrovních.

 Z těchto vzorků získat sekvence vybraných DNA-markerů.

 Srovnat variabilitu sekvencí na jednotlivých taxonomických úrovních a analyzovat jejich použitelnost k fylogenetickým analýzám (na základě variability, porovnáním statistické spolehlivosti zkonstruovaných fylogenetických stromů a z odhadu saturace).

 Získané výsledky porovnat s publikovanými daty z jiných skupin dvoukřídlého hmyzu.

22 3. Materiál a metody

3.1. Zástupci dvoukřídlých použití k analýzám

Pro extrakci DNA a následné analýzy byli vybráni zástupci dvoukřídlých z různých taxonomických úrovní. Z nejvyšší úrovně zde sledované byli vybráni zástupci pěti čeledí v průřezu celého řádu Diptera. Ceratopogonidae a Simulidae jako evolučně staré čeledi, Stratiomyidae středně stará čeleď, a Tachinidae jako nejmladší čeledi (Grimaldi & Engel, 2005). Nižší taxonomické úrovně byly zaměřeny na modelovou čeleď Tachinidae a to na úrovni mezi triby podčeledi Tachininae, mezi rody tribu Tachinini a mezi druhy rodu . V rámci druhu Tachina magnicornis bylo dále použito několik jedinců z různých evropských lokalit pro zjištění vnitrodruhové variability sledovaných DNA-markerů (tab. 2). Použití jedinci byli uchovávaní buď na sucho (na entomologických špendlících) nebo v 70% ethanolu.

3.2. Extrakce DNA, PCR a sekvencování

DNA byla extrahována z různých částí těla, nejčastěji abdomenu nebo nohy, u menších jedinců pak z celého těla. Zbylé části těla s determinačními znaky, zejména zevní genitál, byly ponechány pro další taxonomické studium. Tkáň byla nejprve promyta a ponechána 10 min. v PBS (Phosphate Buffered Saline). Pro extrakci byl použit komerčně dostupný DNeasy tissue Kit (Qiagen). Po umístění do pufru ATL (součást kitu) se tkáň homogenizovala v tekutém dusíku - byla dvakrát krátce zmrazena a rozmrazena. Dále se postupovalo podle návodu přiloženého ke kitu. Metodou PCR byly amplifikovány sekvence DNA-markerů, které byly následně sekvencovány. Použité primery jsou uvedeny v tab. 3. PCR probíhala v objemu 20 µl, koncentrace reaktantů byla následující: 1x PCR-pufr (Fermentas), 2 mM nebo 2,5 mM MgCl2, 200 µM dNTPs (mix), 0,04 U/µl Taq-polymeráza (Fermentas) a 0,4 µM každého primeru. Podmínky reakce se lišily u každého markeru (tab. 4). U problematických vzorků (tj. tam, kde nebylo možno standardním postupem získat PCR produkt v dostatečné kvalitě) byl pro optimalizaci proveden teplotní gradient pro připojení primerů. Výsledek PCR byl kontrolován odebráním 4 µl směsi po reakci a provedením elektroforézy v 1% agarózovém gelu, k vizualizaci DNA byly použity fluorochromy ethidiumbromid (Top Bio) nebo GoldView (SBS Genetech).

23 Tab. 2. Zástupci dvoukřídlých použití k extrakci DNA a sekvencování.

Sledovaná Taxon Zástupce taxonu Lokalita a rok sběru Způsob Sbírka úroveň uchování Ceratopogonidae Dasyhelea saxicola Polsko, Gdansk, 2004 ethanol TOT Simulidae Simulium reptans CZ, Nedvědice, 2006 ethanol MUR čeledi Stratiomyidae Tinda javana Thajsko, Soppong, 2001 suchý ROZ Anthomyzidae Stiphrosoma fissum Jižní Korea, Wonju, 2005 suchý ROH Tachinidae viz níže Linnaemyini Linnaemyia picta CZ, Pavlovské vrchy, 1998 suchý VAN Linnaemyia tessellans CZ, Duchcov, 1993 suchý BAR Ernestiini Gymnochaeta viridis CZ, Pavlovské vrchy, 1995 suchý VAN Macquartiini Macquartia tenebricosa CZ, Pavlovské vrchy, 1992 suchý VAN Triarthriini Triarthria setipennis CZ, Pavlovské vrchy, 1994 suchý VAN triby vacua CZ, Lanžhot-Soutok, 1993 suchý VAN čeledi Solieria pacifica CZ, Praha-Ruzyně, 1994 suchý BAR Tachinidae Minthoini Mintho rufiventris Slovensko, Vtáčnik v., 1988 suchý CEP Nemoraeini Nemoraea pellucida 1 CZ, Lanžhot-Soutok, 1994 suchý VAN Nemoraea pellucida 2 CZ, jižní Morava, Hnánice, 2001 suchý BAR Pelatachinini Pelatachina tibialis CZ, Pavlovské vrchy, 1992 suchý VAN Tachinini viz níže Germaria Germaria ruficeps CZ, Lanžhot-Soutok, 1992 suchý VAN Nowickia Nowickia ferox CZ, Brno-Hády, 1987 suchý VAN rody Nowickia atripalpis Slovensko, Vtáčnik v., 1988 suchý CEP tribu Peleteria Peleteria varia Slovensko, Vihorlat, 1986 suchý VAN Tachinini Peleteria rubescens Slovensko, Suchý v., 1988 suchý CEP Tachina viz níže Tachina T. magna Řecko, Trikala prov., Vlahava, 2003 suchý CER Echinogaster T. praeceps Sicílie, Parco delle Madonie, 2005 suchý CER Servillia T. lurida 1 CZ, Lanžhot-Soutok, 1994 suchý VAN T. lurida 2 CZ, Pavlovské vrchy, 2005 ethanol VAN T. ursina 1 Itálie, Lacio, Percile, 1999 suchý CER T. ursina 2 CZ, Moravia, Budečerabín, 2005 ethanol MUC podrody T. nigrohirta 1 CZ, Bílé Karpaty, 1993 suchý CEP a druhy T. nigrohirta 2 Německo, Südschwarzwald, 1992 suchý TSCH rodu Eudoromyia T. casta Sicílie, Bosco della Ficuzza, 2004 suchý CER Tachina T. corsicana Řecko, Epyro, Pindos Mts., 2002 suchý CER T. fera 1 Sardinie, Tintillonis, 2004 suchý CER T. fera 2 Sardinie, Domusnovas, 2006 suchý CER T. fera 3 Itálie, Řím, 2001 suchý CER T. nupta Írán, Gilan prov., Sebostaneh, 2005 suchý ZIE T. magnicornis viz tab. 3 T. magnicornis T. MGN CZ, jižní Morava, Sedlec, 1996 suchý VAN TM 1 CZ, Morava, Mohelno–step, 1993 suchý VAN TM 3 CZ, Brno – Soběšice, 1993 suchý VAN různé TM 4 CZ, jižní Morava, Lukov, 1991 suchý VAN populace TM 21 CZ, Adamov u Brna, 2006 ethanol VAN téhož TM 25 Slovensko, Kláštor pod Znievom, 2006 ethanol STR druhu TM 26 Slovensko, Kopáč, 2005 ethanol STR TM 11 Francie, Troncais Nievre, 1992 suchý VAN AN 4 Sicílie, Bosco della Ficuzza, 2003 suchý CER

Vysvětlivky: Sbírka: BAR - Miroslav Barták - Fakulta agrobiologie, potravinových a přírodních zdrojů, Česká zemědělská univerzita v Praze, CEP - část sbírky Juraje Čepeláka (†) uložená u Jaromíra Vaňhary - Ústav botaniky a zoologie Přírodovědecké fakulty Masarykovy univerzity (ÚBZ PřF MU), CER - Pierfilippo Cerretti - Università degli Studi La Sapienza di Roma, Dipartimento di Biologia Animale e dell´Uomo, MUC - Petr Mückstein - Správa CHKO Žďárské vrchy, MUR - Natália Muráriková - ÚBZ PřF MU, ROH - Jindřich Roháček - Slezské zemské muzeum Opava, ROZ - Rudolf Rozkošný - ÚBZ PřF MU, VAN - Jaromír Vaňhara - ÚBZ PřF MU, STR - Vladimír Straka - Múzeum Andreja Kmeťa Martin, TSCH - Hans-Peter Tschorsnig - Staatliches Museum für Naturkunde Stuttgart, TOT - Andrea Tóthová - ÚBZ PřF MU, ZIE - Joachim Ziegler, Museum für Naturkunde der Humboldt-Universität zu Berlin.

24 Tab. 3. Použité primery

Gen Primery Délka Podle publikace produktu (bp) mitochondriální 12S rDNA 12S ma ~400 Cook et al. (2004) 5´-CTGGGATTAGATACCCTGTTAT-3´ 12S mb 5´-CAGAGAGTGACGGGCGATTTGT-3´ 16S rDNA cer1 ~350 Nirmala et al. (2001) 5´-TAATCCAACATCGAGGTC-3´ modifikováno cer3 5´-CGAAGGTAGCATAATCAGTAG-3´ Cyt b cytbF ~450 Krzywinski et al. 5´- (2001) GGACAAATATCATTTTGAGGAGCAACAG-3´ cytbR 5´- ATTACTCCTCCTAGCTTATTAGGAATTG-3´ CO I 911 ~700 Guryev et al. (2001) 5´-TTTCTACAAATCATAAAGATATTGG-3´ 912 5´-TAAACTTCAGGGTGACCAAAAAATCA-3´ jaderný 28S rDNA 28y ~1000 Stireman (2002) 5´-CAAGGATTCCCTTAGTAGCG-3´ 28b 5´-TCGGAAGGAACCAGCTACTA-3´ EF-1α EFs175 ~900 Stireman (2002) 5´-GGAAATGGGAAAAGGCT CCTTCAAGTAYGCYTGGG-3´ EF2 5´-AACTAACGGTGTGACGAGTGTA-3´

Tab. 4. Průběh PCR

Cyklus Závěrečná Počáteční extenze Připojení denaturace Denaturace Polymerace Počet Gen primerů cyklů Teplota Čas Teplota Čas Teplota Čas Teplota Čas Teplota Čas (°C) (min) (°C) (min) (°C) (s) (°C) (s) (°C) (s) 12S rDNA 94 2 94 40 55 60 72 120 38 72 7 16S rDNA 94 2 94 50 53 50 72 90 38 72 7 Cyt b 94 5 94 45 50 45 72 90 38 72 10 CO I 94 2 94 45 47 45 72 90 35 72 7 28S 94 2 94 45 50/55 45 72 90 35 72 7 EF-1α 94 2 94 45 50/55 45 72 90 35 72 7

25 Produkt PCR byl přečištěn pomocí komerční soupravy QIAquick PCR Purification Kit (Qiagen) a následně sekvencován dideoxy metodou na automatickém fluorescenčním sekvenátoru ABI Prism 3130 Genetic Analyser (Applied Biosystems). Na sekvenační PCR byl použit BigDye Terminator v1.1 Cycle Sequencing Kit (Applied Biosystems) a produkt přečištěn pomocí BigDye XTerminator Purification Kit (Applied Biosystems), postupovalo se podle přiložených návodů. DNA-marker byl sekvencován z jedné, nebo obou stran a sekvence potom manuálně upravena v programu Sequencher 4.8 (GeneCodes).

3.3. Analýza sekvencí

Pro další analýzy byly vybrány vzorky, u kterých se podařilo získat ucelený soubor stejných markerů. Na jednotlivých taxonomických úrovních je to vždy několik různých druhů v průřezu daného taxonu, u druhu T. magnicornis jedinci z různých evropských lokalit. Na každé taxonomické úrovni bylo pro každý marker provedeno mnohonásobné seřazení sekvencí (multiple alignment) pomocí algoritmu CLUSTALW, který je součástí programu MEGA v. 3.1 (Kumar et al., 2004). U genů kódujících proteiny byla sekvence DNA nejprve v programu přeložena do sekvence aminokyselin a poté seřazena. U ribozomálních genů bylo nutné (na úrovni čeledí a tribů) seřazení upravit manuálně a některé nejasné úseky odstranit. V programu MEGA byly získány i základní statistické údaje o seřazených sekvencích (procento variabilních pozic, nukleotidové složení, poměr tranzicí a transverzí). Pro odhad substituční saturace byly do grafu vyneseny nekorigované genetické vzdálenosti (p-distance) počítané z transverzí (osa x) a tranzicí (osa y). Pro každý marker je jeden graf, který obsahuje genetické vzdálenosti pro různé taxonomické úrovně, které jsou rozlišeny barevně. Na každé taxonomické úrovni byly vzdálenosti počítány jen pro její zástupce. Hodnoty vzdáleností byly získány v programu PAUP* v.4.0b10 (Swofford, 2003). Předpokladem je, že tranzice probíhají častěji než transverze. Po delší době dochází k tranzicím na stejné pozici opakovaně, což maskuje informaci o postupné změně bází na dané pozici, která je tak substitučně saturovaná. U transverzí k tomuto dochází pomaleji. Saturace by se tedy měla poznat podle toho, že se vzrůstajícím množstvím transverzí nepřibývají přímo úmerně i tranzice, nárůst tranzicí se vzhledem k transverzím zpomaluje, jejich závislost není lineární (např. Wetzer, 2001).

26 3.4. Konstrukce fylogenetických stromů

Fylogenetické stromy byly konstruovány metodou BA v programu Mr. Bayes v. 3.1.2 (Ronquist & Huelsenbeck, 2003). Každá taxonomická úroveň a každý marker byly posuzovány zvlášť v oddělených analýzách. Kromě toho byla provedena i kombinovaná analýza na základě spojené sekvence všech markerů. Parametry BA byly ve všech analýzách nastaveny takto: mcmc samplefreq=1000 nchains=8 nruns=2 temp=0.05 swapfreq=1 nswap=2 mcmcdiagn=yes diagnfreq=1000 relburnin=yes burninfrac=0.3; sumt displaygeq=0.5 burnin=300; sump burnin=300. Soubory seřazených sekvencí byly analyzovány v programu MrModeltest v. 2.2 (Nylander, 2004), který navrhl vhodný model evoluce sekvencí DNA pro daný marker a taxonomickou úroveň, přičemž byl vybrán model s nejlepšími parametry tzv. „Akaike Information Criterion“ (AIC). Daný model byl potom zahrnut do nastavení programu Mr. Bayes a je uveden u jednotlivých fylogenetických stromů. U genů kódujících proteiny byly zohledněny jednotlivé pozice kodónu (partition by codon), kdy jsou počítány parametry modelu pro každou pozici zvlášť (unlink statefreq=(all) revmat=(all) shape=(all) pinvar=(all) tratio=(all); prset applyto=(all) ratepr=variable). V případě saturace byla z analýzy vyloučena třetí pozice kodónu. Možnost kombinovat použité markery byla ověřena testem homogenity (incongruence length-difference test) v programu PAUP*. V kombinované analýze byl zachován pro každý marker zvolený model. Parametry modelu byly počítány nezávisle jak pro markery, tak pro jednotlivé pozice kodónu. Délka BA (number of generations, ngen) byla uzpůsobena tak, aby směrodatná odchylka (standard deviation of split frequencies) klesla pod 0,01, jak doporučují autoři programu. Hodnota „ngen“ je uvedena u jednotlivých stromů. Spolehlivost větví fylogenetických stromů je udávána posteriorními pravděpodobnostmi (posterior probability), přičemž jsou zobrazeny jen hodnoty vyšší než 0,5. Pro určení kořene stromu byl do souboru druhů dané taxonomické úrovně přidán outgroup, který byl vybrán z nejbližší vyšší taxonomické úrovně. Na nejvšší taxonomické úrovni (mezi čeleděmi) outgroup přidán nebyl, stromy nemají kořen.

27 4. Výsledky

4.1. Získané sekvence DNA-markerů

U zkoumaných jedinců jsem se pokusil o amplifikaci sekvencí čtyř mitochondriálních a dvou jaderných DNA-markerů (tab. 3, 4). V případě mitochondriálních markerů se podařilo získat sekvence u většiny vzorků. Do souboru sekvencí, které byly dále seřazeny a analyzovány, byli vybráni zástupci uvedení v tab. 5. Kromě uvedených druhů byla na čtyřech vyšších úrovních do analýzy zahrnuta i T. magnicornis (TM 21). Pokud se mi nepodařilo u nějakého vzorku získat všechny čtyři mitochondriální markery, použil jsem vzorek ze stejného druhu nebo rodu (jen na úrovni mezi triby), u kterého se problematický marker získat podařilo. Takto vznikly na všech taxonomických úrovních soubory sekvencí čtyř markerů u stejných druhů (rodů). Na vnitrodruhové úrovni T. magnicornis jsem použil několik jedinců z různých evropských lokalit, u osmi z nich jsem získal sekvence tří mitochondriálních markerů, čtvrtý marker (CO I) se mi podařilo amplifikovat jen u pěti jedinců, které však pochází z různých evropských populací. V tab. 6-9 jsou uvedeny základní statistické údaje o získaných sekvencích čtyř mitochondriálních markerů na pěti taxonomických úrovních. Prvním údajem je délka seřazených sekvencí, která se u stejného markeru na různých úrovních liší, protože se nepodařilo získat vždy stejně dlouhé sekvence stejné kvality. Méně kvalitní sekvence byly zkráceny o nezřetelný okrajový úsek. Seřazené sekvence jsem potom na každé úrovni délkou přizpůsobil té nejkratší. K dalšímu zkrácení došlo u ribozomálních genů při manuální úpravě seřazení (jen na úrovních mezi čeleděmi a triby). V těchto tabulkách je dále uvedeno procento variabilních nukleotidových míst v seřazených sekvencích, procentuální nukleotidové složení, a poměr tranzicí ku transverzím. U genů kódujících proteiny jsou navíc uvedeny variabilita a obsah A+T na jednotlivých pozicích kodónu. Seřazené sekvence 12S a 16S rDNA mají v ideálním případě délku mírně přesahující 300 bp, na vyšších taxonomických úrovních je délka nižší zejména kvůli odstranění nejasných úseků. Cyt b má sekvence délky 364-415 bp a marker CO I sekvence dlouhé 510-581 bp. Celková variabilita je u všech čtyř markerů na jednotlivých taxonomických úrovních podobná. Rozdíly ve variabilitě mezi markery nepřesahují více než několik procent. Nejvíce se v tomto ohledu markery liší na úrovni druhů rodu Tachina a rodů tribu Tachinini. V případě druhů je Cyt b variabilnější (17,8 %) než ostatní markery (8,5-10,6 %), mezi rody je 12S méně variabilní (11 %) než ostatní (16,2-19,3 %).

28 Tab. 5. Získané sekvence DNA-markerů.

Sledovaná Taxon Zástupce taxonu Získané sekvence Použit úroveň v analýze 12S 16S Cyt b CO I Ceratopogonidae Dasyhelea saxicola X X X X ano Simulidae Simulium reptans X X X X ano čeledi Stratiomyidae Tinda javana X X X X ano Anthomyzidae Stiphrosoma fissum X X X X ano Linnaemyini Linnaemyia picta - X X X ano Linnaemyia tessellans X - - - ano Ernestiini Gymnochaeta viridis X X X X ano Macquartiini Macquartia tenebricosa X X X X ano triby Triarthriini Triarthria setipennis X X X X ano čeledi Leskiini Solieria vacua - X - - ano Tachinidae Solieria pacifica X - X X ano Minthoini Mintho rufiventris X X X X ano Nemoraeini Nemoraea pellucida 1 X - X - ne Nemoraea pellucida 2 - X - - ne Pelatachinini Pelatachina tibialis X X X - ne Germaria Germaria ruficeps X X X X ano rody Nowickia Nowickia ferox X X X X ano tribu Nowickia atripalpis X - - - ne Tachinini Peleteria Peleteria varia X X X X ano Peleteria rubescens X - X - ne Tachina T. magna X X X X ano Echinogaster T. praeceps X X X X ano Servillia T. lurida 1 X X X - ano T. lurida 2 - - - X ano T. ursina 1 X X X - ano podrody T. ursina 2 - - - X ano a druhy T. nigrohirta 1 X X X - ano rodu T. nigrohirta 2 - - - X ano Tachina Eudoromyia T. casta X X X X ano T. corsicana X X X X ano T. fera 1 X X X X ano T. fera 2 X X X X ne T. fera 3 - X X X ne T. nupta X X X X ano T. magnicornis T. MGN X X X - ano TM 1 X X X - ano TM 3 X X X - ano různé TM 4 X X X - ano populace TM 21 X X X X ano téhož TM 25 - - - X ano druhu TM 26 X X X X ano TM 11 X X X X ano AN 4 X X X X ano

Vysvětlivky: Získané sekvence: „X“ = DNA-marker osekvencován, „-“ = DNA-marker neosekvencován. Použit v analýze – udává jestli byly sekvence tohoto jedince zahrnuty do seřazení a následných analýz.

29 Tab. 6. Základní údaje o seřazených sekvencích 12S rDNA. Délka Variabilní Nukleotidové složení (%) Poměr Sledovaná úroveň (bp) místa (%) A T C G ti/tv Druh Tachina magnicornis 316 1,9 38 39 8 15 - Rod Tachina 317 8,5 38 39 8 15 2,5 Tribus Tachinini 318 11,0 38 40 8 14 1,3 Podčeleď Tachininae 220 25,9 47 40 8 5 0,2 Řád Diptera 286 32,2 35 40 9 16 1,0

Tab. 7. Základní údaje o seřazených sekvencích 16S rDNA. Délka Variabilní Nukleotidové složení (%) Poměr Sledovaná úroveň (bp) místa (%) A T C G ti/tv Druh Tachina magnicornis 308 1,0 45 36 13 6 - Rod Tachina 249 10,4 45 39 10 6 2,5 Tribus Tachinini 254 19,3 46 37 11 6 0,5 Podčeleď Tachininae 233 27,5 47 40 8 5 0,2 Řád Diptera 272 29,4 41 38 14 7 0,4

Tab. 8. Základní údaje o seřazených sekvencích CO I. Variabilní místa na Obsah A+T (%) na Nukleotidové složení (%) Sledovaná Délka pozicích kodónu (%) pozicích kodónu Poměr úroveň (bp) ti/tv 1 2 3 celkem A T C G 1 2 3 Druh Tachina 554 0 0 0 0 32 39 14 15 56 58 97 - magnicornis Rod 548 6,6 0 25,3 10,6 31 39 15 15 56 58 97 1,7 Tachina Tribus 543 9,4 2,2 37,0 16,2 30 39 15 16 55 59 94 1,0 Tachinini Podčeleď 581 19,1 1,5 54,9 25,1 31 40 14 15 58 58 97 0,6 Tachininae Řád 510 22,4 5,3 68,8 32,2 29 38 17 16 52 57 90 0,6 Diptera

Tab. 9. Základní údaje o seřazených sekvencích Cyt b. Variabilní místa na Obsah A+T (%) na Nukleotidové složení (%) Sledovaná Délka pozicích kodónu (%) pozicích kodónu Poměr úroveň (bp) ti/tv 1 2 3 celkem A T C G 1 2 3 Druh Tachina 400 0,7 0 4,5 1,8 32 42 15 11 62 68 93 - magnicornis Rod 381 11,0 0,8 41,7 17,8 33 41 15 11 61 69 93 1,7 Tachina Tribus 415 12,2 1,4 41,3 18,3 32 42 15 11 61 69 93 1,0 Tachinini Podčeleď 395 24,2 3,8 58,8 31,2 33 42 15 10 62 70 94 0,7 Tachininae Řád 364 30,3 8,0 73,6 34,9 31 40 18 11 58 67 87 1,0 Diptera

Vysvětlivky: ti – tranzice, tv – transverze, A – adenin, T – thymin, C – cytosin, G – guanin.

30 Na vnitrodruhové úrovni T. magnicornis je variabilita u všech markerů velmi nízká, nebo žádná (0-1,9 %). Z tohoto důvodu jsem pro tuto úroveň neprováděl fylogenetickou analýzu ani odhad substituční saturace. U genů kódujících proteiny jsem posuzoval variabilitu na různých pozicích kodónu. Podle očekávání je nejvariabilnější třetí pozice kodónu, nejméně variabilní potom druhá pozice. Mezi oběma markery jsou menší odlišnosti. CO I se jeví méně variabilní (na všech pozicích kodónu i celkově) než Cyt b, který jeví určitou malou variabilitu i na vnitrodruhové úrovni, kde je CO I zcela bez substitucí. Rozdíly činí vždy několik procent, variabilita žádné pozice Cyt b však nikdy nepřesahuje CO I více než dvojnásobně, tomuto poměru se však někdy blíží (úroveň druhů). Nukleotidové složení je u všech markerů podobné, ve všech případech je více než dvojnásobně vyšší obsah A+T než C+G. Při detailnějším porovnání má každý marker charakteristický obsah jednotlivých typů bází, který se téměř neliší na různých taxonomických úrovních. 12S má oproti 16S vyšší obsah C a nižší G. 12S má podobný obsah A i T, kdežto 16S má o něco více A než T. CO I má srovnatelný obsah jak A a T, tak i C a G. Cyt b má více T než A a více C než G. U genů kódujících proteiny jsem sledoval obsah A+T na jednotlivých pozicích kodónu. Hodnoty u každého genu jsou opět srovnatelné na všech taxonomických úrovních. Cyt b se liší od CO I vyšším obsahem A+T na první a druhé pozici kodónu. Oba markery mají vysoký obsah A+T na třetí pozici kodónu (87-97 %). Poměr ti/tv má u všech markerů se stoupající taxonomickou úrovní klesající trend. Výjimkou je úroveň čeledí řádu Diptera, kde dochází většinou ke zvýšení tohoto poměru oproti nižší úrovni. Sekvence na nejnižší taxonomické úrovni (evropských zástupců druhu T. magnicornis) nejevily žádnou (CO I), nebo velmi malou variabilitu (do 1,9 %). Z tohoto důvodu není u těchto sekvencí uveden poměr ti/tv, změny totiž představovaly vždy tranzice. Sekvence jaderných markerů jsem zkoušel amplifikovat u několika vzorků (T. magnicornis - TM 1, T. ursina 1, T. lurida 1 a Nowickia ferox) s různým nastavením teplot připojení primerů (50 ˚C a 55 ˚C). Ani v jednom případě nebyla amplifikace úspěšná.

31 4.2. Odhad substituční saturace

Na obr. 8-11 je pro každý marker graf závislosti četnosti tranzicí na četnosti transverzí mezi sekvencemi na jednotlivých taxonomických úrovních. Grafy na obr. 12 a 13 ukazují tutéž závislost pro třetí pozici kodónu markerů CO I a Cyt b. Je patrné, že oba typy substitucí přibývají se vzrůstající taxonomickou úrovní. Tato závislost je přibližně lineární na nižší taxonomické úrovni, přičemž určitému počtu transverzí odpovídá o něco větší počet tranzicí, jak je vidět i z hodnoty průměrného poměru tranzicí a transverzí v tab. 6-9. Na vyšší taxonomické úrovni však tranzicí vzhledem k transverzím ubývá, což způsobuje určité zakřivení v grafu, ze kterého se dá usuzovat na substituční saturaci v daných sekvencích. Z obr. 8-11 vyplývá, že na úrovni druhů rodu Tachina je u všech markerů závislost přibližně lineární, tranzice převažují nad transverzemi, saturace tu tedy zřejmě není. Na úrovni rodů tribu Tachinini lineární trend závislosti pokračuje u markerů 12S a CO I. Interpretace je obtížnější u markerů 16S a Cyt b, zejména kvůli malému množství bodů (málo zástupců na této úrovni). U těchto dvou markerů na této úrovni tranzice nevzrůstají s přibývajícími tranzicemi, což svědčí pro saturaci. Na úrovni tribů je pro všechny markery evidentní, že když transverzí přibývá, tranzice nevzrůstají. Zůstávají v určitém omezeném rozsahu, jehož hodnoty nejsou vyšší než na úrovni druhů. Tranzicí je tedy méně než transverzí (u 16S a 12S pětkrát méně, viz tab. 6 a 7). Sekvence jsou na této úrovni pravděpodobně substitučně saturované. Na úrovni čeledí přibylo u markerů CO I a Cyt b oproti nižším úrovním transverzí i tranzicí. U Cyt b je v průměru jejich poměr 1:1 a u CO I je asi dvakrát více transverzí než tranzicí (tab. 8 a 9). U 12S a 16S přibylo oproti nižším úrovním spíše tranzicí než transverzí. Na obr. 12 a 13, kde jsou vyneseny četnosti tranzicí a transverzí jen pro třetí pozici kodónu, je patrný rychlejší trend k saturaci, který se projevuje určitým zakřivením už na úrovni druhů. Na úrovni rodů a zejména tribů při vzrůstajícím množství transverzí dokonce klesá četnost tranzicí (graf je zakřiven dolů). Rozdíl mezi oběma markery je v tom, že Cyt b má už na úrovni druhů vyšší četnost jak tranzicí tak transverzí oproti COI, rychlost substitucí je u Cyt b tedy vyšší. Na úrovni čeledí je četnost tranzicí a transverzí u Cyt b podobná, u CO I je téměř dvakrát více transverzí než tranzicí.

32 0,12

0,1

0,08

0,06 čeledi ti rody triby 0,04 druhy

0,02

0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 tv

Obr. 8. Vztah četnosti tranzicí (ti) a transverzí (tv), 12S rDNA.

0,08

0,06

0,04 čeledi ti rody triby druhy 0,02

0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16 tv

Obr. 9. Vztah četnosti tranzicí (ti) a transverzí (tv), 16S rDNA.

33 0,1

0,08

0,06 čeledi ti rody 0,04 triby druhy

0,02

0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 tv

Obr. 10. Vztah četnosti tranzicí (ti) a transverzí (tv), CO I.

0,12

0,1

0,08

0,06 rody ti triby čeledi druhy 0,04

0,02

0 0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 tv

Obr. 11. Vztah četnosti tranzicí (ti) a transverzí (tv), Cyt b.

34 0,2

0,15

0,1 čeledi ti rody triby druhy 0,05

0 0 0,05 0,1 0,15 0,2 0,25 0,3 0,35 tv

Obr. 12. Vztah četnosti tranzicí (ti) a transverzí (tv), 3. pozice kodónu CO I.

0,25

0,2

0,15

čeledi ti rody 0,1 triby druhy

0,05

0 0 0,05 0,1 0,15 0,2 0,25 0,3 tv

Obr. 13. Vztah četnosti tranzicí (ti) a transverzí (tv), 3. pozice kodónu Cyt b.

35 4.3. Fylogenetická analýza

Ze souborů seřazených sekvencí čtyř markerů na čtyřech taxonomických úrovních jsem metodou BA zkonstruoval 16 fylogenetických stromů. Pro pátou taxonomickou úroveň (v rámci druhu T. magnicornis) jsem fylogenetickou analýzu neprováděl, protože sekvence měly malou variabilitu. Dále jsem pomocí spojených sekvencí všech čtyř markerů provedl kombinovanou analýzu, čímž jsem pro každou ze čtyř taxonomických úrovní získal jeden fylogenetický strom. Na úrovni tribů a čeledí jsem u genů kódujících proteiny vyloučil z analýzy třetí pozici kodónu kvůli saturaci.

4.3.1. Oddělené analýzy

Fylogenetické stromy v oddělených analýzách vykazují různý stupeň rozlišení, různou spolehlivost větví (vyjádřenou posteriorními pravděpodobnostmi BA) a pro stejnou taxonomickou úroveň mají některé odlišnou topologii. Na úrovni druhů rodu Tachina (obr. 14) dosahují lepšího rozlišení stromů markery CO I a Cyt b. Seskupení druhů odpovídá jejich řazení do podrodů. T. magna tvoří v obou případech sesterskou skupinu podrodu Servillia, T. praeceps pak tvoří sesterskou skupinu k tomuto seskupení (Cyt b), nebo k seskupení všech ostatních podrodů (CO I). Strom na základě 12S je rozlišen méně, ale je z něj stále patrné rozdělení na čtyři podrody. Strom podle 16S je rozlišen nejméně, seskupení druhů navíc neodpovídá podrodům. Na úrovni rodů tribu Tachinini (obr. 15) jsou stromy ve všech případech rozlišené, ale jejich topologie se liší v otázce vztahů rodů Peleteria, Nowickia a Tachina. Rod Germaria je vždy umístěn jako sesterská skupina seskupení tří ostatních rodů. Stromy na úrovni tribů podčeledi Tachininae (obr. 16) jsou rozlišeny poměrně málo. V případě Cyt b je strom zcela nerozřešený. CO I udává jedinou větev se statistickou podporou (0,75), která spojuje triby Linnaemyini a Ernestiini. Nejvíce je rozlišen strom na základě 16S, spolehlivost větví je však spíše nízká, nejvyšší (0,78) je u seskupení tribů Tachinini a Macquartiini. Na úrovni mezi čeleděmi dvoukřídlých (obr. 17) dávají dva stromy (12S a Cyt b) shodnou topologii, nejsou však rozřešeny v otázce vztahů čeledí Ceratopogonidae a Simulidae. Umísťují dohromady čeledi Tachinidae a Anthomyzidae. Posledně zmíněné čeledi spojuje i strom na základě CO I, dále obsahuje společnou větev čeledí Ceratopogonidae a Stratiomyidae. Jediná podpořená větev u stromu podle 16S spojuje čeledi Stratiomyidae a Simulidae.

36 a) b)

Tachina casta Tachina casta Tachina magnicornis 100 Tachina corsicana Tachina nupta Tachina magnicornis 72 Tachina corsicana Tachina nupta Tachina fera Tachina magna Tachina lurida Tachina praeceps 52 Tachina ursina Tachina nigrohirta 90 Tachina nigrohirta 100 Tachina ursina Tachina magna Tachina lurida Tachina praeceps Germaria ruficeps Germaria ruficeps

0.05 0.05 c) d)

Tachina nupta 55 Tachina fera 76 Tachina magnicornis Tachina casta 55 53 Tachina corsicana Tachina magnicornis 97 Tachina fera Tachina corsicana Tachina nupta Tachina casta 94 Tachina nigrohirta Tachina lurida 99 81 66 Tachina ursina Tachina ursina 79 Tachina lurida Tachina nigrohirta 68 98 Tachina magna Tachina magna Tachina praeceps Tachina praeceps Germaria ruficeps Germaria ruficeps

0.05 0.05

Obr. 14. Oddělené fylogenetické analýzy na úrovni druhů rodu Tachina. a) Marker 12S rDNA. BA: ngen=1 900 000, model: HKY+G. b) Marker 16S rDNA. BA: ngen=1 900 000, model: HKY+G. c) Marker CO I. BA: ngen=1 500 000, model: GTR+G. d) Marker Cyt b. BA: ngen=1 700 000, model: GTR+G.

37 a) b)

Tachina magnicornis Tachina magnicornis 92 97

68 Peleteria varia Nowickia ferox Tachinini Tachinini Nowickia ferox Peleteria varia

Germaria ruficeps Germaria ruficeps

Macquartia tenebricosa (Macquartiini) Macquartia tenebricosa (Macquartiini)

0.1 0.1

c) d)

Peleteria varia Tachina magnicornis 50 89

Nowickia ferox 99 Nowickia ferox 99 Tachinini Tachinini Tachina magnicornis Peleteria varia

Germaria ruficeps Germaria ruficeps

Macquartia tenebricosa (Macquartiini) Macquartia tenebricosa (Macquartiini)

0.1 0.1

Obr. 15. Oddělené fylogenetické analýzy na úrovni rodů tribu Tachinini. a) Marker 12S rDNA. BA: ngen=1 000 000, model: GTR+G. b) Marker 16S rDNA. BA: ngen=1 000 000, model: GTR+I. c) Marker CO I. BA: ngen=1 400 000, model: GTR+G. d) Marker Cyt b. BA: ngen=1 000 000, model: GTR+I.

38 a) b)

Tachina magnicornis (Tachinini) Tachina magnicornis (Tachinini) 78

Triarthria setipennis (Triarthriini) 64 Macquartia tenebricosa (Macquartiini)

Mintho rufiventris (Minthoini) Mintho rufiventris (Minthoini) 59 Gymnochaeta viridis (Ernestiini) Gymnochaeta viridis (Ernestiini)

Macquartia tenebricosa (Macquartiini) Linnaemyia picta (Linnaemyini)

Linnaemyia tessellans (Linnaemyini) Solieria vacua (Leskiini)

Solieria pacifica (Leskiini) Triarthria setipennis (Triarthriini)

Stiphrosoma fissum (Anthomyzidae) Stiphrosoma fissum (Anthomyzidae)

0.1 0.1

c) d)

Linnaemyia picta (Linnaemyini) Mintho rufiventris (Minthoini) 75 Gymnochaeta viridis (Ernestiini) Tachina magnicornis (Tachinini)

Tachina magnicornis (Tachinini) Triarthria setipennis (Triarthriini)

Solieria pacifica (Leskiini) Macquartia tenebricosa (Macquartiini)

Mintho rufiventris (Minthoini) Gymnochaeta viridis (Ernestiini)

Macquartia tenebricosa (Macquartiini) Linnaemyia pict (Linnaemyini)

Triarthria setipennis (Triarthriini) Solieria pacifica (Leskiini)

Stiphrosoma fissum (Anthomyzidae) Stiphrosoma fissum (Anthomyzidae)

0.1 0.1

Obr. 16. Oddělené fylogenetické analýzy na úrovni tribů podčeledi Tachininae. a) Marker 12S rDNA. BA: ngen=1 800 000, model: GTR+G. b) Marker 16S rDNA. BA: ngen=1 700 000, model: GTR+G. c) Marker CO I, 1. a 2. pozice kodónu. BA: ngen=1 400 000, model: GTR+I. d) Marker Cyt b, 1. a 2. pozice kodónu. BA: ngen=1 000 000, model: HKY+I.

39 a) b)

Tachina magnicornis (Tachinidae) Tachina magnicornis (Tachinidae) 98

76 Stiphrosoma fissum (Anthomyzidae) Stiphrosoma fissum (Anthomyzidae)

Tinda javana (Stratiomyidae) Dasyhelea saxicola (Ceratopogonidae)

Dasyhelea saxicola (Ceratopogonidae) Tinda javana (Stratiomyidae) 99

Simulium reptans (Simulidae) Simulium reptans (Simulidae)

0.1 0.1

c) d)

Tachina magnicornis (Tachinidae) Tachina magnicornis (Tachinidae) 96 57

Stiphrosoma fissum (Anthomyzidae) 50 Stiphrosoma fissum (Anthomyzidae)

Tinda javana (Stratiomyidae) Tinda javana (Stratiomyidae) 81

Dasyhelea saxicola (Ceratopogonidae) Simulium reptans (Simulidae)

Simulium reptans (Simulidae) Dasyhelea saxicola (Ceratopogonidae)

0.1 0.1

Obr. 17. Oddělené fylogenetické analýzy na úrovni čeledí řádu Diptera. a) Marker 12S rDNA. BA: ngen=1 500 000, model: GTR+I. b) Marker 16S rDNA. BA: ngen=1 500 000, model: GTR+I. c) Marker CO I, 1. a 2. pozice kodónu. BA: ngen=1 000 000, model: HKY+I. d) Marker Cyt b, 1. a 2. pozice kodónu. BA: ngen=3 500 000, model: HKY+I.

40 4.3.2. Kombinované analýzy

Délka spojených sekvencí všech čtyř markerů dosahuje na úrovni druhů délky 1495 bp, na úrovni rodů 1530 bp, na úrovni tribů 1530 bp a na úrovni čeledí 1432 bp. Fylogenetické stromy z kombinované analýzy se z hlediska rozlišenosti a posteriorních pravděpodobností liší podle taxonomické úrovně. Nejvyšší posteriorní pravděpodobnosti má strom na úrovni druhů rodu Tachina (obr. 18). Topologie odpovídá řazení druhů do podrodů, přičemž T. magna z podrodu Tachina je řazena jako sesterská skupina k podrodu Servillia. T. praeceps z podrodu Echinogaster vystupuje jako bazální linie celého rodu Tachina. Fylogenetické vztahy v podrodu Eudoromyia nejsou zcela vyřešené, nicméně tři druhy (T. magnicornis, T. nupta a T. corsicana) vytváří jeden shluk a další dva druhy (T. fera a T. casta) nemají v podrodu vyřešené postavení. Z tří druhů podrodu Servillia k sobě stojí blíže T. ursina a T. nigrohirta. Strom na úrovni rodů tribu Tachinini (obr. 19) umisťuje do jednoho shluku rody Tachina, Peleteria a Nowickia, ale jejich vztahy zůstávají nevyřešeny. Rod Germaria tvoří sesterskou skupinu k tomuto seskupení. Strom tribů podčeledi Tachininae (obr. 20) je z velké části nevyřešený. Jediná spolehlivá větev spojuje triby Tachinini a Macquartini (posteriorní pravděpodobnost 0,95). Jediné další rozlišení stromu je postavení tribu Leskiini bazálně k ostatním tribům, které je ale podpořeno jen malou pravděpodobností (0,54). Strom na úrovni čeledí (obr. 21) je rozlišený. Jedna větev spojuje čeledi Tachinidae a Anthomyzidae, další větev potom čeledi Simulidae a Stratiomyidae, obojí s vysokými pravděpodobnostmi. Postavení čeledi Ceratopogonidae zůstalo nevyřešeno.

41 Tachina fera

Tachina corsicana

100 Tachina magnicornis Eudoromyia 100

Tachina nupta

Tachina casta 100

Tachina lurida 100 Tachina ursina Servillia

99 88 Tachina nigrohirta

Tachina (Tachina) magna

Tachina (Echinogaster) praeceps

Germaria ruficeps

0.05

Obr. 18. Druhy rodu Tachina, kombinovaná analýza. BA: ngen=1 250 000.

Tachina magnicornis

100 Peleteria varia Tachinini Nowickia ferox

Germaria ruficeps

Macquartia tenebricosa (Macquartiini)

0.05

Obr. 19. Rody tribu Tachinini, kombinovaná analýza. BA: ngen=2 000 000.

42 Linnaemyia (Linnaemyini)

Macquartia tenebricosa (Macquartiini) 95

Tachina magnicornis (Tachinini) 54

Triarthria setipennis (Triarthriini)

Gymnochaeta viridis (Ernestiini)

Mintho rufiventris (Minthoini)

Solieria (Leskiini)

Stiphrosoma fissum (Anthomyzidae)

0.1

Obr. 20. Triby podčeledi Tachininae, kombinovaná analýza. BA: ngen=2 100 000.

Tachina magnicornis (Tachinidae) 98

Stiphrosoma fissum (Anthomyzidae)

Simulium reptans (Simulidae) 97

Tinda javana (Stratiomyidae)

Dasyhelea saxicola (Ceratopogonidae)

0.1

Obr. 21. Čeledi řádu Diptera, kombinovaná analýza. BA: ngen=1 000 000.

43 5. Diskuze

5.1. Získání sekvencí DNA-markerů

Z provedených extrakcí DNA a sekvencování se ukázalo, že získat kvalitní sekvence DNA u dvoukřídlého hmyzu je problematické. Důvodem je použití starších muzejních exemplářů, u nichž je DNA v různé míře fragmentovaná. Pokud ovšem chceme získat sekvence reprezentativních zástupců určité skupiny, zejména na nižší taxonomické úrovni, použití muzejního materiálu se prakticky nelze vyhnout. V pracích z oblasti molekulární fylogenetiky hmyzu je starší materiál používán běžně. Já jsem použil vzorky z let 1986-2006. Problémy s PCR a sekvencováním se vyskytovaly u vzorků různého stáří, nedá se říct, že by byly problematičtější starší vzorky. Například u druhu Nowickia ferox z roku 1987 (suchý vzorek) bylo získání sekvencí obtížné (nutnost teplotního gradientu), ale zdařlio se. Oproti tomu u suchého vzorku druhu Peleteria varia z roku 1986 žádné problémy při PCR nenastaly. Zřejmě záleží na podmínkách, ve kterých se vzorek po dobu uchovávání nacházel, zejména na rychlosti vysušení po usmrcení (Post et al., 1993). Pro větší vhodnost ethanolových vzorků svědčí to, že tam, kde se mi nepodařilo získat produkt PCR markeru CO I u suchého vzorku, se to podařilo u jedince stejného druhu z ethanolu (T. lurida, T. ursina a některé vzorky druhu T. magnicornis). Na výsledek PCR měly pozitivní efekt některé úpravy podmínek reakce. U problematických vzorků to bylo snížení teploty připojení primerů. Naopak u vzorků, kde je zachována vyšší kvalita DNA, vede snížení této teploty ke vzniku nespecifických produktů PCR. V případech, kdy jsem toto zaznamenal, byly vždy nespecifické produtky v menšině oproti amplifikované sekvenci DNA-markeru (slabší intenzita fluorescence při kontrole na gelu po elektroforéze). Výsledek PCR byl také lepší při zvýšení koncentrace MgCl2 z 2 mM na 2,5 mM. Nízká kvalita DNA se uvádí u vzorků, které přišly do kontaktu s formaldehydem (např. Tóthová et al., 2006), který se používá při převádění hmyzu z ethanolu na sucho. Ze vzorků, se kterými jsem pracoval, byla tato metoda použita u druhů Linnaemyia tessellans, Solieria pacifica a Nemoraea pellucida 2 ze sbírky Barták. U těchto vzorků (kromě Solieria) opravdu získání sekvencí DNA problematické bylo, ale sekvence některých markerů se získat podařilo, takže určitý podíl nepoškozené DNA (pravděpodobně kratší délky) ve vzorcích zůstal. Přesto bych doporučil vzorky zasažené formaldehydem k extrakci DNA nepoužívat.

44 Neúspěšně jsem se pokoušel o amplifikaci jaderných markerů, které použil u čeledi Tachinidae Stireman (2002). Suché vzorky, které jsem použil, pravděpodobně obsahovaly degradovanou DNA. Stireman uvání, že použil k extrakci DNA vzorky zmrazené po sběru, nebo uložené v 70-96% ethanolu, jen v několika případech šlo o suché exempláře. Oba markery jsou dlouhé přibližně 1000 bp a při degradaci DNA je menší šance, že se takto dlouhý úsek zachová neporušený, aby mohl sloužit jako templát pro PCR (Dean & Ballard, 2001). Šance je vyšší u sekvencí, které se v buňce vyskytují ve více kopiích, jako mtDNA. Ale i u 650 bp dlouhé sekvence CO I, nejdelšího použitého mitochondriálního markeru, jsem zaznamenal komplikace u velké části vzorků. Mnohdy bylo nutné reakci zopakovat, nebo provést teplotní gradient. U jaderných markerů by bylo pravděpodobně snažší, získat jejich sekvence u čerstvého materiálu nebo použitím primerů na kratší sekvence DNA. U hmyzu je tedy ideální, pokud to design studie dovoluje, k extrakci DNA používat čerstvý materiál, případně uchovávaný zmrazený, nebo ve vysokoprocentním ethanolu (96 %). Jiné způsoby uchovávání vedou k fragmentaci a degradaci DNA. Ve fylogenetických studiích je však použití vzorků se sníženou kvalitou DNA často nutné. U takových vzorků pravděpodobnost úspěchu PCR zvyšuje použití primerů na kratší sekvence. Pro získání delší sekvence (více znaků) se může provést amplifikace sousedních překrývajících se úseků DNA s použitím více párů primerů, nebo sekvence z různých genů a částí genomu. Použití většího počtu jednotlivých amplifikovaných a následně sekvencovaných úseků (například při získání sekvence celé mtDNA) je však časově a finančně náročné a tudíž mnohdy nepraktické. Pokud jsme omezeni délkou sekvence, je důležitá volba vhodného DNA-markeru. Sekvence musí mít variabilitu přiměřenou na studovanou taxonomickou úroveň, dostatečně vysokou, aby poskytla co nejvíce znaků použitelných pro rekonstrukci fylogeneze, a současně nebyla substitučně saturovaná.

5.2. Variabilita a nukleotidové složení sekvencí

Sekvence, které jsem získal představují fragmenty čtyř mitochondriálních genů. Dají se rozdělit do dvou strukturně a funkčně odlišných skupin, podle toho, jestli jde o gen kódující proteiny (CO I a Cyt b), nebo rRNA (12S a 16S rDNA). Celková variabilita je u všech markerů na jednotlivých taxonomických úrovních podobná. To se může přičítat tomu, že jsou umístěny na malé molekule mtDNA a v prostředí mitochondrie na ně působí obdobné vlivy, včetně mutačních mechanizmů. V jednotlivých

45 genech je zřejmě podobná míra funkčního omezení a dochází v nich ke hromadění substitucí podobnou rychlostí. Určité rozdíly ve variabilitě a tudíž rychlosti divergence sekvencí jsem však u markerů zaznamenal. Na úrovni druhů rodu Tachina se Cyt b vyznačuje vyšší variabilitou (17,8 %) než ostatní markery (8,5-10,6 %). Na ostatních úrovních má taky Cyt b celkovou variabilitu nejvyšší ze všech markerů (výjimkou je 16S na úrovni rodů). Při porovnání s CO I je jeho variabilita téměř vždy vyšší i na všech pozicích kodónu. Může to indikovat nižší funkční omezení Cyt b a tudíž vyšší rychlost nukleotidových substitucí. Tento výsledek však není možné vztáhnout na celý gen, protože jsem z každého genu použil jen část a rozdíly tak mohou být způsobeny lokálními rozdíly ve funkčním omezení v rámci genu. 12S je méně variabilní na úrovni rodů (11 %) než ostatní markery (16,2-19,3 %). Také na úrovni druhů má nejnižší variabilitu, i když jen o 2 % nižší než 16S a CO I. Jde zde opět pravděpodobně o úsek s vyšším funkčním omezením. Jiným vysvětlením těchto rozdílů ve variabilitě je měnící se rychlost molekulární evoluce v průběhu času (12S by ji měla v linii tribu Tachinini zpomalenou a Cyt b v linii rodu Tachina zrychlenou). V jiných studiích u dvoukřídlých, kde bylo použito více mitochondriálních markerů, u nich byla na stejné taxonomické úrovni většinou zaznamenána podobná variabilita. Byl to například Cyt b a CO I v rámci rodu Chironomus (Guryev et al., 2001), 12S a 16S u čeledi Phoridae (Cook et al., 2004), 16S a CO II u čeledi Asilidae (Bybee et al., 2004) nebo 12S a ND 2 u čeledi Simulidae (Moulton, 2000). Krzywinski et al. (2001) naopak zaznamenal v rámci čeledi Culicidae u Cyt b podstatně nižší variabilitu (33 %) než u ND 5 (58 %). Pro porovnání variability použitých markerů u různých skupin dvoukřídlých jsem použil sekvence uložené v databázi GenBank a zjišťoval variabilitu v seřazených sekvencích dané taxonomické skupiny. U rodů z evolučně starších čeledí dosahuje variabilita více než 30 %. Konkrétně CO I u rodu Chironomus (Chironomidae) 35 % (Guryev et al., 2001), CO I u rodu Anopheles (Culicidae) 34 % (Sallum et al., 2002), 12S u rodu Lutzomyia (Psychodidae) 35 % (Beati et al., 2004). U rodů z evolučně mladších čeledí () jsem shodně zjistil variabilitu nižší (pod 20 %). Např. 16S u rodu Phora (Phoridae) 11 % (Cook & Mostovski, 2002), CO I u rodu Thricops (Muscidae) 14 % (Savage et al., 2004), CO I u rodu Sarcophaga (Sarcophagidae) 15 % (Wells et al., 2001) a Cyt b u rodu Scathophaga (Scathophagidae) 19 % (Bernasconi et al., 2001). Já jsem zaznamenal u rodu Tachina u různých markerů variabilitu 8,5-17,8 %. Tato zjištění naznačují, že rody z evolučně starších čeledí obsahují druhy, které nejsou příliš morfologicky odlišné, i když se ze společného předka vyvíjí poměrně dlouho, jak ukázala vyšší variabilita sekvencí. Zástupci evolučně mladších skupin se naopak morfologicky rozrůzňují rychleji a rod potom zahrnuje relativně mladší druhy.

46 U vyšších taxonů (čeledí a podčeledí) je variabilita různých markerů podobná. Např. CO I u Culicidae 39 % (Sallum et al., 2002), Cyt b u Culicidae 33 % (Krzywinski et al., 2001), 12S u Simulidae 34 % (Moulton, 2000), 16S u Phoridae 39 % (Cook et al., 2004), CO I u Syrphidae 45 % (Ståhls et al., 2003). U podčeledi Tachininae jsem zaznamenal variabilitu různých markerů 25,1-31,2 %. Rozdíly mezi evolučně staršími a mladšími čeleděmi nejsou na této vyšší taxonomické úrovni příliš výrazné. Roli tu zřejmě hraje saturace sekvencí, i když je tedy nějaká skupina výrazně starší, není díky saturaci o mnoho variabilnější. Čeleď Tachinidae má v souladu s tím, že jde o mladou čeleď, z uvedených příkladů nějnižší variabilitu, ale rozdíl je oproti jiným čeledím malý. Dále jsem porovnal variabilitu použitých mitochondriálních markerů se dvěma jadernými markery (28S rDNA, EF-1α), které použil Stireman (2002) u čeledi Tachinidae. V rámci podčeledi Exoristinae zaznamenal u 28S variabilitu 29 % a u EF-1α 34 %. Já jsem u různých mitochondriálních markerů zjistil v rámci podčeledi Tachininae variabilitu 25,1-31,2 %, což je srovnatelné. V tribu Goniini dosahuje EF-1α variability 17 % a v tribu Exoristiini 14 %. 28S v tribu Goniini 13 % a tribu Exoristiini 5 %. Já jsem zaznamenal v tribu Tachinini variabilitu 11-19,3 %. V rámci tribů má tedy EF-1α srovnatelnou variabilitu jako mitochondriální markery, 28S má variabilitu nižší. Rozdíly ve variabilitě u stejného markeru mezi různými triby (v tomto případě Goniini a Exoristiini) mohou být způsobeny různým stářím a druhovou bohatostí tribů, také záleží na tom, kolik zástupců tribu je použito v analýze. Podle uvedených příkladů je vidět, že rozdíly ve variabilitě mezi markery jsou výraznější na nižší taxonomické úrovni, na vyšší taxonomické úrovni poněkud ustupují. Nízká variabilita v použitých markerech na vnitrodruhové úrovni T. magnicornis způsobila, že počet variabilních znaků je nízký pro fylogenetickou a fylogeografickou analýzu. V seřazených sekvencích jedinců z různých evropských lokalit bylo většinou jen několik variabilních pozic, u CO I nebyla dokonce žádná pozice variabilní. CO I přitom bývá pro populační studie používána poměrně často. Např. Wells & Sperling (1999) použili sekvence CO I, CO II a tRNA-leu ve fylogeografické studii druhů Chrysomya albiceps a C. rufifacies (Calliphoridae). Genetické vzdálenosti mezi jedinci téhož druhu činili 0,04–0,8 %. Sekvence však byla přibližně 2 400 bp dlouhá, takže obsahovala dostatek variabilních znaků k vysledování fylogeografických vztahů. Vnitrodruhová variabilita CO I může být u některých druhů vyšší. Např. Smith et al. (2006) zaznamenali u druhů rodu Belvosia (Tachinidae) vnitrodruhovou divergenci 0-3 %. Smith et al. (2007) potom uvádí u různých druhů čeledi Tachinidae vnitrodruhovou divergenci až více než 10 %, v takových případech šlo ale o kryptické druhy a v rámci nich byla varabilita nižší. V těchto dvou studiích byl použit úsek

47 CO I o délce asi 650 bp, který slouží k druhové identifikaci (barcoding) u různých organizmů. Pro tento účel by měla být v sekvencích CO I dostatečná mezidruhová variabilita. Smith et al. (2006) uvádí nejnižší genetickou vzdálenost mezi dvěma druhy 0,5 %, což představuje asi tři rozdílné nukleotidy v sekvenci. Já jsem zaznamenal nejnižší genetickou vzdálenost (p-distance) u markeru CO I v rámci rodu Tachina 0,2 % (mezi druhy T. ursina a T. nigrohirta), to odpovídá jedinému rozdílnému nukleotidu v sekvenci. Použití sekvencí CO I délky přibližně 600 bp tudíž není pro druhovou identifikaci některých zástupců čeledi Tachinidae spolehlivé. Týká se to mladých druhů, jejichž sekvence se zatím liší poměrně málo. Pro fylogeografickou studii u T. magnicornis je třeba získat větší počet variabilních znaků. Toho je možné dosáhnout použitím delší mitochondriální sekvence. Větší variabilitu by mohla mít mitochondriální kontrolní oblast, která má u různých skupin různou délku. U čeledi Tachinidae zatím sekvencována nebyla. U příbuzné čeledi Calliphoridae má délku 1000-1600 bp (Lessinger & Azerado-Espin, 2000). Větší délka může představovat problém při amplifikaci a sekvencování, bylo by zřejmě nutné navrhnout specifické primery uvnitř kontrolní oblasti. Z jaderných markerů by bylo možné vyzkoušet mezerníky ribozomálních genů (ITS) nebo introny (např. Villablanca et al., 1998). Nukleotidové složení sekvencí je pro každý marker poměrně specifické a je podobné na všech taxonomických úrovních (s tolerancí několika procent). Největší odchylky se vyskytují na dvou nejvyšších taxonomických úrovních, což naznačuje, že se nukleotidové složení může v delších časových úsecích pro danou sekvenci měnit. V případě ribozomálních genů mohou být odchylky způsobeny částečně také odstraněním problematických úseků při seřazení sekvencí. Celkový obsah A+T je u markerů vysoký, jak je u mtDNA hmyzu běžné (Simon et al., 1994). Mezi markery jsou určité rozdíly. Obsah A+T je nejnižší u CO I (67-71 %), o něco vyšší u Cyt b (71-75 %) a 12S (75-87 %), nejvyšší pak u 16S (79-87 %). Výrazně vyšší obsah A+T (87 %) na úrovni tribů u 12S a 16S může být opět důsledkem odstranění úseků ze seřazených sekvencí.

48 5.3. Substituční saturace

Odhad substituční saturace jsem prováděl z grafů, na kterých jsou proti sobě vyneseny četnosti tranzicí a transverzí mezi sekvencemi (např. Wetzer, 2001). Tranzice jsou zpočátku v převaze nad transverzemi, protože tranzice nastávají obecně častěji. Postupem času přibývá v sekvencích transverzí a tranzicí začne v celkovém poměru ubývat, protože se opakují na stejné pozici, která se tak stává substitučně saturovanou. Na taxonomické úrovni mezi druhy je četnost tranzicí vyšší než transverzí, to vyplývá z grafů na obr. 8-11 i z průměrného poměru ti/tv v tab. 6-9. U ribozomálních genů je tato převaha výraznější (ti/tv = 2,5) než u genů kódujících proteiny (ti/tv = 1,7). Na vyšších úrovních tento poměr klesá, což se projeví zakřivením grafu. Na úrovni rodů je zakřivení patrné u markerů Cyt b a 16S, což značí přítomnost saturace. U 12S a CO I leží body v prodloužení trendu z nižší taxonomické úrovně, což naopak saturaci nenaznačuje. Je tu i jisté spojení s variabilitou sekvencí, 12S má totiž nižší variabilitu než 16S a CO I nižší než Cyt b (posuzují- li se odděleně geny pro rRNA a proteiny). U méně variabilního markeru v každé dvojici není v grafu patrná saturace, tato shoda potvrzuje nižší rychlost substitucí u 12S než u 16S a u CO I nižší než u Cyt b. Na úrovni tribů už je saturace patrná u všech čtyř markerů. Body v grafu leží prakticky ve vodorovném pásu, kde přibývá transverzí a četnost tranzicí zůstává v omezeném rozsahu (nepřesahuje hodnoty z úrovně druhů). Poměr ti/tv tu dosahuje nejnižších hodnot (0,2 u ribozomálních genů, 0,6-0,7 u genů kódujících proteiny). Čeledi jsou evolučně vzdálenější taxony a sekvence jsou tudíž poměrně hodně odlišné. U genů kódujících proteiny přibylo oproti nižším úrovním tranzicí i transverzí, u ribozomálních genů jen tranzicí (výrazněji u 12S). Zejména u genů kódujících proteiny má graf opět stoupající trend a mohl by budit dojem, že zde saturace není. Vysvětlením by mohlo být, že se na této úrovni saturovaly transverze, a proto nepřibývají tak výrazně. Naopak tranzice nastávají na nových pozicích, a tak jejich zastoupení vzrůstá. Saturace v sekvencích na úrovni čeledí jistě je, protože byla zaznamenána i na úrovních nižších. Na obr. 12 a 13 je vztah četnosti tranzicí a transverzí jen pro třetí pozici kodónu, o které se dá předpokládat, že bude nejdřív saturovaná. Četnost tranzicí i transverzí je na stejné taxonomické úrovni vyšší než četnost v předchozích grafech, které zahrnují všechny pozice. Mírná saturace se dá předpokládat i na úrovni druhů, kdy pro nejvyšší četnost transverzí je podobná hodnota četnosti tranzicí (poměr se blíží 1:1). Na vyšších úrovních, potom tranzicí dokonce ubývá oproti úrovni druhů, toto je výraznější u Cyt b, který vychází z analýz celkově

49 variabilnější. U CO I tranzicí na úrovni rodů ještě mírně přibývá, na úrovni tribů je jich však také méně. Na úrovni čeledí je zde mezi markery rozdíl v tom, že u Cyt b je četnost tranzicí i transverzí podobná a u CO I výrazněji převažují transverze, které tady zřejmě ještě nejsou tolik saturovány, což je v souladu s pomalejší rychlostí substitucí u CO I než u Cyt b. U genů kódujících proteiny jsem z důvodu saturace vyloučil z analýzy třetí pozici kodónu na úrovni tribů a čeledí. Na úrovni rodů jsem třetí pozici v analýze ponechal, i když je pravděpodobně i zde do určité míry saturovaná. Jejím vyloučením by se snížil počet variabilních nukleotidových pozic a zbylo by málo znaků pro rekonstrukci fylogeneze. Abych rozdílné rychlosti změn na různých pozicích kodónu zohlednil při konstrukci stromu, nastavil jsem Bayesovskou analýzu na úrovni rodů a druhů tak, aby nezávisle u každé pozice kodónu stanovila parametry substitučního modelu včetně rychlosti substitucí.

5.4. Fylogenetické analýzy a posouzení využitelnosti DNA-markerů

Fylogenetické stromy na různých taxonomických úrovních poskytly různé rozlišení a věrohodnost z hlediska známých vztahů u jednotlivých skupin. Z těchto údajů je možné posoudit použitelnost markerů na jednotlivých úrovních. Na taxonomické úrovni druhů rodu Tachina jsou topologie stromů podobné, liší se spíše stupněm rozlišení. Nejhoršího rozlišení dosahuje marker 16S, který má nejkratší sekvenci. Geny kódující proteiny mají rozlišení nejvyšší, topologicky se liší umístěním druhu T. praeceps. Kombinovaná analýza potom poskytla strom shodný s tím na základě markeru CO I, tedy postavení T. praeceps bazálně v rodu Tachina. Shoda CO I s kombinovanou analýzou je asi způsobena tím, že má z použitých markerů nejdelší sekvenci. Kombinovaný strom má vysoké posteriorní pravděpodobnosti, vyšší než stromy v oddělených analýzách. Kombinace markerů zde tedy evidentně pomohla zesílit fylogenetický signál. Nevyřešené zůstaly vztahy v podrodu Eudoromyia. Jde zřejmě o blízce příbuzné druhy, jejichž sekvence se liší tak málo, že nebyl dostatek informace pro řešení fylogenetických vztahů. Na úrovni rodů tribu Tachinini poskytly markery odlišné výsledky v otázce příbuznosti rodů Tachina, Peleteria a Nowickia. Kombinovaná analýza je ukazuje jako nerozlišený shluk (trichotomie). Rod Germaria je umístěn vždy bazálně ke zbývajícím třem rodům na poměrně dlouhé větvi, takže je od nich zřejmě evolučně vzdálenější. Důvodem, proč informace obsažená v použitých sekvencích nebyla schopná fylogenezi zmíněných tří rodů vyřešit, může být jejich vznik rychle po sobě. Fylogenetický signál mohla ovlivnit mírná substituční saturace na některých pozicích, kterou jsem zaznamenal zejména u markerů 16S a Cyt b. Lepší rozlišení by

50 možná přineslo zahrnutí více zástupců z jednotlivých rodů do analýzy. Použitím více zástupců dané skupiny by mělo přibýt informací o sledu evolučních změn v sekvencích, což pomáhá rekonstruovat fylogenetické vztahy (Cameron et al., 2007). Na úrovni mezi triby je rozlišení všech stromů velmi nízké, včetně kombinované analýzy. Z té vyplývá jediné významnější spojení tribů Tachiniini a Macquartiini. Nízké rozlišení je pravděpodobně způsobeno zjištěnou substituční saturací. U sekvencí kódujících proteiny však vyřazení třetí pozice kodónu z analýzy nevedlo ke zlepšení rozlišení. Opět by mohlo pomoci použití více zástupců jednotlivých tribů. Jinou možností je použití delší sekvence nebo nějakého méně variabilního markeru. Stireman (2002) u podčeledi Exoristinae také nebyl schopen spolehlivě určit vztahy mezi triby, přitom použil řadu zástupců každého tribu a dva jaderné markery (z nichž jeden byl méně variabilní než mitochondriální markery, které jsem použil já) o celkové délce necelých 2000 bp. V jeho práci poskytly jednotlivé metody konstrukce stromů i oba markery rozporné výsledky v otázce vztahu tribů. Je možné, že jednotlivé triby vznikaly v krátkém časovém rozmezí, a proto je obtížné jejich vztahy vysledovat. Nasvědčuje tomu druhová bohatost a rozrůzněnost čeledi Tachinidae, která je přitom evolučně mladá. Na úrovni čeledí jsou sice stromy většinou rozlišené, ale liší se mezi markery a někdy i od známé fylogeneze dvoukřídlých. Je to pravděpodobně způsobeno značnou substituční saturací v sekvencích. Stromy na základě markerů 12S a Cyt b jsou ve shodě se známou fylogenezí (Grimaldi & Engel, 2005), i když nemají rozlišeny vztahy dvou nejstarších čeledí (Simulidae a Ceratopogonidae). Strom podle CO I k sobě umisťuje čeledi Tachinidae a Anthomyzidae, což se se známou fylogenezí shoduje, ale spojení Ceratopogonidae a Stratiomyidae je umělé. 16S také vytváří umělá spojení u čeledí Simulidae se Stratiomyidae a Ceratopogonidae s Anthomyzidae. Rozložení posteriorních pravděpodobností je spíše náhodné, někdy má věrohodné seskupení vysokou pravděpodobnost (12S), jindy nízkou (Cyt b). Naopak chybná spojení mohou mít vysokou podporu (CO I, 16S). Jak ukázala studie Cameron et al. (2007), použití dlouhé sekvence (celé mtDNA) umožňuje řešení vztahů i na těchto vyšších taxonomických úrovních. V sekvencích je zřejmě zachován dostatek konzervativních pozic, které dohromady poskytnou fylogenetický signál. Použité mitochondriální markery se nejlépe osvědčily na mezidruhové úrovni. Toho bude využito v taxonomické studii věnované rodu Tachina, která je dokončována dipterologickou skupinou Oddělení terestrických bezobratlých ÚBZ PřF MU (Vaňhara et al., in prep.).

51 Souhrn

Variabilita a využití DNA-markerů při studiu fylogenenze dvoukřídlých (Diptera) na různých taxonomických úrovních.

U zástupců dvoukřídlých na různých taxonomických úrovních se zaměřením na čeleď Tachinidae byly získány sekvence čtyř mitochondriálních DNA-markerů (parciální sekvence genů Cyt b, CO I, 12S a 16S rDNA). Byla posuzována jejich variabilita na taxonomických úrovních v rámci druhu T. Magnicornis, mezi druhy rodu Tachina, rody tribu Tachinini, triby podčeledi Tachininae a čeleděmi dvoukřídlých. Pro jednotlivé markery byly na jednotlivých taxonomických úrovních zkonstruovány fylogenetické stromy pomocí Bayesovské analýzy. Byly porovnávány topologie stromů a spolehlivost větví mezi jednotlivými markery. Kromě toho byla na každé úrovni provedena kombinovaná analýza na základě spojené sekvence všech čtyř markerů. Odhad substituční saturace byl proveden pro každý marker porovnáním četnosti tranzicí a transverzí v sekvencích na různých taxonomických úrovních. DNA byla extrahována z několik let starého muzejního materiálu. U některých vzorků se vyskytovaly problémy s PCR, zejména u markerů s delší sekvencí. Kvalita DNA závisí na podmínkách při uchovávání vzorku. Variabilita sekvencí je u jednotlivých markerů podobná. Cyt b se vyznačuje mírně vyšší variabilitou než ostatní markery. U evropských zástupců druhu T. magnicornis byla v použitých markerech zjištěna malá nebo žádná vnitrodruhová variabilita. Proto pro tuto úroveň nebyly konstruovány fylogenetické stromy. Substituční saturace byla zaznamenána v sekvencích na úrovni rodů a výše. Fylogenetické stromy poskytly nejlepší výsledky u druhů rodu Tachina, kde je dobré rozlišení stromů i spolehlivost větví, zejména v kombinované analýze. Na úrovni rodů se stromy liší v otázce některých vztahů a kombinovaný strom není zcela rozřešen. Velmi špatné rozlišení je na úrovni tribů v oddělených i kombinované analýze. Na úrovni čeledí jsou výsledky jednotlivých markerů i kombinované analýzy rozporné. Použité mitochondriální markery se jeví nejvhodnější pro mezidruhovou úroveň. Slabší výsledky na vyšších úrovních mohou být způsobeny substituční saturací, malým vzorkováním a také relativně rychlou divergencí některých taxonů čeledi Tachinidae.

52 Summary

Variability and application of DNA markers in phylogenetic studies of Diptera at different taxonomic levels.

Sequences of four mitochondrial DNA markers (partial sequences of genes CO I, Cyt b, 12S and 16S rDNA) have been obtained in selected representatives of Diptera at different taxonomic levels focused mainly on the family Tachinidae. The variability of the sequences has been evaluated at different taxonomic levels: within the species T. magnicornis, among species of the genus Tachina, among genera of the tribe Tachinini, among tribes of the subfamily Tachininae and among Diptera families. Phylogenetic trees have been constructed for each marker at different taxonomic levels via Bayesian analysis. Topologies of trees and reliability of branches have been compared among the used markers. Furthermore, a combined analysis based on connected sequences of all four markers has been performed at each level. Estimates of substitution saturation have been performed for each marker via comparing the frequencies of transitions and transversions at different taxonomic levels. The DNA has been extracted from several years old museum specimens. Problems occurred with PCR amplification in some specimens, especially in the case of long sequences. The quality of DNA from the museum samples depends on the conditions during the storage of the specimen. The variability of the sequences is similar for all four markers except the sequences of Cyt b that have slightly higher variability. Low or no intraspecific variability has been detected in European representatives of the species T. magnicornis. That is why phylogenetic trees have not been constructed for this level. The substitution saturation was detected at the level of genera and higher levels. Phylogenetic trees have offered the best results at the interspecific level within the genus Tachina. The resolution of the trees is good and the reliability of branches is high, especially in the combined analysis. Trees at the genera level show differences in some relationships, tree in combined analysis is not fully resolved. Very low resolution is at the level of tribes, both in separated and combined analyses. The results from different markers and combined analysis are inconsistent at the level of families. The mitochondrial markers used in this study appear to be appropriate for the interspecific level. Inferior results at other levels can be caused by saturation, small taxon sampling and quick diversification of some taxons of the family Tachinidae.

53 Literatura

Augustí, N., Bourget, D., Spataro, T., Delos, M., Eychenne, N., Folcher, L. & Arditi, R. 2005. Detection, identification and geographical distribution of European corn borer larval parasitoids using molecular markers. Mol. Ecol. 14: 3267–3274. Avise, J. C. 2000. Phylogeography: the history and formation of species. Harvard University Press, Cambridge. Beard, C. B., Hamm, D. M. & Collins, F. H. 1993. The mitochondrial genome of the mosquito Anopheles gambiae, DNA sequence, genome organization and comparisons with mitochondrial sequences of other . Mol. Biol. 2: 103-124. Beati, L., Cáceres, A. G., Lee, J. A. & Munstermann, L. E. 2004. Systematic relationships among Lutzomyia sand (Diptera: Psychodidae) of Peru and Colombia based on the analysis of 12S and 28S ribosomal DNA sequences. Int. J. Parasitol. 34 (2): 225-234. Beckenbach, A. T. & Borkent, A. 2003. Molecular analysis of the biting midges (Diptera: Ceratopogonidae), based on mitochondrial cytochrome oxidase subunit 2. Mol. Phylogenet. Evol. 27: 21-35. Bernasconi, M. V., Pawlowski, J., Valsangiacomo, C., Piffaretti, J.-C. & Ward, P. I. 2001. Phylogeny of the genus Scathophaga (Diptera: Scathophagidae) inferred from mitochondrial DNA sequences. Can. J. Zool. 79: 517-524. Bernasconi, M. V., Valsangiacomo, C., Piffaretti, J.-C. & Ward, P. I. 2000. Phylogenetic relationships among Muscoidea (Diptera: Calyptratae) based on mitochondrial DNA sequences. Insect Mol. Biol. 9: 67-74. Bybee, S. M., Taylor, S. D., Nelson, C. R. & Whiting, M. F. 2004. A phylogeny of robber flies (Diptera: Asilidae) at the subfamilial level: molecular evidence. Mol. Phylogenet. Evol. 30: 789-797. Cameron, S. L., Lambkin, C. L., Barker, S. C. & Whiting, M. F. 2007. A mitochondrial genome phylogeny of Diptera: whole genome sequence data accurately resolve relationships over broad timescales with high precision. Syst. Entomol. 32: 40-59. Castro, L. R. & Dowton, M. 2007. Mitochondrial genomes in the Hymenoptera and their utility as phylogenetic markers. Syst. Entomol. 32: 60-69. Caterino, M. S., Cho, S. & Sperling, F. A. H. 2000. The Current State of Insect Molecular Systematics: A Thriving Tower of Babel. Annu. Rev. Entomol. 45: 1-54. Clary, D. O. & Wolstenholme, D. R. 1985. The mitochondrial DNA molecule of Drosophila yakuba: nucleotide sequence, gene organization, and genetic code. J. Mol. Evol. 22: 252-271.

54 Clayton, D. A. 1992. Transcription and replication of mitochondrial DNAs. Int. Rev. Cytol. 141: 217-232. Cook, C. E., Austin, J. J. & Disney, H. L. 2004. A mitochondrial 12S and 16S rRNA phylogeny of critical genera of Phoridae (Diptera) and related families of . Zootaxa 593: 1-11. Cook, C. E. & Mostovski, M. B. 2002. 16S mitochondrial sequences associate morphologically dissimilar males and females of the family Phoridae (Diptera). Biol. J. Linn. Soc. Lond. 77: 267-273. Danforth, B. N., Lin, C.-P. & Fang, J. 2005. How do insect nuclear ribosomal genes compare to protein-coding genes in phylogenetic utility and nucleotide substitution patterns? Syst. Entomol. 30: 549-562. Dean, M. D. & Ballard, W. O. 2001. Factors affecting mitochondrial DNA quality from museum preserved Drosophila simulans. Entomol. Exp. Appl. 98: 279-283. Degli-Esposti, M., DeVries, S., Crimi, M., Ghelli, A., Patarnello, T. & Meyer, A. 1993. Mitochondrial cytochrome b: Evolution and structure of the protein. Biochim. Biophys. Acta 1143: 243–271. Evenhuis, N. L. 1994. Catalogue of the Fossil Flies of the World (Insecta: Diptera). Backhuys, Leiden. Friedrich, M. & Tautz, D. 1997. Evolution and phylogeny of the Diptera: A molecular phylogenetic analysis using 28S rDNA sequences. Syst. Biol. 46 (4): 674-698. Graur, D. & Li, W.-H. 2000. Fundamentals of Molecular Evolution, 2nd Ed. Sinauer Associates, Sunderland. Grimaldi, D. & Engel, M. S. 2005. Evolution of the Insects. Cambridge University Press, New York. Guryev, V., Makarevitch, I., Blinov, A. & Martin, J. 2001. Phylogeny of the Genus Chironomus (Diptera) Inferred from DNA Sequences of Mitochondrial Cytochrome b and Cytochrome oxidase I. Mol. Phylogenet. Evol. 19: 9-21. Han, H.-Y. & McPheron, B. A. 1997. Molecular Phylogenetic Study of Tephritidae (Insecta: Diptera) Using Partial Sequences of the Mitochondrial 16S Ribosomal DNA. Mol. Phylogenet. Evol. 7: 17-32. Han, H.-Y. & Ro, K.-E. 2005. Molecular phylogeny of the superfamily Tephritoidea (Insecta: Diptera): new evidence from the mitochondrial 12S, 16S, and COII genes. Mol. Phylogenet. Evol. 34: 416-430. Hennig, W. 1966. Phylogenetic Systematics. University of Illinois Press, Urbana.

55 Krzywinski, J., Wilkerson, R. C. & Besansky, N. J. 2001. Evolution of Mitochondrial and Ribosomal Gene Sequences in Anophelinae (Diptera: Culicidae): Implications for Phylogeny Reconstruction. Mol. Phylogenet. Evol. 18: 479-487. Kumar, S., Tamura, K. & Nei, M. 2004. MEGA3: Integrated software for Molecular Evolutionary Genetics Analysis and sequence alignment. Brief. Bioinform. 5: 150-163. Lessinger, A. C. & Azerado-Espin, A. M. L. 2000. Evolution and structural organisation of mitochondrial DNA control region of myiasis-causing flies. Med. Vet. Entomol. 14: 71-80. Lin, C.-P. & Danforth, B. N. 2004. How do insect nuclear and mitochondrial gene substitution patterns differ? Insights from Bayesian analyses of combined datasets. Mol. Phylogenet. Evol. 30: 686-702. Lunt, D. H., Zhang, D.-X., Szymura, J. M. & Hewitt, G. M. 1996. The insect cytochrome oxidase I gene: evolutionary patterns and conserved primers for phylogenetic studies. Insect Mol. Biol. 5: 153-165. Meier, R. 2005. Role of Dipterology in Phylogenetic Systematics: The Insight of Willli Hennig, pp. 45-62. In: Yeates, D. K. & Wiegmann, B. M. (ed). The Evolutionary Biology of Flies. Columbia University Press, New York. Moulton, J. K. 2000. Molecular sequence data resolves basal divergences within Simulidae (Diptera). Syst. Entomol. 25: 95-113. Moulton, J. K. & Wiegmann, B. M. 2004. Evolution and phylogenetic utility of CAD (rudimentary) among Mesozoic-aged Eremoneuran Diptera (Insecta). Mol. Phylogenet. Evol. 31: 363-378. Nirmala, X., Hypša, V. & Žurovec, M. 2001. Molecular phylogeny of Calyptratae (Diptera: Brachycera): the evolution of 18S and 16S ribosomal rDNAs in higher dipterans and their use in phylogenetic inference. Insect Mol. Biol. 10: 475-485. Nylander, J. A. A. 2004. MrModeltest v2.2 [online]. Program distributed by the author, Evolutionary Biology Centre, Uppsala University [cit. 5. května 2008]. Dostupné z www: . O’Hara, J. E. 2007. World genera of the Tachinidae (Diptera) and their regional occurrence [online PDF document]. Version 3.0 [cit. 5. května 2008]. Dostupné z www: . Page, R. D. M., & Holmes, E. 1998. Molecular evolution. A phylogenetic approach. Blackwell, Oxford. Paupy, C., Orsoni, A., Mousson, L. & Huber, K. 2004. Comparisons of Amplified Fragment Length Polymorphism (AFLP), Microsatellite, and Isoenzyme Markers: Population

56 Genetics of Aedes aegypti (Diptera: Culicidae) from Phnom Penh (Cambodia). J. Med. Entomol. 41 (4): 664-671. Pawlowski, J., Szadziewski, R., Kmieciak, D., Fahrni, J. & Bittar, G. 1996. Phylogeny of infraorder Culicomorpha (Diptera: ) based on 28S RNA gene sequences. Syst. Entomol. 21: 167-178. Post, R. J., Flook, P. K. & Millest, A. L. 1993. Methods for the Preservation of Insects for DNA Studies. Biochem. Syst. Ecol. 21 (1): 85-92. Randi, E. 2000. Mitochondrial DNA, pp. 136-167. In: Baker, A. J. (ed). Molecular methods in ecology. Blackwell, Oxford. Ratcliffe, S. T., Webb, D. W., Weinzievr, R. A. & Robertson, H. M. 2003. PCR-RFLP identification of Diptera (Calliphoridae, Muscidae and Sarcophagidae): a generally applicable method. J. Forensic. Sci. 48(4): 783-785. Remsen, J. & O´Grady, P. 2002. Phylogeny of Drosophilinae (Diptera: Drosophilidae), with comments on combined analysis and character support. Mol. Phylogenet. Evol. 24: 249-264. Ronquist, F. & Huelsenbeck, J. P. 2003. MRBAYES 3: Bayesian phylogenetic inference under mixed models. Bioinformatics 19: 1572-1574. Sallum, M. A. M., Schultz, T. R., Foster, P. G., Aronstein, K., Wirtz, R. A. & Wilkerson, R. C. 2002. Phylogeny of Anophelinae (Diptera: Culicidae) based on nuclear ribosomal and mitochondrial DNA sequences. Syst. Entomol. 27: 361-382. Savage, J., Wheeler, T. A. & Wiegmann, B. M. 2004. Phylogeentic analysis of the genus Thricops Rondani (Diptera, Muscidae) based on molecular and morphological characters. Syst. Entomol. 29: 395-414. Sebastiani, F., Meiswinkel, R., Gomulski, M., Guglielmino, C. R., Mellor, P. S., Malacrida, A. R. & Gasperi, G. 2001. Molecular differentiation of the Old World Culicoides imicola species complex (Diptera, Ceratopogonidae), inferred using random amplified polymorphic DNA markers. Mol. Ecol. 10: 1773-1786. Sharpe, R. G., Harbach, R. E. & Butlin, R. K. 2000. Molecular variation and phylogeny of members of the Minimus Group of Anopheles subgenus Cellia (Diptera: Culicidae). Syst. Entomol. 25: 263-272. Simon, C., Frati, F., Beckenbach, A., Crespi, B., Liu, H. & Flook, P. 1994. Evolution, weighting, and phylogenetic utility of mitochondrial gene sequences and a compilation of conserved polymerase chain reaction primers. Ann. Entomol. Soc. Am. 87: 651-701. Simmons, R. B. & Weller, S. J. 2001. Evolution and Utility of Cytochrome b in Insects. Mol. Phylogenet. Evol. 20: 196-210.

57 Skevington, J. H. & Yeates, D. K. 2000. Phylogeny of the Syrphoidea (Diptera) Inferred from mtDNA Sequences and Morphology with Particular Reference to Classification of the Pipunculidae (Diptera). Mol. Phylogenet. Evol. 16: 212-224. Smith, M. A., Wood, D., Janzen, D. H., Hallwachs, W. & Hebert, P. D. N. 2007. DNA barcodes affirm that 16 species of apparently generalist tropical parasitoid flies (Diptera, Tachinidae) are not all generalist. Proc. Natl. Acad. Sci. U.S.A. 104 (12): 4967-4972. Smith, M. A., Woodley, N. E., Janzen, D. H., Hallwachs, W. & Hebert, P. D. N. 2006. DNA barcodes reveal cryptic host-specificity within the presumed polyphagous members of a genus of parasitoid flies (Diptera: Tachinidae). Proc. Natl. Acad. Sci. U.S.A. 103 (10): 3657-3662. Solano, P., Duvallet, G., Dumas, V., Cuisance, D. & Cuny, G. 1997. Microsatellite markers for genetic population studies in Glossina palpalis (Diptera: Glossinidae). Acta Trop. 65: 175-180. Ståhls, G., Hippa, H., Rotheray, G., Muona, J. & Gilbert, F. 2003. Phylogeny of Syrphidae (Diptera) inferred from combined analysis of molecular and morphological characters. Syst. Entomol. 28: 433-450. Stireman, J. O. 2002. Phylogenetic relationships of tachinid flies in subfamily Exoristinae (Tachinidae: Diptera) based on 28S rDNA and elongation factor-1α. Syst. Entomol. 27: 409-435. Swofford, D. L. 2003. PAUP*. Phylogenetic Analysis Using Parsimony (*and Other Methods). Version 4.0 beta 10 win [CD-ROM]. Sinauer Associates, Sunderland. Tóthová, A., Bryja J., Bejdák P. & Vaňhara J. 2006: Molecular markers used in phylogenetic studies of Diptera with a methodological overview. In.: Dipterologica Bohemoslovaca, Vol. 13. Acta Univ. Carol., Biol. 50: 125-133. Townson, H., Harbach, R. E. & Callan, T. A. 1999. DNA identification of museum specimens of the Anopheles gambiae complex: an evaluation of PCR as a tool for resolving the formal of sibling species complexes. Syst. Entomol. 24: 95-100. Tschorsnig, H. P. & Richter, V. A. 1998. Family Tachinidae, pp. 691–827. In: Papp, L. & Darvas, B. (ed.). Contributions to a Manual of Palaearctic Diptera (with Special Reference to Flies of Economic Importance), Vol. 3: Higher Brachycera. Sci. Herald, Budapest. Vaňhara, J., Muráriková, N., Novotná, H., Bejdák, P. & Tóthová, A. Phylogeny reconstruction and taxonomic remarks based on molecular methods: West Palaearctic species of the genus Tachina (Diptera, Tachinidae). (in preparation)

58 Vaňhara, J., Tschorsnig, H.-P., Herting, B., Mückstein, P. & Michalková, V. 2008: Annotated host catalogue for the Tachinidae (Diptera) of the Czech Republic. Entomol. Fennica 19: xx-xx (in press). Villablanca, F. X., Roderick, G. K. & Palumbi, S. R. 1998. Invasion genetics of the Mediterranean fruit : variation in multiple nuclear introns. Mol. Ecol. 7: 547-560. Vossbrinck, C. R. & Friedman, S. 1989. A 28S ribosomal RNA phylogeny of certain cyclorrhaphous Diptera based upon a hypervariable region. Syst. Entomol. 14: 417-431. Wallman, J. F. & Adams, M. 1997. Molecular Systematics of Australian Carrion-breeding Blowflies of the Genus Calliphora (Diptera: Calliphoridae). Aust. J. Zool. 45: 337-356. Wells, J. D., Pape, T. & Sperling F. A. H. 2001. DNA-based identification and molecular systematics of forensicaly important Sarcophagidae (Diptera). J. Forensic. Sci. 46 (5): 1098-1102. Wells, J. D. & Sperling F. A. H. 1999. Molecular Phylogeny of Chrysomya albiceps and C. rufifacies (Diptera: Calliphoridae). J. Med. Entomol. 36 (3): 222-226. Wetzer, R. 2001. Hierarchical analysis of mtDNA variation and the use of mtDNA for isopod (Crustacea: Peracarida: Isopoda) systematics. Contrib. Zool. 70 (1): 23-39. Wiegmann, B. M., Tsaur, S.-C., Webb, D. W., Yeates, D. K. & Cassel, B. 2000. Monophyly and Relationships of the Tabanomorpha (Diptera: Brachycera) Based on 28S Ribosomal Gene Sequences. Ann. Entomol. Soc. Am. 93 (5): 1031-1038. Yang, Z. 1996. Among-site rate variation and its impact on phylogenetic analyses. Trends Ecol. Evol. 11: 367-372. Yeates, D. K. & Wiegmann, B. M. 1999. Congruence and Controversy: Toward a Higher-Level Phylogeny of Diptera. Annu. Rev. Entomol. 44: 397-428. Yu, D.-J., Chen, Z.-L., Zhang, R.-J. & Yin, W.-Y. 2005. Real-time qualitative PCR for the inspection and identification of Bactrocera philippinensis and the Bactrocera occipitalis (Diptera: Tephritidae) using SYBR Green assay. Raffles Bull. Zool. 53 (1): 73-78. Zhang, D.-X. & Hewitt, G. M. 1996. Nuclear integrations: challenges for mitochondrial DNA markers. Trends Ecol. Evol. 11 (6): 247-251. Zhang, D.-X., & Hewitt, G. M. 1997. Insect Mitochondrial Control Region: A Review of its Structure, Evolution and Usefulness in Evolutionary Studies. Biochem. Syst. Ecol. 25 (2): 99-120.

59