Základy fylogenetické analýzy

Page 1

Macholรกn160x230_modrรก ok.indd 1

7.8.2014 11:40:58


KATALOGIZACE V KNIZE – NÁRODNÍ KNIHOVNA ČR Macholán, Miloš Základy fylogenetické analýzy / Miloš Macholán. – Vyd. 1. – Brno : Masarykova univerzita, 2014. – 289 s. Anglické resumé ISBN 978-80-210-6363-1 575.86 * 543.06 – fylogeneze – analytické metody – přehledy 575 - Obecná genetika. Obecná cytogenetika. Evoluce [2] Citace MACHOLÁN, Miloš. Základy fylogenetické analýzy. Brno: Masarykova univerzita, 2014, 289 s. ISBN 978-80-210-6363-1. DOI: 10.5817/CZ.MUNI.M210-6363-2014

Knihu recenzoval prof. RNDr. Karol Marhold, CSc.

© 2014 Miloš Macholán © 2014 Masarykova univerzita ISBN 987-80-210-6363-1 DOI: 10.5817/CZ.MUNI.M210-6363-2014


2. Maximální úspornost (Maximum Parsimony, MP)

Ze všech metod konstrukce fylogenetických stromů byly donedávna nejpoužívanější metody maximální úspornosti (parsimonie). Důvodem pro jejich mimořádnou oblibu bylo kromě relativní jednoduchosti a výpočetní rychlosti především to, že základní princip parsimonie – preferování jednodušších hypotéz před složitějšími – je většině z nás důvěrně známý. Vychází z myšlenky anglického filozofa přelomu 13. a 14. století Williama z Ockhamu, že „entity nemají být zmnožovány víc než je nutné“, jinými slovy že nejjednodušší vysvětlení je nejlepší (tento princip je znám jako Ockhamova břitva). Jednoduchostí se v tomto případě rozumí minimální počet evolučních kroků; sdílení společných stavů znaků je vysvětlováno společným původem, naopak jakékoli sdílení společného stavu znaku, které nelze vysvětlit zděděním po společném předkovi, je označováno jako důsledek homoplazie (analogie, homoplasy). Princip úspornosti si můžeme ilustrovat na následujícím triviálním příkladu. Předpokládejme fylogenii pěti taxonů s topologií jako na obr. 2.1, která byla konstruována na základě série binárních znaků, u kterých je stejná pravděpodobnost změn 0 → 1 i 1 → 0. Stavy tří z těchto znaků pro jednotlivé taxony jsou následující: Taxon Znaky I II III A 1 0 1 B 0 0 1 C 1 0 0 D 0 1 0 E 1 0 1 a)

b)

c)

Obr. 2.1 Tři nejúspornější kladogramy pro pět taxonů, z nichž každý je založen na jednom znaku (stavy těchto znaků jsou uvedeny v textu). Strom a) a c) předpokládá dvě změny (1 → 0), strom b) jednu změnu (0 → 1); pro všechny tři znaky by tedy fylogenie zahrnovala minimálně pět různých změn. 45


2. MAXIMÁLNÍ ÚSPORNOST (MAXIMUM PARSIMONY, MP)

Stromy na obr. 2.1a–c ukazují nejúspornější rozložení stavů pro znaky I–III, ke kterému můžeme dospět „od oka“ inspekcí uvedené tabulky. Vidíme, že pro znak 1 strom vyžaduje minimálně dvě změny, pro znak II pouze jednu změnu a pro znak III opět dvě změny. Pro všechny tři znaky tedy strom vyžaduje nejméně pět změn. Minimální počet je však tři, každá pro jeden znak, takže zde máme dvě změny navíc. Tyto nadbytečné změny, kdy jeden stav znaku vzniká vícekrát, jsou vysvětleny ad hoc homoplazií. Princip parsimonie proto můžeme chápat i jako snahu minimalizovat počet těchto analogických stavů.

POSTUP METODY V praxi je ovšem odhad počtu změn podél fylogenetického stromu poměrně složitější a vyžaduje určitý algoritmus. Přestože původně byla metoda maximální úspornosti vyvinuta pro morfologické znaky (Hennig 1966), v následujícím textu vyjdeme ze sekvence DNA. Postup metody maximální úspornosti si můžeme ilustrovat na tzv. Fitchově algoritmu (Fitch 1971), který předpokládá stejnou pravděpodobnost změn v jednom i druhém směru (např. Pr[A → T] = Pr[T → A]) a přímou změnu stavu v kterýkoli jiný. Předpokládejme strom bez kořene se šesti taxony, znázorněný na obr. 2.2a a rekonstruovaný na základě jednoho znaku (tj. jednoho nukleotidového místa) j s následujícími stavy:

1=C 2=T 3=T 4=T 5=A 6=A

Stanovení minimálního počtu kroků Nejprve stanovíme minimální počet substitucí podél dané topologie. Zpravidla je výhodné arbitrárně stanovit kořen stromu: v našem případě je kořenem uzel 6 (obr. 2.2b). Začneme v jednom z vrcholů (např. 1) a postupujeme k vnitřnímu uzlu w, který tento vrchol spojuje s nejbližším vrcholem 2. Jestliže vycházíme z předpokladu minimálního počtu substitucí, uzlu w připíšeme „C, nebo T“. Obdobně v uzlu x musí být stav T, protože oba terminální uzly, které vnitřní uzel x spojuje, mají na místě j thymin; další vnitřní uzel y má stav „A, nebo T“. Porovnáme-li uzly w (C, nebo T) a y (A, nebo T), nejúspornějším stavem pro uzel z je T. Jakmile algoritmus dosáhne kořene stromu, pokračuje odsud zpět k vrcholům. Protože uzel z neobsahuje stav charakterizující jeho předka (uzel 6), bude přiřazení jeho stavu arbitrární. Předpokládejme, že tomuto uzlu připíšeme adenin, takže přechod 6 → z potom nevyžaduje žádnou substituci (obr. 2.2c). Uzlu y připíšeme A, protože ten je přítomen již v uzlu z. V uzlu x ponecháme T (substituce A → T) a uzlu w připíšeme – opět arbitrárně – stav T (substituce A → T). Přechod z uzlu w k terminálnímu uzlu 1 vyžaduje další změnu (substituce T → C). Celkový počet substitucí nezbytných k vysvětlení daného stromu je 3. Jestliže uzlu z připíšeme stav T, bude výsledný počet změn opět 3 (obr. 2.2d). Celkem jsou možné čtyři stejně úsporné stromy (zbývající dva stromy jsou ukázány na obr. 2.2e–f). 46


Postup metody

a)

b)

c)

d)

e)

f)

Obr. 2.2 Postup metody maximální úspornosti pro neseřazená data (Fitchova parsimonie). Na obr. a) je na základě stavů jednoho znaku (bází na jedné nukleotidové pozici) vytvořena jedna z možných topologií bez kořene, která je převedena na strom s kořenem (b) arbitrárním stanovením kořene v jednom z terminálních uzlů (6). Jednotlivým terminálním uzlům jsou přiřazeny příslušné zjištěné báze, zatímco stavy na interních uzlech jsou odhadovány jako nejúspornější průsečík stavů nad nimi. Při cestě od kořene vzhůru dostáváme dva alternativní, stejně úsporné stromy podle toho, jakou bázi předpokládáme ve vnitřním uzlu z. Jestliže je tomuto uzlu přiřazen thymin (d), uzly w a y budou při kritériu úspornosti obsahovat stejnou bázi; naopak pokud si uzel z zachová adenin, dostaneme tři možné stromy. Všechny čtyři stromy jsou stejně úsporné, s délkou čtyři kroky.

47


2. MAXIMÁLNÍ ÚSPORNOST (MAXIMUM PARSIMONY, MP)

Ve výše uvedeném příkladu jsme uvažovali pouze jednu topologii. Ve skutečnosti musíme uvažovat všech 105 potenciálních topologií a identifikovat tu, která vyžaduje nejmenší počet kroků. Tímto způsobem můžeme vypočítat sumu minimálních počtů substitucí pro všechny potenciální topologie a pro všechna nukleotidová místa. Tato suma se nazývá délka stromu. Maximálně úsporný strom je potom topologie, která má nejmenší délku. Často se stává, že existuje několik odlišných topologií se stejnou délkou. V praxi jsou pro vyhledání optimálního stromu (stromů) používány sofistikované algoritmy. Zde je nutno rozlišovat mezi kritériem optimálnosti a konkrétním algoritmem – zatímco algoritmy jsou neustále zdokonalovány, kritéria zůstávají stejná.

Informativní a neinformativní znaky a problém analogie Při hledání maximálně úsporných (MP) stromů nejsou všechny znaky stejně důležité. Zůstaneme-li u příkladu sekvence DNA, potom invariabilní místa, tj. pozice, které obsahují stejný nukleotid u všech zkoumaných taxonů, jsou z analýzy vyloučena. Ovšem ani všechna variabilní místa nejsou z hlediska konstrukce MP stromu stejně informativní. Jedním z příkladů neinformativního variabilního znaku je místo, které obsahuje odlišný nukleotid pouze u jedné sekvence, zatímco všechny ostatní sekvence jsou v tomto místě stejné – tyto stavy se nazývají výlučně odvozené neboli autapomorfní. Aby bylo nukleotidové místo informativní, musí obsahovat alespoň dva různé nukleotidy, z nichž každý se vyskytuje alespoň u dvou sekvencí. Pro úplnost je nutno dodat, že pro některé jiné metody fylogenetické analýzy (např. maximální věrohodnost, bayesovskou analýzu) jsou důležitá i invaria­bilní místa. Rovněž některé MP algoritmy používají pro výpočet délky stromů i variabilní místa, která jsou z hlediska hledání maximálně úsporného stromu neinformativní. Protože maximálně úsporný strom můžeme spolehlivě konstruovat pouze na základě fylogeneticky informativních znaků, musí být MP analýza založena na velkém celkovém počtu míst. Jestliže však data obsahují velký počet homoplazií, nemusí být výsledek spolehlivý ani při velmi velkém množství znaků. Pro odhad rozsahu homoplazie bylo navrženo několik indexů. Nejstarší a nejznámější je index konzistence (consistency index, CI), navržený Klugem a Farrisem (1969). Tento poměrně jednoduchý index je pro jedno nukleotidové místo vyjádřen jako podíl ci = mi/si, kde mi je minimální počet potenciálně možných evolučních kroků (substitucí) na i-té pozici a si je minimální počet substitucí nutných k vysvětlení daného stromu. Minimální možný počet substitucí mi je dán počtem různých typů nukleotidů na i-tém místě minus 1. Například pro strom na obr. 2.2c je index konzistence roven 2/3, protože mi je 2 (3 nukleotidy minus 1) a si je rovno 3 (tj. 3 substituce). Nízký rozsah homoplazie v datech se odráží ve vysokých hodnotách indexu konzistence. Maximální hodnota CI je 1, spodní hranice však není 0 a navíc index kolísá s topologií. Proto Farris (1989) navrhl další dva ukazatele, retenční index a přeškálovaný index konzistence. Retenční index (retention index, RI) lze považovat za míru stupně synapomorfie v datech (Kitching et al. 1998; Klingenberg a Gidaszewski 2010). Pro jedno nukleotidové místo je roven ri=

48

g i− si , g i− mi

(2.1)


Postup metody

kde gi je maximální možný počet substitucí na i-tém místě pro jakýkoli myslitelný strom. Ten je roven počtu substitucí nezbytných pro hvězdicovou topologii, ve které je nejfrekventovanější nukleotid umístěn doprostřed. Veličina gi vyjadřuje, kolik kroků by bylo nutno k vysvětlení evoluce analyzovaných dat za nejhorších možných podmínek. Retenční index nabývá nulové hodnoty, když gi = si, a maximálně dosahuje 1. V případě obr. 2.2 by ve středu hvězdicového stromu bylo T; gi by pak bylo rovno 3 (3 substituce: 2 × T→A, 1 × T→C), si = 3, mi = 2 a ri = (3 – 3)(3 – 2) = 0. Přeškálovaný index konzistence (rescaled consistency index, RC) je dán součinem CI a RI, pro i-té nukleotidové místo tedy platí rc i =

gi −s i mi . gi − m i si

(2.2)

Všechny výše jmenované indexy lze vypočítat také pro všechna informativní místa. Hovoříme potom o složeném neboli celkovém indexu konzistence (CI), celkovém retenčním indexu (RI) a celkovém přeškálovaném indexu konzistence (RC). Tyto indexy se vypočítají sumací jednotlivých proměnných přes všechna informativní nukleotidová místa: CI =

∑ i mi ∑ i g i− ∑ i s i , RI= , RC= CI × RI. ∑i s i ∑ i g i− ∑ i m i

(2.3–2.5)

Tyto indexy můžeme počítat pouze pro informativní místa, protože pro neinformativní místa nelze ri a rci definovat. CI, RI a RC jsou často používány systematiky jako míra přesnosti získané topologie MP stromu. V systematice se někdy index konzistence nahrazuje indexem homoplazie (homoplasy index, HI), který je dán jako HI = 1 – CI, tj. při nulové homoplazii CI = 1 a HI = 0. Některé programy poskytují i další indexy, které informují o charakteru dat a rozložení homoplazie mezi znaky a částmi MP stromu. Jedním z nich je průměrná jednotková konzistence znaku (average unit character consistency, AUCC): AUCC =

N

∑ i = 1 ci , N

(2.6)

kde ci je jednotková konzistence znaku (Kluge a Farris 1969). AUCC je maximální tehdy, když je homoplazie rozložena krajně asymetricky, tj. když se všechny analogické stavy vyskytují u jediného znaku. Minimální hodnota AUCC je rovna CI, maximální je rovna 1. Poměr rozložení homoplazie (homoplasy distribution ratio, HDR) je vyjádřen jako index rozložení homoplazie (HDI) vydělený indexem homoplazie (HI), kde HDI = = AUCC – CI (Sang 1995). Protože při výskytu jakékoli homoplazie je AUCC menší než 1, AUCC – CI musí být menší než HI (1–CI, viz výše) a HDR spadá do intervalu (0,1). Kromě měření rozsahu homoplazie a její distribuce může podle Sanga (1995) být tento index poměrně přesným ukazatelem spolehlivosti MP stromu. To znamená, že i když je index konzistence nízký, kladogram může stále být spolehlivý, protože homoplazie je omezena jen na několik kladisticky nespolehlivých znaků. 49


2. MAXIMÁLNÍ ÚSPORNOST (MAXIMUM PARSIMONY, MP)

Index kompatibilních stavů znaku (compatible character state index, CCSI) je vypočten jako poměr počtu kompatibilních stavů znaku, tj. stavů, které jsou v souladu s MP stromem, a celkového počtu stavů (včetně neinformativních stavů i autapomorfií, které jsou vždy konzistentní a proto inflatují CCSI). Stejně jako v předchozím případě se hodnoty CCSI pohybují v rozmezí 0 (hvězdicový strom) až 1 (všechny stavy konzistentní).

Odhad délek větví a optimalizace stromu Jakožto metody typické pro kladistickou analýzu jsou MP stromy zpravidla konstruovány bez stanovení délek větví. Za určitých podmínek však můžeme délky odhadnout. Odhad délek větví MP stromu se provádí tak, že uvažujeme všechny evoluční dráhy na každém variabilním místě a vypočteme průměrný počet substitucí pro jednotlivé vnitřní i vnější větve. Vraťme se k topologii na obr. 2.2. Na základě nukleotidů zjištěných u šesti zkoumaných taxonů byly odvozeny čtyři stejně úsporné stromy dlouhé tři kroky (obr. 2.2c–f). Například evoluční dráha stromu na obr. 2.2c vyžaduje jednu substituci podél větve 1 – w, jednu podél w – z a jednu podél větve x – y. Podobně bychom mohli přiřadit substituce jednotlivým větvím i pro ostatní topologie a vypočítat jejich průměrnou délku. Tyto délky jsou pro jednotlivé větve: 1 – w = 3/4, 2 – w = 2/4, 3 – x = 0, 4 – x = 0, 5 – y = 1/4, x – y = 3/4, w – z = 2/4, y – z = 0 a 6 – z = 1/4. Podobně můžeme získat celkové délky sečtením substitucí podél každé z větví. Tato metoda se označuje jako metoda průměrné dráhy. Délky větví můžeme odhadnout i pomocí dvou algoritmů. První z nich, ACCTRAN (ACCelerated TRANsformation), předpokládá, že k evolučním změnám dochází co nejdříve od společného kořene, kdežto druhý, DELTRAN (DELayed TRANsformation) naopak upřednostňuje změny pozdější (Swofford a Maddison 1987). Například jestliže u stromu na obr. 2.2 budeme taxon 6 považovat za společný kořen a nukleotid A tedy za ancestrální, ACCTRAN bude považovat za pravděpodobnější změnu A → T mezi uzly 6 a z a potom uvažovat minimální počet substitucí, tzn. uzlům w, x, y přiřadí také T (obr. 2.2d). Naproti tomu v algoritmu DELTRAN jsou všechny změny maximálně zpožděny, proto přiřadí uzlům w, x, y a z nukleotidy A, T, A a A (obr. 2.2f). To znamená, že přiřazení nukleotidů jednotlivým ancestrálním uzlům se mezi oběma metodami liší a odhady délek větví budou tím pádem také rozdílné. Jsou-li však zkoumané sekvence podobné, není rozdíl mezi oběma metodami tak markantní, jak by se mohlo z uvedeného příkladu zdát. Obecně platí, že délky větví získané metodami maximální úspornosti mají tendenci být nižší než skutečné délky, zejména pokud je divergence mezi sekvencemi vysoká.

50


Vědecká redakce MU prof. PhDr. Ladislav Rabušic, CSc. Ing. Radmila Droběnová, Ph.D. Mgr. Michaela Hanousková doc. Mgr. Jana Horáková, Ph.D. doc. JUDr. Josef Kotásek, Ph.D. Mgr. et Mgr. Oldřich Krpec, Ph.D. prof. PhDr. Petr Macek, CSc. PhDr. Alena Mizerová doc. Ing. Petr Pirožek, Ph.D. doc. RNDr. Lubomír Popelínský, Ph.D. Mgr. David Povolný Mgr. Kateřina Sedláčková, Ph.D. prof. RNDr. David Trunec, CSc. prof. MUDr. Anna Vašků, CSc. prof. PhDr. Marie Vítková, CSc. Mgr. Iva Zlatušková doc. Mgr. Martin Zvonař, Ph.D.

Základy fylogenetické analýzy prof. RNDr. Miloš Macholán, CSc. Redakce Lenka Brodecká Sazba a grafická úprava Hana Baláťová, studio Donato Obálka Jaroslava Marvanová Tisk Reprocentrum, a. s., Blansko Vydala Masarykova univerzita v Brně roku 2014 Vydání první ISBN 978-80-210-6363-1 DOI: 10.5817/CZ.MUNI.M210-6363-2014 www.munipress.muni.cz


Macholรกn160x230_modrรก ok.indd 1

7.8.2014 11:40:58


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.