如何使用MegAlignPro为您的数据创建最佳系统发育树

布莱恩·沃尔什博士在威斯康星大学开始了他的讲师生涯。布莱恩于2016年加入DNASTAR,在客户支持、技术支持和软件开发方面工作了3年,并在MegAlignPro应用程序中担任了4年的科学主管。

布莱恩·沃尔什博士

导言

在我作为系统发育学家的早期职业生涯中,我使用我们实验室可用的任何软件。最初几年,这很好。但是随着我的项目发展到包括数百个样本,软件变得越来越笨重和反应迟钝。此外,我需要使用8个以上经常preposterously-complex的应用程序,从序列数据到出版物就绪的系统发育树。

这些经历激发了我对MegAlignPro的愿景,它是一款易于使用的应用程序,适合任何有兴趣构建系统发育树和探索生物之间进化关系的研究人员。MegAlignPro的图形丰富的界面允许您加载各种分类群(序列),执行多序列比对,然后构建出版质量的系统发育树;通常从头到尾只需几分钟。并且都在一个应用程序中完成。

在这篇文章的第一部分,我将描述如何使用MegAlignPro创建系统发育树。虽然MegAlignPro非常易于使用,但在计算最准确的系统发育树时,幕后涉及复杂的计算算法和参数。这些计算决定了哪些类群被放置在特定的分支中以及树枝的长度和位置。

在B部分中,我将向您展示如何使用不同的算法和设置来比较树的不同版本。在C部分中,我将描述表明序列数据存在一些问题的症状,以及如何解决这些问题。

A部分:在MegAlignPro中构建系统发育树

在MegAlignPro中创建和查看系统发育树只需要四个步骤。

第1步:添加序列

启动MegAlign Pro并使用添加序列到项目工具(带有“ACG”的绿色加号)添加MegAlign Pro两个或多个相关分类群(序列)。序列必须都是相同类型的:脱氧核糖核酸、核糖核酸或蛋白质。

第2步:选择多种对齐方法并执行对齐

指定多重对齐方法,通过按下对齐工具(带白色三角形的绿色按钮)并选择所需的方法开始对齐;或使用对齐>(Re)使用对齐(方法名称)菜单命令。方法选择包括Clustal OmegaClustalWMAFFTMUSCLE;如果加载核苷酸序列,还提供淡紫色作为选项。

要为您的数据集获得最准确的树,请参考我们最近的博客文章,两种方法来找到您数据的最佳MegAlignPro多序列对齐方法

第3步:构建树

对齐完成后,单击选项卡。按下所需树计算算法的按钮:邻居连接:BIONJ,最大似然:RAxML,或最大似然:RAxML-NG

构建系统发育树时应该选择哪种方法?

邻居连接:BIONJ用于少于4个序列的项目,这是使用RAxML方法所需的最低数量。

最大可能性RAxML可用于不同的数据集,包含许多分类群和/或非常长的序列,或者如果您需要输入支持(无融资创业)值。

最大可能性RAxML-NG与其前身RAxML相似,但速度更快,容量更大。这种下一代算法可用于任何具有足够序列的数据集,但对基因同源比对特别有用,因为它支持创建非常大的树。

第四步:查看树和距离表

在树视图中,注意每个分支上的数字:这些是距离值。(如果没有看到分支上的数字,请使用样式面板树部分中的分支标签菜单选择距离。)距离是每个站点(基数)的预期替换数,表示两个样本之间的相关程度。

要查看可自定义的距离表,您可以在其中检查最大似然系统发育以及其他值,请单击距离选项卡。使用样式面板的距离部分来指定您希望在距离表的右上角左下角看到哪两种类型的数据(例如,距离、同一性百分比、相似百分比、差距百分比、序列长度等)。

B部分:使用不同的算法或设置重新计算树

大多数时候,我发现“默认”的MegAlignPro树反映了我项目中分类群之间的预期关系。然而,这并不意味着我不想尝试不同的设置来看看它们如何影响那棵树。幸运的是,对于我们这些好奇的人来说,MegAlignPro可以非常容易地更改设置和重新计算树,只要我们愿意。

在描述重新计算树的方法之前,我想提到一个非常简单的方法来并排保存和比较树的所有版本:拍摄快照工具,位于Tree视图的右上角(见图)。

每次更改用于计算树的参数时,MegAlign Pro都会自动更新树,并在树标题中包含当前设置列表。要保留每棵树的副本以及用于计算它的设置,请使用拍摄快照工具。

现在对于自定义选项:

选项1:从序列中修剪“粗糙的末端”

与其他序列相比,你有一个序列在3’和/或5’端突出吗?如果是这样,你可以修剪掉它粗糙的末端,以获得更准确的对齐和树。

选项2:选择不同的多重对齐方法

要选择不同的对齐方法,请使用对齐工具(带白色箭头的绿色按钮)或相应的对齐>重新对齐使用(方法名称)菜单命令。这将导致从头开始进行新的对齐。

选项3:更改距离度量和/或间隙处理方法

在多重对齐期间,使用选择距离参数对话框和间隙处理中指定的指标计算距离。可以访问此对话框,并随时使用距离>参数选择新选项。

-指标的选择是未校正成对距离或Tamura-Nei(1993)。在大多数情况下,这两个指标产生的结果基本相同。但是,仍然值得更改以了解它如何影响您的树。

-间隙处理的选择是全局间隙消除或成对间隙消除。选择全局间隙消除会破坏对齐的准确性,并留下很少的数据来构建准确的树。除非您有特别的理由选择它,否则我们强烈建议选择成对间隙消除。

选项4:更改树构建算法和/或参数

如本文第一部分所述,MegAlignPro中有三种树构建算法。要使用不同的算法或具有不同设置的相同算法重建树,请选择树>使用计算系统发育>(方法名称)。

C部分:发现序列数据的问题

你的一棵树看起来……“奇怪”吗?在绝大多数情况下,古怪的树是序列数据问题的结果,而不是用于计算树的算法或参数的结果。

此表显示了与序列数据相关的问题的一些症状、原因和解决方案,但没有特别的顺序。

症状

Tree视图中的分支似乎不正确(例如,哺乳动物出现在鱼分支中)。

Tree视图中的分支比任何其他分支都长得多(例如,长20倍)。

距离表中的%Identity值在50%以上,表明序列之间的进化关系本质上是随机的。

可能的原因

一个序列被错误标记或与其他序列无关或与其他序列高度不同。

排列包含相反方向的序列。

可能的解决方案

删除不相关或高度分歧的序列并重新组装剩余的序列。

反向补充需要它的序列并执行新的多序列组装。

滚动至顶部