Bootstrap方法由Felsenstein于1985年引入系统发生学,是最常用的评估系统发育树可信度的非贝叶斯方法。我们将系统发育重建看做统计学中的模型选择问题,而非给定模型下的参数估计问题,每个可能的系统树对应一个非嵌套的备择模型。在这样的视角下,使用bootstrap方法进行模型选择的渐近理论的研究有重要价值。另一方面,在实际数据分析中,研究者发现在分析大规模基因组数据时无论估计的系统树或者分支正确与否,bootstrap支持率都会偏高,引起这一现象的原因并不明确。
我们首次系统性的研究了不同情况下bootstrap模型选择方法的渐近行为。研究结果表明,在最受关注的比较模型错误程度相同的情况下,当数据量很大时,模型的bootstrap支持率收敛到非退化分布,不会呈现出贝叶斯模型选择方法那样的病态的极端结果。研究者们通常倾向于认为bootstrap支持率比贝叶斯后验概率更加保守,我们的研究结果与经验观察相符,也为这一现象提供了理论解释。但是,当比较模型错误程度相同且数据量很大时,模型的bootstrap支持率在不同数据集之间呈现出较大的波动,而非收敛到一个常数。因此,在分析大规模数据时,也可能会对错误的系统树或进化模型有较强烈支持。我们的分析结果为实际数据分析中观察到的错误分支获得较高bootstrap支持率这一现象提供了部分解释。
这项工作发表在生物系统学旗舰期刊Systematic Biology上,与北京交通大学、英国伦敦大学合作完成。中科院数学与系统科学研究院朱天琪博士和海外领袖科学家杨子恒教授均为通讯作者。
Jun, H., Yuting, L.*, Tianqi, Z. *, & Ziheng, Y*, 2021, The asymptotic behavior of bootstrap support values in molecular phylogenetics.Systematic Biology, 70(4):774–785.
附件下载: