近日,国际权威学术期刊《PNAS》在线发表了由中国科学院数学与系统科学研究院和英国伦敦大学科研人员合作的关于贝叶斯模型选择的渐进行为的研究成果。研究结果表明,贝叶斯模型选择的病态渐进行为是使用贝叶斯方法进行物种进化树估计得到不合理结果的可能原因。
模型选择与假设检验是统计学中比较棘手的问题。经典统计与贝叶斯统计的处理方法不仅在哲学思想上大相径庭,应用到实际数据的分析也可能得到截然相反的结论。贝叶斯统计用模型的后验概率来进行模型比较。在所比较的模型都是错误的情况下,研究者们对后验概率的大样行为一直缺乏清晰的认识。该工作通过研究将贝叶斯模型选择问题划分为三种类型,推导证明了后验概率的渐进行为。在所关注的比较模型同等错误(以到真实模型的K-L距离衡量)时,后验概率表现出极端不理智的行为:分析随机产生的数据时,在有的数据里一个模型的后验概率接近1,在别的数据里另一个模型的后验概率接近1。
该项研究的出发点是分子分类学。贝叶斯模型选择被广泛的应用于分析分子数据以进行系统发育树的估计。之前的研究中曾多次观察到使用贝叶斯模型选择的方法估计进化树估计时,不管进化树是否正确,其支持率(后验概率)总是100%。这项工作的研究成果为这一现象提供了一个解释。贝叶斯模型选择广泛应用于科学的各个领域。该项研究成果对这些应用的哲学意义还有待进一步研究。
论文作者英国伦敦大学教授、中国科学院数学与系统科学研究院海外领袖科学家杨子恒教授,中国科学院数学与系统科学研究院朱天琪博士分别受到英国生物技术与生物科学研究基金会和自然科学基金委、中国科学院青年创新促进会的基金支持。
原文链接:http://www.pnas.org/content/early/2018/02/02/1712673115
贝叶斯模型选择问题的分类
附件下载: