(付岩)蛋白质组大数据分析算法
如果说基因是生命的遗传密码,那么蛋白质就是生命功能的具体执行者,其状态变化直接决定着生物体生老病死的生命过程。例如,主流观点认为阿尔茨海默病(老年痴呆症)与大脑内类淀粉样蛋白质堆积以及 Tau蛋白质过度磷酸化修饰高度相关。与基因组相对应,蛋白质组是指一个细胞、组织、器官或者物种中在特定时刻或条件下表达的所有蛋白质。监测和分析蛋白质组的变化,对于疾病的早期诊断、预防和治疗都有重要价值。近年来快速发展的生物质谱技术因其高通量、高分辨率特性,成为蛋白质组研究的主流分析技术。目前,一次常规的蛋白质组实验就能产生数以百万计的质谱数据。这些海量质谱实验数据一方面为蛋白质组学提供了前所未有的研究机遇,另一方面在数据处理和分析上也充满了困难和挑战。计算和统计蛋白质组学作为一个新兴的交叉研究方向,旨在为蛋白质组研究提供高效准确的数据分析算法,为解决相关生物和医学问题提供可靠的数学模型和计算工具。在这一方向上,我们已对蛋白质鉴定、蛋白质定量、蛋白质修饰发现、以及统计显著性评估等问题做了十多年系统性的研究。2019年我们取得了以下进展。
(1)蛋白质组复杂性的一个表现是蛋白质序列上大量存在的翻译后修饰,发生修饰的蛋白质,其理化性质会发生显著改变,从而实现了蛋白质功能的指数级扩增。由于蛋白质上潜在的修饰位点非常多,对修饰进行精确的定位是研究修饰对蛋白功能调控的前提。对质谱数据的开放式搜索会产生大量的候选修饰位点,其假阳性率很高。已有的修饰定位算法基于单一质谱数据,没有挖掘和利用大量质谱数据中蕴含的有用信息。我们基于经验贝叶斯思想,提出了首个面向开放式质谱数据分析的高精度修饰定位概率算法PTMiner,该算法通过一个迭代过程自动地从大规模质谱数据中学习修饰先验概率,更精确地估计修饰位点的后验概率。我们将PTMiner用于人类蛋白质组草图海量数据(两千多万个质谱图)的修饰分析,在1%假阳性率下可靠测定了一百多万个修饰,系统全面地刻画了人类蛋白质组中的已知和未知修饰。
(2)在自底向上蛋白质组学中,蛋白质首先被酶解成肽(较短的氨基酸序列),后者再被质谱仪检测分析。但是,质谱检测具有较大的随机性,表现在:有些肽能被检测到,有些肽检测不到。这种随机性给蛋白质组实验设计带来了很大困难。我们首次提出了融合肽酶切概率的肽可检测性预测策略,基于随机森林机器学习方法开发了肽可检测性预测算法AP3。该算法首先根据酶切位点周边的氨基酸序列预测酶切位点概率,进而计算肽的酶切概率,然后联合其它587种肽序列和物化属性预测肽可检测性。实验表明,肽酶切概率是最重要的肽可检测性预测特征,与已有最好的算法相比,AP3的特征肽预测精度提高了10.3–34.7%。进一步我们将AP3算法用于靶向蛋白质组学中的特征肽选择实验设计,获得了很好的效果。
(3)质谱随机性的另一种表现是:相同浓度的肽的质谱信号强度往往存在很大差异。目前,蛋白质定量通常采用对肽质谱强度取平均的策略,由于肽质谱强度的测量误差非常大,这种策略只有当肽的数量很大时才有效,但是肽的数量通常较小。为了提高蛋白质定量分析的准确性,我们提出了肽质谱定量效率概念,开发了基于肽定量效率预测的蛋白质绝对定量算法LFAQ。该算法首先利用贝叶斯回归累加树模型,根据肽序列和物化属性预测肽定量效率,然后用预测的定量效率校正肽质谱强度信号,进而对蛋白质浓度进行更准确的定量。实验表明,LFAQ算法可以有效的在肽和蛋白水平上减小样本浓度和质谱强度之间的测量误差,显著提升蛋白质定量精度,尤其是对于低丰度蛋白,将定量误差减小了46%。
以上工作都是与生物领域长期合作取得的成果,发表后得到领域同行的关注和认可,并在实际研究中得到应用。PTMiner算法是与中国科学院上海药物研究所谭敏佳研究员团队合作完成的,我院博士毕业生安志武是共同第一作者,付岩副研究员和巩馥洲研究员是共同通讯作者。论文在Molecular & Cellular Proteomics期刊在线发表后,当月全文下载351次,一度是该期刊阅读量第二高的论文。近日,蛋白质组学研究重镇、美国系统生物学研究所在其最新论文中介绍了PTMiner,并与之做了比较(bioRxiv, 10.1101/679845, 2019)。AP3和LFAQ算法是与军事科学院蛋白质组学国家重点实验室贺福初院士团队合作完成的,论文发表在Analytical Chemistry期刊。我院博士毕业生高志强是共同第一作者,付岩副研究员是共同通讯作者。近日,计算蛋白质组学领域先驱、加拿大滑铁卢大学马斌教授在其最新研究中实际应用了AP3算法来预测肽段可检测性(bioRxiv, 10.1101/802231, 2019)。
工具链接:
PTMiner: http://fugroup.amss.ac.cn/software/PTMiner/PTMiner.html
AP3: http://fugroup.amss.ac.cn/software/AP3/AP3.html
LFAQ: https://lfaq.github.io/LFAQ/
论文信息:
1. Zhiwu An, Linhui Zhai, Wantao Ying, Xiaohong Qian, Fuzhou Gong, Minjia Tan and Yan Fu. PTMiner: Localization and Quality Control of Protein Modifications Detected in an Open Search and Its Application to Comprehensive Post-translational Modification Characterization in Human Proteome. Molecular & Cellular Proteomics, 18 (2) 391-405, 2019.
2. Zhiqiang Gao, Cheng Chang, Jinghan Yang, Yunping Zhu, Yan Fu. AP3: An Advanced Proteotypic Peptide Predictor for Targeted Proteomics by Incorporating Peptide Digestibility. Analytical Chemistry, 2019, 91, 8705?8711.
3. Cheng Chang, Zhiqiang Gao, Wantao Ying, Yan Fu, et al. LFAQ: towards unbiased label-free absolute protein quantification by predicting peptide quantitative factors. Analytical Chemistry, 2019, 91, 1335?1343.