科研进展

(李雷)Alu是从猿到人调控模块发生相变的重要遗传驱动力

发布时间:2020-07-08

  我们思考人类的一个终极问题:我们人类是谁?我们从哪儿来?我们到哪儿去?这一问题的前两部分更加根本,一个有客观数据支持的、理性的答案会深刻地影响到人类对自身的认识,并进而影响到人类的社会、教育、和发展。 

  客观回答上述终极问题的一个视角是比较物种的基因组。基于DNA序列的系统发生学研究表明,在地球上现有生物中,黑猩猩是我们最近的亲属。比较人类基因组和黑猩猩基因组(2005年版本),在全部可比对的DNA序列中,差异只有1.23%King and Wilson博士认为巨大性状差异的解释因子应该位于占人类基因组98.5%的非编码序列中,进化和适应是在调控层面上实现的。这个假设最早是做为第一性原则提出的。几十年以来,它得到了大量的但却是孤立的例子支持。目前,还缺乏简明的量化数学模型和工具来系统地刻画这个结论。 

  我们从基因近端调控序列順式元件频数(Cis-regulatory element frequencies)的矩阵出发,提出了CREF双重特征模块和极化特征向量的概念,并比较了人、黑猩猩、红猩猩的CREF双重特征模块。 

  研究发现,在第1,2,3,6容级,调控模块都是保守的。如图1(A)所示,比较人类与黑猩猩前6对调控元件特征向量的散点图,前3对和第6对高度相关(Pearson相关系数> 0.99),表明这四个模块是保守的。相反,第4对和第5对之间的相关性较低,表明在这两个模块中发生了分化。如图1(B)所示,从猿到人,在第4和第5元件特征向量之间发生旋转。也就是说,在第4和第5个元件特征向量张成的二维特征子空间中,人类的两个特征方向相对于黑猩猩的特征方向旋转了大约28°。图1(C)展示了人类的前6个奇异值的样本分布(从右到左,由密度函数表示),样本分布是从包含80%的順式元件的100个随机子矩阵中获得的。前3个奇异值的样本分布与相邻奇异值的样本分布是完全分开的,而第4个和第5个奇异值的样本分布有很大一部分重叠,这表明历史上可能存在融合事件,即出现了二维退化特征空间。 

 

  1. 人类与黑猩猩前6对调控元件特征向量的变化比较。 

  我们也可以从基因特征向量评估CREF特征模块的保守性。在某个调控容量级别上,如果一个基因子集在人和黑猩猩中均显着富集,则该富集是保守的。我们使用人类和黑猩猩共享的基因子集的比例来评估一个CREF特征模块富集结果的总体保守性。比较人类、黑猩猩、红猩猩可以发现,在前三个极化基因特征向量的两个极点附近富集的主要生物过程和功能是高度保守的。如图2(B)所示,它们构成了人科物种的关键生命过程。大致而言,第1容级模块主要调控生殖、胚胎早期发育,第2容级模块主要调控器官发育和免疫,第3容级模块主要调控细胞增殖和细胞之间交流和对环境的反应。 

 

  2.A)在人类和黑猩猩的前6个极化基因特征向量的两极,基因富集的生物过程。 

  用不同颜色标记的每个框的两端,对应一个极化基因特征向量的两极。从上到下,6个极化基因特征向量按照奇异值的降序排列。前3个和第6个基因特征向量的富集结果保守,因此仅显示了人类的结果。人类和黑猩猩在第4和第5特征向量之间出现显着差异。突触可塑性的调控、社交行为、耳蜗发育、视觉学习和长期记忆的GO类别在人的第4个基因特征向量的两极得到了显著富集,而一个重要发现是在第45容级之间,调控模块发生了相变。这在数学上对应着相等特征值带来的特征空间退化现象。这一相变产生了人类特有的第4容级模块,如图2所示,它调控长期记忆、以耳蜗发育为核心的语言功能,以视觉为基础的认知学习功能、社交行为、以及副交感神经系统。 

 

   

 

  3. 上图:比较黑猩猩和人,在每个极化元件特征向量两极的MPAALU携带的順式调控元件)个数的相对百分比变化。下图: 在人类第4容级的顺式调控模块中,SP1是一个新增的MPA,它与若干重要的调控认知的因子有交互作用。 

  通过本课题组原创的双重特征分析方法,我们发现推动这一基因组相变的重要驱动力之一是与ALU转座子相关的变异。ALU携带的順式调控元件(MPA)是认识这个现象的重要线索。在图3中,我们比较黑猩猩和人在每个极化元件特征向量两极的MPA个数的相对百分比变化。MPA数量在人类的第4级增加最为明显,增加了27.9%。 

  人类特有的转座子插入约占基因组的4.7%。我们报道了47个人类特有的插入在近端调控区域的Alu转座子。这些调控区域对应的基因大都与长期记忆、认知、语言、学习、外观形态有关。 

  我们认为,上述发现给出了终极问题的部分答案。这个工作发表在Molecular Biology and Evolution2020 Jun 1;37(6):1679-1693. doi:10.1093/molbev/msaa036。研究获得了以下基金资助:中国科学院国家数学与交叉科学中心基金;中国科学院战略性先导科技专项基金(B类(XDB13040600);中国科学院系统控制重点实验室基金;国家自然科学基金(1187146291530105)。 

附件下载