快捷导航
查看: 324|回复: 0

综述:基础模型在生物信息学中的应用 || National Science Review(三)

[复制链接]

4

主题

0

回帖

16

积分

新手上路

积分
16
发表于 2025-2-2 15:43:50 | 显示全部楼层 |阅读模式
生物信息学基础模型在转录组学中的应用
基于BERT的语言模型的发展,特别是针对表现出较低保守性的RNA序列进行优化的模型,促进了重要RNA基础模型的出现,如RNA-FM和RNA-MSM。RNAFM基于自监督学习预测2D/3D结构,捕捉多种结构信息,提供了对RNA序列特征的全面理解。RNA-MSM利用来自RNAcmap的同源序列,擅长将碱基配对概率和溶剂可及性映射到2D碱基配对概率。此外,最近由生成式AI技术提出的几个RNA生成模型,如RfamGen和GenerRNA也被提出。RfamGen中,比对信息和共识二级结构数据被明确整合到深度生成模型中,以促进RNA家族序列的设计。GenerRNA是一个大规模模型,可用于RNA设计的自动化。使用预训练模型(PTMs),可以对各种RNA序列、结构和功能任务进行微调。转录组学生物信息学基础模型如表2所示。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps22.jpg
2
RNA二级结构预测
在分子生物学中,RNA二级结构预测是一项重大挑战,需要改进结构预测模型并更好地理解RNA折叠。一个Transformer模型,包括标记和位置嵌入以及预训练任务,都是RNABERT的重要组成部分。RNABERT预测二级结构、分类RNA家族并对未表征的转录本进行注释,从而阐明RNA的结构特性。通过这种方式,不仅提高了我们对RNA结构的理解,也为进一步的功能研究提供了工具。这些进展为转录组学领域带来了新的视角和技术手段,推动了从序列到功能的全面解析。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps23.jpg



RNA剪接位点预测  
真核生物依赖RNA剪接进行转录后的基因表达。通过开发名为SpliceBERT的预训练模型,研究人员在基于序列的RNA剪接建模方面取得了显著进展。除了捕捉RNA剪接动态,SpliceBERT还能够识别破坏剪接的变异体,并根据其对输出的影响进行优先排序。因此,研究人员能够深入了解影响RNA剪接的遗传变异,从而有效地识别和优先考虑潜在的重要变异。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps24.jpg
RNA修饰检测  
生物过程依赖于转录后RNA的修饰。在基因表达调控中,N7-甲基鸟苷(m7G)和2'-O-甲基化(Nm)RNA修饰代表了多种细胞过程中广泛存在的转录后修饰。利用Transformer架构和堆叠集成技术,BERT-m7G是一个精确定位m7G位点的变革性计算工具,相比劳动密集型实验方法具有优势。BERT-m7G使我们能够揭示转录后修饰,并更好地理解m7G如何影响基因表达。Bert2Ome通过直接推断2'-O-甲基化修饰位点提供了对潜在生物学机制的深刻见解。Bert2Ome使用集成的基于BERT的模型和CNN来研究修饰与RNA序列内容之间的复杂关系。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps25.jpg




生物信息学基础模型在蛋白质组学中的应用
蛋白质在构建和维持生命的关键过程中扮演着核心角色。随着该领域的进步,蛋白质研究经历了数据积累的巨大增长。蛋白质的结构决定了它们与其他分子的相互作用方式及其功能。大型语言模型(LLMs)提供了一种从大量数据集中提取相关有价值信息的有效手段ProteinBERT擅长预测主要的翻译后修饰,这归因于整合了GO注释预测任务。ProteinBERT在涵盖多种蛋白质属性的各种基准测试中超越了其他具有更大参数的深度学习模型。最早的将外部知识图谱整合进来的蛋白质预训练方法是OntoProtein。除了继承预训练蛋白质语言模型的强大能力外,知识嵌入对象还从知识图谱中提取生物学知识。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps26.jpg
3
OntoProtein使用生成模型来简化蛋白质下游任务。蛋白质组学生物信息学基础模型如表3所示。作为评估蛋白质科学中深度学习模型的一部分,展示了蛋白质组学FMs的众多应用和性能特征,包括蛋白质结构分类和酶功能预测。此外,“蛋白质结构预测关键评估”(CASP)旨在客观测试来自世界各地研究小组的结构预测方法。CASP参与者可以通过分类各种主题来评估未来努力可以最有效地导向的方向。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps27.jpg



蛋白质结构预测  
蛋白质的功能和相互作用与其结构密切相关。深度学习在预测蛋白质结构方面逐渐提高了预测准确性和计算速度。MSA Transformer通过多序列比对(MSA)构建了一个蛋白质语言模型,使用掩码语言模型(MLM)目标在许多蛋白质家族中建立模型。根据BERT的经验,在预测二级结构或接触时,似乎参数更多的模型更容易使用。ProtTrans似乎是唯一一个拥有比大多数其他模型更多参数的模型。此外,ProtTrans在每残基结构预测方面取得了巨大进展。TAPE建立了一套标准化的蛋白质迁移学习评估系统,任务集包括五个不同的问题,如蛋白质结构预测、荧光景观预测、稳定性景观预测和蛋白质设计。拥有高达150亿参数的ESM2训练了用于广泛蛋白质下游应用的Transformer蛋白质语言模型。ESM2团队后来开发的蛋白质结构预测器ESMFold展示了几乎可与基于比对的方法相媲美的准确性,同时显著提高了处理速度。随着模型规模的扩大,有关原子级结构的见解开始显现。PeSTo是一种无参数几何深度学习方法,旨在识别与其他蛋白质结合的蛋白质。最近开发的AlphaFold3能够准确预测蛋白质复合物,而较少依赖共进化信息。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps28.jpg
蛋白质序列生成  
蛋白质生成广泛应用于药物开发和蛋白质工程。为了形成稳定的三维结构,希望生成的序列具有良好的折叠性。此外,还期望所需蛋白质具有特定的功能特性,如酶活性。在蛋白质生成领域,大型语言模型(LLMs)的进步以及条件模型的引入显著推动了发展。ProtGPT2根据自然原则生成蛋白质氨基酸倾向,模仿了基于Transformer的语言模型的卓越成就。分析显示,ProtGPT2生成的蛋白质表现出与天然蛋白质相对应的几个球形特征,涉及紊乱和二级结构预测。ZymCTRL语言模型根据酶委员会的提示有条件地生成人工酶,生成的序列是球形、有序的,并远离已知蛋白质空间,且能执行预期功能。一种新算法ProGen将UniprotKB关键词整合到条件标签中,生成具有理想结构特性的蛋白质。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps29.jpg



蛋白质进化与突变检测
在生物进化过程中,蛋白质序列和结构会发生变化。为了在蛋白质中产生功能性多样性,进化和突变起着关键作用。有研究表明,蛋白质语言模型能够有效预测进化变化和突变。DeepSequence通过学习跨蛋白质家族的概率模型,在使用进化数据预测突变效应方面优于现有方法。它捕捉了生物数据中的保守性,并使用证据下界(Evidence Lower Bound)对突变进行评分。利用长短期记忆(LSTM)开发的新模型UniRep用于检测远源同源性和突变效应。EVOLVEpro在性能上超越了现有方法,在RNA生产、基因组编辑和抗体结合应用领域的六个蛋白质中实现了高达100倍的针对性能改进。这些发现强调了与零样本预测相比,少量样本主动学习在最小实验数据下的优势。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps30.jpg

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版 启航岛

Powered by Discuz! X3.5 © 2024-2025

快速回复 返回顶部 返回列表