快捷导航
查看: 361|回复: 0

综述:基础模型在生物信息学中的应用 || National Science Review(二)

[复制链接]

4

主题

0

回帖

16

积分

新手上路

积分
16
发表于 2025-2-2 15:42:11 | 显示全部楼层 |阅读模式
本帖最后由 Muming 于 2025-2-2 15:42 编辑

简介
基础模型代表了大规模的人工智能系统,这些系统在庞大的数据集上进行了广泛的预训练,从而使其能够应用于多种下游任务。FMs通过在标记和未标记数据上训练神经网络来构建,使它们能够识别基本模式并将知识推广到新任务中。在基础模型出现之前,大多数AI系统是使用更传统的方法构建的,这些方法严重依赖于明确的人工工程和预定义规则,而不是直接从数据中学习。大型预训练模型(PTMs)的出现从根本上改变了人工智能的格局。该领域目前正在经历一场由开发能够在广泛的数据集上进行训练并可应用于多样化的下游应用的模型推动的范式转变。基础模型由于其能力和技术原理以及应用和社会影响而带来了巨大的机遇和内在风险。随着计算能力和数据可用性的持续扩展,在四个关键领域取得了显著突破:有效架构的设计、丰富上下文信息的利用、计算效率的提升以及解释性分析的执行。FMs的发展强调了PTMs在AI技术范围内的核心作用。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps11.jpg
与预训练架构一样,许多大规模基础模型被分为四种不同类型的AI模型,包括语言FMs、视觉FMs、图FMs和多模态FMs。语言FMs:Word2Vec是一种早期将单词转换为分布式表示的PTM;Transformers处理序列数据,训练大型语言模型(LLMs),超越循环神经网络(RNNs);BERT和GPT是基于transformer的PTMs,不同于词级别的PTMs。视觉FMs:AlexNet是一个显著推进计算机视觉(CV)的卷积神经网络(CNN);ResNet引入了带有残差层的快捷连接,并在ImageNet上进行训练;Segment Anything Model(SAM)是一种可提示分割方法,能够分割任何地方的一切。图FMs:图神经网络(GNNs)是用于新兴和同质化任务的信息处理架构;MPNN和GIN采用全局和局部时间消息传递机制;Graphormer使用空间编码表示节点之间的结构关系;GraphRAG是一个用于检索增强生成(RAG)的结构化分层框架。多模态FMs:ViT在初步研究中优于传统的监督CNN;CLIP构建了一个基于transformer的多模态PTM,显示出有希望的结果。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps12.jpg
最近,一些基础模型已成功应用于生物信息学问题,如生物标志物发现、酶设计、抗体-抗原识别、药物发现、组学分析和疾病诊断。本研究的目的是对可用于训练监督和非监督学习模型的生物信息学FMs进行分析,以解决如核心生物学问题和综合生物学问题等应用。借助AI技术,可以理解分子图景以及人类生理学和分子生物学的各个方面。几种突出的基础模型被用于深入理解高通量生物数据,随后讨论了预测和生成模型如何在生物信息学的各种下游任务中得到应用,如图1所示。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps13.jpg
当前的综述从三个角度考察了生物信息学中的基础模型。首先,一些综述文章总结了应用于生物信息学任务的大规模语言模型。Gao概述了基于transformer并针对生物信息学定制的基础模型,这些模型直接应用于生物序列数据和可序列化数据。Heider讨论了用于识别生物信息学模式的大规模语言模型,并分析了它们在加速多组学和个人化医学发现方面的潜力。此外,一些调查论文列举了解决生物信息学问题的具体模型。Cheng总结了计算生物学中用于生成蛋白质、药物及蛋白质-配体相互作用模型的扩散建模框架。进一步地,一些综述文献总结了生物信息学和医学领域中的许多传统模型。Li总结了深度学习模型的当前趋势,以研究特定的生物学挑战,评估其在序列分析、结构预测和功能注释中的应用。Rajpurkar列出了结合电子健康记录、基因组学、临床文本和医疗模态的一般性医疗AI模型。尽管如此,目前大多数综述几乎完全集中在一类大规模模型或某些应用于生物信息学的传统模型上,而没有考虑到各种基础模型。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps14.png
本综述为生物信息学中的基础模型提供了新的见解,主要围绕三个目标展开。首先,作者介绍了生物信息学基础模型作为多功能工具的最新进展,通过聚焦于四种类型的基础模型(如语言FMs、视觉FMs、图FMs和多模态FMs)提供对生物信息学应用的全面理解。其次,作者探讨了生物信息学FMs在五个下游任务中的应用,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。作者的讨论集中在生物数据库、训练策略、超参数大小和生物应用方面。最后,基于模型预训练框架、基准选择、白盒与可解释性以及模型幻觉评估方面的经验,作者讨论了生物信息学FMs有前景的发展轨迹。

使用Transformer解码DNA的语言,因其通过通用遗传密码解释DNA翻译成蛋白质的能力而受到关注。DNABERT通过使用Transformer捕捉了对基因组DNA序列的全局和可转移见解。利用Nucleotide Transformer,可以在基因组数据集上构建并预训练基础语言模型。DNABERT-2中,通过修改字节对编码以提高计算效率,并采用多种策略解决输入长度限制问题。为了适应新任务,HyenaDNA利用更长的上下文长度和序列长度调度技术。从分子水平到基因组规模,Evo是一个长上下文基础模型,促进了预测性和生成性任务。VQDNA使用VQ-VAE基于数据模式重新定义了基因组标记化为一个整体系统。预训练的基础模型已在多物种数据集上进行训练,并用于预测启动子、增强子、转录因子结合位点和顺式调控元件。基因组学生物信息学基础模型如表1所示。生物序列的长序列长度在训练过程中提出了许多挑战,使得这些模型无法解决某些生物学问题。作为大规模序列建模的一部分,生物学和基因组学的进步迅速。Caduceus是首个双向长程DNA基础模型,展示了在长程模型领域优于前代的性能。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps17.jpgfile:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps18.jpg
全基因组变异效应预测方面
DNA序列中的突变对于贡献物种多样性起着重要作用。全基因组关联研究(GWAS)提供了广泛物种的重要生物学见解。AI架构已经进化以适应基因组数据的复杂性和测量基因组可用的高维模式的细微差别。DeepSEA仅通过学习非编码变异对DNA序列的影响就超越了监督深度学习模型。过去十年中,CNN主导了DNA序列的深度学习模型。基因组预训练网络(GPN)通过在DNA序列上训练模型来研究全基因组变异的影响。与传统的GWAS方法不同,GPN在预测罕见变异的影响方面表现出色。包括DNABERT、DNABERT-2和Nucleotide Transformer在内的若干基础DNA序列语言模型也从DNA序列中预测变异。总的来说,这些进展增强了我们对DNA序列突变如何产生生物多样性的理解。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps19.jpg
DNA顺式调控区域预测
在基因表达调控中,顺式调控序列(包括增强子和启动子)发挥着关键作用,并设计组织特异性元素。为了理解它们的功能及其与疾病的关联,在DNA中识别这些序列是一个基本挑战。Enformer通过利用大感受野预测基因表达和启动子-增强子相互作用,以识别顺式调控区域并提供对其功能的宝贵见解。基于DNABERT的一种新的迁移学习方法iEnhancer-BERT使用创新的DNABERT算法促进增强子预测。与传统的微调方法不同,iEnhancer-BERT应用CNN层对来自Transformer编码器层的输出进行分类。因此,生物序列现在被视为计算建模的自然语言。此外,DeepSEED结合专家知识与学习方法设计了有效的合成启动子,适用于合成促进。
file:///C:/Users/%E8%81%94%E6%83%B3/AppData/Local/Temp/ksohtml22556/wps20.jpg
DNA甲基化识别  
DNA甲基化是一种基础生物学过程,它通过表观遗传方式调节基因表达。多种医学状况与此过程相关联,并且该过程也可作为元基因组分箱的标记。AI模型已经推进了我们对各种生物过程中DNA甲基化的理解。目前,iDNA-ABT、iDNA-ABF和ccsmeth是用于一系列甲基化预测的多功能预测工具,包括6-甲基腺嘌呤(6mA)、5-羟甲基胞嘧啶(5hmC)和4-甲基胞嘧啶(4mC)。iDNA-ABT中,转导信息最大化(TIM)与自适应嵌入一起使用,但其检测DNA甲基化模式的潜力仍有待探索。iDNA-ABF采用多尺度架构而不是单一标记生成器。基于标记生成,BERT编码器能够提取多样化的嵌入以产生最终的进化输出。此外,ccsmeth使用纳米孔测序数据和PacBio CCS测序数据检测单倍型感知的甲基化,并利用5mC位点的对称性和聚集特性进行预测。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

手机版 启航岛

Powered by Discuz! X3.5 © 2024-2025

快速回复 返回顶部 返回列表