综述:基础模型在生物信息学中的应用 || National Science Review 2025年01 月25日,Wang Jianxin's Team(团队详情在文末)在《 National Science Review》期刊上发表了一篇题为“Foundationmodels in bioinformatic”的研究论文,其中指出随着基础模型(FMs)的采用,人工智能(AI)在生物信息学中的重要性日益增加,并成功解决了许多历史挑战,如预训练框架、模型评估和可解释性。由于实验过程既昂贵又耗时,FMs在处理大规模未标记数据集方面表现出显著的能力。在各种下游任务中,FMs持续取得显著成果,在表示生物实体方面展示了高准确性。通过FMs的应用,计算生物学进入了一个新纪元,不仅关注一般性的生物学问题,也针对特定的生物学挑战。在这篇综述中,作者介绍了最近在生物信息学中应用于多种下游任务的基础模型进展,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。作者的目标是帮助科学家根据四种模型类型——语言基础模型、视觉基础模型、图基础模型和多模态基础模型——选择合适的生物信息学基础模型。除了理解分子图景外,AI技术还为分子生物学的持续创新奠定了理论和实践基础
总结-概述-分析方法: 这篇综述论文讨论了基础模型(FMs)在生物信息学中的应用,强调了它们在解决该领域挑战方面的重要性。FMs是预训练于庞大数据库上的大规模AI系统,使其能够在各种下游任务中使用。论文将FMs分为四类:语言FMs、视觉FMs、图FMs和多模态FMs。综述全面概述了这些模型如何应用于生物信息学的不同领域,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。 以下是每种类型基础模型在生物信息学中的关键应用摘要: 语言FMs: - 基因组学: 如DNABERT和Nucleotide Transformer等语言模型用于分析DNA序列、预测调控元件和识别遗传变异。HyenaDNA和Evo用于长距离基因组序列建模。
- 转录组学: 模型如RNA-FM、RNA-MSM、RNABERT和SpliceBERT被用于RNA结构预测、剪接位点识别和理解RNA修饰。
- 蛋白质组学: ProteinBERT和OntoProtein用于预测蛋白质属性,包括翻译后修饰。ProtGPT2用于生成蛋白质序列。
- 药物发现: SMILES-BERT应用于分子表示和性质预测。K-BERT用于理解SMILES范式的本质。
视觉FMs: - 基因组学: VQDNA用于基因组标记化和启动子检测。
- 转录组学: RfamGen用于RNA家族序列生成。
- 单细胞分析: scButterfly用于跨模态转换和数据增强。
图FMs: - 药物发现: 如Mole-BERT、KPGT和EIHGN等模型用于分子性质预测和药物-靶点相互作用识别。Pocket2Mol基于3D蛋白质口袋进行分子生成。
- 单细胞分析: DeepMAPS、SiGra和MarsGT用于分析单细胞数据、识别细胞群集和整合多组学数据多模态FMs:
- 基因组学: Enformer用于预测基因表达和启动子-增强子相互作用。
- 蛋白质组学: AlphaFold3用于预测复杂生物分子组装的结构。
- 药物发现: MoleculesSTM用于结构-文本检索和分子编辑。
- 单细胞分析: GLUE用于多组学数据整合。scTranslator从转录组数据推断蛋白质丰度。scGPT是一个使用生成式AI针对单细胞多组学的基础模型。
此外,综述还探讨了生物信息学FMs的发展历程,从特定任务的模型到更通用的预训练模型,最后到多模态模型。论文进一步讨论了在训练这些FMs时使用的各种生物学数据库。论文强调了基础模型通过提供高效工具分析复杂生物数据和解决核心生物学问题来革新生物信息学的潜力,同时也指出了当前的局限性和未来的方向。 另外,综述深入研究了该领域的挑战和未来方向,包括: - 改进的预训练范式,如提示学习和对比学习。
- 综合的模型评估框架。
- 增强模型的可解释性和解释性。
- FMs中幻觉检测的策略。
本综述论文的重点、结论和建议 研究的关键优势: - 全面概述: 论文提供了生物信息学中FMs的结构化和全面的回顾,将其分为语言模型、视觉模型、图模型和多模态模型。它涵盖了基因组学、转录组学、蛋白质组学、药物发现和单细胞分析中的广泛应用。
- 强调进化: 综述追溯了生物信息学FMs从特定任务模型到通用预训练模型,最终发展为多模态模型的演变过程。这种历史视角有助于理解该领域的进展和成就。
- 详细模型描述: 论文详细描述了各种FMs,包括它们的架构、训练策略及其应用。例如,它讨论了如DNABERT、AlphaFold和scGPT等模型。表格的加入提供了不同模型的快速概览。
- 关注下游任务: 综述强调了FMs如何应用于生物信息学中的特定下游任务。它讨论了FMs在变异效应预测、药物-靶点相互作用识别和细胞类型注释等任务中的使用。
- 整合生物学数据: 论文强调了使用生物学数据库训练FMs的重要性,为研究人员提供了一个宝贵的资源。它列出了主要的数据库,如TCGA、GEO、UniProt、ChEMBL和人类细胞图谱。
研究的结论: - 革命性影响: FMs通过提供高效工具来分析复杂的生物数据和解决核心生物学问题,革新了生物信息学。它们成功解决了与预训练框架、模型评估和可解释性相关的挑战。
- 高准确性: FMs在各种下游任务中展示了高水平的准确性,在表示生物实体方面取得了显著成果。
- 多功能工具: 论文得出结论,FMs是理解分子景观、人体生理学和分子生物学的多功能工具。它们可以使用监督和非监督学习模型进行训练。
- 范式转变: 大规模预训练模型的出现导致了人工智能中的范式转变,FMs成为这一转变的核心组成部分。
- 广泛适用性: FMs在许多领域都有广泛的适用性,包括基因组学、转录组学、蛋白质组学、药物发现和单细胞分析。
建议和未来方向: - 改进预训练范式: 论文建议进一步开发如提示学习和对比学习等预训练范式,以增强模型性能和可解释性。例如,提到了KANO和PromptProtein作为创新框架的例子。
- 综合评估框架: 强调了稳健评估框架的需求,UltraEval作为一个轻量级、全面的模型评估工具的例子被提出。论文还提到在不同领域如蛋白质工程和单细胞多组学分析中对FMs的评估。
- 增强模型可解释性: 综述强调了使FMs更具解释性和可解释性的重要性,推荐使用知识图谱和因果推断来提高模型理解和逻辑证据。
- 幻觉检测: 作者指出需要开发有效的方法来检测FMs中的幻觉,因为模型可能会生成虚假或编造的结果。Luna作为一种检测检索增强生成(RAG)中幻觉的模型被提及。
- 模型同质化: 综述注意到模型有向同质化发展的趋势,特别是大型语言模型(LLMs),并建议未来的研究应专注于平衡普遍性与专门化。
- 进一步研究: 作者建议在模型架构、预训练以及FMs在特定生物学问题中的应用等领域需要进一步研究。
总之,这篇论文成功地突出了基础模型在生物信息学中的变革角色,并为未来研究奠定了基础。它还指出了当前模型的一些局限性,并概述了可能的未来研究领域,以进一步改进基础模型在生物信息学中的应用。
|