- 生物基础模型之间的多模态迁移学习
我们提出了一个多模态模型,通过利用来自不同预训练模态特定编码器的信息将 DNA、RNA 和蛋白质连接起来,展示了该模型在预测多个 RNA 转录本的表达差异方面的能力,同时在多个模态之间实现了高效的知识传递,为新的多模态基因表达方法铺平了道路 - 深度学习方法开发在计算生物学中的机遇
分子技术的进展推动了与生物学和生物医学相关的数据集的巨大增长。这些进展与机器学习中的深度学习子领域相似。可微分编程工具箱中的组件使深度学习成为可能,使计算机科学家能够用灵活和有效的工具解决越来越多的问题。然而,这些工具中许多尚未充分应用于计 - 一种基于 GRASP 的路径重链接式谐音算法用于离大多数字符串问题
FAR FROM MOST STRING PROBLEM (FFMSP) 的 MEMETIC 算法在计算生物学中的字符串选择问题上表现优异且与其他先进技术有统计显著性的性能比较。
- 组合近似聚类删除:更简单、更快、更好
删除最小数量的边将图划分为团体是一种 NP 困难的图聚类目标,在计算生物学和社交网络分析中具有应用。我们提供了两种先前近似算法的更严格的分析,将其近似保证从 4 改进到 3。此外,我们展示了这两种算法可以以出人意料的简单方式解除随机化,通过 - BioT5+:融合 IUPAC 集成和多任务调整的通用生物理解
BioT5 + 是一个针对生物研究和药物发现的框架,融合了多种新颖特性,包括 IUPAC 命名、来自 bioRxiv 和 PubChem 等数据源的生物文本和分子数据,以及用于处理数字数据的新颖数值标记化技术,从而将分子表示与其文本描述之间 - 基于相似度的序列数据分割方法:深度学习项目开发和评估的改进
在这项研究中,我们提出了一种适用于大多数生物序列(基因、蛋白质和基因组)的机器学习数据库划分方法 SpanSeq,以避免数据集间的数据泄漏,并通过重新开发最先进模型 DeepLoc 证实了随机划分数据库对模型评估的影响,扩大了这些影响对模型 - 生物信息学中的基础模型的进展与机遇
这篇综述论文通过系统调查和总结生物信息学中的基础模型对于特定生物问题的应用以及面临的挑战和限制,并提出了基础模型在未来生物研究中的发展方向和策略。
- 量子计算机上的肽结合分类
我们对使用近期量子计算机在计算生物学领域进行的任务进行了广泛的研究,通过构建基于参数化量子电路的量子模型,我们对与治疗蛋白设计相关的任务进行序列分类,并发现与规模相似的经典基线相比具有竞争性能。
- PhyloGFN: 基于生成流网络的系统发育推断
采用生成流网络的框架,本文研究在系统发生学中的两个核心问题:基于减少原则和贝叶斯方法的系统发生学推断。通过我们的前向后验采样器,PhyloGFN,我们展示了在真实基准数据集上产生多样化和高质量的进化假设。PhyloGFN 在边缘似然度估计方 - 计算生物学中的深度学习:进展、挑战与未来展望
深度学习在计算生物学中的历史、优势、挑战,以及应用于 DNA 序列分类、蛋白质结构预测等方面的前景进行了综述,强调了需要解决大规模标记数据集和深度学习模型可解释性等挑战以充分发挥其潜力,对于检测基因组变异、分析基因表达等方面带来了重要的转变 - ChatGPT 对计算生物学家在编程方面能提供多大帮助?
在本文中,我们着重分析了 ChatGPT 在计算生物学领域的潜力,讨论了它对 Bioinformatics 算法编写、数据分析、脚本编排以及机器学习建模和特征提取等方面的积极和消极影响,并给出了来自不同视角的具体示例。
- 基于奖励的条件扩散:可证明的分布估计与奖励优化
探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布,并且生成新的群体移向用户指定的目标奖励值,通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。
- 生物信息学中的扩散模型:深度学习革命的新浪潮
本文综述了去噪扩散模型在生物信息学中的应用及其新的发展和应用潜力。
- MEDIAR: 多模式显微镜数据中心和模型中心的协调
用于多模态高分辨率显微镜图像的弱监督细胞分割是一个基本任务。本文提出了 MEDIAR,这是一个周全的细胞实例分割流程,将数据中心和模型中心方法相结合,实现了在多模态下的高效分割。
- 最长公共子序列算法的最长公共子串解决方案服务:新型超启发式算法
本文提出了一种新的超启发式算法,使用一个创新的标准来将字符串集合分类,进而解决最长公共子序列问题。这种算法利用了 $S^2D$ 和集合的一个内部属性来选择最佳匹配启发式算法,比其他算法具有更高的解决质量和运行时间。
- MAS2HP: 一个在 2D HP 模型中预测蛋白质结构的多智能体系统
本研究提出了一种基于代理模型的新方法,结合预先定义的规则,利用人工智能技术和降低模型解决蛋白质结构预测问题。相较于其他算法,该方法在较短时间内可找到最优解,并且能够从指数级时间复杂度降为线性。
- ProtTrans:通过自监督深度学习与高性能计算攻克生命密码的语言
通过训练两个自回归模型和四个自编码器模型,使用生物信息数据培训出来的语言模型(Language Models)能够在低推断开销下完成新的前沿预测,例如使用蛋白 LM - 嵌入 (ProtT5) 能够在无需使用进化信息的情况下,成功地进行氨基 - AAAI细粒度搜索空间分类用于求解子集问题的困难枚举变体
本文提出了一个简单,强大和灵活的机器学习框架,用于减少计算困难的集合问题的枚举变量搜索空间,并通过输入分布产生的信息提示来增强现有的最先进的求解器。我们将我们的框架实例化为图中列出所有最大团的问题,这是网络分析,数据挖掘和计算生物学中的中心 - NIPSFoldingZero: 水疏水模型下的蛋白质折叠
通过深度强化学习训练的 FoldingZero 框架能够自行折叠出一个 2D HP 结构的蛋白质,学习到了隐藏的折叠知识,是一个在蛋白质折叠领域有应用潜力的新方法。
- 量子退火与经典机器学习应用于简化的计算生物学问题
通过应用量子机器学习到纯化数据集中进行转录因子分类以及排序,我们发现与其他经典方法相比,量子机器学习在分类性能上略微优越。因此,我们提出量子退火可能是对某些计算生物学问题实施机器学习的有效方法。