- 生物基础模型之间的多模态迁移学习
我们提出了一个多模态模型,通过利用来自不同预训练模态特定编码器的信息将 DNA、RNA 和蛋白质连接起来,展示了该模型在预测多个 RNA 转录本的表达差异方面的能力,同时在多个模态之间实现了高效的知识传递,为新的多模态基因表达方法铺平了道路 - 大语言模型时代的生物医学人工智能
AI 在生物医学领域的应用包括使用大型语言模型来处理生物医学数据,如文本数据、生物序列和脑信号,并面临着可信性、个性化和多模态数据表示等挑战。
- 转移学习贝叶斯优化在诊断测定中设计竞争 DNA 分子
通过结合转移学习代理模型和贝叶斯优化,本文提出了一种实现工程生物分子装置的定制生物序列开发的设计实验工作流程,旨在减少实验数量并提高预测准确性。
- 生物序列离线设计的得分条件生成器的自助式训练
研究优化生物序列的问题,并提出了 BootGen 算法,通过代理评分功能来训练生成器,以使生成的生物序列更接近高评分样本,结果实验证明该算法在生物序列设计任务上优于竞争基准。
- ICML基于狄利克雷扩散分数模型的生物序列生成方法
使用 Dirichlet 扩散分数模型实现生物序列的生成及 DNA 序列设计。
- 具有可保证灵活性的生物序列核函数
应用机器学习于生物序列 ——DNA、RNA 和蛋白质 —— 具有巨大的潜力推进人类的健康、环境可持续性和基础生物学的理解。因此,本研究旨在探讨这一问题领域中的挑战并提供修改现有基于核的机器学习方法以确保其准确性和可靠性的简单有效的方式。
- KDDBioSequence2Vec: 生物序列嵌入生成的高效算法
本文提出了一种基于随机投影的低维嵌入方法,可以快速高效地计算不同形式的生物序列,从而避免了核方法的计算时间、内存使用和泛化性挑战。该方法的预测性能在多种真实分类任务中优于若干最先进的嵌入和核方法
- 元强化学习和贝叶斯优化设计生物序列
本文通过 MetaRLBO,提出了一种对于生物序列的加速设计方法,使用 Meta-Reinforcement Learning 训练自回归生成模型,以 Bayesian Optimization 为辅助选择出有前途的序列,获得较强的鲁棒性和 - AdaLead:一种简单且强大的自适应贪心搜索算法用于序列设计
本文中,我们使用开源自动化工具 FLEXS 对采用不同算法的优化问题进行了测试和评估,并开发了一种易于实现、可扩展和稳健的进化贪心算法 (AdaLead),该算法在多种生物序列设计挑战中具有明显的优势。
- ICLR一个可训练的最优输运嵌入及其与注意力的关系
本文提出了一种基于优化传输计划思想的特征集聚合技术,可用于长生物序列的池化操作,具有快速、简单、可扩展等优点,并在蛋白质折叠识别、染色质图谱检测等生物学任务上取得了最先进的效果。
- 面向生物序列设计的基于种群的黑盒优化
该研究论文研究了如何通过黑盒优化算法设计新的生物序列,提出了一种名为 P3BO 的人口基础的黑盒优化算法,并结合进化优化算法在线调整超参数,实验证明 P3BO 可以提供更高质量、多样化的序列,是将机器学习应用于实际序列设计的重要步骤。
- 使用 TAPE 评估蛋白质迁移学习
TAPE 通过围绕蛋白质生物学的不同领域提供一组任务和标准化的评估技术,来推动半监督蛋白质嵌入学习领域的进展;研究表明自监督预训练对于大多数模型在所有任务上都有帮助,但是与非神经技术有差距的性能提示了设计创新架构和改进建模范式的巨大机遇。