跨结构生物医学领域实现预测不变性

Jun, 2020

跨结构生物医学领域实现预测不变性

Domain Extrapolation via Regret Minimization

Wengong Jin, Regina Barzilay, Tommi Jaakkola

TL;DR本文提出了一种新的后悔最小化算法和其在结构化环境中的扩展，并在分子属性预测，蛋白质同源性和稳定性预测等多个应用中表现出了显著的性能优势。

Abstract

Many real prediction tasks such as molecular property prediction require ability to extrapolate to unseen domains. The success in these tasks typically hinges on finding a good representation. In this paper, we extend invariant risk minimization (IRM) by recasting the simultaneous opti

发现论文，激发创造

自适应取样的条件用于鲁棒设计

提出一种基于自适应采样的设计问题方法，解决优化预测模型输入时的路径问题和先验知识问题，用于蛋白质设计领域并获得了最先进的结果。

Jan, 2019

基于模型的领域通用化

本篇论文提出了一种基于模型的域泛化方法，通过对数据生成过程和同变性条件的建模，将域泛化问题转化为一个无限维的有约束统计学习问题，并利用非凸对偶理论发展了有约束松弛的统计问题，提出了具有收敛保证的域泛化算法，并在ColoredMNIST，Camelyon17-WILDS，FMoW-WILDS和PACS等基准测试中取得了高达30个百分点的改进。

Feb, 2021

领域通用化中插值与外推的在线学习方法

本文在一个由风险最小化玩家和出题人提供新测试分布的在线游戏框架下，研究亚群体间的泛化。通过对子组概率似然性重赋权重的基础上，证明外推比内插计算复杂度高得多，而它们的统计复杂度没有明显差异。此外，我们表明ERM和含有噪声的变种对于两种任务都是provably minimax-optimal的，这为领域泛化算法的形式分析提供了一个新的途径。

Feb, 2021

通过分位风险最小化实现可能的域泛化

用概率框架和Quantile Risk Minimization算法在多个相关训练数据分布中提高性能，实现高概率域泛化，将训练和测试域作为从相同元分布中绘制的关系，并引入更全面的分位数聚焦评估协议，能够优于 WILDS 和 DomainBed上的现有基线。

Jul, 2022

针对领域特定风险的最小化以实现超出分布的泛化

本文提出了基于领域特定风险最小化（DRM）的方法，旨在通过利用源域信息和适应性差的估计和最小化来弥合领域间差异以实现领域通用性，并在不同分布漂移设置下显着优于竞争基准。

Aug, 2022

无过多实证风险的领域泛化

通过最小化约束条件下的惩罚，而不是与经验风险同时最小化，我们提出了一种解决域泛化领域中过度风险的方法，并通过将我们的方法应用于文献中的三种方法来证明其有效性。

Aug, 2023

理解领域泛化：噪声稳健性视角

机器学习算法中的领域泛化与经验风险最小化的效果在标准基准测试中没有明确的经验证据，但是通过标签噪声的研究可知，领域泛化算法在有限样本训练中具有隐含的标签噪声鲁棒性，在合成实验中可以缓解虚假相关性并提高泛化性能，但在真实世界的基准数据集上的综合实验表明，标签噪声鲁棒性并不能比经验风险最小化算法取得更好的性能。我们推测，由虚假相关性引起的经验风险最小化的失败模式在实践中可能不明显。

Jan, 2024

领域无关条件不变预测

通过基于判别风险最小化理论和算法的不变特征捕获来解决领域泛化中没有领域标签的挑战，通过测试真实数据集验证了该方法的有效性。

Jun, 2024

MolecularGPT: 开放式大型语言模型（LLM）用于少样本分子性质预测

利用MolecularGPT，基于大规模语言模型对分子指令进行微调，并通过零样本和少样本的上下文学习，在少样本分子预测任务中取得新的竞争性结果，显示出语境推理能力优势，超过传统的图神经网络方法和现有语言模型基线，为语言模型在少样本分子特性预测中的应用发展提供了潜力。

Jun, 2024

扩大领域泛化的特征支持重叠

使用贝叶斯随机语义数据增强的方法来增加特征的支持重叠，提高域泛化性能，克服了不变风险最小化方法的不足，在多个具有挑战性的泛化基准测试中表现出了优越的性能和稳定性。

Jul, 2024