May, 2024

用偏好优化在规模化的化学空间中搜索能量排名对齐

TL;DR通过引入一种称为能量排序对齐 (ERA) 的算法,我们可以优化自回归策略,利用显式的奖励函数来生成具有所需属性的分子,该算法与接近政策优化 (PPO) 和直接优化偏好 (DPO) 密切相关,并且在配对的首选项观察数量较少时相对于 DPO 性能良好。