May, 2024
用偏好优化在规模化的化学空间中搜索能量排名对齐
Energy Rank Alignment: Using Preference Optimization to Search Chemical Space at Scale
Shriram Chennakesavalu, Frank Hu, Sebastian Ibarraran, Grant M. Rotskoff
TL;DR通过引入一种称为能量排序对齐 (ERA) 的算法,我们可以优化自回归策略,利用显式的奖励函数来生成具有所需属性的分子,该算法与接近政策优化 (PPO) 和直接优化偏好 (DPO) 密切相关,并且在配对的首选项观察数量较少时相对于 DPO 性能良好。