BriefGPT.xyz
Ask
alpha
关键词
energy rank alignment
搜索结果 - 1
用偏好优化在规模化的化学空间中搜索能量排名对齐
通过引入一种称为能量排序对齐 (ERA) 的算法,我们可以优化自回归策略,利用显式的奖励函数来生成具有所需属性的分子,该算法与接近政策优化 (PPO) 和直接优化偏好 (DPO) 密切相关,并且在配对的首选项观察数量较少时相对于 DPO 性
→
PDF
2 months ago
Prev
Next