用偏好优化在规模化的化学空间中搜索能量排名对齐

May, 2024

用偏好优化在规模化的化学空间中搜索能量排名对齐

Energy Rank Alignment: Using Preference Optimization to Search Chemical Space at Scale

Shriram Chennakesavalu, Frank Hu, Sebastian Ibarraran, Grant M. Rotskoff

TL;DR通过引入一种称为能量排序对齐 (ERA) 的算法，我们可以优化自回归策略，利用显式的奖励函数来生成具有所需属性的分子，该算法与接近政策优化 (PPO) 和直接优化偏好 (DPO) 密切相关，并且在配对的首选项观察数量较少时相对于 DPO 性能良好。

Abstract

Searching through chemical space is an exceptionally challenging problem because the number of possible molecules grows combinatorially with the number of atoms. Large, autoregressive models trained on databases

chemical space molecular search autoregressive models energy rank alignment gibbs-boltzmann distribution

发现论文，激发创造

利用强化学习和变形金刚搜索高价值分子

通过对不同的文本语法设计和训练算法选择进行广泛的实验，我们提出了一种新的基于强化学习的分子设计算法（ChemRLformer），并通过对 25 个分子设计任务的深入分析，包括计算复杂的蛋白质对接模拟，发现了这个问题领域的独特见解，并展示了 ChemRLformer 在文本分子设计中所取得的最新成果，同时还揭示了哪些设计选择对于文本分子设计实际上有帮助。

Oct, 2023

基于条件残差能量模型的分子合成偏好优化

通过条件残差能量模型，提出了一种通用的、以质量为导向的分子合成路线生成框架，该框架可以增强各种策略生成的最可能合成路线的质量并在性能上优于先前的最先进方法 2.5%。

Jun, 2024

信息熵增强的大型语言模型在药物探索中的规划

通过使用熵强化规划算法增强 Transformer 解码过程以在开发新药物和生成代码方面取得改进，该方法在多个属性上优于直接从 Transformer 中采样的现有算法。

Jun, 2024

药物设计的奖励函数配置自动化

设计奖励函数以引导生成分子设计算法到化学空间中的可取区域对于基于人工智能的药物发现至关重要。我们提出了一种基于实验数据的自动奖励配置方法，通过构建基于帕累托优势的实验数据排序，并训练神经网络以近似奖励函数，使得预测奖励相关的排序与基于帕累托优势的排序一致。我们验证了该方法的有效性，并展示其在药物发现中胜过人工定义的函数的预测准确性，与目标药物评价函数相比，Spearman 相关性提高了 0.4。该方法为生成分子设计的奖励函数配置提供了高效的数据驱动方式，并为自动化药物发现的未来研究提供了强有力的基准。

Dec, 2023

人体对齐的偏好排名优化

提出了一种名为 Preference Ranking Optimization（PRO）的新型策略，旨在通过将人类偏好排名直接应用于语言模型生成的响应的概率排名，实现语言模型（LLMs）的与人类价值观的对齐。研究结果表明，PRO 优于现有的对齐算法，并通过基于自动化、奖励、GPT-4 和人类评估的实验来达到与 ChatGPT 和人类响应相当的结果。此外，作者还证明了长、多样化、高质量的偏好排名序列可以稳定提高将 LLMs 与人对其的对齐性能。

Jun, 2023

通过潜空间能量建模与逐步分布转移的分子设计

本文提出了一种生成模型，基于能量模型（EBM）和分子生成模型、性质回归模型生成具有期望化学和生物性质的体小分子，并引入了逐步分布转移采样算法（SGDS），从而在训练的分子数据和性质的基础上，逐步将模型分布转移到具有期望性质的分子区域，取得了很好的实验效果。

Jun, 2023

基于大型语言模型的化学空间高效进化搜索

融入大型语言模型的进化算法为分子发现问题的优化提供了一个优越性能的解决方案，通过重新设计进化算法的交叉和变异操作，利用大型化学信息语言模型进行大规模的实证研究，在单目标和多目标环境中，对于性能优化、分子重发现和基于结构的药物设计等多个任务表现出优于基线模型的优越性能，提高了最终解的质量和收敛速度，同时减少了所需的目标评估次数。

Jun, 2024

基于强化学习的可扩展基于碎片的三维分子设计

本文提出了一种基于强化学习框架的分层代理方法，能够在三维空间中逐步放置分子亚结构，从而高效地学习如何建造具有不同分布的分子，包括药物样分子、有机发光二极管分子和生物分子，只利用能量考虑即可。

Feb, 2022

强化学习在以量子力学为导向的分子设计中的应用

本文提出了一种新颖的基于强化学习的分子设计方式，使用笛卡尔坐标系来扩展分子结构类型，并利用快速量子化学方法对基本物理性质（如能量）进行直接奖励函数的构建。同时，引入了名为 MolGym 的强化学习环境，在该环境中针对多种具有挑战性的分子设计任务成功展开实验，并在此基础上，构建出一种翻译及旋转不变的状态空间，实现了从零开始的高效学习。

Feb, 2020

具有可证明噪声容忍性的鲁棒偏好优化

ROPO 是第一个提供噪声容忍保证的偏好对齐方法，通过动态分配激进梯度权重给具有高标签不确定性的回应对，有效地抑制噪声样本的梯度，保证了期望风险具有相同的梯度方向，实验证明 ROPO 显著优于现有的基于排名的方法。

Apr, 2024