通过保守微调扩散模型，建立基于模型的优化和生成建模的桥梁

May, 2024

通过保守微调扩散模型，建立基于模型的优化和生成建模的桥梁

Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models

Masatoshi Uehara, Yulai Zhao, Ehsan Hajiramezanali, Gabriele Scalia, Gökcen Eraslan...

TL;DR通过优化奖励模型的方式，我们采用了一种混合方法来调优顶尖扩散模型，结合了生成模型和基于模型的优化方法的优势，以求解 AI 驱动的设计问题。在离线数据集的常见科学领域中，我们关注的是一个奖励模型未知的离线环境，通过学习静态离线数据集，解决过度优化问题，同时利用奖励模型的外推能力最大化了离线数据中的设计性能。

Abstract

ai-driven design problems, such as DNA/protein sequence design, are commonly tackled from two angles: generative modeling, which efficiently captures the feasible design space (e.g., natural images or biological

ai-driven design problems generative modeling model-based optimization offline setting reward models

发现论文，激发创造

反馈高效在线微调扩散模型

提出了一种新颖的强化学习算法，可有效地在可行样本的流形上进行探索，并通过对图像、生物序列和分子三个领域的理论分析和实证验证提供了一种后悔保证.

Feb, 2024

数据驱动的黑箱优化扩散模型

基于扩散模型的条件采样方法，在黑盒优化中生成接近最佳解且保留设计的潜在结构，通过建立理论模型和进行实验验证，证明了奖励导向扩散模型在黑盒优化中的效率和准确性。

Mar, 2024

通过轨迹拼接提炼离线强化学习的条件扩散模型

基于数据增强的知识蒸馏方法提出，通过条件扩散模型生成高回报轨迹，并通过新的奖励生成器运用新颖的拼接算法将其与原始轨迹混合。将得到的数据集应用于行为克隆，学习到的规模较小的浅层策略在几个 D4RL 基准测试中表现优于或接近深度生成规划器。

Feb, 2024

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

面对扩散模型中的奖励过优化：归纳和初要偏见的视角

通过引入时间感知、激活神经元重置的策略，我们提出了一种优化算法以降低扩散模型中的奖励过度优化问题，实证结果表明其在缓解奖励过度优化方面具有显著的有效性。

Feb, 2024

约束感知扩散模型的轨迹优化

基于扩散模型的轨迹优化问题传统上使用神经网络生成高质量且多样化的解决方案，本文提出了一种新颖的考虑约束的扩散模型用于轨迹优化，引入了一种新颖的混合损失函数进行训练，能够最小化扩散样本与真实数据之间的约束违规问题，同时恢复原始数据分布，实验证明在桌面操纵和双车回避问题上，该模型在最小化约束违规和生成接近局部最优解的样本方面优于传统扩散模型。

Jun, 2024

通过奖励引导探索实现可控扩散模型

本文提出了一种名为 RGDM 的模型，通过强化学习（RL）引导扩散模型的训练阶段，从而实现对样本生成的控制。在 3D 形状和分子生成任务上的实验表明，该模型相较于现有的条件扩散模型具有显著的改进。

Apr, 2023

基于奖励的条件扩散：可证明的分布估计与奖励优化

探索基于条件扩散模型的奖励定向生成方法和理论。此生成器可有效地学习和采样奖励条件的数据分布，并且生成新的群体移向用户指定的目标奖励值，通过实证研究验证这一理论并探究外推强度与样本质量之间的关系。

Jul, 2023

通过扩散行为对得分正则化策略优化

我们提出了一种从评论家模型和预训练的扩散行为模型中有效地提取确定性推理策略的方法，利用后者在优化过程中直接规范化行为分布的评分函数，从而在训练和评估期间完全避免计算密集型和耗时的扩散采样方案，扩散建模的强大生成能力使我们的方法在 D4RL 任务上将行动采样速度提高了 25 倍以上，同时仍保持着最先进的性能。

Oct, 2023

离线强化学习中的潜在扩散推理

该论文介绍了一种离线强化学习的方法，使用压缩的潜在技能建模支援轨迹序列，避免外推错误，并通过批量约束来学习 Q 函数。该方法通过学习的时间抽象潜在空间在离线强化学习任务中编码了更丰富的任务特定信息，改进了信用分配，并促进了更快的奖励传播。该方法在 D4RL 基准测试中表现出最先进的性能，特别擅长长期，稀疏奖励任务。

Sep, 2023