May, 2024

通过保守微调扩散模型,建立基于模型的优化和生成建模的桥梁

TL;DR通过优化奖励模型的方式,我们采用了一种混合方法来调优顶尖扩散模型,结合了生成模型和基于模型的优化方法的优势,以求解 AI 驱动的设计问题。在离线数据集的常见科学领域中,我们关注的是一个奖励模型未知的离线环境,通过学习静态离线数据集,解决过度优化问题,同时利用奖励模型的外推能力最大化了离线数据中的设计性能。