BriefGPT.xyz
Ask
alpha
关键词
diffusion actor-critic
搜索结果 - 1
扩散演员 - 评论家:将受约束策略迭代形式化为离线强化学习的扩散噪声回归
这篇论文介绍了一种名为 Diffusion Actor-Critic(DAC)的方法,用于解决离线强化学习中价值函数过高估计的问题,并通过扩散模型来表示目标策略,进而通过 Kullback-Leibler(KL)约束策略迭代来规范化目标策略
→
PDF
a month ago
Prev
Next