BriefGPT.xyz
Ask
alpha
关键词
sampling error
搜索结果 - 5
接触丰富可微分模拟中的政策学习自适应视野演员评论家
探讨了模型自由强化学习方法的优化问题,引入了一种基于模型的算法 (AHAC),通过适应模型的 horizon 避免 stiff dynamics,实验结果表明 AHAC 在特定任务中表现优于传统方法,具有更好的时间效率。
PDF
a month ago
ICML
扩散拒绝采样
该论文介绍了扩散拒绝采样(DiffRS)方法,它使用拒绝采样方案,在每个时间步中将采样转换核与真实核对齐。该方法可以视作在每个中间时间步评估样本质量并根据样本的不同努力对其进行改进的机制。理论分析表明,与预训练模型相比,DiffRS 可以实
→
PDF
a month ago
不需要在策略采样的强化学习中的同策略策略梯度
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。
PDF
8 months ago
镜像 Langevin Monte Carlo 的 Wasserstein 控制
本研究主要探讨了在 Hessian 型流形上的 Langevin 扩散过程与镜像下降的关系,运用该理论推导出了 Hessian Riemannian Langevin Monte Carlo 算法的非渐进抽样误差上限并证明了其适用性。
PDF
4 years ago
深度 Q 学习算法瓶颈的诊断
本研究通过实验调查了 Q-learning 方法在深度强化学习中的潜在问题,并提出了基于神经网络结构的新型采样方法,在高维连续控制领域中获得了显着的改进。
PDF
5 years ago
Prev
Next