关键词on-policy reinforcement learning
搜索结果 - 5
- 反思式策略优化
该论文介绍了一种新的基于策略的扩展方法 —— 反思性策略优化(RPO),它将过去和未来的状态 - 动作信息结合起来以进行策略优化,从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩,从而加快了收敛 - 学习降维:在大型语言模型中使用结构化数据的最佳表示
使用 On-Policy 强化学习,我们提出了一个学习缩减的模型,旨在改进固定的大型语言模型的推理性能,在选择相关证据和处理长文本语境方面取得了良好的结果。
- 通过策略引导的轨迹扩散实现的世界模型
我们提出了一种新的世界建模方法 PolyGRAD,它利用扩散模型和策略的动作分布梯度,通过一次传递生成整个在政策上的合成轨迹,该方法在竞争力预测错误率方面与最先进的自回归基线相当,并且使得能在 “虚拟中” 进行政策优化的性能表现良好。
- 通过两阶段 KL 惩罚实现保证的信任区域优化
应用 KL 惩罚本身几乎足以强制执行信任区域,在实践中通过少于 5% 的额外梯度步骤引入 "修复" 阶段足以保证在每个策略更新时执行信任区域,产生与其他信任区域方法相竞争的结果。
- 不需要在策略采样的强化学习中的同策略策略梯度
透过引入自适应的离策略采样方法,本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求,实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。