关键词offline policy learning
搜索结果 - 7
- 离线策略学习的深度生成模型:教程、调查和未来方向的展望
深度生成模型在离线策略学习中的应用的系统综述,涵盖了变分自编码器、生成对抗网络、Transformer 等主要深度生成模型以及它们在离线强化学习和模仿学习中的应用,提供了对相关研究领域进展的实用参考,并致力于启发改进基于深度生成模型的离线强 - 离线策略学习的数据集聚类
该论文研究了一种被称为多行为的数据集特性,提出了一种行为感知的深度聚类方法,将多行为数据集分割成几个单行为子集,从而在线下决策学习中取得了改进的策略学习示例。
- ICLR带有可行性引导扩散模型的安全离线强化学习
通过可行区域定义的安全约束,最大化可行区域内的回报值并将不可行区域内的安全风险最小化的 FISOR(FeasIbility-guided Safe Offline RL)是唯一可以保证所有任务满足安全要求并在大多数任务上实现最高回报的方法。
- 超越均匀采样:利用不平衡数据集的离线强化学习
离线策略学习旨在利用现有的轨迹数据集来学习决策策略,而无需收集额外数据。我们通过提出一种采样策略并将其作为标准离线强化学习算法的即插即用模块,从而解决了现有算法在完全优化数据集的情况下性能提升有限的问题。我们的评估表明,在 72 个不平衡数 - ICLR利用学习模型实现高效的离线策略优化
通过研究,本文提出使用一种规范化的一步前瞻方法来解决 MuZero Unplugged 在离线强化学习设置下可能存在的一些问题,并在 BSuite 环境中进行了广泛的实证研究,得到了稳定的结果,并在大规模的 Atari 基准测试中取得了优异 - 离线随机最短路径:学习、评估与优化
本文研究了离线情况下有限状态和动作空间下的目标导向强化学习,提出基于简单值迭代的算法来解决离线策略评估和学习任务,并分析了这些算法的强实例相关界限。
- ICLR离线神经情境臂:悲观、优化和泛化
本文研究如何使用神经网络函数逼近优化离线上下文强化学习策略,提出了一种无需对奖励函数进行函数假设的离线上下文强化学习算法,应用随机梯度下降进行在线学习提高计算效率,并表明该方法具有较好的泛化能力和更好的依赖于神经网络的有效维度,同时在一系列