- 批量量子强化学习
该研究论文提出了一种基于量子计算的 VQC 算法结合数据重载方案的批量 RL 算法,并在 OpenAI CartPole 环境下与基于神经网络的离散 BCQ 算法进行了比较,证明了其在效率上的优势。
- 连续双重约束批次强化学习
本研究提出基于批次强化学习的算法,仅使用固定的离线数据集而非在线与环境的交互来学习有效策略,并通过策略约束和价值约束对数据集不足的情况进行干扰,实现对候选策略的控制,相比于现有的最新方法在多项连续动作批处理强化学习基准测试中表现优异。
- POPO: 悲观离线策略优化
本文主要针对离线强化学习中的价值函数方法,提出了一种名为 POPO 的悲观离线策略优化算法,它学习了一种悲观的价值函数以获取强策略,相比于多个最先进的算法,在高维状态和动作空间中表现出色。
- 批评正则化回归
本文提出了一种基于评价器正则化回归算法(CRR)的新型离线强化学习算法,它能够在高维状态和动作空间下解决固定数据集的离线学习问题,在广泛的基准任务上表现出优越性能。
- 使用线性函数逼近进行无奖励强化学习
在不需要奖励函数的情况下,在批量强化学习和多个奖励函数的领域中,代理人可以收集数据,然后使用线性马尔科夫决策过程设置中的线性转移和奖励来实现奖励免费强化学习,并得出一个算法的样本复杂度是多项式时间,与状态和动作的数量无关。
- AAAI通过最大化 Rényi 熵进行无奖励强化学习框架探索
通过最大化 Renyi 熵的方法,提出了一种适用于元 RL 的无奖励强化学习框架,该框架有效地解决了探索和利用分离的问题,并设计了相应的强化学习算法 (batch RL algorithm) 以便在规划阶段中能更好地处理任意奖励函数。
- ICLR旋转不变运动的目标条件批量强化学习
提出一种新颖的方法,使用批量 RL 设置学习目标条件策略,通过使用非目标条件策略收集批量数据,利用数据增强生成不同方向下相同动作的轨迹,并使用编码器学习不变性,从而学习到可让智能体在任何方向上行走的目标条件策略。