- AC4MPC: 基于演员 - 评论家强化学习的非线性模型预测控制
利用演员 - 评论家强化学习技术提高模型预测控制性能,通过演员模型提供初始猜测解以及评论家模型对轨迹进行评估确定最佳控制方案。
- 从规约中归纳推理的强化学习
我们提出了一个新颖的归纳一般化框架,用于从逻辑规范中进行强化学习。该框架通过利用归纳任务之间的关系,学习生成适应归纳任务实例的策略生成器,以实现对长期任务中未见策略的广义化。
- 重温具有记忆单子的循环强化学习
强化学习中,使用记忆模型如 RNN 和 transformers 来处理部分可观测的马尔科夫决策过程(POMDPs),但这些模型在处理长序列时无法很好地扩展,与一种新兴的线性循环模型相比,其性能较差。我们发现这些模型的循环更新是一个幺半群, - SQT - std Q-target
Std Q-target 是一种保守的,基于单一关键的 Q 公式:Q 网络标准差,在强化学习中解决过高估计的偏见问题,我们将 SQT 应用于 TD3/TD7 代码并在七种常见的 MuJoCo 和 Bullet 任务上与最先进的 actor- - Pearl:一个可用于生产的强化学习智能体
Pearl 是一个使用模块化方式解决强化学习中的各个挑战的可投入生产使用的 RL 代理软件包,并在 Github 上开源。
- 通过 RL 对想象中的对话进行零样本目标导向对话
通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。
- 面向目标导向任务的模块化、可定制的增强学习环境:Minigrid 和 Miniworld
介绍了 Minigrid 和 Miniworld 库,它们提供了一套目标导向的 2D 和 3D 环境,旨在让用户快速开发出适用于各种研究需求的新环境,两个库都被 RL 社区广泛采用,促进了在广泛领域内的研究。通过案例研究展示了 Minigr - 您的价值函数是控制障碍函数:使用控制理论验证学习策略
本篇研究提出了将控制理论中的验证方法应用于学习价值函数中的 RL 问题,由此得出关于安全维护的价值函数与控制障碍函数之间联系的原始定理,并提出用于安全控制任务验证价值函数的新指标和实用的实现细节。此外,该研究作品还利用控制理论中的验证方法实 - Theta 序列作为资格跟踪:信用分配的生物学解决方案
使用海马体中的 theta 序列作为解决策略评估的方丈,可以在没有长期记忆的情况下进行授分,从而压缩行为并扩展短暂的神经记忆痕迹。
- 通过潜在意图从被动数据中进行强化学习
本文提出了一种基于意图模型和时序差分学习目标的强化学习方法,能够从非动作标签的被动数据中学习状态、策略和环境的可能后果三种表示,为解决后续任务提供了可行的价值预测的特性。
- AAAIRePreM: 用带掩码模型的表示预训练进行强化学习
通过使用遮蔽模型进行预训练,提出了适用于 RL 的遮蔽模型预训练方法 RePreM,避免了算法复杂性和数据增强的问题,并通过各种任务的实验证明了其有效性。
- 通过未来依赖选项推广 LTL 指令
本文提出了一种新的多任务 RL 算法,通过离线策略学习选项来实现任务完成的全局最优性,并通过训练基于子目标序列的多步价值函数来更有效地传递满足未来子目标的奖励,从而解决了在 RL 中学习 LTL 任务代价函数时的一些问题。实验结果表明,该方 - 深度强化学习中的嘈杂符号抽象:以奖励机器为案例研究
本篇文章提出了一种特殊的 POMDP 优化问题,研究当使用 Reward Machines 作为奖励函数语言时,对于状态到符号语言的映射不确定的情况下,如何通过强化学习生成策略,并通过实验证明了这种方法的有效性和现有方法的局限性。
- 强化学习中表征转移的可证明收益
本研究探讨了强化学习中的表征传递问题,提出了一种基于预训练和生成访问的新方法,可以帮助在源任务中发现一个共享表征来快速收敛到一个接近最优策略的目标任务中。
- ICLR一个接着一个:为一个不断变化的世界学习增量技能
该研究提出了一种新的技能发现的架构,通过递增学习的方式获得新技能,以适应不断变化的环境,并且在质量和下游任务解决能力方面显著优于现有方法。
- 基于关注交互图的意图感知机器人人群导航
本文提出一种基于循环图神经网络和注意力机制的新型 RL 方法,通过捕捉时空中多种交互类型来预测人类行为意图,并将该预测应用于无模型 RL 框架中以避免机器人干扰其他个体,从而在人群中实现机器人的安全、高效导航。
- ICLR基于模型的强化学习的实验设计视角
本文提出利用贝叶斯最优实验设计思想指导选择状态 - 动作对查询以达到高效学习的方法,即提出一种衡量一个状态 - 动作对对马尔可夫决策过程的最优解提供多少信息的获取函数,在每次迭代中,我们的算法最大化这个获取函数,选择提供最多信息的状态 - - ICML基于循环无模型强化学习算法可以成为许多 POMDP 问题的强基准线
本文通过比较 21 个环境中基于循环神经网络的无模型强化学习方法的效果,发现精心的架构和超参数决策通常可以实现比专门针对特定 POMDPs 设计的算法更好的表现,提出了一种简单高效的序贯决策模型作为 POMDPs 基线模型。
- ICML互动引导学习
提出一种交互基础学习的方法,用于解决假肢臂适应用户控制信号的问题,该方法可以通过学习如何评估反馈向量以发现潜在的奖励信号,并制定成功的策略,同时具备理论保证和实证评估。
- 自主驾驶的深度强化学习:一份综述
本文综述了深度强化学习算法在自动驾驶任务上的应用,包括分类、验证、测试和强化现有强化学习算法解决方案的方法,还介绍了相关领域和挑战。