- 基于 Python 的 Simulink 模型的强化学习
该论文提出了一个基于 Python 和 Simulink 模型训练强化学习智能体的框架,通过充分利用 Python 的自定义选项和流行的库,如 Stable Baselines3,以弥合 Simulink 环境和 Python 灵活性之间的 - 量子优势演员 - 评论家强化学习
本研究提出一种新颖的量子强化学习方法,将优势演员 - 评论家算法与变分量子电路结合,通过替代部分经典组件解决了强化学习可扩展性方面的问题,同时保持了较高性能。通过实证测试多种量子优势演员 - 评论家配置与知名的倒立摆环境,我们的结果表明,使 - 金融时间序列的无模型控制的课程学习与模仿学习
课程学习和模仿学习在机器人领域得到广泛应用,但对于基于高度随机时间序列数据的控制任务,研究工作较少。本研究通过数据增广实现了课程学习的基本思想,通过策略提炼从模型中学习实现了模仿学习,并发现课程学习可以提高复杂时间序列控制任务的性能,这一发 - 连续随机动力学学习环境模型
通过深度强化学习、自动化学习和马尔可夫决策过程等技术,学习出由自主智能体控制的环境模型,以解决复杂环境下的控制问题,并在多个强化学习基准环境中验证了方法的有效性。
- 规划、消除和跟踪 —— 语言模型是装备智能体的良师益友
使用大型语言模型的知识来简化控制问题,而不是直接解决它,作者提出了 Plan, Eliminate, and Track (PET) 框架,并在 AlfWorld 指令跟随基准测试中取得了显着的 15% 性能提升。
- ICLRPreference Transformer:使用 Transformers 模拟人类偏好的 RL 建模
研究了基于偏好的强化学习应用于人类决策,使用 transformer 建立时间依赖的偏好模型,在控制任务上成功训练,对人类决策的时间依赖可以自动捕捉。
- 可证明有效的核化 Q 学习
在 Q-learning 框架下,我们提出并分析了核化 Q-learning。该方法在任意核函数下可以导出遗憾界,并且在经典控制任务的测试中,与深度 Q-learning 相比,使用高斯 RBF 核函数的核化 Q-learning 在较少步 - 使用多层读出的水库计算深度 Q 网络
这篇论文提出了一种引入储备计算的重放记忆方法,在这种方法中,使用多层神经网络作为读出层可以提高基于递归神经网络的强化学习在四种控制任务中的学习性能。
- 多重不确定性集合上的鲁棒策略学习
本文提出了一个更加通用的解决方案来解决强化学习中的鲁棒性问题,设计了一种算法,该算法结合了系统识别和鲁棒强化学习的优点,解决在不同情况下的不确定性问题,并在多个控制任务中获得了比之前方法更好的最坏情况执行性能。
- ICML以关键帧为中心的视觉模仿学习
该研究提出了一种通过加强模仿的关键帧来改进模仿学习的方法,以在视觉模仿等现实场景中实现更好的性能表现,并在基于图像和基于视觉的控制任务中进行了验证。
- 神经密度模型模仿
本文提出了一种新的模仿学习框架(IL),通过对专家占用度量的密度估计,接着使用密度作为奖励进行最大占用度熵强化学习(RL)。我们的方法最大化一个非对抗的无模型 RL 目标,可证明下界为专家和模仿者之间的占用度量的反向 Kullback-Le - IJCAI分布式强化学习探索
该研究提出了一种基于分布强化学习和结合贝叶斯参数更新与深度强化学习的框架,将多种先前的探索方法进行了概念统一,并推导出一个实用算法,在具有挑战性的控制任务上实现高效的探索。
- ICML强化学习中的时间限制
本文探讨了如何在有限时间内训练强化学习(reinforcement learning)代理,以及如何通过将时间限制整合到算法中来提高性能和稳定性,在控制任务(control tasks)方面取得了最新的成果。
- PVEs: 无监督学习结构化状态表示的位置速度编码器
本研究提出了一种能够将图片编码成对于任务相关对象的位置和速度的位置 - 速度编码器(PVEs),并使用物理世界交互的先验知识对其进行非监督学习,最终将其应用于像素的几个模拟控制任务并取得了有前途的预备成果。