- 视觉强化学习中无界数据增强的配方
通过数据增强的广义方法 SADA,可以提高 Q - 学习算法在视觉观察训练中的稳定性和泛化能力,适用于各种数据增强方式。
- 文本环境中的强化学习智能体的语言引导探索
通过使用预训练语言模型(称为 GUIDE)为强化学习代理(称为 EXPLORER)提供决策级别的指导,我们引入了 Language Guided Exploration(LGE)框架,并观察到 LGE 在具有挑战性的文本环境中显著优于传统强 - 基于生成轨迹建模的环境设计层次化方法
无监督环境设计(UED)是一种培训通常能够实现良好零 - shot 转移性能的能力强大的代理的范式。我们提出了一种基于分层 MDP(马尔可夫决策过程)的新框架,通过指导学生的性能,上层 MDP 来培训下层 MDP 学生代理。我们的算法 SH - OmniSafe:用于加速安全强化学习研究的基础设施
本篇论文给出一个基础性安全强化学习框架,拥有不同领域跨越的一系列算法和重要的安全元素,以便更有效地研究 AI 安全和 SafeRL 算法实现。
- 具备偏好排名的 Prompt-Tuning 决策 Transformer
本文提出了 Prompt-Tuning DT 算法,使用轨迹段作为提示来指导强化学习(RL)代理获取环境信息并通过黑盒调整来优化提示,以提供更多相关信息和指导代理走向特定任务的方向,在低数据情况下仅学习 0.03%的参数即可实现与全模型微调 - 用简单的进化思想辅助基于梯度的强化学习
我们提出了一种简单而有效的强化学习算法,通过使用进化算子在强化学习中引入大的有向学习步骤,并使用具有共同经验缓冲区的强化学习代理人种群进行训练,从而有效地搜索策略空间。
- 复杂实时战略游戏中的多智能体强化学习集中式控制
本研究通过在 Lux AI v2 Kaggle 比赛中应用 RL,使用一种集中式方法来训练 RL 代理,并报告了沿途的多个设计决策,以控制多种类型的变量大小编队群,从而解决多优化问题。
- ICLR在部分观测情况下,可证明的连续领域模拟到现实世界的转移
本文研究了在部分观测连续领域中的 Sim-to-real 转移,研究了使用线性二次高斯系统建模的仿真环境和真实环境,发现鲁棒对抗训练算法可以学习仿真环境下的策略,并相对于现实环境的最优策略非常具有竞争力。我们提出了一种针对无穷时间平均成本 - 重新思考强化学习中的值函数学习以实现泛化
本研究旨在训练多个视觉环境下的 RL 代理以提高观察泛化性能,并提出了一种延迟评论者策略梯度(DCPG)算法,该算法可以使用单一统一的网络架构来实现,极大地提高了 Procgen 基准测试的样本效率和观测泛化性能。
- 新路径:使用合成指令和模仿学习扩展视觉语言导航
利用 360 度全景数据生成的合成语音引导大型模拟数据集,使用模仿学习的简单 Transformer 模型,本文介绍了一种新的方式 —— 合成指令及大规模模仿学习来提高代理程序。
- 通过生成深度学习为强化学习智能体提供反事实状态解释
本文提出了一种基于生成式深度学习的新颖例子法方法,生成针对深度强化学习代理在视觉环境中操作(如 Atari)的反事实状态解释,探究这种解释的有效性,并对非专家参与者进行了测试比较。结果表明,与最近邻基线或根本没有解释相比,反事实状态解释对于 - 无新闻外交:多代理人游戏建模
该研究使用专家轨迹训练了一个基于神经网络的无语版外交政策模型,然后使用强化学习代理在自我对弈过程中进行了训练,两种代理表现均超过了基于规则的机器人。
- IJCAI基于情感的深度 Q 学习
本文介绍了一种基于 “同理心” 和 “以人为本” 的想法的增强深度学习网络 Empathic DQN,旨在有助于减轻有害行为带来的负面影响并降低同伴伤害,为机器道德和强化学习提供了潜在的联系。在两个网格世界环境中的概念验证结果显示了该方法的 - Dopamine:一种深度强化学习的研究框架
本文介绍了基于 TensorFlow 的新的 Deep RL 研究框架 Dopamine,同时提供了一种分类 Deep RL 不同研究目标的方法,旨在支持更多的研究多样性。
- IJCAITextWorld:基于文本的游戏学习环境
TextWorld 是为训练和评估基于强化学习的 RL agents 在基于文本的游戏上而设计的一个 Python 库,该文献使用 TextWorld 构建基于强化学习形式主义的基准游戏,并评估了几个基线代理。
- ICML混合匹配 —— 强化学习智能体课程
Mix&Match 是一个训练框架,它利用课程从更简单的代理中自动形成课程并逐渐训练更复杂的代理,相比于传统的课程学习方法,我们使用逐渐改变策略内部表征的过程,并在 3D 游戏、多任务等场景中取得了显著的性能提升。