针对复杂观测的对比型变分强化学习
基于互信息的强化学习作为一种无需任务导向奖励函数的复杂技能自主检索方法已被提出,但由于训练技能的顺序会在很大程度上影响样本效率,对于学习复杂技能仍具有挑战性。本文提出了一种名为变分课程强化学习(VCRL)的方法,将变分增强视为内在奖励函数的目标条件强化学习中的课程学习,并基于信息理论提出了一种无监督技能发现的新方法,称为值不确定性变分课程(VUVC)。我们证明,在一定的正则条件下,与均匀课程相比,VUVC 能够加快访问状态熵的增加。我们通过复杂导航和机器人操作任务验证了我们方法的有效性,同时以零次设定下的真实世界机器人导航任务为例,证明了通过我们方法发现的技能能够成功完成任务,并且将这些技能与全局规划器相结合可以进一步提高性能。
Oct, 2023
本文介绍了一种新的模型 - 基强化学习方法 Contrastive Value Learning 用于离线场景中,在不受奖励函数限制下,学习一个隐含的、多步骤的环境动力学模型,直接估计每个动作的价值,并在复杂的连续控制基准测试中优于先前的离线 RL 方法。
Nov, 2022
本文提出了一种深度变分强化学习方法,该方法引入了归纳偏置,允许代理学习环境的生成模型并在该模型中执行推断以有效地聚合可用信息。通过在 Mountain Hike 和 flickering Atari 的实验中表明,我们的方法优于先前依赖于循环神经网络对过去进行编码的方法。
Jun, 2018
本文提出了一种在部分可观察环境下应用深度强化学习解决机器人控制任务的算法,该算法包含了两个部分,即可变循环模型和强化学习控制器;实验证明,该算法比其他方法在数据效率和策略学习上表现更好。
Dec, 2019
本研究提出了一种基于深度强化学习算法的新方法 VRL,能够更好地理解场景中物体之间的相互关系和属性,并在大规模数据集上验证其优越性和预测能力。
Mar, 2017
用基于视觉显著性引导的强化学习(ViSaRL)来训练机器人从高维像素输入中执行复杂的控制任务,通过优化视觉表征,ViSaRL 显著提高了强化学习代理在不同任务上的成功率、样本效率和泛化能力。
Mar, 2024
本文介绍了多视角强化学习(MVRL)模型,通过观察模型来解决决策问题,提出了两种求解方法:观察扩展和跨角度策略转移,实验证明这两种方法在处理多视角环境中具有较好的性能,减少样本复杂度和计算时间。
Oct, 2019
本文提出了一种适合于迭代模型增强策略,即使在具有复杂图像观测的情况下,学习简单动态和成本模型的表示方法,使得基于线性二次调节器(LQR)的基于模型的 RL 方法可用于具有图像观测的系统, 并在包括通过图像直接操作真实世界机器人臂的操作中评估该方法,发现我们的方法相比其他基于模型的 RL 方法产生更好的最终性能,同时比无模型 RL 更高效。
Aug, 2018
我们提出了一种新颖的基于对比的框架 SCVRL,用于视频的自监督学习。与以前主要关注学习视觉语义的对比学习方法(例如 CVRL)不同,SCVRL 能够学习语义和动作模式。我们通过将现代对比学习范式引入 popular shuffling pretext 任务,展示了我们的基于 transformer 的网络在自监督设置下自然而然地具备学习运动的能力,并在四个基准测试中取得了 CVRL 的强大性能。
May, 2022
通过提出一种名为模型增强对比强化学习(MCRL)的新型强化学习推荐器,我们解决了离线数据集的稀疏性以及负反馈无法获取的问题,并通过对比学习来优化奖励函数和状态转移函数,实验结果表明该方法在两个现实世界数据集上显著优于现有的离线强化学习和自监督强化学习方法。
Oct, 2023