SECANT: 自学习克隆以实现视觉策略的零样式泛化
本文提出了一种无需专家指导,在探索环境中通过前向一致性损失生成目标导向的技能策略,并应用其中的零样本策略,成功地实现了 Baxter 机器人复杂绳子操作和 TurtleBot 在未知办公室环境中的导航。
Apr, 2018
本研究通过引入基于显著性的 Q 网络(SGQN),提出了一种通用的视觉强化学习方法,该方法对 Deepmind 的控制泛化基准进行了改进,从而在训练效率、泛化差距和策略可解释性等方面创造了新纪录。
Sep, 2022
本研究提出了一种名为增强型策略克隆(APC)的技术,通过使用合成状态在采样轨迹周围诱导反馈敏感性,从而显着减少了克隆专家所需的环境交互次数,实现了从专家到学生策略的高效数据迁移,适用于许多现有的算法。
May, 2022
我们提出了一种学习模仿专家行为并能在以前未见过的领域进行迁移学习的算法。通过使用 AnnealedVAE 来学习一个解缠缚状态表示,并通过学习一个单一的 Q 函数来模仿专家,我们结合了深度强化学习中的最新进展,从而克服了奖励函数设计的困难、在不同领域部署已学习策略的困难,以及直接在现实世界中学习由于安全问题而昂贵或不可行的问题。在 3 个环境中展示了我们方法的有效性,这些环境的难度和迁移知识类型各不相同。
Oct, 2023
本研究提出了一种名为 Cross-Trajectory Representation Learning(CTRL)的方法来训练一个无需奖励信号的编码器,使其将行为相似的观察结果映射到相似的表示空间中,以实现 RL 中的零 - shot 泛化,实验表明 CTRL 与 PPO 相结合可以更好地应对 Procgen 基准测试套件中的挑战。
Jun, 2021
通过观察映射和行为克隆,本文提出了一个针对两个领域的少样本策略传递框架,利用生成对抗网络(GANs)和循环一致性损失将源领域和目标领域之间的观察映射,并将获取的映射用于将成功的源任务行为策略克隆到目标领域,进而实现有限目标任务交互情况下和源领域与目标领域在语义上不相似的情况下的成功行为策略传递。
Oct, 2023
使用预训练的基础模型的潜在空间索引演示数据集,通过复制类似情境中的行为来解决具有计算成本的训练过程和策略适应问题,实验结果显示该方法在准确性和知觉评估方面明显优于基于学习的模型,能在 Minecraft 环境中以人类样式表现出智能行为。
Jan, 2024
本研究探讨采用图像到语义翻译技术进行政策传递,缓解基于视觉的机器人控制代理的学习困难问题。通过学习从图像到语义的映射,我们可以将在模拟器中预先训练的政策传递到现实世界中,从而消除学习花费和风险高的现实世界上策略的实时交互学习。此外,使用图像到语义映射在训练策略时具有计算效率和可解释性优势。我们提出了两种技术:在模拟器环境中使用转换函数的配对增强技术和主动学习,以解决图像到语义映射中的主要困难,即为产生训练数据的人工注释成本。我们观察到注释成本的降低,而传递的性能不会下降。因此,所提出的方法优于现有的未经注释的方法。
Jan, 2023
本文提出了一种基于强化学习进行合成特征选择的新方法,该方法利用 Transformer-based selector 根据验证分类精度选择特征,以此作为奖励,实验结果表明它比现有的特征生成方法表现更好。
Apr, 2023