可控行为的弱监督强化学习

Apr, 2020

Weakly-Supervised Reinforcement Learning for Controllable Behavior

Lisa Lee, Benjamin Eysenbach, Ruslan Salakhutdinov, Shixiang Shane Gu, Chelsea Finn

TL;DR本文介绍了一种使用弱监督来自动区分语义明确的任务子空间和无意义的 “杂草” 任务空间的方法。研究表明，这种学习到的子空间可实现高效探索，并提供了一种捕捉状态间距离的表示形式。该方法在多种具有挑战性的基于视觉的连续控制问题中实现了显著的性能提升，特别是在环境复杂性增加的情况下。

Abstract

reinforcement learning (RL) is a powerful framework for learning to take actions to solve tasks. However, in many settings, an agent must winnow down the inconceivably large space of all possible tasks to the single task that it is currently being asked to solve. Can we instead constra

reinforcement learning weak supervision exploration continuous control performance gains

发现论文，激发创造

半监督强化学习技能泛化

本文研究了如何在有限的标注数据下，通过半监督强化学习及反强化学习等方法，使机器人等强化学习智能体在探索未知领域时能够获得更好的泛化效果，并评估了该方法在基于图像的控制任务上的表现。

Dec, 2016

强化学习智能体自动生成目标

提出了一种基于 Adversarial training 的方法，用于 Reinforcement learning 中任务发现的问题，可以实现在不需要任何先验环境知识的情况下，对多元化任务的高效自动学习，并且能够解决传统上存在的稀疏奖励问题。

May, 2017

强化学习与概率推断的理解

本研究因 RL 作为推理方法的短处而对其进行澄清，RL 代理人必须考虑其行动对未来奖励和观察结果的影响，即探索和开发之间的权衡。我们证明了‘RL 作为推理’近似在基本问题中表现不佳，但我们展示了通过小修正该框架可以获得可靠的算法，该算法与最近提出的 K-learning 等价，我们进一步将其与汤普森取样联系起来。

Jan, 2020

来自真实多智能体演示的强化学习中的自适应动作监督

本文提出了一种自适应动作监督的 RL 方法，通过动态时间规整的最小距离选择 RL 真实世界演示中的动作，使得 RL 模型能够在网络空间获得回报

May, 2023

知识图谱推理：自我监督强化学习

强化学习通过自我监督预训练方法改进了知识图谱推理任务的性能，解决了动作空间大的挑战和分布不匹配问题，并且超过了现有的最先进结果。

May, 2024

离线强化学习的半监督奖励学习

通过半监督学习算法，探索在人类奖励注释最小的约束下进行奖励学习，从而在缺少奖励函数的情况下培训机器人行为，并发现奖励模型的质量与最终策略之间的关系。

Dec, 2020

关系深度强化学习

通过结构化感知和关系推理的方法，使用自我注意力来进行实体之间关系的迭代推理以及指导无模型策略的建立，提高了强化学习的效率、泛化能力和可解释性，并在 Box-World 任务和 StarCraft II Learning Environment 等方面取得了一定的进展。