- 学习利用先前行为解决任务
通过在 Demonstrations 领域中应用深度强化学习(DRL),我们提出了一种基于内在奖励驱动的示例控制方法(IRDEC),该方法使代理能够探索和获取所需的先前行为,然后与示例中的任务特定行为相连接,无需额外演示先前行为即可解决稀疏 - WWWAR2-D2 无需实体机器人训练机器人
AR2-D2 是一种不需要经过专门训练的人,也不需要在数据采集期间使用真实机器人的演示数据收集系统,可用于训练真实机器人的行为克隆代理,并且与真实机器人演示数据训练同样有效。
- 基于策略的样本高效观测模仿学习
本文提出了 SEILO,这是一种新颖的 ILO 的样本有效的 on-policy 算法,结合了标准的对抗性模仿学习和逆动力学建模,通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈,我们实证表明,相比于其他现有的 on-policy - 分解和修复:使用期权提高模仿学习对抗示范的性能
提出了一种新技术,可以识别对学习有用的演示轨迹的部分并利用它们进行学习,同时排除受对手修改的轨迹的部分,以提高学习效率,在预示轨迹遭到不同类型和程度的对手攻击的情况下,该算法有效防止了学习表现下降。
- 基于覆盖率的上下文学习示例选择
该研究提出了一种基于覆盖测试输入相关重要方面的信息量评估框架,使用 Set-BSR 来找出信息最丰富的示范集,应用于复杂构成生成任务和多元语言模型中,得出与任务或模型特异性培训相比效果最佳的结果。
- Self-ICL: 自生成示范的零样本上下文学习
本文提出了 Self-ICL,一种基于零 - shot 学习的简单框架,用于优化大型语言模型的内在能力,并创造了虚拟演示的概念以有效地进行 ICL。通过在 BIG-Bench Hard 上进行的评估,该方法能够显着提高模型的性能。
- OpenVR: 操作远程操作的遥控器
介绍一种使用虚拟现实技术进行机器人 Teleoperation 的方法,这种方法结合了 Franka Emika Panda 机器人和 Oculus VR 头戴式设备,并且具有易于使用和修改的特点。
- DEFENDER: 使用演示进行基于 DTW 的情节过滤,以增强 RL 安全性
提出了一种基于任务的方法来提高强化学习智能体在学习过程中的安全性,该方法利用少量的安全和不安全示范来过滤轨迹,适用于任何强化学习算法,并可应用于任何任务。在三个任务和两个状态下最新的强化学习算法的 OpenAI Gym benchmark - 多目标多智能体决策中的演示推理
本研究提出了一种算法,能够从优化或接近最优演示中推断出线性优先权重,并在三个环境中进行评估。经验证实,相对于基线算法,该算法在时间需求和推断偏好的准确性方面都有显著的改进。未来,我们计划在多智能体系统中评估该算法的有效性,其中一个智能体能够 - 思维链预测控制
该论文研究了从示范中学习复杂低级控制任务的泛化策略学习,并提出一种新颖有效的方法,将时间抽象和具有规划能力的层次强化学习与模仿学习相结合,基于决策基础模型,利用可扩展的演示来学习具有一致性和结构化的长期行动指导,从而提高了低级操纵任务的性能 - 使用示范加速强化学习和规划:一项调查
本综述介绍了在复杂环境下采用启发式专家经验演示来加速强化学习决策的优点,讨论了演示在决策学习中各种应用方法,并提供了一个实用的流程示例用于生成和利用演示。
- 基于语言引导的仿真学习任务适应
本研究提出了一种新的任务学习方式,即通过自然语言表述来传递任务间的区别,以实现重用其他任务的演示,并使用 transformer-based 模型来理解实体之间的关系以学习目标任务,并构建了 Room Rearrangement 和 Roo - MoDem: 利用演示加速视觉基于模型的强化学习
利用演示可以显著提高模型学习效率,在这项工作中,我们确定了利用演示进行模型学习的关键因素,即策略预训练,有针对性的探索和演示数据的过采样,这三个阶段构成了我们的基于模型的 RL 框架。
- 利用潜在空间先验的示范利用
本文提出了一种利用演示数据集通过技能学习和序列建模相结合的方法,以学习高层策略的加速方式,其中序列模型形成潜在空间先验,加速了高层策略的学习速度和最终性能。
- 蒙特卡罗增强演员 - 评论家算法处理来自次优演示的稀疏奖励深度强化学习
提供 RL 算法的稠密形状奖励函数往往非常具有挑战性,因此发展能够从易于指定的稀疏奖励函数中学习的 RL 算法已成为研究动机。为解决因奖励稀疏性而引入的新的探索挑战,我们引入了 Monte Carlo 增强 Actor Critic (MC - 强化学习入门
本文提出了 JSRL 算法,该算法通过使用先导策略(guide-policy)和探索策略(exploration-policy)来解决机器人任务,从而实现了通过离线数据、演示或现有策略来初始化 RL 策略,并能够兼容任何 RL 方法。通过实 - 推理反事实以改善人类逆强化学习
为了让人类能够很好地与机器人协作,提出了一种包含逆强化学习和演示方法,在选择展示时考虑了人类对机器人决策的预期,使用了一种新的测试难度测量方法,并发现这种方法在易于测试的情况下降低了人类的性能,但在难于测试的情况下增加了性能。
- EMNLP重新思考演示的作用:何为情境学习的关键?
本研究分析显示:大型语言模型不需要准确的演示,而是通过演示提供的标签空间、输入文本的分布和序列的整体格式等方面驱动任务表现的提高。因此,揭示了语境学习的原理和作用方式,同时提出了新的问题,即能否仅仅通过推理来学习大型语言模型的更多内容。
- ICML来自演示的动作量化连续控制
本文提出了一种基于 RL 的新方法 AQuaDem,可从人类演示中学习连续动作空间的离散化,以实现在连续控制问题上的离散动作深度 RL 技术应用,并通过实验证明了优于 SAC 和 GAIL 的性能。
- 离线强化学习的半监督奖励学习
通过半监督学习算法,探索在人类奖励注释最小的约束下进行奖励学习,从而在缺少奖励函数的情况下培训机器人行为,并发现奖励模型的质量与最终策略之间的关系。