利用学习奖励函数自动评估挖掘机操作员

Nov, 2022

利用学习奖励函数自动评估挖掘机操作员

Automatic Evaluation of Excavator Operators using Learned Reward Functions

Pranav Agarwal, Marek Teichmann, Sheldon Andrews, Samira Ebrahimi Kahou

TL;DR本文研究使用自动化评估和强化学习在高昂的人工成本下教授挖掘机操作，包括考虑内部动态、安全标准和仿真环境中的学习策略，以实现更安全的操作。

Abstract

Training novice users to operate an excavator for learning different skills requires the presence of expert teachers. Considering the complexity of the problem, it is comparatively expensive to find skilled experts as the process is time-consuming and requires precise focus. Moreover, since humans tend to be biased, the evaluation process is noisy and will l

excavator operation automatic evaluation reinforcement learning safety criterion real-world simulation

发现论文，激发创造

无监督感知奖励用于模仿学习

利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数，以便在真实世界环境中使用强化学习智能体执行任务。

Dec, 2016

交互自主学习偏好

研究人机交互中智能机器人的学习奖励功能从而完成任务，探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能，包括两两比较、评分、最佳选择等，并提出主动学习技术，以优化从用户反馈中获得的期望信息，进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。

Oct, 2022

异步人类反馈下的自主机器人强化学习

实现自主学习的算法对于在真实环境中的机器人来说一直是个挑战，但本研究描述了一个实际的强化学习系统，通过在真实环境中进行训练，并借助人类的反馈来实现不间断的改进。该系统在不需要设计奖励函数或重置机制的情况下，通过自我监督学习算法和人类反馈产生的信息来指导探索和筛选学习策略。在模拟环境和真实世界中的机器人任务上的评估结果表明，该系统能够有效地学习行为。

Oct, 2023

走向真正意义上的自主评分

本文旨在解决自主评分问题，通过物理仿真和实时原型环境设计启发式和学习策略，解决在仿真环境中的任务，同时探索物理仿真和真实场景之间的鸿沟

Jun, 2022

从野外人类视频中学习通用机器人奖励函数

该研究提出了使用 Domain-agnostic Video Discriminator (DVD) 的方法，通过对分类视频完成相同任务的数据进行学习，实现多任务奖励功能的广义推理。通过将人类数据集与机器人数据相结合，该方法可以在未知环境中实现机器人操作任务的成功执行。

Mar, 2021

离线学习目标条件策略：自监督奖励塑形

在机器人领域，通过从离线数据集中学习实现多项技能的智能体是一个重要问题。本文提出了在自监督学习阶段对预先收集的数据集进行处理以理解模型的结构和动态，并对离线学习的策略进行强化学习的方法。我们在三个连续控制任务上评估了我们的方法，并展示了我们的模型在特别是涉及长期规划任务上明显优于现有方法。

Jan, 2023

应对挑战环境中机器人探索的在线自适应无导数评估

该论文介绍了一种基于状态价值函数、离线蒙特卡罗训练和基于传感器信息的内在奖励函数的机器人探索方法，该方法能够更好地预测未来状态的价值以更好地指导机器人探索，在挑战性的地下和城市环境中首次应用于真实世界数据集中。

Apr, 2022

通过观察人类学习机器人操作的奖励函数

该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数，并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型，从而能够在多个操纵任务上加速训练，而无需从机器人环境中获得先验数据，也无需使用特定于任务的人类演示数据。

Nov, 2022

基于演示引导的强化学习及高效探索技术用于手术机器人任务自动化

本文介绍了一种基于强化学习的手术自动化算法，使用专家演示数据来提高任务探索效率并克服探索挑战。实验显示该算法在 $10$ 个手术操作任务中取得了显著的提高，并在实际机器人上展示了有效性。

Feb, 2023

自我提升机器人：端到端自主视觉动作强化学习

提出 MEDAL ++ 算法，利用少量的专家演示，在无需人工监督或监管的情况下，通过同时学习任务和任务的反向操作，自主地练习任务，从演示中推断出奖励函数，并从高维视觉输入端到端学习策略和奖励函数。在模拟和真实机器人实验中，MEDAL++ 都表现出了优秀的表现，证明其比基于视觉的现有方法更具数据效率且表现更优秀。

Mar, 2023