表征至关重要: 提高机器人感知和探索能力
利用神经网络简化世界,构建机器人手臂三维位置的低维状态表示,我们在高维图像中使用先验知识的失真函数学习无监督,并通过加大图像尺寸、添加干扰项和域随机化等手段实现转移学习,检验新先验在表示的稳定性上的贡献。
Sep, 2017
本文研究了使用自我监督学习来学习连续控制任务的对抗学习方法。通过将多个帧联合嵌入到嵌入空间中,我们扩展了时间对比网络(TCN),从而能够更准确地编码位置和速度属性。我们证明了这种方法在强化学习任务中有效,可以通过仅使用学习到的嵌入作为输入,使用像Proximal Policy Optimization(PPO)这样的算法来学习连续控制策略。
Aug, 2018
本文研究功能性显著表征的强化学习方法,可以用于改善稀疏奖励问题的探索、实现具有长期视野的分层强化学习和作为下游任务的学习策略的状态表征。通过在多个虚拟环境中对比实验,表明该方法在表征学习、探索和分层强化学习方面具有优势。
Nov, 2018
研究了如何将在一个环境中学到的知识传递到另一个环境中的关键问题,并通过学习人类期望机器人执行哪些任务的中间表示方法,来提高机器人学习效率,从而为人类与机器人的互动打下基础。
May, 2022
通过引入时间分离(TED)作为强化学习辅助任务,可以更好地利用序列化 RL 观察结果,学习更健壮的表示形式,从而使 RL 算法对未知环境变量的变化更快地适应。
Jul, 2022
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
通过人类反馈,提出了一种用于解决视觉表征对齐问题和视觉奖励学习问题的方法:表示对齐的基于偏好的学习(RAPL)。在X-MAGICAL和机器人操纵的实验中,RAPL的奖励 consistently 生成高样本效率的优选机器人行为,并在视觉表征来自与机器人不同的实体的情况下显示出强大的零样本泛化能力。
Oct, 2023
数据驱动方法在机器人控制领域迅速发展,然而对未知任务领域的泛化仍然是一个关键挑战。我们认为泛化的关键在于具备足够丰富的表示以捕捉所有任务相关信息,并且对于训练与测试领域之间的无关变异具有不变性。我们实验研究了这样一种富含深度和语义信息的表示,用于视觉导航,并证明它使得完全在模拟室内场景中训练的控制策略能够泛化到多样的现实环境,包括室内和室外。此外,我们还展示了我们的表示减小了训练和测试领域之间的A-距离,从而改善了泛化误差的上界。我们提出的方法是可扩展的:随着基础模型在预训练期间吸收更多多样数据,学习策略会持续改进。
Oct, 2023
通过对离散表示法进行彻底的实证研究,我们发现,与传统连续表示法相比,在世界模型学习、无模型强化学习和连续强化学习问题中,将观测数据表示为分类值向量能更准确地模拟世界,并且使用离散表示法训练的智能体能够更好地学习策略和使用更少的数据,在连续强化学习中表现出更快的适应性。此外,我们的分析表明,性能改进可能归因于潜在向量中包含的信息和离散表示本身的编码方式。
Dec, 2023