S-RL Toolbox: 对状态表示学习提供环境、数据集和评估指标
综述了最近几年在机器人控制任务中,涉及环境交互的各种状态表示学习方法及其应用,并重点介绍了这些算法如何利用通用学习目标。最后,讨论了评估方法以评估所学习的表示,并总结了现有和未来的研究方向。
Feb, 2018
该论文提出了一种基于状态表示学习的方法用于实现机器人视觉控制中的高效强化学习,该方法包含多个状态表示学习方法,能够提高采样效率、提高性能、抗超参数变化,并编码所有相关特征。
Jan, 2019
本文介绍了一种名为 SALE 的新方法,用于学习嵌入,以从低级状态中进行有效的表示学习,并将其与一种自适应检查点方法相结合,形成 TD7 算法,用于连续控制问题,并在 OpenAI gym 基准任务上表现出了显着提高。
Jun, 2023
生成表示在强化学习中得到了稳步流行,由于其在提高样本效率和许多环境中的回报方面的潜力。本文对常见的辅助任务进行了比较,基于数百个使用最先进的离策略强化学习算法训练的代理程序。发现显示,辅助任务的表示学习对于维度和复杂度较高的环境是有利的,并且学习环境动态性胜于预测奖励。我们相信这些洞察将使其他研究人员能够更明智地决定如何利用表示学习解决他们的特定问题。
Oct, 2023
选择适当的环境表示对于强化学习代理的决策过程并不总是直观的,本研究考察了不同状态表示对于激励代理解决机器人任务的影响,结果显示使用数字状态的强化学习代理与非学习基线表现相当,而使用经过预训练环境嵌入向量的图像表示的代理表现更好,推测任务特定的知识对于实现收敛和高成功率的机器人控制是必要的。
Sep, 2023
利用神经网络简化世界,构建机器人手臂三维位置的低维状态表示,我们在高维图像中使用先验知识的失真函数学习无监督,并通过加大图像尺寸、添加干扰项和域随机化等手段实现转移学习,检验新先验在表示的稳定性上的贡献。
Sep, 2017
本文在三个机器人任务中系统评估了多种常见的学习和手工工程化表示方法,并从三个方面对每种表现方法进行评估,即维度,可观测性和分离度,发现在输入代理或作为辅助任务的情况下,可以显著提高性能,并挑战了什么是控制机器人 ' 好' 表示的见解。
Nov, 2020
本研究探讨了完全自我监督的学习方法,基于状态达成最短时间来实现通用图像嵌入和控制基元,同时介绍了一种新的状态操作价值函数结构,建立了模型自由和模型基础方法之间的联系,并提高了学习算法的性能。三项模拟机器人任务的实验结果表明了这些发现。
Jan, 2019
通过建模状态转换的动力学方程、优化编码器以满足状态转换过程并区分状态空间和噪声空间,以及从序列元素频率域和多步预测的角度顺序地建模内在动力学方程关系,我们提出了一种内在动力学特征驱动的序列表示学习方法(DSR),并在视觉任务中展示了出色的表征能力。
May, 2024
该研究采用增强学习的方法,通过深度空间自编码器从摄像头图像中直接学习状态表征,以实现对环境进行特征点提取和控制的闭环控制,展示了 PR2 机器人在推动自由玩具方块、使用铲子拿起一袋米和在不同位置将绳环悬挂在钩子上等任务中自动学习控制的成功案例。
Sep, 2015