关键词visual reinforcement learning
搜索结果 - 17
- 使用合成观测学习未来表示以提高效率的强化学习
通过丰富辅助训练数据,提出了一种无需训练的方法来合成可能包含未来信息的观察,从而改进了强化学习中的辅助表示学习,并展示了其在连续控制和基于无动作视频演示的视觉预训练中的先进性能。
- 强化学习中的零样本拼接使用相对表示
利用最近发展的潜在表示的统一框架,我们能够将代理的组件组合而不是从头重新训练,为视觉强化学习提供了新的可能性。这样可以创建能够处理训练过程中从未见过的环境和任务组合的全新代理,为强化学习的使用带来了更易接触和灵活性的道路。
- 视觉强化学习中影响泛化差距的因素的理论与实证研究
通过理论上回答测试环境存在干扰因素时造成泛化差距的关键因素,我们的研究论文弥合了这一问题,指出在训练和测试环境之间尽量减小表示差距是最关键的,这与人类直觉相吻合。我们的理论结果得到了 DMControl 泛化基准测试 (DMC-GB) 的实 - 具有通用性的视觉增强学习与分割模型
SAM-G 通过利用 Segment Anything Model (SAM) 的分割能力,结合 DINOv2 和 SAM 的图像特征,为视觉强化学习代理提供高质量的遮罩图像,显著改善了视觉泛化能力,并在 DMControl 和 Adroi - 视觉强化学习泛化的可靠双向过渡模型表示
基于可靠的双向预测环境转换能力,我们引入了一个双向转换(BiT)模型,从视觉观察中提取可靠的表示形式,展现出了竞争力的泛化性能和样本效率。
- 评估可部署的生命周期学习预训练模型
我们创建了一个新的基准,用于评估预训练在精选数据集上的可部署终身学习系统,提出了一个新的可扩展的终身学习系统,能够保持先前学习的强化学习任务中的知识。我们的基准衡量了一个可部署的终身学习系统在可伸缩性、性能和资源利用方面的效果。我们提出的系 - DrM:通过最小化休眠比率实现视觉强化学习的控制
通过减少网络的休眠比率,提高样本效率和渐进性能的可视化强化学习方法。
- 重访视觉强化学习中的可塑性:数据、模块和训练阶段
基于神经网络的高性能、高效样本视觉增强强化学习的主要研究领域之一是塑性。本研究通过系统性实证研究揭示了数据增强、评论者的塑性损失、塑性恢复等关键组成部分对塑性的影响,并提出了一种基于评论者塑性水平动态调整回放率来解决高回放率困境的策略,该策 - ICCV通过基于冲突感知的梯度协调增强来改进视觉强化学习中的泛化性能
在视觉强化学习中,学习具有出色泛化能力以适应未知环境仍然具有挑战性但至关重要。本文提出了一种名为 CG2A 的通用策略梯度优化框架,将增强组合更好地融入视觉强化学习算法来解决泛化偏差问题,通过发展梯度协议求解器和引入软梯度手术策略来改善颇具 - RL-ViGen:一种用于视觉泛化的强化学习基准
Visual Reinforcement Learning 中的 generalization 问题是一个长期存在的挑战,该研究介绍了一个新的用于 Visual Generalization 的 Reinforcement Learning - MoVie: 基于模型的视图概括策略自适应
本文提出了一种名为 MoVie 的视觉模型策略适应方法,通过在测试期间实现视图泛化,无需任何明确的奖励信号和任何训练期间的修改,可显著提高目标任务的性能表现,这表明该方法在实际中应用于机器人技术具有巨大的潜力。
- 3D 点云强化学习效果研究
该研究通过对比 2D 与 3D 表现,研究了 3D 神经网络在可视化强化学习任务中的效能,特别关注了基于 3D 点云的设计选择,研究表明在涉及到 agent-object/object-object 关系编码时,3D 点云比 2D 图像更有 - 规范化增强视觉强化学习的泛化能力
本文探讨将规范化技术整合到视觉增强学习方法中,以提高其泛化性能,并使用两种规范化技术,CrossNorm 和 SelfNorm,在 DMControl Generalization Benchmark 和 CARLA 上进行实验证明了该方法 - 学习更少,学得更好:有效增强对视觉强化学习的样本效率
本文探究了数据增强技术在视觉强化学习中的有效性,研究数据增强的相关特征对样本效率的影响并提出了新的操作方法 Random PadResize 和循环增强(Cycling Augmentation)以提高样本利用效率。在 DeepMind 控 - 视觉强化学习中数据增强的全面调查
本文提供了关于数据扩增在视觉强化学习中应用的广泛评论。作者提出了一个统一的框架,研究了数据扩增技术在视觉强化学习中的作用,并提供了一些方法来更好地利用扩增数据。最后,作者还通过系统的实证评估,总结了本文的研究内容及未来研究工作的展望。
- KDD通过奖励序列分布的特征函数学习与泛化相关的表示
通过学习奖励序列分布的特征函数,同时添加一个辅助任务来提取任务相关信息,我们提出了一种新方法 —— 特征奖励序列预测(CRESP),以解决视觉干扰对视觉强化学习广义化性能的影响。实验证明我们的方法在 DeepMind Control 任务中 - 无需演示学习可变形物体操纵
本文介绍了基于无模型视觉强化学习的变形物体操作问题,通过提出迭代的拾取 - 放置空间和只显式学习放置策略来加速学习,并使用 MVP 选择策略,此学习框架在变形物体操纵任务方面获得了比独立空间快一个数量级的学习,并使用领域随机化将策略转移到