在第一人称模拟 3D 环境中，针对稀疏奖励对象交互任务的强化学习

IJCAIOct, 2020

在第一人称模拟 3D 环境中，针对稀疏奖励对象交互任务的强化学习

Reinforcement Learning for Sparse-Reward Object-Interaction Tasks in a First-person Simulated 3D Environment

Wilka Carvalho, Anthony Liang, Kimin Lee, Sungryull Sohn, Honglak Lee...

TL;DR本文介绍了一种无监督学习表示对象并执行物品交互任务的方法，它采用自主注意对象模型作为辅助任务，并在 AI2Thor 虚拟环境中进行测试。实验结果表明，该方法比其他辅助任务更快地学习成功率高。

Abstract

First-person object-interaction tasks in high-fidelity, 3D, simulated environments such as the AI2Thor virtual home-environment pose significant sample-efficiency challenges for reinforcement learning (RL) agents

reinforcement learning virtual environment object-interaction object attention unsupervised representation learning

发现论文，激发创造

基于关系强化学习实现实用的多物体操作

本文介绍了使用基于图形的关系结构从简单的任务中学习并实现复杂的机器人操作任务，使用了强化学习方法并在喂入少量数据的情况下超越现有的最先进方法，同时也实现了零样本泛化。

Dec, 2019

基于模拟运动演示的机器人操纵强化学习

本文提出了一种新的机器人操作方法，该方法利用了物体本身的运动学习，通过使用物理模拟器中的对象运动策略生成辅助奖励，称为模拟运动演示奖励（SLDRs），该方法可以在不需要人类演示或昂贵成本的情况下，通过强化学习来掌握机器人操作技能，从而实现多物体堆放和非刚性物体操作等任务的更高成功率和更快学习。

Oct, 2019

通过与物体交互学习物体

通过与 AI2-THOR 环境的互动，实现基于人类婴儿学习机制的计算框架，不依赖外部监督学习，从而有效地发现物体并学习物理特性。

Jun, 2020

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017

强化学习中的稀疏奖励问题处理

本研究探索和对比了现有的强化学习方法，以避免仅提供稀少回报的环境的难度，并在不同难度和奖励频率的几个电子游戏环境中实施和比较不同的解决方案，提出了一种结合好奇心驱动探索和无监督辅助任务两种方法的新型强化学习解决方案。

Oct, 2019

利用线性关系网络进行组合多对象强化学习

本文提出一种基于关系归纳偏见的新型插入式模块，可使代理程序在学习固定的多对象设置中学习操作任务，并在输入对象数量改变时零样本泛化，解决了前人方法因其复杂度而无法泛化的问题。

Jan, 2022

基于强化学习的物体几何形态高效表征与互动抓取策略学习

本文提出一种基于强化学习的框架，通过连续地控制一个类人机械手，学习各种几何不同的实际物体的交互抓取。该框架在物体几何的显式表示方面进行了探索，并且通过符号距离隐式地指导搜索，最终表现出在更具挑战性的条件下学习的能力。

Nov, 2022

基于结构化世界模型的好奇探索实现零样本物体操作

使用结构化世界模型的内在动机强化学习算法，实现了多物体环境中的高效探索以及零样本泛化，可以完成像堆叠、翻转、拿起、投掷等任务。

Jun, 2022

基于物体中心表征的自监督视觉强化学习

该研究提出了使用基于物体的表征作为组成性生成世界模型所学习的模块化和结构化观察空间，以帮助自主代理发现和学习有用的技能，并进一步将这些技能组合起来解决复杂的组合任务。

Nov, 2020

使用无监督辅助任务的强化学习

该论文介绍了一种深度强化学习代理，它不仅能够直接最大化累积奖励，在共同的表现下还能同时最大化许多其他伪奖励函数，该代理基于不受外部奖励影响的无监督学习得到共同的表现，并对外部奖励进行关注，可以快速适应实际任务，在 Atari 和三维 Labyrinth 任务中都取得了显著的优异表现。

Nov, 2016