$P^{3}O$: 通过提示传递视觉表示以进行强化学习

Mar, 2023

$P^{3}O$: 通过提示传递视觉表示以进行强化学习

$P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting

Guoliang You, Xiaomeng Chu, Yifan Duan, Jie Peng, Jianmin Ji...

TL;DR提出了一种名为 Prompt based Proximal Policy Optimization ($P^{3}O$) 的深度强化学习算法，该算法通过应用提示从目标环境（具有不同的视觉输入）到源环境传输视觉表示，包括三个阶段：预训练、提示和预测，训练 Prompt-transformer 来适应目标环境，并在 OpenAI CarRacing 视频游戏中进行实验，结果表明该算法优于现有的视觉传输方案，能够在具有不同视觉输入的环境中使学习策略表现良好，比在这些环境中重新训练策略更加有效。

Abstract

It is important for deep reinforcement learning (DRL) algorithms to transfer their learned policies to new environments that have different visual inputs. In this paper, we introduce prompt based proximal policy optimiz

发现论文，激发创造

使用后继特征和泛化策略改进的深度强化学习转移

本文通过扩展successor features (SFs)和generalised policy improvement (GPI)框架的基本假设，实现从一组任务到另一组任务的优雅而健壮的技能迁移方法，并在一个复杂的三维环境下进行了实证验证。

Jan, 2019

通过Wasserstein域混淆进行强化学习的视觉迁移

提出一种新的在强化学习中用于视觉迁移的算法WAPPO，其通过学习对齐源任务和目标任务中提取特征的分布，通过Wasserstein混淆目标来近似和最小化源域和目标域的特征分布之间的Wasserstein-1距离，并在Visual Cartpole和16个OpenAI Procgen环境中成功地传输了策略，优于之前的视觉传输算法。

Jun, 2020

SECANT: 自学习克隆以实现视觉策略的零样式泛化

本论文提出了一种名为SECANT的新型自我专家复制技术，旨在学习从弱增强到强增强的映像数据，以提高其对视觉变化的鲁棒性，在包括DeepMind Control，机器人操作，基于视觉的自主驾驶和室内物体导航在内的四个具有挑战性的领域，SECANT显着提高了SOTA的平均奖励。

Jun, 2021

通过视觉重写规则学习可推广行为

本文提出了一种使用规则来捕获游戏动态的深度强化学习代理方法，该方法不使用神经网络，且在多个传统游戏中表现出优异的性能，极高的样本效率和强大的泛化能力。

Dec, 2021

小样本策略概括的决策Transformer

人类可以利用以往的经验从少量的演示中学习新的任务。我们提出了一种基于Prompt-DT的模型，它借助Transformer架构的序列建模能力和prompt框架，在离线RL中实现了少量样本的适应性。我们的实验表明，Prompt-DT是一种强大的少量样本学习器，可以在目标任务上进行良好的泛化。

Jun, 2022

RL-ViGen：一种用于视觉泛化的强化学习基准

Visual Reinforcement Learning中的generalization问题是一个长期存在的挑战，该研究介绍了一个新的用于Visual Generalization的Reinforcement Learning基准测试框架（RL-ViGen），包含多样的任务和广泛的generalization类型，以便更可靠地评估agent的可视化generalization能力，并发现目前没有单一算法能够在所有任务中普遍占优势，旨在为未来创建适用于实际场景的通用视觉generalization RL agent奠定基础。

Jul, 2023

RePo: 通过正则化后验可预测性提高强化学习模型的弹性

这篇论文提出了一种视觉模型驱动的强化学习方法，它学习到了一个对噪声和干扰具有弹性的潜在表示，通过鼓励表示能够最大程度地预测动态和奖励，并在观察和潜在表示之间限制信息流。此方法对于视觉干扰具有显著的抵抗力，在动态环境中能够有效运行。此外，作者还提出了一种简单的无奖励对齐过程，使得编码器能够在测试时进行快速适应，无需重新学习动态和策略。这项工作是使模型驱动的强化学习在动态多样的领域中成为实用和有用工具的一步，作者在模拟基准测试以及具有噪声电视背景的真实环境中展示了其有效性。

Aug, 2023

多智能体强化学习中的合作提示优化

最近，基于强化学习的自动化提示优化引起了越来越多的关注。这种方法具有重要优势，比如生成可解释的提示并与黑匣子基础模型兼容。然而，庞大的提示空间大小对于基于强化学习的方法构成挑战，常常导致次优策略收敛。本文提出了MultiPrompter，一个新的框架，将提示优化视为一种在协作博弈中，由提示者轮流共同组成提示的过程。我们的协作提示优化有效地减小了问题的规模，并帮助提示者学习到最优提示。我们在文本到图像任务上测试了我们的方法，并展示了其生成比基准模型更高质量图像的能力。

Oct, 2023

视觉强化学习泛化的可靠双向过渡模型表示

基于可靠的双向预测环境转换能力，我们引入了一个双向转换（BiT）模型，从视觉观察中提取可靠的表示形式，展现出了竞争力的泛化性能和样本效率。

Dec, 2023

将一致性策略推广到带有优先近端经验正则化的视觉强化学习

本研究针对视觉强化学习中的低样本效率和训练稳定性问题，提出了一种样本基础的熵正则化方法，旨在稳定策略训练。通过优先近端经验正则化（CP3ER），该方法在DeepMind控制套件和Meta-world的21个任务中实现了新的最先进（SOTA）性能，首次将一致性模型应用于视觉强化学习，展示了其潜力。

Sep, 2024