利用风格迁移的引导状态表示,提高深度强化学习的泛化性能
本文提出了一种名为 Bootstrapped Transformer 的新算法,将 bootstrapping 思想和模型自我生成更多离线数据相结合,进一步提高序列模型训练的效果,该方法在两个离线 RL 基准测试中均取得了优于其他强基线方法的效果,并分析其生成的伪数据所展示出的特点可能会对离线 RL 训练产生启示。
Jun, 2022
我们提出了 Thinker 算法,这是一种新颖的方法,使强化学习代理能够与学习的世界模型自主交互并利用它。Thinker 算法通过在环境周围包装一个世界模型,并引入专门用于与世界模型交互的新动作,使代理能够通过向世界模型提议替代方案来进行规划,然后选择一个最终动作在环境中执行。该算法的有效性通过在 Sokoban 游戏和 Atari 2600 基准测试中的实验结果得到了证明,其中 Thinker 算法分别实现了最先进的性能和有竞争力的结果。使用 Thinker 算法训练的代理的可视化结果表明,它们已经学会了有效地利用世界模型进行规划,以选择更好的动作。该算法的普遍性为如何将世界模型用于强化学习以及如何将规划无缝集成到代理的决策过程中打开了一个新的研究方向。
Jul, 2023
该论文提出了一种算法,旨在通过消除对混淆特征的过度拟合来提高强化学习代理的泛化能力。我们的方法包括一个最大最小博弈论的目标,其中一个生成器在强化学习过程中传递观察的风格。生成器的额外目标是扰动观察,从而最大化代理采取不同行动的概率,而策略网络通过更新参数来最小化这种扰动的影响,同时最大化预期的未来奖励,从而保持稳健性。基于这一设置,我们提出了一种实用的深度强化学习算法 ARPO(对抗鲁棒策略优化),以找到一个能够适应未知环境的鲁棒策略。我们在 Procgen 和 Distracting Control Suite 上评估了我们的方法的泛化能力和样本效率。实验证明,与一些基线算法(包括数据增强)相比,ARPO 展现出了更好的性能。
Aug, 2023
本文提出了一种新的学习风格无关表示的方法,利用强化学习框架下的风格迁移和对抗学习结合,通过内在的对抗风格扰动生成器来生成不同风格的图像样本,与 actor 进行极大 - 极小博弈,从而实现模型在不同环境下的泛化,并在流行的基准测试中验证了该方法的竞争性或优越性。
Aug, 2022
本研究提出一种使用半监督框架和强化返馈来解决文本风格转移挑战的方法,通过自动构建伪并行对来引导监督学习并通过强化奖励学习未标注数据,提供细粒度的学习信号来稳定增强学习,并取得了多个数据集上最先进的性能。
May, 2022
本文研究了强化学习中的状态表示问题,发现时序差分学习与蒙特卡罗、残差梯度学习在大部分环境的特征学习上存在差异,本文提出的新的辅助学习规则在经典环境下具有较好表现。
Jun, 2023
该研究针对离线策略评估的弱点,探讨了如何通过约束动作选择减少 Bellman backup 带来的 bootstrapping error,提出了一种名为 BEAR 的实用算法,在不同的离线策略分布上都表现出较强的鲁棒性。
Jun, 2019
基于深度强化学习,我们提出了一种用于神经风格迁移任务的基于步骤的模型,能够控制风格化程度,同时在早期步骤中保留更多内容图像的细节和结构,在后期步骤中合成更多风格图案,具有较低计算复杂度。实验结果表明了我们方法的有效性和鲁棒性。
Sep, 2023
为解决强化学习中复杂环境下的探索问题,本文提出了一种简单的算法 bootstrapped DQN,通过使用随机值函数实现计算上和统计上的高效探索。与 epsilon-greedy 策略不同,bootstrapped DQN 实现了时序扩展探索,从而可以实现指数级别的更快学习。我们在复杂随机 MDPs 和大规模的街机学习环境中展示了这些优点,并发现 Bootstrapped DQN 可以显著提高 Atari 游戏的学习时间和表现。
Feb, 2016
本文介绍了一种基于 Bootstrap 技术的新方法,该方法可用于进行类似于 Thompson 抽样的探索,但是不需要显式地维护或从后验分布中采样。该方法特别适用于探索与深度学习耦合的情况。
Jul, 2015