变动动作空间下的环境感知强化学习

Dec, 2023

变动动作空间下的环境感知强化学习

In-Context Reinforcement Learning for Variable Action Spaces

Viacheslav Sinii, Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Sergey Kolesnikov

TL;DR基于强化学习算法的学习历史的监督预训练，通过与环境的交互，能够捕捉学习过程并在上下文中改善对新任务的处理。然而，现有文献在上下文泛化到新行为空间方面仍存在差距。本研究旨在开发一种专门用于泛化到新行为空间的架构和训练方法，通过预测行为嵌入来消除对行为数量的依赖，并使用随机嵌入来增加对上下文的语义推理能力和准备测试时的新未见嵌入。通过多臂赌博环境的实验，证明了我们的模型能够在不需要重新训练的情况下达到数据生成算法的性能。

Abstract

Recent work has shown that supervised pre-training on learning histories of rl algorithms results in a model that captures the learning process and is able to improve in-context on novel tasks through interaction

supervised pre-training rl algorithms in-context generalization new action spaces multi-armed bandit environments

发现论文，激发创造

自适应上下文强化学习

研究智能自主机器人如何通过新方法中的相对熵奖励学习算法来提高样本效率并使学习扩展到更广泛和尖锐的任务上。

Oct, 2019

基于潜变量模型的端对端对话代理强化学习中的行动空间重新思考

该研究提出了一种新颖的潜在动作框架，将端到端会话代理的动作空间视为潜在变量，并开发无监督的方法从数据中诱导其自己的动作空间。实验结果表明，所提出的潜在动作在 DealOrNoDeal 和 MultiWoz 对话上实现了比以前的基于单词级策略梯度方法更好的实证绩效改进。

Feb, 2019

推断行为特定的上下文在强化学习中提升零样本泛化能力

本文中，我们在强化学习中解决了零样本泛化的挑战，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合，提出了一种算法。我们的算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。通过同时学习策略和上下文，我们的方法获得了特定行为的上下文表示，在未知环境中实现了适应，并在实现跨不同真实世界任务的强化学习系统上取得了进展。

Apr, 2024

强化学习的动作表示学习

研究了在没有给定先验结构的情况下，如何基于状态表示和行为表示实现模型无关的强化学习方法，并提供了相应的算法和收敛条件。

Feb, 2019

利用视频进行无动作预训练的强化学习

本文介绍了一种通过生成式预训练学习得到的视觉表示，用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型，并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构，该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型，以更好地实现探索。同时也提出了基于视频的内在激励奖励机制，利用预训练表示的优势，有效提升了数据利用率和最终权能的完成度。

Mar, 2022

动作的自然语言

Act2Vec 是一种通用的框架，用于学习基于上下文的强化学习中的行动表示，在此基础上，该文章针对三个领域 (绘画任务、高维导航任务和星际争霸 2) 进行了可视化和测试，并展示了先前环境知识如何从示范中提取并注入到编码自然兼容行为的行动向量表示中，最终优化了 Q 值函数的近似。

Feb, 2019

通过变分自编码器实现潜在动作空间，用于对话策略优化的 LAVA

本文探索使用辅助任务来塑造潜变量分布的三种方式，并选择响应自编码为辅助任务，以获得更具行动性质的潜变量表示，从而支持端到端对话策略优化，并实现最先进的成功率。

Nov, 2020

扩大行动空间

使用课程学习和跨行动空间的迁移学习来加速强化学习，通过限制其初始行动空间，同时为多个行动空间估算最优值函数，并高效地将数据、价值估计和状态表示从限制的行动空间转移到完整任务上，成功应用于复杂的大规模 StarCraft 微管理任务和控制任务中。

Jun, 2019

大规模离散动作空间下的深度强化学习

本文提出一种基于近似最近邻方法和先前关于行动的信息的强化学习算法，将大量离散行动嵌入到连续空间中，从而实现对大规模学习问题的解决。

Dec, 2015

MORE-3S：基于多模态的离线强化学习与共享语义空间

利用多模态和预训练语言模型，该论文提出了一种新的方法，将离线强化学习转化为监督学习任务，通过将图像的状态信息与文本中的动作相关数据结合，提高了强化学习的训练性能和长期战略思维，并强调语言的情境理解如何有助于强化学习中的决策制定。实验证明该方法在 Atari 和 OpenAI Gym 环境中优于现有基准方法，提升离线强化学习的性能和效率，同时提供了一种新的离线强化学习视角。

Feb, 2024