强化学习中的上下文探索与利用

ICLRMar, 2024

In-context Exploration-Exploitation for Reinforcement Learning

Zhenwen Dai, Federico Tomasi, Sina Ghiassian

TL;DR在传统的强化学习方法中，基于离线学习的在线策略学习是一种有希望的方法，然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法，通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略，从而避免了昂贵的显式贝叶斯推断过程，并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。

Abstract

in-context learning is a promising approach for online policy learning of offline reinforcement learning (RL) methods, which can be achiev

in-context learning online policy learning offline reinforcement learning in-context exploration-exploitation transformer models

发现论文，激发创造

基于监督预训练的证明上下文强化学习中的变压器决策者

该研究论文通过理论框架分析了用于 ICRL 的监督预训练 transformer 模型，提出了两种训练方法并证明了其能近似实现专家算法，同时证明了 ReLu 注意力的 transformer 能高效地近似最优在线强化学习算法，这为离线轨迹预训练的 transformer 模型的 ICRL 能力提供了首次量化分析。

Oct, 2023

上下文决策变换器：通过分层思维链强化学习

提出了一种高层次的基于试错的方法，通过在环境中提供任务提示来实现离线强化学习的上下文学习，可以更高效地解决在线任务，并在长期任务中取得了最先进的结果。

May, 2024

现场策略迭代

本文提出了一种名为 ICPI 的算法，它使用基础模型在上下文中执行强化学习任务，通过试错交互更新提示内容，以实现无需专家示范或梯度的强化学习任务。

Oct, 2022

基于生成强化的变压器的指令上下文增强方法

利用人类反馈的强化学习从 PPO 出发，ICE-GRT 在特定领域任务中展示了出色的能力，同时保持了通用任务性能，在小型模型中表现了分析能力的下降。

Jan, 2024

基于 Transformer 的上下文强化学习中学习时间差分方法

此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习（TD learning）以及其他许多策略评估算法，通过使用多任务 TD 算法进行训练，并进行了理论分析。

May, 2024

具有显式上下文表示的深度强化学习

该研究提出了一种离散环境中的 Iota 显式上下文表示 (IECR) 框架，通过提取上下文关键帧 (CKFs) 实现了从环境中学习，并使用新算法在五个离散环境中取得了显著优于现有算法的收敛效果。

Oct, 2023

上下文编辑：从自引导分布中学习知识

已有的语言模型微调范式在知识编辑场景下容易出现脆弱性，本文提出了一种名为一致上下文编辑（ICE）的新方法，利用模型的上下文学习能力来调整模型以适应上下文分布而非单一目标，通过直观的优化框架增强了梯度调整方法的鲁棒性和效果，实验证明了 ICE 的优势及其在不断编辑中的潜力，确保了更新的信息被纳入同时保持模型的完整性。

Jun, 2024

想象，初始化和探索：一种有效的多智能体强化学习探索方法

通过使用一种新的方法，称为 Imagine, Initialize, and Explore (IIE)，该方法使用转换模型使多个智能体达到关键状态，并以此为起点进行探索，实现高效多智能体探索。在实际测试中，IIE 在复杂环境下表现出优异的性能，超过了其他多智能体探索基线，特别在稀疏奖励任务中有更好的表现，并产生比 CVAE-GAN 和扩散模型更有效的课程。

Feb, 2024

ICED：通过上下文环境设计在强化学习中实现零 - shot 转移

通过对深度强化学习的自主代理进行研究，发现优先选择基于值损失最小化的级别可以最小化代理内部表示与训练数据集之间的相互信息，提出了一种新的理论解释适应性采样策略的合理性；另外，引入了上下文环境设计（ICED）方法，通过使用训练好的变分自动编码器在一组初始级别参数上进行级别生成，减少数据偏差，并在零样本泛化性上取得显著改进。

Feb, 2024

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法 AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中，我们的方法相比于最佳策略改进了 2 倍。

Dec, 2023