现场策略迭代

ICLROct, 2022

In-Context Policy Iteration

Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh

TL;DR本文提出了一种名为 ICPI 的算法，它使用基础模型在上下文中执行强化学习任务，通过试错交互更新提示内容，以实现无需专家示范或梯度的强化学习任务。

Abstract

This work presents In-Context Policy Iteration, an algorithm for performing reinforcement learning (RL), in-context, using foundation models. While the application of →

reinforcement learning foundation models in-context learning policy-iteration trial-and-error

发现论文，激发创造

强化学习中的上下文探索与利用

在传统的强化学习方法中，基于离线学习的在线策略学习是一种有希望的方法，然而其高昂的计算成本限制了其应用广度。本文提出了一种优化在线策略学习效率的 In-context Exploration-Exploitation (ICEE) 算法，通过在 Transformer 模型中在输入过程中进行探索利用的平衡策略，从而避免了昂贵的显式贝叶斯推断过程，并证明了该算法相比现有方法能以更少的训练时间学习解决新的强化学习任务。

Mar, 2024

逐步学习上下文环境中的迭代检索

通过强化学习的训练过程，我们引入了迭代检索的新框架，将活跃检索器赋予迭代决策的能力，并在选择上下文学习示例时在语义解析任务中表现优于之前的方法。

Jun, 2024

RetICL: 采用强化学习的上下文顺序检索示例

本研究提出了 Retrieval for In-Context Learning (RetICL)，一种可学习的方法，用于模拟和最佳选择逐个该如何为 in-context learning 选择任务例子。它将顺序示例选择问题作为马尔可夫决策过程，使用 LSTM 设计示例检索器模型，并使用 PPO 进行训练。我们在数学问题求解数据集上验证了 RetICL，表明它优于启发式和可学习的基线，并在 TabMWP 数据集上实现了最先进的准确性。我们还使用案例研究展示了 RetICL 隐含学习了数学问题求解策略的表示方式。

May, 2023

上下文奖励：基于动态偏好调整的多目标基础模型对齐

通过 Rewards-in-Context（RiC）的方法，本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法，并通过监督微调在推断过程中支持用户偏好的动态调整，从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相比，对齐大型语言模型（LLMs）和扩散模型以适应多样化的奖励。

Feb, 2024

上下文指导学习

本文发现采用上下文学习作为指示学习方法（ICIL）可提高预训练和指示微调模型的零样本任务泛化能力，使用固定的单一提示来评估所有任务。

Feb, 2023

噪声蒸馏下的上下文强化学习的出现

通过与环境的交互实现对未知任务的概括，我们提出了一种方法 AD^ε，该方法通过人类示范的较差策略引入噪音并逐渐改进，实现了多任务环境下的增量式学习。在 Dark Room 和 Dark Key-to-Door 环境中，我们的方法相比于最佳策略改进了 2 倍。

Dec, 2023

从错误中的上下文原则学习

通过学习任务特定的 “原则”，在原有的少样本示例基础上，利用上模型在这些示例中产生的错误来帮助解决类似问题并避免常见错误，从而提高大量基准测试的性能。

Feb, 2024

一刀切” 不适用于所有情况：学习在语境中使用多少样本以提高文本分类效果

在这篇论文中，研究人员提出了一种新的自适应上下文学习 (AICL) 方法，通过预测分类器的 Softmax 后验概率来动态调整在推断中使用的示例数，以提高文本分类任务的性能。

Mar, 2024

模仿正则化的离线学习

本研究讨论在上下文幸存者模型下自动化决策系统的离线学习问题，提出了一种通过策略改进和正则化来解决 IPWE 中参数估计不准的问题的方法。实验证明，该方法在无概率记录情况下比目前最先进的 CE 损失更准确，而在有概率记录的情况下，可以帮助我们排除混淆变量或模型规范化失误。

Jan, 2019

预测校正策略优化

本研究提出一种基于预测模型的框架 PicCoLO，可将一阶模型无关强化或模仿学习算法转化为一种新的混合方法，用于优化策略，减少模型偏差及实现收敛加速。该框架通过对可预测在线学习转换为对抗学习的新颖减少方法，使得多种一阶模型无关算法的收敛速度得到提高。

Oct, 2018