基于 Transformer 的上下文强化学习中学习时间差分方法

May, 2024

基于 Transformer 的上下文强化学习中学习时间差分方法

Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

Jiuqi Wang, Ethan Blaser, Hadi Daneshmand, Shangtong Zhang

TL;DR此研究论文证明了 transformers 模型在前向传播中可以实现时间差异学习（TD learning）以及其他许多策略评估算法，通过使用多任务 TD 算法进行训练，并进行了理论分析。

Abstract

in-context learning refers to the learning ability of a model during inference time without adapting its parameters. The input (i.e., prompt) to the model (e.g., transformers) consists of both a context (i.e., in

in-context learning transformers temporal difference learning multi-task td algorithm policy evaluation algorithms

发现论文，激发创造

变换器在语境中能学到什么？简单函数类的案例研究

该文提出一种新的模型训练方法，称为 in-context learning，可以使 transformer 模型通过给定的输入输出对，学习出新的输入对应的输出，而无需更新参数。研究者们在极小的数据集上训练模型进行线性函数的 in-context learning，发现该模型即使出现了数据分布的改变，也能够对复杂函数进行有效和快速的学习。

Aug, 2022

上下文时间序列预测器

近期基于 Transformer 的大型语言模型展示了在提供的上下文情况下学习各种函数的能力，而无需更新模型参数。为了充分利用上下文能力进行时间序列预测问题，我们将 “时间序列预测任务” 重新构建为输入令牌，通过生成一系列（回顾，未来）对。该方法更加符合内在的上下文机制，并且在不使用预训练的大型语言模型参数的情况下更加参数高效。此外，它解决了现有基于 Transformer 的时间序列预测模型中的过拟合等问题，并在完整数据、少样本和零样本设置下始终比以前的架构表现更好。

May, 2024

应对新的顺序决策任务的泛化学习

使用离线数据集，通过训练大型多样化模型，能够在只有少量示范数据的情况下，使自主代理器在新的任务上进行上下文学习。

Dec, 2023

什么是上下文学习算法？线性模型的研究调查

本文通过三类证据说明了基于 transformers 的 in-context learners 在其激活中编码了较小的模型，并更新这些隐式模型为更加精确的预测器；而且，这些学习器学习算法的特征与最佳实践算法相似，这意味着 in-context learners 可以发现标准的估计算法，如梯度下降，闭式 Ridge 回归和最小二乘回归，实验结果验证了这个假设。

Nov, 2022

深入探究上下文学习在分布偏移下的应用

通过在不断变化的数据分布下比较转换器和基于集合的 Multi-Layer 感知机的表现，研究了上下文学习的一些普遍限制，发现转换器模型更准确地模拟了最小二乘法的性能，并且对于轻微的分布移位更具有鲁棒性，但在严重分布移位的情况下，两个模型的上下文学习能力都会减弱。

May, 2023

上下文收敛的 Transformer 模型

通过梯度下降训练的具有 softmax 注意力机制的单层 transformer 在学习线性函数类的上下文学习动态方面取得了进展，并对平衡和不平衡特征数据进行了分析，证明了其收敛性和预测误差。

Oct, 2023

Transformers 作为统计学家：具有证明的上下文学习和上下文算法选择

本文提供了建立在 transformer 结构上的神经序列模型的全面统计理论，阐述其在上下文数据分布中能够实现一类广泛的标准机器学习算法，基于上下文梯度下降机制的实现，以及不同算法之间的自适应选择。

Jun, 2023

转换器作为算法：上下文学习中的泛化和稳定性

本文介绍了 in-context learning (ICL) 的概念和算法及其在 multitask learning 领域的应用，提出了使用 transformer model 的方式，详细探讨了 ICL 在 i.i.d. 和动态数据下的泛化界限及其稳定性，以及任务复杂度和 MTL 任务数量对转移学习风险的影响。最后，提出了数值评估，并验证了理论预测。

Jan, 2023

通过贝叶斯透镜进行上下文学习

本文通过多种线性和非线性函数类的实证观察，延伸了之前的研究，表明了 transformers 的理想学习者表现，并探究了其在 Bayesian 模型和多任务环境下的应用，还以傅里叶级数为例研究了其归纳偏差。

Jun, 2023

通过学习离散函数来理解 Transformer 和 LLM 中的上下文学习

为了理解上下文学习现象，最近的研究采用了一个简化的实验框架，并证明了 Transformer 可以学习各种实值函数的基于梯度的学习算法。然而，Transformer 在实现学习算法方面的局限性以及其学习其他形式算法的能力尚不明确，而这些能力在基于注意力模型中是否有限制也不清楚。此外，还需要进一步研究这些简化设置所得出的见解是否可以推广到预训练的大语言模型（LLMs）。在本研究中，我们通过以下方式来一步步回答这些问题：（a）在一个包含各种布尔函数类的测试集上，我们发现 Transformer 在更简单的任务上几乎可以与最佳学习算法相匹配，但在更复杂的任务上性能下降。此外，我们发现某些无注意力模型在一系列任务上与 Transformer 表现（几乎）一致；（b）当提供一个教学序列，即一组通过示例唯一标识一个函数类的示例时，我们发现 Transformer 学习起来更加高效。有趣的是，我们的结果表明，Transformer 可以学习实现两个不同的算法来解决一个任务，并且可以根据上下文示例的顺序自适应地选择更加高效的算法；（c）最后，我们展示了 LLMs（如 LLaMA-2、GPT-4）可以与最近邻基线在保证不在其训练集中的预测任务上竞争。

Oct, 2023