基于上下文的学习代理是非对称的信念更新器

Feb, 2024

基于上下文的学习代理是非对称的信念更新器

In-context learning agents are asymmetric belief updaters

Johannes A. Schubert, Akshay K. Jagadish, Marcel Binz, Eric Schulz

TL;DR通过研究大型语言模型的上下文学习动态，本文揭示了学习过程中的非对称性、对超出预期结果的更强学习效果以及问题框架对学习方式的重要影响，从而对上下文学习的工作机制有所贡献。

Abstract

We study the in-context learning dynamics of large language models (LLMs) using three instrumental learning tasks adapted from cognitive psychology. We find that LLMs update their beliefs in an asymmetric manner

large language models in-context learning asymmetric learning dynamics counterfactual feedback meta-reinforcement learning

发现论文，激发创造

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

基于聊天式大型语言模型的上下文干扰

大型语言模型对社会产生了巨大影响，但黑盒子情景下，用户只能在当前交互中明确提及来添加或修改内部知识，而不具备修改模型内部知识的能力。本文提出了一个研究，展示了模型在不同上下文中持续流动的信息之间可能出现干扰，从而忘记先前学到的知识，导致模型性能下降，并提出了一个基于 bAbI 数据集的评估基准。

Sep, 2023

一种基于上下文的突现学习理论：隐式结构归纳

该研究探讨了大型语言模型的上下文学习能力及其理论机制，提出了基于自然语言数据中组合操作的信息理论边界，并从语言学角度验证了模型输出中间步骤的成功经验。研究表明，在缩放参数和数据并提示输出中间步骤时，模型能在多项任务中进行有效的上下文学习，这种学习得到的支持与其输入的组成结构有关。

Mar, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

大型语言模型的偏差性加强学习器

大型语言模型通过上下文学习来学习包括简单 bandit 任务中的奖励最大化选择，本研究发现这些模型在编码奖励结果时存在相对价值偏差。

May, 2024

随机二进制序列下的上下文学习动态

使用 Cognitive Interpretability 框架分析 GPT-3.5 + 模型的 in-context 学习动态，发现其具备生成伪随机数和学习基本形式语言的新能力，有着从伪随机行为到确定性重复的显著 in-context 学习特性。

Oct, 2023

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

大语言模型不是零 - shot 通信者

这篇论文研究 LLMs 在理解语境方面的能力，通过实验发现目前的 LLMs 模型在完成只需要二进制推断的对话时表现平庸，需要进一步研究如何使得 LLMs 适应更贴合人类意图的对话模式。

Oct, 2022

软件开发代理的体验式合作学习

使用经验共同学习的新框架，充实以往经验，使大语言模型（LLMs）和自主代理能够更高效地处理未知任务。

Dec, 2023