语言模型中的循环学习：数据优化方法在文本游戏中进行推荐行为的学习

Nov, 2023

语言模型中的循环学习：数据优化方法在文本游戏中进行推荐行为的学习

Language Model-In-The-Loop: Data Optimal Approach to Learn-To-Recommend Actions in Text Games

Arjun Vaithilingam Sudhakar, Prasanna Parthasarathi, Janarthanan Rajendran, Sarath Chandar

TL;DR通过更新大型语言模型（LLMs）在基于文本游戏学习过程中的使用以减少对人类注释游戏的依赖性，提高 LLMs 的性能，并研究了从游戏中训练的模型到其他游戏的可迁移性。

Abstract

large language models (LLMs) have demonstrated superior performance in language understanding benchmarks. calm, a popular approach, leverages lin

large language models calm text based games linguistic priors transfer learning

发现论文，激发创造

保持冷静探索：基于语言模型的基于文本的游戏行动生成

本文提出了上下文行动语言模型 (CALM)，该模型结合人类玩家的语言先验以及游戏历史信息生成紧凑的候选操作列表，并结合强化学习代理对其进行排序以最大化游戏收益，我们的实验使用 Jericho 基准测试游戏并在训练期间未见过的游戏中获得了 69％的相对平均游戏得分改进。

Oct, 2020

从 Tarzan 到 Tolkien：控制 LLMs 的语言熟练程度用于内容生成

探讨利用大型语言模型（LLMs）控制文本难度的问题，在不完全精通的终端用户环境中（如语言学习者），通过使用新颖框架评估了几种关键方法的效果，包括少样本提示、监督微调和强化学习（RL），使用 GPT-4 和 LLama2-7B、Mistral-7B 等开源替代品。我们的发现揭示了在使用基于提示的策略时，GPT-4 和开源模型之间存在很大的性能差距。然而，我们展示了如何通过精调和 RL 对齐的谨慎组合来弥合这一差距。我们最佳的模型，CALM（CEFR 对齐语言模型），在仅成本的一小部分下超越了 GPT-4 和其他策略的性能。我们通过小规模的人工研究进一步验证了我们结果的质量。

Jun, 2024

自省提示：用于上下文决策的大型语言模型

本研究利用自省式提示 (Introspective Tips) 促进了大型语言模型 (Large Language Models) 的自我优化，从学习过程中的经验、集成专家演示和跨越多种游戏等三种方面提高决策性能，却不调整 LMM 参数，结论在 TextWorld 超过 100 个游戏中都表现出优异的结果。

May, 2023

clembench: 使用游戏玩法评估对话代理的聊天优化语言模型

本文探索了一种方法，即在特定的游戏场景中测试大型语言模型的表现，以此来深入了解它们是否能像环境理解代理一样进行操作，涵盖了五个交互设置，并表明当前聊天优化的大型语言模型在一定程度上能够遵循游戏规则，并且用于衡量游戏表现和调查 LLM 的性能具有诊断价值。

May, 2023

记住过去，明确下一步怎么做

使用中等大小的大型语言模型（GPT-J 6B 参数），计划在科学世界中为模拟机器人实现 30 类目标，结果发现大语言模型在性能上优于强化学习，而且性能表现因任务而异。

Oct, 2023

通过从大型语言模型推演中进行离线强化学习实现具备专业知识的智能体

基于大型语言模型的知识型代理系统能够通过想象中的轨迹从环境交互数据中提取知识并与强化学习进行无缝集成。

Apr, 2024

大型语言模型的可控推荐

通过引入监督学习任务和基于强化学习的对齐过程，本研究明显提升了大型语言模型在推荐系统中遵循指示并保持高精度性能的能力。

Mar, 2024

面向目标导向对话系统的上下文感知语言建模

通过将目标为导向的对话形式化为部分可观测的马尔可夫决策过程，并将语言模型解释为动态和策略的表示，我们提出了一种简单有效的方法，即任务重新标记，以目标感知的方式微调语言模型，从而显著提高了任务性能，达到了人类水平的任务表现。我们还引入了一些训练策略，以更好地聚焦于手头的任务。我们使用 AirDialogue 在实际的航班预订任务上评估了我们的方法 Context-Aware Language Models（CALM），在任务成功率方面，CALM 的表现优于现有技术方法 7％。

Apr, 2022

基于能力的语言模型分析

本文提出了 CALM 实验框架并使用梯度基于对抗攻击的方法对语言模型的内部表示进行破坏性实验，以评估其在执行特定任务时使用每个表示的能力。在对 BERT 等 LM 执行对应关系提示任务的案例研究中，发现 LM 在执行每个任务时所利用的表示高度交织在一起，但可以在它们最常被利用的任务方面进行有意义的解释。

Mar, 2023

CALM: 连续适应学习的语言建模

该研究论文提出了 CALM 技术，通过对大型语言表示模型进行连续自适应学习，使其跨领域保留知识，并在生物医学和临床领域的实验中展示了任务特定模型与 CALM 模型性能差距的减小。

Apr, 2020