语言模型是少样本学习的管家

EMNLPApr, 2021

Language Models are Few-Shot Butlers

Vincent Micheli, François Fleuret

TL;DR使用预训练语言模型和简单的强化学习算法，无需大量专家示范即可在文本环境中操作并取得 51% 的成功率改进。

Abstract

pretrained language models demonstrate strong performance in most NLP tasks when fine-tuned on small task-specific datasets. Hence, these autoregressive models constitute ideal agents to operate in text-based environments where →

pretrained language models autoregressive models language understanding generative capabilities reinforcement learning

发现论文，激发创造

语言模型是少样本学习器

在大规模预训练语言模型上进行 fine-tuning 可以显著提高模型在 NLP 任务中的任务值线表现，同时还证明了 scaling up 语言模型可以大大改善任务独立的 few-shot learning 表现，并探讨了 GPT-3 模型优势和局限性。

May, 2020

语言模型：少样本多语言学习者

通过对 GPT 和 T5 模型进行跨语言分类，本论文发现预训练模型在少量英语样本的情况下可以预测非英语测试样本，且在跨语言预测方面表现显著优于随机预测，并与现有的最先进的跨语言模型具有竞争力。

Sep, 2021

让预训练语言模型成为更好的少样本学习者

LM-BFF 提出了一种改进的面向小型语言模型的少样本 fine-tuning 方法以提升在多种 NLP 任务上的性能。通过与传统的 fine-tuning 方法相比，LM-BFF 组合的技术在低资源环境下具有显著改进，最高可达 30％，平均提高 11％。

Dec, 2020

使用语言模型进行小样本子目标规划

本文探讨了预训练的大型语言模型在预测现实世界环境中可行的计划方面的能力，表明预先训练的语言模型中的语言优先级允许我们推断出细粒度的子目标序列，并提出了一种通过环境的交互和反馈重新排列语言模型预测的简单策略，结合预先训练的导航和视觉推理组件在 ALFRED 基准测试中表现优秀。

May, 2022

以语言模型为少样本学习者的任务导向式对话系统

本文探讨自然语言理解、对话状态跟踪、对话策略和自然语言生成这四个模块在少数据样本下学习的挑战，并评估了使用自然语言生成模型进行少样本迁移学习的效果和局限性，为未来研究提供了启示。

Aug, 2020

语言模型能解决计算机任务

本研究展示了一种使用 RCI 方法来自然语言执行计算机任务的代理方法，此方法能够显著提高计算机任务的自动化表现，优于现有的自然语言处理方法，并在自然语言推理任务中表现出较好的推理能力。

Mar, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

大型语言模型作为训练强化学习智能体的良好策略导师

通过使用大规模语言模型，我们提出了一种新的框架，通过从语言模型教师代理接收指导行为，训练一个小规模专用的学生代理。通过将语言模型的先验知识融入到本地学生模型中，该学生代理可以用较少的数据进行训练，并通过环境反馈进一步提升其能力。实验结果表明，我们的方法提高了样本效率，并实现了比基准方法更卓越的性能。

Nov, 2023

受限语言模型实现少样本语义分析器

利用大型预处理语言模型作为少型语义解析器，将输入 paraphrase 成类似英语的控制子语言，通过很少的数据和代码快速批量生成语义解析器，表现出令人惊讶的有效性，远超过基线方法。

Apr, 2021

大型语言模型作为双人游戏中的代理

通过在单一统一的机器学习范式中正式定义大型语言模型（LLM）的训练过程，包括预训练、监督微调和强化学习与人类反馈，我们可以获得推进 LLM 技术的重要见解。本文勾勒出 LLM 训练方法与两人博弈中代理人发展所采用的战略之间的相似之处，从博弈论、强化学习和多智能体系统的角度研究。我们提出了一种用基于语言游戏中代理人学习的方式重新构思 LLM 学习过程的框架。这个框架揭示了 LLM 发展中成功和挑战的创新视角，为解决对齐问题等战略考虑提供了新的理解。此外，我们的两人博弈方法为 LLM 训练提供了新颖的数据准备和机器学习技术。

Feb, 2024