通过上下文学习评估子群体代表建模的泛化能力

ACLFeb, 2024

通过上下文学习评估子群体代表建模的泛化能力

Assessing Generalization for Subpopulation Representative Modeling via In-Context Learning

Gabriel Simmons, Vladislav Savinov

TL;DR该研究评估了基于大型语言模型（LLM）的子群代表模型（SRM）利用 2016 年和 2020 年美国全国选举研究的实证数据进行从经验数据中概括的能力，研究泛化能力在不同的响应变量和人口统计学子群之间的差异，并指出在语境学习下的表现不同对各人口统计学子群的效果也不同，有时改善了某个人口统计学子群的表现却损害了其他人口统计学子群的表现，SRM 在语境学习下的不均衡效果对于实施 SRM 的从业者以及依赖 SRM 的决策者提出了挑战，我们的研究突显了从各个不同子群中获得精细化的基准测试数据的需求，这些测试不仅要考虑保真度还要考虑泛化能力。

Abstract

This study evaluates the ability of large language model (LLM)-based subpopulation representative models (SRMs) to generalize from empirical data, utilizing →

large language model subpopulation representative models generalization demographic subgroups in-context learning

发现论文，激发创造

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

生成式校准用于上下文学习

通过理论和实证研究，我们首次确定了上下文学习中的标签偏移现象，并提出了一种生成校准方法，通过调整标签边际分布来校准上下文预测分布，实验证明该方法在文本分类任务中显著且一致地优于其他校准方法，同时对于不同的提示配置也表现稳定。

Oct, 2023

通过上下文学习提高大型语言模型对常识生成的多样性

生成常识推理（GCR）需要模型利用常识知识进行推理，同时生成连贯的句子。本论文提出了一种简单的方法来增加大型语言模型（LLMs）生成的多样性，同时保持生成质量。实验结果表明，该方法在生成质量和多样性之间取得了理想的平衡，并且所生成的句子可用于改善现有常识生成器的多样性。

Apr, 2024

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024

大语言模型上下文学习的主动学习原则

本文旨在探讨如何使用主动学习算法作为选择最佳演示文稿的方法来服务于上下文学习，对比了基于不确定性、多样性和相似性等各种标准的演示文稿选择算法，并表明相似性算法胜过其他所有方法，包括随机抽样和不确定性抽样。

May, 2023

探索大型语言模型与自动语音识别系统的整合：实证研究

本文旨在探讨将大型语言模型（LLMs）集成到自动语音识别（ASR）系统中以提高转录准确性的潜力，并通过实验表明在当前阶段，使用 LLMs 的上下文学习能力来修正语音识别转录中的潜在错误仍然是一项具有挑战性的任务。

Jul, 2023

利用大型语言模型扩展句子嵌入

通过上下文学习，我们提出了一种基于上下文学习的方法，旨在提高句子嵌入的性能。我们的方法能够使大型语言模型生成高质量的句子嵌入，并且在语义文本相似度任务上表现与当前对比学习方法相当。通过调整模型大小，我们发现超过几十亿参数的模型会对语义文本相似度任务的性能造成损害，但最大的模型超过了其他模型，并在迁移任务上取得了新的最先进结果。我们还使用当前的对比学习方法对大型语言模型进行了微调，将包含我们基于提示的方法的 2.7B OPT 模型的性能超过了 4.8B ST5 的性能，在语义文本相似度任务上实现了新的最先进结果。

Jul, 2023

探索大型语言模型中的上下文学习决策边界

通过探究决策边界对上下文二分类的定性行为，我们发现现有的大型语言模型在简单的二分类任务中学习到的决策边界通常是不规则且非平滑的，本论文研究了影响这些决策边界的因素，并探讨了提高它们泛化能力的方法。通过评估各种方法，包括对大型语言模型的无需训练和微调方法、模型架构的影响以及平滑决策边界的数据高效技术的有效性，我们的研究结果为理解上下文学习动态和改善其鲁棒性和泛化能力提供了更深入的认识和实用改进。

Jun, 2024