大规模语言模型语境学习中预训练语料对效果的影响

ACLApr, 2022

大规模语言模型语境学习中预训练语料对效果的影响

On the Effect of Pretraining Corpora on In-context Learning by a Large-scale Language Model

Seongjin Shin, Sang-Woo Lee, Hwijeen Ahn, Sungdong Kim, HyoungSeok Kim...

TL;DR研究了韩国中心型 GPT-3 模型 HyperCLOVA 中的上下文零样本和少样本学习，发现性能主要取决于语料库域源和预训练语料库的大小，可以通过组合多个语料库预先训练获得上下文学习能力.

Abstract

Many recent studies on large-scale language models have reported successful in-context zero- and few-shot learning ability. However, the in-depth analysis of when in-context learning occurs is still lacking. For

large-scale language models in-context learning pretraining corpus hyperclova in-context few-shot learning

发现论文，激发创造

通过机器学习去除预训练数据对大型语言模型的影响解析

通过对 LLMs 的 48 个数据集进行系统分析，我们测量了它们对 LLMs 的性能的影响，并研究了它们之间的相关关系，从而为更有效的 LLMs 预训练提供了洞见。

Feb, 2024

上下文对语言模型事实预测的影响

本论文研究了在大规模无监督文本语料库上预训练的语言模型，结合信息检索系统以纯无监督方式来增强预训练语言模型，并成功提高了其零样本缺失式问答系统的性能，尤其通过使用不同的分隔符处理查询和上下文，让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。

May, 2020

上下文学习作为隐式贝叶斯推断的解释

本研究探讨了大语言模型中的上下文学习现象，并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集，实验结果表明了模型规模对上下文学习的影响，以及例子顺序和零样本学习等现象。

Nov, 2021

大规模语言模型能带来哪些变革？对亿级韩语生成预训练变压器 HyperCLOVA 的深入研究

介绍 HyperCLOVA，这是一个针对韩国语料库进行训练的基于 GPT-3 的大规模语言模型，在上下文中的零样本与少样本学习性能上显示出最先进的表现，还介绍了基于提示的学习的性能优化和交互式学习界面，最后给出了三个成功的应用示例。

Sep, 2021

预训练以学习上下文

通过在普通文本语料库中使用简单语言建模目标来预训练模型，PICL 能够增强语言模型的上下文学习能力，从而提高其在文本分类和 NLP 任务等方面的性能，其优于大量基线模型，并具有更高的任务泛化能力。

May, 2023

上下文学习的可学习性

本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性，发现在语言模型的参数保持不变的情况下，通过将下游任务的训练示例包含在其输入中，可以调整模型以执行各种下游自然语言处理任务，预训练分布是潜在任务的混合时，这些任务可以通过上下文学习有效地学习，这种学习更多地是关于识别任务而不是学习任务，并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。

Mar, 2023

大型语言模型中的元上下文学习

本文介绍了大型语言模型在上下文学习中的递归学习能力，即元上下文学习。作者以两个理想化的领域为例，展示了元上下文学习是如何适应性地重塑大型语言模型对预期任务的先验知识，并修改其上下文学习策略。最后，作者通过真实世界回归问题的基准测试发现，元上下文学习与传统学习算法相比具有有竞争力的性能。通过元上下文学习而不是传统的 finetuning 来纯粹地适应大型语言模型应用的环境，可以提高大家对上下文学习的理解，为大型语言模型的应用打下基础。

May, 2023

上下文预训练：超越文档边界的语言建模

大型语言模型通过 In-Context 预训练，在处理涉及相关文档的任务时，能够显著提高性能，包括复杂的语境推理、长文本推理、检索增强等。

Oct, 2023

大型语言模型隐含主题模型：解释和寻找上下文学习的良好示范

本文从贝叶斯的角度出发，将大型语言模型视作主题模型，提出了一种从标注数据中选择最佳示范的算法，并在实际数据集中证明相对于随机选择基线，平均有 12.5% 的显著改进。研究表明，大型语言模型从示范中隐式地推断出潜在的概念变量。

Jan, 2023

上下文学习的归纳偏置：重新思考预训练示例设计

该研究证明了预训练神经语言模型时通过将文本分成大小可处理的训练例子会引入偏差，导致预训练 NLM 可以模拟在同一训练示例中出现的文本片段之间比不同训练示例中出现的文本片段之间依赖性更强。此外，他们提出了一种名为 “kNN-pretraining” 的新算法，该算法通过将语义相关的非相邻句子包含在同一个预训练样例中来提高句子表示和开放领域问答能力。

Oct, 2021