上下文预训练:超越文档边界的语言建模
本研究探讨了大语言模型中的上下文学习现象,并证明了基于长期相关性的预训练可以促进上下文学习。通过人工合成数据集,实验结果表明了模型规模对上下文学习的影响,以及例子顺序和零样本学习等现象。
Nov, 2021
该研究证明了预训练神经语言模型时通过将文本分成大小可处理的训练例子会引入偏差,导致预训练 NLM 可以模拟在同一训练示例中出现的文本片段之间比不同训练示例中出现的文本片段之间依赖性更强。此外,他们提出了一种名为 “kNN-pretraining” 的新算法,该算法通过将语义相关的非相邻句子包含在同一个预训练样例中来提高句子表示和开放领域问答能力。
Oct, 2021
通过上下文学习,我们提出了一种上下文感知提示方法(CAP),使得大型语言模型能够通过上下文学习生成更准确、连贯、一致的翻译。CAP 结合多级注意力,在当前句子中选择与之最相关的句子作为上下文,从这些句子中生成一个摘要。随后,从数据存储中检索与摘要最相似的句子作为演示,有效地指导大型语言模型生成连贯一致的翻译。我们在各种文档级机器翻译任务中进行了大量的实验,结果表明我们的方法在零代词翻译(ZPT)和文学翻译任务中特别有效。
Jun, 2024
近期基于 Transformer 的大型语言模型展示了在提供的上下文情况下学习各种函数的能力,而无需更新模型参数。为了充分利用上下文能力进行时间序列预测问题,我们将 “时间序列预测任务” 重新构建为输入令牌,通过生成一系列(回顾,未来)对。该方法更加符合内在的上下文机制,并且在不使用预训练的大型语言模型参数的情况下更加参数高效。此外,它解决了现有基于 Transformer 的时间序列预测模型中的过拟合等问题,并在完整数据、少样本和零样本设置下始终比以前的架构表现更好。
May, 2024
通过在普通文本语料库中使用简单语言建模目标来预训练模型,PICL 能够增强语言模型的上下文学习能力,从而提高其在文本分类和 NLP 任务等方面的性能,其优于大量基线模型,并具有更高的任务泛化能力。
May, 2023
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023
该研究论文探讨了大型语言模型 (LLMs) 是否能够根据不同任务示例的上下文信号来解决新任务,并设计了一个跨任务提示设置,并表明 LLMs 在无需上下文提示的情况下能够获得显著的性能提升,同时展示了模型激活相似性与跨任务示例效果之间的强相关性。
May, 2024
本研究提出了一个基于 PAC 理论的框架来探究上下文学习及其可学性,发现在语言模型的参数保持不变的情况下,通过将下游任务的训练示例包含在其输入中,可以调整模型以执行各种下游自然语言处理任务,预训练分布是潜在任务的混合时,这些任务可以通过上下文学习有效地学习,这种学习更多地是关于识别任务而不是学习任务,并希望这一研究框架为深入理解上下文学习的新学习范式打下基础。
Mar, 2023
通过使用大型语言模型 (LLMs) 进行主题建模的两种方法,即并行提示和顺序提示,本文克服了传统主题模型在短文本上推断潜在主题时面临的挑战,并证明这些方法能够识别出比现有方法更连贯的主题,同时保持引发主题的多样性。此外,本研究发现所推断的主题充分涵盖了输入文本,而几乎没有产生虚构的主题。
Jun, 2024
该研究探讨了大型语言模型的上下文学习能力及其理论机制,提出了基于自然语言数据中组合操作的信息理论边界,并从语言学角度验证了模型输出中间步骤的成功经验。研究表明,在缩放参数和数据并提示输出中间步骤时,模型能在多项任务中进行有效的上下文学习,这种学习得到的支持与其输入的组成结构有关。
Mar, 2023