增强大型语言模型所需的法术书

Jan, 2024

Grimoire is All You Need for Enhancing Large Language Models

Ding Chen, Shichao Song, Qingchen Yu, Zhiyu Li, Wenjin Wang...

TL;DR我们提出了一种称为 SLEICL（Strong LLM Enhanced ICL）的方法，通过从强语言模型学习例子并将其总结和转移给弱语言模型来确保 ICL 的稳定性和有效性，从而使弱语言模型在零样本或少样本情况下在多个数据集上取得了持续的提升。

Abstract

in-context learning (ICL) is one of the key methods for enhancing the performance of large language models on specific tasks by providing a set of →

in-context learning few-shot language models sleicl icl capability

发现论文，激发创造

通过提示强化上下文学习唤醒大型语言模型以进行知识密集型任务

提出了一种新的学习范式 —— 提示增强的上下文学习（Hint-enhanced In-Context Learning，HICL），通过从示范中提取与查询相关的知识，以更明确的方式提示大型语言模型（LLM），用于开放域问答，从而提高性能。

Nov, 2023

利用自然语言解释提高自然语言推理的上下文学习鲁棒性

通过加上自然语言解释，人工智能模型在各种任务中有了显著提升，但在遇到对抗性输入时，效果下降。本文研究了如何通过加入自然语言解释来提高模型对七个对抗性和具有挑战性的自然语言推理数据集的鲁棒性，并提出了 ChatGPT 的几个人工生成的自然语言解释来产生更多自然语言解释的新方法，表现更好。通过对五种常见的大语言模型进行评估，我们发现 ChatGPT 的几个人工生成的自然语言解释的 X-ICL 方法比 ICL 方法提高了 6% 以上。此外，我们还发现之前能有效提高 ICL 性能的提示选择策略，在鲁棒性评估中并不具有与 X-ICL 范式相称的效果。

Nov, 2023

博士 ICL: 演示检索上下文学习

本研究表明，在语义上相似的演示可以提高大型语言模型的性能，这可以通过呈现一些示范来完成，并且可以有效地对大量语言和任务进行泛化，同时，我们还引入了任务特定的演示检索器，以进一步提高性能。

May, 2023

小型模型是大型语言模型有价值的插件

本文提出了 Super In-Context Learning (SuperICL) 算法作为一种有效调整大规模监督数据的方式，尤其适用于难以调整和调试的大型语言模型，并展示了其在多语言性和解释性等方面的优越性。

May, 2023

神经机器翻译模型可以学习成为少样本学习器

大型语言模型的新兴能力是利用少量示例来学习在新领域和任务中执行的能力，本文通过针对专门的培训目标进行微调展示了一个更小的模型可以被训练用于执行上下文学习，在神经机器翻译的领域适应任务上进行了示例。通过这种上下文学习的能力，模型可以利用相关的少量示例将其输出适应到该领域。我们将这种域自适应的质量与传统的监督技术以及基于 400 亿参数的大型语言模型的上下文学习进行了比较。我们的方法允许对多个领域进行高效的批处理推理，并在翻译质量和即时适应率方面优于现有技术基线，也就是在展示一次示例后重新生成特定术语的能力。

Sep, 2023

迭代前向调整促进语言模型内部学习

本研究提出了一种有效的、高效的两阶段方法来增强大型语言模型中的上下文学习，该方法利用 Transformer 注意力和梯度下降优化之间的双重形式，将上下文学习过程分为 'Thinking' 和推理阶段，通过递归前向优化演示来增强 LLLs 的推理能力，并且将得到的元梯度通过注意力应用于最终的输出预测中，从而有效地、高效地适应下游任务。

May, 2023

DEEP-ICL: 在上下文学习中丰富定义的专家语言模型

DEEP-ICL 是一种新颖的任务定义增强的专家集成学习方法，通过从给定的演示中显式地提取任务定义并通过学习任务特定的示例生成回答，它旨在实现高效的少样本学习，超越传统的上下文学习方法。

Mar, 2024

通过影响分析的上下文学习示范选择

通过使用影响函数分析训练样本的影响力，我们提出了一种名为 InfICL 的演示选择方法，用于选择对 In-Context Learning（ICL）有高影响力的训练样本，从而提高 ICL 的泛化性能，并在多个实际数据集上展示了 InfICL 相对于现有基准方法的优点。

Feb, 2024

上下文语言学习：结构和算法

通过研究在背景语境中的大规模神经语言模型对正则语言的学习，我们展示了 Transformers 相对于递归或卷积模型在 in-context 语言学习任务上的显著优势，并提出硬连接高阶归纳头到递归和卷积模型可改善这个任务和自然语言建模的性能。

Jan, 2024

ParaICL: 面向鲁棒的并行上下文学习

通过并行处理不同批次的样本，依据语义相似性在上下文学习中同时使用所有示范样本，并通过加权平均语义目标选择最合适的标记，从而提高 ICL 的有效性。

Mar, 2024