基于集合的提示:可证明解决语言模型的序列依赖问题
自回归大语言模型已经改变了自然语言处理领域的格局。基于预训练和提示范式的方法已经取代了常规的预训练和微调方法用于许多下游自然语言处理任务。本文讨论了已经在自回归大语言模型上使用的各种提示技术,提供了一个基于这个分类体系的简明调研,并且确定了自回归大语言模型中提示领域的一些未解决问题,可作为未来研究的方向。
Nov, 2023
该研究提出了一种无监督、可并行学习的语言模型生成算法,使用置换矩阵表示自回归顺序,并通过多步生成式注意力将其作为目标顺序进行训练,并在语言建模任务中获得了有竞争力或者优秀的表现。
Oct, 2021
本文通过实证研究生成顺序来探讨机器翻译的效果,发现对于英德翻译任务,以字母和最短优先等方式生成的效果相当于标准 Transformer 生成的效果,提出了不必严格遵循从左到右的翻译方式。而对于英中翻译任务,由于语言对齐度低,生成的效果则对生成顺序更加敏感。
Oct, 2019
在这篇论文中,我们研究了大型语言模型在多项选择题中的鲁棒性,发现其对选项顺序敏感,并存在位置偏差的问题。通过详细的分析和实验证明,通过调整选项的位置策略可以缓解或者放大模型的偏见,并提出了校准预测的两种方法,成功提高了不同模型和评估指标的性能。
Aug, 2023
通过确定培训示例的排列顺序,本文研究了少样本学习,探究其对预训练语言模型在文本分类任务上的表现,结果发现使用示例的循序排列可以提升 13% 的性能。
Apr, 2021
大语言模型的广泛应用使得识别它们的优势和局限性变得重要。我们主张,为了全面理解这些系统,我们需要考虑它们在训练中解决的问题:互联网文本的下一个词预测。通过认识到这个任务所带来的压力,我们可以对大语言模型采用的策略进行预测,从而推断它们的成功或失败。这种方法,我们称之为目的论方法,使我们能够确定三个因素,我们假设这些因素会影响大语言模型的准确性:执行任务的概率、目标输出的概率和提供的输入的概率。我们预测,当这些概率较高时,大语言模型的准确性会更高,而当概率较低时,即使在确定性环境下,概率也不应该起作用。为了验证我们的预测,我们对两个大语言模型(GPT-3.5 和 GPT-4)进行了十一项任务的评估,我们找到了强有力的证据表明大语言模型受到我们假设的概率影响的方式。在许多情况下,实验揭示了令人惊讶的失效模式。例如,当输出是高概率单词序列时,GPT-4 解码简单密码的准确率为 51%,但当输出是低概率时,准确率为 13%。这些结果表明 AI 从业者在低概率情况下使用大语言模型时需要谨慎。更广泛地说,我们得出结论,我们不应该把大语言模型评估为人类,而应该把它们看作一类独特的系统 —— 这类系统经过了自己特定的压力塑造。
Sep, 2023
研究通过大型语言模型(LLMs)研究提示设计对对话评估的影响。我们的研究实验了不同的提示结构,发现呈现原因和评分的顺序显著影响 LLMs 的评分,使用先给出原因的方法能够得到更全面的评估结果,该发现对于提高 LLM 的评估准确性和一致性至关重要。
Jun, 2024
通过衡量语言模型上下文嵌入中恢复标记树的程度,我们提出使用考察探测来对语言模型进行排序,从而确定适合特定语言的最佳模型选择。在 46 种不同类型和结构的语言模型 - 语言对中,我们的探测方法预测最佳语言模型选择的准确率为 79%,比训练完整解析器需要更少的计算量。在本研究中,我们发现 RemBERT 是一个最近提出的解耦合语言模型,它显著包含较少的固有依赖信息,但通常在完全微调后可以产生最佳的解析器结果。在排除这个异常值后,我们的方法在 89%的情况下确定最佳的语言模型选择。
Jun, 2022
通过研究语言模型的敏感度,提出语言冗余可以解释语言模型对自然语言理解任务中的词序变化不敏感的现象,即词序和其他语言线索(如格标记)提供了重叠和冗余的信息。利用互信息量化词序的信息量,结果显示当词序信息量较低时,模型对未乱序和乱序句子的预测更加一致。此外,发现该影响在不同任务中有所变化,对于某些任务(如 SST-2),语言模型的预测与原始预测几乎始终一致,尽管点互信息(PMI)发生变化,而对于其他任务(如 RTE),当 PMI 较低时,预测的一致性接近随机,即词序真正重要。
Feb, 2024