关于大型语言模型中的位置偏差的总结化问题
我们通过测量位置偏差来表征和研究大型语言模型中的零样本抽象概括,位置偏差是我们提出的对前人文献中更为严格的引导偏差现象的一种普遍公式。通过在四个多样化的实际数据集上进行多次实验,我们研究了 GPT 3.5-Turbo、Llama-2 和 Dolly-v2 等多个 LLM 模型以及 Pegasus 和 BART 等最先进的预训练编码解码抽象概括模型中的位置偏差。我们的发现为零样本概括任务的模型性能和位置偏差带来了新的见解和讨论。
Jan, 2024
通过对十种不同的预训练方法、提示和模型规模的大型语言模型进行人类评估,我们发现指导调整而不是模型规模是 LLM 的零样本摘要能力的关键,并通过从自由职业作家收集的高质量摘要进行人类评估,得出 LLM 摘要被认为与人类撰写的摘要相媲美的结论。
Jan, 2023
大型语言模型在总结任务中表现出令人满意的性能,超过了参考摘要的基准,人类评估者明显偏好大型语言模型生成的摘要而不是人工撰写的摘要和经过微调的模型生成的摘要,因为大型语言模型生成的摘要具有更好的事实连贯性和更少的外在幻觉实例。
Sep, 2023
概括是大型语言模型(LLMs)的一个重要应用,先前的评估主要关注它们在内容选择、语法和连贯性方面的表现,但众所周知 LLMs 会传递和强化有害的社会偏见,因此我们需要研究这些偏见是否会影响文摘模型的输出。为了回答这个问题,我们首先提出了一些针对文摘模型中的偏见行为的定义,并介绍了实际的度量方法。然后,为了避免输入文档中的内在偏见对分析的干扰,我们提出了一种方法来生成具有精细控制的人口属性的输入文档。最后,我们将我们的度量方法应用于专为文摘模型和通用聊天模型生成的文摘中,发现单一文档的内容选择似乎在很大程度上不受偏见的影响,而虚构现象显示出有偏见传播到生成的文摘中的证据。
Sep, 2023
大型语言模型在会话摘要方面的能力有待探索,本研究评估了使用大约 100 亿个参数的语言模型在会话摘要上的性能,展示了其对各种提示的表现,并且证明了模型生成的摘要取决于指令,LLMs 在不同指令下的性能差异,如果提示选择不当,有时会导致 ROUGE 分数的显著下降,还通过人工评估对模型进行了评估,并讨论了模型在会话摘要方面的限制。
Nov, 2023
通过零样本策略,本研究提出并评估了三种方式来解决实际的矛盾检测问题,并研究了如何精简高效且功效强大的大型语言模型。实验结果表明,适当设计的范式可以使大型语言模型在无需训练的情况下解决此问题,平均超越强训练基线 2.8%。为了进一步提高实用性,我们提出了训练策略,旨在通过高准确性一次对整个摘要进行评分的方式来精简开源大型语言模型,其效果优于较大的零样本大型语言模型,成为一种有效且高效的可即用得分器。
Feb, 2024
本研究通过使用 SummEval 数据集进行一系列分析,证实了大型语言模型作为评估器在以下方面存在偏见和不一致性:(1)体现对低困惑度文本的偏好;(2)显示具有偏见的评分分布;(3)经历多属性判断时的锚定效应。此外,我们分享了配置大型语言模型评估器以减轻这些限制的方法,通过 RoSE 数据集的实验证明了与最先进的大型语言模型评估器相比的改进。
May, 2024
语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。
Nov, 2023
本文提出了一种新的学习范式,考虑到 LLMS 是常用摘要数据集中的参考标准,用对比学习和 LLM 作为摘要质量评估器进行摘要训练方法。实验证明,用 GPTScore 和 GPTRank 两种 LLM 计分方式训练出来的较小的摘要模型,其性能可以与参考的 LLM 相媲美,通过访问 LLMS 它只需要很小的预算。
May, 2023
研究大型语言模型在科学摘要任务上的可控性问题,通过控制文体特征发现没有经过微调的大型语言模型在 MuP 评审生成任务方面优于人类,同时表明我们可以通过基于关键词的无分类器引导来提高语言模型的可控性,从而在 arXiv 和 PubMed 上实现与强基线的词汇重叠相当的结果。然而,研究结果还表明大型语言模型无法一致生成超过 8 个句子的长摘要,且在生成高度抽象的通俗摘要方面存在有限能力,因此在领域特定应用中,仍然存在着需要昂贵微调才能解决的问题。
Jan, 2024