基于解码器为基础的语言模型的文本生成自动评估方法探索
该研究通过全面而多方位的分析,评估了大型语言模型在各种任务、模型和部署环境下的解码方法的性能表现、对超参数变化的鲁棒性和解码速度,发现解码方法的性能与任务相关,并受到对齐、模型规模和量化等因素的影响。有趣的敏感性分析揭示了某些方法在广泛超参数调节的代价下实现了更优的性能,凸显了在不同环境中实现最优结果与实施实用性之间的权衡。
Feb, 2024
该研究对语言生成任务和解码策略之间的相互作用进行了全面分析,测量了生成文本属性随着解码策略和任务的变化情况,并使用人工和自动评估发现了之前观察到的和令人惊讶的结果,如语言生成中的多样性与质量之间的平衡是非常特定于任务的,而模式搜索方法如光束搜索在机器翻译中表现出色,但在故事生成中会导致不连贯和重复的文本。
Mar, 2022
我们对基于文本重叠和大型语言模型判断的自动化方法在广泛任务和跨语言环境中的可靠性进行了研究,发现自动评估方法与人类评估者之间的相关性在任务类型不同的情况下存在相当大的变异性。尽管自动评估方法在特定条件下可以近似人类判断,但其可靠性高度依赖于上下文。这些发现强化了我们在开发和评估面向指导的大型语言模型时如何应用和解释自动化方法的理解。
Feb, 2024
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
通过在语言模型中引入优化问题的框架,我们提出了一种新的解码分布,该分布通过序列级能量函数定义多个度量标准来改善与人类文本的语义一致性,实验证明我们的方法在与人类文本的度量标准一致性和人类评估方面优于强基准模型。
Oct, 2023
基于编码器 - 解码器框架的当代翻译引擎发展迅猛,而大型语言模型的出现破坏了它们的地位,提供了实现更优翻译质量的潜力。因此,了解 LLMs 是如何在何种场景下胜过传统 NMT 系统,以及如何发挥其优势,变得至关重要。本文首先进行了全面分析,评估了各种商业 NMT 系统和面向机器翻译的 LLMs 的优势和局限性。发现 NMT 系统和面向机器翻译的 LLMs 都不能有效解决所有翻译问题,但面向机器翻译的 LLMs 可以作为 NMT 系统的有希望的补充。基于这些发现,我们探索了混合方法,并提出了合作解码(CoDec)将 NMT 系统视为预翻译模型,将面向机器翻译的 LLMs 视为处理 NMT 系统无法覆盖的复杂场景的补充解决方案。在 WMT22 测试集和新收集的 WebCrawl 测试集上的结果表明,CoDec 的有效性和效率,突出了将 NMT 系统与面向机器翻译的 LLMs 相结合作为强大解决方案的潜力。
Nov, 2023
本文提出使用提议的退火重要性抽样方法对基于解码器的模型进行对数似然评估,并使用双向蒙特卡罗验证其精度,分析了解码器模型的性能,现有对数似然估计器的有效性,过拟合程度以及这些模型错过数据分布的重要模式情况。
Nov, 2016
现有的大语言模型通过单向自回归解码方法生成文本,但这种方法在处理不确定 token 时容易遇到次优选择,而该研究提出了一种名为 SED 的自我评估解码方法以优化模型生成。实验结果表明 SED 在各种任务和不同模型上具有良好的效果。
May, 2024