语言模型解码作为似然度 - 效用匹配
该研究通过全面而多方位的分析,评估了大型语言模型在各种任务、模型和部署环境下的解码方法的性能表现、对超参数变化的鲁棒性和解码速度,发现解码方法的性能与任务相关,并受到对齐、模型规模和量化等因素的影响。有趣的敏感性分析揭示了某些方法在广泛超参数调节的代价下实现了更优的性能,凸显了在不同环境中实现最优结果与实施实用性之间的权衡。
Feb, 2024
通过在语言模型中引入优化问题的框架,我们提出了一种新的解码分布,该分布通过序列级能量函数定义多个度量标准来改善与人类文本的语义一致性,实验证明我们的方法在与人类文本的度量标准一致性和人类评估方面优于强基准模型。
Oct, 2023
提出了一种名为 DeAL 的框架,通过自定义奖励函数和解码时对齐来改善大型语言模型的对齐目标,弥补模型训练中的残缺缺陷,并探讨了与关键字约束和长度约束等程序约束以及有益和无害等抽象目标进行实验的有效性。
Feb, 2024
该研究对语言生成任务和解码策略之间的相互作用进行了全面分析,测量了生成文本属性随着解码策略和任务的变化情况,并使用人工和自动评估发现了之前观察到的和令人惊讶的结果,如语言生成中的多样性与质量之间的平衡是非常特定于任务的,而模式搜索方法如光束搜索在机器翻译中表现出色,但在故事生成中会导致不连贯和重复的文本。
Mar, 2022
研究分析了解码算法对语言模型生成文本公平性的影响,发现更多样化的文本输出更容易含有负面情感和态度,提供了如何优化解码算法以获得公平性、质量和多样性的推荐和标准化报告。
Oct, 2022
将解码算法视为多目标优化问题,旨在同时最大化回应质量和多样性。当多样性是一个优先考虑的因素时,所有方法表现相似,但当质量被视为更重要时,近期提出的核采样 (nucleus sampling) 优于所有其他评估的解码算法。在这一发现的基础上,我们设计并评估了一种名为 “选择性抽样” 的算法,该算法可以近似全局归一化温度抽样。
Apr, 2020
通过对大型语言模型的研究,发现在训练过程中提高计算能力可以取得更好的结果,然而对于推断阶段提高计算能力的好处却没有得到足够的关注。本文调查了推断阶段的几种方法,包括基于令牌级别的生成算法、元生成算法和高效生成方法,并从传统自然语言处理、现代大型语言模型和机器学习系统的角度统一了观点。
Jun, 2024
通过使用合成数据训练可调整的模型,我们提出了一种解耦大型语言模型和对齐过程的方法,以确保其在大多数应用中的安全性和实用性,并减少对齐对性能的潜在负面影响。我们通过训练一个 “道德” 对齐器模型并从实证角度验证其有效性来阐明我们的方法。
Mar, 2024