提出了一种动态截断采样方法 min-$p$,通过在生成文本时根据候选词的概率来建立最小基础百分比阈值来平衡自洽性和创造力,实验表明 min-$p$ 在高温度下提高了生成文本的一致性和质量,同时与 top-$p$ 和其他采样方法相比,还能产生更具创意和多样性的文本输出。
Jul, 2024
通过理论证明截断采样方法能保证所有抽样的 Token 具有非零真实概率,同时基于模型中的 softmax 限制证明某些 Token 具有非零真实概率,我们开发了一种实验性的截断策略,并通过试验展示了其在低熵开放式文本生成中优于传统基于阈值的方法的性能,这些理论发现和试验结果推动了更具表现力的采样算法以展现大型语言模型的生成能力。
Oct, 2023
本文提出使用 entmax 转换来训练和采样自然稀疏的语言模型,从而避免训练和测试之间的差异,以达到更好的性能和更接近人类文本的 n-gram 多样性,同时提出了三个度量标准来比较稀疏或截断的分布,并通过故事和对话生成等应用展示了该方法的有效性。
Apr, 2020
本文通过使用 conformal prediction 方法对 $p$ 参数进行校准来研究 top-$p$ 采样在各种语言上下文环境下是否与其概率意义对齐,结果表明 OPT 模型存在过度自信,而校准与模型大小存在适度的反比关系。
May, 2023
本文提出了一种信息论分析的方法,可用于生成自然语言,可以更好地解释概率语言生成器的行为,提出了一种名为本地典型采样的过程,并证明该过程在生成摘要和故事时可以提高质量。
Feb, 2022
本文探究了利用重要性抽样法进行神经机器翻译中的知识蒸馏,包括剪枝、假设上采样和下采样、去重和它们的组合,并使用标准的翻译质量评估方法对英德和英捷翻译模型进行训练与测试,结果显示,仔细选择合适的数据进行上采样并与原始数据组合,可获得更好的性能提升。
Apr, 2021
本文提出了一种利用模型与参考之间的可区分性来处理无效参考的算法,称为损失截断。与常用的 log 损失相比,该方法可以更好地应对嘈杂和无效的参考,并取得了更好的实验效果,生成的样本拥有超越基线并与人类参考相匹配的事实准确性评分。
通过我们提出的 Best-fit Packing 方法,我们能够在保持训练效率的同时,完全消除了不必要的截断,并显著提高了模型的性能。
Apr, 2024
我们发现,LSTM 和 Transformer 语言模型系统地低估了来自目标语言的序列的概率,并且对于不太可能出现的序列更为严重,尽管使用更多的训练数据减轻了这种倾向,但这种低估行为还是存在,并且在目标分布熵较低时加剧了这种情况,并且找到了导致这种概率差距的原因在于语言模型往往会高估不规范序列的概率。
Mar, 2022
本文提出了一种快速而简单的基于噪声对比估计算法的 NPLM 训练方法,用此方法训练了几个神经语言模型并在 Microsoft Research 句子完成挑战数据集上取得了最先进的结果,有效地降低了训练时间。
Jun, 2012