BriefGPT.xyz
Oct, 2023
解决神经文本退化的疑难案例
Closing the Curious Case of Neural Text Degeneration
HTML
PDF
Matthew Finlayson, John Hewitt, Alexander Koller, Swabha Swayamdipta, Ashish Sabharwal
TL;DR
通过理论证明截断采样方法能保证所有抽样的Token具有非零真实概率,同时基于模型中的softmax限制证明某些Token具有非零真实概率,我们开发了一种实验性的截断策略,并通过试验展示了其在低熵开放式文本生成中优于传统基于阈值的方法的性能,这些理论发现和试验结果推动了更具表现力的采样算法以展现大型语言模型的生成能力。
Abstract
Despite their ubiquity in language generation, it remains unknown why
truncation sampling
heuristics like
nucleus sampling
are so effective. We provide a theoretical explanation for the effectiveness of the
→