Oct, 2023

解决神经文本退化的疑难案例

TL;DR通过理论证明截断采样方法能保证所有抽样的 Token 具有非零真实概率,同时基于模型中的 softmax 限制证明某些 Token 具有非零真实概率,我们开发了一种实验性的截断策略,并通过试验展示了其在低熵开放式文本生成中优于传统基于阈值的方法的性能,这些理论发现和试验结果推动了更具表现力的采样算法以展现大型语言模型的生成能力。