ACLMar, 2022

低秩 Softmax 理论上可能存在无法取最大值的类别,但在实践中很少出现

TL;DR本篇论文研究自然语言处理(NLP)中分类器的输出类别众多,通过开发算法检测大规模语言模型和翻译模型的无法使用 argmax 方法预测的 Tokens,其中 13 个模型存在此类 Tokens,但发现其极少且不太可能影响模型质量。