softmax bottleneck | BriefGPT

关键词softmax bottleneck

搜索结果 - 4

小型语言模型性能下降的原因：通过 Softmax Engular 点探究语言模型饱和现象
在语言建模中，研究人员发现较小的模型在训练后期可能会出现饱和现象，其原因是较小模型的隐藏维度与目标上下文概率分布的高秩之间存在不匹配，由此导致线性预测头的性能下降。实验结果表明，隐藏维度小于 1000 的模型在预训练后期会采用退化的潜在表示
PDF3 months ago
API 保护的 LLMs 泄露了专有信息
大规模语言模型（LLMs）的商业化导致了对专有模型进行高级 API 访问的常见做法。然而，我们的研究发现，即使在对模型架构保守假设的情况下，通过相对较少的 API 查询（例如，OpenAI 的 gpt-3.5-turbo 下成本不到 100
PDF4 months ago
解决神经文本退化的疑难案例
通过理论证明截断采样方法能保证所有抽样的 Token 具有非零真实概率，同时基于模型中的 softmax 限制证明某些 Token 具有非零真实概率，我们开发了一种实验性的截断策略，并通过试验展示了其在低熵开放式文本生成中优于传统基于阈值的
PDF9 months ago
ICLR打破 Softmax 瓶颈：高级 RNN 语言模型
本文将语言模型制定为矩阵分解问题，证明了基于 Softmax 的模型（包括大多数神经语言模型）的表达能力受到 Softmax 瓶颈的限制，指出在实践中，带有分布式单词嵌入的 Softmax 模型并没有足够的能力来对自然语言进行建模。作者提出
PDF7 years ago