Mar, 2025

大型语言模型中重复标记现象的解释

TL;DR本研究解决了大型语言模型(LLMs)在重复单词时常常输出无关文本的问题,揭示了这一现象的原因与“注意力沉没”概念之间的联系。研究发现了负责注意力沉没的神经电路,并提出了一种有效的解决方案,显著提高模型在长重复序列中的准确性,从而为大型语言模型的安全性和可靠性提供了新见解。