下一标记预测的隐性偏见
自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机,其中学习步骤分为硬检索和软组合,梯度下降隐式地发现强连接组件并选择高优先级组件,以加工序列数据。
Mar, 2024
我们建议通过训练语言模型来预测多个未来标记,以提高样本利用效率,并对其下游能力进行改进,特别是在多词预测作为辅助训练任务时,在代码和自然语言生成模型方面获得了显著的改善。
Apr, 2024
本研究解决了大型语言模型(LLMs)在理解内部输入数据处理过程中的黑箱问题。我们提出了一种定量法则,揭示每一层在提高下一标记预测的准确性方面均作出相等贡献。这一发现对LLM的设计、训练和应用具有重要影响,提供了新的指导思路。
Aug, 2024
本研究解决了下一标记预测(NTP)如何影响语言模式与模型表示几何属性之间映射的未知问题。通过将大型语言模型的训练框架视为稀疏概率标签向量上的软标签分类,提出了一种新颖的方法来分析单词和上下文嵌入的几何特征。研究发现,NTP隐式地促进了稀疏加低秩结构的学习,可能导致相同下一标记上下文的表示在适当子空间中聚集,这一现象称为子空间崩溃。
Aug, 2024
本研究针对现有的下一令牌预测(NTP)范式的局限性,特别是在任务复杂性和推理时错误传播方面,提出了批评。通过引入下一分布预测(NDP)方法,将$n$-gram分布替代一热目标,显示出在翻译、一般任务以及医疗领域适应性上显著提高了性能,这为改善NTP提供了新的研究方向。
Aug, 2024
本研究解决了现有文献对变压器在下一个标记预测(NTP)任务中表现理论理解的不足,提出了一种细致的非渐近分析方法。研究设计了一个两阶段的训练算法,证明了变压器具有显著的预测能力,尤其是在数据集迁移时,揭示了变压器卓越的泛化性能。
Sep, 2024
本研究解决了现有对Transformer模型在下一个token预测(NTP)任务性能理论理解不足的问题,尤其是在非渐近性能方面。通过数学框架分析训练数据集结构特性,并设计了一个两阶段训练算法,结果表明Transformer在数据集变化下仍展现出非平凡的预测能力,从而突显了其优秀的泛化性能。
Sep, 2024
本研究解决了语言模型解码中关键表示分布对下一标记预测分布的影响,尤其是键之间的相似性可能引发虚假相关的问题。论文提出了一种新的上下文方法,通过逐步将查询表示推离已探索区域,显著提高了解码的多样性和生成结果的自一致性。这一方法在知识探测任务中的实验结果表明,其对提高生成的多样性和准确性具有良好效果。
Oct, 2024
本研究探讨了大型语言模型在训练过程中存在的令牌级别的性能偏差,传统评估方法未能揭示这种细微的偏差。作者创新性地指出,权重衰减法在稳定训练的同时,实际上对低频令牌产生了不成比例的贬值,强调了需要新型正则化技术以确保训练过程的公平性。
Oct, 2024