有效的Transformer是否真的节省计算量?
本文提出了一种计算模型,将Transformer-encoder的基本组件attention和feed-forward计算映射到简单的原语中,并形成一种编程语言RASP,用于编程解决可能由Transformer学习的任务,并演示了如何训练Transformer模仿RASP解决方案,并且利用该模型分析了所需图层和注意头数。
Jun, 2021
本研究旨在探讨Transformer大型语言模型在复合任务上的局限性,研究结果表明Transformer模型虽然具有出色的多步推理性能,但其解决复合任务的方式是将多步推理化简为线性子图匹配,而并未完全发展出解决问题的系统性解决问题的方法,同时,随着任务复杂度的增加,Transformer模型的性能也会快速下降。
May, 2023
本研究使用合成机制来考察transformers在处理全局信息与上下文信息时的权衡,发现这些模型相对较快地学习了全局信息,但对于上下文信息中的二元组的识别则较慢,同时探究了权重矩阵作为联想记忆的作用以及梯度如何使其在训练时进行学习的理论机制,同时研究了数据分布属性的作用。
Jun, 2023
提出 Transformer in Transformer(TinT) 的概念,在大型模板训练语言模型中,TinT允许transformer在推断时模拟和微调复杂的内部模型,并通过创新的近似技术提高效率,并在多种语言建模和下游任务中验证TinT的内部微调过程。
Jul, 2023
研究表明,通过允许transformer在回答问题之前生成和依赖于中间令牌的序列,可以提高其推理能力,增加中间生成的数量将显著扩展transformer解码器的计算能力,进而使其能够识别所有正则语言,保持上下文敏感语言,并解决多项式时间可解问题。
Oct, 2023
大型语言模型的新兴泛化特性方面已经有了惊人的发现,但在诸多简单推理任务(如算术和奇偶性等)上仍存在问题。本研究针对算法任务的长度泛化范围,通过提出一个统一的框架,阐述了Transformer模型在特定任务上表现出的能力和方式。
Oct, 2023
该研究论文主要针对基于Transformer的大型语言模型的长上下文能力进行了模型架构的改进,并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。
Nov, 2023
使用无意义的填充符号可以替代思维链,解决无法通过直接回答进行的两个难算法任务,但需要具体、密集的监督;同时,中间符号作为填充符号引发了对大型语言模型进行难以审查、隐藏计算的担忧。
Apr, 2024
该论文描述了一种通过使用简单的N-gram基于训练数据的统计规则集来近似Transformer模型预测,从而帮助理解和解释Transformer的工作原理,包括检测训练期间的过拟合方法、计量Transformer从学习简单到更复杂的统计规则的进展程度、描述Transformer预测与N-gram规则之间的模型变异判据,以及在规则集变得越来越复杂时,N-gram规则集如何逼近Transformer模型的研究发现。
Jun, 2024