Mar, 2024

自注意力机制下的下一个标记预测机制

TL;DR自我注意力机制通过梯度下降训练能够学习自动生成下一个标记符号的自动机,其中学习步骤分为硬检索和软组合,梯度下降隐式地发现强连接组件并选择高优先级组件,以加工序列数据。