Oct, 2024

ENTP:仅编码器的下一个token预测

TL;DR本研究针对广泛使用的仅解码器Transformer在下一个token预测中的设计选择提出质疑,认为其主要是出于效率而非必要性。通过引入仅编码器的下一个token预测(ENTP)模型,发现其在表达能力和复杂性上具有潜在优势,并且在实际任务中表现优于传统解码器模型。