May, 2023

带前瞻注意力的自回归建模

TL;DR本文介绍了一种新颖的基于 Transformer 的自回归架构,通过根据某些提议分布外推过去的多个连续部分来估计下一个令牌的分布,并关注这些扩展字符串,以改进自回归模型的性能。