Apr, 2024

语言模型是否对未来的标记进行计划?

TL;DRtransformers 在推断期间是否有预先思考。我们提出了两种解释:预缓存和面包屑。通过训练语言模型来测试这些假设,我们在合成数据设置和自回归语言建模设置中找到了明确的证据。