Jun, 2024

BERTs 是生成上下文学习者

TL;DR本文探讨了掩码语言模型的上下文学习能力,挑战了常见观点,即这种能力在它们中并没有 ' 出现 '。我们提出了一种令人尴尬地简单的推理技术,使得 DeBERTa 能够作为一个生成模型进行操作,无需额外训练。我们的研究结果表明,DeBERTa 能够与甚至超过 GPT-3,后者以引入上下文学习范式而闻名。比较分析表明,掩码和因果语言模型的行为非常不同,它们在不同类别的任务上明显超越对方。这表明存在一个能充分利用两个训练目标优势的混合训练方法的巨大潜力。