Feb, 2023

关于检索增强的 Transformer 的泛化能力

TL;DR该研究探讨了 Retrieval-Enhanced Transformer(RETRO)模型的性能以及性能提升的原因,发现检索数据库可显著提高语言建模的效果,但其性能提升主要来自于测试数据与数据库的重叠标记。该研究还指出,检索增强的语言模型对于其泛化能力的评估存在一定挑战,即使是有限的标记重叠也可能显著降低测试损失。