Dec, 2021

从数十万亿的标记中检索以提高语言模型

TL;DR通过从大型语料库中检索与前面 token 相似的文档块来改善自回归语言模型的条件,并创建 Retrieval-Enhanced Transformer(RETRO),该模型在 Pile 数据集上的表现与 GPT-3 和 Jurassic-1 相当。 RETRO 结合一个冻结的 Bert 检索器,一个可微分的编码器和一个分块交叉关注机制,可以基于比通常在训练期间消耗的数据量高一个数量级的数据预测 token,并在 fine-tuning 后转化为下游的 knowledge-intensive 任务,例如问答等,这一研究为利用显式记忆来提高语言模型的性能开辟了新的途径。