ACLApr, 2020

面向开放域问答的渐进式预训练稠密语料库索引

TL;DR本研究提出了一种简单且资源有效的方法,利用现有的预训练序列到序列模型来建立强大的问题生成器,并通过渐进式预训练算法确保每个批次有效的负样本存在,以预训练段落编码器。通过三个数据集的实验,本方法在使用 7 倍的计算资源进行预训练的现有浓缩检索方法方面取得了更好的效果。