Jun, 2024

自适应查询重写:通过会话答案的边际概率对齐重写器

TL;DRAdaQR 是一个框架,用于训练具有有限重写注释和完全没有段落标签的查询重写模型,通过从种子数据集中只使用~10% 的重写注释进行微调精简大型语言模型,然后利用这些模型为每个查询实例生成重写候选,并通过条件概率对这些候选进行检索者权重评估,这被用作优化重写器的奖励,进一步使用直接偏好优化 (DPO) 的过程进行优化,实验结果表明 AdaQR 不仅增强了具有有限注释要求的领域内重写器的功能,而且有效地适应了领域外数据集。