Oct, 2023

语言模型的策略梯度训练方法用于排名

TL;DR通过利用大规模预训练语言模型,我们引入了一种名为 Neural PG-RANK 的新型训练算法,该算法通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。实验证明,当训练目标与评估设置一致时,Neural PG-RANK 在领域内表现出卓越的性能提升,并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。