语言模型的策略梯度训练方法用于排名

Oct, 2023

语言模型的策略梯度训练方法用于排名

Policy-Gradient Training of Language Models for Ranking

Ge Gao, Jonathan D. Chang, Claire Cardie, Kianté Brantley, Thorsten Joachim

TL;DR通过利用大规模预训练语言模型，我们引入了一种名为 Neural PG-RANK 的新型训练算法，该算法通过实例化一个语言模型为 Plackett-Luce 排序策略，为检索模型的端到端训练提供了一种合理的方法，并有效地将训练目标与下游决策质量相统一。实验证明，当训练目标与评估设置一致时，Neural PG-RANK 在领域内表现出卓越的性能提升，并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。

Abstract

text retrieval plays a crucial role in incorporating factual knowledge for decision making into language processing pipelines, ranging from chat-based web search to question answering systems. Current state-of-th

text retrieval language processing pipelines large language models training algorithm decision-making quality

发现论文，激发创造

对比策略梯度：以监督友好的方式在序列级别上对齐 LLM

Reinforcement Learning 与 Large Language Models 的直接对齐方法之间存在悬殊，因此引入了 Contrastive Policy Gradient 算法来解决，在 Summarization 任务中获得了可靠的结果。

Jun, 2024

以近端策略优化实现经济高效的预训练语言模型微调，群众外包是否让你的银行雪上加霜？

我们提出了一种自监督文本排名方法，通过概率抽样、文本排名和聚类算法，以及奖励模型，优化生成策略，从而大大降低了 ChatGPT 等语言模型的训练成本，并证明了语言模型的自我纠正潜力。

Feb, 2024

排名公平性的政策学习

本文提出了一种利用随机排序策略来进行公平学习及考虑排序项影响的通用 LTR 框架，并通过基于政策梯度方法的 Fair-PG-Rank 算法进行优化，可在保持曝光公平性的情况下优化各种效用指标。通过实验结果验证了此方法在个人和集体公平性方面的有效性。

Feb, 2019

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

基于排名的生成模型在 [CLS] 任务中的应用

本研究旨在重新审视信息检索的生成式框架，并比较其与基于语义相似性的判别式模型在答案选择任务上的表现。同时，还展示了非似然损失对信息检索的有效性。

Oct, 2020

通过学习排序进行语言建模

通过使用预先训练的 GPT-2、BERT 和 Born-Again 模型来生成排名来避免标注排名，建立语言建模为排序任务的方法，并使用 $n$-gram 创建非概率性教师，证实我们可以将 $LMing$ 视为排序任务而不使用预先训练的 LM，并且在比较 KL-based KD 时通常通过统计显著性提高 perplexity。

Oct, 2021

生成式检索中的学习排序

提出了一个称为 LTRGR 的新框架，结合了生成式检索和经典的学习 - 排序模型，通过使用段落排名损失训练自回归模型，只需要额外的训练步骤即可增强当前的生成式检索系统，并在三个公共数据集上实现了最先进的性能。

Jun, 2023

学习生成比您的 LLM 更好的结果

本研究提出了一种基于强化学习算法的语言模型微调方法，通过与动态黑盒引导语言模型（GPT-3）相互作用，比传统监督学习和 PPO 策略优化算法表现更好，尤其在语义和词汇多样性等方面的指标上有改善。

Jun, 2023

基于预训练语言模型的百度搜索排名

本文介绍了将预训练语言模型（PLMs）引入搜索引擎的相关技术及其在实际应用中所面临的问题，使用 ERINE 语言模型以及创新的预训练策略、调整排列信号的方法，成功提高搜索引擎的性能。

May, 2021

P^3 Ranker：基于提示学习和预微调的缓解预训练和排名微调之间差距方法

本文研究了使用预训练语言模型（PLMs）来进行搜索排名时遇到的两个问题：训练模式和任务知识之间的差距。我们提出了一种称为 P³ Ranker 的模型，该模型使用基于提示的学习将排名任务转换为预训练模式，并使用预训练初始化模型，以尽可能少的数据实现适应该任务，并在 MS MARCO 和 Robust04 上表现出优异的表现，可用于 data-efficient 的 PLM 适应。

May, 2022