PairReranker: 自然语言生成的配对重排序

Dec, 2022

PairReranker: 自然语言生成的配对重排序

PairReranker: Pairwise Reranking for Natural Language Generation

Dongfu Jiang, Bill Yuchen Lin, Xiang Ren

TL;DR通过对三种自然语言生成任务的实证分析，提出了一种新的 NLG 后处理方法 PairReranker，并证明其能够显著提高性能及适用于 GPT-3。

Abstract

pre-trained language models have been successful in natural language generation (NLG) tasks. While various decoding methods have been employed, they often produce suboptimal results. We first present an empirical

pre-trained language models natural language generation pairreranker decoding methods nlg tasks

发现论文，激发创造

基于大型语言模型的自然语言生成从逻辑形式的重新排序研究

通过提出一种新颖的生成和重新排序的方法，本研究强调大型语言模型在自然语言生成中的出色能力，并解决了从逻辑形式（LFs）生成自然语言时遇到的一些问题，该方法能够提高生成输出的语义一致性和流畅性，经过多项实验验证了其有效性。

Sep, 2023

Re2G: 检索、排序、生成

Re2G 利用神经检索和排名策略结合 BART 序列生成器，在零 - shot 填槽、问答、事实核查和对话等任务中取得了相对增益为 9% 至 34% 的较大提升，是目前 KILT 排行榜上最先进的模型。

Jul, 2022

SummaReranker：一个多任务专家混合再排序框架用于抽象摘要

该研究使用深度学习模型进行文本自动摘要，通过重新排序生成的摘要，显著提高了 ROUGE 1 得分。

Mar, 2022

大型语言模型具有配对排名提示的有效文本排名器

本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR)，通过使用适当的排名提示，减少了 LLMs 的负担，使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。

Jun, 2023

基于排名增强的列表优化在统计机器翻译中的应用

该研究提出了一种面向结构预测问题的列表学习框架，通过直接对整个翻译列表进行建模，学习可以更好地适应给定列表样本的参数，并提出了更加敏感于排名错误的顶级增强列表损失函数。研究结果表明，该列表学习框架和顶级增强列表损失函数均可以显著提高翻译质量。

Jul, 2017

学习比较，提高开放领域自然语言生成模型的训练和评估

本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型，同时还提出了使用技能等级系统来评估模型质量，并将其作为性能指标，在训练过程中进行优化。实验结果表明，该方法与人类偏好的相关性更高，训练成果更优秀，有效性得到了证明。

Feb, 2020

语言模型的策略梯度训练方法用于排名

通过利用大规模预训练语言模型，我们引入了一种名为 Neural PG-RANK 的新型训练算法，该算法通过实例化一个语言模型为 Plackett-Luce 排序策略，为检索模型的端到端训练提供了一种合理的方法，并有效地将训练目标与下游决策质量相统一。实验证明，当训练目标与评估设置一致时，Neural PG-RANK 在领域内表现出卓越的性能提升，并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。

Oct, 2023

基于大型语言模型的零样本列表式文档重排序

在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上，使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法，在多层文本排序任务中取得了强大的效果。

May, 2023

RankGen: 使用大型排名模型改善文本生成

使用对比学习训练了一个评分模型 RankGen，用于解决现代语言模型生成文本中的连贯性、一致性和相关性问题，该模型在不同语言模型和领域的实验中优于核聚类、top-k 和采样等解码算法，并且改善了连贯性和一致性

May, 2022

PRePair: 增强逐点推理的鲁棒指令遵循评估

通过比较点对和逐点评估方法，研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性，而逐点评估器在判断错误时仍能准确识别低质量输出的缺点，这表明大型语言模型在点对评估设置中更受其偏见的影响；为了缓解这个问题，该研究提出了一种将逐点推理方法整合到点对评估中的混合方法，实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性，并在正常样本上保持了准确性。

Jun, 2024