通过提出一种新颖的生成和重新排序的方法,本研究强调大型语言模型在自然语言生成中的出色能力,并解决了从逻辑形式(LFs)生成自然语言时遇到的一些问题,该方法能够提高生成输出的语义一致性和流畅性,经过多项实验验证了其有效性。
Sep, 2023
Re2G 利用神经检索和排名策略结合 BART 序列生成器,在零 - shot 填槽、问答、事实核查和对话等任务中取得了相对增益为 9% 至 34% 的较大提升,是目前 KILT 排行榜上最先进的模型。
Jul, 2022
该研究使用深度学习模型进行文本自动摘要,通过重新排序生成的摘要,显著提高了 ROUGE 1 得分。
Mar, 2022
本文提出了一种新的技术叫做 Pairwise Ranking Prompting (PR),通过使用适当的排名提示,减少了 LLMs 的负担,使用 moderate-sized open-sourced LLMs 在标准的基准测试中实现了最先进的排名表现。
Jun, 2023
该研究提出了一种面向结构预测问题的列表学习框架,通过直接对整个翻译列表进行建模,学习可以更好地适应给定列表样本的参数,并提出了更加敏感于排名错误的顶级增强列表损失函数。研究结果表明,该列表学习框架和顶级增强列表损失函数均可以显著提高翻译质量。
Jul, 2017
本文提出了一种使用 BERT fine-tuning 的方法来比较生成的自然语言模型,同时还提出了使用技能等级系统来评估模型质量,并将其作为性能指标,在训练过程中进行优化。实验结果表明,该方法与人类偏好的相关性更高,训练成果更优秀,有效性得到了证明。
Feb, 2020
通过利用大规模预训练语言模型,我们引入了一种名为 Neural PG-RANK 的新型训练算法,该算法通过实例化一个语言模型为 Plackett-Luce 排序策略,为检索模型的端到端训练提供了一种合理的方法,并有效地将训练目标与下游决策质量相统一。实验证明,当训练目标与评估设置一致时,Neural PG-RANK 在领域内表现出卓越的性能提升,并在下游问答任务中对一些关键数据集进行了实质性的跨领域泛化。
Oct, 2023
在 TREC 网络搜索数据集和 MIRACL 跨语言数据集上,使用无需特定任务训练数据的 Listwise Reranker with a Large Language Model (LRL) 可以作为第一阶段和最终阶段的重新排序方法,在多层文本排序任务中取得了强大的效果。
May, 2023
使用对比学习训练了一个评分模型 RankGen,用于解决现代语言模型生成文本中的连贯性、一致性和相关性问题,该模型在不同语言模型和领域的实验中优于核聚类、top-k 和采样等解码算法,并且改善了连贯性和一致性
May, 2022
通过比较点对和逐点评估方法,研究发现逐点评估方法对不必要的偏好具有更强的鲁棒性,而逐点评估器在判断错误时仍能准确识别低质量输出的缺点,这表明大型语言模型在点对评估设置中更受其偏见的影响;为了缓解这个问题,该研究提出了一种将逐点推理方法整合到点对评估中的混合方法,实验结果表明我们的方法在对抗样本中提高了点对评估器的鲁棒性,并在正常样本上保持了准确性。
Jun, 2024