充分利用之前的数据：交互式文本摘要的偏好反馈解决方案

ACLApr, 2022

充分利用之前的数据：交互式文本摘要的偏好反馈解决方案

Make The Most of Prior Data: A Solution for Interactive Text Summarization with Preference Feedback

Duy-Hung Nguyen, Nguyen Viet Dung Nghiem, Bao-Sinh Nguyen, Dung Tien Le, Shahab Sabahi...

TL;DR本研究提出了一个新的交互式框架，可通过优化离线数据和一种新型奖励模型，以少量交互式反馈的方式训练摘要模型，提高 ROUGE 得分和采样效率。这个框架在摘要的活动、少量交互式学习和在线学习的场景下均具有优势。

Abstract

For summarization, human preference is critical to tame outputs of the summarizer in favor of human interests, as ground-truth summaries are scarce and ambiguous. Practical settings require dynamic exchanges between human and →

summarization preference feedback ai agent offline data preference learning

发现论文，激发创造

从人类反馈中学习摘要

通过使用强化学习优化模型的奖励函数来预测人类偏好总结，本文展示了可显著提高总结质量的可能性，并在 TL;DR 数据集上取得了显著的优势。

Sep, 2020

强化学习中偏好一致性的影响：摘要生成案例研究

从人类反馈中学习强化学习（RLHF）可以捕捉到文本生成质量的复杂和微妙的特性。本文探讨了偏好一致性对于文本摘要中 RLHF 的有效性的影响，通过展示人类偏好的采样范围包含一系列的标注者一致性，我们证明了（1）更高准确率的奖励模型和（2）所捕捉到的质量特征的改变。此外，当使用训练有一系列偏好一致性的奖励模型时，我们还展示了下游生成方面的改进。我们的贡献对于合成数据集的设计以及在比较性数据中考虑质量差异的重要性具有影响。

Nov, 2023

APRIL: 交互式学习摘要，结合主动偏好学习和强化学习

该研究提出了一种基于用户偏好进行交互式自动摘要的方法，通过利用主动学习、偏好学习和强化学习等技术，提高了方法的样本复杂性，并在模拟和真实用户实验中得到了显著的结果提升。

Aug, 2018

基于偏好的交互式多文档摘要

本研究提出了一种基于互动学习的文本摘要框架 APRIL，通过主动学习、偏好学习和神经强化学习，有效减少了与用户的交互次数，提高了系统的摘要效果。

Jun, 2019

人在环节下的抽象式对话摘要

本文提出引入不同层次的人类反馈，结合增强学习以提高抽象对话摘要的质量。实验表明，该方法在人类判断方面优于监督式基线，并能提高摘要质量。

Dec, 2022

一项用于从非结构化数据中学习结构的个性化强化学习摘要服务

该论文提出了一种基于个性化概念的分层式摘要方法 Summation，使用强化学习算法生成特定主题的未见文档的个性化摘要，以增强理解、有效导航和满足用户独特需求从大量文献中提取有意义的见解。

Jul, 2023

基于贝叶斯优化的交互式文本排名：以社区问答和摘要为例的案例研究

本研究提出了一种交互式文本排序方法，使用贝叶斯优化来聚焦在高质量的候选项上，以更好地适应于小数据场景，应用于社区问答和提取式摘要中，较之现有交互式方法具有明显优势，同时发现所学习的排序函数可以作为强化学习中有效的奖励函数。

Nov, 2019

基于问答奖励的摘要生成引导

本文提出了一种利用问答奖励来引导监督式摘要系统的新框架，通过人类摘要获得问答对来评估总结与原文件的关系，并且该系统学习如何推广信息量大、流畅度高且在问答方面表现良好的总结，结果表明其表现优于基线总结和人类评估。

Apr, 2019

人类反馈的最佳设计

从人类反馈中学习偏好模型一直是人工智能领域最近进展的核心。本研究通过推广最优设计的概念，研究了用于学习偏好模型的数据收集问题，并提出了面向排名列表的有效算法，证明了模型估计器随更多数据而改善，估计器下的排名误差也随之减少，并在多个合成和真实数据集上进行实验以展示算法的统计效率。

Apr, 2024

更好的奖励带来更好的摘要：无参考学习摘要

从 2500 个摘要的人为评分中学习奖励函数，得出的 RL 系统奖励函数在人类评价方面具有显著更高的相关性，使用我们得出的奖励函数进行训练的 RL 系统生成了比现有方法更符合人类喜好的摘要。

Sep, 2019