公平摘要：在抽取摘要中平衡质量与多样性

Nov, 2024

公平摘要：在抽取摘要中平衡质量与多样性

Fair Summarization: Bridging Quality and Diversity in Extractive Summaries

Sina Bagheri Nezhad, Sayan Bandyapadhyay, Ameeta Agrawal

TL;DR本研究针对多文档摘要中的公平性问题，尤其是在用户生成内容中不同社会群体的偏见表示。提出了两种新方法：基于聚类的FairExtract和结合公平约束的FairGPT，这些方法在确保公平性同时也维持了摘要质量。研究表明，这些方法在质量和公平性的综合评估上都有显著优势，为未来的公平意识自然语言处理模型研究奠定了基准。

Abstract

Fairness in multi-document Summarization of user-generated content remains a critical challenge in Natural Language Processing (NLP). Exis

发现论文，激发创造

公正和多样化的基于DPP的数据概述

通过加入公平性约束条件，该文章提出了一种基于确定性多元分布的方法，并且使用了快速的抽样算法以产出多样化且公平的数据子集。

Feb, 2018

量化自然语言处理中的社会偏见: 对外在公平度量的一般化及实证比较

本文提出了三个广义公平度量标准，系统分析了不同的参数选择如何导致公平度量方法之间的差异，以更好地了解和处理NLP/ML模型中的不公平性。

Jun, 2021

探索基于ChatGPT的查询或基于方面的文本摘要的极限

本文介绍了关于文本摘要的各种方法，包括提取式和抽象式，并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例，展示了ChatGPT生成的摘要与人类参考的差异，并发现ChatGPT在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向，提供了有价值的见解。

Feb, 2023

基于ChatGPT的摘要生成方法，用于可靠的摘要生成

本文介绍了如何通过使用两个阶段的方法（提取和生成）来提高ChatGPT的提取式摘要性能，结果显示，使用该方法相较于抽象式baseline，提高了摘要的忠实度表现，但与现有的监督系统相比，ChatGPT的提取式摘要性能仍具有不足之处。

Apr, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

拥抱分歧以获得更丰富的见解：一个多文档摘要基准和一个从新闻文章中概括多样信息的案例研究

在多篇文档新闻摘要研究中，以往研究通常集中于整合各个来源都同意的信息。然而，据我们所知，以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中，我们提出了一个新任务，即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务，我们确定了一个用于识别多样信息的数据收集模式，并创建了一个名为DiverseSumm的数据集。该数据集包含245个新闻故事，每个故事包括10篇新闻文章，并配有人工验证的参考摘要。此外，我们进行了全面的分析，以确定基于大型语言模型（LLM）的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差，以及它们与人工评估的相关性。我们应用我们的发现来研究LLMs如何通过分析LLMs能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明，尽管LLMs在单篇文档摘要方面具有非凡的能力，但对于他们来说，所提出的任务仍然是一个复杂的挑战，主要是由于他们的覆盖范围有限，GPT-4只能够平均覆盖不到40%的多样信息。

Sep, 2023

多元观点的公平抽象摘要

我们对用户生成数据进行了公平抽象概括的系统研究，首次正式定义了公平的抽象概括，并提出了四个参考无关的自动评估指标来测量目标和源观点之间的差异。实验证明，无论是模型生成的还是人工编写的参考概括都存在公平性较低的问题，我们提出了三种简单但有效的方法来缓解不公平的概括。

Nov, 2023

社交多文档摘要中了解位置偏见对公平性的影响

对社交媒体数据进行多源文档摘要的时候，用于优化摘要质量的模型往往侧重于流畅性、相关性和连贯性等方面，但摘要模型对不同社会群体意见的公正性也显得越来越重要。我们深入探讨了位置偏见在社交媒体多源文档摘要中的影响，通过分析输入文档中群组顺序对非裔美国英语、西班牙语及白人英语族群的推文进行摘要。实证分析结果显示，尽管文本摘要的质量在不考虑输入文档顺序时保持稳定，但公正性方面的结果会因方言群体在输入数据中的呈现方式而产生显著差异。我们的结果表明，位置偏见在社交媒体多源文档摘要中呈现不同，严重影响了摘要模型的公正性。

May, 2024

公正聚类用于数据摘要：改进的近似算法及复杂性洞察

本文解决了数据摘要任务中的公正聚类问题，尤其是公平 k-供应商问题，该问题要求在各组中选择一定数量的中心点以最小化 k-供应商目标。我们提出了对两个不同变体的 3-近似算法，研究表明，这些算法在大规模数据集上具有良好的可扩展性，并且相对于没有公平约束的解决方案，其效果具有重要的实用性和影响。

Oct, 2024

公平总结：在提取性摘要中弥合质量与多样性

本研究解决了多文档用户生成内容摘要中的公平性问题，现有方法常常未能实现不同社会群体的公平代表。我们提出了两种新的公平提取摘要方法，FairExtract和FairGPT，其在确保公平性的同时保持了竞争力的摘要质量，且引入了综合评估指标来更好地理解质量与公平之间的权衡。

Nov, 2024