公平摘要:在抽取摘要中平衡质量与多样性
本文提出了三个广义公平度量标准,系统分析了不同的参数选择如何导致公平度量方法之间的差异,以更好地了解和处理NLP/ML模型中的不公平性。
Jun, 2021
本文介绍了关于文本摘要的各种方法,包括提取式和抽象式,并探讨了大型语言模型在此方面的应用潜力。作者以四个数据集为例,展示了ChatGPT生成的摘要与人类参考的差异,并发现ChatGPT在摘要性能上可以与传统的微调方法媲美。该研究为各种文本摘要任务开辟了新方向,提供了有价值的见解。
Feb, 2023
本文介绍了如何通过使用两个阶段的方法(提取和生成)来提高ChatGPT的提取式摘要性能,结果显示,使用该方法相较于抽象式baseline,提高了摘要的忠实度表现,但与现有的监督系统相比,ChatGPT的提取式摘要性能仍具有不足之处。
Apr, 2023
大型语言模型中的社会偏见评估和缓解技术的综述,介绍了社会偏见与公平的概念、评估指标和数据集,以及介绍了干预方法的分类和研究趋势,帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。
Sep, 2023
在多篇文档新闻摘要研究中,以往研究通常集中于整合各个来源都同意的信息。然而,据我们所知,以往尚未研究过涉及同一事件的多篇文章中分散的多样信息的摘要。后者为摘要模型提出了一组不同的挑战。在本文中,我们提出了一个新任务,即摘要涉及同一事件的多篇新闻文章中的多样信息。为了完成这项任务,我们确定了一个用于识别多样信息的数据收集模式,并创建了一个名为DiverseSumm的数据集。该数据集包含245个新闻故事,每个故事包括10篇新闻文章,并配有人工验证的参考摘要。此外,我们进行了全面的分析,以确定基于大型语言模型(LLM)的度量标准在评估摘要的全面性和忠实度时存在的位置和冗长偏差,以及它们与人工评估的相关性。我们应用我们的发现来研究LLMs如何通过分析LLMs能够识别哪种类型的多样信息来摘要多篇新闻文章。我们的分析表明,尽管LLMs在单篇文档摘要方面具有非凡的能力,但对于他们来说,所提出的任务仍然是一个复杂的挑战,主要是由于他们的覆盖范围有限,GPT-4只能够平均覆盖不到40%的多样信息。
Sep, 2023
我们对用户生成数据进行了公平抽象概括的系统研究,首次正式定义了公平的抽象概括,并提出了四个参考无关的自动评估指标来测量目标和源观点之间的差异。实验证明,无论是模型生成的还是人工编写的参考概括都存在公平性较低的问题,我们提出了三种简单但有效的方法来缓解不公平的概括。
Nov, 2023
对社交媒体数据进行多源文档摘要的时候,用于优化摘要质量的模型往往侧重于流畅性、相关性和连贯性等方面,但摘要模型对不同社会群体意见的公正性也显得越来越重要。我们深入探讨了位置偏见在社交媒体多源文档摘要中的影响,通过分析输入文档中群组顺序对非裔美国英语、西班牙语及白人英语族群的推文进行摘要。实证分析结果显示,尽管文本摘要的质量在不考虑输入文档顺序时保持稳定,但公正性方面的结果会因方言群体在输入数据中的呈现方式而产生显著差异。我们的结果表明,位置偏见在社交媒体多源文档摘要中呈现不同,严重影响了摘要模型的公正性。
May, 2024
本文解决了数据摘要任务中的公正聚类问题,尤其是公平 k-供应商问题,该问题要求在各组中选择一定数量的中心点以最小化 k-供应商目标。我们提出了对两个不同变体的 3-近似算法,研究表明,这些算法在大规模数据集上具有良好的可扩展性,并且相对于没有公平约束的解决方案,其效果具有重要的实用性和影响。
Oct, 2024
本研究解决了多文档用户生成内容摘要中的公平性问题,现有方法常常未能实现不同社会群体的公平代表。我们提出了两种新的公平提取摘要方法,FairExtract和FairGPT,其在确保公平性的同时保持了竞争力的摘要质量,且引入了综合评估指标来更好地理解质量与公平之间的权衡。
Nov, 2024