公正和多样化的基于DPP的数据概述
该研究提出了一种新的算法来缓解图像搜索结果中的偏见和缺乏多样性,通过选择一组具有多样性的可视控制图像,有效实现隐式多样性,测试结果显示,该算法在保持准确度的同时提高了图像搜索结果的可见多样性。
Jan, 2019
我们研究了在公平性/分区约束条件下多样性最大化任务中的一种核心集构建算法。给定一个被划分为m组的度量空间中的点集P,以及给定的每组i中的ki个点,该问题的目标是从每个组中选择ki个点,使得选择的k个点的整体多样性最大化。我们考虑了两种自然的多样性度量方法:对点对距离求和和对最近邻距离求和,并展示了针对这些度量方法的改进的核心集构建算法。具体而言,我们展示了第一种相对于点对距离求和而言大小与数据集大小和纵横比无关的核心集,同时我们还展示了第一个相对于最近邻距离求和而言的核心集。最后,我们进行了几个实验证明了我们的核心集方法的有效性。特别是,我们将约束的多样性最大化应用于一个考虑到消息的新旧的定时消息集的总结。具体而言,总结应该包含比较近期的消息而不是较早的消息。这是在一个最大的通信平台中的一个真实任务,每天活跃用户的体验都会受到影响。通过利用我们的核心集方法,我们实现了100倍的加速,只损失了少数百分比的多样性。此外,我们的方法还可以改进流式设置中算法的空间利用率。
Oct, 2023
我们提出了一种用于评估具有歧视性基础模型(如相互对比语言预训练模型)的偏差的新分类方法,并根据该分类方法系统评估了现有的缓解这些模型偏差的方法。我们针对OpenAI的CLIP和OpenCLIP模型对关键的应用进行了评估,例如零样本分类、图像检索和图像字幕等。我们根据三个方面对所需的行为进行了分类:(i)任务是否涉及人类;(ii)任务的主观性程度(即,不同背景的人们是否会同意标注);以及(iii)任务的预期目的,是否通过公正性(即,独立于受保护属性进行决策)或代表性(即,通过最大程度地增加多样性进行决策)来更好地服务于公平性。最后,我们在十个不同的数据集上提供了二元和多值受保护属性的定量公平性评估结果。我们发现,用于公平性表示的后处理方法“公平PCA”在大多数上述任务的去偏中效果非常好,同时只带来了轻微的性能损失。然而,不同的去偏方法在不同的任务中的有效性有所不同。因此,对于特定的使用情况,应选择相应的去偏方法。
Oct, 2023
我们对用户生成数据进行了公平抽象概括的系统研究,首次正式定义了公平的抽象概括,并提出了四个参考无关的自动评估指标来测量目标和源观点之间的差异。实验证明,无论是模型生成的还是人工编写的参考概括都存在公平性较低的问题,我们提出了三种简单但有效的方法来缓解不公平的概括。
Nov, 2023
我们提出了一种新颖的子集选择任务,称为最小距离多样化数据汇总(MDDS),它在机器学习中有广泛的应用,例如数据采样和特征选择。我们介绍了GIST算法,它通过将一系列最大独立集问题近似为双准则贪婪算法来实现MDDS的2/3近似保证。我们还证明了对于任意ε>0,存在一个补充的(2/3+ε)-近似难度。最后,我们通过实证研究证明了GIST在合成数据上优于现有方法,并且对于一个真实的图像分类实验,GIST用于ImageNet的单次子集选择也表现出色。
May, 2024
在监督和无监督公平机器学习中,公平分类和公平表示学习是两个重要问题。本文研究了在这两个问题中,随机化方法可以最小化由于公平约束引起的准确性损失,并提出了公平分类和公平表示的随机化解决方案,可以获得最优准确性且不引起准确性损失。
Jun, 2024
本文解决了数据摘要任务中的公正聚类问题,尤其是公平 k-供应商问题,该问题要求在各组中选择一定数量的中心点以最小化 k-供应商目标。我们提出了对两个不同变体的 3-近似算法,研究表明,这些算法在大规模数据集上具有良好的可扩展性,并且相对于没有公平约束的解决方案,其效果具有重要的实用性和影响。
Oct, 2024
本研究解决了多文档用户生成内容摘要中的公平性问题,现有方法常常未能实现不同社会群体的公平代表。我们提出了两种新的公平提取摘要方法,FairExtract和FairGPT,其在确保公平性的同时保持了竞争力的摘要质量,且引入了综合评估指标来更好地理解质量与公平之间的权衡。
Nov, 2024
本研究针对多文档摘要中的公平性问题,尤其是在用户生成内容中不同社会群体的偏见表示。提出了两种新方法:基于聚类的FairExtract和结合公平约束的FairGPT,这些方法在确保公平性同时也维持了摘要质量。研究表明,这些方法在质量和公平性的综合评估上都有显著优势,为未来的公平意识自然语言处理模型研究奠定了基准。
Nov, 2024