公正和多样化的基于 DPP 的数据概述
该研究提出了一种基于速率失真理论的选择具有任务导向的多级分类数据样本的新方法,称为 RD-DPP,可用于评估数据样本的情境感知多样性。此外,该研究观察到了基于确定性点过程的数据选择在样本累积过程中存在相变现象,从而设计出一种双峰方法以获得更大的多样性收益。
Apr, 2023
本文提出了一种基于 Determinantal Point Process(DPP)的新型非均匀采样方案,用于在 mini-batch SGD 优化中实现数据的多样性和平衡,成为了 Diversified Mini-Batch SGD (DM-SGD)。实验结果表明,该方法在无监督和监督学习中均能产生更具解释性和多样性的特征,并提高分类准确性。
May, 2017
我们研究了在公平性 / 分区约束条件下多样性最大化任务中的一种核心集构建算法。给定一个被划分为 m 组的度量空间中的点集 P,以及给定的每组 i 中的 ki 个点,该问题的目标是从每个组中选择 ki 个点,使得选择的 k 个点的整体多样性最大化。我们考虑了两种自然的多样性度量方法:对点对距离求和和对最近邻距离求和,并展示了针对这些度量方法的改进的核心集构建算法。具体而言,我们展示了第一种相对于点对距离求和而言大小与数据集大小和纵横比无关的核心集,同时我们还展示了第一个相对于最近邻距离求和而言的核心集。最后,我们进行了几个实验证明了我们的核心集方法的有效性。特别是,我们将约束的多样性最大化应用于一个考虑到消息的新旧的定时消息集的总结。具体而言,总结应该包含比较近期的消息而不是较早的消息。这是在一个最大的通信平台中的一个真实任务,每天活跃用户的体验都会受到影响。通过利用我们的核心集方法,我们实现了 100 倍的加速,只损失了少数百分比的多样性。此外,我们的方法还可以改进流式设置中算法的空间利用率。
Oct, 2023
本文提出一个数学模型以创造具有代表性的数据来解决机器学习模型在非代表性数据集上产生的问题。我们将数据集创建问题形式化为一个约束优化问题,并提出了一种灵活的方法,它包含模型构建者和其他利益相关者的偏好,以及学习任务的统计特性。此外,我们证明,在一定条件下,即使没有关于学习率的先前知识,该优化问题也可以高效地求解。通过在合成基因组数据上进行的模拟研究,我们发现我们提出的自适应采样策略优于多种常用的数据收集启发式算法,包括等量和比例采样,并证明了通过策略数据集设计构建公平模型的价值。
Jan, 2022
控制统计机器学习方法的不公平影响是确保公平性的关键。本文探讨了具有两个受保护群体的公平二分类的统计基础,重点是控制人口统计差异,并提出了一种量化公平性约束影响的新方法。
Mar, 2024
本文探讨了使用 Determinantal Point Process (DPP) 的无监督惩罚损失方法以及内嵌在敌对训练和变分自编码器中的生成 DPP 方法。这种方法可以生成更高质量的样本而且更具多样性,同时不会改变原始的训练方案。
Nov, 2018
我们对用户生成数据进行了公平抽象概括的系统研究,首次正式定义了公平的抽象概括,并提出了四个参考无关的自动评估指标来测量目标和源观点之间的差异。实验证明,无论是模型生成的还是人工编写的参考概括都存在公平性较低的问题,我们提出了三种简单但有效的方法来缓解不公平的概括。
Nov, 2023