相互污染模型的净化

Sep, 2017

Decontamination of Mutual Contamination Models

Julian Katz-Samuels, Gilles Blanchard, Clayton Scott

TL;DR本文研究了机器学习中的相互污染模型，并考虑了在任意概率空间上定义的基本分布下出现的多类分类、混合成员模型的分离以及带有部分标签的分类等三个常见问题，并提出了可辨认性的充分条件，并提出了相应的算法和性能保证。

Abstract

Many machine learning problems can be characterized by mutual contamination models. In these problems, one observes several random samples from different convex combinations of a set of unknown base distributions and the goal is to infer these base distributions. This paper considers t

machine learning mutual contamination models multiclass classification mixed membership models identifiability

发现论文，激发创造

多方机器学习中的污染攻击及其缓解

本文讨论了在多方数据联合训练机器学习模型时，可能存在一方恶意注入污染数据导致模型性能下降的问题，并提出了采用对抗训练的方法可以避免此问题，同时保证各方数据的隐私安全。

Jan, 2019

基底混合对可解释连续学习中的分布转移问题

本文探讨了在数据分布和任务不断变化的情况下，通过一种半监督在线学习和自适应模型选择的方法来解决多任务连续学习问题。实验结果表明，在多个数据领域上，该方法的预测效果优于现有的方法，同时也证明了任务的潜在表示会随着任务边界的变化而改变。

Jan, 2022

大型语言模型中的数据污染分类

大型语言模型在广泛的网络语料库上进行预训练，展示出在多个下游任务上出色的性能。然而，人们越来越担心数据污染现象，即评估数据集可能包含在预训练语料库中，从而夸大了模型的性能。去污染作为一种检测和移除这些数据的过程，是一个潜在的解决方案；然而，这些污染物可能来自于测试集的修改版本，在去污染过程中逃过了检测。对于不同类型的污染如何影响语言模型在下游任务中的性能并未完全了解。我们提出了一个对在预训练阶段遇到的各种类型污染进行分类的分类法，并确定哪些类型存在最高风险。我们分析了污染对两个关键的自然语言处理任务（摘要生成和问答）性能的影响，揭示了不同类型污染如何在评估过程中影响任务性能。

Jul, 2024

学习离散分布的任意统计混合

本研究通过样本的简化抽样学习了一个代表复杂模型的概率分布，该模型有广泛的应用范围，包括无监督学习，主题模型和协同过滤。

Apr, 2015

使用多个样本学习混合模型

本文提出了一种更好地恢复混合模型问题中的潜在结构的算法，尤其适合高维度或分离度较高的情况，并可用于单词不在训练数据中的主题建模中。

Nov, 2013

鲁棒在线分类：从估计到去噪

在存在噪音标签的情况下，我们研究了在线分类问题。通过一般的核来建模噪音机制，为任何特征 - 标签对指定了一个（已知）噪音标签分布集合。每个时间步骤，对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布，并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测，如果预测与真实情况不同，则遭受损失 1（否则为 0）。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数，极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后，我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解，并且扩展并包含了 Ben-David 等人（2009）的研究结果，具有显著的广泛性。

Sep, 2023

带有噪声标签的自适应适合性分类

该研究开发了新的遵循性预测方法，用于分类任务，可以自动适应标签污染，实现比现有方法更具信息量的预测集，并提供更强的覆盖保证。通过对标签污染下标准遵循性推断所面临的准确理论特征进行精确刻画，并通过新的校准算法实施行动。我们的解决方法灵活，并且可以利用关于标签污染过程的不同建模假设，同时无需关于数据分布或机器学习分类器内部工作的任何知识。通过广泛的模拟实验和对 CIFAR-10H 图像数据集的对象分类应用来证明了所提出方法的优势。

Sep, 2023

从标签比例中学习：一个相互污染的框架

本文以相互污染模型为基础，对标签比例学习进行了研究，提出了一种新的实验设置并首次建立了一致的学习流程。研究结果还包括非独立抽样计划下的无偏损失和泛化误差界限。

Jun, 2020

LLMs 内的时间旅行：追踪大型语言模型中的数据污染

在理解大型语言模型（LLM）对其他任务的有效性中，数据污染（即，在训练数据中存在来自下游任务的测试数据）可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染，该方法通过识别来自小型随机样本的个别实例中的潜在污染，然后评估整个数据集分区是否受到了污染。

Aug, 2023

互信息学习的分类器：从信息理论的角度训练深度学习分类系统

本文用互信息作为代替条件熵来训练深度神经网络分类器，并且在多个基准数据集上进行了实验证明，相对于现有交叉熵损失函数训练的模型，提出的互信息模型 (MILCs) 性能更好，总体测试准确率提升超过 10%。

Oct, 2022