相互污染模型的净化
本文讨论了在多方数据联合训练机器学习模型时,可能存在一方恶意注入污染数据导致模型性能下降的问题,并提出了采用对抗训练的方法可以避免此问题,同时保证各方数据的隐私安全。
Jan, 2019
本文探讨了在数据分布和任务不断变化的情况下,通过一种半监督在线学习和自适应模型选择的方法来解决多任务连续学习问题。实验结果表明,在多个数据领域上,该方法的预测效果优于现有的方法,同时也证明了任务的潜在表示会随着任务边界的变化而改变。
Jan, 2022
大型语言模型在广泛的网络语料库上进行预训练,展示出在多个下游任务上出色的性能。然而,人们越来越担心数据污染现象,即评估数据集可能包含在预训练语料库中,从而夸大了模型的性能。去污染作为一种检测和移除这些数据的过程,是一个潜在的解决方案;然而,这些污染物可能来自于测试集的修改版本,在去污染过程中逃过了检测。对于不同类型的污染如何影响语言模型在下游任务中的性能并未完全了解。我们提出了一个对在预训练阶段遇到的各种类型污染进行分类的分类法,并确定哪些类型存在最高风险。我们分析了污染对两个关键的自然语言处理任务(摘要生成和问答)性能的影响,揭示了不同类型污染如何在评估过程中影响任务性能。
Jul, 2024
在存在噪音标签的情况下,我们研究了在线分类问题。通过一般的核来建模噪音机制,为任何特征 - 标签对指定了一个(已知)噪音标签分布集合。每个时间步骤,对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布,并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测,如果预测与真实情况不同,则遭受损失 1(否则为 0)。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数,极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后,我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解,并且扩展并包含了 Ben-David 等人(2009)的研究结果,具有显著的广泛性。
Sep, 2023
该研究开发了新的遵循性预测方法,用于分类任务,可以自动适应标签污染,实现比现有方法更具信息量的预测集,并提供更强的覆盖保证。通过对标签污染下标准遵循性推断所面临的准确理论特征进行精确刻画,并通过新的校准算法实施行动。我们的解决方法灵活,并且可以利用关于标签污染过程的不同建模假设,同时无需关于数据分布或机器学习分类器内部工作的任何知识。通过广泛的模拟实验和对 CIFAR-10H 图像数据集的对象分类应用来证明了所提出方法的优势。
Sep, 2023
本文以相互污染模型为基础,对标签比例学习进行了研究,提出了一种新的实验设置并首次建立了一致的学习流程。研究结果还包括非独立抽样计划下的无偏损失和泛化误差界限。
Jun, 2020
在理解大型语言模型(LLM)对其他任务的有效性中,数据污染(即,在训练数据中存在来自下游任务的测试数据)可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染,该方法通过识别来自小型随机样本的个别实例中的潜在污染,然后评估整个数据集分区是否受到了污染。
Aug, 2023
本文用互信息作为代替条件熵来训练深度神经网络分类器,并且在多个基准数据集上进行了实验证明,相对于现有交叉熵损失函数训练的模型,提出的互信息模型 (MILCs) 性能更好,总体测试准确率提升超过 10%。
Oct, 2022