真相在哪里？在持续不断的世界中被混淆的风险

Feb, 2024

真相在哪里？在持续不断的世界中被混淆的风险

Where is the Truth? The Risk of Getting Confounded in a Continual World

Florian Peter Busch, Roshni Kamath, Rupert Mitchell, Wolfgang Stammer, Kristian Kersting...

TL;DR在一个连续学习的环境中，如果数据集很容易通过虚假相关性解决而不能推广到新的数据，则该数据集是混淆的。我们将展示在连续学习中，当混淆因素可能随时间变化而跨越任务时，其带来的挑战远远超过通常考虑的标准遗忘问题。尤其地，我们数学上推导了这些混淆因素对一组混淆任务的有效联合解的影响。有趣的是，我们的理论预测，在许多此类连续数据集上，当任务共同训练时虚假相关性很容易被忽略，但是当任务被顺序考虑时，避免混淆要难得多。我们构建了这样一个数据集，并通过实验证明标准的连续学习方法难以忽略混淆，而同时训练所有任务则是成功的。我们的连续混淆数据集 ConCon 基于 CLEVR 图像，展示了在处理混淆时连续学习方法需要更健壮的行为。

Abstract

A dataset is confounded if it is most easily solved via a spurious correlation which fails to generalize to new data. We will show that, in a con

dataset confounded continual learning spurious correlations conconfounded dataset

发现论文，激发创造

存在假相关性情况下的持续学习

本文研究了连续学习中数据集偏差对模型知识迁移的影响，并通过设计实验证实了标准 CL 方法会将偏差从一个任务传递到另一个任务，而提出的 Group-class Balanced Greedy Sampling（BGS）插件能有效地解决这一问题。

Mar, 2023

持续特征选择：在持续学习中排除虚假特征

本研究探讨了虚假特征对于连续学习算法的影响，发现连续学习算法通过选择无法概括的特征来解决任务。实验表明，连续学习算法面临两个相关问题：（1）虚假特征和（2）局部虚假特征。本文提供了一种不同的理解连续学习性能下降的方式，强调了（局部）虚假特征在算法性能中的影响。

Mar, 2022

连续学习复杂场景的简单管理

本文介绍了连续学习是一种机器学习子领域，旨在处理非 iid 数据。数据分布随时间漂移可能会干扰训练模型和忘记先前学习的知识。这篇论文提出了一个简单高效的框架 Continuum，它包含多个数据加载器以及多种场景和评估指标，可用于直接关注模型设计，也可针对特定需求进行扩展。

Feb, 2021

在线污染数据流模糊任务边界下的连续学习

本文提出了一种在在线学习任务中应对标签噪声和模糊数据流的方法，该方法使用标签噪声感知的多样化采样和半监督学习技术来平衡示例中的多样性和纯度，实验证明该方法显著优于现有的方法。

Mar, 2022

一项继续学习调查：在分类任务中应对遗忘

本文研究了基于任务增量分类的持续学习方法，提出了一种新的框架来确定持续学习者的稳定性与可塑性的权衡，并通过三个基准测试以及综合实验比较了 11 种持续学习方法和 4 种基线的方法的强弱和影响。

Sep, 2019

分离记忆编辑与模型更新的解耦继续学习

机器学习系统的持续学习能力受到灾难性遗忘的限制，本文提出一种新的概念性方法来解决持续分类中的问题，通过区分需要记忆的类别特定信息和总结泛化的类别无关知识，并且通过利用类别无关网络来执行分类，提高随时间推移过去任务的准确性，同时支持开放式分类和一次性泛化模型。

Dec, 2023

终身学习中的持续评估：发现稳定性差距

本论文提出一个连续的学习框架，旨在解决神经网络训练过程中遗忘的问题，并定义了一系列新的指标来实现对学习机的实时评估，研究表明既有重放机制又有正则化机制的在线学习方法都存在稳定性差距的问题。

May, 2022

关于自适应方法在连续学习中的收敛性

该论文介绍了对于连续学习中的收敛性分析，提出了一种适应性方法用于非凸连续学习，该方法调整先前和当前任务的梯度的步长，以达到与 SGD 方法相同的收敛速度，并且在减轻每次迭代的灾难性遗忘项的情况下，改进了连续学习在几个图像分类任务中的性能。

Apr, 2024

用于分析持续学习者的新度量标准

在连续流数据的情景中，深度神经网络在解决多个分类任务时，面临着保持旧任务知识同时学习新任务的挑战。本研究分析了当前度量方法的局限性，发现了新任务引起的遗忘问题，并提出了一套考虑任务难度增加的新度量方法，实验证明这些度量方法能够提供有关模型在连续学习环境中平衡稳定性和可塑性的新见解。

Sep, 2023

混淆下的反事实生成

在机器学习中，当训练数据受到观测或未观测到的混淆影响时，生成的关系可能会与部署时相差较大。本文提出了一种基于因果生成过程的对抗性生成方法，以最小化生成因素之间的关联性，从而生成有效对抗性数据用于训练图像分类器，即使训练数据受到高度混淆的影响。

Oct, 2022