评估指标需要更新以促进泛化
本研究发现,虽然静态计算机视觉任务的 OOD 泛化已被广泛研究,但时间序列任务的 OOD 泛化未被充分探索,作者提出了 WOODS, 包含 8 个挑战性的时间序列基准测试,结果表明在这些数据集上的经验风险最小化和 OOD 泛化算法有很大的改进空间。
Mar, 2022
机器学习模型在非独立同分布的数据分布下表现出可疑的风险,因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究,将其划分为三个范式:非独立同分布性能测试、非独立同分布性能预测和非独立同分布内在特性表征,并简要讨论了预训练模型的非独立同分布评价。最后,提出了未来研究的几个有前景的方向。
Mar, 2024
本文提出一种简单的方法,用于评估预训练模型在特定 spurious feature 上的依赖程度并评估各种预训练模型和去偏见方法在问答 (QA) 中对大量已知和新发现偏差的鲁棒性,发现去偏见方法的 OOD 收益不能通过减少对偏见特征的依赖来解释,我们进一步通过测量 OOD 模型的性能表明其依赖于偏见特征,这表明 QA 数据集中存在共享的偏见,同时也需要进一步的工作来提高 LLM 鲁棒性的报告水平。
May, 2023
本综述论文比较了对神经自然语言处理模型的三种研究途径:对抗鲁棒性、领域泛化和数据集偏差,并总结了每条研究路径的数据生成过程和评估协议,并强调未来工作的挑战和机遇。
Jun, 2023
这篇研究论文探讨了视觉问答的 OOD 基准测试(VQA-CP)目前存在的问题,指出了现有方法的局限性以及可能带来的负面影响,并提出了一些简单的解决方案,以更准确地评估模型的泛化能力。
May, 2020
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
这篇论文提出了一种名为 WOOD 的通用弱监督 OOD 检测框架,同时检测多种不同的 OOD 场景,并结合二元分类器和对比学习组件以取得双方的优势,实验证明该模型在多模态 OOD 检测方面超过了现有方法。
Jul, 2023
本文介绍了创建一个名为 GLUE-X 的统一基准的首次尝试,该基准用于评估自然语言处理模型中的 OOD 鲁棒性,在 13 个公开可用的 OOD 测试数据集上验收模型,发现模型在 OOD 任务上的性能明显下降,对提高模型鲁棒性提供了一些见解和改进方案。
Nov, 2022
本文提出了一个名为 OpenOOD 的统一的、结构化的代码库,该库实现了超过 30 种 ODD 检测方法,并在最近提出的一般化 OOD 检测框架下提供了全面的基准。作者通过对这些方法的全面比较发现,过去几年中,该领域取得了显著进展,其中预处理方法和正交后处理方法显示出很强的潜力。
Oct, 2022