DSLOB:一种用于基准测试分布转移下预测算法的合成限价订单簿数据集
本研究构建了一个名为 Incremental Shift OOD(IS-OOD)的基准,通过基于提出的语言对齐图像特征分解(LAID)的移位测量方法,将测试样本分成不同的子集,相对于 ID 数据集具有不同的语义和协变量移位程度,以解决当前存在的超出分布(OOD)检测基准中的 Sorites 悖论问题。此外,还构建了包含更多多样的协变量内容的高质量生成图像的 Synthetic Incremental Shift(Syn-IS)数据集,以补充 IS-OOD 基准。研究评估了在本基准上进行的当前 OOD 检测方法,并发现几个重要结论:(1)大多数 OOD 检测方法的性能随着语义移位的增加而显著提高;(2)某些方法如 GradNorm 在做出决策时较少依赖于语义移位,可能具有不同的 OOD 检测机制;(3)图像中过度的协变量移位也可能被某些方法视为 OOD。
Jun, 2024
本文重新审视了自然语言处理领域中关于评估 out-of-distribution 鲁棒性的相关研究,并提出了一个基准套件(BOSS),通过其中包含的 5 项任务和 20 个数据集来评估 pre-trained large language models 和 5 种经典方法在分布转移时的性能,结果发现在 ID 示例中,微调特定领域模型的性能明显优于 LLMs,在 OOD 示例中,优先考虑具有上下文学习的 LLMs 结果更好,但大规模的微调和大型 LLMs 都面临着有效解决下游任务的挑战。
Jun, 2023
提出了 GDL-DS,一个综合的基准评估,旨在评估 GDL 模型在具有分布偏移的场景中的性能,涵盖多样的科学领域,包括粒子物理学、材料科学和生物化学,并研究了三个层次的信息访问从测试数据中获取,对于 DGL 研究者和领域从业者在应用中使用 DGL 提供了深入分析的评估结果来提供见解。
Oct, 2023
现有研究在提高对抗鲁棒性方面取得了很大进展,但通常只在与训练数据相同分布的数据上进行测试,即内分布(ID)测试。然而,如何在输入分布转移(即出分布(OOD)测试)下实现这种鲁棒性的泛化仍不清楚。因此,我们提出了一个名为 OODRobustBench 的基准来全面评估 OOD 对抗鲁棒性,使用 23 种数据集级的转移(即输入分布中的自然转移)和 6 种威胁级的转移(即未知的对抗威胁模型)。OODRobustBench 用于评估 706 个稳健模型,使用 60.7K 个对抗性评估。这个大规模分析显示:1)对抗鲁棒性在 OOD 泛化问题上存在严重问题;2)ID 鲁棒性与 OOD 鲁棒性在许多分布转移下呈正线性相关,这使得可以从 ID 鲁棒性预测 OOD 鲁棒性。基于这一点,我们能够预测现有强化训练方案的 OOD 鲁棒性的上限。研究结果表明,实现 OOD 鲁棒性需要设计超出传统方法的新方法。最后,我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高 OOD 鲁棒性。值得注意的是,与基准相比,发现的训练方案在威胁转移下表现出明显更高的鲁棒性,同时保持高的 ID 鲁棒性,为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。
Oct, 2023
本文着重介绍了现有方法在处理 NLP 中 OOD 检测时的局限性,对八种常见的 OOD 检测方法进行了评估并分析了其存在的问题,发现现有方法对于各类型分布偏移的检测敏感性不够,在领域内文本中存在令人困惑的测试场景,而需要开发更有效的 OOD 检测方法,本文为未来的研究提供了一个良好的、定义明确的基础。
Jul, 2023
本文提出了一种基于非参数方法的异常检测框架,可在不依赖于高斯分布假设的情况下生成人工训练数据,从而有效地学习鲁棒的模型决策边界,并在超出分布的数据检测上表现出优越的性能。
Mar, 2023
该研究提出了一种将深度度量学习和扩散模型结合起来的新方法,用于通过合成数据对于分布外(OOD)进行检测,并证明基于度量学习的损失函数优于 softmax,在生成的 OOD 数据上的训练使得模型在传统 OOD 检测指标上表现优于强基线模型。
May, 2024
VOS 是一种新的框架,用于通过自适应合成虚拟离群值,在训练期间能够有意义地规范模型的决策边界,包括在特征空间中从类条件分布进行虚拟离群值取样,同时引入一种新的未知感知训练目标,与 ID 数据和合成离群数据之间的不确定性空间进行反向塑形,VOS 与物体检测和图像分类模型均能实现竞争性表现,在物体检测器上将 FPR95 降低了最高达 9.36%。
Feb, 2022
通过广泛的实验,我们展示了当前的 ODD 检测器对于协变量转移比语义转移更为敏感,并且最新的 ODD 检测算法对于语义转移的检测效果微乎其微。我们的数据集和分析为指导未来的 ODD 检测器设计提供了重要见解。
Oct, 2023
SISOM is a unified solution that combines the strengths of active learning and out-of-distribution detection, achieving top performance in benchmark evaluations.
May, 2024