生成式检索模型的稳健性:一种越界的视角
机器学习模型在非独立同分布的数据分布下表现出可疑的风险,因此需要发展算法来评估和改善模型的泛化能力以及处理分布变化的能力。本文综述了现有的非独立同分布泛化评估的研究,将其划分为三个范式:非独立同分布性能测试、非独立同分布性能预测和非独立同分布内在特性表征,并简要讨论了预训练模型的非独立同分布评价。最后,提出了未来研究的几个有前景的方向。
Mar, 2024
机器学习辅助的逆合成预测模型在标准基准测试上取得稳步进展,但在现实世界中应用于非分布(OOD)分子或反应时,其性能往往显著下降。本研究通过建立两组基准数据集,系统比较了先进的逆合成预测模型在分布转移下的性能,并提出了两种模型无关技术,经初步实验显示其有高潜力并平均性能提高 4.6%,从而为进一步面向 OOD 泛化的逆合成预测研究提供了基础。
Dec, 2023
该研究论文系统而全面地讨论了 Out-of-Distribution generalization 问题,其中包括它的定义、方法论、评估以及对未来的启示和发展方向,以及包括无监督表示学习在内的现有方法。
Aug, 2021
本文第一次尝试对 OOD 问题的可学习性和扩张函数进行严格和量化的定义,并引入了一个新的扩张函数概念来量化不变特征的方差程度,进而证明了 OOD 泛化误差界,实验证明我们的模型选择标准相比基线有显著优势。
Jun, 2021
本综述论文比较了对神经自然语言处理模型的三种研究途径:对抗鲁棒性、领域泛化和数据集偏差,并总结了每条研究路径的数据生成过程和评估协议,并强调未来工作的挑战和机遇。
Jun, 2023
我们的研究探讨了分布偏移程度的更加微妙的评估设置,我们发现模型的稳健性在不同程度的分布偏移下可能相当脆弱和不一致,因此在从有限范围下的评估中得出结论时应更加谨慎。此外,我们观察到大规模预训练模型(如 CLIP)对于新颖下游任务的微小分布偏移也很敏感。这表明,尽管预训练表示可以帮助提高内分布性能,但在某些 OOD 场景中可能对泛化性能产生最小甚至负面影响,如果不正确使用。鉴于这些发现,我们鼓励未来的研究在可能的情况下进行更广泛范围的评估。
Oct, 2023
本研究证明无法保证模型在没有假设相关的未知分布情况下仍具备比随机猜测更好的性能,且模型误差是 OOD 检测失败的更可靠说明,而不是数据分布的可能性。
Jul, 2021
现有研究在提高对抗鲁棒性方面取得了很大进展,但通常只在与训练数据相同分布的数据上进行测试,即内分布(ID)测试。然而,如何在输入分布转移(即出分布(OOD)测试)下实现这种鲁棒性的泛化仍不清楚。因此,我们提出了一个名为 OODRobustBench 的基准来全面评估 OOD 对抗鲁棒性,使用 23 种数据集级的转移(即输入分布中的自然转移)和 6 种威胁级的转移(即未知的对抗威胁模型)。OODRobustBench 用于评估 706 个稳健模型,使用 60.7K 个对抗性评估。这个大规模分析显示:1)对抗鲁棒性在 OOD 泛化问题上存在严重问题;2)ID 鲁棒性与 OOD 鲁棒性在许多分布转移下呈正线性相关,这使得可以从 ID 鲁棒性预测 OOD 鲁棒性。基于这一点,我们能够预测现有强化训练方案的 OOD 鲁棒性的上限。研究结果表明,实现 OOD 鲁棒性需要设计超出传统方法的新方法。最后,我们发现额外数据、数据增强、先进的模型架构和特定的正则化方法可以提高 OOD 鲁棒性。值得注意的是,与基准相比,发现的训练方案在威胁转移下表现出明显更高的鲁棒性,同时保持高的 ID 鲁棒性,为多攻击和未知攻击的鲁棒性提供新的有希望的解决方案。
Oct, 2023
采用局部自回归模型提高了其对于 out-of-distribution 问题检测的性能,并且成功地构建了新的无损压缩算法 neural local lossless compressor (NeLLoC),并且在压缩率和模型大小上达到了最佳性能。
Sep, 2021
基于生成 Transformer 模型在解决各种问题方面取得了显著的熟练度,但其泛化能力尚未被完全理解并且不始终令人满意。研究人员将 n 位数加法或乘法等基本数学任务作为调查其泛化行为的重要角度。然而,有趣的是,当在 n 位数操作(例如加法)上进行训练时,模型在未见过的 n 位数输入上可以成功泛化(分布内泛化),但在更长的、未见过的情况下却失败且神秘(分布外泛化)。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而,如果不解决基本机制,对于这些解决方案的鲁棒性几乎没有任何保证。我们引起人们对这种无法解释的性能下降的注意,并询问它是否纯粹是由于随机错误。在这里,我们转向机制研究的线路,这在模型可解释性方面取得了显著的成功。我们发现强 ID 泛化源于结构化表示,而在令人不满意的 OOD 性能方面,模型仍然展现出明确的学习代数结构。具体而言,这些模型将未见过的 OOD 输入映射到具有 ID 域等价关系的输出。这凸显了模型携带有用信息以改善泛化的潜力。
Aug, 2023