行为学习中泛化的跨职能分析
利用损失景观理论,从 backbones、regularization、training paradigm 和 learning rate 四个方面增强深度学习模型的泛化能力,并在 NICO++, PACS, VLCS 数据集上进行充分的实验验证和可视化分析,应用于 ECCV 2022 NICO Challenge 并在不使用任何域不变方法的情况下获得第三名。
Sep, 2022
该研究通过对各种基准套件的算法性能预测模型的泛化能力进行考察,比较问题集合的统计相似性和基于探索性景观分析特征的性能预测模型的准确性,我们发现这两个指标之间存在着正相关关系。具体来说,当训练和测试套件之间的高维特征值分布缺乏统计显著性时,模型往往能够很好地进行泛化,即测试误差与训练误差处于同一范围内。两个实验证实了这些发现:一个涉及标准基准套件 BBOB 和 CEC 集合,另一个使用了五个由 BBOB 问题实例的仿射组合构成的集合。
May, 2024
本研究探讨了行为感知学习,通过探索几个微调方案使用 HateCheck,针对几个仅包含预期输出的情况对模型进行训练和评估,提高了分类准确性并暗示其可能泛化到被忽视的功能上。
Apr, 2022
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
本研究提出了一种可以估算算法性能预测模型泛化能力的方法,并通过在基准测试套件之间训练预测模型来测试该方法的可行性,结果表明,特征空间中的泛化模式确实反映在性能空间中。
May, 2023
本论文通过文献综述提出了一个分类法对 NLP 中的泛化研究进行了表征和理解,并对超过 400 篇论文进行了分类,提出了评估标准以及对未来研究方向的建议,并发布了一个动态可探索的结果页面,以期将最先进的泛化测试成为 NLP 领域的新常态。
Oct, 2022
深度学习中的泛化是一个重要的问题,并且通过复杂度衡量的新进展有望更好地理解深度学习的机制,更好地应用于对未知数据的泛化,并提高模型的可靠性和鲁棒性。
Dec, 2020
我们定义语言智能为利用先前获得的语言词汇、句法、语义和语用约定知识的能力,以便快速适应新任务。通过一系列实验来评估最先进的自然语言理解模型,以此定义我们的标准,并提出了一种新的评估方法,基于测试数据的在线编码,衡量现有代理(模型)学习新任务的速度。我们的研究发现,虽然现有模型在许多任务上具有广泛的推广能力,但仍需要大量域内训练示例,并且容易发生灾难性遗忘。此外,我们发现,我们的模型远未解决一般任务(例如文档问答),而是过度拟合了特定数据集的怪癖。最后,我们讨论了缺失的部分,并猜测如何在通向一般语言智能的进程中取得进展。
Jan, 2019