行为学习中泛化的跨职能分析

ACLMay, 2023

Cross-functional Analysis of Generalisation in Behavioural Learning

Pedro Henrique Luz de Araujo, Benjamin Roth

TL;DR介绍了一种行为学习分析方法 BeLUGA，评估针对不同粒度级别的维度的泛化以及优化行为特定的损失函数并比较不同的正则化和域泛化方法对于 NLP 任务泛化性能的影响。

Abstract

In behavioural testing, system functionalities underrepresented in the standard evaluation setting (with a held-out test set) are validated through controlled input-output pairs. Optimising performance on the behavioural tests during training (behavioural learning) would improve covera

behavioural learning generalisation nlp tasks regularisation domain generalisation

发现论文，激发创造

从损失函数角度的视角提高引导性泛化能力

利用损失景观理论，从 backbones、regularization、training paradigm 和 learning rate 四个方面增强深度学习模型的泛化能力，并在 NICO++, PACS, VLCS 数据集上进行充分的实验验证和可视化分析，应用于 ECCV 2022 NICO Challenge 并在不使用任何域不变方法的情况下获得第三名。

Sep, 2022

基于特征的性能预测模型的泛化能力研究：基准测试的统计分析

该研究通过对各种基准套件的算法性能预测模型的泛化能力进行考察，比较问题集合的统计相似性和基于探索性景观分析特征的性能预测模型的准确性，我们发现这两个指标之间存在着正相关关系。具体来说，当训练和测试套件之间的高维特征值分布缺乏统计显著性时，模型往往能够很好地进行泛化，即测试误差与训练误差处于同一范围内。两个实验证实了这些发现：一个涉及标准基准套件 BBOB 和 CEC 集合，另一个使用了五个由 BBOB 问题实例的仿射组合构成的集合。

May, 2024

检查 HateCheck: 行为感知学习在仇恨言论检测中的跨职能分析

本研究探讨了行为感知学习，通过探索几个微调方案使用 HateCheck，针对几个仅包含预期输出的情况对模型进行训练和评估，提高了分类准确性并暗示其可能泛化到被忽视的功能上。

Apr, 2022

重新思考视觉问答中的评估实践：针对分布外泛化的案例研究

研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题，而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估，证明生成模型在大多数情况下对数据分布变化不太敏感，并在测试基准中表现更好。另外，我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后，本文重新审视了自动 VQA 评估度量的假设，并从经验上证明它们的严格性会反复惩罚模型的正确响应。

May, 2022

评估性能预测模型的泛化能力

本研究提出了一种可以估算算法性能预测模型泛化能力的方法，并通过在基准测试套件之间训练预测模型来测试该方法的可行性，结果表明，特征空间中的泛化模式确实反映在性能空间中。

May, 2023

符号数学中序列模型的符号脆弱性：对系统化推广问题的研究

通过研究符号数学积分问题，本文发现序列模型在推广、组合性、超出分布方面的表现不佳，需要更多超出测试集的评估。

Sep, 2021

自然语言处理中现有的泛化研究：分类和评述

本论文通过文献综述提出了一个分类法对 NLP 中的泛化研究进行了表征和理解，并对超过 400 篇论文进行了分类，提出了评估标准以及对未来研究方向的建议，并发布了一个动态可探索的结果页面，以期将最先进的泛化测试成为 NLP 领域的新常态。

Oct, 2022

NeurIPS 2020 比赛：深度学习的泛化预测

深度学习中的泛化是一个重要的问题，并且通过复杂度衡量的新进展有望更好地理解深度学习的机制，更好地应用于对未知数据的泛化，并提高模型的可靠性和鲁棒性。

Dec, 2020

多目标机器学习中的泛化能力

本文研究多目标学习，建立其基础的泛化界限，分析真实目标和经验逼近目标的帕累托最优解之间的关系，同时发现存在对应的对称关系。

Aug, 2022

学习和评估通用语言智能

我们定义语言智能为利用先前获得的语言词汇、句法、语义和语用约定知识的能力，以便快速适应新任务。通过一系列实验来评估最先进的自然语言理解模型，以此定义我们的标准，并提出了一种新的评估方法，基于测试数据的在线编码，衡量现有代理（模型）学习新任务的速度。我们的研究发现，虽然现有模型在许多任务上具有广泛的推广能力，但仍需要大量域内训练示例，并且容易发生灾难性遗忘。此外，我们发现，我们的模型远未解决一般任务（例如文档问答），而是过度拟合了特定数据集的怪癖。最后，我们讨论了缺失的部分，并猜测如何在通向一般语言智能的进程中取得进展。

Jan, 2019