低资源学习的挑战性基准测试

Mar, 2023

A Challenging Benchmark for Low-Resource Learning

Yudong Wang, Chang Ma, Qingxiu Dong, Lingpeng Kong, Jingjing Xu

TL;DR通过提出一个更具挑战性的标准 hardBench，通过 11 个数据集，包括 3 个计算机视觉（CV）数据集和 8 个自然语言处理（NLP）数据集，研究表明目前模型的弱点，尤其是在低资源学习困难的情况下，证明了现有模型与人类性能水平之间仍然存在较大的鲁棒性差距。

Abstract

With promising yet saturated results in high-resource settings, low-resource datasets have gradually become popular benchmarks for evaluating the learning ability of advanced neural networks (e.g., BigBench, superGLUE). Some models even surpass humans according to →

neural networks low-resource datasets benchmark learning ability robustness gap

发现论文，激发创造

基礎模型的低資源視覺挑戰

该研究探索低资源图像任务的挑战，并介绍一种基于生成模型、局部区域编码和注意力机制的简单基准解决方案，该解决方案在低资源数据源上相比于常见的转移学习、数据增强和细粒度方法具有更好的基准效果。

Jan, 2024

低资源场景下自然语言处理的最近方法综述

本文调查了低资源自然语言处理的相关方法，其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能，并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。

Oct, 2020

GLUECons：一种用于约束条件下学习的通用基准

本文介绍了一项新的基准测试，共包含九个任务涵盖自然语言处理和计算机视觉等领域，该测试旨在系统评估外部知识约束整合方法的效果，通过一组扩展的评估标准分析各种模型的性能，为相关研究挑战提供了框架和指导。

Feb, 2023

测试神经网络模型在自然语言推理基准数据集中的泛化能力

研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化，即使假设相同或相似，基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外，使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。

Oct, 2018

如何改进自然语言理解基准测试？

该论文提出了评估自然语言理解任务的四个标准，并指出目前大多数现有标准都无法满足这些标准，而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统，需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。

Apr, 2021

Dynabench: NLP 基准评估的重新思考

Dynabench 是一个开源平台，支持动态数据集创建和模型基准测试，可以在一个 web 浏览器中运行。通过人和模型操作，使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为，Dynabench 解决了当前模型在基准任务上表现优异，但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务，阐述了这些概念，突出了 Dynabench 平台的优点，并解决了动态基准测定作为新标准引起的潜在反对意见。

Apr, 2021

低资源语言：现有工作回顾与未来挑战

本文回顾了 NLP 领域中解决低资源语言问题的先前重要进展，并分析了未来研究方向中的潜在改进。

Jun, 2020

通过考察测试集难度理解深度学习性能：一项心理测量案例研究

研究了深度学习模型性能评估中忽略的数据点特征和难度对测试集准确性的影响，通过用已有的心理测量学方法对人类的反应模式进行建模来估计难度，实验结果发现难度对于测试的结果有重要影响，同时易于学习的实例被模型学得更快。

Feb, 2017

低资源研究中的高资源方法学偏差

本文研究了低资源 NLP 中数据不足和数据质量不佳的影响，通过探究 POS 标注和机器翻译这两种任务的实验结果，得出了从高资源语言进行降采样的做法会带来偏差，这表明简单地降采样将引入数据偏差，不应作为低资源 NLP 系统开发的唯一解决方案。

Nov, 2022

人工智能发展的基准数据集未能满足医疗专业人员的需求

通过深入文献和在线资源的系统性研究，我们编制并发布了一个全面的与临床和生物医学自然语言处理（NLP）广泛领域相关的数据集和基准目录，对 450 个 NLP 数据集进行了手动系统化和注释处理，并与跨医疗应用的相关任务进行了比较，结果显示，当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务，因此需要创建新的基准测试以填补这些差距。

Jan, 2022