低资源学习的挑战性基准测试
该研究探索低资源图像任务的挑战,并介绍一种基于生成模型、局部区域编码和注意力机制的简单基准解决方案,该解决方案在低资源数据源上相比于常见的转移学习、数据增强和细粒度方法具有更好的基准效果。
Jan, 2024
本文调查了低资源自然语言处理的相关方法,其中包括数据增强、遥感监视和迁移学习等技术以帮助在需要训练数据较少的情况下提高神经模型的性能,并通过说明这些方法的差异帮助选择适合特定低资源设置的技术。
Oct, 2020
本文介绍了一项新的基准测试,共包含九个任务涵盖自然语言处理和计算机视觉等领域,该测试旨在系统评估外部知识约束整合方法的效果,通过一组扩展的评估标准分析各种模型的性能,为相关研究挑战提供了框架和指导。
Feb, 2023
研究发现大部分神经网络模型在自然语言推理任务中无法很好地泛化,即使假设相同或相似,基准测试集得分很高的模型也很难在其他基准测试集上表现良好。此外,使用大型预训练语言模型有助于转移学习。当前自然语言推理数据集的涵盖范围不足以覆盖不同推理细节。
Oct, 2018
该论文提出了评估自然语言理解任务的四个标准,并指出目前大多数现有标准都无法满足这些标准,而对抗性数据收集并不能有效地解决这些失败的根本原因。为了恢复健康的评估生态系统,需要在基准数据集的设计、标注的可靠性、其大小以及处理社会偏见的方式方面取得显著进展。
Apr, 2021
Dynabench 是一个开源平台,支持动态数据集创建和模型基准测试,可以在一个 web 浏览器中运行。通过人和模型操作,使 annotators 创建能够被目标模型误分类但另一个人不能误分类的示例。本文认为,Dynabench 解决了当前模型在基准任务上表现优异,但在简单的挑战示例和实际场景中失败的问题。我们针对四个初始 NLP 任务,阐述了这些概念,突出了 Dynabench 平台的优点,并解决了动态基准测定作为新标准引起的潜在反对意见。
Apr, 2021
研究了深度学习模型性能评估中忽略的数据点特征和难度对测试集准确性的影响,通过用已有的心理测量学方法对人类的反应模式进行建模来估计难度,实验结果发现难度对于测试的结果有重要影响,同时易于学习的实例被模型学得更快。
Feb, 2017
本文研究了低资源 NLP 中数据不足和数据质量不佳的影响,通过探究 POS 标注和机器翻译这两种任务的实验结果,得出了从高资源语言进行降采样的做法会带来偏差,这表明简单地降采样将引入数据偏差,不应作为低资源 NLP 系统开发的唯一解决方案。
Nov, 2022
通过深入文献和在线资源的系统性研究,我们编制并发布了一个全面的与临床和生物医学自然语言处理(NLP)广泛领域相关的数据集和基准目录,对 450 个 NLP 数据集进行了手动系统化和注释处理,并与跨医疗应用的相关任务进行了比较,结果显示,当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务,因此需要创建新的基准测试以填补这些差距。
Jan, 2022