- 确定上下文相关的翻译以进行评估集生成
将手工制作的、语言相关的规则作为输入,我们使用统计工具提供的先进特征(如指代、词性和形态学特征)来选择具有上下文关系的句子对,通过对七种语言对和两个数据集的实验验证,我们开发了 CTXPRO 工具,用于识别需要上下文才能正确翻译的句子,并通 - 深度学习中生成输入集的可转移性
该研究介绍了一种名为 GIST 的新方法,用于在深度学习模型之间有效传递测试集,以迁移用户所需的某个属性,如覆盖准则。实验证明 GIST 能够选择有效的测试集,并将其传递到待测试的模型中。结果表明,GIST 可应用于传递其他属性,并可适用于 - 中文拼写检查的全面评估和分析研究
开发预训练模型和结合语音和图像信息使神经模型在中文拼写检查方面取得了高分,该研究通过构建不同目的的综合测试集,实现了这一典型模型范式并进行了实验,在结果的详细分析中发现了四个重要发现。
- EMNLP语言模型先验不是唯一的捷径:一项视觉问答中捷径学习的基准测试
为了解决 VQA 模型容易学习数据集偏见而非预期解决方案的问题,提出了一个考虑不同类型快捷方式构建不同分布变化的新数据集,并克服了在使用 VQA-CP v2 时出现的三种问题,提供了更严格和全面的测试环境。研究表明,特定快捷方式的方法无法同 - 众包数据中噪音对语音翻译的影响
本研究提出了一种自动的解决 MuST-C 语音翻译数据集中存在的质量问题的方法,使得标准测试集合的质量得到提高,模型发展的结果也得到了一致的认可。
- 测试集中普遍出现标签错误,破坏机器学习基准
利用自信学习算法和众包验证方法发现了 10 个常用计算机视觉、自然语言和音频数据集的测试集中的标签错误问题,并探讨了这些标签错误对基准结果的影响以及建议应该使用经过正确标注的测试集来评估模型的有效性,对于高比例的标记错误的现实世界数据集,低 - ICML非传统测试集:减少测试标注工作量
提出一种简单但有效的方法来构建和维护高质量的测试集,该方法可以显著降低标记测试集的工作量,并引起测试过程的根本性重构。
- 自然分布偏移对问答模型的影响
为了测试问题回答系统的泛化能力,我们建立了四个新的测试集,并发现存在一定适应性过度拟合。此外,我们在自然分布转移方面测试了模型,结果发现人类能力相比 SQuAD 模型有明显优势,同时强调需要采用能够考虑自然分布转移的评估指标。
- ACL通过响应选择评估对话生成系统
本研究提出了一种构建响应选择测试集以进行系统评估的方法,通过过滤不相关的和可接受的候选者,实验表明此方法比 BLEU 等自动评估指标更能与人类评估相关联。
- SemEval-2014 任务 9: Twitter 中的情感分析
该论文描述了 SemEval-2014 中的 Twitter 情感分析任务,介绍了新的测试集并报道了最高 F1 分数达到 86.63(子任务 A)和 70.96(子任务 B)的结果。
- 利用词向量追踪俄语文化历时语义变化:测试集和基准
介绍了手动注释的测试集,用于跟踪俄语中的历时语义转变,并通过分布式词嵌入模型来自动检测具有强烈或微妙社会和文化变化的名词和形容词词义,提供了实体间语义演变检测的算法和比分。
- ImageNet 分类器是否具有 ImageNet 的泛化能力?
本文构建了针对 CIFAR-10 和 ImageNet 数据集的新测试集,发现在新测试集上,模型的准确率下降为 3% 到 15%,且这种准确率下降并非由于适应性,而是由于模型无法推广到原始测试集中找不到的,略微 “更难” 的图像。