- 瑞士德语语音转文本系统评估
针对四个商业可用的瑞士德语语音转文本系统和 FHNW 模型展开深入评估,并使用瑞士议会语料库和新闻域中的私人数据集来评估这些模型,并提供了有关模型培训的详细信息,评估了这些模型的强弱点并对其进行了详细的错误分析。
- 次要预测能告诉我们什么?对 SQuAD-v2.0 进行问答探索
本研究将自然语言处理中 QA 任务的性能指标从模型置信度最高的预测与正确答案的匹配拓展至对错误预测的评估,提出 Golden Rank Interpolated Median(GRIM)作为全面评估统计量,以 Stanford Questi - SIGMORPHON 2022 共享任务:形态素切分
该研究介绍了 SIGMORPHON 2022 共享任务关于形态素分割,试图将单词分解为一系列形态素,并覆盖了大部分类型的形态学。结果表明,该任务的提交结果对于单词级别和句子级别的形态素分割与现有的 3 种子单词分割方法相比有显著提高,为错误 - 研究在 FRANK QA 系统中使用释义生成进行问题改写的应用
通过评估释义生成方法实现提高 FRANK 问答系统可回答的自然语言问题的多样性,该研究分析了 LC-QuAD 2.0 数据集上的自动度量和人工判断,并讨论了它们之间的相关性,同时对包含错误的数据点进行了错误分析。通过将最佳执行的释义生成方法 - ACL文本简化中事实性评估
自动化简模型在提高文本可读性的过程中,如何保证简化之后的文本的准确性是一个需要研究的问题。本文提出了一个误差分类学,用来分析标准简化数据集和最新模型输出的简化文本的准确性问题,发现现有评估度量无法涵盖所有错误,因此需要进一步研究自动化简模型 - iSEA: NLP 模型语义错误分析的交互式流水线
我们提出了 iSEA,一种交互式语义错误分析工具,它自动发现高错误率的语义基础子人群,并支持自定义子群。通过使用案例和专家访谈,我们演示了 iSEA 如何协助误差理解和分析。
- HaT5: 使用文本转换转换器进行仇恨语言识别
本研究使用 T5 架构及自回归模型对包含 5 个不同任务的 2 个数据集进行性能比较与错误分析,提出了一种新的数据增强方法以及训练方法并通过解释性人工智能算法提高了预测准确率。
- 具有可证明保证的神经网络后训练量化
本研究提出了一种针对神经网络量化的方法,该方法通过量化权重来降低计算成本、内存占用和功耗,并促进权重的稀疏性,使用本方法在 ImageNet 上测试显示准确性的损失很小。
- EMNLP书面理由是提高众包预测准确性的关键
本研究表明,聚合众包预测受益于建模预测者提供的书面理由。我们的实验表明,多数和加权投票基线具有竞争力,并且书面理由在除最后一个季度之外的整个生命周期内都有利于呼叫问题。我们还进行了错误分析,揭示了使理由不可靠的特征。
- 使用 BERT 进行变音符号恢复并分析其在捷克语中的应用
本文提出了一种基于上下文化嵌入(BERT)的新型变音符号恢复体系结构,并在 12 种带有变音符号的语言上进行了评估。此外,我们对捷克语进行了详细的错误分析,最终我们对真实错误进行了分类。
- 专家、误差与上下文:人工评估机器翻译的大规模研究
研究机器翻译质量评估的难点在于缺乏标准程序及评估方法的计量问题。本研究提出一套基于明示错误分析及 MQM 框架的评估方法,并应用于 WMT 2020 挑战赛的两个语言对中来自高水平机器翻译模型的输出进行评估。评估结果与 WMT 众包评估结果 - ACL从网络评论的毒性到美国新闻的不文明:谨慎行事
通过对美国新闻的礼貌性手动标注的语料库,测试 Jigsaw Perspective API 是否能够检测到不礼貌的程度,结果表明,Perspective 等模型无法很好地分析新闻中的不礼貌性,需要开发去除新闻中经常提到的词之间的虚假相关性的 - CVPR通过鲁棒特征提取理解深度网络的故障
本文介绍并研究了一种方法,旨在通过识别导致模型失败的视觉特征,对学习模型的传统评估方法进行补充,从而更好地表现重要和有益的失败模式。作者进一步提出了一种可视化方法用于帮助人们理解这些特征的含义,并在 ImageNet 数据集上进行了评估,结 - 对抗性自然语言推理数据集分析
本文提出了一种精细注释 Adversarial NLI 的方法,通过分析其数据集中不同方面的推理并使用手工编码,回答了一些问题,如哪种推理类型最常见,哪种模型在每种推理类型上的表现最好等,并希望这些注释可以使得对于 ANLI 训练的模型进行 - 神经机器翻译鲁棒性的句子边界增强
本文针对信息输入过程中产生的错误,并基于错误分析提出了一种简单的数据增强策略,以提高神经机器翻译系统中句子边界分割的鲁棒性。
- EMNLP切片感知神经排名
本文介绍了针对 IR 任务,如何通过错误分析来提高神经排序模型的效果。针对难以处理的实例,我们使用基于切片的学习来提高模型的效果,实验表明这种方法能够提高神经排名模型的效率 2% 左右。
- TIDE:一款用于对象检测错误识别的通用工具箱
TIDE 框架和相关工具箱可以分析物体检测和实例分割算法的误差源。该框架可适用于各种数据集,并可直接应用于输出预测文件,无需了解底层预测系统,可用作标准 mAP 计算的替代品,同时提供每个模型的优缺点的综合分析。我们将误差分为六种类型,并首 - BUT-FIT 参加 SemEval-2020 任务 4:多语言常识
本文描述了 BUT-FIT 团队在 SemEval 2020 任务 4(常识验证和解释)中的工作,涉及三个子任务:A、B、C。其中,在子任务 A 和 B 中,我们的提交基于预训练语言表示模型和数据增强。我们尝试了使用多语言模型和机器翻译数据 - ICML决策树归纳的可证明保证:零知识条件
该研究的主要关键词有决策树学习、独立设置、单调函数、启发式算法和误差分析。该研究提供了一种基于启发式算法的决策树学习方法,可以在独立设置下优化误差,并取得了匹配近似下限。
- ACL范式发现问题
该研究论文研究了使用未标注的句子学习词形变化系统的范例发现问题,并通过使用词嵌入和字符串相似性对单元和范例进行聚类的方法来处理该问题。