ASR-GLUE:一个新的 ASR-Robust 自然语言理解多任务基准
为了实现一种泛用的自然语言理解技术,我们引入了 GLUE 基准测试,它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的,提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线,发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进,这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。
Apr, 2018
本文提出 Adversarial GLUE(AdvGLUE)—— 一个新的多任务基准,系统地将 14 种文本对抗攻击方法应用于 GLUE 任务,进一步通过人工验证实现可靠注释,揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性,呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。
Nov, 2021
本文介绍了 DialoGLUE,一种公共基准,旨在鼓励对话研究的表示转移,领域自适应和样本有效任务学习。通过 DialoGLUE 基准,基线方法和评估脚本,我们希望促进发展更为通用的任务导向型对话模型。
Sep, 2020
本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE,并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现,并提出了进一步扩展或评估最先进模型的第一步。
Oct, 2020
本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示,并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。
May, 2022
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
bgGLUE 是一种 Bulgarian 通用自然语言理解(NLU)评估基准,用于评估语言模型在保加利亚语 NLU 任务中的表现,旨在进一步发展 Bulgarian NLU 模型。
Jun, 2023
该研究通过智能家居自动化指令在乌尔都语中考察了自动语音识别(ASR)鲁棒的自然语言理解(NLU)模型从受控实验条件到实际应用的可迁移性,并评估了模型在不同噪声环境、语言变化和 ASR 错误场景下的性能。利用乌尔都 BERT 模型,研究采用了系统的方法论,包括实际数据收集、交叉验证、迁移学习、噪声变化研究和领域适应。评估指标涵盖特定任务的准确性、延迟、用户满意度和对 ASR 错误的鲁棒性。研究结果揭示了 ASR 鲁棒的 NLU 模型在超越受控环境方面所面临的挑战和适应性。
Jan, 2024