ASR-GLUE：一个新的 ASR-Robust 自然语言理解多任务基准

Aug, 2021

ASR-GLUE：一个新的 ASR-Robust 自然语言理解多任务基准

ASR-GLUE: A New Multi-task Benchmark for ASR-Robust Natural Language Understanding

Lingyun Feng, Jianwei Yu, Deng Cai, Songxiang Liu, Haitao Zheng...

TL;DR为了评估 ASR 误差下 NLU 系统的性能，本研究提出了 ASR-GLUE benchmark，包括 6 个不同的 NLU 任务，以及声音特点和噪声等级的变化。研究结果表明，基于数据增强和纠错的方法可以在一定程度上提高 NLU 系统的鲁棒性，但仍需要进一步研究。

Abstract

Language understanding in speech-based systems have attracted much attention in recent years with the growing demand for voice interface applications. However, the robustness of natural language understanding (NLU) systems to errors introduced by automatic speech recognition (ASR) is under-examined. %To facilitate the research on →

asr-robust nlu tasks noise intensity error type data augmentation-based method

发现论文，激发创造

GLUE：自然语言理解的多任务基准测试和分析平台

为了实现一种泛用的自然语言理解技术，我们引入了 GLUE 基准测试，它是一种用于评估并分析现有 NLU 任务中模型性能的工具。该测试套件是模型无关的，提供手工诊断测试套件以进行详细的语言分析。我们评估了基于当前的多任务和迁移学习方法的基线，发现它们并没有立即在将单独的模型训练于每个任务上的总体表现上取得大幅度的改进，这表明在开发泛用且稳健的自然语言理解系统方面有改进的空间。

Apr, 2018

对抗 GLUE：一个用于评估语言模型鲁棒性的多任务基准

本文提出 Adversarial GLUE（AdvGLUE）—— 一个新的多任务基准，系统地将 14 种文本对抗攻击方法应用于 GLUE 任务，进一步通过人工验证实现可靠注释，揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性，呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。

Nov, 2021

DialoGLUE：面向任务导向对话的自然语言理解基准

本文介绍了 DialoGLUE，一种公共基准，旨在鼓励对话研究的表示转移，领域自适应和样本有效任务学习。通过 DialoGLUE 基准，基线方法和评估脚本，我们希望促进发展更为通用的任务导向型对话模型。

Sep, 2020

RussianSuperGLUE: 俄语语言理解评测基准

本文介绍了一种先进的俄语语言理解评估基准 ——RussianGLUE，并提供了包括基线、人类评估、开源框架和总排行榜等丰富内容。我们还比较了多语言模型在适应性诊断测试集上的表现，并提出了进一步扩展或评估最先进模型的第一步。

Oct, 2020

利用大型语言模型攫取 ASR 不确定性

利用 n-best 列表提示方法，我们改善了基于大型语言模型的口语理解任务，使其能够更好地理解口语意图并应用于基于语音的应用。

Sep, 2023

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

提高口语理解的 ASR 错误管理

介绍了一种基于神经网络的自然语言处理方法，用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明，该方案可以显著降低概念 / 值错误率，并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制，可以识别出置信度区间和不确定性的语义输出片段，进而决定适当的错误处理措施。

May, 2017

bgGLUE：保加利亚常规语言理解评估基准

bgGLUE 是一种 Bulgarian 通用自然语言理解（NLU）评估基准，用于评估语言模型在保加利亚语 NLU 任务中的表现，旨在进一步发展 Bulgarian NLU 模型。

Jun, 2023

ASR 纠错和语言理解的联合上下文建模

该研究提出了一种多任务神经网络方法，通过对话系统中的语音识别输出进行上下文语言纠正和语言理解以改善两个任务的性能，从而提高自动语音识别的质量。

Jan, 2020

超越受控环境：评估 ASRRobust NLU 模型在实际应用中的可移植性

该研究通过智能家居自动化指令在乌尔都语中考察了自动语音识别（ASR）鲁棒的自然语言理解（NLU）模型从受控实验条件到实际应用的可迁移性，并评估了模型在不同噪声环境、语言变化和 ASR 错误场景下的性能。利用乌尔都 BERT 模型，研究采用了系统的方法论，包括实际数据收集、交叉验证、迁移学习、噪声变化研究和领域适应。评估指标涵盖特定任务的准确性、延迟、用户满意度和对 ASR 错误的鲁棒性。研究结果揭示了 ASR 鲁棒的 NLU 模型在超越受控环境方面所面临的挑战和适应性。

Jan, 2024