使用 Transformer 模型进行大规模自然语言理解系统的错误检测

ACLSep, 2021

使用 Transformer 模型进行大规模自然语言理解系统的错误检测

Error Detection in Large-Scale Natural Language Understanding Systems Using Transformer Models

Rakesh Chada, Pradeep Natarajan, Darshan Fofadiya, Prathap Ramachandra

TL;DR本研究提出了使用 Transformer 模型检测大规模会话助手中的领域分类错误，采用 RoBERTa 模型的话语编码结合生产系统生成的 N 个最佳假设。在使用少量人工标注的语音的多任务设置下，我们的方法检测一个占大型会话 AI 系统流量的 < 0.5% 的域的误分类，达到了 30% 的 F1 分数，表现优于基线的双向长短时记忆模型 16.9% 以及独立 RoBERTa 模型 4.8%，并通过合并多个模型进一步提高了 2.2% 至 32.2%。

Abstract

Large-scale conversational assistants like Alexa, Siri, Cortana and Google Assistant process every utterance using multiple models for domain, intent and named entity recognition. Given the decoupled nature of model development and large traffic volumes, it is extremely difficult to id

conversational assistants domain classification transformer models roberta misclassifications

发现论文，激发创造

利用预训练语言模型检测标签错误

该研究表明，大型预训练语言模型本质上具有高度识别自然语言数据集中标签错误的能力：仅通过按微调任务损失的降序检查样本数据点，可显著优于先前工作中提出的更复杂的错误检测机制。此外，研究对引入 SNLI 和 TweetNLP 等现有众包数据集中真实的、人工标记噪声提出了一种新方法，证明该噪声具有类似于真实手动验标错误的属性，并且比现有的合成噪声更难以检测，因此将人工起源噪声作为评估标准更好。最后，使用众包验证评估在 IMDB、Amazon 评论和 Recon 中实际错误的检测，并确认预训练模型的绝对精度召回曲线下面积比现有模型高 9-36%。

May, 2022

利用跨句上下文和多任务语言建模进行电子商务聊天机器人的语音识别适应

本文探讨了改进 Transformer-XL NLM 以重评 ASR N-best 提示的各种技术，包括利用上下文化、域自适应和多任务模型等方面；结果显示，模型的性能明显优于 LSTM LM 基准模型。

Jun, 2021

基于 Transformer 的情感检测方法

本研究探讨了采用不同类型的最先进的转换器模型对文本分类的性能，发现其中 RoBERTa 模型在测试数据集上表现最佳，可用于文本中灾难的检测。此外，我们发现预处理技术，词汇表中单词的性质，不平衡标签和模型参数对学习算法的性能产生影响。

Mar, 2023

多头多层注意力机制用于深度语言表示的语法错误检测

利用经过预训练的语言表示模型的中间和最终层提取句子中的语法错误特征，通过多头多层的注意力模型，使用 Bidirectional Encoder Representation from Transformers (BERT) ，在三个语法错误数据集上实现更好的 F_0.5 分数，比当前最先进的方法分别高出 6.0（FCE），8.2（CoNLL14）和 12.2（JFLEG）个百分点，并证明利用多头多层注意力，我们的模型可以利用句子中每个记号的更广泛信息。

Apr, 2019

语法与拼写错误校正：基于 BART 和 MarianMT 的 Transformer 语言模型响应性调查

这项研究旨在分析在文本文件中出现的各种错误，并利用两种先进的深度神经网络语言模型 (BART 和 MarianMT) 纠正文本中存在的异常。通过可用的数据集进行这些模型的迁移学习，以调整其错误纠正能力。通过比较研究发现，虽然这两种模型都可以将错误句子减少 20+%，但 BART 在拼写错误 (24.6%) 方面表现得更好，而在语法错误 (8.8%) 方面表现较差。

Mar, 2024

面向口语对话的任务导向对话建模的通用模型

本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距，我们采用了大量数据扩增策略，包括人工误差注入和文本转语音转换。我们改良了预训练语言模型，并对每个子任务应用了集成算法，以训练稳健的口头对话模型。我们的方法在官方评估中排名第三，在最终的正式人类评估中排名第二。

Mar, 2022

关于语言编码器对语法错误的鲁棒性

本文旨在研究预训练语言编码器（ELMo，BERT 和 RoBERTa）在面对自然语法错误时的表现，通过采集真实语法错误和进行对抗性攻击来模拟这些错误对干净文本数据的影响。结果证实，所有测试模型的性能都受到了影响，但影响程度有所不同。此外，我们设计了一个语言接受度任务来揭示它们在识别不符合语法的句子和错误位置方面的能力。本文的结果有助于理解语言编码器对语法错误的鲁棒性和行为。

May, 2020

通过建模语料库中的偏见进行端到端偏见缓解

本文提出了两种学习策略来训练神经模型，更加稳健，并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差，通过 down-weighting 有偏差的例子，使基础模型减少对偏差的依赖。实验表明，我们的去偏差方法在所有设置中都显著提高了模型的稳健性，并且更好地迁移到其他文本蕴涵数据集上。

Sep, 2019

利用心理语言学特征和 Transformer 提升基于文本的情感检测的泛化能力

本文采用基于转换器模型和双向 LSTM 网络的方法，结合心理语言学特征进行基于文本的情感检测，在两个基准数据集中表现出可比性，在六个统一情感数据集的迁移学习实验中表现出强大的跨领域泛化功能。

Dec, 2022

无标记数据和小型 BERT 模型的瑕疵探测

本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Apr, 2021