PRoDeliberation：面向端到端口语理解的并行强化沟通

Jun, 2024

PRoDeliberation：面向端到端口语理解的并行强化沟通

PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding

Trang Le, Daniel Lazar, Suyoun Kim, Shan Jiang, Duc Le...

TL;DRSpoken Language Understanding (SLU) 的关键组成部分是将语音转化为语义分析，以便进行任务执行。本研究介绍了 PRoDeliberation，一种利用基于连接主义时间分类的解码策略和降噪目标来训练稳健的非自回归思考模型的新方法。我们展示了 PRoDeliberation 实现了并行解码的延迟降低（比自回归模型提高 2-10 倍），同时保持了修正自回归思考系统的自动语音识别（ASR）误识别的能力。此外，我们进一步展示了降噪训练的设计使得 PRoDeliberation 能够克服小型 ASR 设备的限制，并对系统的每个组件的必要性进行了分析。

Abstract

spoken language understanding (slu) is a critical component of voice assistants; it consists of converting speech to semantic parses for task execution. Previous works have explored end-to-end models to improve t

spoken language understanding slu prodeliberation connectionist temporal classification denoising objective

发现论文，激发创造

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

多语言 ASR 的协商扩展

本文研究了基于 Transformer 模型的多语言自动语音识别模型，提出了一种多语言的反推算法用于提高模型的识别能力，实验结果显示，相较于单语言算法，该算法的识别误差平均降低了 4%，在某些语言上甚至有 14% 的提升，且该算法可以进行并行化处理。

Oct, 2022

基于决策模型的双通道端到端语音识别

本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Mar, 2020

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

对比学习：提高口语理解的 ASR 鲁棒性

本文提出了一种利用对比目标、监督对比学习和自蒸馏相结合的方法来学习对语音识别中的错误具有鲁棒性的话语表示，并进一步增强了其泛化能力。在三个基准数据集上的实验表明了我们提出的方法的有效性。

May, 2022

通过改写实现强大的口语理解

本论文提出了一种新颖的基于改写的 SLU 模型，结合 RNN 和序列到序列的神经网络提出了两个改写生成器，并证明了模型对罕见和复杂的改写话语具有鲁棒性。

Sep, 2018

无 ASR 语音语言理解的端到端架构

这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构，用于意图分类，通过结合深度递归架构和标准数据增强，不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果，并且探讨了其对新措辞的普适性，结果表明，该模型在训练期间未见过的措辞上也能表现得相当不错。

Oct, 2019

基于 RNN 的增量在线口语理解

提出使用循环神经网络 (RNN) 基于增量处理的方式进行口语语言理解 (SLU) 的意图检测，从而实现系统延迟更低的效果，同时不会显著降低 SLU 系统的准确性。

Oct, 2019

一种有效的非自回归式口语理解模型

本文提出了一种新型非自回归对话系统核心部件 ——Layered-Refine Transformer，其包含 Slot Label Generation 和 Layered Refine Mechanism，通过在训练期间有效获取依赖信息，实现了在推断时显著提高了 SLU 性能（总体准确率提高 1.5% 以上）并加速了（超过 10 倍）推断过程。

Aug, 2021

通过仅文本和半监督训练改善审议

通过使用文本数据和半监督训练，结合基于 Transformer 的双向编码器表示和文本到语音解码器以及半监督训练，实现了多项任务中 4% 至 12% 的 WER 降低，并比最先进的语言模型（LM）缩减的 Deliberation 模型相比降低了 11% 的 Google Voice 搜索 WER，达到了与最先进的 LM 重评分器相当的人类评估结果。

Jun, 2022