对话系统中面向领域通用口语断续检测的多任务学习

Oct, 2018

对话系统中面向领域通用口语断续检测的多任务学习

Multi-Task Learning for Domain-General Spoken Disfluency Detection in Dialogue Systems

Igor Shalyminov, Arash Eshghi, Oliver Lemon

TL;DR本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Abstract

spontaneous spoken dialogue is often disfluent, containing pauses, hesitations, self-corrections and false starts. Processing such phenomena is essential in understanding a speaker's intended meaning and controlling the flow of the conversation. Furthermore, this processing needs to be

spontaneous spoken dialogue incremental detection disfluency structure neural network-based generalisation potential

发现论文，激发创造

多任务自监督学习用于消除语注检测

本文针对训练数据短缺的问题，提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练，并利用有标注的训练数据进行微调的方法，达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时，我们的方法可将误差降低 21%。

Aug, 2019

使用自然数据挑战神经对话模型：记忆网络在增量现象上的失误

研究了机器学习方法处理自然语言对话中语言现象的可行性，针对此问题，研究者将实际自然语言现象加入到 Facebook AI Research 的 bAbI 对话数据集中，发现目前的一种检索模型 MemN2N 在这种自然语言数据集合上表现急剧下降，但使用增量语义解析器 DyLan 能够在此数据集合上实现 100％的语义准确性。

Sep, 2017

基于 seq-to-seq 模型的增量式任务导向对话解释潜力分析

本文针对合成的任务型对话数据，研究了编码器 - 解码器模型在处理话语中的犹豫和自我修正等不连贯现象时的表现，并发现这些现象对于带有注意力机制的序列到序列模型的任务成功几乎没有影响，同时分析发现模型在处理这些现象时的表示中没有意识到其结构，但是加入这些现象的数据可以帮助模型更清晰的建立表示。

Aug, 2018

一种新的多模态动态融合网络用于口语话语中的干扰检测

本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构，通过使用文本和声学模态之间的多模态动态融合网络，在个体话语中进行语调检测，结果表明在英语 Switchboard 上，我们的模型实现了最先进的效果，并且在文献中优于以前的单模态和多模态系统。

Nov, 2022

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

使用双向 LSTM 进行犹豫检测

本文提出了一种利用双向 LSTM 神经网络进行自修复检测的方法，并使用模式匹配特征来降低对于词汇量的敏感度，提高了模型的性能。实验结果表明，在 Switchboard 语料库中，模型在标准的自修复检测任务和纠正检测任务中均表现出了出色的性能，特别是将非重复性的自修复鉴别效果提升明显。

Apr, 2016

面向口语对话的任务导向对话建模的通用模型

本文介绍了我们在 DSTC-10 上构建对话模型的方法。为缩小口头和书面数据之间的差距，我们采用了大量数据扩增策略，包括人工误差注入和文本转语音转换。我们改良了预训练语言模型，并对每个子任务应用了集成算法，以训练稳健的口头对话模型。我们的方法在官方评估中排名第三，在最终的正式人类评估中排名第二。

Mar, 2022

无标记数据和小型 BERT 模型的瑕疵探测

本文研究了基于 BERT 架构的小型、快速、本地化模型的流畅检测技术，探讨了自我训练、领域自适应和数据增强等方法对性能的影响，发现对这些小型模型来说，这些策略具有更加明显的影响。

Apr, 2021

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022

由极少数据启动增量对话系统：对话语法的泛化能力

本研究探讨使用小量未标记数据自动诱导任务型对话系统的端到端方法，利用动态句法和类型理论与记录相结合的增量语义语法和强化学习，其产生的系统是增量的，可以处理 74％的 Facebook AI bAbI 数据集，和 65％的 bAbI + 语料库，并比较了当前最先进的检索模型 MemN2N，揭示出其对 bAbI + 的转换的性能非常差。

Sep, 2017