一种新的多模态动态融合网络用于口语话语中的干扰检测

Nov, 2022

一种新的多模态动态融合网络用于口语话语中的干扰检测

A novel multimodal dynamic fusion network for disfluency detection in spoken utterances

Sreyan Ghosh, Utkarsh Tyagi, Sonal Kumar, Manan Suri, Rajiv Ratn Shah

TL;DR本研究提出了一种基于早期融合和自注意力的多模态交互的新颖多模态体系结构，通过使用文本和声学模态之间的多模态动态融合网络，在个体话语中进行语调检测，结果表明在英语 Switchboard 上，我们的模型实现了最先进的效果，并且在文献中优于以前的单模态和多模态系统。

Abstract

disfluency, though originating from human spoken utterances, is primarily studied as a uni-modal text-based Natural Language Processing (nlp) task. Based on early-fusion and self-attention-based multimodal intera

disfluency nlp multimodal architecture acoustic cues switchboard

发现论文，激发创造

缺失鲁棒性的视觉增强多模态语篇错流检测

现有的语音故障检测技术只依赖于声学数据，本研究提出了一种实用的多模态故障检测方法，利用可用的视频数据与音频结合。我们策划了一个音频 - 视觉数据集，并提出了一种新颖的融合技术，使用权值共享的模态不可知编码器来学习时态和语义上下文。我们的可靠设计适应了视频模态在推断过程中有时可能丢失的现实场景。当两种模态始终可用时，我们还提供了备选融合策略。在五个故障检测任务的实验中，我们的统一多模态方法明显优于仅音频的单模态方法，当视频和音频模态始终可用时，平均绝对改进率为 10%（即百分点增加 10%），即使在一半的样本中视频模态丢失，仍然有 7% 的改进。

Jun, 2024

对话系统中面向领域通用口语断续检测的多任务学习

本文提出一种多任务基于 LSTM 的模型，用于增量检测口吃结构，可以连接到任何组件以进行增量解释，或者在产生当前话语时用于 “清理” 当前话语。我们在 Switchboard 对话行为语料库上训练了该系统，并展示了其在该数据集上的准确性。我们的模型在 SWDA 上比以前的神经网络基于增量的方法表现优异，同时采用较简单的架构。为了测试模型的泛化潜力，我们在没有任何附加训练的情况下，在 bAbI + 数据集上评估了相同的模型。这表明我们的方法具有很好的泛化潜力，并更加详细地阐明了哪些类型的口吃可能适合于领域通用处理。

Oct, 2018

大型语言模型用于口吃语音的错断检测

通过将自动语音识别系统生成的假设候选项和从音频编码模型提取的声学表示输入到大型语言模型（LLMs）中，我们将多标签异味检测任务作为一种语言建模问题进行了研究，并在包含英语和德语结巴语音的三个数据集上对系统进行了优化，以预测异味标签，实验结果表明我们的系统有效地结合声学和词法信息，在多标签结巴检测任务上取得了有竞争力的结果。

Jun, 2024

流式联合语音识别和语调异常检测

本研究通过基于 Transformer 框架的编码器 - 解码器模型提出了一种联合解决语音识别和流式识别中断相关的自然语言分析难题的方法，将其与传统的流水线工艺相比较，表现出更优异的准确性和实时性。

Nov, 2022

多任务自监督学习用于消除语注检测

本文针对训练数据短缺的问题，提出了使用自监督方法结合无标注数据构建伪训练数据进行预训练，并利用有标注的训练数据进行微调的方法，达到了使用少量数据在英语 Switchboard 数据集上与之前使用全数据进行训练的系统表现相当的结果。使用全数据进行训练时，我们的方法可将误差降低 21%。

Aug, 2019

基于结构化信息的语音中断检测的跨度分类

本文提出了一种新颖的检测漫游症的体系结构，结合了上下文信息和依存树捕获的长距离结构化信息，在英文 Switchboard 上实现了最先进的结果，明显优于现有技术。

Mar, 2022

面向对话语音标点预测的多模态半监督学习框架

本研究探索一种多模态半监督学习方法，通过学习大量无标签的音频和文本数据来预测标点符号。实验结果表明，使用注意力机制的多模态融合相对于使用强制对齐的多模态融合可以使基线模型分别在参考转录和自动语音识别输出上达到约 6-9％和 3-4％的绝对改进（F1 分数），数据增广也可以使模型对 ASR 错误更加鲁棒。

Aug, 2020

关注意料之外的信息：利用韵律创新进行断句检测

本文介绍了一种新方法来提取基于文本的声学提示，并引入文本分布预测来提取矢量 z - 分数特征（创新），对比不同融合技术的早期和晚期融合模型，并比高准确率的仅文本模型取得了更高精度。

Apr, 2019

自动识别未转录语音中的干扰

说话不流畅现象，如填充式停顿或重复，是典型言语流畅的干扰。本文研究语言、声学和多模态方法在自动裁剪检测和分类中的应用，发现基于声学的方法在性能上超过语言方法，同时引入多模态结构提升了检测性能。这些创新方法有助于将自动裁剪检测应用于各种应用场景。

Nov, 2023

多模态数据自适应融合技术

本研究提出了两种自适应融合网络（Auto-Fusion、GAN-Fusion），通过对不同模态的特征进行有效的上下文建模，在多模态机器翻译和情感识别等任务中取得了比现有方法更好的效果。

Nov, 2019