编码器 - 解码器多模态发言人变化检测

Jun, 2023

编码器 - 解码器多模态发言人变化检测

Encoder-decoder multimodal speaker change detection

Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim...

TL;DR本研究提出了一种基于多模态模型的演讲者变换检测方法，它不仅利用音频，还使用文本信息进行检测，并且在模态融合和编码器 - 解码器体系结构等方面进行了改进，实验结果表明该方法在准确率上取得了最好的效果。

Abstract

The task of speaker change detection (SCD), which detects points where speakers change in an input, is essential for several applications. Several studies solved the SCD task using audio inputs only and have shown limited performance. Recently, multimodal SCD (MMSCD) models, which util

speaker change detection multimodal modeling modality fusion encoder-decoder architecture transformer decoder layer

发现论文，激发创造

基于大型预训练基础模型的多语言说话人变更检测（USM-SCD）

我们引入了一种多语种说话人变更检测模型（USM-SCD），可以同时检测 96 种语言的说话人转换并进行 ASR。通过一系列消融研究，我们分析了这种多语种说话人变更检测模型的性能，并证明了从大规模通用基础模型进行微调对下游任务的实用性。USM-SCD 模型在包含 96 种语言数据的测试集上能够实现超过 75% 的平均说话人变更检测 F1 得分。在美式英语上，与各种公开和内部测试集相比，USM-SCD 模型能够实现 85.8% 的说话人变更检测 F1 得分，相对于之前的单语言基准模型提高了 21%。我们还表明只需要微调一个四分之一的可训练模型参数就能实现最佳模型性能。USM-SCD 模型在与强大的公开 ASR 基线相比具有最先进的 ASR 质量，适用于同时处理这两个任务并且计算成本几乎可以忽略。

Sep, 2023

基于文本的说话人变换检测的具有静态句级注意力的分层 RNN

本研究提出了一个基于分层循环神经网络和静态句子级注意力的模型，解决了对话模型中的文本语料的说话人变化检测问题，并在实验中证明了该模型明显优于其他模型。

Mar, 2017

通过声学和语义合作解码重新思考多模态视角下的语音识别

该论文提出了一种声学和语义协同解码器 ASRD，可以同时利用声学和语义特征来提高自动语音识别的性能。通过引入因果多模态屏蔽，可以防止在训练期间的信息泄漏，并且还提出了一种改良版的半监督 ASCD 来平衡准确性和计算成本。实验结果表明，ASRD 可以显著提高 ASR 的准确性。

May, 2023

MMSpeech: 面向语音识别的多模态多任务编码器解码器预训练

该论文提出了一种新的多模态多任务编码 - 解码器预训练框架 (MMSpeech), 用于汉语自动语音识别 (ASR), 该框架同时使用了未标注语音和文本数据，其中引入了音素模态来帮助捕捉汉语音频和文本之间的模态不变信息。通过在 AISHELL-1 数据集上的实验，该方法实现了最先进的性能，较其他预训练方法相对提高了超过 40%。

Nov, 2022

大型 AI 模型赋能的多模态语义通信

利用大型人工智能模型构建的大规模多模态语义通信（LAM-MSC）框架，通过多模态对齐、个性化语言模型和信道状态估计相结合来解决多模态语义通信中的数据异构性、语义歧义和信号衰落等挑战，并通过模拟实验验证了该框架的卓越性能。

Sep, 2023

基于自我蒸馏的多模态会话情感识别的 Transformer 模型

本文提出了一种基于自蒸馏 (SDT) 的基于变压器模型，该模型通过利用变压器来捕捉内部和跨模式之间的相互作用，并通过设计分层门控融合策略来动态学习模式之间的权重，并将所提出模型的软标签作为额外的训练监督，从而学习更具表现力的模式表示，实验证明 SDT 在 IEMOCAP 和 MELD 数据集上优于之前的最先进基线模型。

Oct, 2023

双编码器 - 解码器的交换：具有语义引导和空间定位的变化检测的新策略

基于语义引导和空间定位的深度学习编码器 - 解码器结构解决了双时相特征干扰和特定应用限制的改变检测问题，通过决策层融合双时相特征和利用双时相语义特征确定变化区域，该模型在六个数据集上验证并与 18 种最先进的改变检测方法进行比较，结果显示该模型在效率和性能上优于所有基准方法。

Nov, 2023

一种用于词汇语义变化检测的语义距离度量学习方法

通过使用已有的 Word-in-Context（WiC）数据集，我们提出了一种监督式的两阶段语义变化检测（SCD）方法，该方法可预测给定目标词在两个不同文本语料库中是否改变其意义。实验证明，我们的方法在多个语言的多个基准数据集上始终优于以前提出的 SCD 方法，为 SCD 领域建立了新的最先进技术。有趣的是，我们的研究结果暗示，存在着与语义变化相关的专门维度，在意义感知嵌入空间中承载信息。

Mar, 2024

多模态数据增强用于端到端语音识别

本文提出了一种新的端到端自动语音识别（ASR）架构，可以利用符号输入和传统的声学输入进行训练，该架构使用两个单独的编码器：一个用于声学输入，另一个用于符号输入，并共享注意力和解码器参数；通过研究不同的方法将大型文本语料库转换成符号形式进行训练，我们的最佳 MMDA 设置不仅可以在字符错误率（CER）上获得小的改善，而且在基线上，无论是否有外部语言模型，均可以获得 7-10％相对词错误率（WER）的改进。

Mar, 2018

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022