口语语种识别的多模态建模

Sep, 2023

Multimodal Modeling For Spoken Language Identification

Shikhar Bharadwaj, Min Ma, Shikhar Vashishth, Ankur Bapna, Sriram Ganapathy...

TL;DR使用多模态元数据进行语种识别，证明视频标题、描述和地理位置等元数据对语种识别的贡献，并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果，并进行了基于模态的贡献度分析。

Abstract

spoken language identification refers to the task of automatically predicting the spoken language in a given utterance. Conventionally, it is modeled as a speech-based language identification task. Prior techniques have been constrained to a single modality; however in the case of vide

spoken language identification multimodal metadata language recognition youtube videos

发现论文，激发创造

多模态 LSTM 的发言人识别技术 - 看、听、学习

本文提出了一种新颖的多模态长短时记忆结构 (MLSTM)，它可以无缝整合来自视频序列的视觉和听觉信息，建模人脸和声音之间的时间依赖关系，从而提高语音识别的鲁棒性和识别精度。

Feb, 2016

深度多模态说话人命名

本文提出了一种基于卷积神经网络的学习框架，通过融合面部和音频线索，实现了自动说话人命名，并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下，可以在两个不同的电视剧中实现最先进的说话人命名性能。

Jul, 2015

通过视觉和语音进行多模式机器翻译

本文综述了多模式机器翻译的重要数据资源、评估活动、端到端及管道方法的最新成果，以及在绩效评估方面面临的挑战，并讨论了这些领域未来研究的方向。

Nov, 2019

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

基于大型语言模型的多模态检索用于语音识别

提出 kNN-LM 和跨注意力技术两种方法的多模态检索，证明了其在语音识别任务上优于基于文本的检索方法，对多模态语言模型基准线具有最高水平的识别结果。

Jun, 2024

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

语言作为媒介：通过仅文本进行多模态视频分类

通过利用大型语言模型（如 GPT-3.5 或 Llama2）的广泛知识，结合 BLIP-2、Whisper 和 ImageBind 获取的视觉和听觉多模态文本描述，我们提出了一种新的模型不可知方法，用于生成捕捉多模态视频信息的详细文本描述。我们的评估结果表明，这种基于文本描述的方法在视频理解任务中取得了成功，为多模态分类提供了一个有前景的新研究方向。

Sep, 2023

多模态多通道目标语音分离

通过利用目标说话者的空间位置、声音特征和唇部运动，本研究提出了一种通用的多模态框架来实现目标语音分离，并探讨了多模态联合建模的融合方法。通过实验验证，该方法在真实情况下的强鲁棒性表现显著优于单模和双模语音分离方法，同时可支持实时处理。

Mar, 2020

健壮的开放式口语语种识别和 CU MultiLang 数据集

我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统，该系统在已训练语言上达到了 91.76% 的准确率，并能够动态适应未知语言。

Aug, 2023

多模态方法在大型语言模型中的设备导向语音检测

虚拟助手的交互通常以预定义的触发短语作为开端，我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验：首先，只使用从音频波形中获得的声学信息来训练分类器；其次，将自动语音识别（ASR）系统的解码器输出，如 1 最佳假设，作为大型语言模型（LLM）的输入特征；最后，探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型，在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模，并使用低秩适应来进行训练，在我们的数据集上进一步降低了相对误差率高达 18%。

Mar, 2024