多模态 LSTM 的发言人识别技术 - 看、听、学习

AAAIFeb, 2016

多模态 LSTM 的发言人识别技术 - 看、听、学习

Look, Listen and Learn - A Multimodal LSTM for Speaker Identification

Jimmy Ren, Yongtao Hu, Yu-Wing Tai, Chuan Wang, Li Xu...

TL;DR本文提出了一种新颖的多模态长短时记忆结构 (MLSTM)，它可以无缝整合来自视频序列的视觉和听觉信息，建模人脸和声音之间的时间依赖关系，从而提高语音识别的鲁棒性和识别精度。

Abstract

speaker identification refers to the task of localizing the face of a person who has the same identity as the ongoing voice in a video. This task not only requires collective perception over both visual and auditory sig

speaker identification multimodal lstm visual and auditory signals temporal dependency robustness

发现论文，激发创造

深度多模态说话人命名

本文提出了一种基于卷积神经网络的学习框架，通过融合面部和音频线索，实现了自动说话人命名，并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下，可以在两个不同的电视剧中实现最先进的说话人命名性能。

Jul, 2015

口语语种识别的多模态建模

使用多模态元数据进行语种识别，证明视频标题、描述和地理位置等元数据对语种识别的贡献，并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果，并进行了基于模态的贡献度分析。

Sep, 2023

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

基于注意力长短期记忆 (LSTM) 的语音可懂度自动分类系统

该研究致力于开发一种自动非侵入式系统，用于预测语音可懂度水平，研究结果显示采用长期短期记忆（LSTM）网络以及对数 - 梅尔频谱图作为输入特征的 LSTM 架构通过引入简单的注意力机制，能够确定任务中更为相关的帧，从而优于基于支持向量机（SVM）和手工特征、基于均值池化的 LSTM 系统。

Feb, 2024

基于 LSTM 的端到端视觉语音识别

本文提出一种基于 LSTM 网络的端到端视觉语音识别系统，同时学习从像素直接提取特征和分类，取得了最先进的视觉语音分类性能。其中包括从口和差异图像中直接提取特征的两个流和通过 Bidirectional LSTM（BLSTM）融合这两个流。在 OuluVS2 数据库上比基准提高了 9.7％，在 CUAVE 数据库上比其他使用类似视觉前端的方法提高了 1.5％。

Jan, 2017

基于面部特征的多说话人环境下的语音增强

本文提出了使用已有的人脸标记检测器生成时间 - 频率蒙版来提高多人交谈环境下的语音增强过程，其结果表明，我们的模型是在有限的 GRID 和 TCD-TIMIT 数据集上进行培训和评估的首个能够实现在多人交谈环境中实现独立于发言人的语音增强的模型。

Nov, 2018

SI-LSTM: 会话中情感识别的说话人混合长短期记忆和跨模态注意力

本研究提出了一种名为 “讲话者信息增强的长短时记忆（SI-LSTM）” 的递归结构，用于情感识别，可以在追踪对话中不同讲话者的情感状态的同时，通过交叉模态注意力机制将不同模态之间的信息结合起来，提高多模态数据情感识别任务的学习效果。在两个基准数据集上进行的实验结果表明，所提出的 SI-LSTM 模型在情感识别任务上具有优越的性能表现。

May, 2023

基于语音的多模态情感识别中的学习对齐

本文提出使用注意力机制学习语音帧和文本单词之间的对齐方法，以提高音频 - 文本多模态情感识别的准确性，并在 IEMOCAP 数据集上取得了最先进的性能。

Sep, 2019

噪声环境中音频特征分析的 LSTM-CNN 网络

通过使用长短时记忆卷积神经网络（LSTM-CNN），本研究针对有噪音环境下的每帧音频数据，提取时间和 / 或频率相关的声音特征，从而估计同时活动的说话者数量和性别。在公共城市、工业环境、商场、展览会、工作场所和自然环境等各种情况下，使用了 19000 个男性、女性和背景噪音的音频样本进行了学习。该概念验证表明，在检测计数和性别方面，训练 / 验证均方误差（MSE）值约为 0.019/0.017，显示出有希望的性能。

Dec, 2023

跨模态说话人验证和识别：多语种视角

本文介绍建立跨语言讲者的面孔和声音之间的关联，在多语言中回答面声关联是否是语言无关的，以及展示在多语言环境下语音特征识别的实验。

Apr, 2020