深度多模态说话人命名

Jul, 2015

Deep Multimodal Speaker Naming

Yongtao Hu, Jimmy Ren, Jingwen Dai, Chang Yuan, Li Xu...

TL;DR本文提出了一种基于卷积神经网络的学习框架，通过融合面部和音频线索，实现了自动说话人命名，并证明了该系统在不需要面部跟踪、面部标记定位或字幕 / 转录的情况下，可以在两个不同的电视剧中实现最先进的说话人命名性能。

Abstract

automatic speaker naming is the problem of localizing as well as identifying each speaking character in a TV/movie/live show video. This is a challenging problem mainly attributes to its multimodal nature, namely

automatic speaker naming multimodal nature convolutional neural networks speaker identification face and audio cues

发现论文，激发创造

多模态 LSTM 的发言人识别技术 - 看、听、学习

本文提出了一种新颖的多模态长短时记忆结构 (MLSTM)，它可以无缝整合来自视频序列的视觉和听觉信息，建模人脸和声音之间的时间依赖关系，从而提高语音识别的鲁棒性和识别精度。

Feb, 2016

口语语种识别的多模态建模

使用多模态元数据进行语种识别，证明视频标题、描述和地理位置等元数据对语种识别的贡献，并在两个不同的 YouTube 视频数据集上获得了最先进的语种识别结果，并进行了基于模态的贡献度分析。

Sep, 2023

MAAS: 多模态分配用于活跃说话人检测

本文提出了将图形数据结构应用于音频和视觉信号融合的新方法，将多模式的音视频特征分配给先前检测到的语音事件，实现了 88.8％的 AV-ActiveSpeaker 数据集性能最优。

Jan, 2021

多模态相关性学习：用于主动说话人检测和语音增强的方法

提出了一个统一框架，通过视听联合建模来实现目标说话人检测和语音增强，以建立音频 - 视觉任务中的多模态关联。

Mar, 2022

视音频生物特征匹配

本文研究了跨模态匹配，通过使用静态图像的人脸识别和声纹识别作为训练和测试数据集，使用 CNN 架构进行了二进制和多元交叉模态人脸和音频匹配，并比较了动态和静态测试，得出了 CNN 在此任务上表现优秀并超越了人类表现。

Apr, 2018

利用视觉监督进行基于阵列的主动说话人检测和定位

通过用从多通道音频中提取的空间输入特征进行训练的简单音频卷积循环神经网络（CRNN），可以独立于视觉模态进行同时水平活动说话者检测和定位（ASDL），超越典型的音频 - 视觉方法的性能并产生竞争性结果的成本昂贵的传统监督式训练。

Dec, 2023

跨模态说话人验证和识别：多语种视角

本文介绍建立跨语言讲者的面孔和声音之间的关联，在多语言中回答面声关联是否是语言无关的，以及展示在多语言环境下语音特征识别的实验。

Apr, 2020

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024

基于面部特征的多说话人环境下的语音增强

本文提出了使用已有的人脸标记检测器生成时间 - 频率蒙版来提高多人交谈环境下的语音增强过程，其结果表明，我们的模型是在有限的 GRID 和 TCD-TIMIT 数据集上进行培训和评估的首个能够实现在多人交谈环境中实现独立于发言人的语音增强的模型。

Nov, 2018

通过迭代多模态融合实现漫画中的零样本角色识别和说话人预测

漫画处理中的角色识别和对话者预测是至关重要的，本研究提出了一种零样本方法，利用未注释的漫画图像单独识别角色和预测说话者名称，并通过一个迭代的多模态框架进行实验验证。

Apr, 2024