- ICLRLEAF: 可学习的音频分类前端
利用可学习前端代替 mel-filterbank,可普适于语音、音乐、声音事件和动物声音信号的分类,同时在多种分类任务和 Audioset 中表现出比 mel-filterbank 更好的性能,且参数更少。
- TaL:一份同步的多说话人的舌头超声成像、音频和嘴唇视频语料库
本文介绍了 Tongue and Lips 语料库(TaL)的数据来源和处理方式,并在多个任务上对该语料库进行了基准测试,结果表明 TaL 可以用于语音识别和语音合成等任务。
- 利用自监督预训练的声学和语言特征进行连续语音情感识别
本文研究音频和文本的预训练提取特征方法,使用 wav2vec 和 camemBERT 模型进行连续情感识别任务,同时采用 SEWA 数据集,证明 wav2vec 和 BERT 预训练特征的联合使用在处理连续 SER 任务中表现非常合适。通过 - 从文本、音频、说话者身份的三模态上下文生成言语手势
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
- 自监督多模态通用网络
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试 - MakeItTalk: 面向发言人的说话人头动画
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更 - ViSQOL v3: 一种开源的、生产就绪的客观语音和音频指标
使用开源 C++ 库 ViSQOL 能够对音频和语音进行感知质量的评估,新版本相较于之前版本在设计和使用上均有改进,已获得 Google 内部团队的反馈并使用于生产环境,同时与真实数据进行了评估和基准测试,但仍存在一些限制和改进空间。
- ESResNet:基于视觉领域模型的环境声音分类
本文提出了一种基于 STFT 频谱图与图像领域多个网络模型相结合的模型并针对标准数据集进行了评估,在 Environmental Sound Classification 领域中取得了目前最高的分类精度。同时对该领域已有的研究方法进行了全面 - AlignNet: 音频视觉对齐的统一方法
AlignNet 是一种使用注意力机制、金字塔处理、双线性变换等原则设计的模型,可实现解决视频和音频偏差不对齐的问题,并使用 Dance50 数据集进行训练和评估,结果表明相较于现有的方法,我们的模型表现得更优秀。
- LibriVoxDeEn: 一个用于德语到英语语音翻译和德语语音识别的语料库
该研究提供一个德语语音、德语文本和英语翻译的平行语料库,以德语有声读物为基础,包括 110 小时的音频材料,对齐了超过 50k 句平行句子,并且提供了更大的数据集,包括 547 小时的德语语音对齐了德语文本,同时为德语语音识别和德语到英语的 - ICCVEPIC-Fusion: 基于视听时空绑定的第一人称动作识别
提出了一种多模态融合架构,采用中层融合以及稀疏地对融合表示进行时间采样,将 RGB、Flow 和 Audio 三种模态进行融合,重点研究了多模态时间绑定,逐步改进,取得最先进的结果。
- 使用基于注意力的双向 LSTM 网络从单个音频生成语音 / 面部动画
本文提出了一种端到端的深度学习方法,用于从音频中实时生成面部动画,采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示,并自动推断不同水平的面部动作,并随着输入音频中的相应音高和潜在说话风格保持一致,无需预设或进一步的人 - AAAI情感分析中的多特征和多模态补充融合
该论文提出了一种基于音频和文本的多模态情感分析方法,使用多特征融合和多模态融合策略进行深层特征融合,通过实验证明了该方法在多个情感分析数据集上的有效性和优越性。
- 学习音乐和图像之间的情感对应关系
提出了一种解决音频和图像情感对应的问题的深度神经网络模型,通过学习将情感数据从不同模态的输入投影到共同的表示空间中,通过二元分类预测情感对应(真或假)。
- 视听场景感知对话
本论文介绍了场景感知对话任务,通过视频和音频研究场景,并在对话历史中利用上下文线索,以回答关于场景的问题;同时提出了 AVSD 数据集,并通过多项定量和定性指标评估了基础模型的表现,结果表明模型必须充分利用所有可用输入(视频、音频、问题和对 - 自监督同步下的音频和视频模型协同学习
该研究通过自监督的时间同步学习模型实现音频和视频分析的目的,模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对,并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。
- 使用视觉、音频和文本特征进行多模态话语级情感分析
本文介绍了一种利用 LSTM 结合口语音频和文本信息对多媒体剪辑中的情感进行识别的多模态神经架构,其优于单模态基线,并在唤起任务中达到了 0.400 的相关性系数和在价值任务中达到了 0.353 的相关系数。
- 基于 Tacotron 的端到端韵律转移实现情感化语音合成
本文提出了一个通过学习潜在的韵律嵌入空间,从包含所需韵律的参考声学信号中扩展 Tacotron 语音合成架构的方法,利用学习到的韵律嵌入空间来进行条件控制,达到了即使参考信号和合成说话人不同也能匹配参考语音韵律细节的合成语音效果,并定义了多 - 多模态欺骗检测的深度学习方法
本文提出了一种简单却难以超越的多模态神经模型,通过结合来自不同模态的特征,例如视频、音频、文本和微表情,我们证明了在现实生活视频中检测欺骗可以更加准确。在真实生活欺骗视频数据集上的实验结果表明,我们的模型在欺骗检测方面的准确率达到了 96. - ObamaNet: 文本到照片级逼真唇语同步
本文介绍了 ObamaNet 这一模型,该模型利用全可训练的神经模块,生成新文本的音频文件和同步的逼真唇形视频,其中所涉及的三个主要模块分别是基于 Char2Wav 的文本转语音网络、生成与音频同步的嘴部关键点的时延 LSTM 网络、以及基