BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-visual model
搜索结果 - 3
嘴唇闭合:透过障碍物进行视听言语增强
本文提出了一种深度音频 - 视觉语音增强网络,该网络可以通过对说话者的嘴唇动作和 / 或声音来分离说话者的声音,在嘴部区域引入人工遮挡并通过混合音频来训练模型,实现说话者独立,且在视觉感知受阻的情况下表现优异的应用。
PDF
5 years ago
基于混合 CTC / 注意力架构的音视频语音识别
本文介绍了一种基于 CTC/attention 混合架构的音频和视频的语音识别模型,并在 LRS2 数据库上表明这种模型识别率比仅音频模型提高了 1.3 个百分点,并且在噪声环境下表现出色, 是当前状态下最新的结果。
PDF
6 years ago
寻找鸡尾酒会中的发言者:一种基于音视频模型的独立演讲分离方法
我们提出了一种联合音频 - 视觉模型,用于从包括其它说话者和背景噪声在内的混合声音中分离单个语音信号,并且利用深度学习和 AVSpeech 数据集,实现了人脸指定后的语音分离任务,相较于仅使用音频的方法,在多说话人的情况下表现出更好的效果。
PDF
6 years ago
Prev
Next