BriefGPT.xyz
大模型
Ask
alpha
关键词
av-hubert
搜索结果 - 3
基于上下文的语音修补:以视频为导向的语音合成
本文提出了基于 Transformer 的深度学习模型来解决音频视觉语音修复问题,该模型利用视觉线索提供有关受损音频内容的信息。实验结果表明该模型优于之前的最先进的基于音频 - 视觉的模型和仅基于音频的基准模型,同时说明了使用 AV-HuB
→
PDF
a year ago
鲁棒性自监督视听语音识别
本文提出了一个基于 AV-HuBERT 模型的自监督音视频言语识别框架,利用 LRS3 数据集的少量标记数据,在噪音干扰的情况下提高了超过 50% 的性能,并且比基于音频的模型将词错误率减少了 75% 以上。
PDF
2 years ago
ICLR
基于掩码多模态聚类预测的音视频语音表征学习
AV-HuBERT 是自监督学习框架,用于从视频、音频中学习音视双方言的表征,可用于口型阅读和语音识别任务。在 433 小时的公共数据集 LRS3 上,使用 AV-HuBERT 的自我训练,口型阅读错误率降低到 26.9%,使用相同的表征进
→
PDF
2 years ago
Prev
Next