BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-visual automatic speech recognition
搜索结果 - 4
音频 - 视觉微调的音频识别模型
使用简单且快速的音频自我监督学习方法,并进行音视频模型的有指导微调,可在减少大量文本数据依赖的同时与最先进的音视频自我监督学习方法竞争,并且更为高效和快速。
PDF
7 months ago
OxfordVGG 参加 EGO4D AV 转录挑战
这篇报告介绍了我们(OxfordVGG 团队)参与 EGO4D 音频 - 视觉自动语音识别挑战 2023 的技术细节。我们提出了 WhisperX 系统,用于高效转录长篇音频,并具有单词级别的时间对齐,同时还提供了两个公开可用的文本规范化器
→
PDF
a year ago
基于 Transformer 的音视频前端技术为单人和多人视频实现语音识别
本文提出使用视频变压器替换三维卷积进行视觉特征提取,从而提高音频 - 视觉自动语音识别的性能,并在大规模的 YouTube 视频语料库以及 LRS3-TED 公共语料库上进行了评估。实验结果表明,该方法在 LRS3-TED 上取得了国际领先
→
PDF
2 years ago
深度多模态学习用于音视频语音识别
本文介绍深度多模态学习的方法,用于合并语音和视觉特征进行音视频自动语音识别。实验结果表明,使用深度网络的融合模型和双线性 softmax 层能够进一步降低电话错误率。
PDF
9 years ago
Prev
Next