BriefGPT.xyz
Ask
alpha
关键词
avsr
搜索结果 - 3
Whisper-Flamingo: 集成视觉特征于 Whisper 中用于音频 - 视觉语音识别和翻译
Audio-Visual Speech Recognition (AVSR) uses Whisper-Flamingo, a model that integrates visual features, to improve speech
→
PDF
22 days ago
ViSpeR: 多语言音视频语音识别
该研究在中文、西班牙语、英语、阿拉伯语和法语这五种常用语言上,对音视频语音识别(AVSR)进行了广泛而详细的研究。通过收集大规模的数据集并进行有监督学习模型的训练,在多语言环境中训练的 ViSpeR 模型在每种语言的最新基准测试中表现出竞争
→
PDF
a month ago
SlideAVSR:用于视听语音识别的论文解释视频数据集
通过构建 SlideAVSR 数据集,这篇论文提出了一种用于科学论文解释视频的 AVSR 数据集,旨在为模型提供在演示录音中将语音话语转录为滑动演示文本的基准评估。同时,论文还介绍了一种名为 DocWhisper 的简单但有效的 AVSR
→
PDF
6 months ago
Prev
Next