BriefGPT.xyz
大模型
Ask
alpha
关键词
long-form audio
搜索结果 - 3
利用语音识别能力激发大型语言模型
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语
→
PDF
a year ago
OxfordVGG 参加 EGO4D AV 转录挑战
这篇报告介绍了我们(OxfordVGG 团队)参与 EGO4D 音频 - 视觉自动语音识别挑战 2023 的技术细节。我们提出了 WhisperX 系统,用于高效转录长篇音频,并具有单词级别的时间对齐,同时还提供了两个公开可用的文本规范化器
→
PDF
a year ago
E2E Segmenter: 针对长形式 ASR 的联合分词和解码
使用端到端的自动语音识别模型代替传统的语音活动检测器 (VAD),在处理长的音频片段时,不仅能够使用更好的声学特征进行分割决策,还可以使用文本解码得到的语义特征,从而有更好的性能表现。在 30 分钟内的真实世界音频实验中,相比于使用 VAD
→
PDF
2 years ago
Prev
Next