BriefGPT.xyz
Ask
alpha
关键词
speech transcription
搜索结果 - 2
CVPR
基于时空异构图学习的高级音视频日志化技术
本研究文章介绍我们的新方法 STHG,采用统一的异构图学习框架对视频中的所有说话者进行建模,应用于 Ego4D Challenge 2023 的 Audio-Visual Diarization 任务,取得了 61.1% 的 DER 表现,
→
PDF
a year ago
学习联合转录和字幕生成用于端到端自发语音识别
本研究提出一种利用电视字幕数据进行语音识别与自动字幕生成的多任务双解码器 Transformer 模型,通过模型共享的编码器,同时预测语音和生成字幕,无需预处理,实现了 ASR 性能的提升。
PDF
2 years ago
Prev
Next