BriefGPT.xyz
Ask
alpha
关键词
video-guided curriculum learning
搜索结果 - 1
MM
语音视频定位的视频引导课程学习
本文介绍了一种新的任务:口语视频 grounding(SVG),旨在将口语描述中的期望视频片段定位出来。该文通过电视测试数据表明,采用音频需要模型直接从原始语音中利用有用的音素和音节与视频相关信息。为了更好地模拟实际应用,还将环境噪声随机添
→
PDF
2 years ago
Prev
Next