BriefGPT.xyz
Ask
alpha
关键词
cross-modal moment localization
搜索结果 - 1
ECCV
TVR: 视频字幕时刻检索大规模数据集
本研究介绍了一种新的多模式检索数据集,名为电视节目检索 (TVR),它结合了视频和相关的字幕文本,其中包含 109K 个查询,每个查询与一个精确的时间窗口相关联,并且具有指示查询与视频或字幕相关性的查询类型标签。我们还提出了多模态时刻检索任
→
PDF
4 years ago
Prev
Next