关键词video-language grounding
搜索结果 - 3
- 加强视频语言表示的结构时空对齐
通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。
- MAD: 电影音频描述视频语言基础数据集
该论文提出了 MAD 基准测试,通过爬取和对齐可用的主流电影音频描述,包含超过 384,000 个自然语言句子,展示出视频语言基础数据集中存在的偏差的显着减少,使短暂的时间点可以准确地与长达三个小时的视频相匹配。
- ECCV视频中的视觉关系定位
本文介绍了一项新任务:视频中的视觉关系定位,目的是在视频中定位给定的主谓宾形式关系,以提供支持其他高级视频语言任务(例如视频语言基础和视频问答)。 通过协同优化构建的两个区域序列以及关系关注和重构,我们进一步提出了通过视觉实体之间的空间注意