BriefGPT.xyz
Ask
alpha
关键词
fine-grained structural spatio-temporal alignment
搜索结果 - 1
加强视频语言表示的结构时空对齐
通过精细化的结构化时空对齐学习方法(Finsta),将输入的文本和视频以细粒度场景图(SG)结构表示,进而统一为整体性 SG(HSG),从而加强语义和时序的视频 - 语言对齐,提高大规模视频 - 语言模型(VLMs)在各种下游任务中的性能。
PDF
9 days ago
Prev
Next