BriefGPT.xyz
Ask
alpha
关键词
spatial grounding module
搜索结果 - 1
基于 CLIP 的 TASS: 面向目标的单流网络用于视听问答
本文提出了一种新的基于 CLIP 的目标感知单流网络 (TASS) 用于音视频问答,通过模型预训练的图像文本匹配知识实现视听匹配特性,包括目标感知的空间定位模块 (TSG+) 和单流联合时间定位模块 (JTG),通过交叉模态同步损失 (CM
→
PDF
2 months ago
Prev
Next