BriefGPT.xyz
Ask
alpha
关键词
visual queries
搜索结果 - 4
CVPR
通过丰富的上下文和区分特征嵌入检索拼接视频
使用详细的语言描述来显式编码特定查询背景信息和学习视觉、文本和视觉文本的判别嵌入,以更准确地检索匹配的目标视频的新型 CoVR 框架。
PDF
3 months ago
VISREAS: 复杂视觉推理与无法回答的问题
验证图像问题的可回答性及其对应于图像的性能对于实际应用中的问题回答至关重要。我们通过创建一个新的组合视觉问答数据集(VISREAS)来满足这一需求,并引入了一个新的基线模型(LOGIC2VISION),该模型通过生成并执行伪代码来进行推理,
→
PDF
5 months ago
ECCV
为自我中心视频估计更多的相机姿态对于 VQ3D 至关重要
通过设计新的 pipeline 并重新优化现有的 VQ3D 框架,我们在 VQ3D 排行榜中取得了 25.8% 的最佳成绩,比基线 8.7% 提高了两倍。
PDF
2 years ago
构建一个大规模的多模态知识库系统,以回答视觉查询
本研究提出了一种知识库框架,通过构建一个大规模的多模态知识库来回答各种视觉查询,同时保持灵活性和可扩展性。研究表明所提系统能够取得有竞争力的结果,并能够应对更丰富的视觉查询。
PDF
9 years ago
Prev
Next