BriefGPT.xyz
大模型
Ask
alpha
关键词
textual encoder
搜索结果 - 3
揭示隐藏的关联:针对与视频相关的对话进行迭代跟踪和推理
对比传统的视觉问答,基于视频的对话需要深入理解对话历史和视频内容以实现准确的响应生成。为了解决现有方法在逐步理解复杂对话历史和融入视频信息方面所面临的挑战,我们提出了一种迭代的跟踪与推理策略,将文本编码器、视觉编码器和生成器相结合。在核心部
→
PDF
9 months ago
ACL
思考与观察的结合用于基于外部知识的视觉问答
本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架,将跨模态空间约束到自然语言空间中,使得视觉特征直接保留在其中,并且从自然语言空间中获得更多的类型知识,实验证明其在多数情况下表现优异。
PDF
a year ago
ECCV
视觉 - 语义对比对齐在小样本图像分类中的应用
本文介绍了一种对称的对齐机制,用于学习从极少的例子中获取更广义的视觉概念的方法。实验结果表明,该方法是通用的,并提供了一个强大的基准。
PDF
2 years ago
Prev
Next