image-text models | BriefGPT

关键词image-text models

搜索结果 - 9

MMRTQ：基于图文模型重新思考视频语言理解
我们提出了一种名为 RTQ（Refine，Temporal model 和 Query）的新型框架，同时解决了视频语言理解中的信息冗余、时序依赖和场景复杂度等挑战，这种方法通过对帧内冗余信息的优化、建模帧之间的时序关系和从视频中查询任务特定
PDF7 months ago
MobileCLIP: 多模态加强训练的快速图像 - 文本模型
在这项研究中，我们引入了 MobileCLIP 这个新的高效图像 - 文本模型系列，通过一种名为多模态增强训练的新颖且高效的训练方法，利用图像字幕模型和一组强大的 CLIP 编码器中的知识转移，将额外的知识存储在增强数据集中而避免了训练时计
PDF7 months ago
分析视觉语言模型在视频理解任务上的零样本能力
我们通过对图像文本模型在视频理解任务中的泛化能力进行详细研究，发现这些模型在视频行动识别、视频检索和视频多项选择方面表现出强大性能，对视频字幕能力中等，对视频问答能力较差，这些结果揭示了在避免昂贵的预训练阶段的同时，将基础图像文本模型应用于
PDF9 months ago
谓词扩散：基于谓词逻辑的文本到图像扩散模型的注意力引导
在这篇论文中，我们提出了一种称为预测扩散的统一框架来表达用户的意图，通过使用谓词逻辑将文本中的预期含义表示为命题，并将注意力图中的像素视为模糊谓词，以获取使图像满足命题的可微损失函数。与多种现有方法相比，我们证明了预测扩散能够生成更符合不同
PDF9 months ago
CVPREgo4D 长期动作预测的 Video + CLIP 基线
本文报道了我们在长期行动预测方面使用图像 - 文本模型的调整。我们的视频 + CLIP 框架利用了大规模预先训练的成对图像 - 文本模型：CLIP 和视频编码器 Slowfast 网络。两个编码器得到的特征互补，因此在 Ego4D 上的长期
PDF2 years ago
CLIP-Hitchhiker 的长视频检索指南
本文旨在将图像 - 文本模型应用于长视频检索，并通过查询打分的帧嵌入的加权平均作为时间建模有效基线，提出一种在长视频检索基准测试中表现卓越的改善方法。
PDF2 years ago
ECCV使用视觉 Transformer 进行简单的开放词汇物体检测
采用对比式图文预训练和端到端检测微调方法，结合扩展的图像预训练和模型尺度的优化，实现了基于 Vision Transformer 的开放词汇目标检测的零样本和单样本条件下的行为表现。
PDF2 years ago
CVPR基于零样本文本引导的 Dream Fields 对象生成
Dream Fields 提出了一种结合神经渲染和多模态图像和文本表示的方法，能够通过自然语言描述合成各种几何形状和颜色的 3D 对象。
PDF3 years ago
CVPRLiT: 基于锁定图像文本调整的零次迁移
该研究提出了对比度调整（contrastive-tuning）方法，通过对比训练使图像和文本模型对齐，该方法能够在使用预训练的同时仍然发挥其优势，其中最佳表现的是锁定的预先训练的图像模型和解锁的文本模型。LiT 模型具有其零 - shot
PDF3 years ago