cross-modal representation | BriefGPT

关键词cross-modal representation

搜索结果 - 7

ACLCIF-PT：通过连续的集成和火预训练将语音和文本表示桥接到口语语言理解中
提出了一种名为 CIF-PT 的新的预训练范式，通过连续整合与火预训练 (CIF) 来弥合语音和文本之间的表示，其在语音理解任务中的表现优于最新的模型，交叉模态表示的性能也更好。
PDFa year ago
UniAdapter：跨模态建模的统一参数高效迁移学习
该论文提出 UniAdapter，通过部分权重共享实现单模态和多模态适配器的统一设计，从而实现在预训练的视觉语言模型上进行跨模态自适应，仅需预训练模型的 1.0％-2.0％可调参数，实现强大的跨模态表示，对于各种下游任务都有益处，并在六项跨
PDFa year ago
ECCVCODER: 用于图像 - 文本检索的耦合多样性感知动量对比学习
本文提出了一种基于对比学习的新型跨模态表征方法 Coupled Diversity-Sensitive Momentum Constrastive Learning（CODER），通过引入动态字典和适应性负对权重，使用实例级嵌入和概念级描述
PDF2 years ago
MM利用显式高层语义提升视频文本检索
本文提出了一种名为 HiSE 的视觉语言对齐模型，通过明确的高层语义信息来提高跨模态表示，结合图形推理技术来促进全局和离散高级语义之间的交互，通过在 MSR-VTT、MSVD 和 DiDeMo 等三个基准数据集上的广泛实验表明，我们的方法在
PDF2 years ago
CVPR定位并分割：一个强大的指示物图像分割流水线
本文从 “定位 - 再分割”（LTS）的视角来看待指涉图像分割任务，并提出了一个简单有效的方法，通过提取和融合视觉和文本特征，然后在视觉 - 文本特征之间应用交互，定位被指涉的对象，并使用轻量级分割网络生成分割结果。通过可视化实验，证明该模
PDF3 years ago
MM视频中时间语言定位的细粒度迭代注意力网络
本文提出了一种基于 Fine-grained Iterative Attention Network (FIAN) 的跨模态时间语言定位方法，该方法采用内容定向定位策略而非现有的基于 Anchor 的方法，并在多个公开基准测试中表现出优异的
PDF4 years ago
学习面孔和声音的关联
本文研究人类面孔与声音之间的关联，通过在线研究，在新建数据集上证实人们可以将未见过的面孔与对应的声音相关联，并且我们计算建模了面孔和声音之间的重叠信息，表明该跨模态表示包含足够的信息来识别匹配的面孔和声音，并且此表征具有与某些人口属性和从单
PDF6 years ago