modality gap | BriefGPT - AI 论文速递

关键词modality gap

搜索结果 - 35

ICML跨模态迁移的学习模态知识对齐
通过进行一系列实验，本研究揭示了模态间差距与知识重用程度之间的关联，定义了作为模态知识差异的知识不匹配性，并提出了模态知识对齐元学习方法（MoNA）来减小模态间的知识差异，实验证明该方法可以在跨模态迁移中更好地重用源模态知识，并改进现有的微
PDF5 days ago
缓解差距：研究提升 CLIP 中跨模态对齐的方法
通过设计 AlignCLIP，本文回答了共享多模态编码器参数空间是否减少模态间隙以及通过内部模态分离是否可以缓解间隙的两个主要问题，并通过大量实验证明了 AlignCLIP 在嵌入的跨模态对齐上取得了显著的改进，从而减少了模态间隙，并在零样
PDF7 days ago
面向文本属性的隐式模态对齐的人物搜索
通过 Attribute-Aware Implicit Modality Alignment (AIMA) 框架，使用 CLIP 模型及 Attribute-IoU Guided Intra-Modal Contrastive (A-IoU
PDFa month ago
文本反转与自监督精炼的放射学报告生成
此篇论文提出了基于文本反转和自监督改进 (TISR) 的方法，通过解决编码器和解码器网络结构的问题，克服了模态差异和报告内容限制，实现了文本和图像在同一空间中的表示，通过对图像和文本之间的对比损失计算来改进生成的报告的准确性。该方法与现有方
PDFa month ago
非模态鸿沟：对比鸿沟的特征与解决
在多模态对比模型中存在模态差距（modality gap），且对比损失（contrastive loss）实际上导致了这种差距。为了解决这个问题，研究人员通过将单模态对比损失的均匀性和对齐性原则引入到多模态环境中，改进了对比损失函数（CLI
PDFa month ago
SHE-Net：语法层次增强的文本 - 视频检索
本文介绍了一种名为 SHE-Net 的新型语法层次增强文本 - 视频检索方法，通过利用文本的语义和语法层次，从两个方面弥合模态差距，并在四个公共文本 - 视频检索数据集上验证了该方法的优势。
PDF2 months ago
两种效应，一个触发器：关于对比式视觉语言表示学习中的模态差异、物体偏见和信息不平衡
鉴于多模态差异，对象偏差及信息不平衡等因素，本研究通过对比视觉语言模型进行深入调查并提出了量化对象偏差的方法，揭示了信息不平衡是产生多模态差异和对象偏差的驱动因素。
PDF3 months ago
CVPRSDSTrack: 自蒸馏对称适配器学习用于多模态视觉目标跟踪
我们提出了一种新的对称多模态跟踪框架 SDSTrack，通过轻量级适应和补充掩膜路径蒸馏策略，提高了跟踪器在复杂环境中的鲁棒性，并在各种多模态跟踪场景中表现出优异结果。
PDF3 months ago
填补视觉语言模型选择中的模态和容量差距
本文分析了在使用语言 - 仅依据进行视觉语义模型 (VLM) 选择中的两个固有挑战：模态差异和能力差异，并提出了一种称为 SWAB 的方法来缓解这两个差距，通过最优传输捕捉开源数据集与目标数据集之间的相关性，并将有用的统计信息从开源数据集传
PDF3 months ago
CLEAR：基于预训练语言模型的交叉变压器在个人属性识别和检索中的应用
本研究提出了 CLEAR 模型，通过引入鲁棒的交叉变换网络解决人物属性识别问题，并利用预训练语言模型构建属性查询的伪描述，通过训练适配器来处理检索任务，CLEAR 模型在 PETA、PA100K、Market-1501、RAPv2 和 UP
PDF4 months ago
Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强
最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并
PDF4 months ago
逐步推进零尾到尾语音翻译的极限
该论文介绍了一种名为 ZeroSwot 的零样本语音翻译方法，通过利用新颖的 CTC 压缩和最优传输技术，在没有配对的语音翻译数据的情况下，通过仅使用语音识别数据训练语音编码器，实现了语音到文本的直接翻译，展示了该方法在模态差异上的优越性和
PDF5 months ago
ICLR连接，塌陷，腐败：利用单模态数据学习跨模态任务
利用预训练的多模态对比表示空间可以从单模态数据中学习跨模态任务，我们提供了这个空间几何的理论解释，并引入了一个三步方法（连接、降维、破坏）来缩小模态差距，增强嵌入的互换性，实现了从单模态数据中有效地进行跨模态学习，取得了零样本图像 / 音频
PDF6 months ago
基于 CLIP 的可见光 - 红外人员再识别的语义发现网络
可见 - 红外人员再识别（VIReID）主要处理来自不同模态的人员图像之间的身份匹配，并通过融合高级语义与视觉特征来弥合模态差距。我们提出了一个基于 CLIP 的语义发现网络（CSDN），通过多模态学习的文本标记和集成文本特征来嵌入丰富的高
PDF6 months ago
AAAI通过仅文本训练挖掘细粒度的图像 - 文本对齐用于零样本字幕生成
通过减少视觉和文本之间的模态差异，我们提出了一种零摄影机图片字幕框架，通过仅使用文本进行训练和引入局部图像区域特征聚合、噪声注入和 CLIP 排序策略来提高字幕性能，并证明其在 MSCOCO、Flickr30k 和 VQAV2 等数据集上具
PDF6 months ago
AAAI通过合成对的方法改善文本式图像描述的跨模态对齐
本研究提出了一种新方法，通过结合合成的图像文本对来解决图像标注中存在的跨模态对齐问题。通过使用预训练的文本到图像模型生成图像，并优化合成图像在 CLIP 嵌入空间中的伪特征以接近真实图像特征，同时利用图像中的显著对象来增强模态对齐的学习。实
PDF7 months ago
CLIP 的零射类别视觉分类的内部模态代理学习
通过使用文本数据的代理标签帮助直接学习图像数据的代理标签，并利用相应的分析方法进一步提炼这些标签，以改善视觉任务中的零 - shot 分类准确率。
PDF8 months ago
ProtoHPE: 基于原型引导的高频补丁增强可见 - 红外人员再识别
利用高频组件跨模态实现可见 - 红外人员重新识别。
PDF9 months ago
I2SRM: 跨样本关系建模用于多模态信息提取
该论文介绍了用于多模态信息提取的 Intra- and Inter-Sample Relationship Modeling (I2SRM) 方法，其中包含两个模块：内部样本关系建模模块和样本之间关系建模模块。通过在单个样本上操作来学习有效
PDF9 months ago
基于文本 - only 训练实现的弱监督自动音频字幕生成
近年来，通过对成对音频和字幕进行数据集的研究，自动生成音频剪辑的描述取得了显著的成功，即自动音频字幕生成（AAC）。然而，收集足够数量的配对音频和字幕的工作需要大量人力和时间。受到对比语言音频预训练（CLAP）最新进展的启发，我们提出了一种
PDF9 months ago