modality alignment | BriefGPT

关键词modality alignment

搜索结果 - 10

CVPRMA-AVT：用于参数高效音频 - 视觉变换器的模态对齐
该论文介绍了一种新的参数高效的视听变压器 MA-AVT，采用深度模态对齐来实现对应的多模态语义特征的对齐，通过联合单模态和多模态令牌学习，引入冻结的模态共享变压器，使模型能够学习到每种模态的独立表示，并关注它们之间的跨模态关系。此外，在编码
PDF25 days ago
通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐
通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。
PDFa month ago
ViT-Lens-2: 通往全模态智能的入口
通过使用预训练的 ViT 和对齐模态，ViT-Lens-2 提供了一种有效的方法来探索新颖模态的各种新颖任务，并在各种理解任务中取得了新的最佳结果，包括零样本分类。
PDF7 months ago
u-LLaVA: 通过大型语言模型统一多模态任务
通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。
PDF8 months ago
多路适配器：为可扩展的图像 - 文本检索适应大规模多模态模型
通过引入 Multiway-Adapter 框架和 'Alignment Enhancer' 来深化多模态对齐，我们提出了一种高效的适应路径，使得大型多模态模型具备高度的可迁移性，同时实现了 57% 的微调时间缩减，并在零样本图像 - 文本
PDF10 months ago
BLSP：基于继续写作行为对齐的语音 - 文本预训练引导
通过行为对齐的方式，我们提出了一种轻量级的语言 - 语音预训练方法，将大型语言模型（LLMs）的能力扩展到语音识别、语音翻译、口语理解和对话等领域，实现了语音和文本之间的模态对齐。
PDF10 months ago
利用精细语义奖励提升文本到图像扩散模型
本文提出 FineRewards 方法，通过引入两种细粒度语义奖励 ——caption reward 和 SAM reward，从两个语义视角提升 text-to-image 中文本和图像的匹配，实现模态对齐。在使用多个奖励函数指导训练的时
PDFa year ago
G2DA: 基于几何引导的双重对齐学习用于 RGB - 红外人员再识别
提出了一种基于图匹配和最优传输计算的 RGB-IR ReID 模型，能够通过构建多尺度人体骨架图、匹配任务和信息融合等机制，确保跨模态图像的整体一致性、局部结构关联和语义特征的区分性。
PDF3 years ago
寻找声音的形状：学习声音 - 面孔关联的自适应框架
本文提出了一个基于全局和局部信息的定位框架，其中引入了全局 loss 来处理学习困难度问题，并提出了动态重新加权机制来探索较难但有价值的身份。通过配对测试，验证和检索任务的实验，表明所提方法优于以往的方法。
PDF3 years ago
基于多视角注意力网络的视觉对话
论文旨在通过提出 Multi-View Attention Network (MVAN) 模型来解决视觉对话任务中的挑战性问题，该模型基于注意机制，利用多个视角来处理异构输入，并且通过序列对齐过程构建多模态表示，从而可以更好地捕捉到对话历史
PDF4 years ago