- 医学表征学习的视觉 - 语言对比方法的基准评估
我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的 - 放射学中的医学图像自由形式问答
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了 SLAKE 数据集, - 提升图像 - 文本预训练中的细粒度理解
我们介绍 SPARC (SPARse Fine-grained Contrastive Alignment),这是一种从图像 - 文本对中预训练更细粒度多模态表示的简单方法。SPARC 结合了精细化的序列损失和对全局图像和文本嵌入进行对比的 - 音频文本分类的级联交叉模态 Transformer
利用多模态表示,通过自动语音识别模型转录语音并通过预训练翻译模型将转录文本翻译成不同语言,结合文本和音频特征使用级联交叉模态变压器 (CCMT) 模型来实现语音分类任务,该模型在 ACM Multimedia 2023 计算语音学挑战中获得 - 提升多模态情感分析:基于受监督的角度边界对比学习的增强融合表征
通过引入一种名为监督角度对比学习的框架,以增强多模态表示的区分性和泛化性,克服了融合向量中的模态偏差,实验结果和对两个广泛使用数据集的可视化结果表明了我们的方法的有效性。
- 具有稳健遗忘机制的生命周期音视频屏蔽自编码器与局部对齐
我们提出了一种终身音视频遮罩自编码器,它能够在分布随时间不断变化的视频流中持续学习多模态表示。具体而言,我们提出了两个创新点来解决这个问题:(1)局部对齐:我们引入了一个小型可训练的多模态编码器,用于预测彼此相互对齐的音频和视频令牌。这使得 - 音频视频领域的对比学习探索
通过对音频和视频模态的对比学习,研究表明预训练网络在音乐视频的标签和流派分类任务上优于对比学习方法,通过定性分析了解对比学习在音乐视频中的困难并提出未来工作的可能方向。
- MultiZoo 和 MultiBench:多模态深度学习的标准化工具包
MultiZoo 和 MultiBench 提供了一个自动化的机器学习流水线,能够简化和标准化数据加载、实验设置和模型评估,这些对于研究者们了解多模态模型的能力和局限性是很有帮助的。
- 利用图像 - 语言基础模型识别人脑中共同可解码的概念
本研究介绍了一种基于高质量预训练多模态表示利用功能磁共振成像技术探索人类大脑微观语义网络的方法,并描述了该方法在检测面孔、身体和空间等重要语义概念的表现及其在个体参与者中的应用。
- 多模态预训练中视觉关系的弱监督学习
本文研究了使用小规模可视关系数据的预训练方法,包括使用场景图将可视关系三元组转换为结构化说明,以及使用掩模关系预测进一步鼓励从可视上下文中关联实体,并且证明了这些方法从弱监督关系数据中学习多模态表示的有效性。
- IJCAI跨模态全局交互与局部对齐的视听语音识别
本文提出了一种跨模态全局交互和局部对齐 (GILA) 方法,从全局和局部角度捕捉音频 - 视觉 (A-V) 间的深层相关性,用于改善音频 - 视觉语音识别中的多模态表示,实验结果表明我们的方法优于现有的有监督学习方法。
- 视觉语言预训练的改进基线
本文中,我们提出了一些基线模型,将对比学习与最近的自监督学习进展相结合,用于生成多模态表示。除了使用对比性损失,我们还使用了已被证明对视觉自监督学习成功的损失函数来对齐图像和文本模态。而使用更有效的数据增广技术可以提高模型性能,使我们在四个 - CoCa: 对比式字幕生成模型是图像文本基础模型
本文介绍了一种名为 CoCa 的对比式注解器,它使图像和文本的编码器和解码器能够预先训练。与标准的编码器 - 解码器变压器不同的是,在解码器的前半段中省略跨关注,以编码单模态文本表示形式,并级联其余解码器层,以便对图像编码器进行跨模态图像文 - MMMARMOT:一个用于构建视觉 - 语言任务的多模态表征的深度学习框架
本篇论文提出一种名为 MARMOT 的多模态视觉语言框架,该框架依靠模态转换构造了观测缺少图像或文本的表征,并在具有选举事件的推文多标签分类方面,在 19 个分类中优于仅使用文本的分类器。
- ROSITA: 通过跨模态和内部模态知识整合提升视觉语言语义对齐
ROSITA 是一种新的 VLP 方法,其通过将跨模态和内在知识整合到一个统一的场景图中来增强语义对齐,具体地,它引入了一种结构知识掩蔽策略来使用场景图结构作为支持性先验知识来执行掩蔽语言(区域)建模,从而通过消除在跨模态和内部信息中的干扰 - MultiBench: 多模态表示学习的多尺度基准
MultiBench 是一个系统性和统一化的基准测试,跨越 15 个数据集,10 种模态,20 种预测任务和 6 个研究领域。MultiBench 提供自动化的端到端机器学习流程,简化和标准化数据加载,实验设置和模型评估。随着大量的实践证明 - VATT:用于原始视频、音频和文本的多模态自监督学习的 Transformer 模型
我们提出了一种使用无标签数据学习多模态表示的框架,利用无卷积的 Transformer 架构。通过使用多模态对比损失训练 Video-Audio-Text Transformer (VATT),我们从三个模态中提取丰富的多模态表示,并在视频 - CVPR跨模态检索中的持续学习
本文提出了一个结合多模态学习嵌入与持续学习的框架,研究了新任务导致了的困扰与不同因素造成的遗忘,发现索引阶段对任务效果有显著影响,并提出缓解遗忘的工具。在两个图像 - 文本检索数据集中证明了我们的方法的显著提高。
- UC2: 通用跨语言跨模态视觉语言预训练
UC2 是第一个基于机器翻译增强的框架,用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集,通过机器翻译引入了其他语言的图像标题,然后将标准的 Masked Language Modeling 和 Image-Text Matchi - AAAI利用文档级结构信息进行图像 - 句子匹配的无监督采样方法
本文提出了一种基于 Transformer 模型的采样策略,用于减轻采样偏差以及识别文档内部的复杂模式,并实验验证了模型的有效性,从而实现了无监督图像 - 句子匹配。