multimodal pre-training | BriefGPT

关键词multimodal pre-training

搜索结果 - 18

MGI: 基因组和医学影像的多模态对比预训练
提出了一种多模态预训练框架，通过整合基因组学和医学图像数据，在肿瘤分割任务中优于相关方法。
PDFa month ago
CVPR计算病理学中的基于转录组学指导的幻灯片表示学习
使用自监督学习和基因表达谱进行多模态预训练，Tangle 可以在组织学图像中构建幻灯片嵌入，并且在性能上优于有监督和无监督基线模型。
PDFa month ago
HiVG: 视觉引导的分层多模态细粒度调控
通过多模态预训练的方法，我们提出了一个简洁高效的分层多模态细粒度调制框架 HiVG，用于解决通过自然语言对视觉区域进行视觉定位的任务，并且在五个数据集上的实验证明了该方法的有效性和显著的视觉定位能力及能源效率优势。
PDF2 months ago
ACLALOHa: 一种新的用于字幕模型中幻觉的评测指标
尽管现在的先进多模态预训练模型能产生图像的描述，但仍存在错误的描述，如对场景中不存在的物体的错误描绘。本文提出了一种现代化的开放词汇度量标准 ALOHa，它利用大型语言模型 (LLMs) 来衡量物体的虚构情况。我们通过使用 LLM 从候选描
PDF3 months ago
根据要求进行设计：利用视觉问答进行多模态预训练
我们利用多模态预训练中的视觉问题回答（VQA）指导框架，聚焦目标病理特征，通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对，并提出了一种基于准文本特征变换的新型预训练框架，将视觉特征转化为接近文本领域的准文本空间，缩小了视觉
PDF3 months ago
GS-CLIP: 从真实世界数据进行对比度语言 - 图像 - 3D 预训练的高斯飞溅
提出 GS-CLIP 方法将 3D 高斯粒化引入多模态预训练，以增强 3D 表示，并通过预训练的视觉 - 语言模型和 3D 编码器对 3D 高斯粒化进行优化，实现全局显式特征的提取和融合。实验证明，GS-CLIP 显著提高了最新研究成果，超
PDF5 months ago
MLIP：利用分歧编码器和知识引导的对比学习增强医学视觉表达
提出了一种利用领域特定的医学知识作为引导信号，在医学视觉表示中将语言信息整合到视觉领域的 MLIP 框架，通过图像 - 文本对比学习来改善模型在不同粒度上的泛化性能。实验证实，即使在有限的标注数据情况下，MLIP 也胜过最先进的方法，凸显了
PDF5 months ago
ICCVFLIP: 跨领域人脸反欺骗技术与语言引导
通过使用多模态预训练与自然语言语义对齐图像表示以改善面部反欺骗任务的泛化能力，进一步利用多模态对比学习策略弥合源域与目标域之间的差距，实现鲁棒的跨领域面部反欺骗。
PDF9 months ago
ULIP-2: 面向可伸缩的多模态 3D 预训练
ULIP-2 是一个用于 3D 表示学习的多模态预训练框架，它创建了包含图像、语言和 3D 点云的三模态三元组数据集，拥有更强的可扩展性和综合性，并利用大型语言模型自动生成全面的 3D 对象语言描述来提高多模态预训练的效果，并在 Model
PDFa year ago
基于图文自监督训练的多模态预训练模型泛化算法
本研究提出了一种多模态预训练泛化算法，有效克服了神经机器翻译中缺乏视觉信息和准确性等难题，通过搜索引擎从现有句子中寻找多张图片，通过视觉信息与文本的关系完成图文自监督训练任务，得到更加有效的视觉信息，并证明基于该算法的翻译效果比基线模型高出
PDFa year ago
MMGA：基于图形对齐的多模式学习
本文提出了一个新的多模态预训练框架 MMGA，它能在社交媒体上整合图形、图像和文本模态的信息来增强用户表示学习。通过多步骤的图形对齐机制，将自监督信息注入到图像和文本编码器的优化中，同时使用图像和文本模态的信息来指导图形编码器学习。实验结果
PDF2 years ago
EMNLPHate-CLIPper：基于 CLIP 特征交叉模态交互的多模式仇恨恶搞分类
本研究提出 Hate-CLIPper 架构，利用对比语言 - 图像预训练 CLIP 编码器生成的图像和文本表示通过特征交互矩阵（FIM）显式建模图像和文本之间的跨模态交互，并采用简单分类器在 Hateful Memes 挑战数据集上实现了
PDF2 years ago
AAAI极低资源并行数据下的自监督音频文本预训练
本文旨在探讨在极低的跨模态数据情况下，通过利用单模态数据和翻译噪声特征进行训练，达到音频 - 文本模态的预训练效果，并证明本方法在很多语言上的表现与全并行语音 - 文本预训练数据相当。
PDF2 years ago
ACL具有提示的模块化和参数高效的多模态融合
本文提出使用提示向量来对齐模态，从而实现在低资源情况下，与其他多模态融合方法相当的性能，并且进一步表明这种方法对处理包含两种或两种以上数据模态的任务是模块化和参数高效的。
PDF2 years ago
ACLMarkupLM: 面向富媒体文档理解的文本和标记语言预训练
本研究论文探讨了一种名为 MarkupLM 的预训练模型，它能够对 HTML/XML 等标记语言的文档进行理解和分析，相比现有的基于布局的预训练方法，在布局可交互和动态渲染的数字文档中有着更好的性能表现。实验证明，该预训练模型在多个文档理解
PDF3 years ago
LayoutXLM: 多模态预训练用于多语种视觉丰富文档理解
本文提出了一种基于 LayoutXLM 的多模态预训练模型，用于多语言文档理解，并在名为 XFUND 的多语言表单理解基准数据集上进行了验证，结果表明 LayoutXLM 模型在跨语言预训练方面优于现有的 SOTA 模型。
PDF3 years ago
ACLLightningDOT：用于实时图像文本检索的视觉 - 语义嵌入的预训练
本文提出了一种名为 LightningDOT 的方法，通过三个新颖的学习目标进行预训练，在不损失准确性的情况下通过去除跨模态注意力实现图像文本检索的加速，有效提高了检索速度，其中 LightningDOT 在多个检索基准测试中均取得了新的最
PDF3 years ago
ECCV幕后揭秘：揭示预训练视觉语言模型的秘密
该论文研究了使用 Transformer 模型的大规模预训练模型在图像与语言（V+L）方面的应用，通过评估和探索内部机制，提供了关于多模式预训练及其注意力头的启示和指导。
PDF4 years ago