cross-modal tasks | BriefGPT

关键词cross-modal tasks

搜索结果 - 6

Zipper：融合多模式的多塔解码器架构
使用跨注意力机制灵活地组合独立预训练的单模态解码器，提出了一个称为 Zipper 的多塔解码器架构，解决了整合不同模态训练的多个生成基础模型的挑战。在融合语音和文本模态的实验中，我们展示了该架构在具有有限对齐文本 - 语音数据的场景中表现出
PDFa month ago
CVPR正向增量对比学习在图像和视频字幕评估中的应用
提出了基于对比学习的图像标注评估指标 PAC-S，使用生成的图像和文本进一步统一了对比视觉 - 语义空间的学习，实验中表现最好，超过了 CIDEr、SPICE 和 CLIP-Score 等其他指标。
PDFa year ago
一种分子多模基础模型，将分子图与自然语言相关联
通过对分子的图形和语义相关文本数据进行对比学习，我们提出了一个分子多模态基础模型，该模型结合了图形和自然语言的特定和互补信息，更好地抓住了分子的专业知识以及具备了从自然语言描述中生成有意义的分子图形的能力。
PDF2 years ago
ACLUNIMO-2: 端到端的统一视觉语言基础学习
本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架，采用 “基础学习” 方案，成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。
PDF2 years ago
ICMLOFA: 通过一个简单的序列到序列学习框架统一架构、任务和模态
本文提出一种支持任务综合性的任务不可知和模态不可知框架 OFA，用于统一多模态预训练。OFA 在仅使用 2000 万个公开可用的图像 - 文本对进行预训练情况下，在一系列交叉模态任务上实现了新的 SOTAs，并在单模态任务上取得了高竞争性能
PDF2 years ago
AAAI通过场景图增强知识的视觉 - 语言表示：ERNIE-ViL
ERNIE-ViL 是一种以结构化场景图中的知识为基础的知识增强方法，通过构建预测任务，即物体预测、属性预测和关系预测任务，学习视觉 - 语言的联合表征，能在多种跨模态下游任务中取得最先进的表现。
PDF4 years ago