multimodal encoder | BriefGPT

关键词multimodal encoder

搜索结果 - 7

对齐之后融合：通过多模态编码器来提高人脸 - 声音相关性学习
利用对比学习和二分类问题，通过多模态编码器学习内嵌信息，引入有效的配对选择方法，提高语音 - 面部关联的匹配、验证和检索任务的学习结果。
PDF3 months ago
MPE4G：用于共语手势生成的多模态预训练编码器
本文提出了一种基于多模态预训练编码器的共话手势生成方法，该方法通过自监督学习训练基于多头注意力的编码器以包含每种模态的信息，从而实现即使在输入模态缺失或存在噪声时，仍能生成逼真的共话手势。
PDFa year ago
ACL思考与观察的结合用于基于外部知识的视觉问答
本文提出一种包含多模态编码器、文本编码器和答案解码器的新型框架，将跨模态空间约束到自然语言空间中，使得视觉特征直接保留在其中，并且从自然语言空间中获得更多的类型知识，实验证明其在多数情况下表现优异。
PDFa year ago
LAVENDER: 统一视频 - 语言理解作为遮蔽语言建模
本文提出了一种名为 LAVENDER 的统一的视觉 - 语言框架，它使用遮蔽语言建模作为所有预训练及下游任务的共同接口，从而实现了简化的模型架构，并在 14 个视频 - 语言基准测试中取得了竞争力的表现。
PDF2 years ago
ECCV使用自然语言引导的开放域图像生成和编辑
使用多模态编码器指导图像生成的新方法，避免了使用昂贵和经过特殊训练的模型，能够从复杂的语义文本提示中生成高质量的图像，并且能够比 DALL-E [38]，GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视
PDF2 years ago
在融合之前对齐：使用动量蒸馏进行视觉和语言表示学习
本研究介绍了一种名为 ALBEF 的对齐图像和文本表示的方法，该方法利用交叉模态注意力通过对比损失对齐视觉和语言特征，以实现更可靠的视觉和语言表征学习。研究表明，该方法在多种下游视觉语言任务上实现了最好的性能。
PDF3 years ago
深度多模态子空间聚类网络
本文提出了一种基于卷积神经网络的无监督多模态子空间聚类方法，包括三个主要阶段：多模态编码器、自表示层和多模态解码器。对于空间融合，探究了早期、中期和晚期融合技术，并提出了三种相应的编码器。在三个数据集上进行了广泛的实验，结果表明这些方法明显
PDF6 years ago