multi-modal representation | BriefGPT

关键词multi-modal representation

搜索结果 - 13

3D VR 草图引导的 3D 形状原型制作和探索
该研究旨在探索利用虚拟现实草图作为 3D 模型生成网络的条件模态之一，通过使用多模态 3D 形状表示和实现物理合理性的方法，在模型训练过程中采用特定的损失函数以生成遵循输入草图结构的多个 3D 模型的问题。
PDFa year ago
ICMLLIV: 语言 - 图像表示和奖励在机器人控制中的应用
Language-Image Value learning (LIV) is used to pre-train a multi-modal representation for vision-language and reward lea
PDFa year ago
分子形态对比预训练用于可转移分子表示
本研究提出了 MoCoP 框架来学习分子图和细胞形态的多模态表示，并将其应用于 QSAR 模型以提高其性能。实验结果表明将细胞形态与分子图相融合能显著提高 QSAR 模型的性能。
PDFa year ago
分离关注力：具有上下文语境的无监督多物体发现
本文介绍了一种无监督学习方法，通过将视觉场景分割为独立运动区域并生成多模式表示，来实现多物体运动分割。该方法基于 Slot Attention 进行生成对抗网络设计，其优于最近的无监督多物体分割方法，同时速度快且不需要显式正则化。
PDFa year ago
级联自注意力和互注意力块的视觉问答
本文提出了一种通过视觉和文本模态的密集交互来学习改进的多模态表示的模型，其 attention block 包含自我注意力和共注意力，旨在提高视觉问题回答任务的性能。该模型在 VQA2.0 和 TDIUC 数据集上经过基准测试，并通过消融分
PDFa year ago
时尚领域的遮蔽视觉语言变压器
设计一种面向时尚领域的多模式表达模型，使用视觉转换器架构代替预训练模型 BERT，实现端到端框架，并使用遮蔽图像重构实现对时尚领域的细粒度理解。该模型没有使用额外的预处理模型（如 ResNet），能轻松推广到各种匹配和生成任务中，并得到了提
PDF2 years ago
ACL基于领域感知的自监督预训练，用于标签少的模因分析
我们提出了两种自监督预训练方法，即 Ext-PIE-Net 和 MM-SimCLR，通过采用现成的多模态仇恨言论数据和多个专门的预设任务实现了自监督学习，为模因分析提供了必要的复杂多模态表示学习，通过标签有效训练，在所有三个任务中性能优于基
PDF2 years ago
多模态片段拼接网络在广告视频编辑中的应用：基于重要性 - 连贯奖励
提出了一种名为 M-SAN 的多模式段组装网络，采用了多模式表示，并遵循具有注意机制的 Encoder-Decoder Ptr-Net 框架，以实现高效和连贯的段组装任务。在 Ads-1k 数据集上进行了实验，这是一个包含 1000 多个广
PDF2 years ago
CVPR三维视觉对接的多视图 Transformer
这篇论文提出了一种基于多视角变换器（MVT）的方法，将 3D 场景投影到多视角空间中，学习一种更为稳健的多模态表示形式，从而消除特定视角的依赖，并在实验中表现出比现有方法更好的性能。
PDF2 years ago
CVPR一次搞定 —— 用于视频检索的多模态融合 Transformer
本文提出一种基于多模态、模态无关的融合变压器方法，通过交换多个模态之间的信息并将其整合成一个联合的多模态表示，从而获得聚合多模态时态信息的嵌入，可用于零 - shot 检索和分类。我们在 HowTo100M 数据集上训练模型，并在四个具有挑
PDF3 years ago
ICCVTACo: 基于 Token 的级联对比学习，用于视频文本对齐
本文提出一种名为 Token-Aware Cascade 的算法，使用两种新技术来改进对比学习，包括考虑单词的语法类别的 token-aware 对比损失和应用级联采样方法用于有效评估多模态融合层的损失。实验证明，Token-Aware C
PDF3 years ago
利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成
本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严
PDF3 years ago
学习鲁棒的视觉 - 语义嵌入
该研究提出了一种基于无监督学习和深度神经网络的终端到终端学习框架，结合自编码器和最大均值差异损失来学习语义和视觉特征的联合嵌入，实现了跨域多模态表示的提取，并构建了更全面的标记和未标记数据的嵌入，帮助从归纳到传导的范围内解决零样本和少样本图
PDF7 years ago