- MCAD:多模态条件对抗扩散模型用于高质量 PET 图像重建
提出一种新的多模态条件对抗扩散模型(MCAD),从多模态输入(包括低剂量正电子发射计算机断层摄影图像和临床表格)中重建标准剂量正电子发射计算机断层摄影图像,通过多模态条件编码器(Mc-Encoder)、有噪声与多模态特征融合的条件扩散过程以 - CVPR释放网络潜力以实现语义场景补全
该研究提出了一种新的语义场景补全框架 - 对抗模态调制网络 (AMMNet),通过优化梯度更新的方法,解决了单模态特征学习效果不佳和过拟合于有限数据集的两个问题,实验证明 AMMNet 在效果和泛化能力上明显优于最先进的语义场景补全方法。
- 使用合成训练生成模型进行文化艺术品的一对多三维几何重建
使用单张草图图像自动生成详细的三维表示,通过多模态输入进行引导,无需大量训练样本。该解决方案可供领域专家交互式地重建丢失文物可能的外观。
- 嵌入式扫描:面向身体智能的整体多模态 3D 感知套件
在计算机视觉和机器人领域,基于自身的智能体需要能够探索环境并执行人类指令,这要求其能够从第一人称观察中完全理解 3D 场景,并将其以语言的形式进行交互。本研究引入了一种名为 EmbodiedScan 的多模式、自我中心的 3D 感知数据集和 - BERT4CTR: 将预训练语言模型与非文本特征结合的高效框架用于 CTR 预测
提出一种新的 BERT4CTR 框架,利用 Uni-Attention 机制在处理多模态输入和 CTR 预测中通过降维的方式从非文本和文本特征之间获得交互信息,并在训练和推断中保持低时间成本,实验证明其在公共和商业数据上显著优于现有框架。
- BiomedGPT:一种统一和综合的生物医学生成式预训练 Transformer,可用于视觉、语言和多模态任务
本文介绍了一种统一且通用的生物医学生成式预训练转换器(BiomedGPT)模型,利用自监督方法在大量和多样化的数据集上进行训练,可接受多模式输入并执行多种下游任务,在 20 个公共数据集上表现优于先前绝大多数最先进模型,涵盖了 15 种独特 - 建立语言模型和制表理解之间的桥梁
该论文提出了 UTP 这一基于对比学习及多模态输入的数据驱动表格文本预训练方法,可用于单模态和交叉模态输入任务,有效弥合了预训练和微调阶段的输入差距并提高了表和文本的对齐精度。
- CVPRSDFusion: 多模态 3D 形状完成,重建和生成
该论文提出了一种新的框架,用于简化业余用户的 3D 资产生成。这种方法支持多种输入模态,并能够对每个输入的强度进行调整,从而允许用户同时使用不完整的形状、图像和文字描述来生成形状,并提供每个输入的相对权重和互动性。
- CVPRADAPT: 视觉语言导航中的模态对齐行动提示
本文提出了一种 Modality-Alignment Action Prompts (ADAPT) 方法,通过显式学习行动水平的模态对齐来实现对视觉环境下指令级操作的感知导航,并通过对高质量行动提示进行收集来提升对相关提示的对齐性。
- 丰富的语义改善少样本学习
利用少量的『类别级别』的语言描述,结合视觉特征分形成一个瓶颈视觉特征 (混合原型) 并建立一种 Transformer 机制,以编码这两种形式的丰富语义,并且经过多个数据集的实验证明,该算法能有效提升 few-shot learning 的 - 面部图像生成和操作的开放式文本引导实现
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
- 视频中的时间句子定位:数据集和度量的深入探讨
本文主要研究 Temporal Sentence Grounding in Videos,在现有的评估协议中,重新组织两个广泛使用的 TSGV 基准及引入新的评估指标 dR @ n,IoU @ m 来校准基本的 IoU 分数,进一步监控 T - ACL多模态情感识别和情感分析的多任务学习
本文介绍了一个深度多任务学习框架,通过上下文级别的视听注意力机制来同时进行情感和表情分析,并在 CMU-MOSEI 数据集上达到了新的最佳性能。
- 3D-SIS: RGB-D 扫描的三维语义实例分割
本文介绍了一种新型的神经网络体系结构:3D-SIS,用于在商品 RGB-D 扫描中进行三维语义实例分割。它结合了几何和颜色信号的联合学习,从而实现了精确的实例预测。该网络利用了高分辨率 RGB 输入和多视角 RGB-D 输入,并在 3D 重 - 视觉问答最近进展综述
该论文综述了不同方法来解决视觉问答的问题,特别是描述了各种算法提取图像特征和文本特征的方法,并讨论了评估 VQA 模型的实验,并报告了它们在各种数据集上的表现。