- 通过语音文本对齐提升多语言语音有害性检测
利用跨模态学习将文本的语义嵌入集成到多标签语音毒性分类器中,该分类器仅在训练期间需要文本信息,推理时仅需要音频信息,并通过大规模数据集在真实环境下验证了此框架的有效性,同时通过消融研究证明了通用语义文本嵌入对于毒性分类目的的丰富性和与语音的 - CVPRAVFF:音视特征融合用于视频深度伪造检测
通过跨模态学习方法的视听特征融合,我们提出了一种用于改进深假检测的两阶段方法,可以明确地捕捉音频和视觉模态之间的对应关系,并在真实和伪造视频上进行监督学习,取得了 98.6% 的准确率和 99.1% 的 AUC,相较于当前的音视混合最先进技 - 多模态元学习中使用条件批量归一化的辅助任务调节的限制
多模态元学习中,通过语言表示来指导视觉学习的多模态架构被提出,但在两个流行的少样本分类基准上验证后发现改进效果不稳定且主要取决于桥连接网络的计算和参数引入。
- NeRAF:三维场景中嵌入的神经辐射和声场
NeRAF 是一种同时学习声音和辐射场的方法,用于实现逼真的视听生成,通过 3D 场景信息将声学场与辐射场联系起来。在 SoundSpaces 数据集上,NeRAF 相比之前的方法在性能上有显著的改进,并且具有更高的数据效率,同时通过跨模态 - CoLeaF: 一个对比 - 协同学习框架,用于弱监督音频 - 视觉视频解析
通过使用 CoLeaF,一种新的学习框架,提高了弱监督音频 - 视觉视频解析的性能,通过在嵌入空间中优化跨模态上下文的集成,对于可听 - 可见事件,网络能够明确学习将跨模态信息结合起来,而对于不一致的事件进行过滤。
- 考虑 Wasserstein 图匹配的半监督图像描述
我们提出了一种考虑 Wasserstein 图匹配的半监督图像描述方法,该方法通过采用原始图像输入来进行生成的句子的监督学习,利用场景图作为中间信息来约束生成的句子,同时结合交叉模态伪监督和结构不变度量,以更有效地使用未描述的图像并学习更合 - 通过高效的跨模态扩散模型实现密集准确的雷达感知
本文提出了一种通过交叉模态学习实现密集准确的毫米波雷达点云构建的新方法,并通过广泛的基准比较和实际实验验证了其优越性能和泛化能力。
- 可靠的时空体素用于多模态测试时适应
提出了一种多模态测试时间适应(MM-TTA)方法,通过在线利用互补的多模态输入对未标记的目标领域进行模型适应。提出的 Latte 方法利用可靠的跨模态时空对应关系实现了多模态三维分割,并在空间和时间邻域中寻找可靠和一致的预测进行交叉模态学习 - 通过无需训练的码书优化和分层对齐发掘多模态统一离散表示的潜能
最近的表征学习进展展示了多模态对齐的重要性。我们提出了一种无需重新训练的代码本优化方法(TOC)来提高模型性能,并引入了分层双交叉模态信息分解(H-DCID)方法来扩展信息分离和对齐到两个级别,进一步增强准确的多模态学习。
- 指令引导的场景文本识别
多模型,场景文本识别,指导学习,跨模态学习,文本识别问题。
- 瓶颈模型中的跨模式概念化
通过跨模态学习方法,我们在训练中使用文本描述来指导概念的引入,以产生可解释的概念,提高模型的健壮性。
- ICCVBEV-DG: 基于鸟瞰图的跨模态学习用于 3D 语义分割领域泛化
跨模态无监督领域自适应旨在利用二维 - 三维数据的互补性来克服新领域中缺乏注解的问题。本研究提出了基于鸟瞰图的跨模态学习方法,用于三维语义分割的领域泛化。通过鸟瞰图下的交叉模态学习,优化了与领域无关的表示建模,同时提出了鸟瞰图驱动的领域对比 - ICML健康时间序列的多模态自监督学习中的潜变量屏蔽
我们引入了一种名为 Cross-modal SSL (CroSSL) 的方法,该方法在处理健康数据中的多模态学习中通过遮蔽中间嵌入和使用跨模态聚合器进行全局嵌入来实现缺失模态的处理和端到端学习,不需要预处理或耗时的负样本抽样,并在多种多模态 - 艺术生成的扩散式创意探索
利用最新的扩散模型生成创意艺术,通过将文本文档与粗略草图作为辅助信息进行模型训练,取得了令人满意的实验结果。
- 基于维度结构的跨模态学习知识蒸馏方法
本论文提出一种基于知识蒸馏的跨模态学习方法,通过探索任务间相关性,将潜在的 “暗知识” 迁移到易学习任务中,有效提高模型准确性并应用于现实世界数据集的实验验证。
- 一种新的多模态命名实体识别框架,具有多级对齐
本文针对 Tweet 这类多模态数据,提出一种能够动态对齐图像和文本顺序,实现多级跨模态学习,以提高命名实体识别(MNER)的文本表示的新方法。实验结果及详细分析表明了模型的优势。
- 使用 CLIP 引导的视觉文本注意力进行视频问答
本文提出了一种利用 Contrastive Language-Image Pre-training(CLIP)作为跨模态学习指导的 Visual-Text Attention 机制来应用于视频问答任务。在特定领域中提取视频和文本特征后,利用 - Hidden Gems: 使用跨模态监督的 4D 雷达场景流学习
本研究提出了一种新颖的 4D 雷达基于场景流估计的跨模态学习方法,并使用多任务模型体系结构和损失函数,来通过多重跨模态约束有效地进行模型训练,结果表明其在场景流估计上具有良好的表现和实用性。
- 音乐对比语音学习
本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方 - Zero and R2D2: 一个大规模的中文跨模态基准和视觉语言框架
该研究报告介绍了一个面向中文语料库的大规模高质量跨模态基准(ZERO),该基准包含了最大的公共预训练数据集 ZERO-Corpus 和用于下游任务的五个人工注释微调数据集,并且提出了一个基于预排序和排序机制的 VLP 框架(R2D2),该框