- 足球中的行为识别、定位和时空定位综述 -- 当前趋势与研究视角
足球动作场景理解任务具有挑战性,本文综述了该任务的行为识别、定位和时空动作定位,特别关注了使用的模态和多模态方法,并评估模型性能的可公开获取数据源和度量标准。文章回顾了利用深度学习技术和传统方法的最新状态,重点介绍了多模态方法,这些方法整合 - 通过细粒度模态估值增强多模态合作
多模态学习模型的主题之一是将来自不同模态的异构信息进行联合整合,然而,大多数模型在多模态协同方面存在不足,不能很好地利用所有模态信息,因此,合理观察和改进模态之间的细粒度协同至关重要,特别是在面对现实场景时,模态差异可能在不同样本间有所变化 - RBA-GCN: 情绪识别的关系双层聚合图卷积网络
通过构建新颖的图形及聚类方法,以及利用双层聚合模型捕获多模态相互作用和长程信息,提出一种提高情绪识别在对话中性能的新方法,该方法在多个数据集上相较于最先进的方法,F1 分数有 2.17%~5.21%的提升。
- 深度网络解释性非监督多模态图像配准
磁共振成像(MRI)的临床决策制定结合了多个 MRI 序列(定义为 “模态”)的补充信息。MRI 图像配准旨在几何地 “匹配” 来自不同模态、时间点和切片的诊断。无监督的多模态和多器官图像配准深度学习方法中,我们将基于 Grad-CAM 的 - 逻辑、语言和计算接口的次结构逻辑处理方式
对于传统逻辑中被视为理所当然的隐含结构规则提出质疑后,次结构逻辑催生了新的推理形式,并在许多跨学科领域中应用。在次结构设定中,情态提供了控制和优化逻辑资源管理的工具。本研讨会的重点是应用于 ESSLLI 社区兴趣领域的相关主题,特别是逻辑方 - 图像、视频、音频和语言任务的统一模型
通过 UnIVAL 统一模型,可以有效地支持图像、文本、视频和音频等多种模态任务,并通过模型权重插值实现多模态模型融合,展示其在特定领域的分布外泛化能力。
- 元转换器:多模态学习的统一框架
通过使用冻结的编码器以及共享的令牌空间,Meta-Transformer 提出了一个框架,可以在 12 种不同的模态间进行统一学习,并处理多种任务,展现了转换器在发展统一多模态智能方面的潜力。
- 以自我为中心的情景下的具体知识和抽象知识
在逻辑系统中,通过引入两种不同的模式可以捕捉个体知识和逻辑意义的知识,并证明这两种模式不能通过彼此来定义。
- 释放文本的想象力:通过探索文字的力量实现文本到图像的人员检索的新框架
提出了一种用于文本到图像人物检索的新框架,旨在充分发掘句子中的词语力量。通过使用预训练的全 CLIP 模型作为图像和文本的双编码器,以及引入文本引导的图像恢复辅助任务和针对难样本的交叉模态三元组损失,该方法在三个流行的基准数据集上取得了最先 - 阅读,观察还是听取?解决多模态数据集所需的元素
通过利用少量人工注释,我们提出了一种两步方法来分析多模态数据集,为了在处理数据集时将每个多模态实例映射到所需的模态。我们在 TVQA 视频问答数据集上应用了我们的方法,并发现大多数问题可以用单一模态回答,而且没有对任何特定模态存在实质性偏见 - SIGIR挖掘稳定偏好:多媒体推荐的自适应模态解耦
该研究提出了一种 MODEST(MOdality DEcorrelating STable)学习框架,采用基于核的独立性检验测量方式,以学习用户对多媒体内容中不同模态的偏好,提高多媒体推荐性能。
- 多模态融合交互:人工智能量化的研究
研究了如何通过人工注释对多模态交互进行分类,提出了信息分解方法,比较了部分标签和反事实标签的机会和限制,并提出了一种自动转换方法以量化多模态数据集中的交互
- 在统一的视觉模态上将扩散概率场扩展至高分辨率
提出了一种新的模型,该模型结合了以视图为基础的采样算法和额外的指导信息,例如文本描述,用于细节结构学习,使得模型能够扩展到高分辨率数据,统一多种模态下的视觉内容生成。实验结果证明了模型的有效性,以及其作为可伸缩性模态统一视觉内容生成的基础框 - CVPRImageBind: 一个绑定所有嵌入空间的嵌入空间
ImageBind 是一种学习跨六种不同类型数据(图像、文本、音频、深度、热成像和 IMU 数据)联合嵌入的方法,只需使用图像数据对它们进行绑定。它能够实现跨模态检索、跨模态检测和生成等新颖的应用,而且表现出强大的零样本和有限样本识别能力, - FM-ViT:面部反欺诈的灵活模态视觉变压器
本文提出了一种基于 Transformer 的框架,名为 Flexible Modal Vision Transformer (FM-ViT),用于面部防欺骗,以灵活地针对任何单模态攻击情景和可用的多模态数据。实验结果表明,单个基于 FM- - 多模态学习中的鲁棒性
本文提出了一个多模态鲁棒性框架,以系统分析常见的多模态表示学习方法,并针对其中的鲁棒性缺陷提出了两种干预技术,能够在三个数据集上提高 1.5-4 倍的鲁棒性。同时,通过在可能存在的额外模态上更好地利用这些干预技术,本文的算法在 AudioS - 基于混合注意力的 RGB-T 跟踪
本文提出了一种基于混合注意机制的 RGB-T 追踪器 (MACFT),该追踪器在特征提取和特征融合阶段分别利用不同的转换器骨干支路和混合注意操作实现多模式适应性融合,有效提高了 RGB-T 追踪的鲁棒性和适用性。
- 使用语言增强 Transformer 编码器和医学提示进行医疗干预时间估计
提出了一种语言增强的基于转换器的框架,用于在连续、分类、二进制和自由文本功能之间进行信息集成,以更准确地估计医学干预的持续时间,并在 US 和 Asian 的数据集上证明了其有效性。
- 扩展放射学报告摘要的范围,适用于多种解剖学和模式
通过提出包含六种不同模态和解剖的基于 MIMIC-III 数据库的数据集,我们提出了一个新的简报总结系统,其胜过现有数据集上的以前可重现的研究。
- 你有哪些能力?-- 真值集合代数
本文通过引入新的 “真值集合代数” 技术,研究了在不完全信息设置中表示四种不同类型的多步策略的模态之间的相互作用,并通过组合其他三个模态,证明了四个模态的不可定义性。