- PEg TRAnsfer Workflow recognition challenge 报告:多模数据是否能提高识别效果?
本文介绍了基于视频、运动学和分割数据之一或几种模态的外科手术工作流识别方法的设计和结果,并提供了公共数据集以鼓励进一步的研究。
- Learn2Reg:深度学习时代全面多任务医学图像配准的挑战、数据集和评估
本文描述了 Learn2Reg 挑战赛的数据集,任务,评估方法和结果,以及结果的进一步分析。同时,该研究也揭示出许多提高医学图像配准表现的方法,从而推动了该领域的发展。
- Uni-Perceiver: 通用感知的预训练统一架构,用于零样本和小样本任务
使用 Uni-Perceiver 的通用感知架构进行多个任务和多个模态的统一建模和共享参数,在预训练和微调的阶段都表现出了可接受的结果和表现。
- THOMAS:基于多智能体采样学习的轨迹热力图输出
本文提出了 THOMAS,一个联合多代理轨迹预测框架,可以有效、一致地预测多代理多模态轨迹。 我们提出了一个统一的模型架构,用于同时代理的未来热力图估计,并利用分层和稀疏图像生成进行快速和内存有效的推断。我们报告了我们在 Interacti - COLING多模态虚假信息检测调查
本研究为现有多模式虚假信息检测技术提供了一份综述,重点关注了文本、图像、语音、视频、社交媒体网络结构和时间信息等多种组合形式,并探讨了未来研究的方向和挑战,同时提出需要在相同框架内考虑虚假信息的真实性和危害程度。
- AAAI知谁的认识逻辑
本文定义了使用 Grove-Halpern 语义名称的模态 “知道谁”,并引入了描述模态 “知道谁”、“知道” 和 “所有代理” 的相互作用的逻辑系统。该系统的主要技术成果是提出了一条完整性定理。
- 通过最大化函数熵进行正则化以消除多模态分类器中的偏差
本研究提出了一种新的基于功能熵的正则化项,以平衡每种模态对分类结果的贡献,并在多个数据集上取得了最先进的结果。
- CVPR语音描述图像和视频的转录增强联合嵌入
本研究提出了一种有效的方法,通过结合图像、口头和文本叙述三种同时模态的特征来训练唯一的嵌入表示,实验证明加入人工生成的文本转录可以提升训练程序,在任务如图像和语音的检索中取得了更好的嵌入表示的性能。
- 跨模态知识蒸馏用于动作识别
研究如何将针对 RGB 视频训练的行动识别网络适应于识别 3D 人体姿势序列这样的另一个模态,提出了一种基于互相学习的小型学生网络集成和交叉模态知识蒸馏的方法,使得几乎达到了使用完全监督训练的学生网络的精度。
- ACL多模态图文导航中的视觉语言联系
研究通过不同的模态,将指示性的语言指令用于虚拟环境导航中,发现使用不同模态对于所使用的 VLN 模型产生不同的影响,并提出使用专家模型集成不同模态信息以提高模型性能。
- WWW图像隐私预测的动态深度多模态融合
提出了一种融合来自卷积神经网络的对象、场景上下文和图像标签模态的方法,以准确预测在线分享图像的隐私。该方法可以识别出最有竞争力的模态,并预测目标图像的隐私标签。实验结果证明,该方法比单一模态和先前的隐私预测模型更准确地预测了敏感(或私密)内 - ACL通过一致解读语言特征来检测认知损伤
本文提出了一种基于模态协商的 Consensus Networks (CNs) 框架作为另一种方法,用于检测各种认知障碍,通过神经网络提高检测准确性,并通过实验验证了该框架的有效性,表明了该框架的良好可扩展性和可迁移性。
- 生成对抗网络用于 MR-CT 可变形图像配准
本研究通过用 cycle-GAN 学习两个模态之间的强度关系,改善了 CT 和 MR 图像的配准问题,并探讨了使用 cycle-GAN 合成的图像减少空间信息对模式对位的影响。
- IJCAIMEGAN: 多模态图像生成的混合专家生成对抗网络
我们提出一种混合专家 GAN (MEGAN)方法,它使用多个生成器网络进行集成学习,并通过门控网络在不同条件下选择适当的网络,以生成具有特定子集的模式的图像。我们证明各自利用数据的不同部分,达到较高的多尺度结构相似性分数和竞争性的无监督内在 - 多模态情况下的抑郁症严重程度估计
本文利用面部特征提取技术,通过多种视听方式设计自动检测方法,获取心理学标准 PHQ-8 测试结果,性能表现最佳的为面部特征提取,平均绝对误差为 4.66,语言特征稍高,为 5.17,而从音频记录中提取的 Turn Features 在测试集 - 跨模态蒸馏用于监督迁移
本研究提出了一个转移不同模态之间图像监督的技术,使用来自有标签模态的表示作为监督信号,训练适用于新的未标注配对模态的表示,实现了对未标注模态的丰富表示的学习,可用作具有有限标记数据的新模态的预训练过程
- 联合强度深度稀疏表示学习
本文提出了一种利用两种模态描述三维场景,通过锥形编程找到关联稀疏特征并将其整合到两步字典学习算法中,可恢复具有相同稀疏潜在原因(三维特征)的不同信号(强度和深度),相比最先进的 Group Lasso 算法,JBP 优越很多。同时,该学习算 - KLM 非单调推理的分析表格演算
介绍一些关于非单调推理的逻辑的表格演算,其中包括了 Kraus, Lehmann 和 Magidor 定义的优先、循环累积、累积和理性逻辑,并为所有的 KLM 逻辑给出了一个演算法。这些演算法包括了适当的模态来解释条件语句,为所研究的逻辑提