- 上下文融合增强图像模糊鲁棒性
哺乳动物的大脑通过整合特定感官模式的脑区的信息来处理复杂推理,从而提高鲁棒性和泛化能力。我们开发了一个融合模型,结合了在 Imagenet 和 Places365 上训练的 CNN 的背景和前景特征,测试了它对人可感知变化的抵抗能力,并在 - 超越单一学习:整合多种认知方式对终身学习的重要性
多模态持续学习中,多个视角和多模态的互补信息使模型学习到更准确、更稳健的表示,显著减轻遗忘,并通过利用各个模态之间数据点的关系结构相似性,提出了一种整合和对齐不同模态信息的方法。
- 应对测试时自鸣镜视频中的缺失模态
通过测试时间自适应的方式,本研究提出了一种用于处理缺失模态的自监督在线解决方案,称为 MiDl(具有自我蒸馏的互信息)。通过最小化预测和可用模态之间的互信息,该方法鼓励模型对测试中存在的特定模态源不敏感。此外,我们还采用了自我蒸馏方法,以在 - GEOBIND:通过卫星图片绑定文本、图像和音频
远程感知中,我们关注的是对一些地理位置建模的各种方式。我们提出了一种名为 GeoBind 的深度学习模型,可以从地理位置的卫星图像中推断出文本、图像和音频等多个模态。我们的方法不需要包含所有上述模态的单个复杂数据集,而只需要多个卫星图像配对 - EMNLPWhisBERT: 亿字规模的多模式文本音频语言建模
多模态训练对语言模型的质量和效率有所改善,但在复杂目标优化和超越纯文本基线方面仍存在挑战。
- 在时间连续的多模态情感识别中容纳缺失的模态
提出了一种基于 Transformer 的架构,用于识别情绪的正性和负性,即使输入模态缺失,该模型通过交叉关注和自关注机制强调模态之间的关系,提高了对弱显著输入的学习过程,并在 Ul-TSST 数据集上实验,与后期融合基准方法相比,预测唤醒 - OmniVec:跨模态共享学习的鲁棒表示学习
学习基于任务的方法共享模态的共同之处,共同架构多任务多模态的网络,使得跨模态任务的联合训练能够实现信息共享并获得最先进的结果。
- 实体嵌入:大型语言模型朝向全模态时代的视角
大型语言模型(LLMs)正在发展,将多种模态(如文本、图像和音频)整合到统一的语言空间中。我们预见到基于此框架的未来方向,其中在文本序列中定义的概念实体也可以被想象为模态。这种表述有潜力克服当前模型的认知和计算限制。给出了几个这种潜在隐含模 - InfraParis:一个多模态多任务自动驾驶数据集
当前自动驾驶计算机视觉的深度神经网络 (DNNs) 通常只依赖于特定数据集,涉及单一类型的数据和城市场景。这些模型难以处理新对象、噪声、夜间条件和多样化场景,但这对于安全关键应用非常重要。我们介绍了一个名为 InfraParis 的新颖多任 - 基于核随机投影的离群点检测深度
本文提出了一个扩展的随机投影深度(RPD)方法来应对多模态和非凸数据云。该方法在再生核希尔伯特空间中计算 RPD。通过核主成分分析,我们期望该方法能够应对上述多模态和非凸问题。实验结果表明,所提出的方法优于 RPD,并可与现有检测模型相媲美 - 单模态和多模态连体网络在服装匹配中的效果比较
本文关注在线时尚购物推荐任务,在多个模态(文本和视觉模态)上应用连体网络以提高模型的性能。结果表明,同时使用视觉与文本数据能够取得良好的结果。
- 通过视听联想实现好奇心
该研究提出了一种利用多个感官之间的新奇性联想来引导学习代理在缺乏外部奖励的情况下进行更高效探索的方法,并展示了在几个 Atari 环境和 Habitat 中使用音频 - 视觉关联模型的益处。
- EmotiCon: 利用弗雷格原则的上下文感知多模态情绪识别
EmotiCon 是一个基于学习的算法,用于从视频和图片中识别上下文感知的人类情感。该算法利用多种模态,自注意力卷积神经网络以及深度图模型识别情感,提高了对 EMOTIC 和 GroupWalk 数据集中情感进行识别的准确率。
- 移动视频动作识别
本文研究了在移动设备上的视频动作识别任务,提出了一个基于 MobileNetV2 和 Temporal Trilinear Pooling (TTP) 模块的方法,使用多种模态处理压缩视频,并进行了效率测试,结果表明我们的模型在移动设备上可 - 通过跨模态情感嵌入训练加强单模态情感识别
提出了一种名为 EmoBed 的跨模态情感嵌入框架,它旨在利用其他辅助模态的知识来提高情感识别系统的性能,该框架包括共享识别网络或共享情感嵌入空间的联合多模式训练和跨模态训练两个主要学习组件,实验证明该框架在情感识别方面具有明显的优势。
- 多模态分类分析社交媒体
本研究使用池化层和辅助学习任务进行多模态社交媒体数据分类,具有良好的鲁棒性和高准确性,并与传统融合方法相比有着显著的优势。
- 多模态图像的在线卷积字典学习
本文提出了一种结合卷积组稀疏表达和总变差正则化的多模式图像重建方法,利用不同模式之间的冗余信息实现高质量的图像重建,并通过在线算法实现了卷积词典的非监督学习。该方法在联合强度 - 深度成像应用中取得了良好的效果。
- ECCV使用反卷积网络学习 RGB-D 语义分割的公共和特定特征
本文在室内图像的 RGB-D 语义分割问题中,通过利用可以预测像素级类别标签的反卷积网络,开发了一种反卷积多模态新结构并提出了一种新的特征转换网络。该特征转换网络通过在两个模态之间发现共同特征并表征每种特性的方式将两种模态相关联。新网络在 - EmoNets: 多模深度学习方法用于视频情感识别
本研究使用深度学习技术,以多模态方式,使用面部检测、音频流等模态,探索影片情感识别模型,成果在 2013 年的 EmotiW 挑战中成为获胜者,并在 2014 年的数据集上实现了约 47.67% 的准确率。
- 多模态相似性学习
本文提出了一种基于多核学习以及基于图的过滤技术的方法,将多媒体数据中的多种模态融合到单一的相似度空间中,以解决多媒体数据中的主观问题和不一致问题。