- COLING多模态跨文档事件共指消解的线性语义转移和混合模态集成
提出了一种融合视觉和文本线性映射的多模态跨文档事件共指解析方法,通过对事件中心图像的集成,对核心指称进行融合模型、线性映射和集合方法进行处理,实现了对事件共指的跨模态线性映射,为核心指称解析领域提供了多模态信息的实用性和需要更多多模态资源的 - 多模态视觉触觉表示学习通过自监督对比预训练
通过利用对比学习的方法,本文介绍了 MViTac,一种将视觉和触觉感知以自我监督的方式整合的新方法,通过使用这两种传感器输入,MViTac 利用内部和跨模态损失进行表示学习,从而实现了更好的材料属性分类和更精确的抓取预测。实验证明了 MVi - 理解路径规划解释
通过图像和文本解释,我们提出了关于机器人导航决策的理解性和简洁性的用户研究。
- ICCVMISAR:一种具备增强现实的多模态指导系统
创新方法利用大语言模型融合视觉、听觉和语境模态,以提高增强现实系统的状态估计,为更自适应的增强现实系统迈出了一步。
- 人形机器人的感知
本综述总结了人形机器人感知领域的最新发展和趋势,识别了内部状态估计、外部环境估计和人机交互三个主要应用领域,并讨论了各个领域中不同传感器模态的应用和最近的重要研究成果。
- 厘清 “半满还是半空” 的问题:多模态容器分类
本文比较了在 NICOL 机器人的实验环境下,融合视觉、触觉和本体感数据的不同可能性,并演示了多模式解决方案在分类容器及其内容方面的优越性,评估了在不同时间步骤集成数据的三种融合策略,并发现最佳融合策略的准确度比仅使用单一感觉的最佳策略高出 - Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型
Video-LLaMA 是一种多模态框架,通过将预训练的视觉和音频编码器与预训练的大型语言模型结合,实现对视频内容的理解,具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势,因此被视为具有潜力的音视频 AI 助手原型。
- MM音视频显著性预测的双域对抗学习
本文研究了使用双领域对抗学习算法来解决音频视觉显著性预测中源域数据分布不一致与目标域数据性能降解问题,其方法包括建立与对齐声学特征分布、跨模态自注意力模块融合声学特征至视觉特征、降低视觉特征及融合后的音视频相关性中的领域差异等。实验结果说明 - 深度强化学习和 Real2Sim 策略适应在机器人视觉插入中的应用
本文提出了一种基于纯视觉强化学习的插入任务解决方案,并提出了一种新颖的 Sim2Real 策略 Real2Sim,该策略在政策适应方面具有优势。
- 读者如何整合图表与说明:以线性图为例的研究
通过一项众包研究,我们探究了读者在同时考虑图表和标题时如何获取主要信息。研究发现,当图表和标题都描述具有高显著性的特点时,读者会将该特点作为主要信息,而当标题描述相对低显著的特点时,读者则更倾向于从图表中获取更显著的特点作为主要信息,并且外 - 自监督多模态通用网络
本文介绍了一种利用视频中存在的三种模态(视觉、音频和语言),通过自监督学习来学习表示的方法,并引入了多模态多功能网络的概念 —— 一种可以吸收多种模态,其表示方法可以在多种模态下用于下游任务。通过这种方法,我们可以在多个具有挑战性的基准测试 - ACL生活方式视频中可见行为的识别
本研究关注于在线视频中可见的人类行为的识别,提出一种多模态算法,利用视觉和语言线索自动推断视频中哪些行为可见,并通过人工标注数据集进行验证,结果表明该算法的表现优于单一模态算法。
- 学习音乐和图像之间的情感对应关系
提出了一种解决音频和图像情感对应的问题的深度神经网络模型,通过学习将情感数据从不同模态的输入投影到共同的表示空间中,通过二元分类预测情感对应(真或假)。
- LRS3-TED: 用于视觉语音识别的大规模数据集
介绍一个包含 TED 演讲视频中的面部轨迹,字幕和单词对齐信息的大规模新型多模态数据集,适用于视觉和视听语音识别的研究。
- 基于时间残差建模的卷积视频隐写术
提出一个基于深度卷积神经网络的视频隐写模型,通过利用帧差的高度稀疏性,显式地考虑帧间残差,并分别设计两个支路来分别隐藏帧间差和原始秘密帧,得到比传统方法更好的结果。