虚拟环境中的声波交互:数字孪生的自我中心声音视角
Sonicverse is a multisensory simulation platform for training household agents with audio-visual perception capabilities, incorporating a new audio-visual VR interface for human-agent interaction, and includes a multi-task learning model for audio-visual navigation, achieving state-of-the-art performance, and sim-to-real transfer capability.
Jun, 2023
本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响,并通过自我监督学习开发 Epic Sounding Object 数据集评估模型,证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能,并可以推广到不同的音视觉场景。
Mar, 2023
本研究介绍了一种复杂的,声音和视觉逼真的三维环境中的音频视觉导航方法,使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces,在现实环境中插入任意声源。研究结果表明,在三维空间中,音频对于具身视觉导航有很大的帮助,为音频视觉感知的体验机器人研究奠定了基础。
Dec, 2019
本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法,利用稀疏时间采样策略,通过音频、空间和时间流的后期融合,在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能,特别是在动词分类上实现了 5.18% 的改进。
Oct, 2019
本文描述了一种音频 - 视觉导航方案,该方案基于移动智能机器人,利用可微卷积神经网络学习视觉感知器和声音感知器,以及动态路径规划器,实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。
Dec, 2019
我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注(Av-CONV),用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为,我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能,并进行了详细的消融研究来评估模型中每个组件的贡献。
Dec, 2023
本研究提出了一种音频模型,用于主体中心的动作识别,通过轻量化的架构,在视觉基础的标准数据集上取得了有竞争力的动词分类结果(34.26% 准确率)
Jun, 2019
本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型,为此我们提出了一种对比时空可分的融合方法,并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证,并在先前的最新方法上进行了改进。此外,我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。
May, 2023
理解以自我为中心的人 - 物互动是人类中心感知的一个基本方面,为增强现实 / 虚拟现实和具身人工智能等应用提供支持。本研究提出了 EgoChoir 方法,通过协调视觉外观、头部运动和 3D 对象的信息来挖掘物体互动概念和人类意图,并在以自我为中心的视频中推断 3D 人体接触和物体可供性,从而解决以自我为中心的视图中的人 - 物互动问题。
May, 2024
本文介绍一个数字孪生框架,结合 Metaverse 的技术,实现语义通信,以提高工业应用程序的性能,展示了语义意识如何成为数字孪生在 Metaverse 应用程序中的有效实现方案。
May, 2023