虚拟环境中的声波交互：数字孪生的自我中心声音视角

Apr, 2022

虚拟环境中的声波交互：数字孪生的自我中心声音视角

Sonic Interactions in Virtual Environments: the Egocentric Audio Perspective of the Digital Twin

Michele Geronazzo, Stefania Serafin

TL;DR本章旨在将与虚拟环境中声音交互相关的研究转化为一个拥有包容性视角挑战的理论框架 —— 即以听觉数字孪生体的以自我为中心的视角。在实现沉浸式音频技术的虚拟环境中，听觉数字孪生体为人类与技术之间的相互作用提供保护，重定义对于一个身临其境和连贯感官体验至关重要的所有配置。

Abstract

The relationships between the listener, physical world and virtual environment (VE) should not only inspire the design of natural multimodal interfaces but should be discovered to make sense of the mediating action of VR technologies. This chapter aims to transform an archipelago of studies related to →

virtual environment immersive audio sonic interactions egocentric perspective auditory digital twin

发现论文，激发创造

Sonicverse: 面向具有视听能力的智能家居代理的多感官仿真平台

Sonicverse is a multisensory simulation platform for training household agents with audio-visual perception capabilities, incorporating a new audio-visual VR interface for human-agent interaction, and includes a multi-task learning model for audio-visual navigation, achieving state-of-the-art performance, and sim-to-real transfer capability.

Jun, 2023

自我中心视听物体定位

本文提出了一个几何感知的时间聚合模块和级联特征增强模块来解决显式处理自我运动和消除视角移动对音视觉定位的影响，并通过自我监督学习开发 Epic Sounding Object 数据集评估模型，证明了我们的方法在以人为中心的视频中取得了最先进的对象定位性能，并可以推广到不同的音视觉场景。

Mar, 2023

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

看和听自我的行动：我们能学到多少？

本文提出了一种基于音频和视觉信息的厨房环境中的多模态方法，利用稀疏时间采样策略，通过音频、空间和时间流的后期融合，在 EPIC-Kitchens 数据集上实验表明多模态方法比单模态方法更好地提高了动作识别性能，特别是在动词分类上实现了 5.18% 的改进。

Oct, 2019

观察，聆听和行动：走向音频视觉具身化导航

本文描述了一种音频 - 视觉导航方案，该方案基于移动智能机器人，利用可微卷积神经网络学习视觉感知器和声音感知器，以及动态路径规划器，实现在室内环境中通过音频和视觉数据计算从机器人当前位置到声源的最短路径。

Dec, 2019

语音视觉对话图：从自我中心视角到他人中心视角

我们提出了一个统一的多模态、多任务框架 —— 音频视觉对话关注（Av-CONV），用于联合预测第一人称视角下的摄像机佩戴者及视频中所有其他社交伙伴的对话行为，我们通过自注意机制定制化建模了跨时间、跨主体和跨模态的表征。通过在具有多说话者和多对话情景的具有挑战性的第一人称视角视频数据集上的实验证明了我们方法的优越性能，并进行了详细的消融研究来评估模型中每个组件的贡献。

Dec, 2023

识别自我为中心物体交互，音频有多重要？

本研究提出了一种音频模型，用于主体中心的动作识别，通过轻量化的架构，在视觉基础的标准数据集上取得了有竞争力的动词分类结果（34.26% 准确率）

Jun, 2019

听取未来：音视频自我中心注视预测

本文介绍了一种利用两种视觉和听觉模态进行 egocentric 注视预测的模型，为此我们提出了一种对比时空可分的融合方法，并采用对比损失进行表示学习。我们使用 Ego4D 和 Aria 等数据集进行了广泛的实验验证，并在先前的最新方法上进行了改进。此外，我们提供了可视化来显示注视预测结果并提供了有关音频 - 视觉表示学习的其他见解。

May, 2023

EgoChoir：从自我中心视角捕捉 3D 人物 - 物体互动区域

理解以自我为中心的人 - 物互动是人类中心感知的一个基本方面，为增强现实 / 虚拟现实和具身人工智能等应用提供支持。本研究提出了 EgoChoir 方法，通过协调视觉外观、头部运动和 3D 对象的信息来挖掘物体互动概念和人类意图，并在以自我为中心的视频中推断 3D 人体接触和物体可供性，从而解决以自我为中心的视图中的人 - 物互动问题。

May, 2024

面向元宇宙的语义感知数字孪生：综述

本文介绍一个数字孪生框架，结合 Metaverse 的技术，实现语义通信，以提高工业应用程序的性能，展示了语义意识如何成为数字孪生在 Metaverse 应用程序中的有效实现方案。

May, 2023