身体声响：利用身体姿势和音频进行人体 3D 空间声音建模

Nov, 2023

身体声响：利用身体姿势和音频进行人体 3D 空间声音建模

Sounding Bodies: Modeling 3D Spatial Sound of Humans Using Body Pose and Audio

Xudong Xu, Dejan Markovic, Jacob Sandakly, Todd Keebler, Steven Krenn...

TL;DR通过从头戴式麦克风获取的音频信号和身体姿势作为输入，生成围绕发射者身体的三维声场，从而可以在三维空间的任意位置呈现空间音频。

Abstract

While 3d human body modeling has received much attention in computer vision, modeling the acoustic equivalent, i.e. modeling 3d spatial audio

3d human body modeling acoustic equivalent 3d spatial audio body motion speech

发现论文，激发创造

AudioEar：针对个性化空间音频的单视图耳重建

本研究提出了通过单视图图像重建 3D 人类耳形来实现个性化空间音频渲染的方法，并开发了 AudioEar3D 和 AudioEar2D 两个公开数据集，最后通过将重建后的耳形与现成的 3D 人体模型集成，来模拟人的听觉传递函数，从而实现了基于不同人体解剖结构的个性化空间音频渲染。

Jan, 2023

双耳声音的语义物体预测和空间声音超分辨率

本文介绍了一种基于双耳声音的声音制造对象的语义标记方法，利用跨模态蒸馏框架让视觉和听觉系统相互学习，形成多任务训练网络等手段提高系统的性能。

Mar, 2020

360° 视频自监督空间音频生成

通过使用端到端可训练的神经网络，我们的方法根据音频和 360 度视频帧的多模态分析，将由 360 度视频相机记录的单声道音频转换为空间音频，并从中分离和定位单独的声源于观看球上，因此通过我们的方法，仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。

Sep, 2018

从语音中学习地标运动以获取说话人不可知的 3D 语音生成

本篇研究提出了一种新方法，通过音频输入生成 3D 说话人头部动画，并利用面部的传动部位上的控制点来描述语音相关的运动，并利用两个不同的模型来实现；该方法具有身份不相关性，可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点，例如一致性，可靠性和不需要手动注释。

Jun, 2023

SEE-2-SOUND：零射击空间环境到空间音效

通过 SEE-2-SOUND 引入的零样本方法，将多模式内容生成、神经生成模型和空间音频相结合，可以为高质量视频、图像和互联网动态图像生成空间音频，实现沉浸式体验。

Jun, 2024

声音空间： 3D 环境下的音视导航

本研究介绍了一种复杂的，声音和视觉逼真的三维环境中的音频视觉导航方法，使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces，在现实环境中插入任意声源。研究结果表明，在三维空间中，音频对于具身视觉导航有很大的帮助，为音频视觉感知的体验机器人研究奠定了基础。

Dec, 2019

SoundSpaces 2.0: 一个视听学习仿真平台

SoundSpaces 2.0 是一个用于 3D 环境的实时几何声音渲染平台，用于生成高度逼真的声学效果以支持多种音频和视觉研究任务，并可用于普及性研究。

Jun, 2022

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Sep, 2023

视频中音频 - 视觉讲话者定位对空间音效重现的应用

通过使用多通道音频和视觉模式，本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法，在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性，并解决离屏说话者的问题。

Jun, 2024

实时的主动说话者检测系统集成了音频 - 视觉信号和空间查询机制

在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统，通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块；与以往的研究不同，我们研究了网络在计算预算耗尽时的错误率，并发现它表现出优雅的降级，即使在此情况下系统仍能正常运行；与传统的声源角估计方法不同，我们的网络利用检测到的头部位置学习查询可用的声学数据；我们在一个现实的会议数据集上训练和评估我们的算法，该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。

Sep, 2023