身体声响:利用身体姿势和音频进行人体 3D 空间声音建模
本研究提出了通过单视图图像重建 3D 人类耳形来实现个性化空间音频渲染的方法,并开发了 AudioEar3D 和 AudioEar2D 两个公开数据集,最后通过将重建后的耳形与现成的 3D 人体模型集成,来模拟人的听觉传递函数,从而实现了基于不同人体解剖结构的个性化空间音频渲染。
Jan, 2023
通过使用端到端可训练的神经网络,我们的方法根据音频和 360 度视频帧的多模态分析,将由 360 度视频相机记录的单声道音频转换为空间音频,并从中分离和定位单独的声源于观看球上,因此通过我们的方法,仅使用 360 度视频和单声道音轨就可以推断声源的空间位置。
Sep, 2018
本篇研究提出了一种新方法,通过音频输入生成 3D 说话人头部动画,并利用面部的传动部位上的控制点来描述语音相关的运动,并利用两个不同的模型来实现;该方法具有身份不相关性,可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点,例如一致性,可靠性和不需要手动注释。
Jun, 2023
通过 SEE-2-SOUND 引入的零样本方法,将多模式内容生成、神经生成模型和空间音频相结合,可以为高质量视频、图像和互联网动态图像生成空间音频,实现沉浸式体验。
Jun, 2024
本研究介绍了一种复杂的,声音和视觉逼真的三维环境中的音频视觉导航方法,使用多模态深度强化学习方法训练导航策略并提出了新的数据集 SoundSpaces,在现实环境中插入任意声源。研究结果表明,在三维空间中,音频对于具身视觉导航有很大的帮助,为音频视觉感知的体验机器人研究奠定了基础。
Dec, 2019
SoundSpaces 2.0 是一个用于 3D 环境的实时几何声音渲染平台,用于生成高度逼真的声学效果以支持多种音频和视觉研究任务,并可用于普及性研究。
Jun, 2022
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
Sep, 2023
通过使用多通道音频和视觉模式,本研究比较了传统的音频 - 视觉方法和单声道音频的活跃说话者检测方法,在位置元数据提取和空间准确性上取得了显著改进。未来的研究将评估该模型在嘈杂和高混响环境中的稳健性,并解决离屏说话者的问题。
Jun, 2024
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。
Sep, 2023