结合深度相机的主动头枕与耳位定位系统
在商用设备上部署的低功耗边缘计算优化的实时因果神经网络活动说话人检测系统,通过来自麦克风阵列和 360 度摄像机的数据驱动虚拟电影摄影模块;与以往的研究不同,我们研究了网络在计算预算耗尽时的错误率,并发现它表现出优雅的降级,即使在此情况下系统仍能正常运行;与传统的声源角估计方法不同,我们的网络利用检测到的头部位置学习查询可用的声学数据;我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含达到 14 个与会者的同一会议、语音重叠和其他具有挑战性的场景。
Sep, 2023
通过使用一个感应器检测噪音、采用电子控制系统处理噪音并产生相反相位频率信号来对抗干扰,再通过扬声器播放处理后的较小噪音,这个智能噪音减震系统可以消除甚至低频噪音。该系统还集成了睡眠追踪和音乐播放器应用,能够通过 Wi-Fi 或蓝牙轻松传输数据并通过其 APP 进行控制。该项目将提出上述技术的模型,可在各种环境中用于防止噪声污染,并为那些难以找到安静环境来睡觉、工作或学习的人们提供解决方案。
Nov, 2023
本研究介绍了一种新型的汽车内部监测系统,结合了三维姿态估计、安全带分割和状态分类网络,实现对驾驶员和乘客的监测,且经过了我们新创建和注释的数据集的评估表现显著且可以直接应用于真实车载监测系统。
Apr, 2022
本研究提出了通过单视图图像重建 3D 人类耳形来实现个性化空间音频渲染的方法,并开发了 AudioEar3D 和 AudioEar2D 两个公开数据集,最后通过将重建后的耳形与现成的 3D 人体模型集成,来模拟人的听觉传递函数,从而实现了基于不同人体解剖结构的个性化空间音频渲染。
Jan, 2023
我们使用 3D Slicer 作为基础平台,利用单目相机将人头进行 3D 模型重建,实时通过单目视觉传输头部姿态,并演示了利用 ArUco Marker 追踪工具实时指向头部姿态变化的可行性,为鼻咽拭子采集或插管等提供了一个可行的实时仿真平台。
Jun, 2024
本文提出了一种新颖的室内声源定位方法,使用麦克风阵列并基于卷积神经网络(CNN)进行,该方法采用原始音频信号作为输入信息直接估计声源的三维位置,避免了手工制作音频特征。通过使用半合成数据作为训练策略并在实际数据上进行微调,该方法能够显著改善基于 ${SRP-PHAT}$ 策略的现有定位方法,并且展现出更好的对抗不同说话者性别和不同窗口大小的性能。
Jul, 2018
通过使用新的基于 transformer 模型的框架,结合场景信息和长时空上下文,利用头戴设备提供的俯视图来更准确地估计包括蹲下和坐下等复杂动作的三维人体姿态,并提出了两个新的用于综合评估现有和即将推出方法的数据集 UnrealEgo2 和 UnrealEgo-RW。
Dec, 2023
通过主动控制和塑造由旋翼产生的飞行器推进噪声,该论文提出了基于自噪声的已知环境中的定位的神经网络体系结构,通过与学习时间变化的旋翼相位调制相结合的训练,实现了准确和稳健的定位。
Feb, 2024
本文介绍了一种首个能够在实时环境中处理基本遮挡、能够适应 360 度全景相机和毫米波雷达传感器的多人姿态估计系统,通过使用实时的轻量级 2D-3D 姿态提升算法,在室内外环境中实现了准确的性能表现,提供了一种经济实惠且可扩展的解决方案,并且不论检测到的个体数量如何,系统的时间复杂度保持几乎恒定,能够在商用 GPU 的笔记本上达到大约 7-8 帧每秒的帧率。
Mar, 2024