EasyCom:噪声环境下支持易于交流算法的增强现实数据集
发布了 EARS(Expressive Anechoic Recordings of Speech)数据集,包含来自不同背景的 107 位说话者,总计 100 小时的干净、无混响的语音数据。数据集涵盖了多种不同的讲话风格,包括情感性语音、不同的阅读风格、非语言声音和自由对话式语音。通过一组仪器度量评估了数据集上的各种语音增强和去混响方法,并对语音增强任务进行了 20 个参与者的听力测试,优选了一种生成方法。此外,我们还引入了一个盲测试集,用于自动在线评估上传数据。数据集下载链接和自动评估服务器可以在网上找到。
Jun, 2024
我们通过可微分的体积光线追踪,借鉴神经辐射场(NeRF)的思想,试图加快从自我中心数据中开发富有多模态场景模型的研究。我们提供了一个全面的多模态自我中心视频数据集,用于支持和促进自我中心多模态场景建模的发展和评估。
Nov, 2023
基于现有的计算机视觉数据集和任务,本研究侧重于从自我的视角识别会话伙伴,并描述了一个合适的数据集,该数据集包含了 69 小时的多样化多对话场景的自我的视频,对每个个体分配了一个或多个对话伙伴,为我们的计算机视觉任务提供了标签。通过这个数据集,我们可以开发和评估用于识别会话伙伴和相关方法的算法。该研究为自我的视频分析在社交环境中的令人兴奋的进展做出贡献。
Jun, 2024
我们提出了一个新的多模态数据库来帮助推进沉浸技术的发展,该数据库提供了符合道德规范并且多样化的体积数据,可以支持面部表情识别等扩展现实算法的评估和性能测试。
Feb, 2024
Aria Everyday Activities (AEA) Dataset 是一个多模态的开放式数据集,记录了由多个佩戴者在五个不同地理位置的室内场景中进行的 143 个日常活动序列。该数据集通过 Project Aria 眼镜记录了多模态传感器数据,并提供了机器感知数据,包括高频全局对齐的 3D 轨迹、场景点云、每帧的 3D 凝视向量和时间对齐的语音转录。本文还展示了该数据集支持的一些示例研究应用,包括神经场景重建和提示分割。AEA 是一个开源数据集,可从 projectaria.com 下载,并提供了 Project Aria 工具的开源实现和示例。
Feb, 2024
我们在 Meta Reality Labs Research 团队构建了 Aria 设备,该设备是一种自我为中心的多模态数据记录和传输设备,旨在促进和加速这一领域的研究。本文描述了 Aria 设备的硬件,包括其传感器配置和相应的软件工具,以实现此类数据的记录和处理。
Aug, 2023
过去十年中,虽然单一机器人感知取得了重大进展,但多机器人协同感知的研究仍未被广泛探索。本文提出了一个开创性的全面真实世界的多机器人协同感知数据集,用于推动这一领域的研究。我们的数据集利用了空中 - 地面机器人协同的未发掘潜力,具有不同的空间视角、互补的机器人移动性、覆盖范围和传感器模态。它提供了原始传感器输入、姿态估计和可选的高级感知注释,以适应各种研究兴趣。与现有主要设计用于同时定位和地图构建(SLAM)的数据集相比,我们的设置确保了多样化的传感器视角范围和足够的重叠以促进多机器人协同感知算法的研究。我们通过多个协同感知任务定性地证明了这个数据集的价值。我们相信这项工作将在多模态协同感知中解锁高级场景理解的潜在研究。
May, 2024
本文介绍了一个用于人类活动识别的多模态基准数据集 WEAR,其中包括了视觉和可穿戴设备的数据,有效地提高了各种算法的性能表现。此外,我们还展示了基于 Transformer 的视频动作检测模型在惯性和多模态人类活动识别方面的可行性,这是第一次使用此方法进行探索。
Apr, 2023
本文提出了一种通过机器学习方法处理低资源语言中语音理解数据的方法,通过多个模型同时对不同扩充的训练数据对彼此提供监督信号,实现了对数据的去噪处理,在两个基准数据集上的实验结果表明,我们的方法优于现有技术达 3.05% 和 4.24% 的性能表现。
Sep, 2021
介绍了使用 Aria 眼镜捕获的以自我为中心的数据集,其中包含许多对象,环境和人类级别的地面真实性。它对于活动监测和增强现实等研究问题具有重要作用,并对物体检测、人体姿态预测等开展了一些有益尝试。
Jun, 2023