- MLPHand:基于 MLP 建模的多视角实时三维手部网格重建
研究提出了 MLPHand,一种用于实时多视图单手重建的新方法。MLPHand 包含两个主要模块:轻量级的基于 MLP 的 Skeleton2Mesh 模型,以及使用多视图几何特征融合预测模块增强 Skeleton2Mesh 模型。实验表明 - 4K4DGen:4K 分辨率下的全景 4D 生成
通过引入一种新的管道和技术,我们实现了将单个全景提升为沉浸式 4D 体验,生成 360 度视角下具有 4K 分辨率的全方位动态场景,并提供沉浸式用户体验。
- LLplace:基于大型语言模型的三维室内场景布局生成与编辑
LLplace 是一种基于轻量级精细调整的开源 LLM Llama3 的新颖的 3D 室内场景布局设计工具,通过用户输入指定房间类型和所需对象来有效生成和编辑 3D 室内布局,并在提供高质量的 3D 设计解决方案方面优于现有方法。
- 基于频率匹配的长尾语义分割
本文关注于长尾语义分割 (LTSS) 这一相对未经深入研究的任务设置,建立了三个代表性数据集,并提出了基于 Transformer 的改进算法,用于解决应用语义分割技术在自动驾驶和虚拟现实中遇到的长尾问题,并通过 LTSS 评估系统和基准进 - 单目 RGB 相机空间下的三维手部网格恢复
利用虚拟现实、增强现实和手势控制等技术的快速发展,用户期望与计算机界面的交互更加自然和直观。本研究提出了一种网络模型,可从单目 RGB 图像中恢复相机空间中的 3D 手部网格,以实现准确和可靠的绝对空间预测。通过在大规模手部数据集 Frei - 基于运动员追踪和姿态估计的多模态和多视角传感器的体育分析和 VR 观赛系统
本研究首次提出了一种基于虚拟现实和增强现实平台的运动比赛分析和实时可视化系统,通过多视角激光雷达和摄像机采集多模态比赛数据,并利用有限的监督数据进行多参与者跟踪和姿势估计,提取准确的球员位置和运动信息,进一步进行球员三维建模并在虚拟现实和增 - 虚拟现实中全景图像高品质导航和缩放学习
OmniVR 是一个设计用于提升虚拟现实导航过程中视觉清晰度的新系统,通过学习算法和使用者输入优化全景图像,有效解决模糊效果对用户体验的影响,提高用户的参与度和沉浸感。
- DreamScene360: 无约束的文本到 3D 场景生成与全景高斯喷洒
我们提供了一个文本转 3D 360 度场景生成流水线,能够在几分钟内为野外环境创建综合的 360 度场景。我们的方法利用 2D 扩散模型的生成能力和提示自我完善来创建高质量和全局连贯的全景图像,这作为一个初步的 “平面”(2D)场景表示。随 - 基于虚拟现实的自闭症谱系障碍干预中的生理反应探究:一项数据驱动调查
使用虚拟现实技术结合生理反馈通过多人在线游戏环境对诊断为自闭症谱系障碍的 34 名个体进行研究,结果显示生理反应与行为结果存在显著相关性,表明生理反馈有潜力增强基于虚拟现实的自闭症干预的效果。通过利用实时数据调整治疗内容,该方法有望提高数字 - 通过交互式虚拟现实游戏在复合空间中探索情绪
通过使用交互式虚拟现实(VR)游戏和采集多模态数据(自我报告、生理和面部信号),我们使用机器学习方法确定了每个组成部分对情绪区分的独特贡献,并发现至少需要五个维度来表示我们的数据集中情绪的变化。这些发现对于在情绪研究中使用 VR 环境以及情 - AIGCOIQA2024: AI 生成全方位图像的感知质量评估
建立了一个名为 AIGCOIQA2024 的大规模 AI 生成全景图像 IQA 数据库,并构建了一个综合基准,以评估最先进的 IQA 模型在该数据库上的性能。
- 组装任务中远程操作操控意图估计的分层深度学习
人机协作中,共享控制提供了一个机会来远程操作机器人操纵,以提高制造和装配过程的效率。本文提出了一种层次化的意图估计技术,通过将多尺度层次信息纳入神经网络中,提高了整体准确性。此外,我们还提出了一种多窗口方法,用于分配合适的层次预测窗口输入数 - Thelxinoë:使用瞳孔测量和机器学习识别人类情绪
使用瞳孔测量的虚拟现实情绪识别方法,通过分析虚拟现实头戴设备对视觉和听觉刺激的瞳孔直径响应,从时域、频域和时频域提取关键特征并利用特征选择获取最重要的特征,再应用集成学习技术中的梯度提升模型,通过特征工程将准确率从 84.9% 提升至 98 - 扩散攻击:利用稳定扩散进行自然图像攻击
通过结合风格转移的方法,我们提出了一个框架来针对虚拟现实中的对抗性攻击,制造具有自然风格的对抗输入,以达到最小可探测性和最大自然外观,同时保持卓越的攻击能力。
- 全尺寸装配模拟测试平台(FAST)数据集
近年来,许多研究人员开始研究虚拟现实(VR)追踪和交互数据在各种机器学习目的中的应用,包括用户识别、预测晕动症和估计学习收益。本文介绍了一项由我们基于 VR 的全尺寸装配模拟测试台(FAST)捕获的新的开放数据集。该数据集包括了来自 108 - 具有轨迹可控扩散的和谐团体编排
使用非重叠轨迹来协助协调舞蹈运动,并通过距离保持一定阈值和相对前向运动的损失来解决多舞者碰撞和单人滑步问题,实现了最先进的结果。
- 利用循环神经网络在 3D 点云中分类物体:一种 GRU LSTM 混合方法
该研究提出了一种用于增强现实中的 3D 物体分类的深度学习策略,该策略结合了 GRU 和 LSTM 的优点,并在数据集中达到了 0.99 的准确率。
- VLPose: 通过语言视觉调整弥合姿势估计中的域差
通过使用语言模型,我们提出了一种名为 VLPose 的新框架,通过语言和视觉之间的协同作用,增强传统姿势估计模型在自然和人工场景下的泛化和鲁棒性,实现了与最先进的调整策略相比,在 HumanArt 和 MSCOCO 数据集上分别提升了 2. - MM虚拟现实用于理解人工智能驱动科学发现,在量子光学中的应用
研究表明,通过将分析过程转移到沉浸式虚拟现实 (VR) 环境中,可以帮助研究人员理解由人工智能生成的解决方案,进而发现新的解释和理解实验性量子光学,并且能够加快后续的发现迭代。
- 基于雷达的静态手势在美国手语中的识别
人机交互与虚拟现实领域中,自动手势识别变得越来越重要。本研究探索了使用合成数据的方法来训练神经网络,以在虚拟现实和人机交互应用中提高手势识别的性能。