通过整合多分辨率特征实现准确的空间基因表达预测
本文介绍了一种名为 TRIPS 的新技术,将点云渲染技术与轻量级神经网络相结合,实现了更高的渲染质量和实时帧率,并适用于复杂场景和自动曝光片段。
Jan, 2024
使用不同空间和时间分辨率的感知模式可以提高机器人操作任务的性能。本研究提出了一种名为 MResT(多分辨率变压器)的框架,利用具有不同容量的网络学习可推广的语言条件多任务策略,以有效地进行精确和反应迅速的实时控制。通过在 3 个领域(粗糙、精确和动态操作任务)进行大量实验,我们证明了我们的方法相对于最近的多任务基线显著改进(平均提升了 2 倍)。此外,我们的方法对目标物体的视觉和几何变化以及交互力的变化具有很好的普适性。
Jan, 2024
本文建立新的神经表面重建方法,在 signed distance function 的基础上结合 tri-plane 表示,采用可学习的位置编码和卷积操作,通过实验在标准数据集上大幅提高了表面重建的精度。
May, 2023
本文通过对三平面离散数据结构进行处理,展示了该结构具有丰富的信息,可以通过标准深度学习模型进行有效处理,并在处理过程中实现了与处理显式表示结构相当的任务性能,同时保持了相同的重建质量。
Oct, 2023
通过稀疏的三平面编码和分层捆绑调整,我们提出了一种能够在高分辨率上实现快速而高质量跟踪和建图的方法,该方法仅使用了常用三平面参数的 2~4% 的存储空间。
Apr, 2024
该研究提出了一种新颖的轨迹分数匹配方法 (Trajectory Score Matching, TSM),旨在解决使用去噪扩散隐式模型 (Denoising Diffusion Implicit Models, DDIM) 反演过程中,Interval Score Matching (ISM) 由于累积误差导致的伪真值不一致问题。通过利用 DDIM 的反演过程计算相同起点的两条路径,TSM 可以减小与 ISM 相比的累积误差,从而缓解伪真值不一致问题。TSM 提高了模型在蒸馏过程中生成路径的稳定性和一致性,并实验证明 ISM 是 TSM 的特例。此外,为了优化从高分辨率文本到三维生成的多阶段优化过程,我们采用了稳定扩散 XL 进行指导。针对使用稳定扩散 XL 时由于不稳定梯度导致的异常复制和分裂问题,我们提出了一种逐像素梯度裁剪方法。广泛的实验证明我们的模型在视觉质量和性能方面显著超过了目前的最先进模型。
May, 2024
本文提出了一种基于可学习的空间感知三维查找表(3D LUTs)的实时图像增强器,它充分考虑了全局情况和局部空间信息,通过在端到端的方式中的权重融合学习 3D LUT 并将其用于以有效的方式将源图像转换为目标色调,该模型在公共数据集上主观上和客观上均优于 SOTA 图像增强方法,并且仅使用一个 NVIDIA V100 GPU 即可在 4ms 内处理 4K 分辨率图像。
Aug, 2021
通过前向推理,我们介绍了一种从单张图像高效生成三维模型的新方法,利用基于 Transformer 的网络,即点解码器和三面解码器,通过混合的 Triplane-Gaussian 中间表示重建三维物体,从而在渲染速度和渲染质量上实现了平衡,并比之前的技术在质量和运行时间方面取得了更好的效果。
Dec, 2023
引入 MUTE-SLAM,一种实时的神经 RGB-D SLAM 系统,采用多个三平面哈希编码来进行高效的场景表示。MUTE-SLAM 有效地跟踪相机位置并逐步构建可扩展的多地图表示,适用于小型和大型室内环境。该系统动态为新观察到的局部区域分配子地图,实现不需要先验场景信息的无约束建图。与传统的基于网格的方法不同,我们使用三个正交轴对齐平面来进行哈希编码,显著减少哈希冲突和可训练参数数目。这种混合方法不仅加速收敛,还提高了表面重建的保真度。此外,我们的优化策略同时优化了与当前相机视锥体相交的所有子地图,确保全局一致性。在真实世界和合成数据集上进行了广泛测试,表明 MUTE-SLAM 在各种室内环境中提供了最先进的表面重建质量和具有竞争力的跟踪性能。该论文接受后将公开代码。
Mar, 2024
TripoSR 是一种利用 Transformer 架构进行快速前馈 3D 生成的 3D 重建模型,能够在 0.5 秒内从单个图像生成 3D 网格。通过在数据处理、模型设计和训练技术方面进行实质性改进,TripoSR 在公共数据集上展现出比其他开源替代方案更优异的量化和定性表现。作为 MIT 许可下发布,TripoSR 旨在为研究人员、开发者和创意人员提供最新的 3D 生成 AI 技术。
Mar, 2024