室内场景高保真单视角整体重建

ECCVJul, 2022

Towards High-Fidelity Single-view Holistic Reconstruction of Indoor Scenes

Haolin Liu, Yujian Zheng, Guanying Chen, Shuguang Cui, Xiaoguang Han

TL;DR我们提出了一种新的框架来重建立体的室内场景，包括从单视图图像中提取的背景和室内物体。我们的方法是将实例对齐的隐式函数（InstPIFu）与对齐注意力模块相结合，从而使我们的方法能够解耦合并的局部特征以实现物体的详细重构和恢复背景的细致几何结构，实验证明了我们方法在前景和背景物体重构方面的优越性。

Abstract

We present a new framework to reconstruct holistic 3D indoor scenes including both room background and indoor objects from single-view images. Existing methods can only produce 3D shapes of indoor objects with limited geometry quality because of the heavy occlusion of indoor scenes. To solve this, we propose an →

3d indoor scene instance-aligned implicit function object reconstruction background geometry attention module

发现论文，激发创造

HouseCrafter：使用 2D 扩散模型将平面图提升为 3D 场景

HouseCrafter 使用 2D 扩散模型生成与全景平面图一致的多视角 RGB-D 图像，从而重建高质量的 3D 室内场景。

Jun, 2024

一个多阶段目标驱动网络用于行人轨迹预测

该论文提出了一种用于行人轨迹预测的新方法，称为多阶段目标驱动网络 (MGNet)。通过预测中间阶段目标来生成轨迹，以减小预测误差。MGNet 包括条件变分自编码器 (CVAE)、注意力模块和多阶段目标评估器等主要组件。我们通过对 JAAD 和 PIE 数据集进行全面实验，并与最先进的算法进行比较评估，证明了 MGNet 的有效性。

Jun, 2024

掩模引导下的增强型新生儿脑提取与图像预处理的 U-Net

本研究提出了一种名为 MGA-Net 的新型掩膜引导注意力神经网络，旨在对新生儿的大脑成像进行精确处理。MGA-Net 利用高水平的掩膜引导注意力模块，结合磁共振成像（MRI）和超声成像（US）图像，实现大脑提取和重建的卓越性能，为新生儿神经成像领域的研究和临床诊断提供了强大的预处理工具。

Jun, 2024

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Jun, 2024

MTS-Net: 用于三维 CT 诊断梅 - 瑟纳综合征的双增强位置多头自注意力网络

提出了一种基于 3D 深度学习的称为 MTS-Net 的方法，用于使用 CT 扫描诊断 May-Thurner 综合征，通过建立一个新的数据集，并设计了一种注意力模块，证明该方法在 MTS 诊断中取得了最先进的结果。

Jun, 2024

GraphAny: 适用于任何图节点分类的基础模型

该研究论文提出了一种名为 GraphAny 的基础体系结构，实现了对新图进行构造节点分类的推理，使用线性 GNN 的解析解并学习节点的注意力分数来融合多个线性 GNN 的预测，从而实现对不同图结构的泛化，该方法在归纳方式下，使用仅 120 个标记节点的威斯康辛数据集，可以在 30 个新图上实现平均准确率为 67.26％，超过了在受监督的规则中训练的 GCN 和 GAT 以及其他归纳基线。

May, 2024

忠实关注解释器：基于辨别特征的决策语言化

我们提出了 Faithful Attention Explainer（FAE）的框架，用于生成关于关注特征的忠实文本解释，并展示了该模型在生成图像描述和解译人类注意力方面的良好性能。

May, 2024

深度学习中小卷积核的高效高阶卷积

通过提出一种新的方法来实现低内存和计算成本的高阶 Volterra 滤波，在 DCNN 训练的前向和反向传播过程中具有计算优势，并基于该方法提出了一种名为 Higher-order Local Attention Block（HLA）的新型注意力模块，并在 CIFAR-100 数据集上进行了测试，显示了在分类任务中的有竞争力的改进。

Apr, 2024

DIG3D: 高斯扩散融合可变形变换用于单张图像三维重建

利用单视角 RGB 图像进行三维重建及新视角合成的研究中，提出了一种名为 DIG3D 的新方法，该方法利用编码 - 解码框架，通过编码器的深度感知图像特征指导解码器生成三维高斯图像，具体来说，引入了可变形变换器，通过三维参考点和多层细化适应来进行高效且有效的解码。通过利用三维高斯图像的优势，我们的方法为从单视角图像进行三维重建提供了高效且准确的解决方案。我们在 ShapeNet SRN 数据集上对方法进行了评估，在汽车和椅子数据集上获得了分别为 24.21 和 24.98 的峰值信噪比（PSNR），结果比最近的方法提高了约 2.25％，证明了我们方法在实现优越结果方面的有效性。

Apr, 2024

个性化视频视线估计的时空注意力和高斯过程

使用深度学习模型和专门的注意力模块，通过视频实现准确的注视方向预测，并且通过个性化处理和少量样本获得更高的精度。

Apr, 2024