室内场景高保真单视角整体重建
HouseCrafter 使用 2D 扩散模型生成与全景平面图一致的多视角 RGB-D 图像,从而重建高质量的 3D 室内场景。
Jun, 2024
该论文提出了一种用于行人轨迹预测的新方法,称为多阶段目标驱动网络 (MGNet)。通过预测中间阶段目标来生成轨迹,以减小预测误差。MGNet 包括条件变分自编码器 (CVAE)、注意力模块和多阶段目标评估器等主要组件。我们通过对 JAAD 和 PIE 数据集进行全面实验,并与最先进的算法进行比较评估,证明了 MGNet 的有效性。
Jun, 2024
本研究提出了一种名为 MGA-Net 的新型掩膜引导注意力神经网络,旨在对新生儿的大脑成像进行精确处理。MGA-Net 利用高水平的掩膜引导注意力模块,结合磁共振成像(MRI)和超声成像(US)图像,实现大脑提取和重建的卓越性能,为新生儿神经成像领域的研究和临床诊断提供了强大的预处理工具。
Jun, 2024
通过结合线性注意力和推测解码,我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究,并引入了一种增强的线性化语言模型,实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。
Jun, 2024
提出了一种基于 3D 深度学习的称为 MTS-Net 的方法,用于使用 CT 扫描诊断 May-Thurner 综合征,通过建立一个新的数据集,并设计了一种注意力模块,证明该方法在 MTS 诊断中取得了最先进的结果。
Jun, 2024
该研究论文提出了一种名为 GraphAny 的基础体系结构,实现了对新图进行构造节点分类的推理,使用线性 GNN 的解析解并学习节点的注意力分数来融合多个线性 GNN 的预测,从而实现对不同图结构的泛化,该方法在归纳方式下,使用仅 120 个标记节点的威斯康辛数据集,可以在 30 个新图上实现平均准确率为 67.26%,超过了在受监督的规则中训练的 GCN 和 GAT 以及其他归纳基线。
May, 2024
我们提出了 Faithful Attention Explainer(FAE)的框架,用于生成关于关注特征的忠实文本解释,并展示了该模型在生成图像描述和解译人类注意力方面的良好性能。
May, 2024
通过提出一种新的方法来实现低内存和计算成本的高阶 Volterra 滤波,在 DCNN 训练的前向和反向传播过程中具有计算优势,并基于该方法提出了一种名为 Higher-order Local Attention Block(HLA)的新型注意力模块,并在 CIFAR-100 数据集上进行了测试,显示了在分类任务中的有竞争力的改进。
Apr, 2024
利用单视角 RGB 图像进行三维重建及新视角合成的研究中,提出了一种名为 DIG3D 的新方法,该方法利用编码 - 解码框架,通过编码器的深度感知图像特征指导解码器生成三维高斯图像,具体来说,引入了可变形变换器,通过三维参考点和多层细化适应来进行高效且有效的解码。通过利用三维高斯图像的优势,我们的方法为从单视角图像进行三维重建提供了高效且准确的解决方案。我们在 ShapeNet SRN 数据集上对方法进行了评估,在汽车和椅子数据集上获得了分别为 24.21 和 24.98 的峰值信噪比(PSNR),结果比最近的方法提高了约 2.25%,证明了我们方法在实现优越结果方面的有效性。
Apr, 2024