SPAFormer：使用 Transformer 进行顺序 3D 零件组装

Mar, 2024

SPAFormer：使用 Transformer 进行顺序 3D 零件组装

SPAFormer: Sequential 3D Part Assembly with Transformers

Boshen Xu, Sipeng Zheng, Qin Jin

TL;DRSPAFormer 是一种创新型模型，旨在解决 3D 零件组装任务中的组合爆炸挑战，通过利用装配序列的弱约束来降低解空间的复杂性，提供更好的通用性能和长期视野组装的策略。

Abstract

We introduce spaformer, an innovative model designed to overcome the combinatorial explosion challenge in the 3d part assembly (3D-PA) tas

spaformer 3d part assembly combinatorial explosion assembly sequences partnet-assembly

发现论文，激发创造

多层次推理用于机器人装配：从序列推断到接触选择

将物体的装配从其组成部分自动化是一个复杂的问题，具有生产制造、维护和再生利用等无数应用。我们的研究提出了一个整体多层次的部件装配规划框架，包括部件装配顺序的推理、部件运动规划和机器人接触优化。我们通过引入大规模部件装配序列数据集（D4PAS）来训练 Part Assembly Sequence Transformer （PAST）神经网络，实验结果表明我们的方法相比之前的方法具有更好的泛化性能，且推理过程所需的计算时间显著减少。

Dec, 2023

使用图形转换器规划装配顺序

本文提出了基于异构图转换器的装配序列规划框架，并使用自收集的 LEGO 模型数据库进行了验证。通过研究节点特征和边缘特征之间的不同影响并进行一系列实验证明了模型的有效性（相似性 0.44）, 生成了可行和合理的 Benchmark 组件装配顺序.

Oct, 2022

使用空间和时间转换器的三维人体姿势估计

本研究提出一种基于 transformer 的算法，能够在视频中实现 3D 人体姿态估计，通过对空间和时间进行变换，对每一帧中人体关节关系进行建模，并在中心帧上输出准确的 3D 人体姿态，该算法在 Human3.6M 和 MPI-INF-3DHP 数据集上实现了最先进的成果。

Mar, 2021

FaceFormer：基于 Transformer 的语音驱动 3D 面部动画

提出了一种基于 Transformer 的自回归模型，称为 FaceFormer，用于声控 3D 面部动画。该模型能够对长时间音频上下文进行编码，并自回归预测一系列动画 3D 面网格。通过自监督预训练语音表示，使得该模型能够成功解决数据稀缺问题。同时，设计了两种有偏的注意机制，并进行为这个特定任务进行优化。大量实验证明，该方法优于现有的最先进技术。

Dec, 2021

通用部件组装规划

提出了使用基于 transformer 的模型 GPAT 对异形零件进行组装的任务进行规划的方法，并证明了其在新颖的、多样化的目标和部件形状方面的泛化能力，项目网站：this https URL

Jul, 2023

SPFormer：使用超像素表示增强视觉 Transformer

SPFormer 是一种新颖的视觉变换器，增强了超像素表示，通过对图像内容进行自适应划分，有效捕捉了复杂的细节，并在各种基准测试中表现出优异性能。其独特的可解释性结构提供了对模型内部过程的洞察，显著提高了 SPFormer 的稳健性。

Jan, 2024

Score-PA：基于得分的三维部件装配

本文介绍了一种基于评分的三维部件组装框架（Score-PA）以及一种加速采样过程的新算法（FPC），并通过多种度量指标评估了组装质量和多样性，评价结果显示该算法优于现有的最先进方法。

Sep, 2023

ShapeFormer：基于 Transformer 和稀疏表示的形状补全

ShapeFormer 是一个基于 transformer 的网络，它可以在给定不完整和可能带有噪声的点云的情况下生成物体完成的分布，通过采样分布，可以生成类似于输入的可能完成物体，我们引入了一种紧凑的 3D 表示方法 —— 向量量化深度隐式函数，它利用空间稀疏性将 3D 形状的近似表示成短序列的离散变量，实验表明，ShapeFormer 在处理不完整的输入情况下的物体形状补全问题上性能优于先前的方法。同时，我们还展示了我们的方法可以有效处理各种不同形状类型，不完整的输入模式和真实世界的扫描数据。

Jan, 2022

ConvFormer: 利用动态多头卷积注意力实现 Transformer 模型的参数减少，用于 3D 人体姿势估计

本文提出了 ConvFormer：一种新型的卷积变压器，新增了一种动态的多头卷积自注意机制用于单目 3D 人体姿势估计。通过对人体各关节点之间的关系进行建模，利用时间关节特征的新概念进行完全的时间信息融合，成功地在三个基准数据集上实现了 SOTA 水平的结果，相对于以前的变压器模型取得了显著的参数降低。

Apr, 2023

高效远程 Transformer：你需要参与更多，但不一定是每一层

提出了一种名为 MASFormer 的变种 Transformer 模型，它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系，又能在其余层使用稀疏注意力提高计算效率。实验结果表明，该模型在自然语言建模和生成任务中能够达到与全注意力的 Transformer 模型相媲美的性能，同时显著降低计算成本（多达 75%），并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。

Oct, 2023