利用密集时空位置编码追踪目标
本文提出一种新的追踪架构,它以编码 - 解码变压器作为核心组件,将目标追踪转化为直接边界框预测问题,从而实现了端到端模型,无需使用任何先前设定的锚点或提案等后处理步骤。
Mar, 2021
提出了 Decoupled Spatial-Temporal Transformer (DSTT) 来改进视频修复效果。该方法通过分解学习空间 - 时间注意力来提高时间和空间精度,同时采用分层编码器,形成更好的空间 - 时间注意力机制。实验证明,该方法比现有的视频修复方法具有更好的效率和性能。
Apr, 2021
本研究提出了一种新的动态位置编码(DPE)方法,通过新的位置嵌入来纠正目标单词的位置信息,相较于传统 Transformers 在英德法意四种翻译任务中取得了显著的性能提升。
Apr, 2022
本文介绍了一种新的机制 ——Decoupled Positional Attention,将位置和段信息编码为 Transformer 模型,提高了训练和推理效率,在 GLUE、XTREME 和 WMT 基准测试中实现了竞争性表现,并进一步将该方法推广到远程的 transformers,显示了性能提升。
Apr, 2021
本文提出 TS3D,一种基于 Transformer 的立体感知 3D 物体检测器,其中包括一种新颖的视差位置编码模型(DAPE)和 Stereo Reserving Feature Pyramid Network(SRFPN),使其在 KITTI 测试集上取得了 41.29%的平均精度。
Apr, 2023
研究了 transformers 在时间序列数据中应用时所需的位置编码方法,提出了一种新的绝对位置编码方法,称为时间绝对位置编码(tAPE);提出了一种高效的相对位置编码实现方法(eRPE),并将 tAPE/eRPE 与卷积输入编码相结合,提出了一种新的多元时间序列分类(MTSC)模型 ConvTran。此模型在 32 个多元时间序列数据集上进行的广泛实验表明,优于最先进的卷积和 transformer-based 模型。
May, 2023
本文介绍了一种基于 STMap 的交通轨迹重建方法,采用了 Spatial-Temporal Deep Embedding(STDE)模型,在像素和实例级别上形成奇偶校验约束,以生成用于 STMap 上车辆条带分割的实例感知嵌入,采用 mutex-watershed 算法最终获得聚类结果。
Sep, 2022
本文提出了一种名为 Temporal-Channel Transformer 的新型转换器,用于从 Lidar 数据中模拟时空域和通道域关系以进行视频物体检测,并以网格体素为基础在 nuScenes 基准测试中取得最先进的性能。
Nov, 2020