本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文旨在分析分析ViT模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用ViT以无需像素级监督的方式实现准确的语义分割。
May, 2021
3DETR是一种基于Transformer的端到端目标检测模型,适用于3D点云,相较于现有的检测方法,它需要最少的修改,可以通过将3D领域知识整合进去得到进一步的改进,在ScanNetV2数据集上,相比于VoteNet基线具有9.5%更好的性能,并且适用于其他3D任务。
Sep, 2021
本文提出了一种简单的视觉Transformer设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
提出了一种名为As-ViT的自动缩放框架,用于设计和扩展Vision Transformers(ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需12小时的训练。
Feb, 2022
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
使用视觉transformer替代卷积在现有的高效,高性能的3D目标重建技术中,预测三维结构并取得类似或优于基线方法的准确度,表明视觉transformer在三维目标重建任务中有着巨大的潜力。
Feb, 2023
提出了一种名为Mask3D的预训练方法,可以将现有的大规模RGB-D数据应用于自监督预训练中,将3D先验嵌入到2D的学习特征中,并对多个场景理解任务产生了改进,尤其是语义分割。
ODIN是一种利用转换器架构,在2D RGB图像和3D点云上进行分割和标记的模型,通过位置编码区分2D和3D特征操作,在多个基准测试上实现了最先进的性能。
Jan, 2024
Any2Point是一种参数高效的方法,通过引入虚拟投影策略和引导适配器模块,使得基于任何模态(视觉、语言、音频)的大型模型能够进行3D理解,并且在实验中展示了方法的有效性和高效性。
Apr, 2024