vit models | BriefGPT - AI 论文速递

关键词vit models

搜索结果 - 5

CVPR人脸识别的关键点相对位置编码
我们提出了一种名为 KP-RPE 的新方法，通过利用关键点（如面部标志点）使 ViT 对尺度、平移和姿态变化更具弹性，从而增强其对未知仿射变换的鲁棒性。实验证明 KP-RPE 在改进低质量图像的人脸识别性能方面特别有效，尤其是在对齐易失效的
PDF3 months ago
从 CNN-Transformer 模型中提取知识，以增强人类动作识别
通过知识蒸馏以及结合 CNN 和 ViT 模型，本研究旨在改善人体动作识别的性能和效率，从较大的教师模型向较小的学生模型传递知识，并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型，扩展了对局部图像特征和全局特
PDF8 months ago
ViT 统一：联合指纹识别和呈现攻击检测
本研究提出使用 Vision Transformer（ViT）模型的统一系统架构，实现虚假检测和匹配，并取得了与最先进（SOTA）的顺序系统相当的 98.87% 的平均集成匹配（IM）准确率，但参数只有后者的约 50％，延迟只有后者的约 5
PDFa year ago
ICLRToken Merging：让您的 ViT 更快
Token Merging（ToMe）是一种简单的方法，可以提高现有 ViT 模型的吞吐量，无需进行训练。ToMe 逐渐合并转换器中相似的标记，使用一种通用且轻量级的匹配算法，可以像修剪一样快速，并具有更高的准确性。ToMe 的准确性和速度
PDF2 years ago
MVP: 多模态引导的视觉预训练
本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法，该方法利用来自其他几个模态的指导信息对图像进行预训练，取代了 Vision Transformer 中的 tokeni
PDF2 years ago