BriefGPT.xyz
大模型
Ask
alpha
关键词
vit models
搜索结果 - 5
CVPR
人脸识别的关键点相对位置编码
我们提出了一种名为 KP-RPE 的新方法,通过利用关键点(如面部标志点)使 ViT 对尺度、平移和姿态变化更具弹性,从而增强其对未知仿射变换的鲁棒性。实验证明 KP-RPE 在改进低质量图像的人脸识别性能方面特别有效,尤其是在对齐易失效的
→
PDF
3 months ago
从 CNN-Transformer 模型中提取知识,以增强人类动作识别
通过知识蒸馏以及结合 CNN 和 ViT 模型,本研究旨在改善人体动作识别的性能和效率,从较大的教师模型向较小的学生模型传递知识,并通过引入 Transformer 视觉网络作为学生模型以及卷积网络作为教师模型,扩展了对局部图像特征和全局特
→
PDF
8 months ago
ViT 统一:联合指纹识别和呈现攻击检测
本研究提出使用 Vision Transformer(ViT)模型的统一系统架构,实现虚假检测和匹配,并取得了与最先进(SOTA)的顺序系统相当的 98.87% 的平均集成匹配(IM)准确率,但参数只有后者的约 50%,延迟只有后者的约 5
→
PDF
a year ago
ICLR
Token Merging:让您的 ViT 更快
Token Merging(ToMe)是一种简单的方法,可以提高现有 ViT 模型的吞吐量,无需进行训练。ToMe 逐渐合并转换器中相似的标记,使用一种通用且轻量级的匹配算法,可以像修剪一样快速,并具有更高的准确性。ToMe 的准确性和速度
→
PDF
2 years ago
MVP: 多模态引导的视觉预训练
本文介绍了一种名为 Multimodality-guided Visual Pre-training (MVP) 的方法,该方法利用来自其他几个模态的指导信息对图像进行预训练,取代了 Vision Transformer 中的 tokeni
→
PDF
2 years ago
Prev
Next