BriefGPT.xyz
大模型
Ask
alpha
关键词
model scalability
搜索结果 - 2
ViTPose: 用于人体姿势估计的简单视觉 Transformer 基线模型
本文通过一个名为 ViTPose 的基础模型展示了纯视觉 Transformer 在姿态估计任务中的潜力,该模型结构简单、可扩展、训练方式灵活,并在多关键点检测中取得了优异的性能,其中大模型最高精度达到当前最佳水平。
PDF
2 years ago
VIMPAC: 基于掩码预测和对比学习的视频预训练
该研究基于预测任务以及块状掩码策略,提出一种输入处理策略及无数据扩充方法,以达到在 SSV2、Diving48 等视频理解数据集上实现最先进效果的目的,并对模型伸缩性和预训练方法进行了详细分析。
PDF
3 years ago
Prev
Next