BriefGPT.xyz
大模型
Ask
alpha
关键词
vlm
搜索结果 - 3
测试时零样本时序动作定位
通过引入一种新的方法 (T3AL),该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation,并采用自我监督学习的启发式程序进行动作区域定位,使用最先进的字幕模型提取的帧
→
PDF
3 months ago
CLIP 作为 RNN:无需培训即可分割无限的视觉概念
通过引入一个创新的递归框架,我们的研究表明,在不进行训练的情况下,我们的模型能够优于那些经过百万级附加样本微调的方法,为零样本语义和参考图像分割任务的最新记录设定了新的技术水平。
PDF
7 months ago
FashionVQA:一种特定领域的视觉问答系统
该论文训练了一个视觉问答系统,使用多种模态的数据来回答关于时尚照片中服装的自然语言问题。他们使用大规模的领域特定的多模态数据集来训练该系统,该数据集使用模板自动生成,模型的最高准确性超过了人类专家水平。
PDF
2 years ago
Prev
Next