BriefGPT.xyz
Ask
alpha
关键词
language decoder
搜索结果 - 2
目标识别作为下一个令牌预测
通过将图像嵌入到文本令牌的自回归预测过程中,我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合,其中包括将不同标签的令牌建模为独立,并将图像令牌视为前缀。我们提出了一种高效的一次性采样方
→
PDF
7 months ago
一种简单且高效的端到端图像描述方法
通过联接预训练的视觉编码器和语言解码器,提出了一种自组装的交叉模式融合机制,建立了一种朴素但高效的端到端形象字幕框架,名为 VC-GPT,不需要额外的物体探测器,非常好地解决了现有方法中可能存在的问题,验证结果显示 VC-GPT 完全超越了
→
PDF
2 years ago
Prev
Next