BriefGPT.xyz
Ask
alpha
关键词
latent tokens
搜索结果 - 2
Yo'LLaVA: 个性化语言和视觉助手
本文介绍了将个性化主题嵌入到一组潜在令牌中的 Yo'LLaVA 方法,通过少量示例图像有效地学习并更有效地编码视觉属性,用于实现 Large Multimodal Models(LMMs)与特定主题的对话。
PDF
23 days ago
CVPR
Vision Transformers 是参数高效的音视学习器
本文研究冻结的视觉 transformers 模型的能力与使用 LAVISH 适配器对其应用到视听任务的可行性,结果显示此方法获得了很好的效果。
PDF
2 years ago
Prev
Next