BriefGPT.xyz
Ask
alpha
关键词
visual modelling
搜索结果 - 2
多模态自回归建模基于视觉单词
成功进行多模态自回归建模,并首次提出了视觉词概念,将视觉特征映射到 LLMs 词汇的概率分布,为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证,证明了我们提出方法的强大性能。
PDF
4 months ago
视频描述的双向长短期记忆网络
提出一种新型的视频字幕生成框架 Bidirectional Long-Short Term Memory,该框架综合保留了视频的信息,并在常用基准测试上验证了该框架的有效性。
PDF
8 years ago
Prev
Next