BriefGPT.xyz
Ask
alpha
关键词
vqa tasks
搜索结果 - 3
多模态自回归建模基于视觉单词
成功进行多模态自回归建模,并首次提出了视觉词概念,将视觉特征映射到 LLMs 词汇的概率分布,为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证,证明了我们提出方法的强大性能。
PDF
4 months ago
递归视觉编程
通过递归的视觉编程方法来应对编码解决视觉问答任务,简化生成的代码、提供更高效的问题解决能力以及更好管理复杂的数据结构,并通过广泛实验验证了该方法的有效性。
PDF
7 months ago
探索零样本视觉问答的问题分解
通过研究和应用视觉 - 语言模型,本文提出了问题分解策略和模型驱动的选择性分解方法,以提高视觉问答任务的准确性和性能。
PDF
8 months ago
Prev
Next