May, 2024

UDKAG: 增强大型视觉语言模型的最新知识

TL;DR提出了一种名为 UDKAG 的框架,通过互联网搜索来为 Large vision-language models 提供最新的知识,以应对视觉问答。使用层级过滤模型从搜索引擎返回的网站中有效地找到最有帮助的内容。实验结果表明,该框架的效果比 GPT-4V 高出约 25%。