May, 2024

检测缺乏上下文的多模态情况并避免无根据的预测

TL;DR通过收集上下文数据并训练一个上下文选择模块来解决 VLU 基准测试中普遍存在的问题,防止模型依赖无法支持的假设进行训练,同时开发了一个通用的 CARA 检测器来增强模型准确性,并且通过创建 CASE 集评估不充分的上下文检测器的性能,这些工作显著推进了在复杂现实场景中生成可信可靠的视觉语言模型的发展。