Oct, 2024

LongHalQA:多模态大语言模型的长上下文幻觉评估

TL;DR本研究解决了多模态大语言模型(MLLMs)在生成与图像不一致的文本响应时的幻觉现象。提出的LongHalQA是一种无需LLM的幻觉基准,包含6000个复杂幻觉文本,采用与真实场景匹配的方式进行评估,且引入了新的任务以提高评估的可靠性和效率。研究结果揭示了处理长文本数据时MLLMs面临的新挑战,具有重要的应用价值。