COLINGMar, 2024

基于无法回答的数学问题对大型语言模型中的幻象进行基准测试

TL;DR使用非可回答的数学问题 (UMWP) 的数据集和文本相似度与数学表达式检测相结合的方法,评估了大型语言模型 (LLMs) 在问答任务中的幻觉问题,并通过对 31 个 LLM 进行广泛实验的结果表明,上下文学习和人工反馈强化学习 (RLHF) 训练可以明显提高模型避免幻觉的能力。