Jun, 2024

大型语言模型是怀疑论者:输入冲突妄想的假阴性问题

TL;DR为了解决语言模型生成与输入上下文不一致的响应的偏见问题,本文揭示了一类新的偏见,即输入 - 冲突幻觉。通过实验证明,语言模型在评估语句的正确性时,更偏向于返回虚假的负面判断,表现出更强的过度自信,并研究了上下文和查询重写对于解决偏见问题的有效性。