Jun, 2024

为什么您会提出这样的建议?人类对语言模型回答的信任

TL;DR通过对开放式新闻标题生成任务中的人类研究和模型评估,我们分析了解释的表达方式和存在对用户信任和模型性能的影响。整体而言,我们提供了证据表明,在用户有机会比较不同的回答时,模型回答中添加解释以证明其推理能显著增加用户对模型的自我报告信任。对这些解释的位置和忠实度也是重要因素。然而,当用户独立地看到回答时,这些增益消失,这表明人类在独立显示时平等地信任所有模型回答,包括欺骗性的回答。我们的发现督促未来的研究更深入地探讨人机合作系统中信任的微妙评估。