Feb, 2024

基于 LLM 助手何时出错:对基于提示的软件求助交互有效性的研究

TL;DR大型语言模型(LLM)助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot,后者还提供了构建适当提示的指南。但令人惊讶的是,虽然 SoftAIBot 优于基准 LLM,但我们的结果显示,无论是否使用提示指南和领域上下文的集成,LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联,并且通常逐字逐句地遵循 LLM 的建议,即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难,降低了任务完成率。我们的详细分析还表明,用户对 LLM 的回应中的错误毫不知情,这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加,我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性,以帮助用户理解基于提示的交互,识别偏见,并最大化 LLM 助手的效用。