基于 LLM 助手何时出错：对基于提示的软件求助交互有效性的研究

Feb, 2024

基于 LLM 助手何时出错：对基于提示的软件求助交互有效性的研究

Why and When LLM-Based Assistants Can Go Wrong: Investigating the Effectiveness of Prompt-Based Interactions for Software Help-Seeking

PDF

Anjali Khurana, Hari Subramonyam, Parmit K Chilana

TL;DR大型语言模型（LLM）助手是帮助用户浏览复杂多功能软件的潜在替代方法。我们通过与 16 名参与者的实验和后续访谈对 LLM 生成的软件指导进行了研究。我们比较了基准 LLM 助手与一种针对特定软件背景优化过的 LLM 助手 SoftAIBot，后者还提供了构建适当提示的指南。但令人惊讶的是，虽然 SoftAIBot 优于基准 LLM，但我们的结果显示，无论是否使用提示指南和领域上下文的集成，LLM 的使用和用户感知没有显著差异。大多数用户难以理解提示文本与 LLM 的回应之间的关联，并且通常逐字逐句地遵循 LLM 的建议，即使是错误的。这导致在使用 LLM 的软件任务建议时出现困难，降低了任务完成率。我们的详细分析还表明，用户对 LLM 的回应中的错误毫不知情，这表明他们在软件专业知识的缺乏和评估 LLM 助手的能力之间存在差距。随着设计领域特定 LLM 助手的推动日益增加，我们强调将可解释的、上下文感知的提示融入 LLM 中的重要性，以帮助用户理解基于提示的交互，识别偏见，并最大化 LLM 助手的效用。

Abstract

large language model (LLM) assistants, such as ChatGPT, have emerged as potential alternatives to search methods for helping users navigate complex, feature-rich software. LLMs use vast training data from domain-specific texts, software manuals, and code repositories to mimic human-lik

large language model llm assistants software guidance prompt-based interactions llm optimization

发现论文，激发创造

学习在课堂中进行提示以理解 AI 的限制：一项试点研究

研究人工智能（AI）的可接受性，探究影响 AI 接受的因素并通过 AI 受教育介入提高人工智能 AI 繁殖的文化训练。

Jul, 2023

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

探索大型语言模型对初学者程序员求助请求的响应

本文探讨了在编程教育中使用大型语言模型（LLMs）的机会和威胁，研究表明 LLMs 有助于识别学生代码中的问题，但不可靠，需要在未来的研究中进一步挖掘。

Jun, 2023

使用大型语言模型的 IDE 内基于生成的信息支持

本研究对基于大型语言模型的对话 UI 进行了研究，目标是实现上下文感知的工具，该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件，允许用户使用高级请求查询后端（例如 OpenAI 的 GPT-3.5 和 GPT-4），我们进行了 32 名参与者的探索性用户研究，研究确认这种方法比 Web 搜索更有效地帮助理解代码，但效果的差异因参与者的经验水平而异。

Jul, 2023

与 LLMS 的谈判：迅速入门、技能差距与推理缺陷

通过观察人类与大型语言模型（LLMs）的对话，本研究基于数据驱动的方法，对 LLMs 的治理和调节进行了归纳性分析，并探讨了非合作性、竞争性情境下的人机交互对人类可能构成的严重威胁以及利用 LLMs 的推理能力存在的不足和可操纵性。此外，研究还揭示了人类在与 LLMs 进行价格谈判时所达成的价格涵盖了广泛范围，指出了人类在有效与 LLMs 互动方面存在的文盲问题。

Nov, 2023

L2 使用指导和互动策略对学习者表现和感知的影响

个性化聊天机器人教学助手在解决教室规模扩大的问题上至关重要，特别是在教师直接存在有限的情况下。大型语言模型（LLM）提供了一个有前途的途径，不断有研究探索它们在教育上的实用性。然而，挑战不仅在于建立 LLM 的效能，而且还在于理解学习者与这些模型之间的互动细微差别，这会影响学习者的参与和结果。我们在一个本科计算机科学课堂（N=145）进行了一个形成性研究，并在 Prolific（N=356）上进行了一项受控实验，探索四种教学指导策略的影响以及学生方法与 LLM 响应之间的互动关系。直接的 LLM 答案稍微提高了表现，而改进学生解决方案培养了信任。我们的发现表明，所提供的指导和 LLM 在回答或改进学生输入方面的角色之间存在微妙的关系。根据我们的发现，我们提供了优化学习者 - LLM 互动的设计建议。

Oct, 2023

超越代码生成：软件工程实践中 ChatGPT 使用的观察研究

通过对 24 名职业软件工程师使用 ChatGPT 一周期间的对话和整体体验进行定性分析，发现他们更多地使用 ChatGPT 获取解决任务的指导或对抽象主题的学习，并提出了一个理论框架，指导今后关于职业软件工程师使用 LLM 的学术讨论和设计未来经验性研究。

Apr, 2024

运用大型语言模型强化聊天机器人以搜集用户自报数据

本研究旨在探讨如何设计自然语言提示以使聊天机器人能够自然地进行对话，从而可靠地收集用户自报数据。通过在线研究（N = 48），我们通过不同的自然语言提示设计和对话主题对聊天机器人进行了评估，并发现提示设计和主题显着影响了对话流程和数据收集表现。

Jan, 2023

软件渗透测试中使用大型语言模型的初步研究

利用大型语言模型（LLM）构建用于软件渗透测试的人工智能代理，通过反复使用和提示工程来提高模型性能。

Jan, 2024

使用 LLMs 探索定性研究

本研究对语言模型（LLMs）的理解能力进行了比较和对照，发现人类分析师和 LLMs 的分类和推理能力存在显著差异，但二者合作可能会产生协同效应，从而丰富了定性研究。

Jun, 2023