通过提问来检测用户意图的大型语言模型新对话生成代理
本研究借鉴自然语言处理和大型语言模型相结合的方法,采用自然文本提示来制作课程内容,有效提高了儿童好奇心问题的生成能力,同时发现开放式训练内容更适合培养好奇心问题发现的技能。
Nov, 2022
本篇论文中,我们提出了一种称之为 Proactive Chain-of-Thought 推导方案,它能够增强 LLMs 的目标规划能力,以解决其在主动对话方面的不足,具体涉及三个方面:澄清、目标引导和非协作对话。我们还探讨了相应的实证结果,以促进未来在基于 LLM 的主动对话系统方面的研究。
May, 2023
通过使用强化学习进行交互式对话的目标导向任务,本研究提出利用大型语言模型生成可能的交互示例,再通过强化学习算法优化这些示例,以实现更优化的交互能力,从而在教学和偏好引导等不同目标导向对话任务中实现了最新的性能。
Nov, 2023
通过比较基于 LLMs 生成的回应与非基于 LLMs 生成的回应的系统,研究了生成回应对主观评价(如情绪变化、认知变化和对话质量)的影响。结果表明,使用 GPT-4 时,情绪变化、共情和其他对话品质显著改善,说明 GPT-4 具有较高的心理咨询能力。然而,研究还指出,即使使用了人类心理咨询数据集训练的对话模型,与基于情景的对话相比,并不能产生更好的结果。在使用了规则、情景或示例回应的系统中,可以通过人工专业人士提前使用 LLMs 生成示例回应或回应模板的方式呈现基于 LLMs 生成的回应,并且直接与用户在现实的心理健康服务中进行交互,这可能引发一些伦理问题。
Jan, 2024
使用大型语言模型和聊天机器人可以简化法律领域的信息获取流程,从而降低法律援助组织的工作量和成本,提高服务的可用性,并使其更容易被更广泛的人群所利用。然而,当前的语言模型存在一个关键挑战,即其倾向于过于自信地根据训练数据的输出分布提供客户问题的‘最佳猜测’,往往忽视了客户的真实意图或具体法律情况,因此,客户可能没有意识到提供重要的额外背景信息或表达其潜在意图的重要性,这在他们的法律案件中至关重要。本文展示了通过自由形式的语言交互使用大型语言模型来引出和推断客户的潜在意图和具体法律情况的概念验证,并提出了未来的研究方向,即使用有监督的精细调整或离线强化学习来在聊天机器人中自动融入意图和语境引出,而无需明确提示。
Nov, 2023
该论文研究了在信息寻求对话中使用大规模语言模型(LLMs)如 ChatGPT 进行基于文件的响应生成。通过人工评估我们发现,ChatGPT 变种虽然有可能插入不在相关片段中的信息,可能存在错觉,但评分比共享任务获胜系统和人工响应更高。
Sep, 2023
该论文介绍了一种自动生成基于搜索查询的对话数据的机器学习方法,通过使用大型语言模型生成问题回答数据集,学习如何与外部搜索 API 通信,以生成具有上下文的搜索查询,从而改善对话系统的回答效果。
Apr, 2023
本研究对基于大型语言模型的对话 UI 进行了研究,目标是实现上下文感知的工具,该工具可以自动利用开发人员的编程上下文来回答问题。我们为用户提供了一个 IDE 插件,允许用户使用高级请求查询后端(例如 OpenAI 的 GPT-3.5 和 GPT-4),我们进行了 32 名参与者的探索性用户研究,研究确认这种方法比 Web 搜索更有效地帮助理解代码,但效果的差异因参与者的经验水平而异。
Jul, 2023
最近大型语言模型(LLMs)的出现吸引了相当多的注意力。本研究提出利用对话摘要任务评估对话理解性能,并从生成的摘要中推导出事实性问题作为对话理解的更灵活的测量方式。评估结果表明,大多数 LLMs 生成的摘要中有 27% 的事实不一致,即使最强模型 ChatGPT 也有 16% 的错误摘要,而对于更具挑战性的事实问题回答,所有评估的 LLMs 的平均准确率仅为 62.8%。详细分析表明,LLMs 对话理解能力中最令人挑战的问题仍然是对话的主题 / 客体的理解,为了刺激和提高 LLMs 对话理解能力,我们提出了一种通过自动构建多任务数据进行微调的范式,实验结果显示我们的方法在 DIAC-FactQA 上获得了 8.9% 的准确率提升。
Nov, 2023
评估大语言模型在教育中的功效,特别是在口语学习领域,引入新的多选题数据集评估模型在理解和应用口语知识方面的表现,研究不同提示技术对模型性能的影响,发现模型在音韵学、语音学和第二语言习得方面具有良好的概念理解,但在解决现实世界问题的推理方面存在限制,并初步探讨了对话交流的发现。
Aug, 2023