明确动作学习:通用性和可解释的对话生成
MentalAgora 是一个采用大型语言模型和多个代理之间的相互作用来提供量身定制的心理健康支持的新颖框架。通过战略辩论、定制辅导员创建和回应生成三个阶段的操作,该框架使得回应根据个体用户的喜好和治疗需要进行动态定制。使用由心理健康专业人员创建的高质量评估数据集 TherapyTalk 进行的实验表明,MentalAgora 生成了与专业人士一致并增强用户偏好的回应。我们的评估,包括实验和用户研究,证明 MentalAgora 符合专业标准并有效地满足用户偏好,为数字化心理健康干预设立了新的标杆。
Jul, 2024
通过将常识推理分解为明确步骤,从而更好地生成、选择和整合常识来提高对话交互的自然性、参与度、特定性和整体质量,从而在常识推理增强的响应生成领域取得了最新技术进展。
Jun, 2024
研究了大型语言模型(LLMs)在人机对话中的回应生成任务中的限制及不同对话类型下的 LLM 适应技术的评估方法,发现没有普遍适用的最佳适应技术,包括人工评估以避免自动测量引起的不准确预期和结果。
Jun, 2024
多语种任务对话代理人的创建在训练数据获取成本高的情况下具有挑战性,通过改进训练数据效率的研究趋势,我们首次展示了上下文学习在解决多语种任务对话代理人中的有效性。通过将具有挑战性的对话状态跟踪 (DST) 子任务分解为更简单、更适合上下文学习的步骤,我们在多语种任务对话数据集 X-RiSAWOZ 上测试了我们的方法,并在 6 种语言上获得了以每轮对话的 DST 准确性为 55.6% 至 80.3% 的结果,看似比微调模型的 SOTA 结果(60.7% 至 82.8% 的准确性)要差;我们在响应生成 (RG) 子任务上的 BLEU 分数也明显低于 SOTA 的结果。然而,在手动评估验证集后,我们发现通过纠正金标签错误和改进数据集注释模式,我们的启示式 GPT-4 在 DST 方面可以达到 89.6% 至 96.8% 的准确性,并且在不同语言上的响应生成中超过 99% 的正确率。这使我们得出的结论是,当前的自动度量指标严重低估了上下文学习的有效性。
May, 2024
ICL 的框架 UniICL 通过一个冻结的 LLM 统一了演示选择、演示压缩和响应生成,并实现了有效的缩放,从 4-shot 到 64-shot 的 ICL 提高了 12 倍。
May, 2024
DuetSim 是一个利用大型语言模型的创新框架,通过采用两个语言模型来生成任务导向的对话,既增加了回答的多样性又提高了准确性,通过在 MultiWOZ 数据集上的实验证实了其效果。
May, 2024
通过引入增强型问题重写器和知识过滤器以提高检索质量,以及引入检索触发器来减少不相关的外部知识检索,ERAGent 框架在改善响应准确性,提高效率和个性化方面表现出优势,对于 RAG 领域的进展和实际系统的应用具有潜力。
May, 2024
大型语言模型正在革新多个领域,包括人工创造力。本文介绍了一种名为创造性束搜索的方法,利用多元束搜索和以大型语言模型为评判者的方式进行回应生成和回应验证。定性实验结果表明,我们的方法可以提供比标准抽样技术更好的输出。同时展示了回应验证步骤对于回应生成步骤的必要补充。
Apr, 2024
该研究探讨了 SynTOD,一种用于开发端到端任务导向对话系统的新型合成数据生成方法,该方法能够处理意图分类、槽填充、对话问答和检索增益响应生成等复杂任务,而无需依赖众包或现实世界的数据。实验结果显示,使用受图引导的响应模拟能够显著提高意图分类、槽填充和响应相关性,相较于单一提示的模拟对话。该研究还调查了不同基础和指导调整的大型语言模型在端到端任务导向对话系统上的有效性,并探索了它们在评估回应和与人类判断之间的相关性。这些发现为领域特定的任务导向对话系统的快速开发和评估铺平了道路。研究团队还发布了用于研究目的的数据集、模型和代码。
Apr, 2024
基于用户编辑的互动学习语言代理,通过历史编辑数据推断用户的潜在偏好,定义推动未来回复生成的提示策略,实现代理和用户偏好的对齐,减少用户编辑成本和提高性能。
Apr, 2024