对话策略学习:联合澄清和主动学习查询
本文提出了通过增强学习模型来澄清模糊问题的方法,包括分割问题、选择标签、确认意图和构建适当的响应。模型基于深度政策网络的强化学习模型,通过真实用户点击数据评估并展示了显著的性能提升。
Dec, 2020
我们提出了一个任务无关的框架来通过询问用户澄清问题来解决模型中的歧义,我们的方法在确定何时需要澄清、确定要问的澄清问题以及通过澄清获得的新信息方面都取得了显著成果,并对模型的不确定性进行了估计,我们的方法在准确识别需要澄清的预测方面始终优于现有的不确定性估计方法,使系统能够在仅允许在 10%的示例上进行澄清时将性能提升两倍。
Nov, 2023
本研究基于强化学习模型,针对生动图像作为学习基础的人机交互场景,训练了一种多模态对话代理,并基于 BURCHAK 语料库对代理进行了交互式学习和评估,在提高分类器准确性的同时,尽量减少学习过程中的人工操作。结果表明,该代理学习策略的性能超过基于手工定制的策略,并能够与人类模拟器有效协同学习。
Sep, 2017
Action-Based Contrastive Self-Training (ACT) is a quasi-online preference optimization algorithm that improves conversation modeling in large language models (LLMs), particularly in the area of disambiguation and dialogue policy learning.
May, 2024
本文详细介绍了对话系统提出澄清问题的挑战(ClariQ),为了解决信息查找中遇到的模糊问题,提供通用的评估框架以评估混合倡议式对话。
Sep, 2020
本文提出修改对话系统,使其能够学习的方法,并讨论了如何从对话中提取知识、更新代理的语义网络并以行动和观察为基础。希望引起人们对该领域的关注,并成为未来研究的重点。
Feb, 2022