本文提出了一种混合式学习方法以通过在线用户交互来训练任务导向型对话系统,该方法包括强化学习和模仿学习,通过神经网络来优化并能够从用户教学中进行学习。实验结果表明,该端到端对话代理能够有效地学习并通过用户反馈了解自己的错误,并在模仿学习阶段之后应用强化学习提高完成任务的能力。
Apr, 2018
本文介绍了一种基于最新的神经网络连续学习技术的领域无关的神经对话模型,同时提出了一种新颖的神经连续学习算法,能够以数据 - 效率的方式跨越不同任务积累技能,在客户支持领域通过从合成对话或人类之间的对话到人 - 计算机对话的连续技能转移来验证方法的功效。
Dec, 2017
本篇论文主要探讨针对特定任务的语音对话系统,重点在于如何通过部分可观察的马尔可夫决策过程来制定对话策略,并以神经网络为函数逼近器的方式,探索深度强化学习算法在对话决策中的应用。
Sep, 2020
研究人员在机器学习和自然语言理解方面的不懈探索中探讨了基于对话的语言学习,发现预测前瞻是一种有前途的学习策略,并表明它可以在没有奖励监督的情况下正确地回答问题。
Apr, 2016
为了解决任务导向的对话系统在学习新知识时需要不断适应的问题,我们提出了一种动态对话策略变换器 (DDPT),它是一种能够无缝集成新知识、处理大状态空间并在暴露到未见过的领域时获得重要的零 - shot 性能的新的动态架构。我们提供一个不间断的学习算法、基线架构和度量标准来评估不间断学习模型。
Apr, 2022
介绍了一种基于神经网络的任务导向对话系统,可以使用深度强化学习进行端到端优化,可跟踪对话状态,与知识库交互,并将查询结果整合到代理人的响应中,以成功完成任务导向对话。
Nov, 2017
本文介绍一种基于神经网络的端到端可训练的目标导向对话系统,以及一种新的数据收集方法,该方法基于一种新型的管道式 Wizard-of-Oz 框架。该方法可用于开发对话系统,帮助用户在餐厅搜索领域自然地交流并完成任务。
本研究基于强化学习,建立一个可生成更多交互式回复、更长且不重复的对话、更容易回答问题的聊天机器人的神经对话模型。
Jun, 2016
该论文提出了一种用于端到端学习任务导向型对话系统的模型,主要组成部分是一种递归神经网络 (LSTM),该网络将原始对话直接映射到系统动作的概率分布中,并且可以使用有目的、强化两种不同方式的优化方法。
该论文提出了一个基于 Deep Recurrent Q-Networks 变体的端到端对话系统框架,使用强化学习与监督学习的混合算法,在 20 Questions 游戏模拟器上的实验结果表明,该模型优于基线模型,并学习了潜在对话状态的分布式表示。