基于端到端LSTM的对话控制优化-监督学习与强化学习
本文提出了一种基于LSTM网络,利用自动语音识别假设直接跟踪状态的增量式对话状态跟踪器,并分析ASR置信度、包括在训练数据中的转录文本和模型平均等方面对模型性能的贡献。
Jul, 2015
该论文提出了一个基于Deep Recurrent Q-Networks变体的端到端对话系统框架,使用强化学习与监督学习的混合算法,在20 Questions游戏模拟器上的实验结果表明,该模型优于基线模型,并学习了潜在对话状态的分布式表示。
Jun, 2016
Hybrid Code Networks (HCNs) combine recurrent neural networks (RNNs) with domain-specific knowledge, reducing the training data needed for dialog systems while retaining the benefit of inferring a latent representation of dialog state.
Feb, 2017
本文提出一种采用深度强化学习框架实现的迭代式对话策略优化方法,解决了当前学习对话策略的主流方法之一 - 与用户模拟器进行对话时模拟器可靠性低的难题,同时也极大地提高了任务成功率与任务奖励值。此方法可以广泛应用于端到端任务导向型对话系统中,其关键在于通过深度RL来同时优化对话代理和用户模拟器的对话策略,并且对话代理和用户模拟器均建立在端到端的神经网络模型上。
Sep, 2017
介绍了一种基于神经网络的任务导向对话系统,可以使用深度强化学习进行端到端优化,可跟踪对话状态,与知识库交互,并将查询结果整合到代理人的响应中,以成功完成任务导向对话。
Nov, 2017
该研究工作关注基于目标导向的对话系统中的问题,提出了一种使用监督学习和强化学习方法的新方法,并引入了多个有效的下一个话语来评估具有更现实设置的目标导向性对话系统。通过引入多种有效的下一个话语,该文改进了原始bAbI对话任务,现有的端到端神经方法的表现从原始bAbI对话任务的81.5%下降到permuted-bAbI对话任务的30.3%,而其提出的方法则取得了47.3%的准确度。
Aug, 2018
本文描述了一种基于元学习的方法,通过选择性地从相关的对话任务数据中学习,使用少量的数据以及来自相关对话任务的数据来训练神经对话系统,从而显著提高了对话任务的准确性。
Oct, 2021
本文研究了如何通过自学习的方式使得Task Bots自适应于动态环境,并提出了SL-AGENT框架,该框架包含一个对话模型和一个预训练的奖励模型,能够在无需或最小化人工标注的情况下通过强化学习在人机交互中学习,并在自动和人工评估中证明其有效性。
Jan, 2022