dialog policy learning | BriefGPT

关键词dialog policy learning

搜索结果 - 4

对话行为感知 Transformer 用于对话策略学习
利用预训练语言模型的纯文本知识，加速强化学习代理的学习速度，并通过探索对话行为空间最大化长期累积奖励，提出了一种对话行为感知的变压器编码器（DaTrans）。该模型通过在模拟器和人类评估中的验证展示了其有效性和高效性。
PDF10 months ago
EMNLP通过会话机器人访问异构文档
本文介绍了 Doc2Bot，这是一种新型数据集，可用于构建通过会话帮助用户寻找信息的机器。我们提出了三个任务，包括对话状态跟踪，对话策略学习和响应生成，这些任务是具有挑战性且值得进一步研究的。
PDF2 years ago
ACLHERALD: 一种在社交对话中高效检测用户脱离的注释方法
本研究提出 HERALD 框架，并将训练数据注释过程重新定位为去噪问题，以提高注释效率和检测用户不参与的准确度。实验表明，该框架在两个对话语料库中能够达到 86％的用户不参与检测准确率。
PDF3 years ago
目标导向对话中意图建模、策略制定和响应调整
本文设计了一个目标导向的交互式系统，儿童可以通过诸如 “见面打招呼” 和 “Simon 说” 游戏等一系列交互活动与代理互动。研究人员探索了各种特征提取器和模型，以提高意图识别精度，并借助注意力模型等新颖的方式利用先前的用户和系统互动来进行
PDF5 years ago