本论文提出了一个基于端对端语音识别器的取向预测器,通过检测用户何时停顿思考或讲完话来联合优化 ASR 任务和取向预测任务,以更好地建模对话交互。测试集表明,该方法在识别包含四类语言障碍的会话句子时,具有 97% 以上的准确率和 100 毫秒的延迟。
Aug, 2022
本文介绍了 TurnGPT 语言模型,其通过使用对话的语境和完整性,能够更好地预测口语对话中的转向。我们展示了该模型在多种书面和口头对话数据集上的表现,并证明其胜过之前工作中使用的两个基线模型。此外,我们还研究了模型的各种特性,如注意力和梯度分析,最终认为该模型不仅能够检测转向,而且能够预测完结。
Oct, 2020
本研究采集了一组大规模的多模式对话语料库,并设计了一种新的门控多模式融合机制来利用各种信息进行转换预测。为了解决数据不平衡问题,我们设计了一种简单且有效的数据增强方法,通过对比学习得到更好的特征表示。实验证明,我们的模型在多个方面表现优异,比几种最先进的基准方法更为竞争力。
Apr, 2022
本文介绍了使用声学线索模型来理解对话者交替的研究,提出了一种多任务神经方法,同时预测转换转变和发言者意图,实验结果表明,使用发言者意图预测的辅助任务可以提高对话中转换转变的预测性能。
May, 2018
通过分析谷歌自然问答数据库,本文展示了 GPT-4 可在超过 60%的时间内从问题末尾的遗漏词语有效填补丢失的上下文,并探讨了这种信息损失对发展中的角色模型质量的影响,同时提出了使用简单分类器来确定是否需要填充短语以满足人类对话时间限制的问题是否语义完整。
Apr, 2024
该文研究应用序列到序列模型解决对话响应生成问题的方法,使用基于注意力机制的解码器保证响应内容连贯性,并提出了一种名为‘glimpse-model’的实用方法以适应大型数据集,并使用随机 beam 搜索算法注入多样性来增加生成可接受响应的比例和整体响应长度。
Jan, 2017
本文研究基于信息检索的跨度多轮对话系统以往语句的上下文建模的问题,提出将以前的话语通过一种深度聚合模型聚合成细粒度的上下文进行表示。实验结果表明,与现有的最先进的方法相比,该模型在三个多回合对话基准测试中表现更优秀。
Jun, 2018
通过社交媒体反馈数据构建训练集,在 133M 个人类反馈数据上训练了基于 GPT-2 的 DialogRPT 模型,结合评分模型排名机器生成的对话回复,并通过人类评估证明其效果优于基线模型。
Sep, 2020
提出了一种多尺度 RNN 架构,用于在不同的时间尺度上模拟交谈中多个模态的特征,模拟语言和声音特征在不同的时间尺度上对于对话期间的特性建模是有益的,同时我们的方法还能够将凝视特征纳入到对话模型中。
Aug, 2018
本文提出一种利用端到端方法,基于对话流转信息学习两个不同说话者交互的语音识别模型。该模型采用讲话人特定的交叉注意机制来帮助识别长时间的对话,并在 Switchboard 对话语音库上进行了评估,表现出优异的性能。
Jul, 2019