使用多尺度 RNN 进行多模态连续交替预测

Aug, 2018

使用多尺度 RNN 进行多模态连续交替预测

Multimodal Continuous Turn-Taking Prediction Using Multiscale RNNs

Matthew Roddy, Gabriel Skantze, Naomi Harte

TL;DR提出了一种多尺度 RNN 架构，用于在不同的时间尺度上模拟交谈中多个模态的特征，模拟语言和声音特征在不同的时间尺度上对于对话期间的特性建模是有益的，同时我们的方法还能够将凝视特征纳入到对话模型中。

Abstract

In human conversational interactions, turn-taking exchanges can be coordinated using cues from multiple modalities. To design spoken dialog systems that can conduct fluid interactions it is desirable to incorporate cues from separate modalities into →

turn-taking modality rnn linguistic acoustic

发现论文，激发创造

利用对比学习进行带门限的多模态融合，以预测人机对话中的轮流发言

本研究采集了一组大规模的多模式对话语料库，并设计了一种新的门控多模式融合机制来利用各种信息进行转换预测。为了解决数据不平衡问题，我们设计了一种简单且有效的数据增强方法，通过对比学习得到更好的特征表示。实验证明，我们的模型在多个方面表现优异，比几种最先进的基准方法更为竞争力。

Apr, 2022

语音和大型语言模型融合的交替对话和听众回应预测

我们提出了一种通过将神经声学模型与大型语言模型（LLM）融合的方法，连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明，我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略，以进一步从 LLM 编码的知识中获益，以理解任务和对话语境，从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。

Jan, 2024

3M-TRANSFORMER：用于体现式交替预测的多级多轮多模态 Transformer

使用基于 Transformer 的新型多模态架构来预测具有多视角的、同步的交互数据中的轮替情况，在已引入的 EgoCom 数据集上进行实验，与现有的基线和替代基于 Transformer 的方法相比，平均性能显著提升了最高达 14.01%。

Oct, 2023

自然对话语言的交替预测

本论文提出了一个基于端对端语音识别器的取向预测器，通过检测用户何时停顿思考或讲完话来联合优化 ASR 任务和取向预测任务，以更好地建模对话交互。测试集表明，该方法在识别包含四类语言障碍的会话句子时，具有 97% 以上的准确率和 100 毫秒的延迟。

Aug, 2022

利用循环神经网络的对话上下文语言模型

本文提出了一种将对话级别的语篇信息融入语言模型中的上下文语言模型，该模型在 Switchboard Dialog Act Corpus 上表现出比传统单轮 RNN 语言模型更好的性能。

Jan, 2017

通过将检测演讲者意图作为次要任务来改善口语对话中的转折点检测

本文介绍了使用声学线索模型来理解对话者交替的研究，提出了一种多任务神经方法，同时预测转换转变和发言者意图，实验结果表明，使用发言者意图预测的辅助任务可以提高对话中转换转变的预测性能。

May, 2018

使用分层潜变量建模多轮对话中的语义关系

本文介绍了使用 Conversational Semantic Relationship RNN 模型解决多轮对话中相关性和差异性的挑战，模型包含三个层级：言语层面、对话层面和发言层面，能够识别全局背景和主题信息，并提高了响应的连贯性和多样性。

Jun, 2019

基于注意力语言模型的一致对话

本研究采用 RNN 型对话模型和动态注意力机制建模了一种连贯的会话延续方法，并通过应用到开放领域和封闭领域的对话数据集进行了评估，结果显示出在多个指标上显著优于基线模型，同时还能通过主题建模进行更进一步的连贯性提升。

Nov, 2016

M2-CTTS: 端到端的多尺度、多模态会话文本到语音合成

提出了一种多尺度，多模态会话文本到语音系统（M2-CTTS），用于综合利用历史会话并增强韵律表达，通过考虑文本和声学因素的粗粒度和细粒度建模，并混合细粒度上下文信息及声学特征，实现了更好的韵律表现和自然度。

May, 2023

融入领域知识改进多轮对话系统中的回应选择

本文提出了一种新颖的神经网络架构，用于多轮对话场景下的响应选择，它应用了上下文级别的注意力和领域特定单词描述提供的额外外部知识。该架构使用双向门控循环单元进行编码，并学习在给定潜在响应表示的上下文单词之间进行关注，同时还使用另一个 GRU 来编码领域关键词描述，从而提高了相应中领域特定关键词的表示，实验结果表明，相对于所有其他最先进的方法，我们的模型在多轮对话中具有更好的响应选择性能。

Sep, 2018