直白真实对话：面对面交流的口语对话模型

ACLJun, 2024

直白真实对话：面对面交流的口语对话模型

Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation

Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, Joanna Hong...

TL;DR本研究介绍了一种新颖的面对面口语对话模型，利用用户输入的音频 - 视觉语音并生成回应的音频 - 视觉语音，旨在创建一种不依赖中间文本的化身聊天机器人系统，并引入 MultiDialog，这是第一个包含约 340 小时近 9000 个对话的大规模多模态（音频和视觉）口语对话语料库。

Abstract

In this paper, we introduce a novel face-to-face spoken dialogue model. It processes audio-visual speech from user input and generates audio-visu

face-to-face spoken dialogue audio-visual speech avatar chatbot system multidialog multimodal synthesis

发现论文，激发创造

基于深度神经网络的逼真面对面对话系统

本文提出了一种基于序列到序列模型和基于生成对抗网络的真实人物合成器的创新面对面对话系统，该系统在 ESPN 节目数据上训练和评估显示出可以生成自然面部表情和逼真的面部图像。

Aug, 2019

DualTalker: 语音驱动的三维面部动画的跨模态双重学习方法

通过交叉模态的双学习框架和辅助的模态一致性损失，提高数据使用效率、关联交叉模态的依赖关系，并增强微妙面部表情动力学的映射，从而在语音驱动三维面部动画中提高性能。

Nov, 2023

基于游戏的视频上下文对话

本文介绍了基于现场足球比赛视频和 Twitch.tv 聊天记录的多说话者、视觉语境下的对话数据集，利用此数据集开发出具有多模态对话技能和视觉定位应用的对话模型，并通过多项评估指标和人类评估研究验证其效果。

Sep, 2018

多模态基于注意力机制视频特征的端到端视听场景感知对话

该论文介绍了一种新的视频场景感知对话系统，该系统将多个研究领域的最新技术整合应用，包括端到端的对话技术、视觉问答技术，以及视频描述技术。通过收集一个有关人类行为视频的对话数据集，作者们使用该数据集训练出一种多模态对话模型，它可以在对视频进行讨论时生成响应。最终实验结果表明，使用为多模态注意力视频描述开发的多模态特征可以提高对于动态场景（视频）生成对话的质量。

Jun, 2018

将实时互动会话建模为定时记录的转录

使用预训练的纯文本语言模型，通过建模定时记录的转录文本并使用因果拒绝采样进行解码，我们提出了一种简单但通用的方法来模拟实时互动对话。我们通过两个案例研究（即即时通讯对话和口语交流）展示了该方法的潜力，这些案例研究需要分别以约 30 tok/s 和 20 tok/s 的速率生成文本以保持实时互动。这些功能可以使用相对较少的数据添加到语言模型中，并在商品硬件上运行。

May, 2024

一种面对面的神经对话模型

我们提出了一个新的神经会话模型，其不仅读取和生成文本信息，还能够识别和生成面部表情，以及基于对话中的情绪适应其响应。该模型采用 RNN 编码器 - 解码器架构，通过观察电影进行训练，并通过自动度量和人类研究展示了其生成更自然对话的能力。

Dec, 2018

神经文本转口头表达：深度文本到视听说话合成实现听觉与逼真图像

在这篇论文中，我们提出了第一个使用 Transformer 且不遵循级联方法的文本驱动音频视觉语音合成器 NEUTART，它使用联合音频视觉特征空间、语音信息的 3D 面部重建以及通过视觉监督的嘴唇阅读损失，该模型能够生成人类般发音和音视频同步的逼真说话人脸视频，实验证明其在客观指标和人类评估方面达到了最先进的生成质量。

Dec, 2023

视觉感知的文本转语音

本文提出了一种新的视觉感知文本转语音（VA-TTS）任务，它可以根据面对面交流中听者的语音和面部表情条件语音的生成，实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。

Jun, 2023

PMMTalk：基于互补伪多模特征的语音驱动 3D 面部动画

PMMTalk 是一种使用伪多模态特征的新框架，通过跨模态对齐模块和 PMMTalk 解码器提高面部动画的准确性，同时引入面部混合形状系数，从而产生更准确的结果。

Dec, 2023

TikTalk: 一个实际闲聊的多模态对话数据集

本文介绍了一个新型的多模式聊天对话数据集 - TikTalk，通过视频社交应用的生成视频和相应的对话对构建对话语料库，通过三种模态的数据（文本、视觉和音频），为聊天机器人的深入理解和响应的生成提出了挑战，实验结果表明，TikTalk 仍有大量改进的空间。

Jan, 2023