实时连续的话语交替预测:使用声音活动投影
研究报告通过使用音频活动预测模型,在多语言数据中进行了口语对话研究,并对单语和多语模型进行了比较分析,发现多语模型对所有语言的预测表现与单语模型相当,同时还分析了声调敏感性和两种不同的音频编码器。
Mar, 2024
本论文提出了一个基于端对端语音识别器的取向预测器,通过检测用户何时停顿思考或讲完话来联合优化 ASR 任务和取向预测任务,以更好地建模对话交互。测试集表明,该方法在识别包含四类语言障碍的会话句子时,具有 97% 以上的准确率和 100 毫秒的延迟。
Aug, 2022
本文提出了一种新的终端对终端的音视频多人说话识别方法 - 视觉上下文注意力模型 (VCAM),使用可用的视频信息将解码的文本分配给多个可见面孔中的一个,具有解决多人说话建模方法中的标签歧义问题,该方法实现为基于 Transformer-Transducer 的终端到终端模型,并使用来自 YouTube 视频的两个说话者音频 - 视觉重叠话语数据集进行评估,表明 VCAM 模型相对于之前报告的仅音频和音视频多人说话识别系统提高了性能。
Apr, 2022
我们提出了一种通过将神经声学模型与大型语言模型(LLM)融合的方法,连续预测口语对话中的交替和回应位置。在 Switchboard 人人对话数据集上的实验证明,我们的方法始终优于单模态的基线模型。我们还开发了一种新颖的多任务指令微调策略,以进一步从 LLM 编码的知识中获益,以理解任务和对话语境,从而带来额外的改进。我们的方法展示了结合 LLM 和声学模型在人类和语音启用的 AI 代理之间实现更自然和对话式交互的潜力。
Jan, 2024
本文提出了一种新的视觉感知文本转语音(VA-TTS)任务,它可以根据面对面交流中听者的语音和面部表情条件语音的生成,实验表明该方法可以在多种情景下生成更加自然有节奏感的音频。
Jun, 2023
本文提出了一种针对实时应用具有低延迟的 CPU 端到端文本转语音系统,使用自回归基于注意力机制的序列到序列声学模型和 LPCNet 声码器进行波形生成,实验结果显示,该系统能够在 CPU 上几乎达到 31 倍的实时最小延迟,并且能够生成几乎自然的高质量语音。
Nov, 2021
本文利用音频监督视频中活跃讲话者检测的学习,通过声音活动检测 (VAD) 以弱监督的方式指导基于视觉的分类器学习。使用时空特征进行分类,学习人特定的模型以及在线适应性的改进,利用时间连续性克服了缺乏干净训练数据的问题。通过跨模态学习,不需要监督,将知识从一种模式传递到另一种模式,建立了自学习活跃讲话者检测系统。
Mar, 2016
本文介绍了我们正在进行的设计一种名为 VoCopilot 的新型声音跟踪系统的努力,它是一个以节能的声学硬件和固件为中心,结合先进的机器学习模型的端到端系统。通过利用大型语言模型,VoCopilot 能够在不学习复杂的机器学习技术的情况下,持续跟踪对话,记录并转录它们,并从中提取有用的见解。为了保护终端用户的隐私,VoCopilot 使用一种新颖的唤醒机制,只记录终端用户的对话。此外,整个处理过程可以在一台普通的计算机上运行(Mac Mini M2)。在本工作中,我们展示了 VoCopilot 在两个使用场景的真实环境中的有效性。
Dec, 2023
本研究提出了一种轻量级的适应性神经 TTS 系统,采用三个单独的神经网络块来实现韵律预测、声学特征预测和线性预测编码神经声码器,性能接近自然语音合成,同时在标准 CPU 上实时性能比真实速度快 3 倍,系统的模块化设置使得可适应新的语音,只需要少量的数据,在大量实验中展示了系统的高质量和适应性,提高了 0.12 的质量差距和 3% 的相似性差距,可适应未见的声音和性别的合成。
May, 2019
本文介绍了一种新的音视频转换器方法,在自注意构造中利用不同类型的音视频相关性来预测和优化时空中的时序音视频关系以实现多人会话视频中主要发言者的本地化和突出显示,同时引入了新收集的数据集。
Aug, 2021