面向语音单元和文本的联合语言建模
提出了一种跨模态的语音和语言模型,使用两种不同的离散标记器来处理语音和文本模态,取得了优异的成绩,尤其表现出色的是在 CoVoST-2 语音翻译任务上。
Sep, 2022
通过使用预训练的语音 - 文本模型,本研究发现只需 1 小时标注的语音数据,即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务(情感分析和命名实体识别)上取得可比较的性能;同时发现底层的语音 - 文本模型作为任务自主层面,在共享空间中对齐语音和文本表示,而顶层则更加任务特定。
Oct, 2023
将无监督预训练应用于语言理解,在语音和文本之间建立单一模型,包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进,同时在 GLUE 任务中也取得了不俗的竞争力。
Oct, 2021
该研究旨在构建一种新型的自动预测语音理解系统,该系统利用历史对话信息预测口语意图、对话行为、说话人角色和情感等四种属性,并采用自回归模型和无序训练方法,以应对不同 SLU 任务的高效率和低延迟问题。实验证明,该系统与任务特定的分类器相当,并可有效整合对话环境以进一步提高 SLU 性能。
May, 2023
提出了一个名为统一口语对话模型(USDM)的广泛的语音文本模型框架,用于生成与给定输入语音相关的有机韵律特征的连贯口语回应,而不依赖于自动语音识别(ASR)或文本到语音(TTS)解决方案。该方法利用底层大型语言模型所展示的推理链能力,采用多步骤的语音文本推理方案。经过自动和人工评估表明,该方法在生成自然流畅的口语回应方面非常有效,优于之前的和级联的基线方法。详细的比较研究显示,尽管级联方法在单独的组件上更强大,但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。
Feb, 2024
本文研究构建一种 “思考如何回应” 和 “思考如何讲话” 的人工智能口语对话系统,相比当前独立的聊天机器人和文本到语音(TTS)模块的级联流水线,更贴近人类语音生成过程。研究使用拥有数十亿参数的大型语言模型(LLMs),展示其在语音理解能力上的潜力,并通过统一的编码格式进一步整合对话回应和各种语言特征。实验结果表明,基于 LLM 的方法是构建统一口语对话系统的一种有前景的方向。
Sep, 2023
通过跨模态表示空间的概念,在文本提示的图像生成中取得了惊人的进展。本文提出,联合语音文本编码器通过忽略序列长度差异,能够实现一致的跨模态表示,并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。
Aug, 2023
本文介绍了一种使用 Speech2Text 适配器的联合语音和语言模型,用于桥接语音和语言表示之间的差距,并改进对话状态跟踪性能(DST),并通过 Speech2Entity 检索器增强了 SLM 的性能。
Jun, 2023
我们提出了一种方法,通过单一模型学习多语言语音和文本的统一表示,特别关注语音合成的目的。我们使用语音单元表示多语言语音音频,这是从自我监督语音模型编码的语音特征的量化表示。因此,我们可以将语音视为伪文本,并构建语音和文本的统一表示。然后,我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器,使用目标语言标记来确定解码器,该模型被优化为将口语语言翻译为目标语言的翻译模型。因此,该模型可以建立口语语言的理解方式,并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务,如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外,我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取:https://URL
Aug, 2023