文本预训练的语音语言模型
提出了一种跨模态的语音和语言模型,使用两种不同的离散标记器来处理语音和文本模态,取得了优异的成绩,尤其表现出色的是在 CoVoST-2 语音翻译任务上。
Sep, 2022
我们介绍了一种新颖有效的语音翻译模型 LLM-ST,它基于预训练的大型语言模型(LLM),通过将 LLM 与语音编码器集成并使用多任务指导调优,LLM-ST 能够准确地生成带时间戳的转录和翻译,甚至可以处理长时间的音频输入。此外,我们的研究结果表明,在 LLM-ST 的环境下使用 CoT 提示可以带来优势。通过对英语和中文数据集的严格实验,我们展示了 LLM-ST 的卓越性能,在语音翻译领域树立了新的基准。演示:this https URL
Dec, 2023
通过使用预训练的语音 - 文本模型,本研究发现只需 1 小时标注的语音数据,即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务(情感分析和命名实体识别)上取得可比较的性能;同时发现底层的语音 - 文本模型作为任务自主层面,在共享空间中对齐语音和文本表示,而顶层则更加任务特定。
Oct, 2023
提出了一个名为统一口语对话模型(USDM)的广泛的语音文本模型框架,用于生成与给定输入语音相关的有机韵律特征的连贯口语回应,而不依赖于自动语音识别(ASR)或文本到语音(TTS)解决方案。该方法利用底层大型语言模型所展示的推理链能力,采用多步骤的语音文本推理方案。经过自动和人工评估表明,该方法在生成自然流畅的口语回应方面非常有效,优于之前的和级联的基线方法。详细的比较研究显示,尽管级联方法在单独的组件上更强大,但联合的语音文本建模改善了对识别错误和语音质量的鲁棒性。
Feb, 2024
将无监督预训练应用于语言理解,在语音和文本之间建立单一模型,包括 BERT 目标和 w2v-BERT 目标以及其他预训练技术改进,同时在 GLUE 任务中也取得了不俗的竞争力。
Oct, 2021
本研究提出了一种新的减少训练数据量的语音理解模型,在预训练中通过预测单词和音素来学习关键特征,并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。
Apr, 2019
通过音频 - 语言知识蒸馏框架,将语音数据中的声学和语用信息转移到学生语言模型,从而改进了传统语言模型在分析口述文本任务上的性能。
Nov, 2023
本篇论文提出了一种新的预训练模型 WavLM,通过联合学习掩蔽语音预测和去噪,利用 Transformer 结构的门控相对位置偏置来更好地捕捉输入语音的顺序,使 WavLM 不仅具有掩蔽语音预测的语音内容建模能力,同时也提高了对非 ASR 语音任务的潜力,其在 SUPERB 基准测试上取得了最先进的性能,并为各种语音处理任务带来了显着的改进。
Oct, 2021
通过利用大量未标记的语音和文本数据(包括 Libri-Light 语音音频语料库和 CommonCrawl 语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过 wav2vec 2.0 预训练、自我训练和配合语言模型的方法,能够使所有四个 CoVoST 2 语言对的 BLEU 平均值提高 2.6。代码和模型将公开发布。
Apr, 2021