用低语启迪我:使用语音嵌入增强大型语言模型对口述剧本的分析
本文提出了一种新的训练方法,将预先训练的语境嵌入用于处理声学特征,并扩展了预先训练的语音识别系统的编码器,以构建端到端的口语理解系统,实验结果表明,该系统在三个基准测试中达到与流水线结构相当的性能,在没有使用任何训练数据的情况下,在两个基准测试中经过微调每类 10 个示例后优于流水线结构。
Jul, 2020
利用大型语言模型的处理和推理能力,我们引入了一个语音摘要的框架。该框架结合了经过调整的指令型语言模型和将语音转换为令牌表示的音频编码器,以使语言模型能够解释语音输入,并可根据输入模态产生一致的响应。与先前的方法不同,我们的方法能摘要任意领域的口述内容,并通过变化语言模型提示策略产生不同风格的摘要,实验证明我们的方法优于基于语音识别和语言模型的级联基线模型。
Jun, 2024
本技术报告介绍了我们在音频字幕领域的研究,重点关注了预训练语音转文字的 Whisper 模型和合成字幕的预训练使用。我们探讨了我们的训练过程,并呈现了我们实验的结果,包括模型大小变化、数据集混合和其他超参数。我们的发现证明了不同训练策略对音频字幕模型性能的影响。我们的代码和训练模型在 GitHub 和 Hugging Face Hub 上公开可用。
May, 2023
虚拟助手的交互通常以预定义的触发短语作为开端,我们探索是否可以放弃用户必须以触发短语开始每个指令的要求。通过三种方式进行实验:首先,只使用从音频波形中获得的声学信息来训练分类器;其次,将自动语音识别(ASR)系统的解码器输出,如 1 最佳假设,作为大型语言模型(LLM)的输入特征;最后,探索结合声学和词汇特征以及 ASR 解码器信号的多模态系统。使用多模态信息相对于仅文本和仅音频的模型,在等误差率上可以获得高达 39% 和 61% 的改进。增加 LLM 的规模,并使用低秩适应来进行训练,在我们的数据集上进一步降低了相对误差率高达 18%。
Mar, 2024
本文研究了预训练的深度学习模型在跨模态(文字到音频)检索中的应用,使用浅层神经网络将提取的嵌入映射到公共维度,并探究优化模型的先前培训方法和损失函数选择的重要性。
Oct, 2022
大型语言模型在聊天、推理和问答等任务中表现出卓越的能力,然而标准的语言模型可能会忽略关键的语用信息,如情感、情感和口语风格,而这些信息对于实现自然、类似人类的口语对话非常重要,特别是当这些信息通过声学提示来传达时。因此,我们提出了一种增强语用的生成预训练变压器(ParalinGPT),该模型利用文本和语音模态来更好地建模口语回应的语言内容和语用属性。该模型将文本的对话背景、语音嵌入和语用属性作为输入提示,在序列化的多任务多模态框架中。实验结果表明,所提出的序列化多任务方法在当前和回应的情感分类上优于典型的序列分类技术。此外,利用对话背景和语音嵌入显著改进了回应文本的生成和情感预测。我们提出的框架在当前情感准确度、回应情感准确度和回应文本 BLEU 分数上分别取得了 6.7%、12.0%和 3.5%的相对改进。
Dec, 2023
利用大型语言模型(LLMs)和语音基础模型,先进的语音 - 文本双模工作可以实现复杂的任务,如口语翻译(ST)和问题回答(SQA),同时具有更简单的结构。本文利用 Whisper 编码器和预训练的 Yi-6B 的功能,通过经验结果发现,使用一个层的模块和百小时的语音 - 文本多任务语料库可以实现模态对齐。我们在推理过程中进一步交换 Yi-6B 为与人类偏好相符的 Yi-6B-Chat 版本,发现模态对齐能力同样适用。此外,奇异值分解(SVD)揭示的对齐子空间还意味着线性对齐子空间是稀疏的,这为连接其他特征(如声纹或视频)以扩展模态性留下了可能性。
Jun, 2024
在这项研究中,我们发现了 Whisper 这个多任务和多语言语音模型在少数语言上的性能问题,并证明这是与讲话者特征及模型相关偏差有关。针对这个问题,我们提出了 DistilWhisper 方法,通过轻量级的模型微调和知识蒸馏策略,在保留了多任务和多语言预训练的鲁棒性的同时,有效地提升了目标语言的 ASR 性能。
May, 2024
通过使用预训练的语音 - 文本模型,本研究发现只需 1 小时标注的语音数据,即可与仅使用 10 倍数据的仅语音预训练模型在口语理解任务(情感分析和命名实体识别)上取得可比较的性能;同时发现底层的语音 - 文本模型作为任务自主层面,在共享空间中对齐语音和文本表示,而顶层则更加任务特定。
Oct, 2023