利用离散单元作为中间目标提高无文本口语理解
通过将预训练的基于文本的大型语言模型(LLM)与语音输入集成,我们提出使用离散语音单元(DSU)代替连续值语音编码器输出,通过语音适配器将其转换为 LLM 的标记嵌入空间。我们使用自监督语音编码器后跟 k-means 聚类生成 DSU。所提出的模型在来自可见 / 不可见领域的语音输入上表现出强大的性能,并具有口语问答指令遵循能力。我们还探索了来自自监督语音编码器的不同层以及 Mel 频率倒谱系数(MFCC)提取的各种类型的 DSU。我们的发现表明,在口语问答任务的指令调优中,ASR 任务和数据集并不关键。
Jun, 2024
该研究提出了一种简单高效的无监督语音到语义预训练模型,使用无监督自动语音识别作为连接器,实现了不同任务的语音语言理解,其中包括最近热门的口语问答任务,并在 NMSQA 基准测试中达到了最新的最优结果。
Nov, 2022
本文介绍了一种使用少量的语音数据和大量的文本数据结合的方法,可以有效地构建端到端的语音理解系统,并在句意和实体两个任务上得到了验证,最终得出该方法可以在仅使用文本数据进行训练的情况下,达到与使用全部语音数据进行训练的系统性能相近的结果。
Feb, 2022
本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别(E2E ASR)和自监督语言模型(如 BERT)进行微调的通用语义理解框架,该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题,如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明,该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美,具有良好的环境噪声鲁棒性,并且在训练集有限的情况下也能达到较好的效果。
Oct, 2020
提出了一种多级多粒度的语音语义理解(SLU)框架 MMCL,应用对比学习在话语级、槽位级和词级三个层级上,实现意图和槽位之间的互相引导,通过对公开的多意图 SLU 数据集的实验结果和进一步分析,证明了模型取得了新的最先进结果,在 MixATIS 数据集上的整体准确率相比之前最好的模型提高了 2.6 个百分点。
May, 2024
这篇论文探讨了针对 Fluent Speech Commands 数据集的一系列递归架构,用于意图分类,通过结合深度递归架构和标准数据增强,不使用 ASR 级目标或预训练的 ASR 模型即可实现最先进的结果,并且探讨了其对新措辞的普适性,结果表明,该模型在训练期间未见过的措辞上也能表现得相当不错。
Oct, 2019
本文述及基于最近三年的神经网络技术,通过直接从语音信号中提取语义,取代传统的分类式自然语言处理方式,以 spoken language understanding 话题研究为主,在利用未标记的数据进行自我监督训练方面取得了新的突破。同时介绍了针对法语 MEDIA 数据集的最新进展,并提出了得到明显改进的成果,概念误差率(CER)从现有最优系统的 13.6% 降至 11.2%。
Jun, 2021
通过利用大型语言模型与多任务能力展示有希望的结果,我们构建了一个名为 UniverSLU 的单一多任务学习模型,它在 12 个语音分类和序列生成任务、17 个数据集和 9 种语言上展现出了竞争性的性能并且超过了特定任务模型。同时,我们还初步探索了使用人类可解释的自然短语代替任务限定词作为离散提示,并测试了该模型对新的释意表达的泛化能力。
Oct, 2023
本论文提出了一种基于元辅助学习的 ASR 和 NLU 联合训练方法,通过利用丰富的语音手动转录数据来提高低资源 SLU 任务的性能,无需访问任何语义注释,该算法的效率在公共 CATSLU 数据集上得到了证明。
Jun, 2022