关于语音基础模型在口语语言理解中的评估

ACLJun, 2024

关于语音基础模型在口语语言理解中的评估

On the Evaluation of Speech Foundation Models for Spoken Language Understanding

Siddhant Arora, Ankita Pasad, Chung-Ming Chien, Jionghao Han, Roshan Sharma...

TL;DR通过对多个受监督和自监督 SFMs 进行广泛评估，我们发现，尽管受监督的 SFMs 在语音识别数据上已经进行了预训练（带有标签），但并不总是表现优于自监督的 SFMs；后者在 SLUE 的序列生成任务上往往至少与受监督的 SFMs 表现一样出色，有时甚至更好。对于大多数任务来说，复杂预测头的性能最佳，尽管会增加推理时间。我们还引入了一个开源工具包和性能排行榜 SLUE-PERB，用于这些任务和建模策略。

Abstract

The spoken language understanding evaluation (SLUE) suite of benchmark tasks was recently introduced to address the need for open resources and benchmarking of complex spoken language understanding (SLU) tasks, i

spoken language understanding evaluation benchmark speech foundation models supervised and self-supervised sfms slue-perb toolkit

发现论文，激发创造

SLUE Phase-2: 一个不同语种口语理解任务的基准套件

本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务，包括问题回答、摘要、命名实体定位和对话行为分类，旨在补充现有基准测试并解决 SLU 评估领域的差距，为便于比较而发布了基准模型。

Dec, 2022

SLUE: 自然语音口语理解评估新基准任务

创建适用于口语理解评估的基准任务套件，其中包括命名实体识别、情感分析和语音识别，用于跟踪进展，评估预先训练的表示形式，研究管道与端到端方法的效用。

Nov, 2021

基于预训练 SSL、ASR、LM 和 SLU 模型的口语理解整合研究

本研究旨在探索使用预训练策略增强口语理解任务性能，通过自监督的语音和语言模型在 SLU 测评基准上进行实验，发现预训练模型可于低资源环境中提升结果，其中以预训练的语言和语音模型分别在情感分析和命名实体识别任务上效果最突出。

Nov, 2022

自监督语音和语言模型预训练的半监督口语理解

本文提出了一种基于半监督学习的、使用预先训练的端到端自动语音识别（E2E ASR）和自监督语言模型（如 BERT）进行微调的通用语义理解框架，该框架可从转录或未转录的语音中直接学习语义来解决一些 SLU 模型中的问题，如 ASR 错误、意图预测而不是词槽预测以及在大量训练数据不足的情况下训练。实验结果表明，该框架对于语义理解可以与使用 Oracle 文本作为输入的模型相媲美，具有良好的环境噪声鲁棒性，并且在训练集有限的情况下也能达到较好的效果。

Oct, 2020

面向端到端口语理解的语音模型预训练

本研究提出了一种新的减少训练数据量的语音理解模型，在预训练中通过预测单词和音素来学习关键特征，并使用新的 SLU 数据集 Fluent Speech Commands 进行实验以测试泛化能力。

Apr, 2019

使用语音基础模型和大型语言模型的语音翻译：现有的和遗漏的是什么？

基于已发表论文的研究，本文提出了对迄今为止呈现的架构解决方案和训练策略进行统一观点的基础，并强调它们之间的相似性和差异性，展示了不同的设置和评估方法如何阻碍了每个架构构建块和训练选择的最佳性能解决方案的识别，最后，我们概述了针对该主题的未来工作的建议，旨在更好地理解 SF+LLM 解决方案的优势和劣势。

Feb, 2024

一个大规模评估的语音基础模型

我们建立了语音处理通用性能基准（SUPERB），使用冻结的基础模型和任务专门化的轻量级预测头，证实了基础模型范式在语音处理中的潜力和我们的多任务框架的简单而有效性，具备竞争力的泛化能力。我们还进行了一系列分析，深入了解 SUPERB 和语音基准模型，包括模型内任务之间的信息流动，加权求和基准测试协议的正确性以及基准测试的统计显著性和稳健性。

Apr, 2024

口语理解调查：最新进展与新领域

该文章对口语理解技术（SLU）的最新进展和前沿进行了全面概述，包括不同方面，如新分类、新领域和相关资源，旨在为该领域未来的研究提供参考。

Mar, 2021

用受监督和自监督的语音基础模型对儿童 ASR 进行基准测试

基于多个声学模型和数据增强方法，本研究针对儿童自动语音识别（ASR）问题提出了一个全面的基准，探索了细调策略、模型大小和数据增强方法之间的关系，并提出了一个稳定的细调方法（PIF）作为正则化。

Jun, 2024

语音基础模型对听障听众的可懂度预测

基于结冰的语音基础模型提供了在语音感知领域中感兴趣的应用的系统评估，涉及语音清晰度预测等任务。

Jan, 2024