- PRoDeliberation:面向端到端口语理解的并行强化沟通
Spoken Language Understanding (SLU) 的关键组成部分是将语音转化为语义分析,以便进行任务执行。本研究介绍了 PRoDeliberation,一种利用基于连接主义时间分类的解码策略和降噪目标来训练稳健的非自回 - 多层次多粒度对比学习驱动口语理解
提出了一种多级多粒度的语音语义理解(SLU)框架 MMCL,应用对比学习在话语级、槽位级和词级三个层级上,实现意图和槽位之间的互相引导,通过对公开的多意图 SLU 数据集的实验结果和进一步分析,证明了模型取得了新的最先进结果,在 MixAT - ACL基于对比学习和一致性学习的神经噪声通道模型在口语理解中的应用
基于语音识别的自然语言理解方法和两阶段的对比一致性学习模型能够提高在不同噪声环境下的自动语音识别的鲁棒性。
- MSNER:一个用于命名实体识别的多语言语音数据集
该研究介绍了 MSNER,一个多语种语音语料库,用于命名实体识别,并提供了用于训练、验证和评估的数据集,同时推出了一个高效的标注工具。
- 大型语言模型在扩展口语理解系统到新语言方面的应用
介绍了一种使用大型语言模型进行机器翻译的流水线,用于扩展语音助手系统的口语理解模型,提高了多语言场景和设备本地场景下的整体准确率。
- 法语口语语义理解新任务的 MEDIA 基准评估
通过使用语言理解(SLU)的联合模型进行意图分类和槽位填充是一项关键任务。本文介绍了使用半自动方法获取增强版本的 MEDIA 数据集并利用联合模型对意图分类和槽位填充进行了实验的初步结果。
- IJCAI隐私保护的端到端口语言理解
本研究提出了一种新颖的跨任务保护用户隐私的口语理解模型,通过利用隐藏层分离技术,将用户信息仅分布在特定部分的隐藏层中并移除其他类型信息,从而实现隐私安全的隐藏层。为了在效率和隐私之间取得良好的平衡,引入了一种新的模型预训练机制,即联合对抗训 - 一种用于多意图口语理解的 BiRGAT 模型与分层语义框架
本研究主要关注多意图的口语理解,提出了一个多意图数据集,使用 BiRGAT 模型编码本体项的层级结构,并配合三路指针生成器解码器,在实验中取得了显著优于传统序列标签和基于分类的方案的结果。
- 评估和改进口语理解中的持续学习
我们提出了一种评估方法,能够统一评估在连续学习中的稳定性、可塑性和泛化能力,并展示了引入不同的知识蒸馏方法如何改善语音语言理解模型的这三个性质方面。我们进一步展示了我们提出的指标更敏感地捕捉到连续学习中任务顺序的影响,因此更适合实际应用场景 - ACL平衡的行动:揭示和缓解葡萄牙语 ASR 偏见
本研究旨在全面探索 Whisper 和 MMS 系统,重点评估与葡萄牙语的非正式对话语音相关的自动语音识别中存在的偏见。我们的调查包含不同类别,包括性别、年龄、肤色和地理位置。除了传统的 ASR 评估指标(如词错误率 WER)外,我们还引入 - 将自监督语音模型与基于视觉语音模型的伪词级目标整合
我们提出了 Pseudo-Word HuBERT (PW-HuBERT)框架,该框架将伪词级目标集成到训练过程中,这些目标是从视觉引导的语音模型中获取的,明显消除了对语音 - 文本配对数据的需求,在四个口语理解基准测试中,我们的模型在捕捉语 - 通过上下文学习和词混淆网络实现 ASR 鲁棒性口语语言理解
通过使用自动语音识别系统的网络输出来弥补语音模糊性,增强口语语言理解的结果,通过对置信网络的词语混淆进行实验,研究大型语言模型对嘈杂的语音转录本的鲁棒性,探讨在不同自动语音识别性能条件下的影响因素。
- 口语理解中的组合性推广
我们提出了一种基于组合性的口语语言理解模型,通过对位于有限训练数据上进行训练时学习到的模型组合性的两种类型(新颖的槽组合和长度概括)进行深入分析,我们克服了现有模型因训练时学习到的虚假槽相关性而在组合性问题上表现不佳的限制,进而在 ATIS - 在超低资源环境下创建口语对话系统
自动语音识别(ASR)系统是一项关键技术,用于设计各种应用程序,尤其是智能助手,如 Alexa。本文着重于低资源语言 Flemish 的 Intent 分类任务,通过在语音级别和音素转录级别应用不同的数据增强技术,改进了现有模型的性能。
- 利用缓存在小型设备上实现 SLU
探讨在类微控制器嵌入式设备上的口语理解(SLU),将设备上的执行与云端卸载结合在一起。通过在设备的语音输入中利用时间局部性,重复使用最近的 SLU 推断。我们的想法很简单:让设备将新输入与缓存结果进行匹配,并只将匹配不成功的输入卸载到云端进 - ML-LMCL:提升口语理解中自动语音识别鲁棒性的相互学习和大边界对比学习
通过互相学习和大间距对比学习,提出一种新的框架 ML-LMCL 来提高自动语音识别在对话系统中口语理解的鲁棒性。通过在手动转录和自动识别转录之间共享知识,引入距离极化正则化器以尽量避免推开簇内成对样本,使用周期性退火调度缓解 KL 关于消失 - 泛零样本音频到意图分类
利用仅有每个意图几个样本文本句子的泛化零样本音频到意图分类框架,该框架使用只有音频的数据,通过训练有监督的音频到意图分类器和利用神经音频合成器生成音频嵌入,使用余弦相似度对未见过的意图进行泛化零样本分类,并通过多模态训练策略将词汇信息融入音 - EMNLP面向语音单元和文本的联合语言建模
探索联合的语言建模方法,比较不同语音分词方法和语音 - 文本混合数据构建方法,通过自动指标评估联合语言模型的混合效果,在不同模态下对下游口语理解任务进行微调并测试其性能,结果表明通过混合我们提出的语音单元和文本的方法,联合语言模型在口语理解 - 通过有效的文本数据利用和潜在合成提高端到端语音处理效果
通过训练一个转换文本数据的潜在合成器,我们提出了一种高效的文本数据利用框架 Latent Synthesis (LaSyn),用于 E2E 语音处理模型。在低资源自动语音识别(ASR)和口语理解(SLU)任务中,LaSyn 通过为模型训练提 - I$^2$KD-SLU:一种用于零样本跨语言口语语言理解的内外知识蒸馏框架
我们提出了一种用于零样本跨语言口语理解的 Intra-Inter 知识蒸馏框架(I$^2$KD-SLU),该框架模拟了意图和槽位之间的相互引导,在 MultiATIS++ 数据集上显著提高了性能并取得了新的最优结果。