- 会话式人工智能的口语理解:近期进展和未来方向
该论文讨论了使用深度学习技术进行自然语言理解的联合任务,包括意图检测和槽填充,介绍了 Spoken Language Understanding/Natural Language Understanding(SLU/NLU)技术和用于解决该 - SLUE Phase-2: 一个不同语种口语理解任务的基准套件
本研究基于自由可用的语音数据介绍了几种新的语音理解测试任务,包括问题回答、摘要、命名实体定位和对话行为分类,旨在补充现有基准测试并解决 SLU 评估领域的差距,为便于比较而发布了基准模型。
- 一个新的复杂的 Twitter 数据集上的鲁棒语义框架解析流水线
本研究介绍了一种稳健的语义框架解析系统,使用循环神经网络来解析口语理解情景下的复杂长文本,此系统可处理分布外模式和分布外词汇,并显示比当前最先进的基准 SLU 模型更好的结果。
- 口语理解任务中,文本、声学和栅格表示的有效性
本文对三种不同的系统进行了测试,分别为基于文本、基于格子以及基于多模态,研究了在不同情况下使用不同系统的表现;实验结果表明,使用更丰富的自动语音识别输出可以提高语言理解系统的性能,而跨模态的方法可以克服使用自动生成的文本时的问题,并获得约 - 低资源口语理解的双向表示
本篇研究提出了一种表示模型来编码富含双向编码的语音,同时使用遮蔽语言建模目标来学习这个模型。采用类关注作为口语理解模块,提高了模型在 Fluent Speech Command 数据集上的性能,并且可以用于可视化解释模型预测。
- 面向多意图口语理解的范围敏感和结果关注模型
本文提出了一种基于 Transformers 的 Scope-Sensitive Result Attention Network(SSRAN),包括 Scope Recognizer(SR)和 Result Attention Netwo - 基于预训练 SSL、ASR、LM 和 SLU 模型的口语理解整合研究
本研究旨在探索使用预训练策略增强口语理解任务性能,通过自监督的语音和语言模型在 SLU 测评基准上进行实验,发现预训练模型可于低资源环境中提升结果,其中以预训练的语言和语音模型分别在情感分析和命名实体识别任务上效果最突出。
- 具有 ASR 错误的对话式交互中的稳健非结构化知识访问
该研究的主要目的是通过使用自动语音识别 (ASR) 中的错误模拟器实现对清洁训练文本进行随机破坏,从而提高口头语言理解 (SLU) 的鲁棒性,结果表明该方法可以显著提高知识选择及分类产生的结果。
- 无监督自动语音识别桥接语音和文本预训练模型
该研究提出了一种简单高效的无监督语音到语义预训练模型,使用无监督自动语音识别作为连接器,实现了不同任务的语音语言理解,其中包括最近热门的口语问答任务,并在 NMSQA 基准测试中达到了最新的最优结果。
- T5lephone:基于音素级 T5 模型的语音与文本自监督模型桥接技术来实现口语理解
本文研究使用不同分词策略的预训练语言模型对口语语言理解任务的影响,特别是在语音问答和语音翻译方面。通过使用音素文本进行预训练,创建了一个名为 T5lephone 的变种,并取得了 NMSQA 的最新成果,同时在端到端问答和翻译中超越了其他类 - 口语理解系统中假设拒绝模块的设计考虑
本文介绍了两种 Spoken Language Understanding 假设拒绝模块 ——R1 和 R2,它们分别基于领域特定的 SLU 假设和整个 SLU 系统生成假设的拒绝机制,并使用来自面向 SLU 系统的话语、相关 SLU 假设 - EMNLPBERT 遇上 CTC:利用预训练掩码语言模型的端到端语音识别新公式
本文提出了 BERT-CTC,一种新的端到端语音识别形式,采用 BERT 来适应连接时间分类(CTC),通过自注意机制,BERT-CTC 关注输入和输出序列的完整上下文,并在保持 CTC 训练效率的同时学习音频和标记表示之间的内部 / 交叉 - 基于树约束指针生成器的端到端口语理解
利用上下文偏置技术,结合基于树约束指针生成器(TCPGen)的插入偏置模型和插入概率偏置机制(SPB),提出了一种方法来解决端到端口语理解系统中的长尾词问题,该方法对比基线表现,在 SLURP 数据集上实验表明 TCPGen 和 SPB 对 - EMNLP使用组合端到端模型进行口语理解的标记级序列标注
通过使用 ASR 和 NLU 的组合方式,我们构建了一种组合式的 SLU 模型,其可以将语音模态转换为传统的 token-level 表示,解决了现有 end-to-end 模型中的序列标记问题,并在命名实体识别任务上优于传统的级联和直接的 - MM使用语义对齐的语音表示进行口语语言理解
本论文研究语义对齐的语音表示在端到端语音理解中的应用,并使用 SAMU-XLSR 模型,在不同语言中捕捉语音的语义,将语音表现学习模型(XLS-R)与语言无关的 BERT 句子嵌入(LaBSE)模型相结合。我们证明该模型的使用显著提高了端到 - 基于提示的多意图口语理解统一框架
本研究提出了 Prompt-based Spoken Language Understanding(PromptSLU)框架,通过提供通用的预训练 Seq2Seq 模型,将意图检测(ID)和槽位填充(SF)两个子任务统一为同一形式。实验结果 - ESPnet-SE++:面向鲁棒语音识别、翻译和理解的语音增强
本文介绍了将语音分离和增强(SSE)纳入 ESpnet 工具包的最新进展,包括最新的语音增强模型及其评估,并设计了新界面将语音增强应用于前端任务包括自动语音识别(ASR)、语音翻译(ST)和口语理解(SLU),实验表明其在多通道场景下是一种 - MM端到端口语理解:低资源环境下语音命令任务的性能分析
本文研究了利用深度神经网络的端到端口语理解模型 (E2E SLU) 在非英语智能家居背景下使用的语言特性,证明了优良的 E2E SLU 表现并不总是需要完美的 ASR 能力,并且 E2E 模型相较于传统管道模型在处理背景噪声和语法变异等方面 - 双通路低延迟端到端口语理解
本研究利用内部预训练的语言模型构建强大的语义表示,使用 2 段 SLU 系统,结合语义和语音特征进行高质量语音识别,以提高用户体验和降低延迟。
- 朝着低成本的端到端口语理解
该研究比较了几种学习策略以减少使用自监督模型进行训练的计算时间和能源消耗成本,同时在 FSC 和 MEDIA 语料库上的实验表明,该方法可以在保持最先进性能的同时降低学习成本。