跨模态潜在空间的编码嵌入:面向端到端口语理解
本研究提出了一种跨模态选择性自训练的方法,使得在没有语音 - 语义配对数据的情况下能够有效学习端到端的口语理解模型,并且证明了其在两个零样本端到端口语理解训练集上都能显著提高性能、缩短训练时间。
May, 2023
提出了一种增强对 ASR 错误鲁棒性的新型端到端(E2E)口语理解(SLU)系统,通过基于 ASR 假设的估计模态置信度融合音频和文本表示,来解决 E2E SLU 系统在文本表示质量低时的问题,并通过在 STOP 数据集上的准确性改进和分析来证明我们的方法的有效性。
Jul, 2023
本研究通过利用自我监督的声学编码器,提取文本嵌入,结合联合 CTC 和 SLU 损失的方法,实现了语音理解任务的话语级 SLU 模型,并在 DSTC2 数据集上比 SOTA 对话行为分类模型提高 4%绝对值,在 SLURP 数据集上比 SOTA SLU 模型提高 1.3%绝对值。
May, 2023
本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间,实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。
Oct, 2021
本论文研究联合语音 - 文本 Embeddings 空间的内在属性,借助自动语音识别,通过多任务预训练场景实现语义对齐,利用定量检索精度度量语义对齐,进行了深入分析。
Apr, 2022
本文介绍了一种跨模态预训练语言模型 ——Speech-Text BERT(ST-BERT),通过两种预训练任务(Cross-modal Masked Language Modeling and Cross-modal Conditioned Language Modeling)学习上下文跨模态对齐,对端到端的口语语言理解任务进行了解决,实验结果证明,该方法有效。同时,我们的方法通过使用特定于域的语音文本对数据进行域自适应预训练来提高 SLU 性能的表现。
Oct, 2020
该研究提出了一种无监督的跨模态对齐框架,通过对抗训练和优化过程来实现语音和文本的嵌入空间对齐,从而帮助开发对低资源语言进行语音识别和语音到文本翻译的自动化系统,并且在分类和翻译任务上的表现与监督的方法相媲美。
May, 2018
本文提出了一种新的训练方法,将预先训练的语境嵌入用于处理声学特征,并扩展了预先训练的语音识别系统的编码器,以构建端到端的口语理解系统,实验结果表明,该系统在三个基准测试中达到与流水线结构相当的性能,在没有使用任何训练数据的情况下,在两个基准测试中经过微调每类 10 个示例后优于流水线结构。
Jul, 2020
本文提出了一种可流式传输的多任务语义转换器模型,通过自回归的方式预测 ASR 和 NLU 标签,并使用语义解码器聚合以前预测的字块和槽标签,从而优化了 E2E SLU 模型,且在 ASR 和 NLU 指标上表现优于传统的两阶段 E2E SLU 模型。
Apr, 2022
该论文提出了一种新颖的深度学习算法,通过单流网络和新的损失函数来实现音频和视觉信息的联合表示,并使用类中心对共享的深层潜在空间表示进行表征,以实现无需成对或三重监督。在 VoxCeleb 数据集上的多种任务中进行了定量和定性评估,在跨模式验证和匹配方面实现了最先进的性能,验证了该技术在跨模式生物认证应用中的有效性。
Sep, 2019