基于同构音频文本嵌入的灵活关键词检测

Aug, 2023

基于同构音频文本嵌入的灵活关键词检测

Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding

Kumari Nishu, Minsik Cho, Paul Dixon, Devang Naik

TL;DR利用音频一致性文本编码器，通过转换文本到音素再到嵌入，检测任意关键词并辅以混淆关键词生成，实现具有强辨别力的音频 - 文本嵌入验证器。在实验中，该方案在 Libriphrase 难数据集上表现优于现有技术，AUC 指标从 84.21% 提升至 92.7%，EER 指标从 23.36% 降低至 14.4%。

Abstract

Spotting user-defined/flexible keywords represented in text frequently uses an expensive text encoder for joint analysis with an audio encoder

user-defined/flexible keywords text encoder audio encoder audio-compliant text encoder phoneme vectors

发现论文，激发创造

学习音频文本协同以实现开放式关键词定位

本文提出一种新颖的端到端的用户定义关键词检测方法，利用语音和文本序列之间的语言对应模式，实现音频和文本表征在共同的隐含空间中；采用基于注意力的跨模态匹配方法，训练具有单调匹配损失和关键词分类损失的模型，并利用去噪损失改善模型在嘈杂环境中的稳健性，同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型；与其他单模态和跨模态基线相比，在各种评估集上取得了有竞争力的结果。

Jun, 2022

基于音频文本的关键字定位的潜在编码匹配

本文提出了一种基于语音 - 文本嵌入的端到端模型的架构，使用动态规划算法将音频序列与基于单词的文本序列相同长度地划分，并提出了 DSP 方法，实现了音频 - 文本的对齐，实验结果表明，该模型在 ROC 曲线下的面积和等误差率方面优于现有技术 14.4% 和 28.9%。

Jun, 2023

CTC 对齐的音频文本嵌入与流式开放词汇关键词检测

本文介绍了一种新颖的流式开放性词汇关键词定位方法，通过基于文本的关键词注册，在每个输入帧上使用连接主义时间分类（CTC）寻找以该帧结尾的最佳对齐，并聚合帧级声学嵌入（AE）以获得与目标关键词文本的文本嵌入（TE）对齐的更高级别（即字符、词或短语）的 AE，然后计算聚合 AE 与 TE 的相似度，取得了流媒体开放性词汇关键词定位的联合音频文本嵌入的最佳效果，尽管以流式方式操作，但我们的方法在 LibriPhrase 数据集上取得了竞争性的性能，仅使用了 155K 个模型参数和时间复杂度为 O (U) 的解码算法，其中 U 是推断时目标关键词的长度。

Jun, 2024

使用有限和合成的语音数据训练关键词检测器

本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型，相较于在 500 个真实示例上训练模型，只使用合成语音即可达到同等精度。

Jan, 2020

基于语音和文本数据的音位结构学习，较少资源近乎无监督的语音识别

利用音频字向量和自编码器实现跨模态的语音识别，演示了即使缺乏训练数据，也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。

Oct, 2018

说话人识别的统一超球嵌入

通过增加训练和测试数据的方式，寻找嵌入空间维度的最优值，使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性，在不增加额外数据或使用更深和更复杂的模型的情况下，实验结果表明：（i）重复和随机时间翻转可以将预测误差降低高达 18%。（ii）较低维度嵌入更适合进行验证。（iii）使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。

Jul, 2018

从原始音频生成口语语言模型

本篇论文介绍了一种新的学习语言的方法，通过原始音频数据及一套度量标准来自动评估学习后的音声和语言表征，为无监督下的基于文本的生成模型提供了一种替代方法。

Feb, 2021

使用音频和文本共享的潜在表示进行高效音频字幕生成

通过提出预训练的 Transformer 架构、数据增强技术和参数高效的推理算法，研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题，通过语义对齐和类似度计算等方法，提升性能并减少模型复杂度。

Sep, 2023

注意力视觉关键词检测

本研究提出 Transpotter 模型，使用全面的跨模态注意力机制在视觉和语音流之间进行交互，成功实现静默视频序列中的语音关键词检测，并且在多项测试中，优于当前视觉关键词检测和唇语识别模型，并具备较强的嘴型单词分离的能力。

Oct, 2021

利用 PaSST 和大量音频标题数据集推进基于自然语言的音频检索

该研究针对预先训练的文本和频谱图变换器，提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一，在 ClothoV2 基准测试中的表现优于当前的最新技术，提高了 5.6 个百分点的 mAP@10。

Aug, 2023