基于同构音频文本嵌入的灵活关键词检测
本文提出一种新颖的端到端的用户定义关键词检测方法,利用语音和文本序列之间的语言对应模式,实现音频和文本表征在共同的隐含空间中;采用基于注意力的跨模态匹配方法,训练具有单调匹配损失和关键词分类损失的模型,并利用去噪损失改善模型在嘈杂环境中的稳健性,同时引入 LibriPhrase 数据集用于高效地训练关键词检测模型;与其他单模态和跨模态基线相比,在各种评估集上取得了有竞争力的结果。
Jun, 2022
本文提出了一种基于语音 - 文本嵌入的端到端模型的架构,使用动态规划算法将音频序列与基于单词的文本序列相同长度地划分,并提出了 DSP 方法,实现了音频 - 文本的对齐,实验结果表明,该模型在 ROC 曲线下的面积和等误差率方面优于现有技术 14.4% 和 28.9%。
Jun, 2023
本文介绍了一种新颖的流式开放性词汇关键词定位方法,通过基于文本的关键词注册,在每个输入帧上使用连接主义时间分类(CTC)寻找以该帧结尾的最佳对齐,并聚合帧级声学嵌入(AE)以获得与目标关键词文本的文本嵌入(TE)对齐的更高级别(即字符、词或短语)的 AE,然后计算聚合 AE 与 TE 的相似度,取得了流媒体开放性词汇关键词定位的联合音频文本嵌入的最佳效果,尽管以流式方式操作,但我们的方法在 LibriPhrase 数据集上取得了竞争性的性能,仅使用了 155K 个模型参数和时间复杂度为 O (U) 的解码算法,其中 U 是推断时目标关键词的长度。
Jun, 2024
本文研究使用合成语音数据为小型的口语术语检测模型训练提取有用特征的预训练语音嵌入模型,相较于在 500 个真实示例上训练模型,只使用合成语音即可达到同等精度。
Jan, 2020
利用音频字向量和自编码器实现跨模态的语音识别,演示了即使缺乏训练数据,也可以从少量音频和文本之间的嵌入对齐中进行 ASR 系统的训练。
Oct, 2018
通过增加训练和测试数据的方式,寻找嵌入空间维度的最优值,使用更有区分性的损失函数来提高文本无关说话人识别系统的识别和验证准确性,在不增加额外数据或使用更深和更复杂的模型的情况下,实验结果表明:(i)重复和随机时间翻转可以将预测误差降低高达 18%。(ii)较低维度嵌入更适合进行验证。(iii)使用所提出的逻辑边距损失函数导致具有最先进的标识和竞争验证准确性的统一嵌入。
Jul, 2018
通过提出预训练的 Transformer 架构、数据增强技术和参数高效的推理算法,研究针对自动音频字幕生成应用中存在的过度参数化、虚构现象和大内存占用的问题,通过语义对齐和类似度计算等方法,提升性能并减少模型复杂度。
Sep, 2023
本研究提出 Transpotter 模型,使用全面的跨模态注意力机制在视觉和语音流之间进行交互,成功实现静默视频序列中的语音关键词检测,并且在多项测试中,优于当前视觉关键词检测和唇语识别模型,并具备较强的嘴型单词分离的能力。
Oct, 2021
该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。
Aug, 2023