该研究针对预先训练的文本和频谱图变换器,提出了一种基于文本的音频检索系统。系统的两个关键组件是基于自注意力机制的音频编码器和在预训练期间利用附加的人工生成和合成数据集。该系统在 2023 年的 DCASE 挑战中排名第一,在 ClothoV2 基准测试中的表现优于当前的最新技术,提高了 5.6 个百分点的 mAP@10。
Aug, 2023
本文介绍了一种简单,可扩展的架构,将语音和文本编码器结合在一起,并使用对比损失来显著提高基线模型的性能。通过使用预训练模型,无需微调即可在极低的训练内存要求下实现优异的语音检索表现。实验结果表明,采用我们的方法组合可以显著提高基线分数。
Jun, 2022
本研究提出了三个新的跨模态检索基准,用于研究现有文献中关注度较低的文本 — 音频和音频 — 文本检索任务。研究团队通过不同音频任务的预训练,在这三个基准上建立了交叉模态文本 — 音频和音频 — 文本检索的基线,并公开了数据集和代码,希望这些基准能够激发有关自由文本查询的音频检索的研究。
Dec, 2021
该报告介绍参加 DCASE 2020 挑战 Task 6 的系统,侧重于使用多任务学习解决自动音频字幕生成中的不确定性问题,并通过在开发测试数据集上测试简化模型,实现了 20.7 的 SPIDEr 得分,远高于基线系统的 5.4。
Jul, 2020
本研究介绍了新的基准,使用自由形式的自然语言查询中的文本注释,旨在研究文本查询的语音检索问题,同时探讨跨模态音频检索的优势和基准,以及优化方法。
May, 2021
RECAP 是一种新颖有效的音频字幕系统,通过从数据存储中检索与输入音频类似的其他字幕来生成字幕,并且无需额外的微调即可适用于任何领域。
Sep, 2023
本文综述了自动音频字幕生成领域内的研究现状,包括使用的深度学习技术、网络架构、评估指标和挑战,同时讨论了未来的研究方向。
May, 2022
通过使用多语言文本编码器编码文本数据,结合一致集成蒸馏优化音频编码器,我们的方法在英语语音文本检索方面表现出最先进的性能,并且仅使用额外的 10%的语言增强训练数据,也能有效检索其他七种语言的内容。
Jun, 2024
本文通过使用音频特征和序列聚合方法来提高音频 - 文本对齐的准确性,并观察到在上下文检索中,语义映射比时间关系重要。结果表明,该系统在所有指标上均显著提高了双向音频文本检索。
Mar, 2022
本文提出了一个新的 Web 音频文本检索框架,使用文本编码器、两个音频编码器和对比学习目标来实现语言和音频内容间的连接,包括多个数据集的使用,取得了相对于 AudioCaps 和 Clotho 在文本 - 音频检索上 2%和 16%的提高,对于音频 - 文本检索上的 6%和 23%的提高。
Sep, 2022