Feb, 2025
ATRI:通过减少数据分布错误来缓解多语音音频文本检索不一致性
ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by
Reducing Data Distribution Errors
TL;DR本研究针对多语音音频文本检索(ML-ATR)中的不一致性问题,特别是跨语言相似性匹配的挑战,进行理论分析并提出了一种新的解决方案。通过1-to-k对比学习和音频-英语共同锚对比学习,提出了一种一致的ML-ATR方案,有效缓解了数据分布错误对检索率和一致性的负面影响,实验结果表明该方案在多种主流语言上表现出色。