Oct, 2022

基于文本到语音的语音字幕相似度评估新指标

TL;DR本研究提出了一种基于文本到音频匹配(TAG)的新型度量标准,用于评估自然语言文本生成与音频事件描述任务,实验证明该标准在 NL 文本和图像字幕文献中的表现较现有指标更好。