BriefGPT.xyz
大模型
Ask
alpha
关键词
audio-text alignment
搜索结果 - 3
使用声学 CTC 损失进行迭代伪强制齐次化,以进行自监督 ASR 领域适应
本文提出了基于自监督域适应的算法,采用迭代式伪强制对齐算法生成的对齐文本,用于定制端到端自动语音识别,并通过降低文本量或扩展对齐窗口的方法迭代计算文本对齐更新。算法精良地运用帧级字符概率、CTC 损失计算等技术,实现了对主流语音数据库的高精
→
PDF
2 years ago
ACL
通过视觉知识转移在无平行数据的情况下,连接音频和文本之间的关联
提出了一种称为 VIP-ANT 的模型,实现了音频文本无对齐数据的自动对齐,应用在零 - shot 音频分类和字幕检索任务中取得了良好的性能,甚至超越了更传统的监督学习模型。同时也发现,虽然仅需一些监督数据就可以提高性能,但达到人类水平仍然
→
PDF
3 years ago
利用未对齐的语音和文本训练的非监督自动语音识别技术
本文研究无监督语音识别方法,提出由语音向量表示、语义嵌入和无监督转换的框架,这一框架可用于缺乏音频文本对齐数据和受监督方法无法应用的低资源语言。
PDF
6 years ago
Prev
Next