Aug, 2023
改进不需要对齐的联合语音文本表示
Improving Joint Speech-Text Representations Without Alignment
Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg...
TL;DR通过跨模态表示空间的概念,在文本提示的图像生成中取得了惊人的进展。本文提出,联合语音文本编码器通过忽略序列长度差异,能够实现一致的跨模态表示,并且通过一致性损失可以改善大参数的单语言和多语言系统中的词错误率。