Jan, 2024

实时连续的话语交替预测:使用声音活动投影

TL;DR提出了一个基于语音活动投影(VAP)模型的实时连续交替预测系统演示。该系统基于对话立体声音频直接预测未来语音活动。VAP 模型包括对比预测编码(CPC)和自注意力变换器,之后是交叉注意力变换器。我们考察了输入上下文音频长度的影响,并演示了该系统可以在 CPU 设置下以实时方式运行,并具有最小的性能降低。