Jun, 2024

因素条件下的言语风格字幕生成

TL;DR本篇论文提出了一种新颖的说话风格字幕生成方法,能够生成多样的描述,同时准确地预测说话风格信息。通过引入因素条件字幕生成(FCC)和贪婪采样(GtS)解码方法,实现对说话风格因素的学习和生成多样化的字幕,提高了风格预测性能。