Apr, 2022

联合学习Token抽取和文本生成来增强不完整话语恢复

TL;DR本文介绍了一种针对不完整语音恢复的模型,名为JET(联合学习令牌提取和文本生成)。我们设计了一种简单但有效的模型,可同时适用于提取或抽象数据集的情况。通过使用Picker来识别省略的token,我们构建一个模型模拟IUR的本质,其中上下文中省略的token有助于恢复。我们设计了两种标签创建方法(软标签和硬标签),以支持Picker。通过建模和训练,本文得出在四个基准数据集上的不错结果,表明相比于预训练的T5和非生成语言模型方法,在富数据或有限数据训练环境下,我们的模型表现更佳。