Mar, 2024

低资源自动标注的嵌入式翻译

TL;DR我们研究了在资源稀缺环境中的自动插入式脚注,并通过从插入式脚注文本中提取的嵌入式翻译信息来增强硬式注意神经模型。在使用大型语言模型(具体是 BERT 和 T5)对这些翻译进行编码后,我们引入了一个字符级解码器来生成插入式脚注输出。在 SIGMORPHON 2023 关于插入式脚注的共享任务数据集上,通过这些改进,我们的模型在平均改善了 3.97 个百分点的基础上,超过了现有技术水平。在模拟的极度资源稀缺环境中,我们系统在仅使用 100 个句子进行训练时,平均改善了 9.78 个百分点,超过了普通硬式注意基线。这些结果突显了翻译信息在提升系统性能方面的关键作用,尤其是在处理和解释有限数据源时。我们的研究结果为语言的记载和保护提供了有希望的途径,在共享任务数据集上表明了与现有技术水平相比的显著进展。