Jul, 2022

从自动挖掘的同义句训练有效的神经句子编码器

TL;DR本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。