关键词multilingual sentence embedding
搜索结果 - 2
- COLING多语句 - T5:可扩展的多语句编码器适用于多语言应用
我们介绍了基于 NLI 的多语言句子嵌入模型 m-ST5,通过扩展现有的单语模型 Sentence T5 以低秩适应(LoRA)技术成功将模型参数规模扩展到 57 亿,并通过实验证实方法优于基于 NLI 的先前方法,尤其是对资源较少或与英语 - 在联合多语言空间中过滤和挖掘并行数据
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子