ACLDec, 2018

用于零样本跨语言传递和更多应用的大规模多语句向量化技术

TL;DR该研究介绍了一种以单个 BiLSTM 编码器为基础的多语言句子表示架构,其使用共享的 BPE 词汇表来学习 93 种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。