Dec, 2018
用于零样本跨语言传递和更多应用的大规模多语句向量化技术
Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual
Transfer and Beyond
TL;DR该研究介绍了一种以单个BiLSTM编码器为基础的多语言句子表示架构,其使用共享的BPE词汇表来学习93种语言的嵌入表示,并在公开可用的平行语料库上进行了训练。使用英文注释数据进行分类器训练,可将其转移至任何一种语言,且可以在跨语言自然语言推理、文档分类和平行语料库挖掘中取得良好效果。