Oct, 2014

BilBOWA:快速双语分布式表示,无需词语对齐

TL;DRBilBOWA 是一种简单、高效的双语词袋模型,可以在大型单语数据集上进行规模化学习,并且不需要单词对齐的平行训练数据,通过使用一种新颖的跨语言词袋采样方法实现双语信号的提取,使用噪声对比性语言模型进行规范化处理,学习到的双语嵌入能够在跨语言文档分类任务和 WMT11 数据的词汇翻译任务上优于现有的方法。