关键词multilingual contextual embeddings
搜索结果 - 5
- 通过从共享空间投影简化多语言新闻聚类
该研究提出了一个能够在多种语言中聚类新闻文章的在线系统,利用多语言上下文嵌入作为文档表示,由线性分类器聚合相似文件,通过在线合并来纠正相关的多语言聚类,并在多语言新闻流聚类数据集上取得了最新的成果。
- EMNLP基于流派的弱监督跨语言依存分析
本文研究表明,单语掩模语言模型学习表示数据驱动的语言变化概念,可用于目标导向的训练数据选择。作者将数据集类型标签作为弱监督信号,用于零样本依存分析中的有针对性数据选择。作者还表明,数据集类型是可恢复的,并且提供了一个有效的信号用于跨语言零样 - ACL多语言 BERT 模型预训练后对齐
本研究提出了一种简单的方法,作为预训练后对多语种上下文嵌入进行对齐的步骤,以提高预训练模型的零 - shot 跨语言迁移能力。该方法通过最近提出的 Translation Language Modeling 目标在词级别上对嵌入进行对齐,并 - EMNLP关于上下文嵌入零样本跨语言评估的不使用英语开发
本文研究了多语言语境嵌入在零样本跨语言迁移学习上的表现,并发现使用英语进行零样本设置时很难获得可重复的结果和一致的检查点,建议在零样本结果旁边提供 oracle 分数,通过避免任意差的检查点使结果更一致。
- EMNLP预训练多语言表示的语言中立性
本文研究了多语种上下文嵌入的语言中性和词汇语义,提出了两种实现更强语言中性的方法,并展示了在不使用平行数据的情况下如何达到语言识别的最新准确率以及匹配平行句子的词对齐统计方法的性能。