关键词multilingual embeddings
搜索结果 - 7
- ACL共享跨语言空间中的对齐探索
利用聚类方法探索多语言模型中的潜在概念,研究多语言嵌入之间的对齐和重叠程度,通过引入两个度量指标 CA 和 CO 进行定量分析,发现网络的深层对齐性较好,模型的微调增强了潜在空间中的对齐性,任务特定的校准有助于解释模型的零射击能力的出现。
- ACLxSIM++: 低资源语言双语挖掘性能的改进代理
本论文介绍了一个新的代理打分方法 - xSIM++,它可以更准确地评估多语言嵌入位文挖掘的相似性。作者通过实验验证,xSIM++ 比 xSIM 更好地预测了位文挖掘对翻译系统性能的影响,并提供了不同类型错误的性能报告。
- ACLGCDT:一个适用于多类型和多语种篇章分析的汉语 RST 树库
本文提出了 GCDT,这是目前最大的汉语层次化语篇树库,基于修辞结构理论,覆盖五种文本类型,使用与当代英语 RST 树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系,本文还介绍了这个数据集的分析实验,包括中英文 RST 解析和在英 - ACL静态和上下文多语言嵌入的结合
本文介绍了一种将静态嵌入和上下文嵌入相结合的方法,通过提取 40 种语言的静态嵌入并使用 VecMap 校准来改善多语言表示,与此同时,应用新颖的持续预训练方法来进一步提高 XLM-R 的表示精度,并在多个复杂语义任务中展现出积极的效果。
- 诱导语言无关的多语言表示
本研究提出三种方法以提高跨语言表示的效果,包括将目标语言的向量空间重新对齐到源语言,去除语言特异性的均值和方差,以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现,这些方法联合使用可以降低跨语言转移障碍。
- EMNLP利用句子顺序进行文档对齐
该研究提出了一种简单的文档对齐方法,该方法在候选生成和候选重新打分中都利用了句子顺序信息,并相对于 WMT16 文档对齐任务的最佳结果减少了 61%的错误。该方法提高了从 ParaCrawl 的网页抓取的僧伽罗语 - 英语文档的下游机器翻译 - 使用多语言文本进行图像搜索:图像和文本之间的跨模态学习方法
本文提出一个使用多语言嵌入词汇表达图像语义信息的框架,将图像和文本嵌入到一个唯一的分布向量空间中,从而使得我们可以使用描述图像内容的文本查询来搜索图像,同时也可以使用图像相似性,我们使用实证研究证明了该方法的效率。