multilingual embeddings | BriefGPT

关键词multilingual embeddings

搜索结果 - 7

ACL共享跨语言空间中的对齐探索
利用聚类方法探索多语言模型中的潜在概念，研究多语言嵌入之间的对齐和重叠程度，通过引入两个度量指标 CA 和 CO 进行定量分析，发现网络的深层对齐性较好，模型的微调增强了潜在空间中的对齐性，任务特定的校准有助于解释模型的零射击能力的出现。
PDFa month ago
ACLxSIM++: 低资源语言双语挖掘性能的改进代理
本论文介绍了一个新的代理打分方法 - xSIM++，它可以更准确地评估多语言嵌入位文挖掘的相似性。作者通过实验验证，xSIM++ 比 xSIM 更好地预测了位文挖掘对翻译系统性能的影响，并提供了不同类型错误的性能报告。
PDFa year ago
ACLGCDT：一个适用于多类型和多语种篇章分析的汉语 RST 树库
本文提出了 GCDT，这是目前最大的汉语层次化语篇树库，基于修辞结构理论，覆盖五种文本类型，使用与当代英语 RST 树库相同的关系清单。通过使用中英文多语言嵌入来训练语言关系，本文还介绍了这个数据集的分析实验，包括中英文 RST 解析和在英
PDF2 years ago
ACL静态和上下文多语言嵌入的结合
本文介绍了一种将静态嵌入和上下文嵌入相结合的方法，通过提取 40 种语言的静态嵌入并使用 VecMap 校准来改善多语言表示，与此同时，应用新颖的持续预训练方法来进一步提高 XLM-R 的表示精度，并在多个复杂语义任务中展现出积极的效果。
PDF2 years ago
诱导语言无关的多语言表示
本研究提出三种方法以提高跨语言表示的效果，包括将目标语言的向量空间重新对齐到源语言，去除语言特异性的均值和方差，以及通过去除形态和句子重新排序来增加跨语言相似性。研究发现，这些方法联合使用可以降低跨语言转移障碍。
PDF4 years ago
EMNLP利用句子顺序进行文档对齐
该研究提出了一种简单的文档对齐方法，该方法在候选生成和候选重新打分中都利用了句子顺序信息，并相对于 WMT16 文档对齐任务的最佳结果减少了 61％的错误。该方法提高了从 ParaCrawl 的网页抓取的僧伽罗语 - 英语文档的下游机器翻译
PDF4 years ago
使用多语言文本进行图像搜索：图像和文本之间的跨模态学习方法
本文提出一个使用多语言嵌入词汇表达图像语义信息的框架，将图像和文本嵌入到一个唯一的分布向量空间中，从而使得我们可以使用描述图像内容的文本查询来搜索图像，同时也可以使用图像相似性，我们使用实证研究证明了该方法的效率。
PDF5 years ago