使用潜在语义索引实现双语文档对齐
利用 URL 标签指导对网络文章进行跨语言文档对齐,构建了一个大规模的网络文档数据集,使用该数据集通过基线模型进行文本内容的对齐,最终通过挖掘平行语句和测量基于挖掘数据训练的模型的机器翻译质量来证明了数据集的价值,旨在促进跨语言 NLP 研究的发展。
Nov, 2019
本文提出一种基于跨语言句嵌入的无监督打分函数,用于计算不同语言中文档之间的语义距离,从而指导文档对齐算法以适当地匹配跨语言 Web 文档,并在不同语言对中显著提高对齐效果。
Jan, 2020
本文研究了跨语言模型中影响句子级别对齐的语言和非语言因素,并使用 BERT 和 BiLSTM 模型和《圣经》作为语料库进行了比较分析,结果表明,词序一致性和形态复杂度一致性是跨语言性的两个最强的语言预测因素。
Sep, 2021
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
该研究提出了一种基于词向量的跨语义相似度计算方法,只需要一个有限的单词翻译库,能够适用于几乎所有语言对,达到与监督和资源密集型方法相近的表现,在可比较语料库中提取平行句子和跨语言抄袭检测任务中得到与现有模型相当的性能。
Jan, 2018
我们提出了一个简单而定性的平行句子对齐算法,利用闭源 Cohere 多语言嵌入,通过与 MAFAND-MT 数据集训练翻译模型,在 FLORES 和 MAFAND-MT 上分别实现了 $94.96$ 和 $54.83$ 的 f1 分数,相较于 LASER,BLEU 分数提升了超过 5 个单位。
Nov, 2023
本文提出一种方法,将不同语言的句子表示对齐到统一的嵌入空间中,从而计算语义相似性,并使用 MoCo 方法进一步提高对齐质量,实现了在 Tatoeba en-zh 相似度搜索、BUCC en-zh 比特语料挖掘和 7 个数据集上的语义文本相似性等多项任务中新的最先进水平。
Sep, 2021
本文提出了一种使用深度双语查询 - 文档表示来提高低资源跨语言文档检索性能的方法,并通过包括查询似然得分等额外特征,有效学习使用少量相关性标签为低资源语言对重新排序检索到的文档的模型。实验结果表明,本模型在 MATERIAL 数据集上优于竞争的基于翻译的对英斯瓦希里语、英语 - 塔加洛语和英语 - 索马里语跨语言信息检索任务的基线模型。
Jun, 2019
提出了一种基于 Word Mover's Distance 计算单词间距离的查询 - 文档相似度测量方法,利用神经词嵌入在检索无直接匹配的情况下发现相关词,并将其与 BM25 相结合,结果在 TREC Genomics 数据上平均精度平均提高 12%,在来自 PubMed 搜索日志的真实数据集上,结合学习排序的方法,正确率提高了 25%,表明该方法与 BM25 的结合可以产生更出色的性能。
Aug, 2016
本文介绍了一种新的技术来创建单语和跨语言的元嵌入。通过使用多种技术、文本来源、知识库和语言创建的多个单词嵌入,使用线性变换和平均值将现有单词向量投射到公共语义空间,以保持原始嵌入的维度,并通过处理词汇表外的问题而不失去信息。经过广泛的实证评估,我们的技术在各种内在和外在的多语言评估方面表现出对以前工作的有效性,并获取了在语义文本相似性方面具有竞争力的结果,并在单词相似性和词性标注方面得到了最先进的性能(英文和西班牙文)。跨语言元嵌入还表现出优秀的跨语言转移学习能力,即我们可以利用资源丰富的语言中预训练的源嵌入来改进贫乏语言的单词表示。
Jan, 2020