该研究提出了一种有效的并行语料库挖掘方法,使用双语句子嵌入进行训练,通过引入硬负例来实现。该方法是基于语义相似度的,结果表明该方法可以用于重建平行文本,从而训练出 NMT 模型,与使用原始数据训练的模型相差不大。
Jul, 2018
本研究使用维基百科作为训练数据,通过交叉语言对比的目标来训练具有上下文感知的浅层文档转换器,它可以用于监督和非监督文档级任务。该模型在两个常见的跨语言文档级任务中比基于段落的表示和多语言 Longformer 表现更好,并成功推广到了未见过的语言上。
May, 2023
本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法,能够在联合国 (UN) 平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练 NMT 模型。通过对我们的句子嵌入平均构建的简单文档级别嵌入进行实验,能在 UN 文档级别检索任务中取得 97% 以上的 P@1。最后,我们在 BUCC 挖掘任务上评估了所提出的模型,利用原始余弦相似度得分的学习嵌入与当前最先进的模型相比取得了有竞争力的结果,并利用第二阶段的评分器在此任务上实现了新的最先进水平。
Feb, 2019
本研究系统地比较了使用 LASER、LaBSE 和 Sentence BERT 预训练的多语言模型从句子中生成文档级表示的方法,证明了对于多语言任务来说,通常使用句子嵌入的巧妙组合要优于将整个文档编码为单个单元,并且说明了虽然简单的句子平均值对于分类任务来说已经有一定的效果,但对于语义任务来说需要更复杂的组合。
Apr, 2023
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
我们提出了一种 Hierarchical Meta-Embeddings (HME) 模型来学习将多个单语言层和子单词层嵌入结合起来创建语言不可知的词汇表示,用于英语 - 西班牙语代码交换数据的命名实体识别任务中,我们的模型在多语言环境下获得了最先进的表现,而且证明在跨语言环境下,不仅利用了紧密相关的语言,而且还从不同根源的语言中学习,最后,我们还证明了结合不同的子元素对于捕获代码切换实体非常重要。
Sep, 2019
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
从无标注数据中预训练了一种能够包括来自整个文档的上下文信息的分层文档表示,包括定长的句子 / 段落表示,并应用于文档分割、文档级问答和抽取式文档摘要等方面取得了有效结果。
Jan, 2019
本文提出了一种基于分层上下文表示的模型,通过句子级和文档级表示来提高实体识别模型中全局信息的利用,其中包括标签嵌入和注意机制以及键值内存网络,实验证明该模型在三个基准数据集上表现出优越的效果。
Nov, 2019
采用嵌套的神经语言模型构建的分层框架可以同时学习文档和单词的分布式向量表示,该模型在数据流中取得了有效的结果,并可以通过添加用户层来学习个性化的偏好向量
Jun, 2016