本文介绍了一种基于语言约束的相似性搜索方法,用于自动产生大规模对齐语料库,以解决基于神经网络的释义生成面临的数据缺乏问题。该方法在意大利语的情况下进行评估,并使用基于指针的深度神经网络架构实验。
Feb, 2024
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
通过使用网页爬取方法和机器翻译系统,本文提出了一种从维基百科文章中获取主题对齐比较语料库的方法,并且能够提取噪音干扰较小的平行句子。
Sep, 2015
本文提出了一种无需人工标注的数据集构建方法,使用双语文本语料来 fine-tune Transformer 语言模型,并加入一个循环池层构建出有效的特定语种句子编码器,该方法在单张图形卡上使用不到一天时间训练,在波兰语的八个语言任务上实现了高性能,超越了最好的多语言句子编码器。
Jul, 2022
本论文研究句子简化,提出了两个新的无监督数据集用于训练模型,并通过多任务和提示策略在大语言模型下进行实验,取得了最新的性能成果。
Aug, 2023
本文提出了一种从 Twitter 采集大规模句子释义的新方法,通过链接共享的 URL,并展示了可以轻松捕捉新的句子释义以及利用其进行下游自然语言处理任务的效用。
Aug, 2017
本文提出了一种基于深度神经网络的端到端方法,用于检测两种不同语言之间句子之间的翻译等效性,结果表明该方法在提取平行句子的质量和统计机器翻译系统的翻译表现上均有显著改善,为平行句子提取任务的深度学习研究提供了一种新的思路。
Sep, 2017
MUSS 是一种无监督句子简化系统,可以通过句子级复述数据训练模型,而不需要标记简化数据。该系统还可以从 Common Crawl 中使用语义句子嵌入挖掘语言无关的复述数据,并在英语,法语和西班牙语简化基准测试中进行评估,获得与有监督方法最佳结果相当的性能。
May, 2020
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义,并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果,并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数,增加了词汇选择的熵和多样性。
Aug, 2018