通过对多语言释义模型进行敌对目标的微调,我们提出了一种对抗性攻击算法,用于伪造多语言分类器的有效的对抗性样本,实验证明该方法在查询效率方面优于现有基准模型。
Jan, 2024
基于预训练语言模型的词汇简化方法取得了显著进展,通过分析词语在其上下文环境中的替代词生成复杂词的潜在替代词。然而,这些方法需要针对不同语言进行单独的预训练模型,并且忽略了对句子意义的保留。本文提出了一种新颖的多语言词汇简化方法,通过生成释义来提供词语选择的多样性,同时保持句子的意义。我们将释义任务视为支持数百种语言的多语言神经机器翻译中的零 - shot 翻译任务。在释义建模的编码器中输入句子后,我们基于一种集中于复杂词的词汇变体的新颖解码策略生成替代词。实验结果表明,我们的方法在英语、西班牙语和葡萄牙语上明显优于基于 BERT 的方法和零 - shot GPT3 方法。
Jul, 2023
本文介绍如何使用包含一致结构的训练数据作为语料库级别的释义,并将释义视为外语词汇进行 Neural Machine Translation 的训练。本方法表现出比过去的单词或短语级别的方法更好的效果,并且在使用多种语言的平行释义进行训练时表现最佳。该方法提高了翻译的 BLEU 分数,增加了词汇选择的熵和多样性。
Aug, 2018
该论文提出了一种从非标记的单语语料库中学习的重述模型,通过在重述识别,生成和训练增强方面与基于机器翻译的方法进行比较,发现单语重述在所有场景中均优于无监督翻译。
May, 2019
本文研究了基于转移学习的无监督方法生成高质量的同义改写,其中采用了任务自适应、自监督学习和名为 Dynamic Blocking 的新型解码算法。该方法在问答数据集和 ParaNMT 数据集上均取得了最新的性能,并且在不同语言改写中具有良好的迁移性能。
Oct, 2020
本文介绍了一种通过抽象意义表示来创建大规模句法多样的同义句数据集 ParaAMR,并证明了其在各种 NLP 应用方面的巨大潜力。
May, 2023
通过对抗方法提出了一个新的数据集创建方式 —— 对抗性同义句生成任务(Adversarial Paraphrasing Task, APT),以更好地检测句级别的意义相等,从而加速数据集生成并提高同义句识别模型的性能。
Jun, 2021
本文提出了一种将改写生成任务视为无监督机器翻译的新方法,通过将大规模无标签单语语料库拆分成多个簇并使用这些簇的对训练多个 UMT 模型,然后基于这些 UMT 模型生成的改写语句对,可以训练出一个统一的代理模型,用于生成改写句子,该方法避免了对双语句对的依赖,同时也可以让人类干预模型,使用不同的过滤标准生成更多元的改写语句。在现有的改写数据集上进行的实验表明了该方法的有效性。
Sep, 2021
本文通过基于 Transformer 的语言模型提出了一种利用多语言平行文本自动生成同义词的简单统一模型,可以在一步中实现无监督同义词生成。该模型相较于中文中的折叠法方法,其生成的同义词更加相似,并且能够在大规模未对齐的语料库上进行预训练。同时,利用噪声自编码器机制还可以提高模型的多样性和鲁棒性。实验结果表明,该模型在同义词关系、多样性、流畅度和效率等方面均优于折叠法。
Nov, 2019
本论文研究如何使用语言重叠来进行翻译,在仅有少量单语数据的情况下,结合去噪自编码、回译和对抗性目标,提出了一种名为 NMT-Adapt 的方法,实现了对低资源语言的翻译的提高。
May, 2021