六种语言嘈杂字幕中的释义检测

EMNLPSep, 2018

Paraphrase Detection on Noisy Subtitles in Six Languages

Eetu Sjöblom, Mathias Creutz, Mikko Aulamo

TL;DR本篇研究提出了采用两种训练模型进行自动同义句检测，发现 GRAN 模型优于 WA 模型，并且对噪声干扰更具鲁棒性，适合于处理更多、更杂的数据，并在其他数据集进行了实验。但是由于域不匹配问题，在测试数据上未能达到相同的性能。

Abstract

We perform automatic paraphrase detection on subtitle data from the opusparcus corpus comprising six European languages: German, English,

automatic paraphrase detection subtitle data opusparcus corpus supervised sentence embedding models gated recurrent averaging network

发现论文，激发创造

六种语言的开放字幕释义语料库

介绍了 Opusparcus 这个新的近义词语料库，其中包括六种欧洲语言的训练、开发和测试数据集。这些数据集是从 OpenSubtitles2016 中提取的，可用于计算机辅助语言学习等领域。

Sep, 2018

通过预训练语言模型进行平行语料库过滤

本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法，并利用 BERT 的多语言能力度量语句的平行性，使用生成预训练（GPT）语言模型作为领域过滤器来平衡数据领域，通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验，证明该方法明显优于基准线，并取得了新的最新成果。

May, 2020

在联合多语言空间中过滤和挖掘并行数据

通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构，这种方法可以应用于多种语言对，并在 BUCC 共享任务中获得有竞争力的结果，用于识别可比较语料库中的平行句子。

May, 2018

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

PARADISE：利用平行数据进行多语言序列到序列预训练

该研究介绍了 PARADISE 方法，通过将多语言字典和平行语料库用于训练模型的噪声序列中，取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。

Aug, 2021

使用多语言句子嵌入进行基于边际的平行语料库挖掘

提出一种基于多语言句子嵌入的平行语料库过滤新方法，通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性，将结果与现有方法进行比较，结果表明该方法显著提高了翻译自动化水平。

Nov, 2018

使用数据增强的多级联模型提升短文本复述检测

本研究提出了一种基于数据增强的多重级联模型，用于改进短文本的对应检测，并在三个基准数据集上进行了评估和表现验证。

Dec, 2019

重新翻译同时翻译的字幕理解

本文提出一种评估方法，对同时语音翻译的输出窗口大小、系统延迟以及重写程度对读者可读性和理解度的影响进行了研究。实验结果表明，与机器翻译本身和个人能力相比，字幕布局或闪烁对理解度的影响较小；同时，对源语言知识有限的用户与零知识用户的稳定性和延迟方面具有不同的偏好。尽管实验规模较小，但该研究表明我们提出的方法是可行的，并且可以在更大的样本量下验证。

Mar, 2022

噪声平行语料的双重条件交叉熵滤波

通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数，对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集，该方法在去噪过程中实现了更高 BLEU 得分，并在 WMT2018 共享任务中获得了最高排名得分。

Sep, 2018

使用含有噪音的预训练技术进行问题的神经换句识别

本文针对问题的释义识别问题提出了一种新的解决方案，该方案采用可分解注意力模型（Parikh et al.，2016）的一种变种，在二元释义标签的问题对数据集上表现出了极高的准确性。同时，该模型的简单性超过了许多竞争的神经结构。在预训练模型时，还可以使用自动收集的问题释义数据集，取得该数据集上最好的性能表现。

Apr, 2017