介绍了 Opusparcus 这个新的近义词语料库,其中包括六种欧洲语言的训练、开发和测试数据集。这些数据集是从 OpenSubtitles2016 中提取的,可用于计算机辅助语言学习等领域。
Sep, 2018
本文提出了一种利用预训练语言模型过滤爬取数据中的噪声句对的方法,并利用 BERT 的多语言能力度量语句的平行性,使用生成预训练(GPT)语言模型作为领域过滤器来平衡数据领域,通过在 WMT 2018 平行语料库过滤共享任务上的实验以及本文所提供的 Web-crawled 日译中平行语料库上的实验,证明该方法明显优于基准线,并取得了新的最新成果。
May, 2020
通过联合多语句嵌入学习并利用在不同语言中句子之间的距离来过滤嘈杂的平行数据和在大型新闻集合中挖掘平行数据。不同于翻译系统的体系结构,这种方法可以应用于多种语言对,并在 BUCC 共享任务中获得有竞争力的结果,用于识别可比较语料库中的平行句子。
May, 2018
使用神经机器翻译系统,通过 beam search 生成多个候选翻译样本,选择词汇最多样化的一对生成句式相似,语义丰富、跨 17 种语言的人工合成平行释义语料库,并用 BLEU 对比了其与 ParaBank2,结果表明其生成的句子语义类似而且词汇丰富度较高。
May, 2022
该研究介绍了 PARADISE 方法,通过将多语言字典和平行语料库用于训练模型的噪声序列中,取得了与其他模型相当、计算成本更低的 2.0 BLEU 点平均提升和 6.7 准确度点的跨语言自然语言推理和机器翻译实验结果。
Aug, 2021
提出一种基于多语言句子嵌入的平行语料库过滤新方法,通过考虑给定句子对及其最接近的候选句子之间的间隔来修正余弦相似性的尺度不一致性,将结果与现有方法进行比较,结果表明该方法显著提高了翻译自动化水平。
Nov, 2018
本研究提出了一种基于数据增强的多重级联模型,用于改进短文本的对应检测,并在三个基准数据集上进行了评估和表现验证。
Dec, 2019
本文提出一种评估方法,对同时语音翻译的输出窗口大小、系统延迟以及重写程度对读者可读性和理解度的影响进行了研究。实验结果表明,与机器翻译本身和个人能力相比,字幕布局或闪烁对理解度的影响较小;同时,对源语言知识有限的用户与零知识用户的稳定性和延迟方面具有不同的偏好。尽管实验规模较小,但该研究表明我们提出的方法是可行的,并且可以在更大的样本量下验证。
Mar, 2022
通过两个反向翻译模型计算每个句子对于嘈杂平行语料库的交叉熵分数,对分歧的交叉熵进行惩罚并按两个模型的交叉熵平均值加权。按这些分数排序或分阈值处理可得到更好的平行数据子集,该方法在去噪过程中实现了更高 BLEU 得分,并在 WMT2018 共享任务中获得了最高排名得分。
本文针对问题的释义识别问题提出了一种新的解决方案,该方案采用可分解注意力模型(Parikh et al.,2016)的一种变种,在二元释义标签的问题对数据集上表现出了极高的准确性。同时,该模型的简单性超过了许多竞争的神经结构。在预训练模型时,还可以使用自动收集的问题释义数据集,取得该数据集上最好的性能表现。
Apr, 2017