数据到文本的双语生成

Nov, 2023

Data-to-Text Bilingual Generation

Guy Lapalme

TL;DR使用 pyrealb 从单一数据源生成英文和法文的两个平行文本，共享数据选择和文本组织过程，只有语言相关的词汇和短语选择是不同的过程，确保两种语言中传达的信息完全相同，避免翻译中的信息丢失，尤其适用于严格且同时需要双语的情况。

Abstract

This document illustrates the use of pyrealb for generating two parallel texts (English and French) from a single source of data. The data selection and →

pyrealb parallel texts data selection text organisation identical information

发现论文，激发创造

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

逐步：在神经数据到文本生成中分离规划和实现

将数据转文本生成过程拆分为符号文本计划和神经生成两个阶段，通过匹配参考文本和选择高质量文本计划提高系统的可靠性和适用性，同时保持流畅的输出。在 WebNLG 基准测试中得到了 BLEU 得分和人工评估的改善，并能够输出同一输入的多种不同的实现，为生成文本结构的显式控制铺平了道路。

Apr, 2019

神经机器翻译中的单语数据使用：一项系统研究

本文对神经机器翻译的数据生成进行了系统研究，比较了不同的单语数据使用方法和多个数据生成过程，并介绍了一些便宜易实现的新数据模拟技术。研究发现，通过回译技术生成人工平行数据非常有效，并给出了原因解释。

Mar, 2019

基于词典的形态学感知数据增强技术用于机器翻译低资源语种

我们提出了一种依赖于词法 - 句法信息和双语词典以及少量种子并行数据来合成并行数据的策略，该方法在 14 种语言中（28 个英语 <->X 对）的实验中展示了性能的一致提升。

Feb, 2024

关于使用平行数据进行翻译质量评估的研究

本文重点研究了机器翻译的质量估计，通过对比使用不同方向的平行数据在数据增强方面的影响，发现使用原文作为源数据可以带来相对较好的效果。

Dec, 2022

ParaCotta: 来自最具多样性的翻译样本对的合成多语言释义语料库

使用神经机器翻译系统，通过 beam search 生成多个候选翻译样本，选择词汇最多样化的一对生成句式相似，语义丰富、跨 17 种语言的人工合成平行释义语料库，并用 BLEU 对比了其与 ParaBank2，结果表明其生成的句子语义类似而且词汇丰富度较高。

May, 2022

面向严重资源匮乏语言的数据生成：GPT-3.5 的协助来自 Google 翻译

我们探讨了语言生成任务中，训练数据严重不足的情况下，GPT 等 LLM 模型如何处理爱尔兰语、马耳他语、威尔士语和布列塔尼语等语言。我们测试了多种提示类型和格式，发现少量样本训练对于直接生成不常见语言较为有效，但通过英语进行翻译后的生成差距不大。在 WebNLG 2023 中，我们的系统在所有语言和指标上均显著优于其他竞争系统，表现出令人满意的效果。然而，我们在威尔士语中表现最好的结果仍远低于 WebNLG'20 中最差的英语系统。

Aug, 2023

仅使用合成的平行数据构建神经机器翻译系统

本文探讨了使用合成的并行数据在神经机器翻译中的作用，提出了一种新型的伪并行语料库，在捷克 - 德语和法语 - 德语翻译方面进行了实验证明其有效性。

Apr, 2017

基于深度多任务学习的双语稀缺情境神经机器翻译

本文提出了一种基于多任务学习方法，利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题，并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中，实现了在英法、英波斯和英越三种翻译任务上的有效性验证。

May, 2018

利用释义生成快速启动对话系统

该研究提出了一种基于改写生成的方法，可以减少创建新对话代理所需要的时间和成本，同时提高其性能，使其能够实际与真实用户进行交互。实验证明该方法提高了意图分类模型的泛化能力，有助于在组织范围内规模化部署这项技术。

Apr, 2022