神经网络自然语言生成中的语义噪声问题

Nov, 2019

神经网络自然语言生成中的语义噪声问题

Semantic Noise Matters for Neural Natural Language Generation

Ondřej Dušek, David M. Howcroft, Verena Rieser

TL;DR本文研究了在语义控制机制下，语义噪声的影响及数据清洗对神经自然语言生成（NNLG）模型的改进。实验结果表明，数据清洗可以使语义正确性提高高达 97%，且保持流畅性。同时，发现常见错误是忽略信息而非虚构。

Abstract

neural natural language generation (NNLG) systems are known for their pathological outputs, i.e. generating text which is unrelated to the input specification. In this paper, we show the impact of semantic noise

neural natural language generation semantic noise nnlg models semantic control mechanisms cleaned data

发现论文，激发创造

用基于条件语义的 LSTM 自然语言生成技术用于口语对话系统

本研究提出了一种基于语义控制 LSTM 结构的统计自然语言生成器，通过交叉熵训练标准优化句子规划和语言表现，可轻松实现语言变化，并通过两个不同测试域的客观评价和人工评分表明该方法相对于先前方法具有更好的性能和自然度。

Aug, 2015

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。

Aug, 2018

超越噪音：缓解细粒度语义差异对神经机器翻译的影响

本文分析了语义差异对神经机器翻译的影响，并基于此提出了一种包含因素的敏感型神经机器翻译框架，该框架能够更好地应对自然发生的差异，从而提高翻译质量和模型校准能力。

May, 2021

合成和自然噪声都会破坏神经机器翻译

本文研究了基于字符的神经机器翻译模型，并发现它们能够解决词表外的问题、学习词形变化，但是在面对嘈杂的数据时容易出现错误。作者探究了两个方法来提高模型的鲁棒性：结构不变的词表示和在噪声数据上强化训练。作者发现一个基于字符卷积神经网络的模型能够同时学习多种噪声下的鲁棒表示。

Nov, 2017

在 NLG 中最大化风格控制和语义准确性：个性变化和话语对比

本研究旨在探索神经生成法如何同时实现语义准确度和文体控制，在两个文体基准任务中，通过在译码器中进行文体调节，消除先前模型中使用的语义再排序器，从而实现了语义误差降至接近零，并在 Personality 中实现了超过 15 个 BLEU 分数的巨大性能提升。在控制对比中还实现了从 0.75 到 0.81 的提升以及语义误差从 16% 降至 2%。

Jul, 2019

语义敏感度与不一致预测：衡量 NLI 模型的脆弱性

通过评估自然语言推理模型对含有微小语义保留表面形式噪声的对抗生成样本的效果，我们提供了证据表明，最新基于转换器的自然语言理解模型对于细微的语义保留有敏感性，这导致了推理过程中明显的不一致性。这种语义敏感性会导致在模型预测中的性能降低 12.92% 和 23.71%。

Jan, 2024

利用合成噪音提高机器翻译的鲁棒性

本文介绍借助带有自然噪声的大型数据集从而使得机器翻译系统更加鲁棒，提升其抗噪能力并部分缓解由此产生的精度损失。

Feb, 2019

自然语言生成数据集中数据错误的追踪和清除

该研究提出了一种框架，利用基于对比度的算法识别和清除训练数据中的一些低质量样本，从而实现减少自然语言生成任务中的幻觉和不忠实输出的目的。

Dec, 2022

语义不确定性：自然语言生成中不确定性估计的语言不变性

本文提出了一种测量大型语言模型中不确定性的方法，介绍了语义熵的概念，并且证明该方法在问答任务上的准确性优于基线模型。

Feb, 2023

不同类型噪音对神经机器翻译的影响

本文探讨了并行训练数据中各种类型的噪声对神经机器翻译系统性能的影响，通过创造并分析五种人造噪声的方式来研究神经机器翻译和统计机器翻译的性能下降，发现神经模型通常比统计模型更容易受到噪声的影响。

May, 2018