自然语言生成输出错误的低报告率问题及解决方法

MMAug, 2021

自然语言生成输出错误的低报告率问题及解决方法

Underreporting of errors in NLG output, and what to do about it

Emiel van Miltenburg, Miruna-Adriana Clinciu, Ondřej Dušek, Dimitra Gkatzia, Stephanie Inglis...

TL;DR本篇论文观察到自然语言生成系统的各种错误存在严重的漏报问题，建议加强错误鉴定、分析和报告，以在研究社区中推动该领域系统的进一步改进。

Abstract

We observe a severe under-reporting of the different kinds of errors that natural language generation systems make. This is a problem, because mistakes are an important indicator of where systems should still be improved. If authors only report overall →

natural language generation error reporting research community performance metrics system improvement

发现论文，激发创造

自我降低风险：报告 NLP 系统失败时需谨慎的原因

研究者应该小心关于自然语言处理技术限制的论断，本文提出了一些研究方向和沟通策略，以避免或驳斥这些论断，并维护领域的可信度。

Oct, 2021

自然语言生成数据集中数据错误的追踪和清除

该研究提出了一种框架，利用基于对比度的算法识别和清除训练数据中的一些低质量样本，从而实现减少自然语言生成任务中的幻觉和不忠实输出的目的。

Dec, 2022

数据驱动的自然语言生成：通向成功之路

本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈：缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标，我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库，我们解决了第二个问题。

Jun, 2017

利用机器翻译和句法模式进行人造错误生成

本研究探讨了两种替代方法：机器翻译和文本模式提取以解决短缺的数据对自动化错误检测的影响。实验表明：人工生成的错误明显提高了对 FCE 和 CoNLL 2014 数据集的错误检测精度。

Jul, 2017

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018

神经网络自然语言生成中的语义噪声问题

本文研究了在语义控制机制下，语义噪声的影响及数据清洗对神经自然语言生成（NNLG）模型的改进。实验结果表明，数据清洗可以使语义正确性提高高达 97%，且保持流畅性。同时，发现常见错误是忽略信息而非虚构。

Nov, 2019

自然语言生成指标在系统水平的统计优势

本文分析了自动测量指标和人类判断系统质量估计方面的优劣，指出在人类判断样本数少或对比系统之间质量差异小时自动测量指标能优于人类判断。

May, 2021

自然语言生成的人类似评估及其误差分析

该论文介绍了一种基于 BARTScore 的人工智能评估方法，通过自动化错误分析以达到更接近人类的漏洞检测，实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。

Dec, 2022

展示你的工作并不总是有效的

本文批判性地研究了题为《Show Your Work: Improved Reporting of Experimental Results》的一篇论文，其中提到的评估指标存在偏差和使用错误假设，我们提出了一种无偏的替代方法，并通过统计模拟获得了实证证据。

Apr, 2020

来自非母语者的文本的神经机器翻译

本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性，同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。

Aug, 2018