自然语言生成输出错误的低报告率问题及解决方法
本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈:缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标,我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库,我们解决了第二个问题。
Jun, 2017
本研究探讨了两种替代方法:机器翻译和文本模式提取以解决短缺的数据对自动化错误检测的影响。实验表明:人工生成的错误明显提高了对 FCE 和 CoNLL 2014 数据集的错误检测精度。
Jul, 2017
本文研究如何通过有限的人工标注数据,使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成,以提高文本纠错的准确率。实验结果表明,我们的方法可生成质量较高的人工数据集,有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。
Sep, 2018
本文研究了在语义控制机制下,语义噪声的影响及数据清洗对神经自然语言生成(NNLG)模型的改进。实验结果表明,数据清洗可以使语义正确性提高高达 97%,且保持流畅性。同时,发现常见错误是忽略信息而非虚构。
Nov, 2019
该论文介绍了一种基于 BARTScore 的人工智能评估方法,通过自动化错误分析以达到更接近人类的漏洞检测,实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。
Dec, 2022
本文批判性地研究了题为《Show Your Work: Improved Reporting of Experimental Results》的一篇论文,其中提到的评估指标存在偏差和使用错误假设,我们提出了一种无偏的替代方法,并通过统计模拟获得了实证证据。
Apr, 2020
本研究研究神经机器翻译系统中的数据噪声问题以及如何通过增加包含人工引入的语法错误句子的训练数据来提高其对错误的鲁棒性,同时提出了一套用于测试神经机器翻译在处理语法错误上的 JFLEG 语法纠错语料库的西班牙语翻译。
Aug, 2018