自然语言处理模型面临嘈杂输入的有限环境索引化
本研究提出了一种新的训练框架,通过直接模拟自然 OCR 噪声并从大量的模拟样本中迭代挖掘难样本来提高模型性能,实验表明该框架大大提高了预训练模型的鲁棒性,可以在实际场景下极大地促进 NLP 模型的应用。
Jul, 2021
使用细粒度的可行操作反馈,基于学习的错误定位模型预测的错误类型、错误位置和严重程度,提出了 FITO(一种推理时间优化方法)来进行迭代改进,通过一个生成改进输出的改进模型,迭代地结合反馈。我们在三个文本生成任务上进行了实验,包括机器翻译、长篇问答(QA)和主题摘要,在单次迭代的改进中,中英翻译和英德翻译分别观察到 0.8 和 0.7 的 MetricX 增益,问答和主题摘要分别观察到 4.5 和 1.8 的 ROUGE-L 增益。通过我们的模拟退火算法,我们看到进一步的质量改进,包括与基准方法相比高达 1.7 的 MetricX 改进。
Nov, 2023
通过自然语言处理技术,对长文本数据进行自动摘要,采用数据增强和微调等策略进行优化,可以大幅提高摘要的准确性,本文采用最先进的 NLP 模型 BART 进行研究,并提供了一种端到端的优化策略,使得在金融、医疗或其他特定领域的数据上,其 ROUGE-1 指标达到了绝对提升 5-6% 的水平。
Apr, 2022
本文介绍了一个大型实证研究,量化了不同类型噪声的严重性损失,以及提出的一种轻量级方法,用于检测和消除模型推理中的输入噪声,有效地缓解了性能降低。
Dec, 2022
本文提出了一种利用拼写信息和全局上下文信息共同解决自然语言处理中拼写纠错问题的简单、有效方法,即通过改进预训练语言模型的微调,将拼写纠错看作一个序列标注任务,并在此基础上显著提升之前最先进结果 12.8% 的 F0.5 评分。
Nov, 2020
本文提出了一种通过 Context-Enhanced Reconstruction(CER)方法提高神经机器翻译(NMT)在噪音输入下的稳健性的方法,该方法包括通过引入人造干扰词破坏自然性来抵制噪声,并通过提供更好的上下文表示来防止噪声传播。在中英文翻译和法英文翻译任务上的实验证明本方法能够提高新闻和社交媒体文本的稳健性,并且在社交媒体文本上的进一步微调实验表明该方法可以收敛到更高的位置并提供更好的适应性。
Apr, 2021
提出了 FILCO 方法,通过词汇和信息论方法识别有用的上下文,并训练上下文过滤模型以改善生成模型的质量,从而在提取式问答、复杂多跳和长篇问答、事实验证和对话生成任务上优于现有方法。
Nov, 2023
我们研究了最先进的 NLI 模型是否能够覆盖部分输入基线所做出的默认推断,并引入一个由紊乱的前提组成的评估集来检查 RoBERTa 模型对编辑内容的敏感性。我们的结果表明,尽管训练数据集存在技术性问题,但 NLI 模型仍然能够学习到依赖于上下文的条件和推理能力。
May, 2022
通过重新制定微调期间的输入,利用预训练模型在新颖的方式下发挥其优势,无需额外收集训练数据或在推理时修改数据,这些简单的数据级别修改方案在单语言对翻译任务或大规模多语言翻译任务中都可以应用,实验证明这些技术在 Flores200 翻译基准测试中实现了显著的性能提升达到 3.5 chrF++。我们希望通过提高微调数据效率的可访问性,使训练更加有效,以达到可扩展改进的最新性能水平。我们的代码在此处发布
Nov, 2023
我们研究了在现实世界中输入文本可能有噪音或不同于 NLP 系统训练数据分布的情景,通过各种类型的字符级和单词级扰动方法来模拟这种情况,发现语言模型对输入扰动非常敏感,即使引入了很小的变化,其性能也会下降,需要进一步改进模型并对扰动输入进行评估以更加真实地了解 NLP 系统的鲁棒性。
Aug, 2021