为什么强大的自然语言理解很具挑战性
本篇论文总结了近年来自然语言处理 (NLP) 的抗干扰性研究,并就技术、度量标准、嵌入、基准等维度深入探讨了该领域中存在的问题和待解决的方向。
Jan, 2022
本研究针对自然语言理解模型在实际对话系统的应用中容易出现的波动和变化问题,提出了一种模型无关的工具箱 LAUG,涵盖语言变体,语音特性和噪声扰动三个方面的四种数据增强方法,揭示了现有模型中的严重鲁棒性问题,提供了一种使用 LAUG 生成的增强数据集来促进语言理解测试鲁棒性的方法。
Dec, 2020
通过总结现有领域进展,本文试图提炼和评估自然语言处理(NLP)验证流程的一般组成部分并分别给出了两个贡献,首先是针对将句子嵌入连续空间引起的语义一般化技术挑战,提出了一个有效的解决方法作为 NLP 验证流程的标准度量标准之一;其次是针对几何子空间验证和其所代表的句子语义之间的差异提出了一般性的分析方法,并提出了众多实用的 NLP 方法来识别嵌入空间差异的影响,并倡导以语义子空间可伪造性作为 NLP 验证流程的另一个基本度量标准,我们相信这些通用原则共同为这一新领域的更加巩固和有效的发展铺平了道路。
Mar, 2024
本论文简要概述了提高计算机视觉模型稳健性的最新技术,以及用于评估模型性能的常用鲁棒性基准数据集,并审视了所审查方法的优点和局限性,鉴别了深度学习稳健性改进的一般趋势。
May, 2023
通过基于正则化的方法,限制深度神经网络对其输入的敏感性,从而学习出更加鲁棒的模型,实验表明这种方法在情感分析方面具有优秀的性能,尤其在处理有噪声和跨领域数据时,胜过基线模型和 dropout 方法。
Sep, 2016
本论文提出了新方法来研究自然语言处理(NLP)任务中表征模型和数据不确定性的好处,通过在卷积和循环神经网络模型上的实证实验,展示了明确建模不确定性不仅有利于测量输出置信水平,而且对于提升各种 NLP 任务中的模型表现也是有用的。
Nov, 2018
研究现代自然语言处理模型中对于不同的输入扰动如何表现更差,进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。
Oct, 2021
提出了一种基于理解的机器阅读理解模型,通过自然语言推理模型、多头注意力方法以及多语言学习机制解决了过度敏感、过度稳定和泛化能力等问题,实验结果表明其在 DuReader 和两个 SQuAD 相关数据集上表现优异。
Jul, 2022
3D-VL 模型面临语言输入样式的敏感性,本研究通过提出一个语言鲁棒性任务和设计 3D 语言鲁棒性数据集评估现有模型的性能,在各种 3D-VL 任务中发现所有模型性能显著下降。现有模型存在脆弱和偏置的融合模块,缺乏多样性的现有数据集是其根源,最后通过由 LLM 驱动的无需训练模块来提高语言鲁棒性。
Mar, 2024
本文提出了一种用于验证神经网络鲁棒性的新算法 Charon,并通过实验评估其在数百个基准测试中显著优于 AI^2,Reluplex 和 Reluval 等三种最先进的工具。
Apr, 2019