生成文本方言鲁棒性评估
本研究针对自然语言理解模型在实际对话系统的应用中容易出现的波动和变化问题,提出了一种模型无关的工具箱LAUG,涵盖语言变体,语音特性和噪声扰动三个方面的四种数据增强方法,揭示了现有模型中的严重鲁棒性问题,提供了一种使用LAUG生成的增强数据集来促进语言理解测试鲁棒性的方法。
Dec, 2020
本文提出了一种有效的自动评估度量RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和RoMe进行了广泛的鲁棒性分析。实证结果表明,在评估多个NLG任务生成的句子方面,RoMe与人类判断的相关性比最先进的度量更强。
Mar, 2022
本文探讨了自然语言生成的有效评估指标,以及通过使用轻量级版本的Transformer和线性、二次逼近算法来实现评估指标的高效计算,研究发现,TinyBERT在语义相似性评估指标方面表现最佳,并且在平均推理时间上比原算法要快5倍,但WMD近似计算并没有带来效率提升,反而在部分机器翻译数据集上使得质量下降。
Sep, 2022
我们提出了综合评估语言模型(HELM)来提高人们对这一基础技术的透明度,采用多指标方法测量16个核心场景的7个指标,此外还进行了7个有针对性的评估,总结了25个高层次结论,并公开了所有模型和完成的原始数据。
Nov, 2022
文中提出了一种无需特定任务监督的任务不可知方言适应方法,通过使用不同方言的适配器并将其与标准美式英语方言的特定任务适配器结合,该方法可以提高方言的鲁棒性,并在 GLUE 基准测试的 4 种方言版本上取得了良好效果。
May, 2023
通过人工引入各种程度的噪音到多样的数据集中,系统评估了大型语言模型对原始文本的变异的鲁棒性。研究结果显示,与流行观点相反,生成型大型语言模型对于文本中的噪音干扰非常稳健,并在语法错误修正(GEC)和词汇语义变化(LSC)等常见错误的基准任务上取得了新的技术水平。
Jul, 2024