生成文本方言鲁棒性评估

Nov, 2022

Dialect-robust Evaluation of Generated Text

Jiao Sun, Thibault Sellam, Elizabeth Clark, Tu Vu, Timothy Dozat...

TL;DR通过引入NANO的训练过程，提高了评估领域的方言鲁棒性和意识，拓展了标准度量基准，解决了南北方言差异和语义波动的问题。

Abstract

Evaluation metrics that are not robust to dialect variation make it impossible to tell how well systems perform for many groups of users, and can even penalize systems for producing text in lower-resource dialects. However, currently, there exists no way to quantify how metrics respond

发现论文，激发创造

面向任务对话的语言理解鲁棒性测试

本研究针对自然语言理解模型在实际对话系统的应用中容易出现的波动和变化问题，提出了一种模型无关的工具箱LAUG，涵盖语言变体，语音特性和噪声扰动三个方面的四种数据增强方法，揭示了现有模型中的严重鲁棒性问题，提供了一种使用LAUG生成的增强数据集来促进语言理解测试鲁棒性的方法。

Dec, 2020

RoMe: 一种稳健的自然语言生成度量标准

本文提出了一种有效的自动评估度量RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和RoMe进行了广泛的鲁棒性分析。实证结果表明，在评估多个NLG任务生成的句子方面，RoMe与人类判断的相关性比最先进的度量更强。

Mar, 2022

能否更简单地做到这一点？自然语言生成的简单、高效、高质量评估指标

本文探讨了自然语言生成的有效评估指标，以及通过使用轻量级版本的Transformer和线性、二次逼近算法来实现评估指标的高效计算，研究发现，TinyBERT在语义相似性评估指标方面表现最佳，并且在平均推理时间上比原算法要快5倍，但WMD近似计算并没有带来效率提升，反而在部分机器翻译数据集上使得质量下降。

Sep, 2022

语言模型整体评估

我们提出了综合评估语言模型(HELM)来提高人们对这一基础技术的透明度，采用多指标方法测量16个核心场景的7个指标，此外还进行了7个有针对性的评估，总结了25个高层次结论，并公开了所有模型和完成的原始数据。

Nov, 2022

TADA: 英语任务不可知的方言适配器

文中提出了一种无需特定任务监督的任务不可知方言适应方法，通过使用不同方言的适配器并将其与标准美式英语方言的特定任务适配器结合，该方法可以提高方言的鲁棒性，并在 GLUE 基准测试的 4 种方言版本上取得了良好效果。

May, 2023

评估方言机器翻译度量的基准（无标准拼写法）

评估自然语言处理中评价指标对非标准化方言的鲁棒性，发现现有指标在对瑞士德语文本生成输出的评估上存在困难，提出了增加鲁棒性的初步设计方案。

Nov, 2023

某一语言方言的自然语言处理：一项调查

该论文调查了自然语言处理中方言的重要性，描述了不同方言数据集和方法，对方言的研究超过了仅仅方言分类的工作，对构建具有公平性的语言技术有重要意义。