回归错误藏于模型中！在NLP模型更新中测量、减少和分析回归问题

May, 2021

回归错误藏于模型中！在NLP模型更新中测量、减少和分析回归问题

Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing Regressions In NLP Model Updates

Yuqing Xie, Yi-an Lai, Yuanjun Xiong, Yi Zhang, Stefano Soatto

TL;DR本研究旨在量化、减少和分析NLP模型更新中的回归误差，并通过负翻转率作为度量标准，在GLUE基准测试中展示了回归错误的普遍存在。最终，我们使用知识蒸馏训练方法，通过模型集成来降低回归错误。同时，我们根据CheckList行为测试结果分析了回归在语言现象中的分布和模型集成、蒸馏方法的有效性。

Abstract

Behavior of deep neural networks can be inconsistent between different versions. Regressions during model update are a common cause of concern that often over-weigh the benefits in accuracy or efficiency gain. This work focuses on quantifying, reducing and analyzing →

发现论文，激发创造

自然语言处理任务性能预测

本文提出了一种使用回归模型来预测NLP实验评估分数的方法，并证明了这种方法可以有效地预测NLP实验结果。同时，作者还提出这种方法可以用来确定实验的子集，以获得对所有实验设置的合理预测。

May, 2020

解读神经自然语言处理模型对文本扰动的鲁棒性

研究现代自然语言处理模型中对于不同的输入扰动如何表现更差，进而发现一个模型对于未知文本扰动的鲁棒性较低的原因是模型未很好地学习到如何识别这些扰动。

Oct, 2021

结构化预测中模型更新回归的测量和降低方法在自然语言处理中的应用

本文研究了结构预测任务中的模型更新回归问题，通过测量和分析了不同模型更新设置下的模型更新回归情况，探索和基准测试了现有的降低模型更新回归的技术，包括模型集成和知识蒸馏，并提出了一种简单有效的方法，称为“Backward-Congruent Re-ranking (BCR)”，该方法结合了结构预测的特性，比模型集成和知识蒸馏方法更好地缓解了模型更新回归问题。

Feb, 2022

探索自然语言处理中的预测不确定性和校准: 对方法和数据稀缺性影响的研究

研究在从低资源语言中采样的数据集上训练模型的情况下，通过多种方法评估和分析神经分类器的预测置信度，发现尽管使用预训练模型和集成模型可以获得最佳结果，但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析，发现模型的总不确定性在很大程度上受到数据不确定性的影响，并提供了开源的软件包。

Oct, 2022

使用自然语言补丁修复模型缺陷

通过自然语言补丁，我们能够提供正确的抽象层次，从而为 NLP 模型提供更准确的校正反馈，此任务与整合补丁信息的任务可以分开，使用少量的合成数据来教导模型，能有效地使用实际数据上应用的补丁，使用 1 至 7 个补丁可以提高情感分析数据集上 ~1-4 的准确性点和关系提取数据集上 F1 7 点的精度，最后我们展示了即使有 100 个从标签数据示例微调模型，与一组小的语言补丁相比，也需要更多的时间。

Nov, 2022

使用门控融合方法提高自然语言处理模型升级的预测向后兼容性

本文提出了一种名为“Gated Fusion”的新方法，它通过学习在旧模型和新模型之间混合预测来促进向后兼容的模型升级，实验结果表明，该方法平均降低了62%的回归错误，比最强基线平均提高了25%。

Feb, 2023

语言数据集漂移的表征与测量

本文提出三个语言数据漂移维度：词汇、结构和语义漂移，通过词频差异、句法差异和不可被词频捕捉的语义变化等度量，研究发现该方法比以前的方法更能够预测模型准确性，特别是在预测模型在测试集上的表现时。

May, 2023

合成数据训练的糟糕程度：语言模型崩溃的统计分析

模型崩溃是指在使用之前训练的模型生成的合成数据训练新模型时性能下降的现象，本文通过统计模型对各种递归训练情景的影响进行了深入研究，发现当仅使用合成数据进行训练时无法避免模型崩溃，但当混合使用真实数据和合成数据时，我们提供了在合成数据量不超过一定阈值时模型崩溃可以最终避免的估计值，我们的理论结论得到了经验验证的支持。

Apr, 2024

从词语到数字：在上下文示例中，你的大型语言模型暗自成为一种有能力的回归器

预训练的大型语言模型在给定上下文示例时，无需任何额外训练或梯度更新即可进行线性和非线性回归，发现多个大型语言模型在回归任务上的表现能与传统的监督方法如随机森林、装袋法或梯度提升相媲美甚至更好，此外，通过实证研究发现，大型语言模型的性能与上下文示例的数量具有亚线性的关系。

Apr, 2024

MUSCLE: 适用于兼容LLM进化的模型更新策略

大型语言模型的更新过程中存在模型版本兼容性和负面翻转问题，我们提出了一种评估度量和训练策略来减少模型更新中的不一致性和负面翻转。

Jul, 2024