模型评估和自动可解释性的鲁棒性探索

Nov, 2023

模型评估和自动可解释性的鲁棒性探索

Exploring the Robustness of Model-Graded Evaluations and Automated Interpretability

Simon Lermen, Ondřej Kvapil

TL;DR通过对语言模型进行评估，我们发现其在不同数据集中，包括新的虚假评估中，对评估注入的改变非常敏感。类似的注入也可用于自动的解释性框架，以产生误导性的模型编写解释。这些结果激发了进一步的研究，并应该警告我们不要对评估和自动解释过度信任。

Abstract

There has been increasing interest in evaluations of language models for a variety of risks and characteristics. evaluations relying on na

language models evaluations robustness injections interpretability frameworks

发现论文，激发创造

短文、多语言、多类型答案的可信自动评分

本研究使用由 10 million 問題 - 答案組成的大型多語言數據集，展示了對 Transformer 模型的微調可以應用於複雜數據集的自動評分，並討論了評分的信任和倫理問題。透過人工介入自動評分的過程，我們展示了如何提高自動化評分答案的準確性，並實現了相當於助教的準確性。同時，我們提出了一種有效的方法讓老師控制系統出現的錯誤類型，並且有效地驗證自動評分器在個別考試上的表現接近預期的表現。

Jan, 2022

模型对模型欺骗评估

高性能语言模型的可信度在能够生成欺骗性输出时受到威胁，本研究提出了一种方法来调查复杂的模型对模型的欺骗情景，并通过创建一个包含超过 10,000 个具有误导性的解释的数据集，发现当模型阅读这些解释时，它们都被显著欺骗，令人担忧的是，所有能力的模型都能成功地误导其他人，而能力更强的模型只稍微更擅长抵抗欺骗，因此建议开发检测和防御欺骗的技术。

May, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

确立可信度：重新思考任务和模型评估

语言理解是一个多方面的认知能力，自然语言处理（NLP）领域几十年来一直致力于计算化建模。最近大型语言模型（LLMs）的出现，使得以生成模型为动力的通用性、任务无关的方法成为主流，这导致了语言任务传统上的划分不再适用，带来了对评估和分析的挑战，同时也加大了对可靠系统的需求。因此，我们主张重新思考 NLP 中任务和模型评估的涵义，并追求对语言的更全面视角，将可靠性放在核心地位。为了实现这一目标，我们回顾了现有的划分式方法，以了解模型功能能力的起源，并提出了多方面评估协议的建议。

Oct, 2023

使用模型编写的评价方法发现语言模型行为

本文研究了不同规模的语言模型的行为表现，并提出一种使用语言模型自动生成评估的方法，并发现了一些逆比例缩放情况下的新现象，例如：更大的语言模型表现为对资源获取和目标保持更浓厚的兴趣，并且此类的逆比例缩放（Inverse scaling）情况在 RL from human feedback 上也得到了验证。

Dec, 2022

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

基于 LLM 的短文本答案自动评分方法探究

通过评估大型语言模型在自动评分方面的可行性，并强调大型语言模型如何支持教育工作者验证评分程序，研究表明，虽然 “开箱即用” 的大型语言模型提供了宝贵的工具来提供补充视角，但它们对于独立自动评分的准备工作仍然是一个尚未完成的工作，需要人工监督。

Sep, 2023

语言模型可复现评估的实践经验

在 NLP 中，评估语言模型的有效性仍然是一个开放性挑战。本文通过三年的经验总结提供了对评估语言模型的指导和教训，并介绍了用于独立、可重现和可扩展评估语言模型的开源库。

May, 2024

多集合免疫接种：跨多个挑战集评估模型的稳健性

探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法，通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。

Nov, 2023

重新思考用户研究设计以评估模型解释

该研究通过一个众包实验，探讨解释机器学习模型的预测对人类是否具有帮助，并发现在给定特征系数的情况下，人们能够更有效地对线性词袋模型进行操纵，但解释对 BERT 型分类器并没有显著提高操纵能力，而通过伪造 BERT 模型的线性模型的对全局归属的解释则可以有效地操作 BERT 型模型。

Dec, 2021