使用有意义对照实验的交互式 LLMs 分析

Apr, 2024

使用有意义对照实验的交互式 LLMs 分析

Interactive Analysis of LLMs using Meaningful Counterfactuals

Furui Cheng, Vilém Zouhar, Robin Shing Moon Chan, Daniel Fürst, Hendrik Strobelt...

TL;DR生成完整且有意义的文本反事实示例的新算法以及交互式可视化工具，用于分析和解释 LLMs。

Abstract

counterfactual examples are useful for exploring the decision boundaries of machine learning models and determining feature attributions. How can we apply counterfactual-based methods to analyze and explain llms?

counterfactual examples llms algorithm interactive visualization tool grammatical correctness

发现论文，激发创造

大型语言模型作为反事实生成器：优缺点

本研究探究了大型语言模型（LLMs）进行反事实生成和数据增强的能力，发现 LLMs 很有效的进行反事实生成，但因为自身限制和缺少实用逻辑指导，在某些复杂任务上表现欠佳。提供准确的任务定义和详细的操作步骤对于在 LLMs 中生成反事实具有决定性影响。同时，研究还证明了 LLMs 可能在缺乏合理演示的情况下生成合理的反事实，说明演示主要用于规范输出格式。因此，基于 LLMs 进行数据增强来增强 SLMs 是一种非常有前景的研究和应用方向。

May, 2023

基于零样本下的零模型向导的文本反事实生成

通过全面的自然语言处理（NLP）下游任务中的实验证明，最近大型语言模型（LLMs）作为零 - shot 反事实生成器在评估和解释黑盒 NLP 模型方面具有高效性。

May, 2024

用于生成和评估逆事实的 LLMs：一项全面研究

NLP 模型生成反事实样本的能力及其对数据增强的影响进行了比较和评估，发现 LLMs 生成流利但改动较大的反事实样本，数据增强效果与人工生成的样本相比有明显差距。此外，LLMs 对偏标签数据的评估表现出明显的偏向性，而 GPT4 对此偏见更加稳健，并且其得分与自动评价指标具有很好的相关性。研究结果揭示了几个限制，并指出了未来的研究方向。

Apr, 2024

柔性文本生成用于反事实公平探究

本文介绍了一种使用大型语言模型生成对抗样本的方法，该方法克服了现有方法的局限性，能够产生复杂的对抗样本，并在 Civil Comments 数据集上比较了各种方法的性能和价值，并展示了其在评估毒性分类器方面的价值。

Jun, 2022

语言模型作为反事实解释模块：ChatGPT 能否解释黑盒文本分类器？

使用大型语言模型作为反事实解释模块，通过提取潜在特征生成可解释黑盒文本分类器的决策的对策性解释。通过评估多个具体度的框架变体，显示了在不同设置下这些模型的性能差异，其中一种基于两步特征提取的变体在大多数情况下表现最好。该流程可用于自动解释系统，潜在地减少人工工作量。

Sep, 2023

利用生成的 LLM 的反事实文本来解释黑盒 NLP 模型

解释自然语言处理系统预测的因果解释对于确保安全性和建立信任至关重要，本文提出了两种针对模型无关性的倒因果估算方法，分别基于生成和匹配，并通过实验证明了生成模型和匹配模型在模型解释方面的出色性能。

Oct, 2023

CLOMO：大型语言模型的反事实逻辑修改

大型语言模型在反事实推理能力方面表现出较强的潜力，但目前仍存在与人类表现之间的差距。

Nov, 2023

CausaLM：通过反事实语言模型解释因果模型

文章提出了 CausaLM 框架，基于 fine-tuning 的 deep contextualized embedding models 通过辅助对抗性训练任务，学习给定概念的反事实表示，用于估计其对模型性能的真实因果效应。我们的方法的副产品是一种语言表示模型，可以减轻数据中固有的不良偏差。

May, 2020

借助因果推理增强语言理解

本研究提出了反事实推理模型，在学习少量反事实样本的基础上，通过生成对于每个正面事实样本的代表性反事实样本，并使用回顾模块根据对比反事实和正事实样本来检查模型预测，从而模拟对于困难测试样本的人类反事实思维。该方法在情感分析和自然语言推理方面的广泛实验验证了其有效性。

Jun, 2021

文本分类的任意生成对抗解释

在机器学习中，理解分类器推荐或预测背后的推理对用户非常重要。然而，学习的模型通常太复杂，以至于人类难以理解。本文提出了一个通用框架，用于在文本领域生成反事实解释，这个框架是不限于模型、表示和领域的，并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题，包括独立于领域的运算符，但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的 Levenshtein 距离的互补类文本。

Nov, 2022