TopEx: 基于主题的模型比较解释

ICLRJun, 2023

TopEx: Topic-based Explanations for Model Comparison

Shreya Havaldar, Adam Stein, Eric Wong, Lyle Ungar

TL;DR本研究提出了一种名为 TopEx 的解释方法，该方法通过使用模型无关的主题实现了对比较语言模型的公正性，并演示了如何使用 TopEx 在各种 NLP 任务上识别 DistilRoBERTa 和 GPT-2 之间的相似之处和差异。

Abstract

Meaningfully comparing language models is challenging with current explanation methods. Current explanations are overwhelming for humans due to large vocabularies or incomparable across models. We present

language models explanation methods topex distilroberta gpt-2

发现论文，激发创造

利用对比解释解读语言模型

该研究关注对语言模型的对比解释，证明对比解释在验证大型语法现象和改善对相互模拟性上是可量化地更好的，并且可以表征模型在各种语言生成决策中使用的输入令牌。

Feb, 2022

机器翻译可解释评估指标的研究

本概念论文介绍了可解释机器翻译指标的关键属性和目标，并提供了最新的基于生成模型的可解释性指标技术综合。同时，我们展望了下一代技术包括自然语言解释，并希望本文能够帮助促进和指导未来可解释评估指标的研究，同时有助于更好、更透明的机器翻译系统。

Jun, 2023

锚定相关性解释：最小领域知识主题建模

本文介绍了一种名为 CorEx 的主题建模方法，这种方法不需要假设潜在的生成模型，而是通过信息理论框架学习最大信息的主题。该框架可以自然地推广到具有层次结构和半监督扩展的情况，通过锚词，可以灵活地将单词级的领域知识纳入 CorEx，从而最小限度地促进主题的可分离性和表征。通过多种数据集、指标和实验，我们证明了 CorEx 产生的主题与无监督和半监督变体的 LDA 所产生的主题在质量上是可比较的。

Nov, 2016

ProtoTEx: 用原型张量解释模型决策

ProtoTEx 是一种基于原型网络的新型白盒 NLP 分类体系结构，其通过原型张量解释模型决策，可在处理没有代表性特征的类别时有效地处理，可精准检测网络新闻中的宣传，并通过原型解释帮助非专业人士更好地识别宣传。

Apr, 2022

关于语言模型在视觉概念语义相似度评估方面的可解释性研究

这篇研究探讨了高性能预训练语言模型的表现，并提出了一些可解释的评估指标用于理解检索实例的概念质量，并对具有明显查询语义的对抗性干预进行了测试，揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。

Sep, 2022

可解释的、话语主题感知的神经语言理解

该研究介绍了一种将主题模型与语言模型相结合的方法，扩展了语言理解的范围，通过主题进行了文档级上下文的抽取，并提出了一种可解释的主题表征，将主题语义加入到语言模型中。通过建模每个句子中的话题，保留了句子与文档主题关联，提出了一种既有隐藏话题，同时又有可解释话题的神经组合语言模型。该模型在多项任务中展现了显著提升的能力，包括语言建模、词义消岐、文档分类、检索和文本生成。

Jun, 2020

NLX-GPT：用于图像和视觉语言任务的自然语言解释模型

NLX-GPT 是一个同时能够预测并解释结果的通用、紧凑且准确的自然语言解释模型，能更好地评估困难数据和无标签的交互式自评估攻击。

Mar, 2022

Transformer 模型中的文本相似度解释

通过利用改进的解释，在语义相似性任务和模型中进行深入分析和语料库级别洞察，并使用分层相关传播（LRP）来验证结果解释的有效性，本研究探索了驱动语义相似性的特征相互作用。

May, 2024

人工智能协作生成自由文本解释的重新构架

本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务，发现高质量的提示有助于提高语言模型的生成效果，同时人类研究表明 GPT-3 生成的解释在某些情况下能够胜过人工生成的解释；作者还结合 GPT-3 与学习自评价的筛选器对生成的解释进行过滤，结果表明这一方法能够实现较高水平的解释过滤。

Dec, 2021

学习的视觉特征到文本解释

利用大型语言模型解释视觉模型的学习特征，通过训练神经网络建立图像分类器和语言模型之间的连接，生成大量的句子来解释分类器学习到的特征，并提取最频繁的词语，增强图像分类器的解释性和鲁棒性。

Sep, 2023