亲爱的,告诉我出了什么问题”,通过合作生成实现文本鉴别模型的全球解释
本文探讨利用人类书写的样例以几乎无监督的方式创作自由文本解释的任务,发现高质量的提示有助于提高语言模型的生成效果,同时人类研究表明GPT-3生成的解释在某些情况下能够胜过人工生成的解释;作者还结合GPT-3与学习自评价的筛选器对生成的解释进行过滤,结果表明这一方法能够实现较高水平的解释过滤。
Dec, 2021
本文研究语言模型在生成自然文本时采用协同解码策略,使用三种基于Transformer 的分类器,并提供用于实验的基于 Monte Carlo Tree Search 的批量实现代码,比较它们在分类准确性、样本质量和计算性能等方面的优缺点。
Apr, 2022
TalkToModel是一个通过对话解释机器学习模型的交互对话系统,包括自然语言界面、对话引擎和执行组件,通过大量的定量和人为评估,在疾病预测任务中,73%的医护人员同意使用TalkToModel系统,85%的机器学习专业人士认为TalkToModel系统更易于使用来计算解释。这个发现表明TalkToModel比现有的系统更有效,为实践者引入了一种新的可解释性工具类别。
Jul, 2022
在机器学习中,理解分类器推荐或预测背后的推理对用户非常重要。然而,学习的模型通常太复杂,以至于人类难以理解。本文提出了一个通用框架,用于在文本领域生成反事实解释,这个框架是不限于模型、表示和领域的,并且可以随时使用。本文将任务建模为通过替换文本的各个部分来转换初始状态为分类文本的搜索问题,包括独立于领域的运算符,但也可以通过专门的运算符利用领域特定的知识。搜寻算法试图找到距离原始分类对象具有最小的基于单词级别的Levenshtein距离的互补类文本。
Nov, 2022
针对文本分类器的局部模型无关解释,提出了一种渐进逼近方法,它通过两阶段插值使用反事实来完善待解释决策的领域,从而提高了邻域质量。通过试验,证明了该方法的有效性。
Feb, 2023
本文介绍了 MaNtLE,一个模型无关的自然语言解释器,在结构化分类任务中分析多个分类器预测,并生成忠实的自然语言解释器,模拟的用户研究表明,MaNtLE 生成的解释器平均比 LIME 和 Anchors解释器忠实度高至少11%。
May, 2023
我们提出了一种方法,将人类决策的解释性文本注释引入文本分类模型,从而提高模型解释的可信度,并通过多目标优化算法在性能和可信度之间达到平衡,从而显著提高模型解释的质量。
Apr, 2024
该研究引入了基于联合提示归属的反事实解释框架XPrompt,旨在解释少数提示文本是如何共同影响大型语言模型(LLM)的完整生成,并通过定义和利用多个评估指标来展示我们框架的忠实度和效率。
May, 2024
本研究解决了机器生成文本(MGT)检测器解释质量的评估问题,首次系统地评估了不同解释方法(SHAP、LIME和Anchor)在该领域的效果。研究发现,SHAP在可信度和稳定性方面表现最佳,能有效帮助用户预测检测器的行为,而LIME尽管被用户认为最有用,但在用户预测表现上最差。
Aug, 2024