通过关注矩阵的拓扑分析评估变压器预测的不确定性
本文提出了一种新的方法,使得 transformer 模型具有不确定性估计能力,同时保持原始预测性能,并且理论和实验结果表明,该方法在包括文本分类在内的任务上具有最佳的预测性能和不确定性平衡
Dec, 2021
本研究介绍了一种使用拓扑数据分析的文本分类器。我们使用 BERT 的关注映射转换为关注图作为该分类器的唯一输入。该模型可以解决区分邮件的垃圾邮件和普通邮件等任务,并在某些任务上表现出优于 BERT 基线的性能。此外,我们提出了一种新的方法来减少涉及拓扑分类器的 BERT 注意力头的数量。我们的工作还显示,拓扑模型在对抗性攻击方面表现出更高的鲁棒性,这一特性在减少注意力头的过程中保持不变。据我们所知,这项工作是在 NLP 领域中首次使用基于拓扑的模型来应对对抗性攻击。
Jun, 2022
本文提出了一种适用于 Transformer 的鲁棒性验证算法,证明了其结果远优于 Interval Bound Propagation 算法,帮助理解了情感分析中不同单词的重要性。
Feb, 2020
通过引入输入相关的不确定度来学习输入不确定的实例的更大方差, 我们使用变分推断学习了不确定性感知注意力机制, 并在不同的高风险预测任务中验证了其有效性。进一步的评估表明,我们的模型生成符合临床医生解释的注意力,并通过学习方差提供更丰富的解释。
May, 2018
利用拓扑数据分析(TDA)提取 BERT 模型的可解释的拓扑特征,用于区分人工生成的文本和真实的文本,证明 TDA 对于包含表面和结构信息的 NLP 任务是具有前景的。
Sep, 2021
该文章提出了一种基于注意力的可解释性技术,可在维持模型性能和减少计算复杂度的同时提高模型的解释性。与此同时,还引入了一种更适用于 transformer 模型的忠实度度量标准,并在七组数据集中进行了定量和定性实验验证其实用价值。
Sep, 2022
本文提出两种方法 —— 注意力展开和注意力流 —— 用于近似计算相对于输入令牌的注意力权重,以解决在 Transformer 模型中,由不同令牌产生不同的信息流动混合,使得注意力权重不可靠作为解释探针的问题。与原始注意力相比,这两种方法均具有更高的输入梯度基于消融法重要性评分相关性。
May, 2020
本文中我们为不确定性检测开发了注意力机制的神经网络,引入外部注意力和序列保持注意力等新的架构,并通过多个注意力维度与其他配置进行了比较。这些新的架构在一个 Wikipedia 基准数据集上取得了新的 state-of-the-art,在使用大量语言特征的生物医学基准测试中与现有技术相似。
Dec, 2016
这篇研究提出了一种方法,通过基于梯度的确定性估计来解决视觉问答任务,进一步利用这些估计来获得可视化的注意力图,从而提高深度学习模型的确定性估计和解释能力,并在各项标准基准测试中提供实证分析及与现有方法的比较
Jan, 2020
通过利用 Transformer 模型来捕捉不同测量结果之间的相关性,本研究提出了一种基于注意力机制的量子状态重构方法,能够高效地恢复纯态和混合态的密度矩阵。
May, 2023