Jun, 2024

自监督可解释的基于概念的文本分类模型

TL;DR该研究论文提出了一种自监督可解释概念嵌入模型(ICEMs),通过利用大型语言模型的泛化能力,在自监督方式下预测概念标签,并通过可解释的函数提供最终预测结果。实验结果表明,ICEMs 可以以自监督方式进行训练,并达到类似于全监督概念模型和端到端黑盒模型的性能。此外,该模型在预测方面具有解释性、互动性和可控性,能够提供有意义的逻辑解释、允许通过概念干预修改中间预测结果,并引导大型语言模型按照所需的决策路径进行解码。