关键词human-interpretable concepts
搜索结果 - 3
- 学习可解释概念:统一因果表示学习与基础模型
通过结合因果表示学习和理解如何从数据中学习可理解概念的思想,本研究正式定义了一个概念的概念,并证明了它们可以从多样数据中被可靠地还原,合成数据和大型语言模型上的实验表明了我们统一方法的实用性。
- EMNLP基于核函数的概念抹除
本文提出一种核化线性 minimax 游戏的方法以实现对神经模型中的非线性编码概念的抹除,虽然保护措施不能转移到不同的非线性对手,因此彻底抹除非线性概念仍是一个待解决的问题。
- ICLR少样本学习的概念学习器
COMET 是一种元学习方法,通过学习沿着可解释的人类概念维度的模式知识,从而改进泛化能力,而不是学习一个联合的无结构度量空间。在各种领域中的少样本任务中,COMET 的表现优于强元学习基线,且提供模型预测背后的解释。