EMNLPOct, 2023

利用人类相似度评判修剪词向量以提高可解释性

TL;DR通过一种有监督学习方法,针对特定领域(例如运动、职业),识别出一组强烈改善人类相似度判断预测的模型特征子集,并通过两种方法解释所保留特征的语义,从而揭示了人类如何根据性别包容性和国际性来区分运动类别,以及不同领域中特征对不同语义维度的预测能力。对于职业特征而言,最能预测认知、情感和社会维度,而对于水果或蔬菜特征而言,则最能预测味觉维度。讨论了对于人工智能系统与人类知识之间的对齐的意义。