Jul, 2024

评价自然语言处理中人机决策的解释效用

TL;DR解释性是否是一个虚假的承诺?从目前不足的证据来看,解释是否有助于人们在介绍的情况下,这场辩论已经出现。需要更多以人为中心、应用为基础的解释评估,以解决这个问题。然而,在NLP领域没有建立关于这类研究的指导方针,习惯于标准代理评估的研究人员必须找到适合人工智能团队的合适的测量、任务、数据集和合理的模型。为了帮助解决这个问题,我们首先审查了现有的度量标准。然后,我们确定了适合应用基础评估的数据集的要求。在50多个可用于解释性研究的NLP数据集中,我们发现有4个符合我们的标准。通过优化Flan-T5-3B,我们展示了重新评估最新技术水平形成和研究人工智能团队的重要性。最后,我们针对一个确定的合适任务——在给定合同的情况下验证法律主张的正确性,提出了关于人工智能决策的典型研究。