ACLApr, 2022

Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式?

TL;DR通过比较两个任务特定的阅读数据集,研究表明,大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质,而任务特定的微调不增加与人类阅读的相关性,并且通过输入减少实验给出了互补信息,表明低熵的注意向量更为可靠。