Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式?
通过比较使用不同架构的神经网络在机器阅读理解中的表现,发现与人类视觉注意力较为相似的 LSTM 和 CNN 模型的性能表现显著关联,但与之性能最佳的 XLNet 模型关联性不明显,提示不同架构的神经网络的注意力策略存在差异,且神经注意力与人类注意力相似性并不代表拥有最佳表现。
Oct, 2020
该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术,该方法利用辅助损失函数引导注意力头符合自注意力特征,并可以适用于不同的预训练目标,实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好,在低资源环境中取得了业界领先结果。
Oct, 2020
该论文介绍了一种结合人机交互的流程来发现重要的任务特定的注意力模式,然后注入到原始模型和较小的模型来提高模型的准确性与效率,取得了在提取式摘要和主题分割方面显著提高的结果。
Dec, 2021
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
通过分析母语和英语学习者阅读不同语言时的眼动数据,发现个体阅读行为会影响人类和模型之间的关联性,这需要在未来的研究中被考虑进去。
Oct, 2022
基于人类行为学视角,我们探究了大型语言模型(LLMs)的预测过程和内部机制,通过将 LLMs 的值与眼动测量结果相关联,发现 LLMs 表现出与基于 RNN 的语言模型不同的预测模式。此外,随着前馈网络(FFN layers)的升级,记忆和语言知识编码的能力也逐渐提升直至达到巅峰,并转向注重理解能力。自注意力机制的功能分布在多个头部。最后,我们审查了门控机制,发现它们控制信息的流动,有些门控机制促进信息的传递,而其他门控机制则消除信息。
Oct, 2023
本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用,通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析,发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系,最深层次关注最远程的联系,并抽取了展现特定关注头目标的范例句子。
Jun, 2019
通过使用基于 Transformer 的模型结合了时空注意机制,我们研究了影响视频记忆性的语义和时间注意机制,并对一个大型自然主义视频数据集上的视频记忆性预测任务表现进行了比较。结果显示模型的注意力与人类凝视的密度图表现出相似的模式,并且模型和人类对于物体类别的关注度与记忆性得分有关。此外,该模型模仿了人类在时间上的注意力,对于初始帧更加重视。
Nov, 2023
我们提出了一种新型混合文本显著性模型 (TSM),首次将阅读的认知模型和显式的人类注视监督相结合,将 TSM 的预测与人类注视的真实数据高度相关,并提出了一种新的联合建模方法,将 TSM 的预测集成到网络的注意层中,从而实现了人类注视引导的神经注意力与 NLP 任务的结合,其在 QUora 问题对语料库的释义生成任务中优于当前技术水平的 PERFOMANCE BY MORE THAN 10% BLEU-4,并在 Google 句子压缩语料库中实现了最先进的性能,从而介绍了一种实用的方法,将数据驱动模型和认知模型之间桥接起来,并展示了将人眼引导的神经关注集成到 NLP 任务中的新方法。
Oct, 2020